Você está na página 1de 173

Estatstica e

Probabilidades
Brulio Roberto Gonalves Marinho Couto
Janana Giovani Noronha de Oliveira
Octvio Alcntara Torres
Reinaldo Carvalho de Morais

Brulio Roberto Gonalves Marinho Couto


Janana Giovani Noronha de Oliveira
Octvio Alcntara Torres
Reinaldo Carvalho de Morais

ESTATSTICA E PROBABILIDADES

Belo Horizonte
Junho de 2015

COPYRIGHT 2015
GRUPO NIMA EDUCAO
Todos os direitos reservados ao:
Grupo nima Educao
Todos os direitos reservados e protegidos pela Lei 9.610/98. Nenhuma parte deste livro, sem prvia autorizao
por escrito da detentora dos direitos, poder ser reproduzida ou transmitida, sejam quais forem os meios
empregados: eletrnicos, mecnicos, fotogrficos, gravaes ou quaisquer outros.
Edio
Grupo nima Educao
Vice Presidncia
Arthur Sperandeo de Macedo
Coordenao de Produo
Gislene Garcia Nora de Oliveira
Ilustrao e Capa
Alexandre de Souza Paz Monsserrate
Leonardo Antonio Aguiar
Equipe EaD

CONHEA

CONHEA

Brulio Roberto Gonalves Marinho Couto

Janana

doutor em Bioinformtica, mestre em Cincia

mestre em Estatstica e graduada

da Computao, especialista em Estatstica,

em Licenciatura em Matemtica com

bacharel em Engenharia Qumica e tcnico

Habilitao em Fsica. Possui experincia

em Qumica. Atuante nas reas de Estatstica,

como docente na rea de Matemtica

Clculo Numrico, Informtica em Sade,

Epidemiologia Hospitalar e Bioinformtica.

mdio. Experincia com orientao de

Professor do Centro Universitrio de Belo

Monografias.

O AUTOR

Horizonte (UniBH).

A AUTORA

Giovani

Estatstica

do

Noronha

Ensino

de

Oliveira

superior

CONHEA

CONHEA

Octvio Alcntara Torres bacharel em

Reinaldo Carvalho de Morais mestre

Estatstica e mestre em Demografia. Possui

e bacharel em Administrao Pblica,

experincia nas reas de probabilidade e

graduado em Estatstica e especialista

estatstica, regresso e correlao, anlise

em Gesto Financeira. Possui experincia

estatstica multivariada e controle estatstico

em pesquisas sobre economia e finanas

de processo. reas de interesse: projees

pblicas mineiras, bem como docncia nas

populacionais, projees de mo de obra

disciplinas de estatstica, de economia,

qualificada, pesquisa de mercado, estatstica

de engenharia econmica, de matemtica

aplicada.

financeira e de administrao da produo.

O AUTOR

O AUTOR

APRESENTAO

DA DISCIPLINA
Egressos de cursos de Engenharia e

A ideia usar ferramentas como o Excel

Tecnologia so profissionais que resolvem

para construir tabelas e grficos, como

problemas. E como isso ocorre? Pela

histograma, diagrama de disperso, Pareto

aplicao eficiente do mtodo cientfico.

e calcular valores como mdia, mediana,

Pois bem, disso que se trata essa

desvio padro, e coeficiente de variao.

disciplina:

ferramentas

Na Unidade 3 so introduzidos conceitos

estatsticas que possibilitaro a voc

bsicos de probabilidades, cruciais para

transformar-se

em

que se entenda o processo de tomada

qualquer rea do conhecimento e, portanto,

de deciso na presena de incerteza. A

apto a resolver problemas. A disciplina

Unidade 4 uma continuao da terceira

dividida em oito unidades cujo objetivo

unidade, so apresentados os modelos

introduzir o aluno na rea da Estatstica

probabilsticos mais importantes para se

e Probabilidades, tornando-o capaz de

modelar problemas de pequeno e mdio

planejar e de executar experimentos de

porte na rea de Engenharia e Tecnologia.

apresentar
num

especialista

pequeno e mdio porte nas reas de


Cincias Exatas e de Engenharia. Alm de

A partir da Unidade 5 caminhamos para

fazer a anlise exploratria dos dados e de

a rea nobre da Estatstica, que envolve

realizar inferncias, por meio da tomada de

as inferncias, isto , o processo de

deciso na presena de incerteza.

generalizao

de

resultados

parciais,

observados em amostras, para toda a


definies

populao envolvida num problema. Nessa

fundamentais para a correta compreenso

unidade discutida a forma de obter os

do processo de coleta e de anlise de dados.

intervalos de confiana, tanto para mdia

Conceitos sobre populao e amostra,

quanto para proporo. Na Unidade 5

censo e amostragem, e variveis so

discute-se, por exemplo, como o resultado

discutidos nessa unidade. A Unidade 2 trata

de uma pesquisa eleitoral calculado e o

da anlise exploratria de dados, quando

significado do intervalo definido pela soma

so apresentadas tcnicas de Estatstica

e subtrao de uma margem de erro.

Unidade

Descritiva.

apresenta

objeto

dessa

unidade,

bastante intuitiva, trabalhar a sntese

A Unidade 6 voltada para o planejamento

numrica, grfica e tabular dos dados.

de experimentos, quando apresentado,

por exemplo, como calcular o tamanho


de uma amostra. Em alguns livros este
item colocado na primeira unidade, o
que tem certa lgica por tratar da coleta
de dados, primeira etapa de qualquer
anlise estatstica. Entretanto, como so
necessrios conceitos probabilsticos e de
inferncia para entender o planejamento
de experimentos, optamos por colocar
essa unidade logo aps a discusso sobre
intervalos de confiana.
As Unidades 7 e 8 fecham a disciplina,
apresentado as ferramentas mais teis
para que voc finalmente se transforme
num especialista em uma rea qualquer e,
portanto, realmente apto a resolver seus
problemas. Na Unidade 7 so discutidos
os mtodos para fazer e interpretar testes
de hipteses, num contexto uni variado
e, na Unidade 8, discute-se mtodos de
correlao e regresso, introduzindo a
anlise multivariada.
Ao longo das oito unidades, procuraremos
apresentar

uma

abordagem

baseada

em PPL Aprendizagem Baseada em


Problemas,

alm

de

usarmos

como

ferramentas computacionais o Microsoft


Excel e o software de domnio pblico,
EpiInfo.
Bom trabalho!
Brulio, Janana, Octvio e Reinaldo.

UNIDADE 1 
Introduo Estatstica 
Conceitos bsicos
O papel das variveis numa base de dados: identificao,
auxiliares, variveis explicativas e varivel reposta (desfecho)
Tipos de varives
Uso do excel como um sistema de gerenciamento de dados
e dos formulrios do google docs para coleta de informaes
Reviso

003
004
006

UNIDADE 2 
Anlise exploratria de dados 
Sntese grfica de dados 
Sntese tabulador de dados 
Sntese numrica de dados
Reviso

019
020
021
038
038
048

UNIDADE 3 
Introduo teoria de probabilidades 
Probabilidade clssica e probabilidade frequentista 
Leis bsicas de probabilidade
Unio e interseo de eventos
Tabelas de contigncia
Eventos independentes
Teorema de Bayes
Reviso

049
050
053
053
054
056
057
058
061

UNIDADE 4 
Modelos probabilsticos 
Varieaveis aleatrias 
Modelos probabilsticos
Distribuio binomial
Distribuio Poisson
Distribuio normal
Reviso

063
064
065
071
071
072
072
076

010
013
015
017

UNIDADE 5
Estimao de mdias e propores 
Teorema central do limite 
Estimao pontual e por intervalos de confiana para uma
mdia populacional 
Estimao pontual e por intervalos de confiana para uma
proporo populacional
Uso do excel no clculo de intervalos de confiana para
mdia e proporo
Introduo ao programa Epiinfo
Reviso

077
078
079

UNIDADE 6
Planejamento de experimentos 
Clculo de tamanho de amostra baseado em intervalos
de confiana para uma proporo 
Clculo de tamanho de amostra baseado em intervalos
de confiana para uma mdia 
Planejamento de experimentos
Reviso

098
099

UNIDADE 7 
Testes de hipteses 
A construo e o significado de uma hiptese estatstica 
Testes para uma amostra 
Testes para duas ou mais amostras
Reviso

115
116
117
118
133
137

UNIDADE 8 
Anlise de correlao e regresso 
Anlise de correlao 
Regresso linear simples 
Regresso linear mltipla
Reviso

139
140
141
149
157
160

082
089
091
094
095

100
103
106
113

REFERNCIAS117

INTRODUO

ESTATSTICA

odemos entender o mtodo estatstico como um processo para obter, apresentar e


analisar caractersticas ou valores numricos, identificando padres que possibilitam
a tomada de deciso em situaes de incerteza. Pode acreditar, se voc aplicar o

mtodo estatstico para a anlise e soluo de problemas, muito rapidamente se tornar um


especialista de qualquer rea do conhecimento! Num mundo real, completamente cercado
de incertezas, ser capaz de identificar padres de comportamento de pessoas, projetos,
produtos, servios, etc pode transform-lo num mago.

Entretanto, antes de voc transformar-se num mago, necessrio um entendimento


adequado do mtodo estatstico, que tem suas armadilhas. Costumo dizer que Estatstica no
Matemtica... muito mais difcil. Na verdade, Estatstica uma das reas da Matemtica
que, por sinal, a Cincia cuja aplicao no mundo real possibilitou ter uma vida incrivelmente
confortvel. Bom, quando afirmo que Estatstica no Matemtica, quero dizer que, na
Matemtica que voc aprendeu no Ensino Fundamental e Mdio, os problemas tm usualmente
uma nica forma de serem resolvidos e devem todos chegar ao mesmo resultado (uma nica
resposta correta). Na Estatstica, os problemas tm vrias formas de serem resolvidos, podem
chegar a resultados diferentes e todos esto corretos! Isso ocorre porque a Estatstica requer
a habilidade de considerarmos as coisas dentro de uma perspectiva probabilstica, o que vai
completamente contra a conceituao usual dos problemas em simplesmente certo ou errado.
No buscaremos a verdade absoluta, mas padres de comportamento que nos possibilitaro
tomar decises com alto grau de confiana.

004

unidade 1

ESTATSTICA E PROBABILIDADES

Para melhor entendermos o que ser discutido, o mtodo estatstico ser dividido em quatro
grandes reas:
1) amostragem e coleta de dados;
2) anlise exploratria de dados (estatstica descritiva);
3) teoria de probabilidades;
4) deciso na presena de incerteza (inferncia).
A ideia por trs dessa unidade levar at voc o conhecimento fundamental que lhe permitir
entender a coleta de dados. Estudaremos conceitos fundamentais de Estatstica, questes
simples, mas essenciais para que tenhamos sucesso nas outras etapas do mtodo estatstico,
que sero discutidas nas prximas unidades. Estes so os objetivos da Unidade 1:
a) apresentar conceitos bsicos de Estatstica e Probabilidades;
b) identificar as funes e os principais tipos de dados e de variveis;
c) identificar e corrigir problemas de dados faltantes (missing);
d) configurar o Excel como instrumento de coleta de dados;
e) entender o sistema de endereamento de clulas do Excel.
f) construir formulrios de coleta de dados no Google Docs;
g) enviar formulrios de coleta de dados por meio de mala direta.
crucial que voc entenda os conceitos que sero discutidos nessa unidade. Sem o
entendimento do que seja, por exemplo, uma varivel, o seu tipo e a sua funo na base de
dados, no h como voc ser feliz nas outras etapas do processo!

005

unidade 1

ESTATSTICA E PROBABILIDADES

CONCEITOS

Entretanto, a cozinheira sabe que para fazer

BSICOS

inferncias vlidas, deve tomar cuidado


para no trabalhar com amostras viciadas.

Voc sabe o que populao? E

E o que seria isso?

amostra? Vejamos o exemplo a seguir.


Se ela retirar uma amostra somente da
Vamos supor que uma cozinheira esteja

parte de cima da sopa, muito provavelmente

preparando dois litros de sopa.

ter uma amostra viciada, isto , sem


representantes de todos os componentes
da sopa como um todo que, neste caso, a

Como ela sabe se a sopa est temperada?

populao amostrada.
Os dois litros de sopa formam a populao
e, se a cozinheira comer/provar toda a sopa,

como

ela

retira

uma

amostra

estar fazendo um censo, o que geraria um

representativa da sua populao (sopa)?

absurdo do tipo , a sopa estava tima!.

Como a cozinheira procede para obter uma


amostra com representantes de cada

A cozinheira sabe que em experimentos

estrato da sopa?

baseados em ensaios destrutivos, quando


a prpria anlise destri o dado coletado, o

Simples, ela mistura a sopa fazendo uma

censo um absurdo. Na verdade, ela sabe

homogeneizao e sorteia uma poro/

que censos, de modo geral, so inviveis,

pitada que ser usada no seu processo

muito caros e/ou muito demorados. Mais

decisrio.

ainda, ela sabe que se usar uma pequena

aleatria, a cozinheira sabe que ter

amostra cuidadosamente retirada, chamada

grande chance de trabalhar com amostras

amostra

representativas.

representativa,

poder

tomar

Fazendo

uma

amostragem

decises sobre toda a populao envolvida


no problema com um alto grau de confiana.

Podemos agora resumir esses conceitos.

A cozinheira ento retira uma pequena

Populao:

amostra, uma pitada da comida, prova-a


e generaliza o resultado para toda a sopa.

a) consiste na totalidade das unidades de


observao a partir dos quais ou sobre

Isso chamado de inferncia: tomar

os quais deseja tomar uma deciso;

decises sobre toda uma populao com


base em informaes parciais de uma

b) conjunto de elementos que formam o


universo do nosso estudo e que so

amostra (veja a FIGURA 1).

006

unidade 1

ESTATSTICA E PROBABILIDADES

b) gases, lquidos e alguns slidos em

passveis de serem observados;


c) conjunto de indivduos sobre os quais
recairo todas as generalizaes das

que as suas unidades no podem ser


identificadas e contadas.

concluses obtidas no estudo;


d) usualmente, as unidades de observaes
so pessoas, objetos ou eventos;

Amostra:

conjunto

de

unidades

selecionadas de uma populao, ou seja,


uma parte dos elementos da populao.

e)  o universo a ser amostrado;


f) do ponto de vista matemtico, a populao

definida

como

um

conjunto

de

elementos que possuem pelo menos uma


caracterstica em comum (SILVA, 2001).

em miniatura da populao, exatamente


como ela , somente menor. A amostra
representativa segue o modelo populacional,
tal que suas caractersticas importantes

Populao finita: o nmero de unidades de


observao pode ser contado e limitado.
Exemplos:
a) alunos

Amostra representativa: uma verso

so distribudas similarmente entre ambos


os grupos.
Unidade amostral: a menor parte distinta

matriculados

na

disciplina

de uma populao, identificvel para fins de


seleo e construo da amostra.

Estatstica e Probabilidades;
b) todas as declaraes de renda recebidas
pela Receita Federal;

Amostra aleatria: aquela obtida por meio


de um processo de sorteio ou aleatorizao.

c) todas as pessoas que compram telefone


Amostra viciada: aquela que representa

celular num determinado ano;

apenas parte da populao, no possuindo

d) um lote com N produtos.


Populao

infinita:

elementos
quantidade

de

unidades de observao ilimitada, ou


a sua composio tal que as unidades
da populao no podem ser contadas.
Exemplos:

todos

os

estratos

ou

subconjuntos que formam a populao


como um todo.
Censo: exame de todas as unidades de
observao de uma populao. Como
discutido no exemplo da cozinheira, se

a) conjunto de medidas de determinado


comprimento;

de

a pesquisa envolve ensaio destrutivo, o


censo invivel. Na verdade, somente se a

007

unidade 1

ESTATSTICA E PROBABILIDADES

populao alvo for pequena razovel observ-la por inteiro, atravs do censo, pois mesmo
quando viveis, censos so caros e demorados. Outros exemplos de ensaios destrutivos, nos
quais impossvel aplicar censo: pesquisa sobre a fora de trao de um lote de barras de
ao para construo; pesquisa sobre contaminao de soro fisiolgico em um lote; testes de
resistncia e durabilidade de um lote de concreto; tempo de pega de um lote de cimento.
Amostragem: processo pelo qual uma amostra de unidades da populao retirada e
observada. a parte mais importante do processo de pesquisa. O principal e fundamental
objetivo de qualquer plano de amostragem selecionar a amostra, de tal maneira que ela
retrate fielmente a populao pesquisada.
FIGURA 1 - Populao alvo, populao amostrada e amostra

Populao alvo do estudo

Inferncia

Populao
amostrada

Amostra

Fonte: Elaborado pelo autor.

Inferir significa generalizar resultados de uma amostra para toda a populao.


Por que usar amostras? Por que no incluir no estudo todos os indivduos da populao?
A amostragem deve ser usada porque torna o processo eficiente e preciso. E ela
eficiente, uma vez que o recurso que poderia ser despendido na coleta de dados
desnecessrios de um grande nmero de indivduos pode ser gasto em outra atividade,
como na monitorao da qualidade da prpria coleta dos dados. As amostras, por serem
menores que a populao, podem ser estudadas mais rapidamente que censos e so
tambm mais baratas. Alm disso, se o processo de amostragem gerar uma amostra
representativa da populao alvo do estudo, os resultados observados podero ser
generalizados, sem risco de chegar a uma concluso diferente daquela que seria obtida
se trabalhar com toda a populao.

008

unidade 1

ESTATSTICA E PROBABILIDADES

Vejamos

agora

alguns

selecionadas aleatoriamente no

aspectos

territrio brasileiro?

relevantes para o campo da amostragem.


So eles:
Questes da amostragem: Qual
o tamanho da amostra? Como
a amostra ser obtida? Como
garantir que a amostra obtida
seja representante da populao
objeto do estudo? A questo mais
importante no o seu tamanho,

No entanto, essa no uma questo


muito

importante

para

obtermos

tamanho da amostra adequada para


uma pesquisa, visto que necessrio
estudarmos

alguns

conceitos

probabilsticos, que sero apresentadas


somente nas prximas unidades.

mas como a amostra ser obtida,


pois a amostragem mal feita

IMPORTANTE

invalida qualquer pesquisa.


Tamanho da amostra (n): est
relacionado ao total de unidades

A maioria das pessoas, quando questionadas

amostradas, usadas no processo

sobre qual o tamanho da amostra necessria

de

que

para uma pesquisa, tem o raciocnio equivocado

voc esteja curioso em relao

de que o tamanho da amostra (n) tem relao

ao tamanho da amostra, mas,

direta com o tamanho da populao amostrada

como

(N).

inferncia.

citado

Imagino

anteriormente,

Inevitavelmente, a maioria das pessoas

esta no de longe a questo

afirma erroneamente que uma boa amostra deve

mais importante. Por exemplo,

conter pelo menos, digamos, 30% da populao.

mais

O que a cozinheira diria disto? Para provar dois

pesquisa

litros de sopa, quanto de amostra ela teria que

sobre a aceitao (ou no) do

avaliar? Isso mesmo, uma pitada. E para provar

aborto por parte da populao

400 litros de sopa, ela beberia um prato inteiro?

brasileira: resultados de pesquisa

No. Ela provar a mesma pitada, pois sabe que, o

realizada no domingo noite por

mais importante nesse processo inferencial no

uma emissora de TV, envolvendo

o tamanho da amostra, mas provar uma amostra

milhes de pessoas que, aps

no viciada, representativa de toda a sopa.

que

voc

credibilidade

que
numa

teria

assistirem a uma reportagem


sobre o assunto, responderam

Voltando aos processos de amostragem,

pesquisa; ou resultados de

as amostras podem ser classificadas em

uma amostra de 2.500 pessoas

probabilsticas e no probabilsticas:

009

unidade 1

ESTATSTICA E PROBABILIDADES

Amostra probabilstica:

que fossem analisados tal percentual de

- existe uma garantia, em termos de

indivduos da populao, no o tamanho

probabilidade, de que qualquer membro

que

garante

representatividade

da

da populao possa ser selecionado para

amostra, mas a forma com ela obtida.

amostra.

a imparcialidade do processo de seleo


dos seus elementos e a homogeneidade

Amostra no probabilstica:

da distribuio das caractersticas da

- os elementos da amostra no so

amostra e da populao que garantem a


representatividade da amostra.

escolhidos por meio de um sorteio.


CARVALHO e COUTO (2003) apresentam
as principais caractersticas de tipos de
amostragem mais comuns, relacionados
principalmente com pesquisas de survey.
Outras amostras, por exemplo, amostragem
de minrio, de solo, de gases e de lquidos
tm procedimentos prprios que buscam,
em ltima instncia, obter amostras que
sejam representativas de cada populao
envolvida. Em suma, qualquer que seja o

O PAPEL DAS VARIVEIS


NUMA BASE DE DADOS:
IDENTIFICAO,

AUXILIARES,
VARIVEIS
EXPLICATIVAS E
VARIVEL REPOSTA
(DESFECHO)

esquema de amostragem, probabilstico ou

O primeiro passo de qualquer processo

no, deve-se sempre garantir que a amostra

estatstico a coleta de dados. Portanto,

reflita as caractersticas da populao da

tudo o mais ser alicerado sobre o que

qual foi retirada.

for coletado. Sendo assim, essa fase deve


ser cuidadosamente planejada, j que da
qualidade dos dados coletados depender

LEMBRE

toda a anlise e a tomada de deciso


subsequente.

Conforme discutido anteriormente, algumas


pessoas acreditam que uma amostra
representativa necessria coletar dados
de um percentual mnimo da populao,
digamos, 30% do total de indivduos. Isso
absolutamente falso e, o que pior, mesmo

Antes da coleta de um dado, importante


entender o conceito de varivel que est
por trs da informao que voc procura.
A varivel contm a informao que voc
quer analisar, sob a forma de uma medio
sobre determinadas caractersticas dos

010

unidade 1

ESTATSTICA E PROBABILIDADES

indivduos estudados e das unidades de

O grau de variabilidade de uma varivel

observao.

chave no mtodo estatstico e ser foco


de discusses nas prximas unidades.

E, por que esse conceito to importante?

Entretanto, neste momento, crucial que

Porque, no fim das contas, a varivel

voc entenda dois aspectos bsicos de

que analisada e no a informao que

qualquer varivel: o seu tipo e a sua funo,

ela contm. Por isso, importante que

o papel que ela exerce na base de dados.

voc, antes de sair coletando informaes,


analise o seu questionrio de coleta de

ATENO

dados, identifique cada varivel envolvida


e responda perguntas, tais como: O que
exatamente a varivel est medindo? Para
que serve esta varivel e, principalmente,
possvel analis-la? E com que mtodo
estatstico?

Toda anlise que ser feita na base de dados


depender do seu entendimento sobre o tipo e a
funo de cada varivel coletada!

Vejamos os tipos de funes de cada

CONCEITO
Uma

varivel

quantificao

de

varivel:

uma

caracterstica de interesse da pesquisa (SOARES


e SIQUEIRA, 2002). Refere-se ao fenmeno a ser
pesquisado. o campo de variao de cada tipo
de dado a ser pesquisado. Observe que, como o
prprio nome diz, uma varivel deve variar, ou seja,
se voc est coletando dados sobre caractersticas
de alunos da disciplina Clculo Diferencial,
podemos pensar em inmeras variveis para a
unidade de observao aluno: idade, sexo, curso,
local do ensino mdio, tempo entre final do ensino
mdio e incio da graduao, nota final, percentual
de presena s aulas etc. Entretanto, o tipo de
disciplina no uma varivel nesse caso, pois ela
constante (Clculo Diferencial).

011

unidade 1

ESTATSTICA E PROBABILIDADES

QUADRO 1 - O papel de uma varivel numa base de dados.


TIPOS

CARACTERSTICAS

Variveis de
identificao e auxiliares

Servem para o rastreamento dos indivduos e das unidades


amostrais, ou so usadas na definio de outras variveis. Exemplos
de variveis de identificao: CPF, nome, nmero de matrcula,
nmero da amostra etc.
Exemplos de variveis auxiliares: datas, peso e altura.
Variveis de identificao e auxiliares no so analisadas, mas
fazem parte da base de dados.

Variveis explicativas

So aquelas que, por hiptese, podem influenciar, determinar ou


afetar a varivel resposta ou desfecho da pesquisa. So chamadas
tambm de co-variveis ou variveis independentes.
Para cada estudo existem variveis explicativas prprias, definidas
por hipteses da prpria pesquisa ou conforme reviso da literatura.
Em processos qumicos, quando se busca entender os fatores que
afetam o rendimento de uma reao qumica, so exemplos de
variveis explicativas a temperatura, a presso, o tipo de catalisador
e a concentrao de reagentes. Se algum pesquisar sobre as
razes de algumas pessoas serem maiores que outras, as alturas
do pai e da me, a origem tnica, a idade e o sexo so exemplos de
variveis explicativas.

Varivel desfecho

aquela que queremos explicar, em funo de ser influenciada,


afetada por outros fatores (variveis explicativas). Tambm
denominada de varivel dependente ou varivel resposta. Sempre
defina um ou mais desfechos para o estudo, conforme os objetivos
da sua pesquisa. Por exemplo, numa pesquisa cujo objetivo
explicar porque imveis de uma mesma regio tm preos to
variados, o preo de venda seria uma varivel resposta. Fatores
como rea, nmero de quatros, nmero e tipo de vaga de garagem,
quantidade de sutes, presena de salo de festas ou piscina so
algumas das possveis variveis explicativas para esse problema.

Fonte: Elaborado pelo autor.

A funo de cada varivel na base de dados, assim como o seu tipo, definir que tipo de anlise
ser feita. No subestime esses conceitos pois, sem eles, no h como entender os mtodos
de anlise estatstica que sero estuados nas prximas unidades.

012

unidade 1

ESTATSTICA E PROBABILIDADES

TIPOS DE

um aluno numa disciplina (aprovado,

VARIVEIS

reprovado) etc.

Se considerarmos a maioria absoluta das

A anlise de uma varivel categrica

variveis envolvidas em experimentos

de pequeno e mdio porte nas reas de

se

Cincias Exatas e Engenharia, teremos

resultados

duas situaes para o tipo da varivel.

categoria da varivel e calcula-se o

muito

restrita

quantas

simples:

unidades

conta-

amostrais

observados

em

ou

cada

percentual de ocorrncia de cada classe


I) Varivel qualitativa ou categrica:

ou categoria.

aquela que expressa caractersticas ou


atributos de classificao, distribudos
categorias

II) V
 arivel quantitativa: aquela obtida

mutuamente

por meio de um processo de medio

exclusivas de objetos ou entidades.

ou contagem. Por exemplo: peso,

Categorias mutuamente exclusivas ou

altura,

mutuamente excludentes no podem

de

ser

insumos,

em

observadas

simultaneamente

dosagem

produtos

concentraes

qumicos

temperatura,

outros
presso,

num mesmo indivduo. Por exemplo,

altitude, umidade, largura, dimetro,

grupo sanguneo (A, B, AB, O) uma

comprimento,

varivel

quantidade de chuva (mm), nmero

categrica

mutuamente

falhas,

voltagem,
nmero

de

corrente,

exclusiva: um indivduo tem somente

de

ligaes

um grupo sanguneo, no podendo

telefnicas, nmero de mensagens

ser classificado em mais de uma

eletrnicas, nmero de faltas de um

categoria ao mesmo tempo. Variveis

aluno numa disciplina, nota final na

qualitativas tm um nvel baixo de

disciplina, rea, preo, etc.

informao, sendo obtidas por um


critrio de classificao. Por exemplo,

A varivel quantitativa possui o mais

sexo (masculino, feminino), estado civil

alto nvel de informao, sendo objeto de

(com companheiro, sem companheiro),

inmeras tcnicas de anlise. Para cada

cor de um produto (branco, verde,

varivel quantitativa podemos calcular

amarelo, azul), tipo de transmisso

seu valor mdio, mediano, modal, mnimo,

de um carro (manual, automtica),

mximo, seu desvio padro, coeficiente

conformidade de qualidade de um

de variao, intervalos especficos de

produto

variao e outras tcnicas analticas que

(aceito,

no

aceito),

dia

chuvoso (sim, no), resultado final de

sero descritas na prxima unidade.

013

unidade 1

ESTATSTICA E PROBABILIDADES

As variveis quantitativas so chamadas

classificao.

As

notas

obtidas

por

essa

um aluno numa prova so tratadas

confuso,

como quantitativas, mesmo que no

pois o simples fato de alocar nmeros

sejam obtidas por meio de um aparelho

aos resultados de uma varivel no a

ou dosador.

torna quantitativa. Por exemplo, se os

uma prova tratada como varivel

grupos sanguneos fossem classificados

quantitativa porque considera-se vlido

em 1, 2, 3 e 4 (ao invs de A, B, AB e

aplicar

O), tal codificao no a tornaria uma

seus resultados. Entretanto, ser que

varivel quantitativa. Na verdade, para

um aluno que obtm 80 pontos numa

que

quantitativa,

disciplina sabe o dobro que um aluno que

deve ser possvel aplicarmos operaes

obteve 40 pontos? Claro que no. J uma

aritmticas

pessoa de 100 Kg tem o dobro de peso

capacidade de realizarmos, por exemplo,

de uma pessoa de 50 Kg. Outro exemplo,

somas

aos

as temperaturas medidas em Graus

resultados de uma varivel um indicativo

Celsius so tratadas como variveis

de que ela quantitativa. Claro que a

quantitativas. Isso quer dizer que um dia

anlise do seu processo de obteno

com 40C tem o dobro de calor de um

mais importante: os resultados de uma

dia com 20C? Transforme os valores em

varivel quantitativa devem ser obtidos

Graus Celsius para Kelvin e compare o

por medio ou contagem. Alm disso,

resultado.

tambm

numricas,

de

nomenclatura

uma

pode

varivel
aos

mas

gerar

seja

seus

subtraes

resultados.
vlidas

Nesse caso, a nota de

operaes

aritmticas

aos

essas variveis podem ser contnuas,


quando representadas por nmeros reais,

Bom,

os

conceitos

por

trs

dessa

ou discretas, quando representadas por

discusso envolve o nvel de mensurao

nmeros inteiros.

da varivel (nominal, ordinal, intervalar


e de razo) que ser tratado a seguir.

Usualmente,

se

ela

obtida

por

Para

efeito

prtico,

consideraremos

medio, ento contnua. Caso seja

somente duas categorias de variveis:

obtida por meio de contagem, uma

quantitativas

varivel discreta. Para efeitos prticos,

Conforme citado anteriormente, esses

no faremos distino entre variveis

so os tipos de varivel coletadas em

contnuas e discretas, o fundamental

problemas tpicos de Cincias Exatas e

entend-las como quantitativas.

de Engenharia.

Algumas

variveis

originalmente

de

014

unidade 1

versus

categricas.

ESTATSTICA E PROBABILIDADES

USO DO EXCEL COMO


UM SISTEMA DE
GERENCIAMENTO DE
DADOS E DOS

pelos respondentes so automaticamente


armazenadas

em

planilha

eletrnica,

facilitando a coleta e a anlise dos dados.

FORMULRIOS
DO GOOGLE DOCS
PARA COLETA DE
INFORMAES

crucial que voc domine o Excel como


instrumento de coleta de dados e entenda
perfeitamente o papel de cada varivel a ser
coletada. Identificar variveis explicativas
e desfecho (s), distinguir entre varivel

Duas ferramentas essenciais para coleta


de dados de experimentos de pequeno
e mdio porte na rea de Cincias
Exatas e Engenharia so o Excel, um dos

quantitativa e categrica uma questo


relativamente simples, mas fundamental
para as discusses que sero feitas nas
prximas unidades.

componentes do pacote Office da Microsoft,

APLICAO

e os Formulrios do Google Docs <https://

PRTICA

docs.google.com/forms>.
O Excel uma planilha eletrnica com

Considere o artigo Utilizao de efluente de

origens no Lotus 1-2-3 (GAZZARRRINI,

frigorfico, tratado com macrfita aqutica,

2013).

so

no cultivo de tilpia do Nilo, de autoria de

extremamente prticas, de grande utilidade

Adilson Reidel e outros pesquisadores da

e sero discutidas por meio de vdeo aulas.

Universidade Estadual do Oeste do Paran

Ambas

as

ferramentas

(REIDEL et al.; 2005) disponvel em:


Os formulrios do Google Docs so timos
para pesquisas envolvendo pessoas que

<http://www.agriambi.com.br/revista/

tm endereo eletrnico (e-mails). Para

suplemento/index_arquivos/PDF/181.pdf>

us-los voc ter que obter uma lista com os


nomes dos respondentes e os respectivos

Neste trabalho, os pesquisadores fizeram

e-mails. Aps construir o formulrio de

um experimento em que, resumidamente,

coleta de dados no Google Docs, voc

foram colocadas amostras aleatrias de

poder envi-lo usando o mecanismo de

alevinos (filhotes) de tilpia em aqurios

mala direta, da aba correspondncias

com gua potvel (tratamento A) e em

do Word, que tambm parte do pacote

tanques com efluente de frigorfico aps

Office da Microsoft. As respostas enviadas

passar num sistema de filtro com aguap

015

unidade 1

ESTATSTICA E PROBABILIDADES

(tratamento B), avaliando-se comparativamente o desenvolvimento e a sobrevivncia dos


peixes. A pergunta principal da pesquisa era: possvel cultivar tilpias em efluente de
frigorfico tratado com aguap?
Nas tabelas 1 e 2 do artigo, so apresentados alguns resultados e um conjunto de variveis
envolvidas na pesquisa.
TABELA 1 Valores mdios dos parmetros fsico-qumicos
determinados durante o cultivo da tilpia do Nilo (O. niloticus)
TRATAMENTOS

PARMETROS

Temperatura mdia (C)

26,4 = 1,60

26,4 = 1,70

Oxigienio Dissolvido (mg L-1)

7,17 = 0,60

7,18 = 0,90

Condutividade Eltrica (uS cm-1)

227,48 = 36

1779,7 = 68

pH

8,44 = 0,12

7,40 = 0,35

Tratamentos: (A) controle (gua potvel + rao); (B) efluente tratado (efluente do sistema de
filtro de aguap + rao)
Fonte: REIDEL et al., 2005.

TABELA 2 Valores mdios de desempenho e sobrevivncia de alevinos


de tilpia do Nilo, cultivados com gua potvel e efluente tratado

mdia

mdia

Teste t-Student
T calculado

Peso inicial (indivduo) (g)

0,235 a

43,267

0,232 a

46,113

Biomassa inicial (aqurio) (g)

1,172 a

2,426

1,160 a

1,901

0,001

Peso final (indivduo) (g)

1,391 a

42,269

1,054 a

45,582

0,028

Biomassa final (aqurio)

5,280 a

38,890

4,300 a

45,721

0,028

75 a

80,467

80 a

25,819

0,08

VARIVEIS

Sobrevivncia (%)

Tratamento A

Tratamento B

Mdias seguidas da mesma letra, na linha, no diferem significadamente pelo teste t de Student ao nvel 5% de significncia

Fonte: REIDEL et al.; 2005.

Esse um exemplo prtico da aplicao de conceitos discutidos na Unidade 1 em experimentos


de pequeno e mdio porte na rea de Cincias Exatas e de Engenharia. O experimento baseado
em amostragem e analisa o impacto de variveis explicativas em desfechos diretamente ligados
ao objetivo do projeto: sobrevivncia dos peixes, peso e biomassa final no aqurio.

016

unidade 1

ESTATSTICA E PROBABILIDADES

Nesse trabalho so usadas trs variveis

tanto em relao ao desenvolvimento

resposta,

quanto sobrevivncia dos peixes.

uma

categrica

(O

peixe

sobreviveu? sim ou no) e dois desfechos


quantitativos (peso final e biomassa final,

O entendimento completo das razes

medidos em gramas). Dentre as variveis

para chegar a essa concluso ser obtido

explicativas envolvidas, a mais importante,

nas prximas unidades. Entretanto, neste

que est diretamente ligada ao objetivo da

momento, fundamental que voc j

pesquisa o tipo de tratamento (A versus

entenda conceitos referentes ao processo

B), uma varivel categrica dicotmica.

de

amostragem/coleta

de

dados

e,

principalmente, que consiga diferenciar


Muitas

pessoas

tm

dificuldade

em

identificar essa varivel explicativa, apesar

os tipos e as funes das variveis numa


pesquisa.

dela ser a mais importante na pesquisa.


As outras variveis explicativas so todas
quantitativas e, como tal, foram obtidas

REVISO

por meio de um processo de medio,

Vimos nessa unidade alguns dos principais

contagem ou dosagem: temperatura (C),

tpicos

oxignio Dissolvido (mg L-1), condutividade

Estatstica. Em resumo, estudamos sobre:

introdutrios

do

campo

da

Eltrica (S cm-1), pH, peso inicial (g) e


Populao, amostra, censo e amostragem:

biomassa inicial (g).


Nas

tabelas

apresentadas

aparecem

- Censo de toda a populao no vivel,


devido aos altos custos e/ou quando a

mtricas (mdia, desvio padro e valor de t

pesquisa envolve ensaios destrutivos.

de student) que so usadas na anlise e na


concluso do projeto. Fique tranquilo, esses

- Uma

pequena,

mas

cuidadosamente

conceitos sero tratados nas prximas

escolhida amostra pode ser usada para

unidades!

representar a populao.

De qualquer forma, a concluso da pesquisa

- Os resultados observados numa amostra


representativa podero ser generalizados,

para a pergunta possvel cultivar tilpias

sem risco de chegar a uma concluso

em efluente de frigorfico tratado com

diferente daquela que seria obtida no caso

aguap?, : Sim, possvel cultivar tilpias

de trabalhar com toda a populao.

em efluente de frigorfico tratado com


aguap. Os dados no mostraram diferena

- A

significativa entre os dois tratamentos,

017

unidade 1

questo

mais

importante

numa

amostragem no o tamanho da amostra,

ESTATSTICA E PROBABILIDADES

mas como a amostra ser obtida, pois o

Ainda compreendemos que alguns sistemas

delineamento amostral mal feito invalida

computacionais so ferramentas essenciais

qualquer pesquisa.

para coleta de dados de experimentos de


pequeno e mdio porte na rea de Cincias
Exatas e da Engenharia. So eles: o Excel,

Tipos de variveis:
-
Varivel qualitativa ou categrica:
aquela que expressa caractersticas ou
atributos de classificao, distribudos

um dos componentes do pacote Office da


Microsoft, e os Formulrios do Google Docs
<https://docs.google.com/forms>.

em categorias mutuamente exclusivas de

PARA SABER

objetos ou entidades.

MAIS

- Varivel quantitativa: aquela obtida


por meio de um processo de medio ou
contagem.

Para aprofundar sobre as questes discutidas


nessa unidade, leia o Captulo 1 do livro texto:

Funo das variveis:

LEVINE, David M. et al. Estatstica: teoria

- Variveis de identificao e auxiliares:


servem

para

rastreamento

dos

indivduos e das unidades amostrais


ou so usadas na definio de outras
variveis.
- Variveis

explicativas:

so

e aplicaes usando Microsoft Excel em


portugus, 3 edio ou superior: Introduo e
Coleta de Dados, assim como o suplemento do
captulo 1 Introduo Utilizao do Microsoft
Excel.

aquelas

que, por hiptese, podem influenciar,


determinar ou afetar a varivel resposta
ou desfecho da pesquisa.
- Varivel desfecho: aquela que queremos
explicar, em funo de ser influenciada e/
ou afetada por outros fatores (variveis
explicativas).

Tambm

denominada

de

varivel dependente ou varivel resposta.


Aconselha-se sempre definir um ou mais
desfechos para o estudo, conforme os
objetivos da sua pesquisa.

018

unidade 1

UNIDADE

ANLISE EXPLORATRIA

DE DADOS

onforme citado na Unidade 1, se voc usar tcnicas de anlise estatstica, voc poder
rapidamente se transformar num especialista em qualquer assunto, certo? Pois bem,
como exemplo, que tal se tornar um especialista em reprovao em disciplinas bsicas

de cursos de Engenharia e Tecnologia? E voc no precisar repetir nenhuma dessas disciplinas


para ser um especialista em reprovao...! Esse um problema bem conhecido, mas suas causas
e fatores associados no! Uma hiptese que durante o ensino fundamental e mdio muitos
alunos no conseguem adquirir habilidade em resolver problemas matemticos. Essa deficincia
ento culmina nos cursos de Engenharia com altos ndices de reprovao no ciclo bsico.
Disciplinas como Clculo Diferencial, Geometria Analtica e lgebra Linear (GAAL), Qumica Geral
e Algoritmos (AEDS) podem ser verdadeiros infernos para alunos da rea de Exatas.
Considerando o problema geral desempenho acadmico em disciplinas de ciclo bsico de
cursos de Engenharia, que tal analisar dados de amostra de alunos, buscando identificar
as caractersticas e possveis fatores associados aos desfechos conceito (aprovado ou
reprovado), nota histrico (0 a 100 pontos) e abandonou a disciplina? (sim ou no)?
Para resolver o problema acima, qual a primeira providncia? Muitos podem pensar: Preciso
estudar melhor o assunto, fazer uma reviso da literatura sobre o problema. Em seguida,
preciso planejar e executar a coleta dos dados. Essa primeira etapa j foi feita e faz parte de
projeto de iniciao cientfica do Centro Universitrio de Belo Horizonte UniBH, cujo ttulo da
pesquisa Fatores associados ao desempenho acadmico de alunos em disciplinas do ciclo
bsico de cursos de Engenharia. A pesquisa foi aprovada pelo Comit de tica em Pesquisa
(CEP) do UniBH com o n 920.308, em 17/12/2014 e os dados esto disponveis para download

020

unidade 2

ESTATSTICA E PROBABILIDADES

no link: https://www.dropbox.com/sh/6bvsls6mi6kpqyv/AABy88F2iVFPyEc2ArIIZ2GNa?dl=0.
Agora que voc j tem acesso aos dados, qual o prximo passo para resolvermos o problema
de reprovao e abandono em Clculo, GAAL, Qumica Geral e AEDS? A primeira etapa de
qualquer anlise estatstica, ou melhor, a fase preliminar da busca das informaes agregadas
a dados j coletados, a anlise exploratria dos mesmos. Como o prprio nome diz, a
anlise exploratria dos dados o conjunto de ferramentas da Estatstica Descritiva que tm
como objetivo fazer uma sntese dos dados, organizando-os sob a forma de tabelas, grficos
e nmeros. Portanto, para entendermos e resolvermos nosso problema de reprovao,
precisamos estudar as ferramentas da Estatstica Descritiva:
a) Sntese tabular: Resumo da anlise por meio de tabelas;
b) Sntese numrica: Medidas de posio (mdia e mediana) e medidas de variabilidade (soma
dos quadrados dos resduos, varincia, desvio padro, coeficiente de variao);
c) Sntese grfica: Grficos de pizza, barra, coluna, linha, sries histricas, histograma, grfico
de Pareto, grfico misto, de coluna e de linha, diagrama de disperso e box-plot.
O objetivo desta unidade promover o conhecimento fundamental que lhe permitir entender
dados coletados, transformando dados brutos em informaes teis!

SNTESE

GRFICA DE DADOS
Uma figura vale mais que mil palavras! Isso verdade, entretanto um grfico vale mais que mil
palavras se e somente se ele for desenhado de forma clara, correta e concisa. Sempre desenhe
grficos a partir de seus dados, mas tente faz-los de tal forma que a frase basta olhar
para entender seja vlida. Os grficos mais teis para anlise de dados de experimentos de
pequeno e mdio porte na rea de Cincias Exatas e Engenharia so: grficos de pizza, barras,
colunas, linha, sries histricas, histograma, grfico de Pareto, grfico misto, de coluna e de
linha, diagrama de disperso e box-plot (tabela 1). De todos esses, somente vejo sentido em
construi-los mo histogramas e diagramas de disperso. Entretanto, na prtica devemos
construir grficos usando ferramentas computacionais como o Excel.

021

unidade 2

ESTATSTICA E PROBABILIDADES

TABELA 3 - Grficos mais teis para anlise de dados de experimentos


de pequeno e mdio porte na rea de Cincias Exatas e Engenharia.
NMERO DE VARIVEIS
ENVOLVIDAS

TIPO DE VARIVEL ANALISADA

Pizza ou setor

Uma

Categrica

Colunas (verticais)

Uma

Categrica

Barras (horizontais)

Uma

Categrica

Histograma

Uma

Quantitativa, mas categorizada numa


tabela de distribuio de frequncias

Grficos de linha

Duas

Quantitativa no eixo vertical, e


categrica no eixo horizontal

Sries histricas

Duas

Quantitativa no eixo vertical, e


o tempo no eixo horizontal

Grfico de Pareto

Uma

Categrica

Grfico misto, de
coluna e linhas

Duas

Quantitativa no eixo vertical, e


o tempo no eixo horizontal

Diagrama de
disperso

Duas

Varivel explicativa quantitativa no eixo horizontal,


e desfecho quantitativo no eixo vertical

Uma ou mais

Quantitativa

TIPO DE GRFICO

Box-plot
Fonte: Elaborado pelo autor.

Como fazer os grficos? Siga regras e comentrios abaixo e voc ter sucesso ao desenhar
grficos:

1. Um grfico deve conter um ttulo, entretanto este no deve ser colocado no prprio
grfico (como o Excel insiste em fazer...). Quando desenhamos um grfico usando o
Excel, por exemplo, este ser exportado para algum documento do Word ou para o
PowerPoint, ou para outros editores de texto e apresentadores de slides. O ttulo do
grfico ser ento colocado no slide ou na descrio da figura no editor de textos,
sendo desnecessrio e errado coloc-lo no meio do prprio grfico. Mesmo em
casos excepcionais, quando o grfico no exportado para nenhum outro aplicativo,
sendo impresso diretamente do Excel, o ttulo no deve ser colocado no meio da
figura. O ttulo deve ser inserido no cabealho da planilha que contm o grfico.

2. Ao escrever um relatrio, comece pelas figuras. impressionante, mas as pessoas leem
artigos cientficos, relatrios tcnicos, jornais e revistas de fofoca da mesma forma:
comeamos pelas figuras! Por isso, o ttulo de grficos e tabelas deve ser o mais claro

022

unidade 2

ESTATSTICA E PROBABILIDADES

possvel: toda informao necessria para o entendimento da figura deve estar no seu
ttulo. Essa uma tendncia das revistas cientficas (Nature, Science, por exemplo) e
tem um efeito colateral: o ttulo da figura fica muito longo. Isso no exatamente uma
regra, mas recomendao. Se voc quer que seu relatrio seja lido, invista nos ttulos de
figuras e tabelas e sempre coloque respostas claras para pelo menos quatro perguntas:
O que? Quem? Quando? Onde? A interpretao das informaes no grfico tambm
deve ser colocada como subttulo da figura. Se necessrio, coloque notas explicativas,
usando siglas somente para coisas realmente conhecidas de quem ler o seu texto (seu
chefe ou o chefe do seu chefe...). Veja um exemplo de grfico de pizza na figura abaixo.
FIGURA 2 Principais ferramentas estatsticas encontradas em
artigos publicados no New England Journal of Medicine (NEJM).

A maioria absoluta (58%) dos 760 artigos publicados nos volumes 298 a 301 da NEJM utilizou
somente tcnicas de Estatstica Descritiva na anlise dos dados. Praticamente um quarto
dos artigos usou teste t de student e 15% aplicou teste de qui-quadrado nas tabelas de
contingncia, ferramentas que sero discutidas na Unidade 7 deste livro.
Fonte: BAILAR & MOSTELLER,1992.

3. Caso o grfico tenha eixos (horizontal X e vertical Y), estes devem estar rotulados para
entendimento. Os rtulos dos eixos devem conter as respectivas unidades de medida
envolvidas (g, R$, kg, m/s, etc.). Esse mais um ponto de erro do Excel! Alm de no colocar
os rtulos nos eixos, o Excel coloca o ttulo no meio da figura e uma legenda que no tem a
menor utilidade. Na verdade, as legendas somente devem ser colocadas se existirem mais de
um grupo de dados na figura. Veja um exemplo correto de grfico de barras na figura abaixo.

023

unidade 2

ESTATSTICA E PROBABILIDADES

FIGURA 3 Risco de reprovao em disciplinas de cursos de Engenharia


e Tecnologia do Centro Universitrio de Belo Horizonte UniBH.

Anlise de 21 disciplinas avaliadas em sete semestres (2011/1 a 2014/1), considerando amostra de 78.399
alunos. Quatro disciplinas tm mais de 40% de seus alunos reprovados: Clculo Diferencial, Geometria Analtica e
lgebra Linear, Clculo de Vrias Variveis e Algoritmo e Estruturas de Dados.
Fonte: Elaborado pelo autor.

4. No existe regra fixa para a escolha da escala do grfico. Qualquer escala boa
desde que os valores no grfico no fiquem muito espalhados nem muito juntos
numa nica regio da figura.

5. Sombreamento, efeitos 3D e pequenas figuras relacionadas com o tipo de dado


usado no grfico, colocados para dar vida figura: na maioria das vezes esses
efeitos so inteis, podendo at mesmo distorcer o grfico.

6. A
 maioria dos grficos apresenta o valor zero como ponto de incio dos eixos, mas
isso no necessrio se o ponto de incio da escala devidamente marcado na
figura. Na verdade, as pessoas usualmente assumem que o valor zero est na base do
grfico. Para os grficos de linha isso no problemtico, entretanto, quando se tratar
de grficos de colunas ou de barras, o valor zero deve obrigatoriamente estar na base
da coluna. Caso isso no seja feito, ocorre uma distoro do grfico levando a uma
interpretao errada dos dados. Veja o exemplo abaixo. O primeiro grfico, como no
comea no valor zero, est errado, ele ilude o leitor: a auditoria foi um sucesso?!

024

unidade 2

ESTATSTICA E PROBABILIDADES

FIGURA 4 Exemplos de grfico de colunas: o valor


zero deve obrigatoriamente ser includo na figura.

Fonte: Elaborado pelo autor.

7. Mais de uma curva ou linha pode ser desenhada em um nico grfico com o objetivo
de comparao. Entretanto, deve-se diferenciar claramente os dados de cada linha para
que no haja erro de interpretao (use cores diferentes ou linhas pontilhadas ou mesmo
smbolos). Linhas de grade, usualmente colocadas no grfico para auxiliar a leitura das
escalas, devem ser discretas (na cor cinza, por exemplo) ou serem eliminadas.
FIGURA 5- Exemplo de grfico com legenda identificando diferentes dados.

Fonte: Elaborado pelo autor.

025

unidade 2

ESTATSTICA E PROBABILIDADES

8. Os grficos devem ser desenhados no formato de paisagem, com a altura tendo
aproximadamente da sua largura. Caso isso no seja feito, poder haver distoro
da figura e da prpria informao, que fica comprometida: o primeiro grfico est
correto, mas os outros esto na categoria como mentir com estatstica...
FIGURA 6 Formato dos grficos: a figura deve ser desenhada em
formato de paisagem, com a altura tendo aproximadamente 75% da largura.

Fonte: Elaborado pelo autor.

FIGURA 7 Grfico distorcido: desenhando a figura com a altura muito pequena, em relao
largura, a informao falseada e se tem a sensao de estabilidade dos dados.

Fonte: Elaborado pelo autor.

026

unidade 2

ESTATSTICA E PROBABILIDADES

FIGURA 8 - Grfico distorcido: desenhando


a figura com a altura muito grande,
em relao largura, a informao
falseada e se tem a sensao de reduo
dos dados ao longo do tempo

visualizarmos funes matemticas


tericas (figura 9) quanto funes
de relacionamentos empricos j
conhecidos (figura 10), mas a sua
grande utilidade quando tentamos
estabelecer a associao entre
duas variveis quantitativas (figura
11). A figura 9 um diagrama de
disperso mostrando uma relao
completamente terica entre duas
variveis (x e y). Como uma relao
exata, somente desenhada a linha
que liga os pontos do grfico. Na
figura 10 desenhada uma relao
emprica, no caso a lei de Abrams,
que relaciona a resistncia do
concreto compresso (R) com o

Fonte: Elaborado pelo autor.

fator gua/cimento (fx) da seguinte


forma: R = /fx. Nessa figura, e

9. Grficos de pizza, o queridinho:

foram definidos como 100 e 10

Apesar de muito engraadinhos,

respectivamente, de tal forma que

estes grficos so muitos confusos.

a equao ficou R = 100/10fx, fx

Evite o seu uso, substituindo por

variando de 0 a 3. J a figura 11

grficos de barra ou de colunas.

mostra o uso nobre dos diagramas

aceitvel construi-los somente

de disperso, quando tentamos

quando so poucos setores bem

explorar, criar e propor uma nova

definidos (at cinco pedaos). Evitar

relao emprica entre duas variveis

grficos de pizza em 3D, com vrios

quantitativas.

pedaos. Construi-los como na

ao invs de aplicarmos a relao

figura 2.

emprica de Abrams, usamos dados

Nesse

exemplo,

reais de fator fx de gua/cimento


10. Diagrama de disperso: Ferramenta

e a resistncia medida em 28 dias

que nos permite avaliar o efeito de

de uma amostra de concretos

uma varivel explicativa quantitativa

(desfecho).

sobre um desfecho. Serve tanto para

linha de tendncia linear, estamos

027

unidade 2

Ao

inserirmos

uma

ESTATSTICA E PROBABILIDADES

sugerindo que, na faixa de variao medida de fx (entre 0,2 e 1,0), a resistncia compresso
do concreto se relaciona com fx por meio de uma equao de reta.
FIGURA 9 Diagrama de disperso sem os marcadores e com linhas contnuas mostrando a
relao de x e sua funo f(x) = 2x3 cos(x+1) 3. Nesse caso o diagrama est mostrando
uma relao terica exata, tal como aquela encontrada nas disciplinas de Clculo Diferencial.

Fonte: Elaborado pelo autor.

FIGURA 10 Diagrama de disperso com marcadores e linhas contnuas mostrando


a relao emprica da lei de Abrams que relaciona a resistncia compresso
de concretos, medida em megapascal (MPa), e o fator gua/cimento (fx),
determinado pela razo do peso de gua pelo peso em cimento do concreto.

Fonte: Elaborado pelo autor.

028

unidade 2

ESTATSTICA E PROBABILIDADES

FIGURA 11 Diagrama de disperso somente com os marcadores e sem


linhas contnuas mostrando uma possvel relao linear entre resistncia
compresso de concretos em 28 dias (MPa) e o fator gua/cimento (fx).

Fonte: Elaborado pelo autor baseado nos dados em DAFICO, Dario de Arajo. Mtodo Simples para Explicar a
Resistncia Compresso do Concreto de Alto Desempenho. Disponvel em: http://www2.ucg.br/nupenge/pdf/
Dario.pdf. Acesso em 14 maio 2015.

A figura 12 mostra possveis padres de relacionamento entre uma varivel explicativa (X)
e o desfecho (Y), ambos quantitativos. Sempre que construir um diagrama de disperso,
voc deve interpretar o grfico gerado em um dos quatro padres mostrados na figura 12. A)
Correlao positiva: Em mdia, quando X aumenta, Y tambm aumenta, numa tendncia em
linha reta. Por exemplo, quanto maior a rea de um imvel, maior o seu preo de venda. B)
Correlao negativa: Em mdia, quando X aumenta, Y tende a diminuir. Por exemplo, quanto
mais velho um imvel, menor o seu preo de venda. C) Associao curvilinear: Em mdia,
quando X aumenta, Y tambm aumenta, mas no numa tendncia em linha reta, e sim
em curva. Isso pode ocorrer quando, por exemplo, a relao entre a varivel resposta (Y)
e a explicativa (X) for uma equao de segundo grau (parbola) ou cbica, de grau trs. D)
Sem associao: Tambm um padro importante, pois indica que no h relao entre as
duas variveis associadas, que a varivel explicativa, na verdade, no explica o desfecho! Por
exemplo, frequentemente se observa que a idade do aluno no est associada sua nota na
maioria das disciplinas que ele cursa.

029

unidade 2

ESTATSTICA E PROBABILIDADES

FIGURA 12 Padres de relacionamentos entre variveis avaliadas


por meio de diagrama de disperso: correlao positiva (A), correlao
negativa (B), associao curvilinear (C) e ausncia de associao (D).

Fonte: Elaborado pelo autor.

11. Histograma: A ideia deste grfico categorizar uma varivel quantitativa, dividindo-a
em intervalos ou classes, contar quantos valores se encaixam em cada intervalo e
construir um grfico de colunas com o resultado. Ao se interpretar um histograma,
deve-se tentar responder s seguintes questes: Qual a forma da distribuio dos
dados? Existe um ponto central bem definido? Como a amplitude de variao dos
dados? Existe apenas um pico isolado? A distribuio simtrica? Os exemplos abaixo
podem auxili-lo na interpretao de um histograma. Procure descobrir com qual
destes oito tipos o seu histograma se parece.
Exemplo 1 - Histograma simtrico: A frequncia de dados mais alta no centro e decresce
gradualmente esquerda e direita de forma aproximadamente simtrica, em forma de sino.

030

unidade 2

ESTATSTICA E PROBABILIDADES

Exemplo 3 - Histograma tipo despenhadeiro:


O histograma termina abruptamente em
um ou nos dois lados, dando a impresso
de que faltam dados. Na verdade, essa
possivelmente deve ser a explicao para
histogramas com esse formato: os dados
muito pequenos e/ou muito grandes foram

Fonte: Elaborado pelo autor

Exemplo

Histograma

assimtrico:

frequncia

eliminados da amostra.
fortemente
dos

dados

decresce rapidamente num dos lados e


muito lentamente no outro, provocando uma
assimetria na distribuio dos valores. A
distribuio dos salrios numa empresa um
exemplo comum de histograma assimtrico:
muitas pessoas ganham pouco e poucas
pessoas ganham muito (a). A situao (b),
apesar de mais rara, tambm pode acontecer.

Fonte: Elaborado pelo autor

Exemplo 4 - Histograma com dois picos:


Ocorrem picos na distribuio e a frequncia
baixa entre os picos. Possivelmente, os
dados se referem a uma mistura de valores
de diferentes populaes, devendo ser
avaliados com cuidado. Se houve mistura
dos dados, melhor separ-los.

Fonte: Elaborado pelo autor.

Fonte: Elaborado pelo autor

031

unidade 2

ESTATSTICA E PROBABILIDADES

Exemplo 5 - Histograma tipo plat: As

Exemplo 7 Histograma tipo serrote:

classes de valores centrais apresentam

As frequncias de valores se alternam

aproximadamente a mesma frequncia.

formando vrios dentes. Pode indicar algum

Essa situao tambm sugere mistura de

problema na obteno (leitura) dos dados.

valores de diferentes populaes.

Fonte: Elaborado pelo autor.

Fonte: Elaborado pelo autor.

Vamos usar como exemplo de dados para


Exemplo 6 Histograma com uma pequena

a construo de um histograma notas de

ilha isolada: Alguns valores isolados tm

amostra de alunos em uma prova de Clculo

frequncia elevada, formando uma espcie

Diferencial (n=120):

de ilha. Tambm pode ter ocorrido uma


mistura de dados.

Fonte: Elaborado pelo autor.

032

unidade 2

ESTATSTICA E PROBABILIDADES

FIGURA 13 Dados brutos de notas de amostra de alunos em prova de


Clculo Diferencial. Centro Universitrio de Belo Horizonte UniBH, 2014/2.
0

13

17

18

21

10

13

17

18

21

11

14

17

20

22

11

14

17

20

22

12

14

17

20

24

12

14

17

20

24

13

15

17

20

25

13

15

17

20

25

13

17

18

21

25

13

17

18

21

25

Fonte: Elaborado pelo autor.

Passo 1 - Determinar valores mnimo, mximo e amplitude (R):


mn = 0;

mx = 25;

R = mx mn = 25 0 = 25

Passo 2 Determinar quantas classes ou intervalos (k) sero usados para dividir os dados. O
nmero de classes deve ser algo entre 5 a 20 subintervalos. Regra emprica: k

5 k 20 . No exemplo, n 120; k

120 10.

R
R 25
Passo 3 Determinar o tamanho de cada subintervalo (h). h k . No exemplo, h k 10 . 2,5
Ou seja, no nosso exemplo, temos 120 valores que variam de 0 a 25 e vamos dividi-los em 10
classes de tamanho 2,5.
Passo 4 - Contar a frequncia de valores em cada classe. No exemplo, comeando em zero
(valor mnimo), teremos uma tabela de distribuio de frequncias, base para construo do
histograma, de 2,5 a 2,5 pontos cada subintervalo. Vamos verificar na base de dados quantos
valores se encaixam em cada classe.
Observe na figura 14 o smbolo --|, ele indica que o valor direita faz parte do intervalo,
mas o valor sua esquerda no! Ou seja, o intervalo 2,5 --| 5,0 implica em valores acima
de 2,5 e menores ou iguais a 5,0. Por exemplo, alunos que tiraram 5,0 so contabilizados
somente no segundo intervalo (2,5 --| 5,0), assim como aqueles que tiraram 7,5 pontos

033

unidade 2

ESTATSTICA E PROBABILIDADES

entram somente na terceira classe (5,0 --| 7,5). Veja tambm o smbolo |--|, ele s pode
ser usado no primeiro subintervalo e possibilita que incluamos o valor 0,0 na primeira
classe (0,0 |--| 2,5). Se no fizssemos isso, no teramos onde colocar a frequncia de
valores iguais a zero. Eventualmente voc poder se deparar com tabelas construdas
com o smbolo invertido, |--, que indica valores maiores ou iguais ao nmero colocado
esquerda e menores que o valor colocado direita. Por exemplo, 30 |-- 40 implica valores
maiores ou iguais a 30 e menores que 40. Usei a notao --| que o padro usado pelo
Excel na construo de histogramas (figura 14).
Lembre-se de que o total, a soma da coluna Frequncia, deve ser exatamente o tamanho
da amostra (n). Alm da coluna de frequncia absoluta, podemos calcular a frequncia
relativa ou percentual de cada classe (em relao ao total de valores) e a frequncia
acumulada ou percentual acumulado, til para a construo de grficos de Pareto (que
ser explicado mais frente).
FIGURA 14 Tabela de distribuio de frequncias das notas de amostra de alunos em
prova de Clculo Diferencial. Centro Universitrio de Belo Horizonte UniBH, 2014/2.
NOTA FREQUNCIA

PERCENTUAL

PERCENTUAL ACUMULADO

0,0 |--| 2,5

35

29%

29%

2,5 --| 5,0

22

18%

48%

5,0 --| 7,5

5%

53%

7,7 --| 10,0

8%

60%

10,0 --| 12,5

3%

63%

12,5 --| 15,0

12

10%

73%

15,0 --| 17,5

10

8%

82%

17,5 --| 20,0

10

8%

90%

20,0 --| 22,5

5%

95%

22,5 --| 25,0

5%

100%

120

100%

Total
Fonte: Elaborado pelo autor.

034

unidade 2

ESTATSTICA E PROBABILIDADES

FIGURA 15 Histograma com a distribuio das notas na prova de Clculo


Diferencial: os dados mostram um padro de distribuio assimtrico,
semelhante quele apresentado no histograma do exemplo 2.

Fonte: Elaborado pelo autor.

12. G
 rfico de Pareto: Esta ferramenta tima para ajudar na definio de prioridades,
quando precisamos fazer um plano de ao para melhoria de qualidade de um
servio ou produto. Por exemplo, se um determinado problema ou defeito pode
ocorrer de diversas formas, como escolher os tipos de defeito prioritrios para serem
corrigidos? A ideia do efeito Pareto que 80% dos problemas esto associados
a 20% dos problemas. Nem sempre esse efeito ocorre, mas esse o objetivo do
grfico de Pareto: verificar quais itens ou problemas ocorrem com maior frequncia
num determinado cenrio. Por exemplo, numa amostra de 400 defeitos de fabricao
de uma pea mecnica, foram observados 16 tipos de defeito: rebarbas, dimetro
menor, dimetro maior, sem usinagem, altura menor, trincas, altura maior, borda
muito fina, enviesado, base maior que o topo, borda muito grossa, cor muito escura,
estrutura pouco flexvel, base menor que o topo, cor muito clara e estrutura frgil. Ao
se construir um grfico de Pareto com os dados (figura 16), observa-se que a maioria
absoluta (66%) dos defeitos se refere somente a trs tipos: rebarbas (32%), dimetro
menor (21%) e dimetro maior (13%). Ou seja, ao fazer um plano de ao para corrigir
possveis defeitos de fabricao dessa pea, ignore 13 defeitos e priorize suas
aes em apenas esses trs. Fazendo isso, 66% do problema estar corrigido!

035

unidade 2

ESTATSTICA E PROBABILIDADES

FIGURA 16 Grfico de Pareto com a frequncia de defeitos de fabricao


de uma pea mecnica: 66% dos defeitos so somente de trs categorias prioritrias
para um plano de ao para melhorar a qualidade do processo de fabricao
(rebarbas, dimetro menor e dimetro maior).

Fonte: Elaborado pelo autor.

13. Box-plot: Este grfico, tambm conhecido como diagrama em caixa ou caixa e
bigode, informa sobre a distribuio dos dados. Somente se aplica a variveis
quantitativas (figura 17), informando o menor valor (pequena linha horizontal
inferior) e valor mximo (pequena linha horizontal superior). A distncia entre o
valor mnimo e a aresta inferior da caixa cinza a amplitude em que ocorrem os
25% dos valores mais baixos. Este conhecido como 1 quartil, sendo delimitado
pelo percentil 25 dos dados. As duas caixas, cinza e vermelha, mostram onde
esto 50% dos dados. A distncia entre a aresta superior da caixa vermelha e a
pequena linha horizontal superior, que equivale ao mximo dos dados, refere-se ao
intervalo em que ocorrem 25% dos maiores valores da varivel. A linha separando
as duas caixas representa a mediana, que expressa o valor do meio se todos os
dados fossem colocados em ordem. Assim como os histogramas, o box-plot nos
informa sobre a maneira de distribuio dos dados, tendo a vantagem de permitir
a visualizao de grupos de dados (figura 18). Nessa figura, apresentado um
resumo comparativo da taxa de aprovao de oito disciplinas de ciclo bsico de
cursos de Engenharia.

036

unidade 2

ESTATSTICA E PROBABILIDADES

FIGURA 17 Exemplo de box-plot para uma varivel quantitativa genrica: quanto maior o
tamanho das duas caixas, vermelho e cinza, maior a variabilidade e disperso dos dados.

Fonte: Elaborado pelo autor.

FIGURA 18 Box-plot com as taxas de aprovao de oito disciplinas de ciclo bsico de


cursos de Engenharia: Desenho e Estatstica se destacam das outras disciplinas, que tm
taxas de aprovao bem menores e mais heterogneas. Clculo Integral a disciplina com
menor taxa de aprovao e maior variabilidade dos dados.

Fonte: Elaborado pelo autor.

037

unidade 2

ESTATSTICA E PROBABILIDADES

SNTESE TABULAR

DE DADOS

Na anlise exploratria de dados, em ltima instncia, todos os resultados so apresentados


ou na forma de figuras ou de tabelas. Assim como nos grficos, invista no ttulo da tabela e
sempre coloque respostas claras para pelo menos quatro perguntas: O que? Quem? Quando?
Onde? Sugerimos que a interpretao das informaes na tabela tambm seja colocada no
prprio ttulo. Se necessrio, coloque notas explicativas, usando siglas somente para coisas
realmente conhecidas. A tabela 4 um exemplo de formato de tabelas, apresentando modelo
para sntese de variveis categricas de uma base de dados.
TABELA 4 Anlise exploratria de variveis categricas: a sntese de variveis
categricas, sejam elas explicativas ou desfecho, resume-se a apresentar suas
categorias, a frequncia de valores em cada categoria e os respectivos percentuais.
CATEGORIA

FREQUNCIA

PERCENTUAL

Conceito

Aprovado

2287

49%

Reprovado

2386

51%

Local do ensino mdio

Instituio privada

1509

32%

Instituio pblica

3164

68%

Sexo

Feminino

1948

42%

Masculino

2725

58%

Manh

1153

25%

Noite

3520

75%

VARIVEL

Turno

Fonte: Elaborado pelo autor.

SNTESE NUMRICA

DE DADOS

A sntese numrica de variveis categricas muito simples, basta que voc apresente suas
categorias, a frequncia de valores em cada categoria e os respectivos percentuais, tal como
apresentado na tabela 3. J a sntese de variveis quantitativas mais ampla e envolve
resumir dois aspectos:

038

unidade 2

ESTATSTICA E PROBABILIDADES

1) um valor tpico ou caracterstico para a varivel;


2) uma medida do grau de variabilidade ou de disperso dos dados.
1.

Valor tpico ou medida de posio: O objetivo encontrar o valor caracterstico, aquele


que melhor represente os dados. Vamos discutir aqui as duas possibilidades mais
aplicadas a problemas de pequeno e mdio porte na rea de Cincias Exatas e
Engenharia: a mdia ( X ) e a mediana ( Md ). A mdia obtida pelo resultado da
soma de todos os valores, dividido pelo total de dados ou tamanho da amostra (n).
Matematicamente, a mdia obtida por:
n

X = Xi
i =1

n
J a mediana, na verdade uma medida de ordem, indicando o valor do meio, aquele que
divide os dados em duas metades:
Passo 1 Colocar os dados em ordem crescente.
Passo 2 Encontrar o valor do meio, isto :

se n, o tamanho da amostra, mpar, ento Md o valor central;

se n par, ento Md a mdia dos dois valores centrais.

Exemplo A (n=11), dados j ordenados:


{3; 4; 4; 5; 9; 9; 9; 10; 10; 10; 10}

Para a mediana, como so 11 valores (n mpar) e a metade de 11 5,5, ento Md o 6


valor, ou seja, o valor do meio (lembre-se de que os dados j esto ordenados):
Md = 9
Exemplo B (n=18), dados j ordenados:
{17; 17; 20; 20; 20; 24; 26; 28; 30; 40; 50; 50; 50; 50; 50; 51; 51; 52}

039

unidade 2

ESTATSTICA E PROBABILIDADES

usando a mdia e quando a mediana


melhor para representar os dados?. Para
essa resposta, preciso seguir uma regra
prtica:
Se

Para a mediana, como so 18 valores (n

mdia

mediana

forem

par) e a metade de 18 9, ento Md a

semelhantes, ento usar a mdia

mdia entre o 9 e o 10 valor, ou seja:

para representar os dados.

Md =

Se mdia e mediana forem muito

30 + 40
= 35
2

diferentes, ento usar a mediana


para representar os dados.

ATENO

Alm de se basear nas regras acima, que


exigem uma interpretao caso a caso do
que seja mdia e mediana muito diferentes,

No se esquea, para obter a mediana

voc poder construir histogramas e, pelo

necessrio, antes de tudo, colocar os dados

padro do grfico, escolher uma ou outra

em ordem crescente. No ordenar os dados a

medida para representar os dados. Nos

principal fonte de erro no clculo da mediana!

modelos de histograma colocados no


tpico anterior, os exemplos 1 (simtrico),

Algumas pessoas se perguntam: Quantas

3 (despenhadeiro) e 5 (plat), a mdia

casas

no

a melhor medida de posio. J nos

resultado?. Quanto menos casas decimais

histogramas dos exemplos 2 (fortemente

voc

seus

assimtrico) e 6 (ilha isolada), a mediana

resultados, melhor para o entendimento

a melhor medida de posio que caracteriza

da informao! Apresente seus resultados

o conjunto de dados.

decimais
conseguir

devo

apresentar

apresentar

nos

usando o mesmo nmero de casas decimais


que os dados originais ou, no mximo, uma

2. Medida do grau de variabilidade ou

casa decimal alm do original, como foi

de disperso dos dados: O objetivo

feito nos clculos anteriores.

quantificar o quanto os dados so


heterogneos,

so

imprevisveis,

Outra questo Quando escolher entre

em suma, quantificar o grau de

mdia e mediana para melhor representar

variabilidade

um conjunto de dados? ou Em que

quantitativa.

situaes resumir uma varivel quantitativa

040

unidade 2

de

uma

varivel

ESTATSTICA E PROBABILIDADES

A princpio, podemos medir a variabilidade de um dado informando o seu valor mnimo (mn) e
o valor mximo (mx), o que nos leva sua amplitude (R): R = mx mn.
Entretanto, essa uma forma muito simplista, pois envolve somente dois valores da varivel,
o mnimo e o mximo, ignorando todos os outros. Para uma medida mais adequada de
variabilidade, uma forma calcular a sua mdia ( X ) e, em seguida, calcular quanto os dados
esto distantes da mdia, em mdia! Soa estranho, mas a ideia faz sentido. Por exemplo, seja
uma amostra de n = 5 pessoas e seus respectivos nmeros de filhos:
Pessoa A B C D E
Nmero de filhos

Qual o nmero mdio de filhos?


X=

0+1+1+2+3
7
=
= 1,4.
5
5

Isso mesmo, essas pessoas tm, em mdia, 1,4 filhos! Voc deve estar se perguntado, como
assim... um e 0,4 filho? No existe 0,4 filho!! No se preocupe, a mdia funciona como um
modelo e, como tal, uma aproximao da realidade. A mdia o melhor valor representativo
para esses dados e, caso seja necessrio resumir toda a informao num nico valor, ela
deve ser usada para substituir o verdadeiro nmero de filhos de cada pessoa. Bom, voltando
variabilidade, como calcular o quanto os dados esto distantes da mdia, em mdia? Para
cada indivduo, devemos subtrair o valor observado pela mdia, calculando um resduo:

Pessoa A B C D E
Nmero de filhos
Resduo

0
0-1,4 =
-1,4

1
1-1,4 =
-0,4

1
1-1,4 =
-0,4

2
2-1,4 =
+0,6

3
3-1,4 =
+1,6

O resduo mede a distncia de cada valor em relao mdia dos dados, ou seja, uma
medida de quanto os dados esto distantes da mdia. Para resumir os resduos num nico
valor, o ideal ento calcular uma mdia dos resduos, que refletiria o quanto os dados esto

041

unidade 2

ESTATSTICA E PROBABILIDADES

distantes da mdia, em mdia! Infelizmente, se fizermos essa mdia, ela sempre dar zero,
pois os resduos negativos anulam os positivos, dando uma soma dos resduos igual a zero.
Para resolver esse problema, ao invs de simplesmente calcular os resduos, devemos calcular
o resduo elevado ao quadrado:

Pessoa A B C D E
Nmero de filhos

Resduo

0-1,4 =
-1,4

1-1,4 =
-0,4

Resduo elevado
ao quadrado

(-1,4)2 =

(-0,4)2 =
0,16

1,96

1
1-1,4 =
-0,4

2-1,4 =
+0,6

3-1,4 =
+1,6

(-1,4)2 =

(+0,6)2 =

(+1,6)2 =

0,16

0,36

2,56

Se somarmos os resduos elevados ao quadrado teremos a soma dos quadrados dos resduos
n

( ( Xi -X )2 ), uma mtrica que aparece em vrias outras anlises estatsticas. Quanto maior
i =1

a soma dos quadrados dos resduos, maior a variabilidade dos dados! Para resumir essa
mtrica, calculamos a sua mdia, que chamada de varincia amostral ( s2 ):
n

s2 = ( Xi -X )2
i =1

n-1
Nessas frmulas, Xi representa cada um dos dados individuais, X a mdia e n o tamanho da
amostra ou total de dados. Observe que, no denominador, dividimos a soma dos quadrados
dos resduos por (n - 1) e no por ( n ). Isso feito porque nossos dados foram obtidos por
meio de amostragem e no por censo. Ou seja, sempre que tivermos dados amostrais, que
a situao mais comum, calcularemos a varincia amostral dividindo a soma dos quadrados
dos resduos por (n - 1). Se tivermos acesso populao toda, ou melhor, se fizermos um
2

censo (o que muito raro), ento poderemos calcular a varincia populacional ( ), dividindo
a soma dos quadrados dos resduos por (n):
2

= ( Xi -X )2
i =1

042

unidade 2

ESTATSTICA E PROBABILIDADES

importante se lembrar dessa diferena, pois ela aparece nas calculadoras cientficas e no
2

Excel, que permite o clculo tanto de s2 quanto de . Na prtica (e na dvida), sempre calcule
a varincia amostral (s2).
Uma outra mtrica de variabilidade o desvio padro amostral (s). Ele a raiz quadrada da
varincia e tem uso mais difundido que sua me (s2), porque, ao tirarmos a raiz quadrada
da varincia, o resultado tem a mesma unidade de medida que a mdia e os dados originais.
Assim, no exemplo anterior, do nmero de filhos da amostra de n=5 pessoas, a varincia
amostral :

O desvio padro amostral :

muito comum, ao divulgarmos uma sntese de uma varivel quantitativa, apresentarmos a


sua mdia, seguida do seu desvio padro no formato ( X = s ). Ou seja, no exemplo anterior,
essas pessoas tm 1,4 = 1,1 filhos.
Cuidado, isso no significa que os dados variem somente dentro do intervalo X = s , de 1,4
1,1 = 0,3 at 1,4 + 1,1 = 2,5 filhos! Essa apenas uma forma usada para apresentar ambos os
valores, de mdia ( X ) e desvio padro (s). Na verdade, se os dados tiverem um histograma
de forma simtrica, aproximadamente 95% dos dados ocorrero dentro do intervalo definido
pela mdia mais ou menos dois desvios padres ( X = 2s ), e 99,7% dentro da mdia mais ou
menos trs desvios padres ( X = 3s ). Se no tivermos como avaliar a forma de distribuio
dos dados, ou seja, se no soubermos o padro do histograma dos dados, pelo menos 89%
dos dados cairo no intervalo X = 3s .
Supondo que voc j consiga calcular o desvio padro ( s ) de um conjunto de dados, como
interpretar o seu resultado? fato que, quanto maior o desvio padro, maior a variabilidade

043

unidade 2

ESTATSTICA E PROBABILIDADES

dos dados. Mas, o que um desvio padro grande? Essa resposta depende da magnitude da
mdia ( X ), isto , para sabermos se um desvio padro grande ou pequeno, vai depender do
valor da mdia. Por exemplo, sejam os resultados das provas de um atleta, resumidos abaixo:
Tempo para correr 100 metros: X = 11,5 e s = 2,1 segundos;
Salto em altura: X = 2,2 e s = 0,8 e metros.
Em qual prova, salto em altura e tempo para 100 m, o atleta mais heterogneo, tem os
resultados com maior variabilidade? Se voc responder essa questo comparando os dois
desvios padres, estar cometendo dois erros:
1 No se pode comparar diferentes unidades de medida (s versus m);
2 Deve-se considerar a magnitude da mdia ao se avaliar um desvio padro.
Ento, como efetivamente obter o grau de variabilidade de uma varivel? Isso feito pelo
coeficiente de variao (cv), uma relao percentual entre o desvio padro e a mdia:
s
cv = x x 100 (%).
Alm de ser uma medida adimensional, o que possibilita comparaes entre diferentes
variveis, o CV pode ser interpretado de forma absoluta:
QUADRO 2 Definio e interpretao do grau de variabilidade de um conjunto de dados.
CV

INTERPRETAO

CV <= 20% Dados com pouca variabilidade, bem comportados, homogneos. A


varivel tem um comportamento bem previsvel.
20 < CV <= 30% Dados com variabilidade intermediria.
CV > 30% Dados com muita variabilidade, heterogneos. A varivel tem um
comportamento muito imprevisvel.
CV > 100% Neste caso, o desvio padro maior que a mdia. Dados com
variabilidade extrema, muito heterognea. A varivel tem um
comportamento catico, completamente imprevisvel.
Fonte: Elaborado pelo autor.

044

unidade 2

ESTATSTICA E PROBABILIDADES

No caso do atleta, teremos os seguintes valores de coeficiente de variao:


Tempo para correr 100 metros: cv =
Salto em altura: cv =

2,1
x 100 = 19%;
11,5

0,8
x 100 = 36%;
2,2

Podemos dizer ento que o atleta tem pouca variabilidade nos seus resultados da corrida de
100 m e muita variabilidade nos saltos em altura.

LEMBRE
Quando voc fizer uma anlise exploratria de dados, lembre-se de corrigir os grficos produzidos pelo
Excel. Lembre-se tambm de colocar os ttulos das tabelas e das figuras o mais informativo possvel.
E, ao calcular o desvio padro, no se esquea de considerar que voc tem dados amostrais. Confira
na sua calculadora e/ou no prprio Excel qual a frmula que est sendo usada. Resuma os dados por
meio de grficos, nmeros e tabelas. Esse o primeiro e fundamental passo para entender os dados e
o problema investigado.

A anlise exploratria dos dados o primeiro passo para que voc se torne especialista na
rea investigada. Suas ferramentas de anlise no produzem concluses definitivas sobre um
problema, mas possibilitam que hipteses sejam construdas de forma consistente.

APLICAO

PRTICA

O artigo Avaliao do impacto do Clculo Zero no desempenho de alunos ingressantes de cursos de


Engenharia, apresentado em 2013 por COUTO e cols. no COBENGE - Congresso Brasileiro de Educao
em Engenharia, teve como objetivo avaliar o impacto do Clculo Zero no desempenho de alunos
ingressantes em cursos de Engenharia e Cincia da Computao, tanto em termos da nota final em
Clculo Diferencial e Geometria Analtica e lgebra Linear (GAAL), quanto na chance de aprovao
nessas disciplinas. As perguntas-chave do trabalho eram: O Clculo Zero afeta de forma significativa
o resultado dos alunos nas disciplinas obrigatrias de Clculo Diferencial e GAAL? Vale a pena investir

045

unidade 2

ESTATSTICA E PROBABILIDADES

em projetos de Clculo Zero? Quais so os fatores, as caractersticas que afetam o desempenho dos
alunos nessas duas disciplinas?
Vrias tcnicas de anlise exploratria de dados foram utilizadas no artigo. Por exemplo, usando um
grfico de linhas, uma srie temporal, mostrou-se no artigo a elevao no nmero de matrculas nas
duas disciplinas-alvo do trabalho, Clculo Diferencial e GAAL:

FIGURA 19 - Evoluo do nmero de alunos matriculados e o percentual de aprovados


em Clculo Diferencial e GAAL. Entre o 2 semestre de 2009 e o 2 semestre de 2012, o
percentual de aprovao em ambas as disciplinas apresentou elevao, principalmente em
Clculo Diferencial. O nmero de alunos matriculados nas disciplinas tambm aumentou de
forma importante no perodo, principalmente aps o 1 semestre de 2011.

Fonte: COUTO et al., 2013.

Um diagrama de disperso foi construdo mostrando claramente o efeito das faltas s aulas na nota
final de Clculo Diferencial:

046

unidade 2

ESTATSTICA E PROBABILIDADES

FIGURA 20 Grfico de disperso considerando o percentual de faltas/ausncias


s aulas de Clculo Diferencial e a nota final do aluno nessa disciplina: anlise
considerando somente alunos em que foram registradas pelo menos uma falta
s aulas durante o semestre. H uma forte correlao negativa (r= -0,77) entre
ausncias s aulas e a nota final do aluno: quanto mais faltas s aulas o aluno tiver,
menor a sua nota final em Clculo Diferencial. IET/ UniBH, 1 semestre de 2011.

Fonte: COUTO et al., 2013.

Alm de grficos, tabelas com a sntese numrica dos dados coletados no estudo tambm foram
apresentadas no artigo. O uso dessas ferramentas estatsticas de anlise de dados mostrou de forma
inequvoca que valia a pena implementar aes como o Clculo Zero, pois o fato de se ofertar essa
disciplina afetava o resultado dos alunos nas disciplinas obrigatrias de Clculo Diferencial e GAAL.
Esse um exemplo real de como usar a anlise exploratria dos dados e outras tcnicas de
Estatstica e Probabilidades para se entender a fundo um problema, resolvendo-o e se tornando um
especialista na rea.
Referncia:
XLI CONGRESSO BRASILEIRO DE EDUCAO EM ENGENHARIA, 2013. Avaliao do Impacto do Clculo Zero no
Desempenho de Alunos Ingressantes de Cursos de Engenharia. Paran: FADEP, 2013. Disponvel em: <http://www.
fadep.br/engenharia-eletrica/congresso/pdf/116280_1.pdf>. Acesso em 14 maio 2015.

047

unidade 2

ESTATSTICA E PROBABILIDADES

REVISO

coisas realmente conhecidas.

Vimos nesta unidade os principais tpicos


da anlise exploratria de dados, tambm
denominada de Estatstica Descritiva:

Sntese numrica: O resumo de uma


varivel categrica muito simples, basta
que voc apresente suas categorias, a

Sntese grfica: Uma figura vale mais que


mil palavras! Isso verdade, entretanto
um grfico vale mais que mil palavras se
e somente se ele for desenhado de forma
clara, correta e concisa. Sempre desenhe
grficos a partir de seus dados, mas tente

frequncia de valores em cada categoria


e os respectivos percentuais. J a sntese
de variveis quantitativas mais ampla e
envolve resumir dois aspectos:
1) Um valor tpico ou caracterstico para a
varivel, que definido pela mdia ( X ) e

faz-los de tal forma que a frase basta

pela mediana (Md). Se mdia e mediana

olhar para entender seja vlida. Os grficos

forem semelhantes, ento a mdia deve

mais teis para anlise de dados de

ser usada para representar os dados.

experimentos de pequeno e mdio porte na

Entretanto, caso haja discrepncia muito

rea de Cincias Exatas e Engenharia so:

grande entre mdia e mediana, ento se

grficos de pizza, barras, colunas, linha,

deve usar a mediana para representar os

sries histricas, histograma, grfico de

dados;

Pareto, grfico misto, de coluna e de linha,


diagrama de disperso e box-plot. Na
prtica devemos construir grficos usando

2) Uma medida do grau de variabilidade ou


de disperso dos dados, calculada pelo

ferramentas computacionais como o Excel.

desvio padro amostral ( ) e o coeficiente


de variao (CV).

Sntese tabular de dados: Na anlise


exploratria de dados, em ltima instncia,
todos os resultados so apresentados ou

PARA SABER

na forma de figuras ou de tabelas. Assim,

MAIS

invista no ttulo da tabela e sempre coloque


respostas claras para pelo menos quatro
perguntas: O que? Quem? Quando? Onde?

Caso voc deseje aprofundar sobre as questes

Tambm sugiro que a interpretao das

discutidas nesta unidade, leia os captulos 2 e 3

informaes na tabela seja colocada no

do livro texto: LEVINE, David M. et al. Estatstica:

prprio ttulo. Se necessrio, coloque notas

teoria e aplicaes: usando Microsoft Excel em

explicativas, usando siglas somente para

portugus. 6. ed. Rio de Janeiro: LTC, 2012,

048

unidade 2

UNIDADE

INTRODUO

TEORIA DE PROBABILIDADES

origem da teoria das probabilidades comumente associada questes colocadas


por MR (1607-1684) a PASCAL (1623-1662). Todavia, existem autores que
sustentam que o clculo das probabilidades iniciou-se na Itlia, com PACCIOLI

(1445-1514), CARDANO (1501-1576), TARTAGLIA (1499-1557) e GALILEO (1564-1642),


dentre outros.

Contudo, foi ADOLPHE QUTELET (1796 1874) o pioneiro na tarefa de mensurar, ou seja,
quantificar uma pequena amostra do universo de interesse da investigao, almejando inferir
sobre toda a populao em estudo, baseando-se em anlises probabilsticas e embasando-se
em rigorosos mtodos cientficos.
A teoria das probabilidades, porm, s comea a fazer sentido nas engenharias por volta
de 1930, quando surgem os primeiros trabalhos prticos destinados aos engenheiros. O
primeiro foi executado pelo matemtico WILLIAM GOSSET (1876 1937), com a aplicao das
probabilidades no Controle de Qualidade em uma fbrica de Cervejas.
A teoria das probabilidades uma importante rea da estatstica que possibilita ao profissional
no mercado de trabalho calcular percentuais, trabalhar com estimativas e realizar predies
em toda e qualquer rea do conhecimento. No que tange s Engenharias, a probabilidade
est presente no controle de processos de produtos e servios, permitindo estimar o risco e o
acaso de eventos futuros. Tambm amplamente utilizada no que tange ao planejamento de
novas tcnicas e estratgias de produo e vendas, dentre outras.

050

unidade 3

ESTATSTICA E PROBABILIDADES

Suponha que voc o engenheiro responsvel pela qualidade na linha de produo de uma
grande marca de bebidas. Sabe-se que no possvel experimentar todos os produtos
antes de disponibiliz-lo ao mercado, pois ningum compraria uma bebida j provada, e que
o processo de fabricao composto por etapas, por interferncias dos funcionrios, por
equipamentos (que podem estar ou no muito bem regulados), e por uma srie de outros
fatores controlveis ou no, como at mesmo uma simples umidade excessiva no ambiente de
fabricao devido ao perodo chuvoso. No entanto, voc pode suspeitar que um determinado
lote, devido variabilidade inerente ao processo, apresente um percentual de itens no
conformes maior que o permitido pelos rgos fiscalizadores.
A teoria das probabilidades vem auxili-lo nesse processo de tomada de deciso, permitindo
inferir sobre a populao em estudo, ou mesmo sobre eventos que ainda iro ocorrer,
estimando as chances de sucesso do mesmo.

A TEORIA DAS

PROBABILIDADES
A teoria das probabilidades nasce na Idade Mdia com os tradicionais jogos de azar existentes
na Corte. Jogos de cartas e dados, ou mesmo os lanamentos de moeda so classificados
como fenmenos que envolvem o acaso, assim como a maioria dos jogos esportivos. Uma
aplicao direta da teoria das probabilidades no campo das Engenharias o processo de
deciso, seja para aumentar o investimento ou cortar despesas, no qual o profissional do
mercado de trabalho deve arriscar-se mantendo os ps no cho.

CONCEITO
Um dos principais conceitos matemticos amplamente estudado no que diz respeito teoria das
probabilidades o de conjunto. Um conjunto pode ser definido como uma coleo de objetos, itens ou
servios que possuem caracterstica (s) comum (s).
No contexto da teoria das probabilidades, o conjunto de todos os resultados possveis a ser estudado
em um experimento aleatrio denominado espao amostral.
Espao Amostral () qualquer conjunto de todos os possveis resultados em um experimento aleatrio.

051

unidade 3

ESTATSTICA E PROBABILIDADES

Sendo definido como experimento todo e

temos duas possibilidades (cara ou coroa)

qualquer resultado que sugere a incerteza

em cada lanamento, portanto o espao

antes da observao, ou seja, fenmenos

amostral () dado por:

que,

mesmo

repetidos

vrias

vezes

sob

= ( possibilidades )(repeties)= 23 = 8

condies semelhantes, apresentam resultados


imprevisveis

(acaso).

Os

resultados

dos

experimentos so nomeados estatisticamente

Se tivermos eventos distintos, como no

como eventos.

lanamento de um dado e uma moeda, o

Um Evento Aleatrio (E) qualquer subconjunto


de um espao amostral.

das probabilidades por definir o espao


de interesse da investigao, permitindo
ao pesquisador de toda e qualquer rea
do conhecimento fazer inferncias sobre
o todo a partir da parte estudada. Pode
ser definido de acordo com o evento de
interesse da investigao, podendo ser
caracterizado por: (1) o mesmo evento
repetidas vezes; ou (2) eventos distintos; ou
(3) eventos aleatrios.

no

lanamento

No lanamento de uma moeda e um dado,


temos duas possibilidades da moeda (cara
ou coroa) e seis possibilidades do dado
(os nmeros inteiros de 1 a 6). Portanto, o
espao amostral () dado por:
= ( possibilidades ) . ( possibilidades ) =
2.6 = 12
Se tivermos eventos aleatrios, como o
nmero de funcionrios ausentes em um

Se tivermos o mesmo evento repetidas


como

da quantidade de possibilidades de cada


evento, como:

O espao amostral () essencial na teoria

vezes,

espao amostral () dado pelo produto

de

um

dado ou de uma moeda, ou mesmo nas


possibilidades de filhos de um casal, ou
de peas defeituosas em uma linha de
produo, o espao amostral () dado
pelas possibilidades do evento elevado
ao nmero de repeties realizadas, por
exemplo:
No lanamento de uma moeda trs vezes,

dia de trabalho de uma determinada linha


de produo, ou mesmo o nmero de
caminhes presentes em uma determinada
rota, no h um modelo matemtico que
simplifique a mensurao dos elementos
que compem esse espao amostral.

preciso

apelar

para

princpio

fundamental da contagem, ou seja, o


servio braal.
Os eventos que compem o espao
amostral podem ser classificados de acordo

052

unidade 3

ESTATSTICA E PROBABILIDADES

com a sua ocorrncia. Os eventos nos quais

do que tem, ou seja:

cada elemento do banco de dados pode

Probabilidade = Quer
Tem

ocorrer com a mesma probabilidade so

20 passo
10 passo

chamados de eventos equiprovveis.


Existem duas restries aplicao da
Eventos Equiprovveis so aqueles cujos

definio da probabilidade clssica: (1)

todos os elementos do banco de dados

todos os eventos possveis devem ter a

tm a mesma probabilidade de ocorrncia.

mesma probabilidade de ocorrncia, ou


seja, os eventos devem ser equiprovveis e

Os

eventos

so

classificados

como

mutuamente exclusivos, se eles no

(2) deve-se ter um nmero finito de eventos


possveis.

puderem ocorrer simultaneamente, ou


seja, A B= .

LEIS BSICAS DE

Se E = , E chamado de evento certo.

PROBABILIDADES

Se E = , E chamado de evento impossvel.


Para qualquer evento E de um espao
amostral : 0 P ( E ) 1;

PROBABILIDADE
CLSSICA E

P ( ) = 1;

PROBABILIDADE
FREQUENTISTA

P ( Ac ) = 1 - P ( A ), sendo Ac o evento
complementar ao evento A;

A probabilidade de realizao de um evento


A dada pelo quociente entre o nmero de

LEMBRE

ocorrncias de A pelo nmero de eventos


possveis, ou seja:
P(A)=

nmero de orcorrncias de A
espao amostral ()

As operaes com os eventos utilizam as


mesmas propriedades matemticas, ou seja:

A probabilidade pode ser resumida como


o quociente do que se quer pelo que se
tem. Na qual primeiro determina-se o que
possvel ter e depois retira o que se quer
do que se tem, no podendo querer mais

053

unidade 3

ESTATSTICA E PROBABILIDADES

QUADRO 3 Leis Matemticas


PROPRIEDADE

DESCRIO MATEMTICA

Associatividade

(AB)C=A(BC)
(AUB)UC=AU(BUC)

Comutatividade

AB = BA
AUB = BUA

Distributividade

(AB)UC=(AUC)(BUC)
(AUB)C=(AC)U(BC)

Absoro

ACB AB=A
ACB AB=B

Modulares

A = A
A =
A =
A =A
AB = AUB
AUB = AB

Leis de De Morgan

A=A

Dupla negao

Fonte: Elaborado pelo autor.

UNIO E INTERSEO

DE EVENTOS

A unio de dois eventos A e B, indicada por A U B, o evento que contm todos os elementos
de A e todos os elementos de B.
P(AUB)=P(A)+P(B)-P(AB)
P ( A U B ) = P ( A ) + P ( B ), se A e B so mutuamente exclusivos;
A interseo de dois eventos A e B, indicada por AB, o evento que contm todos os elementos
comuns a A e B.
P(A B) = P(B). P(A | B)

054

unidade 3

ESTATSTICA E PROBABILIDADES

Sendo P ( A | B ), a probabilidade condicional, ou seja, a probabilidade de A ocorrer sabendo


que o evento B ocorreu.
TABELA 12 Tipo Sanguneo
TIPO SANGUNEO

AB

TOTAL

Positivo

156

139

37

12

344

Negativo

28

25

65

Total

184

164

45

16

409

Fonte: Elaborado pela autora.

A probabilidade de o doador ter tipo sanguneo O ou A dada por:


184 + 164 = 0,8508
409
A probabilidade de o doador ter tipo sanguneo B ou ser Rh negativo dada por:
45 + 65 - 8 = 0,2494
409

CONCEITO
Dois ou mais eventos podem ser classificados como mutuamente exclusivos quando a realizao de um
exclui a realizao do (s) outro (s). No lanamento de uma moeda, o evento "tirar cara" e o evento "tirar
coroa" so mutuamente exclusivos, j que a realizao de um deles implica, necessariamente, na no
realizao do outro.
Portanto, em eventos mutuamente exclusivos, a probabilidade de que um ou outro se realize igual
soma das probabilidades de que cada um deles se realize.

055

unidade 3

ESTATSTICA E PROBABILIDADES

classificados nas duas categorias. O que

DICAS

se almeja saber : o tratamento alterou


significativamente a proporo de objetos
em cada uma das duas categorias?

Eventos mutuamente exclusivos no a mesma


coisa de eventos independentes. O primeiro

EXEMPLO

utilizado quando apenas um dos eventos pode


ocorrer, excluindo qualquer probabilidade de
ocorrncia do outro. J o segundo utilizado
quando a ocorrncia de um dos eventos no

Em relao pratica apresentada no incio

afeta a ocorrncia do outro.

dessa unidade, suponha que em uma amostra

Exemplo: Um grupo de alunos que usa culos


independente do nmero de alunos do sexo
masculino em sala de aula, mas no so eventos
mutuamente exclusivos, pois possvel ter
alunos do sexo masculino em sala de aula que
usam culos.

de 2000 produtos disponibilizados ao mercado,


sejam 800 refrigerantes e 1200 cervejas, dos
quais 5 e 10 apresentaram algum tipo de
defeito, respectivamente, seja no rtulo da
embalagem, no volume lquido ou qualquer
outro tipo de avaria. A tabela 1 apresenta uma
tabela de contingncia para melhor visualizar
esses dados.

TABELAS DE

CONTINGNCIA
As tabelas de contingncia so aplicadas na
avaliao do relacionamento das categorias
com respeito aos grupos segundo dois
modos: independncia ou homogeneidade.
Ou seja, eventos com dupla entrada.
A aplicao de tabela de contingncia
dois por dois dada quando n elementos,
selecionados

aleatoriamente

de

uma

populao, so classificados em duas


categorias. Depois dos elementos serem
classificados, um tratamento aplicado
e alguns so examinados novamente e

056

unidade 3

ESTATSTICA E PROBABILIDADES

TABELA 13 - Produtos Disponibilizados


CERVEJA

REFRIGERANTE

TOTAL

Bom

1190

795

1985

Defeito

10

15

Total

1200

800

2000

Fonte: Elaborado pela autora.

A partir dessa tabela, possvel estimar que a probabilidade dessa empresa disponibilizar um
produto (dentre cervejas e/ou refrigerantes) no mercado com algum tipo de defeito dada por:
P (defeito) = 15 = 0,0075
2000
Portanto, apenas 0,75% dos produtos disponibilizados por essa empresa apresentam algum
tipo de defeito.

IMPORTANTE
A tabela de contingncia um processo de organizar a informao correspondente a dados dicotmicos.
De uma maneira geral, uma tabela de contingncia uma representao dos dados, quer de tipo
qualitativo, quer de tipo quantitativo, especialmente quando so de tipo bivariado, isto , podem ser
classificados segundo dois critrios.

EVENTOS

INDEPENDENTES
Um ou mais eventos pode (m) ser classificado (s) como independente (s) quando a realizao
de um dos eventos no afeta a probabilidade de ocorrncia do outro, e vice-versa.
Quando dois eventos so independentes, P ( A B ) = P ( A ) . P ( B ).

057

unidade 3

ESTATSTICA E PROBABILIDADES

EXEMPLO
Nota na prova e ter feito a prova de chinelo;
O valor de venda de um produto e a cor do cabelo das funcionrias que o fabricaram.

TEOREMA

DE BAYES
A probabilidade condicional, ou seja, as chances de um evento A ocorrer, dado que outro
evento B ocorreu, dada por:
P(A|B)=

P(AB)
P(B)

para P ( B ) > 0.
O teorema de Bayes prope que, se os eventos E1,E2,,En so parties do espao
amostral , ento:
P ( Ei | B ) =

P ( B | Ei ) . P ( Ei )
P(B)

Recorrendo lei de probabilidade total, possvel inferir que:


P ( Ei | B ) = ( P ( B | Ei ) . P ( Ei )
P ( B | Ej )

CONCEITO
Seja B1, B2, , Bn um conjunto de eventos mutuamente exclusivos cuja unio forma o espao amostral .
Seja E outro evento no mesmo espao amostral , tal que P ( E ) > 0, ento:
P ( E ) = P ( E | B1 ) + P ( E | B2 ) + P ( E | B3 ) + ...+ P ( E | Bn )
P ( E ) = P ( B1 ) . P ( E | B1 ) + P ( B2 ) P ( E | B2 ) + P ( B3 ) P ( E | B3 ) + ...+ P( Bn ) P ( E | Bn )

058

unidade 3

ESTATSTICA E PROBABILIDADES

Portanto,

uma simples umidade excessiva no ambiente


de fabricao devido ao perodo chuvoso. Voc

P ( E ) = P ( Bi ) . P ( E | Bi )

pode suspeitar que um determinado lote, devido


variabilidade inerente ao processo, apresente
um percentual de itens no conformes maior que

EXEMPLO

o permitido pelos rgos fiscalizadores?

Numa sala de aula, sabe-se que 10% dos


homens e 2% das mulheres tm mais de 1,80 m.
A sala tem 70% de mulheres e 30% de homens.
Um estudante foi escolhido aleatoriamente, e
constatou-se que tem mais de 1,80 m. Qual a
probabilidade de que seja homem?

Se a empresa aqui citada produzir dois lotes


com duas mil unidades em cada por semana,
distribudas entre 1000 cervejas, 600 refrigerantes
e 400 sucos por lote, com aproximadamente
0,2, 0,1 e 0,15 por cento de itens defeituosos,
respectivamente, podemos utilizar a teoria das

0,10 . 0,70
= 0,9211
0,10.0,70+0,02.0,30

probabilidades para responder questes como:


a) Qual o percentual de refrigerantes


distribudos semanalmente?

APLICAO

PRTICA

b) Qual a probabilidade do consumidor


adquirir um suco?

A teoria das probabilidades pode auxiliar

c) Dentre

as

cervejas,

qual

facilmente a resolver o problema proposto no

probabilidade do consumidor adquirir

incio dessa unidade. Vejamos:

uma cerveja com defeito?

Suponha que voc o engenheiro responsvel

d) Dentre os sucos, qual a probabilidade

pela qualidade na linha de produo de uma

do consumidor adquirir um suco sem

grande marca de bebidas. Est ciente de que

defeito do primeiro lote?

no possvel experimentar todos os produtos


antes de disponibiliz-lo ao mercado, pois

e) Sabendo que foi adquirido um produto


com defeito, qual a probabilidade de

ningum compraria uma bebida j provada, e

ser um suco?

que o processo de fabricao composto por


etapas, por interferncias dos funcionrios, por

Para responder essas questes, utilizamos a

equipamentos (que podem estar ou no muito

probabilidade clssica para responder o item (a);

bem regulados), e por uma srie de outros

a unio de probabilidades para responder o item

fatores controlveis ou no, como at mesmo

(b); a probabilidade condicional para responder o

059

unidade 3

ESTATSTICA E PROBABILIDADES

item (c); e o teorema de Bayes para responder o item (d). Ou seja:


a) P (refrigerante ) = 1200 =0,30 = 30%


4000

b) P (suco) = 400 + 400 = 0,40 = 40%


2000 2000

Observe que, neste caso, tanto faz se o consumidor adquirir um suco do primeiro lote ou do segundo
lote, independente da ordem de ocorrncia do evento.
P (cerveja com defeito )

c) P ( defeitocerveja ) =

d) P ( suco sem defeito do primeiro lote | suco ) =

P ( cerveja )

0,5. 0,2 . 0,85

0,2.1000 + 0,2 * 1000


1000 + 1000

= 0,0850 = 0,5

0,5.0,2.0,85+0,5.0,2.0,85

0,1700

060

unidade 3

400
2000

= 0,20

ESTATSTICA E PROBABILIDADES

P ( suco com defeito defeito ) =

2. (0,5 . 0,2 . 0,15 )


2. ( 0,5 . 0,2 . 0,15 + 0,5 .0,3 .0,1 + 0,5 .0,5 .0,2

= 0,0150 = 0,1875
0,0800

REVISO
A teoria das probabilidades utilizada em todas as reas do conhecimento. Ela visa auxiliar
o profissional no mercado de trabalho a predizer valores futuros, estimando as chances de
ocorrncia de um evento antes que ele ocorra.
Para calcular a probabilidade, basta dividir o que se quer pelo que se tem, ou seja:
Probabilidade = Quer
Tem

20 passo
10 passo

Sendo imprescindvel, primeiro, definir o que se tem para somente depois retirar do que se
tem o que se quer.
Quando a ocorrncia de um evento no afeta a realizao ou no de um outro evento, eles so
classificados como eventos independentes.
O Teorema de Bayes aplicado em situaes cuja a probabilidade de ocorrncia de um evento
est vinculada s chances de sucesso de um outro evento.

061

unidade 3

ESTATSTICA E PROBABILIDADES

cartas. Ele recrutado para integrar o grupo dos

PARA SABER

mais talentosos estudantes da escola, que todos

MAIS

os fins-de-semana vo a Las Vegas, com falsas


identidades e com as suas mentes brilhantes,

Filmes

so capazes de aumentar em grande escala as

A Probabilidade Estatstica do Amor Primeira


Vista (Adaptado)

probabilidades de ganhar no blackjack.


Alm disto, ainda contam com o professor
de matemtica (e gnio da estatstica) Micky

Jennifer E. Smith

Rosa (Kevin Spacey) como lder. A contagem

Com uma certa atmosfera de 'Um dia', mas voltado

das cartas e um, muito bem definido esquemas

para o pblico jovem adulto, a probabilidade

de sinais, que permitem equipa vencer nos

estatstica do amor primeira vista uma

grandes cassinos. Seduzido pelo dinheiro e pelo

histria romntica, capaz de conquistar fs de

estilo de vida de Vegas, e pela sua inteligente

todas as idades. Quem imaginaria que quatro

e sexy amiga Jill Taylor (Kate Bosworth), Ben

minutos poderiam mudar a vida de algum?

comea a ir at ao limite.

Mas exatamente o que acontece com Hadley.


Presa no aeroporto em Nova York, esperando
outro voo depois de perder o seu, ela conhece
Oliver. Um britnico fofo, que se senta a seu lado
na viagem para Londres. Enquanto conversam
sobre tudo, eles provam que o tempo , sim,
muito, muito relativo. Passada em apenas 24
horas, a histria de Oliver e Hadley mostra que
o amor, diferentemente das bagagens, jamais se

Apesar da contagem da carta no ser ilegal,


o risco cada vez mais elevado e o grande
desafio prende-se agora com, no s manter
a contagem correta, mas tambm enganar o
chefe de segurana dos casinos: Cole Williams
(Laurence Fishburne).
Quebrando a Banca. Direo: Robert Luketic.
EUA: Sony Pictures, 2008. (123 min), son., color.,
legendado.

extravia.
SMITH, Jennifer E. A Probabilidade Estatstica do
Amor Primeira Vista. Rio de Janeiro: Galera Record,
2013

Quebrando a banca (Adaptado).


Ben Campbell (Jim Sturgess) um brilhante
estudante do M.I.T. (Instituto Tecnolgico de
Massachusetts). O seu nico problema no ter
dinheiro para pagar as contas escolares, mas
a soluo est onde ele menos esperava: nas

062

unidade 3

UNIDADE

MODELOS
PROBABILSTICOS

ssim como a Matemtica, tambm a Estatstica apresenta funes que norteiam


o comportamento de suas variveis, como as retas, parbolas e hiprboles.
Na Estatstica temos os modelos probabilsticos. Esses modelos so funes

paramtricas que descrevem o comportamento de uma varivel em estudo.

064

unidade 4

ESTATSTICA E PROBABILIDADES

VARIVEIS

que resultam de processos aleatrios nos

ALEATRIAS

quais os resultados possveis so casuais e


formam um conjunto enumervel.

O estudo das variveis aleatrias de suma


importncia nas engenharias ou mesmo

So classificadas como variveis contnuas

em qualquer outra rea do conhecimento

as funes para as quais possvel associar

tcnico e cientfico. Isso porque, nem

infinitos valores a um intervalo ( a, b ), sendo

sempre, os dados que compem o estudo

que para valores que no pertencem ao

estatstico so nmeros, sendo necessrio

intervalo no qual se limita o experimento, a

descobrir um meio de transform-los em

probabilidade de ocorrncia zero.

nmeros, a partir de uma funo chamada


de varivel aleatria, visando facilitar a
estimativa das medidas estatsticas.

VARIVEIS

DISCRETAS

CONCEITO

funo P ( x ) aquela nas quais se


associam probabilidades aos valores da
varivel aleatria X abordada no estudo
estatstico. Ou seja, quando uma varivel

Probabilidade
Seja

um

experimento

aleatrio

qualquer

de um espao amostral e um espao de


probabilidades P. Ento a varivel aleatria X
no espao de probabilidade uma funo real
definida no espao amostral , tal que ( X x )
um evento aleatrio para qualquer x real.

As

variveis

aleatrias

podem

aleatria X assume os valores x1,x2,x3,,xn


com as respectivas probabilidades p ( x1 ),
p ( x2 ), p ( x3 ) ,, p ( xn ) definidas por uma P
( X ), na qual a soma de todas as possveis
probabilidades igual a um, conforme
apresentado na tabela 14, ou seja:

ser

classificadas como contnuas ou discretas,


de acordo com o domnio da varivel
abordada no estudo. So classificadas
como variveis discretas as funes para as
quais possvel associar um nico nmero
real a cada evento de uma partio do
espao amostral . Portanto so variveis

065

unidade 4

ESTATSTICA E PROBABILIDADES

TABELA 14 - Distribuio de probabilidades discretas


X

x1 x2 x3 ... xn

P (X) p ( x1 ) p ( x2 ) p ( x3 ) ... p ( xn )
Fonte: Elaborado pelo autor.

Para uma distribuio discreta de probabilidades, possvel definir a funo acumulada


indicada por F ( x ) = P ( X xi ), ou seja, a probabilidade da varivel aleatria assumir valores
menores ou iguais a xi.
O valor esperado, indicado por E ( x ) = , a esperana matemtica de uma varivel aleatria
discreta X que assume os valores x1, x2, x3, , xn com as respectivas probabilidades p ( x1 ), p ( x2 ),
p ( x3 ),, p ( xn ) definidas por uma P ( Xn ), ou seja, igual ao valor mdio da varivel:
E ( x ) = x1 . p ( x1 ) + x2. p ( x2 ) + x3 .p ( x3 )+...+ xn. p (xn)
n

E (x) = xi . p ( xi )
i =1

DICAS
O valor esperado, indicado por E (x) = , a mdia de uma varivel discreta.

A varincia, ou seja, a medida estatstica que concentra as probabilidades em torno da mdia


indicada por Var ( x ) ou 2 e dada por:
Var ( x ) = E ( x2 ) - [ E ( x ) ] 2
sendo E ( x ) o valor esperado, e E (x2 ) dada por:
E ( x2 ) = x12 . p ( x1 ) + x22. p ( x2 ) + x32 . p ( x3 ) + ... + xn2 . p ( xn )
n

E ( x2 ) = xi . p ( xi )
i =1

066

unidade 4

ESTATSTICA E PROBABILIDADES

DICAS
O desvio padro indicado por DP ( x ) = a raiz da varincia, ou seja:
DP ( x ) =

Var ( x )

Para uma varivel aleatria n-dimensional (tambm chamada de vetor aleatrio), com n=2,
denota-se por ( X,Y ) o vetor aleatrio, sendo:
TABELA 15 - Distribuio discreta
VALORES ASSOCIADOS
VARIVEL X

P(Y)

Valores associados
varivel Y

Probabilidade conjunta
P ( X, Y )

Probabilidade
marginal de Y

P(X)

Probabilidade marginal de X

Pois P
(X,Y) uma
f.d.p.

Fonte: Elaborado pelo autor.

IMPORTANTE
S possvel realizar anlises estatsticas sobre distribuies que sejam uma funo densidade de
probabilidade, ou seja, f.d.p. Dizemos que uma ou mais variveis so uma f.d.p. quando a soma de todas
as probabilidades que compem o evento em estudo igual a 1, ou seja, 100%. Portanto, uma ou mais
variveis podem ser classificadas como f.d.p. quando:
n

p ( xi ) = p ( x1) + ( x2 ) + p ( x3 ) + ... + p ( xn ) = 1

i =1

067

unidade 4

ESTATSTICA E PROBABILIDADES

ATENO
As probabilidades so sempre dispostas paralelamente s suas variveis na construo da tabela
bidimensional. Portanto, se invertermos as posies de X e Y na tabela anterior, teremos a seguinte
distribuio de probabilidades:

TABELA 16 - Distribuio discreta


VALORES ASSOCIADOS
VARIVEL Y

P(X)

Valores associados
varivel Y

Probabilidade conjunta
P ( X, Y )

Probabilidade
marginal de X

P(Y)

Probabilidade marginal de Y

Pois P
(X,Y) uma
f.d.p.

Fonte: Elaborado pelo autor.

O valor esperado da distribuio conjunta, indicado por E ( X, Y), dado pelo produto entre
cada valor associado varivel X, com cada valor associado varivel Y e sua respectiva
probabilidade conjunta, ou seja:
n

E ( X, Y ) = xi . yj . p ( xi , yj )
i =1 j =1

E ( X, Y ) = a . d . p ( a , d ) + b . d . p ( b, d ) + c . d . p ( c, d ) + a . e . p ( a, e ) + b . e . p ( b , e ) +
+ c . e . p ( c, e ) + a . f . p ( a, f ) + b . f . p ( b, f ) + c . f . p ( c, f )
Para a tabela de distribuio a seguir:
TABELA 16 - Distribuio discreta
X

P(Y)

P (a, d )

P ( b, d)

P ( c, d )

P(d)

P ( a, e )

P ( b, e )

P ( c, e )

P(e)

P ( a, f )

P ( b, f )

P ( c, f )

P(f)

P(X)

P ( a )

P ( b )

P(c)

Fonte: Elaborado pelo autor.

068

unidade 4

ESTATSTICA E PROBABILIDADES

VARIVEIS

E (x) = x .f ( x ) dx

CONTNUAS

uma funo f ( x ) aquela nas quais se


associam

probabilidades

aos

infinitos

A varincia, ou seja, a medida estatstica

valores da varivel aleatria X, abordada

que concentra as probabilidades em torno

no estudo estatstico. Ou seja, quando uma

da mdia indicada por Var ( x ) ou 2 e

varivel aleatria X assume infinitos valores

dada por:

em um determinado intervalo ( a, b ), sendo


a probabilidade igual a zero para valores

Var ( x ) = E ( x2 ) - [ E ( x ) ]2,

fora desse intervalo e a soma de todas as


possveis probabilidades contidas nesse

sendo E ( x ) o valor esperado, e E ( x2 ) dada

intervalo igual a um. Portanto, para as

por:

variveis contnuas, temos que:

E ( x ) = x2 . f ( x ) dx
2

f (x) 0, x C R;
A

+ oo

 f ( x ) dx = 1 (toda rea sob a


- oo

curva de probabilidade, ou curva

de frequncia, definida por f ( x )


vale um);

Para

uma

varivel

aleatria

contnua

bidimensional, definida em todos os valores


dos nmeros reais, a funo densidade
de probabilidade conjunta f ( x, y ) uma
funo que satisfaz:

P ( a x b) =
(probabilidade

f ( x ) dx

correspondente

rea sob a curva limitada pelo


intervalo compreendido entre x
= a e x = b ). Esse assunto ser
mais detalhado posteriormente no
estudo da distribuio normal.
O valor esperado, indicado por E ( x ) = ,
a esperana matemtica de uma varivel
aleatria contnua X, que assume os
infinitos valores do intervalo ( a, b ), ou seja:

f ( x, y ) 0, para todo ( x, y ) R2;

f ( x, y ) d x d y =1

O valor esperado da distribuio conjunta,


indicado por E ( X, Y ), dado por:
E ( X, Y ) =R

x . y . f ( x, y ) d x d y

A covarincia para as variveis contnuas


ou discretas, ou seja, a medida estatstica
que possibilita verificar se as variveis
envolvidas na anlise so diretamente ou

069

unidade 4

ESTATSTICA E PROBABILIDADES

inversamente proporcionais. Isso porque medida que X aumenta o Y tambm aumenta, ou


medida que X diminui o Y aumenta, respectivamente. Tal relao dada por:
Cov ( X, Y ) = E ( X, Y ) - E ( X ) . E ( Y )
E o coeficiente de correlao das variveis contnuas ou discretas, indicado por X , Y , ou seja,
a medida estatstica que mensura a relao entre as variveis X e Y dado por:
X, Y = Cov ( X, Y )
X . Y
Sendo -1 X,Y 1.

IMPORTANTE
ndependentemente de a classificao da varivel aleatria ser dada como discreta ou contnua, sendo
a e b constantes e x e y variveis aleatrias, valem as propriedades:
E(X)=

Var ( x ) = 2

E(a)=a

Var ( a ) = 0

E(ax)=a.E(x)

Var ( a x ) = a2 . Var ( x )

E(abx)=ab.E(x)

Var ( a b x ) =b2 . Var ( x )

E(axby)=a.E(x)b.E(y)

Var ( a x b y ) = a2 . Var ( x ) = b2 . Var ( y ) 2 . a . b . Cov ( x, y )

CONCEITO
Duas variveis aleatrias X e Y so independentes se o produto das distribuies marginais for igual
distribuio conjunta, ou seja:
p ( x ) . p ( y ) = p ( x , y ) para distribuio discreta;
f ( x ) . f ( y ) = f ( x , y ) para distribuio contnua.

070

unidade 4

ESTATSTICA E PROBABILIDADES

MODELOS

Para se caracterizar como distribuio

PROBABILSTICOS

binomial, a varivel aleatria abordada no


estudo deve ter:

Assim como na Matemtica, temos os


modelos que representam o comportamento

a) n tentativas ou provas independentes, ou


seja, eventos sem reposio;

da varivel abordada no estudo, ou seja, as


retas, parbolas e hiprboles dentre tantas
outras funes matemticas. Na Estatstica,

b) cada uma das n tentativas s admite dois

os modelos probabilsticos descrevem o

resultados possveis, sendo eles sucesso

comportamento de uma varivel, sendo

ou falha;

possvel calcular a probabilidade associada


aos eventos da varivel abordada no

c) as probabilidades de sucesso e falha so

estudo, recorrendo apenas aos modelos

complementares e constantes durante

probabilsticos.

todo o processo de observao.

Esses

modelos

so

chamados de distribuies, apresentando


particularidades prprias que facilitam a

O valor esperado, ou seja, a mdia da

sua identificao, podendo ser divididos

distribuio binomial e a varincia so

em contnuos e discretos, assim como as

dadas por:

variveis estudadas no incio deste captulo.


E ( x ) = = n . p e Var ( x ) = 2 = np . ( 1 - p ),
respectivamente.

DISTRIBUIO

BINOMIAL

A probabilidade de ocorrncia de um
determinado

A distribuio binomial denotada por

casos dicotmicos, ou seja, experimentos


aleatrios com apenas duas possibilidades

distribuio

n
P ( X = x ) = ( x ). px. ( 1 - p )n-x

amostragens (tentativas) e p a probabilidade


uma distribuio discreta, aplicada em

na

binomial dada por:

X~Bin ( n; p ), sendo n o nmero de


de sucesso do experimento. Trata-se de

evento

n
sendo: ( x ) a combinao de n elementos
n
n!
x a x, ou seja: ( x ) =
e p a
( n- x) ! . x!
probabilidade de sucesso.

de resposta, denotadas por sucesso ou


falha. Podemos citar como exemplo o

A distribuio binomial amplamente

lanamento de uma moeda, um item ter

aplicada para avaliar probabilidades de

defeito ou no, um funcionrio faltar ou no.

eventos relacionados com controle de

071

unidade 4

ESTATSTICA E PROBABILIDADES

qualidade, mercado de aes, risco de

P(X=x)=

aplices de seguro, anlise demogrfica e

e- . x
x!

vendas, dentre outras inmeras situaes


de controle da variabilidade inerente ao
processo produtivo.

A distribuio Poisson pode ser aplicada


como um caso limite da binomial, quando
o

tamanho

da

amostra

em

eventos

dicotmicos maior que 30.

DISTRIBUIO

POISSON

A distribuio Poisson denotada por


X~Poisson (), sendo a taxa mdia,
1
ou seja, = e sendo tambm sempre
inversamente proporcional ao intervalo de
tempo ou espao definido no problema.
Portanto, o seu valor deve corresponder ao
tamanho do intervalo apresentado. Assim,
para qualquer outro intervalo, o valor da
mdia deve sofrer a correo numrica
adequada.

discreta, aplicada em variveis aleatrias


cujo nmero de sucessos observados num
intervalo contnuo, de tempo ou espao,
estar

NORMAL

A distribuio normal denotada por


X~Normal (; 2 ), sendo o valor esperado,
ou seja, a mdia da distribuio normal e a
varincia dadas por:
E ( x ) = e Var ( x ) = 2, respectivamente.
Por

A distribuio Poisson uma distribuio

pode

DISTRIBUIO

relacionado

quantidade

de: carros que passam em um sinal por


minuto; defeitos por metro quadrado de um
revestimento; chamadas por hora numa

determinado

evento

Poisson dada por:

com

razes,

tanto

na

teoria

quanto na prtica, a distribuio normal


a mais importante das distribuies de
probabilidade. Isso porque muitas variveis
no mundo real tm comportamento bastante
aproximado

dessa

distribuio.

Sua

relevncia pode ser destacada pelo fato de:


a) seus resultados serem de fcil operao
matemtica;

delegacia etc.
A probabilidade de ocorrncia de um

diversas

b) muitas tcnicas estatsticas pressuporem


que os dados tm distribuio normal;

distribuio

c) os dados de muitas situaes reais,

072

unidade 4

ESTATSTICA E PROBABILIDADES

embora no sejam rigorosamente normais, podem gerar bons resultados, facilitando o


tratamento matemtico;
d) a distribuio amostral de muitas estatsticas tenderem distribuio normal, em face do
teorema do limite central.
Essa distribuio classificada como contnua, podendo a varivel assumir qualquer valor
dentro de um intervalo previamente definido. Essa distribuio, delineada por uma curva em
forma de sino com f.d.p, dada por:

As principais propriedades da distribuio normal so:


1) ter a forma de um sino;
2) ser simtrica em relao mdia ;
3) ser assinttica1 em relao ao eixo de x;
4) ser unimodal2 e ter achatamento proporcional ao desvio padro ou varincia;
5) ter mdia, moda e mediana iguais.
FIGURA 21 - Distribuio normal

Fonte: TRIOLA, 2011, p.88.

1 - No toca o eixo x.
2 - S tem uma moda.

073

unidade 4

ESTATSTICA E PROBABILIDADES

Como o clculo da rea abaixo da curva a integral da f.d.p. nos limites desejados e esse
clculo , muitas vezes, longo, a rea sob a curva pode ser simplificada pela transformao:
z=

x-
w

Sendo z uma varivel aleatria com distribuio normal, mdia zero e varincia 1, e x sendo
uma varivel aleatria com distribuio normal, mdia e varincia 2.
A rea total limitada pela curva normal e pelo eixo das abscissas 1u.a. (uma unidade de
rea), ou seja, 100%, sendo as reas sob a curva limitadas pela distncia entre o desvio padro
e a mdia. Essa rea apresentada na tabela a seguir.
TABELA 18 - rea sob a curva da normal

Fonte: BARBETTA, 2010, p. 377.

074

unidade 4

ESTATSTICA E PROBABILIDADES

Sendo a primeira coluna e a primeira linha o nmero inteiro mais a primeira casa decimal e
a segunda casa decimal, respectivamente, do nmero z calculado pela estatstica de teste
x-
z=
e, no centro da tabela, as probabilidades correspondentes rea entre zero e esse

ponto, conforme ilustrao a seguir.


FIGURA 22 - Distribuio normal padro

Fonte: Elaborado pela autora.

APLICAO

PRTICA

Uma grande indstria compra diversos novos processadores de texto no final de cada ano, sendo que o nmero
exato deles depende da frequncia dos reparos no ano anterior. Suponha que o nmero de processadores,
indicado por X, que so comprados a cada ano, tenha a seguinte distribuio de probabilidade:

TABELA 19 - Distribuio de frequncias


X

P(X)

0,10

0,30

0,40

3
0,20

Fonte: Elaborado pelo autor.

Se o custo do modelo desejado permanecer fixo em R$ 1500,00 durante este ano e um desconto de 50.X2
(em reais) for fornecido em relao a qualquer compra, quanto a empresa espera gastar E ( X ) em novos
processadores no final do ano?
E ( X ) = 0.0,1 + 1.0,3 + 2.0,4 + 3.0,2
E ( X ) = 1,7

075

unidade 4

ESTATSTICA E PROBABILIDADES

REVISO
A distribuio discreta usada em casos cujos dados analisados podem ser alocados em uma
tabela de probabilidades, sendo que aquelas localizadas no centro da tabela so classificadas
como probabilidade conjunta e as localizadas nas laterais, como probabilidades marginais.
Probabilidades marginais so aquelas que correspondem a apenas uma das variveis em
estudo, e as probabilidades conjuntas so as que correspondem a duas variveis analisadas
concomitantemente.
A distribuio contnua usada em casos cujos dados analisados podem ser alocados em um
intervalo contnuo.
No que tange as distribuies de probabilidade, cabe ressaltar:
TABELA 20 - Reviso das medidas de tendncia central
DISTRIBUIO

LIMITAES

QUANDO USAR

Binomial

No usual para amostras com


mais de 30 elementos.

Quando os eventos estudados permitem apenas


duas respostas possveis.

Poisson

Quando o foco do estudo na quantidade do


perodo.

Normal

Quando a mdia e o desvio padro so


conhecidos.

Fonte: Elaborado pelo autor.

PARA SABER

MAIS

MOORE, David. A estatstica bsica e sua prtica. Rio de Janeiro. LTC, 2014.
Para uma fundamentao matemtica mais aprofundada sobre o assunto, consulte a seguinte obra:
MONTGOMERY, Douglas; RUNGER, George Estatstica aplicada e probabilidade para engenheiros. 3 ed.
Rio de Janeiro: LTC, 2009.

076

unidade 4

UNIDADE

ESTIMAO DE MDIAS

E PROPORES

as unidades anteriores, voc estudou trs grandes reas do mtodo estatstico:


amostragem e coleta de dados; anlise exploratria de dados; e teoria de
probabilidades. A partir de agora, voc vai entender como essas reas se relacionam

para construir a quarta rea do mtodo estatstico, que a deciso na presena de incerteza
ou estatstica inferencial.

A estatstica inferencial recebe esse nome por ser um conjunto de mtodos e tcnicas que
permitem, a partir dos dados provenientes de uma amostra, inferir informaes sobre toda
a populao alvo do estudo. Logicamente existe uma incerteza associada a esse processo,
mas ela quantificada atravs dos nveis de confiana e margens de erro do estudo. Essa a
grande contribuio da estatstica inferencial, permitir que se conhea o nvel de incerteza da
informao antes de tomar decises.
Existe uma infinidade de tcnicas de estatstica inferencial, como os intervalos de confiana,
testes de hipteses paramtricos e no paramtricos, anlises de correlao e regresso,
dentre outras. Para que voc tenha noo da quantidade de tcnicas, imagine que exista um
curso de graduao em Estatstica com durao de quatro anos em que o aluno passa a maior
parte do tempo estudando tcnicas de estatstica inferencial. E ainda assim esse tempo no
suficiente para estudar todas as tcnicas!
A boa notcia que em todas essas tcnicas existe um ponto em comum, conceitos que
so utilizados em todas elas, como estimativa pontual, intervalos de confiana e testes
de hipteses. Esses conhecimentos esto presentes em todas as tcnicas de estatstica

078

unidade 5

ESTATSTICA E PROBABILIDADES

inferencial. E exatamente o que estudaremos nas prximas unidades.


Nesta unidade, especificamente, voc vai conhecer o teorema principal da estatstica, o
fundamento de grande parte das tcnicas de estatstica inferencial: o teorema central do
limite. Esse teorema fala sobre a relao entre o modelo normal de probabilidades e a mdia
calculada a partir de uma amostra. Voc consegue imaginar qual seja essa relao?
Aqui voc vai descobrir como so calculadas as margens de erro das pesquisas eleitorais,
que so obtidas atravs das estimativas pontuais e intervalares para mdias e propores
populacionais. Vai descobrir como utilizar o Excel para construir uma calculadora para intervalos
de confiana. E tambm um software muito til para fazer vrias anlises estatsticas, o EpiInfo.

TEOREMA CENTRAL

DO LIMITE

Imagine a seguinte situao: um engenheiro de produo deseja monitorar um processo de


produo de fibra sinttica de maneira a garantir que a caracterstica de qualidade resistncia
trao esteja sempre dentro dos limites de especificao. conhecido que a resistncia
trao das fibras produzidas naquela empresa normalmente distribuda com mdia de 75 psi
(libras fora por polegada quadrada) com desvio-padro de 3,5 psi.
Como no vivel medir a caracterstica de qualidade em todas as peas produzidas (inspeo
100%) ele decidiu coletar amostras periodicamente para verificar se no houve alterao na
mdia do processo. Acontece que cada vez que ele coleta uma amostra e obtm a mdia
dessa amostra existe uma variao, ou seja, as mdias das amostras so sempre diferentes.
A dvida : o engenheiro pode afirmar que houve alterao na mdia do processo (de todas as
peas produzidas) ou a variao devida simplesmente uma flutuao amostral?
O teorema central do limite (TCL) poder auxiliar o engenheiro a interpretar os resultados
dessas amostras e resolver a dvida. O TCL diz que quando trabalhamos com amostras e
calculamos mdias, as mdias das amostras so normalmente distribudas em torno da
verdadeira mdia populacional. Isso acontece porque, exatamente pelo fato de serem
baseadas em sorteio aleatrio, as amostras so sempre diferentes e, se calcularmos ento a
mdia em cada amostra, bem difcil encontrarmos exatamente os mesmos valores.

079

unidade 5

ESTATSTICA E PROBABILIDADES

Entretanto, apesar de as amostras serem

3,5 psi. Encontre a probabilidade de uma

diferentes

amostra aleatria de n = 25 fibras ter uma

se

terem

selecionarmos

mdias
vrias

diferentes,

amostras

resistncia mdia menor que 73,6 psi.

obtivermos suas mdias, podemos fazer um


histograma dessas mdias. Ao realizar esse

Note que a distribuio amostral de

procedimento poderemos ver que, medida

normal, com mdia X = 75 psi e um desvio-

que aumentamos a quantidade de amostras,

padro de

o histograma mais se assemelha curva


da distribuio normal de probabilidades

X = = 3,5 = 0,7 psi

n 25

e, ainda, a mdia dessas mdias mais se


aproxima da verdadeira mdia populacional.

Consequentemente,

probabilidade

desejada corresponde rea sombreada na

Definio do teorema central do limite:

figura abaixo.

Se X uma varivel aleatria com mdia e


varincia 2 e

FIGURA 23 - Distribuio amostral de X Mdia 75 e desvio-padro 0,7

a mdia de uma amostra

com n elementos dessa varivel aleatria,


ento podemos dizer que a forma limite da
distribuio de
z=

X-

a distribuio normal padro quando n


Fonte: Elaborada pelo autor.

tende ao infinito.
Podemos dizer ainda que X normalmente
distribudo com mdia X = e desviopadro X =

Desse modo, podemos dizer que


P(

< 73,6 ) = P ( Z < z ) onde o valor de z

obtido atravs da padronizao:

EXEMPLO

z=

Pensando no exemplo das fibras sintticas,


chamamos de X a varivel aleatria

73,6 - 75
= -2
35
25

Ento,

resistncia trao das fibras. Sabemos


que a mdia 75 psi e o desvio-padro

P(

080

unidade 5

< 73,6 ) = P ( Z < -2 ) = 0,0228 (pela

ESTATSTICA E PROBABILIDADES

tabela da distribuio normal padro).


O resultado acima indica que a probabilidade de selecionar uma amostra de fibras e obter
resistncia mdia menor que 73,6 psi de 2,28%. Na Unidade 7 veremos que essa probabilidade
pode ser considerada baixa e, portanto, de posse dessa informao, o engenheiro poderia adotar
o seguinte critrio: ao observar uma amostra de fibras com resistncia mdia menor que 73,6
psi, o processo deve ser verificado.
importante ressaltar que o TCL pode ser utilizado ainda que a distribuio da varivel
aleatria X no seja normal, ou seja, o teorema valido para qualquer que seja a distribuio
de X. Essa a grande contribuio do TCL para o desenvolvimento dos mtodos estatsticos.
Entretanto, nas situaes em que a distribuio da varivel aleatria X seja muito assimtrica,
a aplicao do TCL adequada para amostras grandes ( n 30 ). A figura abaixo ilustra as
distribuies amostrais de

para diferentes populaes e diferentes tamanhos de amostra.

FIGURA 24 - Distribuies amostrais de


Populao original
(distribuio de X)

para diferentes populaes e tamanhos de amostra

Distribuio amostral
de X para n = 2

Distribuio amostral
de X para n = 5

Fonte: Elaborao do autor.

081

unidade 5

Distribuio amostral
de X para n = 30

ESTATSTICA E PROBABILIDADES

Note nos grficos acima que a aproximao pela distribuio normal razovel para amostras com
30 ou mais observaes. Por essa razo, a utilizao do teorema central do limite adequada quando
o tamanho da amostra for ao menos 30 ou quando a distribuio da varivel aleatria X for normal.
Nos prximos tpicos, voc vai descobrir como aplicar o teorema central do limite para
obter estimativas intervalares para mdias e propores populacionais a partir da mdia e
propores amostrais. Na Unidade 7, o TCL ser utilizado para realizar testes de hipteses
sobre os parmetros populacionais.

ESTIMAO PONTUAL E POR INTERVALOS DE CONFIANA

PARA UMA MDIA POPULACIONAL

Neste tpico, voc vai aprender a obter uma estimativa para mdia populacional e calcular
a preciso dessa estimativa. Voc vai entender por que apresentar a margem de erro e o
nvel de confiana da pesquisa to importante quanto apresentar a estimativa pontual para
mdia. Aps a leitura deste tpico, voc ter um novo olhar sobre as estatsticas que lhe so
apresentadas diariamente em jornais ou revistas.
Considere que uma montadora desenvolveu um novo modelo e est elaborando a ficha tcnica
do veculo. Uma informao relevante para o cliente o consumo mdio de combustvel. Sabese que o consumo est relacionado ao tipo de combustvel (etanol ou gasolina ), maneira
de conduzir, ao tipo de via (cidade ou estrada), qualidade do combustvel, dentre outras
variveis. O consumo pode variar tambm entre os veculos de mesmo modelo, por essa razo
podemos tratar o consumo de combustvel como uma varivel aleatria.
Para definir o consumo mdio de combustvel do novo modelo de veculo, a montadora coletou
dados sobre distncia percorrida e consumo de combustvel de 35 veculos. Com esses dados,
calculou o consumo mdio na estrada e na cidade tanto para gasolina quanto para etanol. Os
resultados so apresentados na tabela abaixo:
TABELA 21 - Reviso das medidas de tendncia central
TRAJETO

ETANOL (KM/L)

GASOLINA (KM/L)

Cidade

8,7

12,5

Estrada

10,4

15,2

Fonte: Elaborado pelo autor.

082

unidade 5

ESTATSTICA E PROBABILIDADES

Os

35

veculos

que

participaram

do

Onde:

experimento podem ser considerados uma


amostra do total de veculos produzidos

z 2 est relacionado ao nvel de confiana

pela montadora, j que o objetivo obter

desejado para o estudo;

informao sobre todos os veculos do


referido modelo que so produzidos. Dessa



forma, a montadora est utilizando a mdia


da amostra

desvio-padro

populacional

da

varivel aleatria X;

para estimar , o consumo

mdio de todos os veculos.

n o tamanho da amostra coletada.

Dizemos que a mdia da amostra

O nvel de confiana do estudo definido

representa um nico estimador numrico

pelo valor de z2 que pode ser obtido da

da mdia da populao. Por essa razo,

tabela da distribuio normal padro. O nvel

recebe o nome de estimador pontual.

de confiana dado em valor percentual e

Observe, por exemplo, na tabela 20 que o

deve ser sempre inferior a 100%. Chamamos

consumo mdio do veculo na cidade com

significncia () o percentual restante, de

etanol foi estimado em 8,7 km/l, mas no foi

maneira que confiana + significncia =

apresentada nenhuma informao quanto

100%. Por exemplo, para um estudo com

preciso dessa estimativa.

95% de confiana, o valor de ser 5%. O


valor de z = 1,96 definido ento a partir da

No tpico anterior, vimos que a mdia

distribuio normal padro, como ilustra a

amostral

figura abaixo:

pode ser considerada uma

varivel aleatria. Isso significa que, caso


FIGURA 25 - Definio do valor
de z para confiana de 95%

selecionssemos outra amostra de 35


veculos e calculssemos o consumo
mdio na cidade com etanol, o resultado
poderia ser diferente de 8,7 km/l. Por
essa razo, a estimativa pontual deve vir
sempre acompanhada da margem de erro,
informando assim sua preciso. A margem
de erro pode ser obtida atravs da equao
abaixo:
E = Z

Fonte: Elaborado pelo autor.

/2 n

083

unidade 5

ESTATSTICA E PROBABILIDADES

Observe tambm que, para o clculo da

IC [ ; ( 100 - ) % ] =

margem de erro, precisamos conhecer o


desvio-padro populacional da varivel
aleatria X, isto , o desvio-padro do
consumo de combustvel de todos os
veculos do referido modelo produzidos
pela

montadora.

Entretanto,

como

amostra pode ser considerada grande ( n >


30 ), podemos utilizar o desvio-padro da
amostra s como aproximao de , e ento
o clculo da margem de erro ser:

E = Z

de ( 100 - ) % de confiana, dado pela

mdia amostral menos a margem de erro e a


mdia amostral mais a margem de erro.
O resultado do exemplo acima comumente
interpretado da seguinte maneira: se

correspondentes intervalos com 95% de


confiana, esperamos que a proporo de

para o verdadeiro consumo mdio de etanol


na cidade para esse veculo, com um nvel
de 95% de confiana, sabendo que o desviopadro do consumo de etanol na cidade
para a amostra dos 35 veculos foi de 4 km/l.

35

verdadeira mdia populacional, com um nvel

e, para cada uma delas, calcularmos os

/2 n

Ou seja, o intervalo de confiana para , a

obtivermos vrias amostras de 35 veculos

Vamos obter, portanto, a margem de erro

E = 1,96

intervalos que contenham o verdadeiro


consumo mdio seja igual a 95%.
Exemplo:
Para os dados da tabela 20, supondo que o
desvio-padro para o consumo de etanol na
estrada seja de 2 km/l, obtenha o intervalo

= 1,325

de 95% para o verdadeiro consumo mdio.

O clculo acima mostra que a margem de erro


do estudo de 1,325 km/l para o consumo
do veculo ao rodar com etanol na cidade.
Com isso, podemos dizer que o verdadeiro
consumo mdio do veculo de 8,7 km/l com

Soluo:
Para resolver a questo acima, podemos
utilizar a equao:

uma margem de 1,325 km/l para mais ou para


menos, ou seja, est entre 8,7 - 1,325 = 7,375

IC [ ; 95% ] =

km/l e 8,7 + 1,325 = 10,025 km/l. O intervalo


que acabamos de construir (7,375; 10,025)

Precisamos, portanto, encontrar a margem

conhecido como intervalo de confiana ou

de erro do estudo. Para isso, vamos utilizar

estimador intervalar e definido pela equao:

a equao:

084

unidade 5

ESTATSTICA E PROBABILIDADES

E = Z

o desvio-padro populacional tambm

/2 n

desconhecido, o que torna inadequada a


aplicao da equao para o clculo da
margem de erro.

Logo:
E = 1,96 *

35

= 0,663

Felizmente,

quando

trabalhamos

com

grandes amostras ( n > 30 ), o desvio-

Ento:

padro amostral (s) uma boa aproximao


para o desvio-padro populacional (), o

IC [ ; 95% ] = 10,4 0,663

que possibilita a utilizao da equao


O intervalo comumente apresentado como

apresentada para o clculo da margem de

segue:

erro. Mas, o que fazer quando a amostra


pequena ( n < 30 )? exatamente o que
descobriremos aqui.

IC [ ; 95% ] = [ 9,737 ; 11,063 ]


Dessa forma, afirmamos com 95% de

Nas situaes em que a amostra pequena,

confiana que o consumo mdio de etanol

nos deparamos com dois problemas:

na estrada para o novo modelo de veculo


est entre 9,737 km/l e 11,063 km/l.

1. No podemos utilizar o teorema central


do limite para dizer que a mdia amostral
(

TCL vlido somente para amostras com

ESTIMAO POR
INTERVALOS DE
CONFIANA PARA

mais de 30 observaes.
2. A

UMA MDIA
POPULACIONAL
(AMOSTRAS
PEQUENAS)

pelo

desvio-padro
desvio-padro

Para contornar o problema 1, lanamos


mo do seguinte teorema:

intervalo de confiana exige o conhecimento


populacional

do

amostral considerada pobre.

que o clculo da margem de erro para o


desvio-padro

aproximao

populacional

Voc deve ter observado no tpico anterior

do

) normalmente distribuda, pois o

().

Entretanto, na maioria das vezes em que


se deseja estimar a mdia populacional,

085

unidade 5

Se X uma varivel aleatria normalmente


distribuda, ao selecionar amostras de
tamanho n, a distribuio amostral de
ser uma distribuio normal.

ESTATSTICA E PROBABILIDADES

Esse teorema garante que, se a varivel aleatria X normalmente distribuda, ento a


distribuio amostral de

ser normal independente do tamanho da amostra.

Para contornar o problema 2, vamos precisar utilizar uma nova distribuio de probabilidades,
a distribuio t-student. Essa distribuio muito semelhante distribuio normal: tem
forma de sino, simtrica e tem mdia zero. A diferena que a distribuio t-student
mais achatada (tem caudas mais pesadas). Com isso, as estimativas obtidas a partir dessa
distribuio sero menos precisas.
FIGURA 26 - Comparao entre a distribuio normal e a distribuio t-student (5 gl)

Fonte: Elaborado pelo autor.

A figura abaixo ilustra parte da tabela dos valores mais utilizados para distribuio t-student.
Para construo de intervalos de confiana, devemos olhar os valores para rea em duas

caudas e a rea deve se referir ao valor de + . Os graus de liberdade so dados por n 2


2
1, ou seja, o tamanho da amostra menos 1.

086

unidade 5

ESTATSTICA E PROBABILIDADES

FIGURA 27 -Valores tabelados para distribuio t-studen

Fonte: TRIOLLA, 2013, p. 614.

Exemplo:
Uma equipe de engenharia est desenvolvendo uma nova mistura para concreto e deseja
estimar a resistncia mdia do produto compresso. Como o teste de resistncia
compresso um ensaio destrutivo, o mximo que a equipe conseguiu para realizao do
estudo foram 10 corpos de prova. A resistncia mdia compresso da amostra foi de 2.500
psi e o desvio-padro foi de 45 psi. Sabendo que a resistncia do concreto compresso segue
uma distribuio normal, obtenha uma estimativa intervalar para a verdadeira resistncia
mdia populacional com 95% de confiana.
Soluo:
Observe que o tamanho da amostra pequeno, n = 10, e o desvio-padro foi obtido da amostra
(no conhecemos o desvio-padro populacional). Nesse caso, para construir o intervalo de
confiana, necessrio utilizar a distribuio t-student e a margem de erro deve ser calculada
utilizando a equao:

087

unidade 5

ESTATSTICA E PROBABILIDADES

E = t (

/2 ; n - 1) n

Onde t 2 ; n-1 obtido da tabela t-student, sendo os parmetros: 2 a rea em cada uma
das duas caudas e n - 1 os graus de liberdade.
Como o intervalo de 95% de confiana, sabemos que a significncia o = 5% (para consultar
a tabela usamos o valor em decimal, 0,05). Os graus de liberdade so obtidos calculando n-1,
ou seja, 10 - 1 = 9. Assim, encontramos que o valor de t0,025;9 de 2,262.
FIGURA 28: Tabela t-student - encontrando t 0,025;9

Fonte: TRIOLA, 2013, p. 614

Com isso, estimamos que a margem de erro ser:


E = 2,262 45 = 32,189
10
O intervalo de confiana pode ser ento obtido:
IC [ ; 95% ] = 2.500 32,189
IC [ ; 95% ] = [ 2.467,81 ; 2.532,19 ]
A equipe de engenharia pde interpretar o resultado como segue: afirmamos com 95% de confiana
que a resistncia mdia do concreto compresso est entre 2.467,81 psi e 2.532,19 psi.

088

unidade 5

ESTATSTICA E PROBABILIDADES

ESTIMAO PONTUAL E POR


INTERVALOS DE CONFIANA

PARA UMA PROPORO POPULACIONAL


Como so calculadas as margens de erro das pesquisas eleitorais? Possivelmente no incio da
unidade voc tenha ficado instigado a descobrir como feito esse clculo. Antes de dar incio,
preciso entender que as pesquisas eleitorais buscam descobrir o percentual de eleitores
que so favorveis ao candidato A ou B, e esses percentuais so tratados na estatstica como
propores.
Para simplificar os clculos, vamos pensar em uma eleio que foi para o segundo turno e, portanto,
tem apenas dois candidatos. Uma empresa de pesquisa entrevistou 2.500 eleitores quanto
inteno de voto nos candidatos A e B. Note que "candidato" uma varivel qualitativa, e o que
queremos descobrir como estimar a probabilidade de sucesso em um experimento binomial em
que p a probabilidade de que o eleitor escolhido prefira o candidato A, por exemplo. Uma maneira
bem intuitiva de estimar p para a populao usar a proporo de sucessos da amostra:

= Nmero de eleitores que preferem o candidato A


p
Nmero de eleitores amostrados
Suponha que dos 2.500 eleitores amostrados 1.300 tenham declarado inteno de votar
no candidato A, 950 no candidato B e 250 em branco ou nulo. Assim, podemos estimar a
proporo de eleitores que votariam no candidato A por:
p = 1.300 = 0,52
2.500
Ou seja, a amostra indica que cerca de 52% dos eleitores tm inteno de votar no candidato
A. Entretanto, devemos lembrar que caso fosse realizada outra amostragem e fossem
selecionados outros 2.500 eleitores o resultado poderia ser diferente de 0,52. O valor de p
uma estimativa pontual para p, a verdadeira proporo de eleitores que tm inteno de votar
no candidato A em toda a populao.
Podemos tratar p como uma mdia, se pensarmos que X uma varivel aleatria que assume
0 quando o eleitor declara votar no candidato B, em branco ou nulo e 1 quando o eleitor declara
votar no candidato A. Nesse caso, podemos utilizar o teorema central do limite e dizer que p

089

unidade 5

ESTATSTICA E PROBABILIDADES

normalmente distribudo com mdia p =

p.qn , onde q = 1-p,


ou de maneira aproximada = p.q , pois
n

E o intervalo de confiana ser:

p e desvio-padro p =

IC [ p ; 95% ] = 0,52 0,0196

no conhecemos os verdadeiros valores de

IC [ p ; 95% ] = [ 0,5004 ; 0,5396 ]

p e q.
Sabemos que o TCL vlido apenas

Podemos afirmar com 95% de confiana

para amostras grandes. No caso de

que a verdadeira proporo de eleitores que

estimativas para propores, dizemos

votam no candidato A em toda a populao

que a amostra grande quando n . p

est entre 50,04% e 53,96%. Observe que

5 e tambm n . q 5, ou seja, ambos os

afirmar com 95% de confiana significa

critrios devem ser satisfeitos.

dizer que, se fossem feitas 100 pesquisas


e calculados os intervalos de confiana,

Caso esses critrios tenham sido satisfeitos,

cerca de 95 deles conteriam a verdadeira

podemos calcular a margem de erro atravs

proporo de eleitores que votam no

da equao:

candidato A.
E = Z

Exemplo:

/2 pq
n

A empresa XYZ compra tubos de ao do


E ento o intervalo de confiana para p ser:

fornecedor A. Na ltima semana, a XYZ


recebeu uma proposta de comprar tubos de

E
IC [ p ; ( 100 - ) % ]= p

ao do fornecedor B pela metade do preo


do fornecedor A. Para decidir, o gerente de

No exemplo da pesquisa eleitoral, n . p


=

compras deseja estimar qual o percentual de

2.500 * 0,52 = 1.300 e n.q


= 2.500 * 0,48

no conformidade nos tubos do fornecedor

= 1.200. Como ambos os critrios foram

B (proporo de tubos defeituosos). Em um

satisfeitos,

uma

lote de 150 tubos havia 21 no conformes.

amostra grande o bastante para justificar

Obtenha o intervalo de 90% de confiana

a utilizao do TCL, logo podemos obter

para a verdadeira proporo de tubos no

a margem de erro com o nvel de 95% de

conformes do fornecedor B.

dizemos

que

temos

confiana:
E= 1,96

0,52 0,48
= 0,0196
2.500

Soluo:
Uma estimativa pontual para a verdadeira
proporo de tubos no conformes dada por:

090

unidade 5

ESTATSTICA E PROBABILIDADES

p = 21 = 0,14
150
Verificamos que a aplicao do teorema
central do limite adequada, pois n . p = 21
= 150 * 0,86 = 129, ou seja, ambos
en.q
so maiores que 5, indicando que a amostra
suficientemente grande. Podemos estimar
a margem de erro do estudo pela equao:
E = Z

/2

E = 1,645

USO DO EXCEL
NO CLCULO DE
INTERVALOS

DE CONFIANA
PARA MDIA E
PROPORO
Agora que voc j sabe exatamente como
so obtidos os intervalos de confiana,

pq

vamos utilizar o Excel para construir uma

calculadora de intervalos de confiana.

0,14 0,86
= 0,047
150

Comearemos pelo intervalo para mdia.

Ento, definimos o intervalo com 90% de

Nos tpicos anteriores, vimos que o

confiana para p pela equao:

intervalo de confiana para a mdia


populacional pode ser obtido de duas

E
IC [ p ; 90% ] = p

maneiras:

utilizando

distribuio

normal (estatstica z) ou a distribuio


t-student (estatstica t). Vimos tambm

IC [ p ; 90% ] = 0,14 0,047

que a distribuio t-student utilizada


quando o tamanho da amostra menor

IC [ p ; 90% ] = [ 0,093 ;0,187 ]

que 30 e o desvio-padro populacional


O gerente de compras pode afirmar,

desconhecido. Nos outros casos,

com 90% de confiana, que a verdadeira

utilizamos a distribuio normal.

proporo

de

tubos

no

conformes

provenientes do fornecedor B est entre

Vamos construir primeiramente uma

9,3% e 18,7%. O gerente far sua deciso

calculadora para intervalos de confiana

baseado nessa informao e em outras que

utilizando

julgar convenientes.

Utilizaremos os dados sobre consumo

distribuio

normal.

de combustvel do primeiro exemplo.


A figura abaixo ilustra como deve ficar
nossa calculadora nas colunas A e B.

091

unidade 5

ESTATSTICA E PROBABILIDADES

FIGURA 29 - Calculadora para intervalo de confiana para mdia:


amostras grandes ou desvio-padro populacional conhecido

Fonte: Elaborado pelo autor.

Nas linhas 4 a 7 so inseridas as informaes iniciais do problema, como: desvio-padro,


que pode ser tanto da populao quanto da amostra; a mdia amostral

; o tamanho da

amostra n; e o nvel de confiana desejado. Note que a clula B7 deve ser configurada como
porcentagem.
Nas linhas 9 a 11 so realizados clculos intermedirios como erro padro da mdia x (ou x ),
o valor de z relativo ao nvel de confiana desejado e a margem de erro resultante. As frmulas
utilizadas para cada um dos clculos so apresentadas exatamente sua direita. Por exemplo,
na clula B9 foi inserida a frmula = B4/RAIZ(B6), que o desvio-padro dividido pela raiz do
tamanho da amostra. Nas linhas 13 e 14 apresentado o intervalo de confiana, sendo limite
inferior do intervalo o valor de

- E e o limite superior do intervalo o valor de

+ E.

Para construir a calculadora para amostras pequenas e desvio-padro populacional


desconhecido, vamos utilizar os dados do exemplo sobre a resistncia do concreto
compresso. O procedimento o mesmo do anterior, alterando apenas as informaes
relativas aos parmetros da distribuio t-student:

092

unidade 5

ESTATSTICA E PROBABILIDADES

FIGURA 30 - Calculadora para intervalo de confiana para mdia:


amostras pequenas e desvio-padro populacional desconhecido

Fonte: Elaborado pelo autor.

Para construir a calculadora de intervalos de confiana para propores, vamos utilizar os


dados do exemplo da pesquisa eleitoral. Nesse caso, os dados iniciais so o nmero de
sucessos e o tamanho da amostra. Lembrando que a palavra sucesso est relacionada
distribuio binomial e se refere ao nmero de vezes que ocorreu o evento de interesse. No
caso do exemplo sobre as eleies, o nmero de sucessos a quantidade de entrevistados
que declarou inteno de votar no candidato A, 1300 pessoas. O tamanho da amostra foi de
2500 entrevistados. Com esses dados, calcula-se a proporo estimada p dividindo o nmero
de sucessos pelo tamanho da amostra (clula B6).
O erro padro da mdia calculado atravs da equao p =

= implementada na clula
p.q
n

B9. As demais clulas utilizam as mesmas frmulas j apresentadas nas calculadoras


anteriores.

093

unidade 5

ESTATSTICA E PROBABILIDADES

FIGURA 31 - Calculadora para intervalo de confiana para proporo

Fonte: Elaborado pelo autor.

INTRODUO AO

PROGRAMA EPIINFO
O software EpiInfo uma ferramenta muito til para anlise de dados. Esse software foi
desenvolvido pelo Centro de Controle de Doenas (CDC) para anlise de dados epidemiolgicos,
entretanto pode ser utilizado em qualquer rea, inclusive em engenharia. O software est
disponvel no site www.cdc.gov/epiinfo
Veja no material web da disciplina os vdeos de instalao do EpiInfo e de introduo anlise
de dados utilizando essa ferramenta.

APLICAO

PRTICA

Um fabricante de anis para pistes de motor deseja verificar se seu produto atende as especificaes
do cliente. Para isso, resolveu estimar o dimetro mdio dos anis produzidos. A partir de uma amostra

094

unidade 5

ESTATSTICA E PROBABILIDADES

de 40 anis, registrou-se dimetro mdio de

Ento:

74,045 milmetros com desvio-padro de 0,02

IC [ ; 99% ] = 74,045 0,008

milmetros. Construa o intervalo com 99% de


confiana para o verdadeiro dimetro mdio dos

O intervalo comumente apresentado como

anis.

segue:

Soluo:

IC [ ;99% ] = [ 74,037 ; 74,053]

Note que o enunciado no informou a distribuio

Dessa forma, afirmamos com 99% de confiana

de probabilidade da varivel dimetro dos anis

que o dimetro mdio dos anis est entre

e, alm disso, tambm no temos informao

74,037 milmetros e 74,053 milmetros.

a respeito do desvio-padro populacional


dessa varivel. Entretanto, como a amostra
considerada grande (40 anis), podemos valer

REVISO

do teorema central do limite e afirmar que a

Nesta unidade, voc aprendeu a construir

distribuio amostral do dimetro mdio dos

estimativas pontuais e por intervalos para

anis normal, com mdia e desvio-padro

os verdadeiros parmetros populacionais

,
n

onde o verdadeiro dimetro mdio dos

atravs de dados provenientes de amostras.

anis e o verdadeiro desvio-padro. Sabemos

Aprendeu tambm que existem ao menos

ainda que o estimador de X , a mdia amostral

quatro maneiras de obter estimativas

e o estimador de s, o desvio-padro amostral.

intervalares, e que a escolha da maneira

Dessa forma, utilizaremos as equaes abaixo

adequada para cada situao determinada

para construir o intervalo com 99% de confiana

basicamente pelo tipo de dados (qualitativo

para o verdadeiro dimetro mdio dos anis.

ou quantitativo) e pelo tamanho da amostra


( n < 30 ou n 30 ). O esquema abaixo
apresenta de maneira resumida o processo

IC [ ;99% ] = x E
Precisamos, portanto, encontrar a margem

de deciso:

de erro do estudo. Para isso, vamos utilizar a


equao:

E = Z

/2 n

Logo:
E = 2,575 *

0,02

40

= 0,008

095

unidade 5

ESTATSTICA E PROBABILIDADES

FIGURA 32 Processo de deciso


Tipo de dados
Quantitativo parmetro

Qualitativo parmetro p

Amostra grande ( n 30 )

Amostra pequena ( n < 30 )

Aplicvel quando np 5 e nq 5

Pelo teorema central do


limite, o intervalo de
confiana pode ser obtido
pelas equaes 1 ou 2.

O intervalo de confiana pode


ser obtido pela equao 3
apenas se a populao tem
distribuio normal.

O intervalo de
confiana pode ser
obtido pela equao 4.

Fonte: Elaborada pelo autor

PARA SABER

MAIS

Caso voc tenha se interessado pelo assunto desta unidade e deseja aprofundar nesse contedo,
recomendo a leitura do captulo 5 do livro texto:
McCLAVE, James T. George Benson, Terry Sincich. Estatstica para administrao e economia. trad.
Fabrcio Pereira Soares e Fernando Sampaio Filho; rev. tc. Galo Carlos Lopez Noriega. So Paulo:
Pearson Prentice Hall, 2009.
Se voc deseja uma leitura mais formal e tem interesse em demonstraes das equaes, leia o captulo
8 do livro texto:

096

unidade 5

ESTATSTICA E PROBABILIDADES

MONTGMOMERY, Douglas C. George C. Runger.


Estatstica

aplicada

probabilidade

para

engenheiros. trad. e rev. tc. Vernica Calado.


Rio de Janeiro: LTC, 2009.
Se voc deseja um estudo de caso com aplicao
do contedo na rea de engenharia, leia o artigo:
NETO, Antnio Peli. Intervalos de confiana,
Intervalos de Predio e Campo de Arbtrio nas
Avaliaes de Imveis Urbanos. Associao
Brasileira dos Engenheiros Civis - Departamento
da Bahia. Bahia, 2010. Disponvel em: <http://
www.abenc-ba.org.br/attachments/289_
ANTONIO_PELLI_ABNT%20NBR%2014653-2%20
%282%C2%BAProjeto%29212751_1.pdf>.
Acesso em 16 jun. 2015.

097

unidade 5

UNIDADE

PLANEJAMENTO DE

EXPERIMENTOS

a Unidade 5, Estimao de mdias e propores, voc aprendeu a estimar


parmetros populacionais a partir de dados amostrais. Voc deve ter observado
que os resultados amostrais foram disponibilizados, mas no foram apresentados

os mtodos utilizados para seleo das amostras ou sequer a justificativa para o tamanho
amostral. Nesta unidade voc vai aprender a planejar um experimento de pequeno e mdio
porte na rea de Engenharia e Cincias Exatas, bem como calcular o tamanho mnimo de
uma amostra que tenha representatividade estatstica.

Uma situao que utiliza o planejamento de experimentos muito frequentemente o estudo


dos efeitos do tratamento trmico de metais sobre suas propriedades mecnicas. Considere
que uma equipe de engenharia deseja estudar o efeito de trs diferentes tipos de banho
de tmpera sobre a dureza de um determinado tipo de ao. Os tipos de banho de tmpera1
utilizados so tmpera em gua, tmpera em leo e tmpera em soluo aquosa de cloreto de
sdio (gua salgada). O propsito do estudo determinar qual banho de tmpera produzir a
dureza mxima do ao.
A princpio, a equipe considerou suficiente para o propsito do estudo submeter um
determinado nmero de corpos de provas a cada meio de tmpera e medir a dureza da liga
metlica. A partir desses resultados calcular-se-ia a dureza mdia em cada um dos diferentes
tipos de banho. Aquele que apresentasse a maior dureza mdia seria o mais adequado.

A tmpera consiste essencialmente em aquecer uma pea de ao a uma certa temperatura e, a seguir, resfrila rapidamente em um banho, usualmente gua, leo ou solues salinas. Seu objetivo , em geral, aumentar
a dureza do ao e tornar mais elevadas suas resistncias trao, compresso e ao desgaste

099

unidade 6

ESTATSTICA E PROBABILIDADES

Entretanto, ao analisar o experimento com cautela, o engenheiro de produo detectou vrias


questes que deviam ser respondidas antes do incio da coleta de dados: gua, leo e gua salgada
so os nicos banhos de interesse no processo de tmpera? H outros fatores que possam afetar
a dureza do ao e que devem ser pesquisados? Quantos corpos de prova devem ser submetidos a
cada banho de tmpera? De que modo os corpos de prova devem ser alocados aos trs diferentes
banhos? Em que ordem os dados devem ser coletados? Qual mtodo de anlise de dados deve ser
utilizado? Qual diferena entre dureza mdia ser considerada significativa do ponto de vista prtico?
Diante de todas essas questes, a equipe constatou a necessidade de utilizar tcnicas
estatsticas para planejamento do experimento, a fim de assegurar a confiabilidade dos
resultados do estudo. So estas tcnicas que voc ir aprender nessa unidade.

CLCULO DE TAMANHO DE AMOSTRA


BASEADO EM INTERVALOS DE CONFIANA

PARA UMA PROPORO

Para alguns pesquisadores, a definio do tamanho da amostra o nico cuidado necessrio


para validade estatstica do estudo. Como voc observou na introduo dessa unidade, existe
uma srie de cuidados que devem ser tomados ao conduzir experimentos em engenharia,
alm do tamanho da amostra. A comear pelo objetivo do estudo.
Se o objetivo do estudo comparar resultados expressos em forma de porcentagens ou
propores, existe um mtodo adequado para o clculo do tamanho amostral. Se o objetivo
comparar resultados expressos em forma de mdias, existe outro mtodo adequado para
o clculo do tamanho amostral. Diversos outros fatores podem ser considerados nestes
clculos, alterando, assim, a adequao de cada mtodo.
Neste tpico voc aprender a calcular o tamanho amostral para um estudo que tem o
interesse de estimar uma proporo populacional. Os parmetros controlados so o nvel de
confiana e a margem de erro mxima desejados para o estudo. Vejamos um exemplo:
Exemplo 8
Uma empresa fabricante de motores deseja comprar correias do fornecedor Borracho,
pois o atual fornecedor tem apresentado um percentual elevado de peas defeituosas (no

100

unidade 6

ESTATSTICA E PROBABILIDADES

conformes). Para estimar o percentual de

verdadeira proporo populacional. Esse

correias no conformes produzidas pelo

pressuposto pode no ser satisfeito na

fornecedor Borracho, a empresa fabricante

prtica. Nesse caso, deve-se utilizar o valor

de motores deseja adquirir uma amostra que

e a equao passa a ser:


0,5 no lugar de p,

seja representativa. A equipe de engenharia


deseja que seja conduzido um estudo com

Equao 2: Tamanho de amostra

95% de confiana e margem de erro mxima

exigido para estimativa de uma

da estimativa de 2 pontos percentuais, para

proporo populacional

mais ou para menos. Qual o tamanho de

Desconhecendo estimativa de p

amostra necessrio para esse estudo? A

Z/220,25
n=
E2

equao abaixo dever ser utilizada para o


clculo do tamanho amostral desejado:
Equao 1: Tamanho de amostra

Para o exemplo das correias, a equipe

exigido para estimativa de uma

utilizou a equao 2, uma vez que no havia

conhecimento sobre a estimativa de p.

proporo populacional Conhecendo


uma estimativa de p

n=

Z/2 pq
n=
2
E

1,962 x 0,25
0,022

n = 2.401

Onde:

Dessa forma, a equipe concluiu que para


estimar a verdadeira proporo de correias

n: o tamanho da amostra calculado

no conformes produzidas pelo fornecedor

z2 : escore z que separa uma rea de

Borracho, com 95% de confiana e uma

/2 na cauda direita da distribuio

preciso de 2%, ser necessrio coletar uma

normal padro

amostra de 1.225 correias.

 uma estimativa da verdadeira proporo


p:
Note que, caso a equipe tivesse uma

populacional.

informao quanto ao verdadeiro percentual

: obtido por 1-p

de correias no conformes e desejasse

E:  a margem de erro mxima aceitvel

realizar um estudo apenas para confirmao


da informao o tamanho amostral, poderia

para o estudo.

ser significativamente menor. Suponha


Note que a equao acima exige que

que o fornecedor Borracho afirmasse

se tenha um conhecimento prvio da

que o percentual de peas no conformes

101

unidade 6

ESTATSTICA E PROBABILIDADES

fosse de 5%. A equipe poderia utilizar essa


informao como uma estimativa de p e
poderia ento utilizar a equao 1:

CONFIANA PARA
UMA PROPORO
POPULAO FINITA

1,962 x 0,05 x 0,95


n=
0,022
n = 457
Observe que o tamanho de amostra
necessrio para confirmar a afirmao
do fornecedor de apenas 233 correias.
Isso

sempre

acontecer,

ou

CLCULO DE TAMANHO
DE AMOSTRA BASEADO
EM INTERVALOS DE

seja,

tamanho amostral resultante da equao


1 ser sempre menor que o resultante
da equao 2, pois na primeira j temos
um conhecimento a priori do verdadeiro
valor populacional e desejamos apenas
confirm-lo.

No tpico anterior aprendemos a calcular


o tamanho de amostra para estimar
uma proporo, mas observe que no
foi considerado o total de elementos na
populao. Isso ocorre em situaes em
que a populao considerada infinita, ou
seja, o nmero de elementos da populao
to grande que pode ser considerado
infinito. Em algumas situaes, no entanto,
esse pressuposto no minimamente
razovel. Nessas situaes precisamos
utilizar um fator de correo para populao
finita. Utilizamos, ento, a equao 3:

IMPORTANTE

Equao 3: Tamanho de amostra


exigido para estimativa de uma

importante destacar que, para o clculo do

proporo populacional

tamanho amostral, o resultado deve ser sempre

Correo para populao finita

arredondado para cima, independentemente


do valor decimal. Assim, no exemplo anterior,

n=

caso o clculo exato resultasse em 232,1


ainda

assim

arredondaramos

para

(z/ )2
Npq
2

(z/2)2 + (N - 1) E2
pq

233

correias. Isso ocorre porque o tamanho de

Considere

amostra mnimo necessrio para atender aos

percentual de peas defeituosas em um lote

requisitos do nvel de confiana e margem

de 100 peas. Qual o tamanho de amostra

de erro seria de 232,1 correias. Como no

necessrio, se queremos uma estimativa

faz sentido amostrar 0,1 correia, devemos

com 90% de confiana e margem de erro

selecionar uma pea a mais.

mxima de 3%? Utilizando a equao 2

102

unidade 6

que

desejamos

estimar

ESTATSTICA E PROBABILIDADES

CLCULO DE TAMANHO
DE AMOSTRA BASEADO

teramos o seguinte resultado:


n=

1,6452 x 0,25 = 752


0,032

Observe que o resultado da equao


irreal, pois como poderamos amostrar 457
peas em um lote de 100? Nessa situao
devemos utilizar a equao 3, que leva em
considerao o tamanho do lote:

aprender a calcular o tamanho amostral


para um estudo que tem o interesse de

O tamanho da amostra passa a ser ento


89 peas, o que real, ou possvel, tendo em
vista que o tamanho do lote de 100 peas.
Caso j existisse uma informao sobre
o percentual de peas defeituosas e fosse
desejvel apenas confirmar a informao,
o tamanho amostral seria menor. Por
considere

que

normalmente

cerca de 5% das peas so defeituosas.


Para confirmar tal informao, seriam
necessrias 60 peas na amostra.
n=

clculo do tamanho amostral depende


o objetivo do estudo. Nesta seo voc

n = 89

exemplo,

No incio dessa unidade falamos que o


de vrios fatores, sendo o principal deles

100 x 0,5 x 0,5 (1,645)2


0,5 x 0,5 (1,645)2 + (100 - 1) 0,032

n=

EM INTERVALOS DE
CONFIANA PARA
UMA MDIA

estimar

uma

mdia

populacional.

Os

parmetros controlados continuam sendo


o nvel de confiana e a margem de erro
mxima desejados para o estudo. Vejamos
um exemplo:
Exemplo 9
Uma

empresa

fabricante

de

baterias

automotivas desenvolveu um novo produto


e deseja estimar a sua vida mdia. De
estudos anteriores, sabe-se que a vida

100 x 0,05 x 0,95 (1,645)2

mdia das baterias produzidas por esse

0,05 x 0,95 (1,645)2 + (100 - 1) 0,032

fabricante segue uma distribuio normal,

n = 60

com desvio-padro de seis meses. A


equipe de engenharia do produto ressalta
a importncia da correta estimao da vida
mdia da bateria, pois a partir desta ser
determinado o tempo de garantia. Por essa
razo, decidiu-se que o nvel de confiana
do estudo ser de 99% e a margem de erro
mxima aceitvel para a estimativa de
trs meses. Utilizando a equao abaixo,

103

unidade 6

ESTATSTICA E PROBABILIDADES

a equipe poder determinar o tamanho


amostral

necessrio

para

atender

arredondar o resultado para cima.

exigncias do estudo.

Voc deve ter observado no exemplo 9


que j dispnhamos de uma estimativa a

Equao 4: Tamanho de amostra exigido

priori do desvio-padro populacional (),

para estimativa de uma mdia populacional

ou seja, a equipe utilizou o desvio-padro

n=

Z(/2)
E

das outras baterias. Em muitas situaes

prticas, o desvio-padro populacional no


conhecido e nesses casos pode-se utilizar

Onde:

uma das seguintes alternativas:

n: o tamanho da amostra
Z/2: escore z que separa uma rea de

1U
 tilizao

: o desvio-padro populacional

que para estimar a vida mdia da nova

uma

amostra
87

necessrio
piloto

de

observaes.

conhecimento de e, como base nos


primeiros resultados, obtenha o desvio-

na estimativa e margem de erro mxima de

padro amostral s. Use essa estimativa

trs meses, ser necessria uma amostra

em lugar de .

de 27 baterias.
2,575 x 6
E

3U
 tilize o valor de estimado por outros
estudos realizados anteriormente.

n = 26,5 27
Ao calcular tamanho de amostra para
estimativa de uma mdia populacional,
aquela

regra

de

arredondamento apresentada no tpico


seja,

coletar

2C
 omece o processo de coleta sem o

bateria desenvolvida, com 99% de confiana

ou

alternativa,

regra, consulte Triolla (2013), seo 3-3.

Utilizando a equao 4, a equipe determinou

anterior,

da

Para maior esclarecimento sobre essa

para a estimativa.

valendo

dessa

aproximadamente

E:  a margem de erro mxima aceitvel

continua

emprica

padro: Amplitude4. Para aplicao

normal padro

regra

amplitude para estimao do desvio-

/2 na cauda direita da distribuio

n=

da

devemos

sempre

104

unidade 6

ESTATSTICA E PROBABILIDADES

CLCULO DE TAMANHO
DE AMOSTRA BASEADO
EM INTERVALOS DE

confiana e margem de erro mxima de


cinco centmetros. Sabendo que nos anos
anteriores o desvio-padro da altura dos

CONFIANA
PARA UMA MDIA
POPULAO FINITA
Nos

tpicos

anteriores

recrutas era de 30 centmetros, o sargento


utilizou a equao 4 para determinar
o

tamanho

da

amostra

necessria,

encontrando o valor 139 (maior que o total

apresentamos

de novos recrutas):

uma frmula alternativa para o clculo

n=

do tamanho amostral para estimativa de


uma proporo populacional, no caso

{ 1,965x 30 }

n = 139

de populaes finitas. Da mesma forma,


para calcular o tamanho amostral para

Sem entender o que havia feito de errado, o

estimativa de uma mdia populacional, no

sargento decidiu conversar com um soldado

caso de populaes finitas, existe tambm

que tinha conhecimento de estatstica para

um fator de correo. A equao abaixo

auxili-lo. O soldado informou ento que,

apresenta o mtodo correto para essas

neste caso, o sargento deveria utilizar a

situaes:

equao 5, que leva em considerao o


tamanho populacional. Utilizando o mtodo

Equao 5: Tamanho de amostra

adequado, o sargento decidiu, portanto, que

exigido para estimativa de uma mdia

para estimar a altura mdia dos 100 novos

populacional populao finita

recrutas, com 95% de confiana e margem

n=

de erro mxima da estimativa de cinco cm,

N2 (Z/2)2

era necessria uma amostra de 59 recrutas:

(N - 1) E2 + 2(Z/2)2

n=

100 x 302 (1,96)2


(100 - 1) x 52 +302 x (1,96)2

Exemplo 10
Suponha que o exrcito brasileiro deseje
encomendar uma remessa de uniformes
para os novos recrutas. Para melhor
adequao dos tamanhos dos uniformes,
o sargento decidiu obter uma estimativa da
altura mdia deles. Dos 100 novos recrutas,
o sargento deseja obter a estimativa
a partir de uma amostra com 95% de

105

unidade 6

n = 58,3 59

ESTATSTICA E PROBABILIDADES

PLANEJAMENTO DE

como uma caracterstica da qualidade do

EXPERIMENTOS
O

planejamento

de

produto (ou processo). O planejamento de


experimentos pode ser definido assim:

experimentos,

tambm conhecido como DOE (Design of

Um experimento um procedimento no

Experiments), um conjunto de tcnicas

qual alteraes propositais so feitas

estatsticas que visa garantir uma coleta

nas variveis de entrada de um processo

de dados eficiente para uma anlise de

ou sistema, de modo que se possa

dados que seja informativa e confivel. Esse

avaliar as possveis alteraes sofridas

conjunto de tcnicas tem vasta utilizao

pela varivel resposta como tambm as

em diversas reas do conhecimento, desde

razes destas alteraes (WERKEMA &

cincias ligadas sade at as engenharias.

AGUIAR, 1996).

Em engenharia, especialmente, o DOE


utilizado principalmente em Pesquisa e

Todo processo ou sistema impactado

Desenvolvimento, ou na rea de qualidade e

pelos insumos e por um conjunto de fatores.

desenvolvimento do produto.

O objetivo do DOE identificar quais so os


fatores que atuam sobre o processo, quais

O propsito dos experimentos planejados,

desses fatores so controlveis e, dentre os

estatisticamente, tornar a anlise de

controlveis, qual a relao que tm com o

dados to informativa quanto possvel.

resultado do processo ou a caracterstica

Experimentos

de

que

tenham

sido

mal

qualidade

de

interesse.

figura

planejados fornecem pouca ou nenhuma

abaixo ilustra essa situao, podem estar

informao til, mesmo com sofisticadas

aturando sobre o sistema os insumos, os

tcnicas de anlise de dados, e podem levar,

equipamentos, as informaes do processo,

inclusive, concluses completamente

as condies ambientais, as pessoas, os

equivocadas.

mtodos e os procedimentos:

Em engenharia, o DOE utilizado em


conjunto com outras tcnicas estatsticas,
como as cartas de controle de processos,
por exemplo, ou combinado ao ciclo PDCA.
Nesses casos o objetivo , normalmente,
estudar os efeitos de possveis fatores
sobre o resultado de um processo, expresso

106

unidade 6

ESTATSTICA E PROBABILIDADES

FIGURA 33 - Modelo geral de um processo ou sistema


Fatores de rudo
(no controlveis)

Entradas

SISTEMA

Y
Varaveis resposta

(PRODUTO/PROCESSO

(Caractersticas de
Qualidade)

Fatores controlveis
(especificados pelo pesquisador)
Fonte: WERKEMA & AGUIAR, p.15, 2006. Adaptado.

Considere uma situao em que se deseja estudar a resistncia compresso de um concreto.


O engenheiro civil identificou que existem quatro tipos de tcnicas de mistura desse concreto
e ele acredita que a resistncia compresso resultante varia conforme a tcnica de mistura
utilizada. O objetivo do engenheiro determinar qual a tcnica produzir o concreto com maior
resistncia.
Com esse objetivo, decidiu produzir uma srie de corpos de prova, utilizando cada uma das
quatro tcnicas e medindo a resistncia compresso desses concretos. A resistncia mdia
seria utilizada para determinar qual seria a melhor tcnica de mistura.
Analisando o experimento com mais cautela, o engenheiro detectou vrias questes que
deveriam ser respondidas antes do incio da coleta de dados: existem apenas essas quatro
tcnicas de mistura ou existem outras? Por que foram escolhidas estas quatro tcnicas?
Existem outros fatores que possam afetar a resistncia compresso do concreto? Quantos
corpos de prova devem ser produzidos com cada tcnica? De que modo os corpos de prova
devem ser alocados s diferentes tcnicas de mistura? Qual mtodo de anlise de dados deve
ser utilizado? Qual resistncia compresso dever ser considerada significativa do ponto de
vista prtico?
Em todo experimento, a forma de coleta dos dados fundamental para interpretao dos
resultados e, consequentemente, para confiabilidade do estudo. Suponha que nesse estudo

107

unidade 6

ESTATSTICA E PROBABILIDADES

sobre a resistncia compresso do

resultado das diferenas inerentes aos

concreto tenham sido utilizados quatro

quatro tipos de cimento utilizados. Nesse

sacos de cimento, provenientes de quatro

caso, dizemos que o efeito da tcnica de

fornecedores distintos, sendo alocados da

mistura foi confundido com o efeito do

seguinte maneira:

tipo de cimento. Vamos apresentar agora

Tcnica de mistura 1 cimento do


fornecedor A

trs princpios bsicos do planejamento


de experimentos que devem ser sempre
utilizados. Estes princpios so: rplica,

Tcnica de mistura 2 cimento do

aleatorizao e blocagem.

fornecedor B
Tcnica de mistura 3 cimento do
fornecedor C

As rplicas so repeties do experimento


feitas

sob

as

mesmas

condies

experimentais. No exemplo que estamos

Tcnica de mistura 4 cimento do

considerando, uma rplica do experimento

fornecedor D

completo consiste em medir a resistncia


compresso de um corpo de prova

Voc concorda com esse procedimento?

produzido pela tcnica de mistura 1, outro

Ao adot-lo, o engenheiro assumiu que as

pela tcnica 2, outro pela tcnica 3 e outro

caractersticas do cimento dos diferentes

pela tcnica 4. Se trs corpos de prova

fornecedores so idnticas, ou que qualquer

foram

diferena entre os cimentos no exerceria

dizemos que foram produzidas trs rplicas

influncia sobre a resistncia compresso

do experimento (veja que teremos 3 x 4 = 12

dos corpos de prova. Entretanto, no

corpos de prova, mas apenas trs rplicas).

produzidos

para

cada

tcnica,

podemos tomar essa conduta, pois


bem provvel que existam caractersticas

muito importante que as rplicas sejam

especficas

que

produzidas sob as mesmas condies

experimentais. Isso significa que todos

poderiam

de

cada

impactar

na

fornecedor
resistncia

os demais fatores que possam exercer

compresso dos corpos de prova.

impacto sobre a caracterstica resultante de


Da maneira como o estudo foi conduzido

interesse devem ser mantidos constantes.

pelo engenheiro, quando forem obtidas


as resistncias compresso mdias de

O segundo princpio bsico do DOE a

cada tcnica ele no ser capaz de dizer

aleatorizao. De acordo com esse princpio,

quanto da diferena observada resultado

so definidos de maneira aleatria tanto a

da tcnica de mistura utilizada e quanto

ordem de realizao dos ensaios individuais

108

unidade 6

ESTATSTICA E PROBABILIDADES

do experimento, quanto a alocao de cada

realizar o experimento da seguinte maneira:

corpo de prova s respectivas condies

Cada pacote de cimento ser utilizado

experimentais.

garante

para produzir um corpo de prova para cada

que o efeito dos fatores no controlveis

tcnica de mistura. Nesse caso, cada bloco

sejam distribudos igualmente ao longo de

um pacote de cimento (fornecedor) que

todos os ensaios, evitando assim que haja

ser utilizado para produzir quatro corpos

confuso do efeito desses fatores com o

de prova. A figura 34 ilustra como ficaria o

efeito dos fatores de interesse.

experimento. Cada retngulo vertical (azul

Esse

princpio

claro) considerado um bloco enquanto


No exemplo citado, suponha que os corpos

cada retngulo horizontal (azul escuro)

de prova sero produzidos por operadores

um corpo de prova produzido por uma das

distintos e, como se sabe, a habilidade dos

quatro tcnicas de mistura. Logo, para o

operadores pode influenciar a qualidade

cimento proveniente do fornecedor A, por

do concreto produzido. Logo, se todas as

exemplo, sero produzidos quatro corpos

amostras produzidas atravs da tcnica de

de prova, um para cada tcnica de mistura.

mistura 1 forem feitas pelo operador menos

Este procedimento mais adequado que

experiente, poderemos estar continuamente

aquele proposto pelo engenheiro no incio

colocando a tcnica de mistura 1 em

da seo, em que cada pacote de cimento

desvantagem,

outras

seria utilizado para produo de quatro

tcnicas de mistura. A distribuio aleatria

corpos de prova, utilizando uma nica

da ordem de produo de cada corpo de

tcnica de mistura.

em

relao

prova para cada operador atenuaria esse


problema.
O terceiro e ltimo princpio bsico o
princpio da blocagem. Chamamos de
blocos

os

unidades

conjuntos

homogneos

experimentais.

No

de

exemplo

considerado, os corpos de prova so


produzidos com cimento de fornecedores
distintos. Logo so bastante heterogneos
em relao a outros fatores alm da tcnica
de mistura.
Para resolver esse problema, podemos

109

unidade 6

ESTATSTICA E PROBABILIDADES

FIGURA 34 - Blocagem dos cimentos para cada tipo de tcnica de mistura do concreto
FORNECEDOR A

FORNECEDOR B

FORNECEDOR C

FORNECEDOR D

Tc. 1

Tc. 1

Tc. 1

Tc. 1

Tc. 2

Tc. 2

Tc. 2

Tc. 2

Tc. 3

Tc. 3

Tc. 3

Tc. 3

Tc. 4

Tc. 4

Tc. 4

Tc. 4

Fonte: Elaborado pelo autor

TERMINOLOGIA

BSICA

Agora que voc j aprendeu quais so os princpios bsicos do DOE, vamos aprender alguns
termos comuns e muito teis para o bom planejamento do experimento. Sero apresentados
seis termos bsicos, a saber: Unidade Experimental, Fatores, Nveis de um Fator, Tratamento,
Ensaio e Varivel Resposta (ou desfecho). Para melhor entendimento, vamos utilizar o exemplo
sobre resistncia compresso do concreto, do tpico anterior, e definir cada termo.
A Unidade Experimental a unidade bsica para a qual ser feita a medida da resposta. No
nosso exemplo, cada unidade experimental corresponde a um corpo de prova do concreto
utilizado no estudo.
Os Fatores so os tipos distintos de condies que so manipuladas as unidades
experimentais. Ou seja, so as variveis controlveis que podem exercer influncia sobre a
varivel resposta. E desejamos conhecer essa influncia. No exemplo citado temos um nico
fator: tcnica de mistura.
Os Nveis de um fator so os diferentes modos de presena de um fator no estudo considerado.
No exemplo citado, os nveis do fator tcnica de mistura so os diferentes tipos de tcnica:
Tcnica 1, Tcnica 2, Tcnica 3 e Tcnica 4. Podemos dizer, portanto, que nosso fator tem
quatro nveis.

110

unidade 6

ESTATSTICA E PROBABILIDADES

Chamamos de Tratamento as combinaes

um tratamento a uma unidade experimental,

especficas dos nveis de diferentes fatores.

realizamos um ensaio. No nosso exemplo

Quanto temos apenas um fator, como no

sobre a resistncia compresso do

nosso exemplo, os tratamentos so os

concreto, cada ensaio consiste em produzir

prprios nveis dos fatores, Tratamento

um corpo de prova utilizando determinada

1 = Tcnica 1, Tratamento 2 = Tcnica 2,

tcnica de mistura do concreto.

Tratamento 3 = Tcnica 3 e Tratamento 4 =


No exemplo sobre os mtodos de pintura de

Tcnica 4.

para-choques automotivos, um ensaio seria


desejar

aplicar um tratamento em uma unidade

estudar dois ou mais fatores com diferentes

experimental (para-choque), por exemplo,

nveis. Nesses casos, os tratamentos

pintar um para-choque por Imerso usando

seriam a combinao de cada nvel do fator

tinta A.

Em

alguns

estudos

podemos

1 com cada um dos diferentes nveis do


fator 2. Suponha que um engenheiro deseja

Por fim, o termo Varivel Resposta, voc

estudar o efeito de dois mtodos de pintura

j conheceu nas unidades anteriores,

de para-choques de automveis (imerso e

nada mais que o resultado de interesse

asperso) e de trs tipos de tinta (A, B e C)

registrado aps a realizao de um ensaio.

sobre a fora de adeso da tinta.

No exemplo sobre as tcnicas de mistura do


concreto, a varivel resposta a resistncia

Aqui, o fator 1 seria o mtodo de pintura,

compresso do corpo de prova produzido

que tem dois nveis (Imerso e Asperso) e

com cada uma das tcnicas de mistura. J

o fator 2 seria o tipo de tinta, que tem trs

no exemplo sobre os mtodos de pintura

nveis (A, B e C). Para esse estudo, teramos

de para-choques automotivos, a varivel

2x3=6 tratamentos, a saber: T1 = Imerso +

resposta fora de adeso da tinta sobre o

Tinta A, Imerso + Tinta B, Imerso + Tinta

para-choque, medida aps a aplicao da

C, Asperso + Tinta A, Asperso + Tinta B

tinta com cada mtodo de aplicao e tipo

e por fim, Asperso + Tinta C. Observe que

de tinta.

a unidade experimental seria cada um dos


para-choques sobre os quais aplicaramos
os distintos tratamentos.
Definimos como Ensaio cada realizao do
experimento em uma determinada condio
de interesse (tratamento), ou seja, ao aplicar

111

unidade 6

ESTATSTICA E PROBABILIDADES

T2=mdio e T3 = Alto.

APLICAO

PRTICA

Ensaio: Um ensaio seria secar uma trouxa


de roupa utilizando temperatura baixa, por
exemplo. Outro ensaio seria secar outra

Considere que voc tenha uma mquina de

trouxa de roupa utilizando temperatura alta.

secar roupas que trabalha com diferentes


nveis de temperatura e deseja determinar o

Varivel resposta: A varivel resposta

efeito do nvel de temperatura sobre o tempo

desse estudo o tempo para secagem das

de secagem das roupas.

roupas, que pode ser medido em minutos,


por exemplo.

a) Defina para essa situao cada um


dos seis termos bsicos.

b) Para este estudo, uma rplica seria secar


umas trs trouxas de roupa, sendo uma

b) O que seria uma rplica nesse estudo?

para cada nvel de temperatura da secadora,

c) Descreva um vis de amostragem


que

poderia

ser

resolvido

ou seja, um ensaio para cada um dos

pela

aleatorizao.

tratamentos existentes.
c) A temperatura ambiente poderia ser um fator,

d) Descreva um vis de amostragem que

de maneira que, caso realizssemos todos

poderia ser resolvido pela blocagem.

os ensaios com tratamento 1 (temperatura


baixa) no perodo manh (normalmente mais

SOLUO:

frio) e todos os ensaios com tratamento

a) U
 nidade Experimental: Cada trouxa de

3 (temperatura alta) no perodo da tarde

roupa molhada que ser introduzida para

(normalmente mais quente), por exemplo,

secagem.

no final no saberamos dizer quanto da


diferena no tempo de secagem devido

Fator: O fator, nesse caso, a temperatura

aos diferentes nveis de temperatura da

de operao da mquina de lavar.

mquina, e quanto devido variao

Nveis do fator: Os nveis do fator so

da temperatura ambiente. Aleatorizando

as diferentes faixas de temperatura da

secadora, podendo ser Baixo, Mdio e Alto,

atenuaramos esse problema.

por exemplo.

ordem

de

realizao

dos

ensaios

d) Diferentes tipos de roupa poderiam ser um

Tratamento: Como estamos trabalhando

problema, uma vez que roupas com malhas

com um nico fator, os nveis do fator

mais grossas levam um tempo maior para

so o prprio tratamento, logo, T1=baixo,

secar do que outras. Devem-se agrupar as

112

unidade 6

ESTATSTICA E PROBABILIDADES

roupas por caractersticas semelhantes de fabricao, como leveza do pano, tamanho das peas.
A quantidade das mesmas tambm deve ser controlada para que cada ensaio seja feito de forma
mais homognea possvel. Por exemplo, se tiver disponvel trs peas de moletom, deve-se alocar
uma a cada trouxa de roupas, ou se tiver seis peas jeans, deve-se alocar duas para cada trouxa
de roupas.

REVISO
Nesta unidade voc aprendeu que, para calcular o tamanho amostral, diversos fatores devem
ser levados em considerao. Em especial voc aprendeu a calcular o tamanho amostral em
quatro situaes: quando o objetivo do estudo a estimativa de uma proporo populacional,
sendo o tamanho populacional finito ou infinito. E quando o objetivo do estudo a estimativa
de uma mdia populacional, novamente, sendo o tamanho populacional finito ou infinito. O
quadro abaixo resume essas situaes:
QUADRO 4 - Equaes para clculo de tamanho amostral segundo objetivos do estudo
Estimar uma proporo populacional

Estimar uma mdia populacional

Populao Infinita: Equao 1


n=

Populao Infinita: Equao 3


Z/2 2
n=
E

Z/2 pq
E2

Populao Finita: Equao 2


n=

Populao Finita: Equao 4

(Z/ )2
Nqp
2

n=

(Z/ )2 + (N - 1) E2
pq
2

N2 (Z/2)2

(N - 1) E2 + 2(Z/2)2

Fonte: Elaborado pelo autor.

Voc aprendeu tambm que em qualquer rea do conhecimento a coleta de dados deve ser
sempre precedida pelo planejamento do experimento. Essa prtica assegura a confiabilidade
dos resultados e simplifica os mtodos de anlise. Por outro lado, a no observncia dessa
prtica inviabiliza a utilizao dos resultados a despeito de qualquer tcnica estatstica, por
mais sofisticada que seja.
Neste sentido, os princpios bsicos que voc aprendeu foram: rplica, aleatorizao e

113

unidade 6

ESTATSTICA E PROBABILIDADES

blocagem. E tambm os seis termos bsicos


utilizados
de

em

qualquer

experimentos,

planejamento

saber:

Unidade

Experimental, Fatores, Nveis de um fator,


Tratamento, Ensaio e Varivel Resposta.

Ou voc pode ler o captulo 1 do livro:


WERKEMA, Maria Cristina Catarino; AGUIAR,
Silvio. Planejamento e anlise de experimentos:
Como

Identificar

as

principais

variveis

influentes em um processo. Belo Horizonte:


Fundao Cristiano Ottoni, Escola de Engenharia

PARA SABER

da UFMG, 1996.

MAIS

Se voc tem interesse em aprender mais


sobre o clculo do tamanho de amostra para
estimao de mdias ou propores, levando em
considerao o nvel de confiana e margem de
erro da estimativa, leia o captulo 8 do livro:
MONTGMOMERY, Douglas C. George C. Runger.
Estatstica

aplicada

probabilidade

para

engenheiros. trad e rev tc Vernica Calado - Rio


de Janeiro: LTC, 2009.
Para este assunto voc pode ler tambm o
captulo 7 do livro:
TRIOLLA, Mario F. Introduo Estatstica:
Atualizao da tecnologia. trad e rev tc Ana
Maria Lima de Farias, Vera Regina Lima de Farias
e Flores. Rio de Janeiro: LTC, 2013.
Se voc tem interesse em aprofundar sobre
Planejamento de Experimentos, leia o captulo
13 do livro:
MONTGMOMERY, Douglas C. George C. Runger.
Estatstica

aplicada

probabilidade

para

engenheiros. trad e rev tc Vernica Calado. Rio


de Janeiro: LTC, 2009.

114

unidade 6

UNIDADE

TESTES DE

HIPTESES

teste de hipteses uma tcnica estatstica utilizada para avaliar alguma


afirmao feita sobre uma populao de interesse atravs de dados amostrais.
Por exemplo: um engenheiro pode estar interessado em avaliar a hiptese de que

o tempo de durao de um fusvel seja de 1.000 horas, contra a hiptese de que tal valor
seja diferente de 1.000 horas. Essa seria uma afirmao sobre uma mdia, uma vez que a
varivel de interesse tempo de durao quantitativa. Nesse caso, o objetivo testar
se a hipottica mdia de 1.000 horas verdadeira.
No exemplo em questo, seria impraticvel observar o tempo de durao de todos os fusveis
fabricados, ou seja, da populao de interesse. De forma que necessria a utilizao de
dados amostrais. O engenheiro poderia selecionar alguns fusveis, calcular o valor da mdia e
comparar com o valor proposto de 1.000 horas.
Voc ir aprender que, alm de avaliar afirmaes sobre mdias, as hipteses estatsticas
tambm podem ser testadas para outros parmetros de interesse, como propores (em caso
de variveis categricas), desvio-padro, medianas, etc.

116

unidade 7

ESTATSTICA E PROBABILIDADES

A CONSTRUO E O
SIGNIFICADO DE UMA

representada por H1 ou Ha.

HIPTESE ESTATSTICA

Exemplo 7.1

Uma

ser

Um fabricante afirma que o tempo mdio

construda a partir de alguma teoria sobre

de secagem da tinta de sua marca de 30

determinado

de

minutos. Uma pessoa decide testar se essa

alguma afirmao sobre certo parmetro

afirmao verdadeira. Para isso, marca o

da populao em anlise. No caso do

tempo de secagem de 40 paredes e depois

engenheiro interessado em testar se o

calcula a mdia. Quais seriam as hipteses

tempo mdio de durao de um fusvel

nula e alternativa?

hiptese

estatstica

assunto,

ou

pode
atravs

1.000 horas, a hiptese no se deu atravs


de uma teoria, mas possivelmente em

SOLUO:
A hiptese nula o tempo de secagem, igual

funo da experincia dele com o assunto.

a 30 minutos.
Um teste estatstico tem como objetivo o
fornecimento de evidncias para subsidiar a
deciso de rejeitar ou no rejeitar uma hiptese
sobre algum parmetro de uma populao
atravs de dados obtidos por uma amostra.

A hiptese alternativa o contrrio (ou


o complemento): o tempo de secagem
diferente de 30 minutos. As hipteses so
representadas da seguinte forma:
H0: = 30 minutos

A afirmao sobre a mdia populacional


tida como a hiptese nula. Damos o
nome de hiptese alternativa afirmao
contrria da hiptese nula.

H1: 30 minutos
Alm da definio acerca das hipteses,
o nvel de significncia tambm deve ser
escolhido pelo analista.

CONCEITO

CONCEITO

Hiptese nula: Refere-se a uma afirmao do

Nvel de significncia: Consiste na probabilidade

que queremos provar sobre algum parmetro.

de rejeitar a hiptese nula, dado que ela

Geralmente representada por H0.

verdadeira. Geralmente representado pela letra

Hiptese alternativa: Refere-se a uma afirmao


contrria ao que queremos provar. Geralmente

grega alfa (). O nvel de significncia tambm


conhecido como erro tipo I.

117

unidade 7

ESTATSTICA E PROBABILIDADES

Qual seria o significado da expresso ...

varivel assume. No segundo caso so

rejeitar a hiptese nula, dado que ela

comparados os valores de mdia ou

verdadeira? Assim como no exemplo do

proporo entre dois grupos. Alm disso,

tempo de durao do fusvel, em que o

podemos

analista resolve testar se a afirmao de

bilaterais. O prximo tpico aborda o teste

que o fusvel sobrevive por 1.000 horas,

bilateral com uma amostra.

fazer

testes

unilaterais

ou

a operacionalizao do teste ocorre a


partir de dados amostrais. Nesse caso,
pode ser obtida uma amostra muito ou
pouco parecida com a populao. Tanto

TESTES PARA

UMA AMOSTRA

no primeiro como no segundo caso


existem

probabilidades

associadas.

A distribuio da estatstica de teste

Existem chances de coletar uma amostra

tende para o formato de uma distribuio

que d evidncias de que a hiptese seja

normal quando o tamanho da amostra

rejeitada, mesmo quando, na verdade,

relativamente grande (geralmente maior

a hiptese seja verdadeira. O analista

ou igual a 30). Se o tamanho da amostra

sempre corre o risco de tomar uma

for pequeno (menor do que 30) e o desvio-

deciso equivocada no que se refere

padro for desconhecido, a distribuio da

rejeio ou no da hiptese nula, cabendo

estatstica de teste apresenta formato mais

a ele escolher quanto risco aceita correr.

prximo da distribuio t de Student. Essa

Esse risco conhecido como nvel de

informao importante porque definir at

significncia e geralmente estipulado

que valor da estatstica de teste a hiptese

em 10%, 5% ou 1%. Dessa forma, ao

deve ser rejeitada.

efetuar um teste de hipteses com 5% de


significncia, podemos afirmar que exista
5% de probabilidade de rejeitar a hiptese
nula, quando na verdade ela verdadeira,

TESTES DE GRANDES
AMOSTRAS PARA

tipo I.

UMA MDIA
POPULACIONAL

Os testes de hiptese com afirmaes

O exemplo a seguir consiste numa situao

sobre mdias ou propores podem ser

em que feita uma afirmao acerca

feitos principalmente com uma ou duas

do valor de uma mdia (parmetro mais

amostras. No primeiro caso testada

testado quando trabalhamos com variveis

uma afirmao sobre o valor que a

quantitativas).

ou seja, 5% de chance de cometer o erro

118

unidade 7

ESTATSTICA E PROBABILIDADES

Suponha que um profissional especializado

Exemplo 7.2
Uma indstria realiza o empacotamento
do produto caf em gros. Um dos
objetivos que a embalagem contenha
500 gramas de caf. natural que em
situaes como essa exista alguma
variao no peso do produto empacotado.
Dessa forma, podem ter pacotes com
498 gramas, com 502 gramas, com 501
gramas, com 499 gramas, ou qualquer
outro valor prximo do especificado.
No

entanto,

indstria

geralmente

trabalha para que exista certa margem


de aceitao tanto para cima quanto para
baixo, devido aos seguintes fatores:

a) pacotes

com

volume

muito

em controle estatstico de processos resolva


fazer esse teste. Nesse caso, o objetivo
testar a hiptese de que o processo esteja
sob controle, ou seja, que o peso mdio
do caf aps empacotamento seja de 500
gramas. Para a operacionalizao do teste,
36 pacotes foram inspecionados (pesados).
Sabendo que a mdia obtida atravs dessa
amostra foi de 502 gramas, e que o desviopadro foi de 3 gramas, podemos afirmar
que o processo est sob controle?
Para operacionalizar esse teste, devemos
seguir as seguintes etapas:
1 
etapa:

as

hipteses

de

interesse

alto podem provocar aumento


exagerado de custos;

Estabelea

No caso em estudo, o parmetro2 a ser

b) pacotes com peso muito abaixo

testado a mdia. Temos o interesse em

dos 500 gramas podem provocar

verificar se ela igual a 500 gramas. Ento

sanes indstria junto aos

devemos estabelecer as hipteses nula e

rgos de fiscalizao.

alternativa. Dessa forma, as hipteses so:

Para certificar de que o peso esteja

H0: = 500 gramas

dentro da margem aceitvel, pode ser

H1: 500 gramas

invivel

verificar

todos

os

produtos

embalados (ou seja, toda a populao


de interesse). Nesse contexto, torna-se
interessante utilizar amostras para testar
se o processo encontra-se dentro de
padres aceitveis, ou seja, para testar se
o processo encontra-se sobre controle.

2 - Um parmetro refere-se determinada medida


que caracterize a populao de interesse. Os
parmetros mais frequentemente investigados
atravs dos testes de hipteses so: a
mdia, o desvio-padro, no caso de variveis
quantitativas e a proporo, no caso de variveis
categricas.)

119

unidade 7

ESTATSTICA E PROBABILIDADES

Note que o teste refere-se mdia

36, podemos trabalhar com a distribuio

populacional e no amostral. A mdia

normal padronizada. Nomeamos o valor

amostral ser utilizada como base para

obtido da estatstica de teste, que

tomar a deciso sobre rejeio ou no

calculada de acordo com a frmula abaixo:

rejeio da hiptese nula.

-
Z = x

2 etapa: Obteno da estatstica de teste


Essa

frmula

permite

que

mdia

amostral obtida passe de qualquer escala

502 gramas. Ser que esse valor foi obtido

(em gramas, no presente exemplo) para

em funo da variabilidade amostral3 , ou

nmero de desvio-padro. Isso possibilita

seja, o valor obtido de 502 gramas prximo

traar comparaes com os valores de

do valor proposto de = 500 gramas? Para

probabilidade

respondermos a essa questo devemos

padronizada (em que a unidade de medida

verificar qual a probabilidade de obter o

a quantidade de desvio-padro). Sem

valor 502 gramas, levando em considerao

esse procedimento, essa comparao seria

O valor mdio obtido pela amostra foi:

distribuio

das

mdias

amostrais,

ou seja, a possibilidade de obteno de


resultados diferentes de amostra para
amostra. Para isso, utilizamos a distribuio

pequena (geralmente menor do que 30) e o

normal

seguintes itens:
Z: E
 score

da

distribuio

normal

padronizada

conhecido ou quando o tamanho da amostra


ou acima de 30). Quando a amostra

distribuio

pouco vivel. A frmula composta dos

normal padronizada quando o valor de


razoavelmente grande (geralmente igual

da

: Mdia obtida atravs da amostra


: Valor da mdia populacional a ser testada
x: Valor do desvio-padro da distribuio

desvio-padro desconhecido, utilizamos

das mdias amostrais.

a distribuio t para avaliar a probabilidade

x = n

em questo. Como no presente exemplo


temos uma amostra de tamanho igual a

Caso no se conhea o desvio-padro


3 - A variabilidade amostral ocorre porque
existem chances de tomarmos tanto amostras
parecidas com a populao de interesse quanto
amostras pouco semelhantes populao.
Qualquer processo de amostragem sujeita-se a
essa situao. Cabe ao pesquisador levar esse
fato em considerao ao construir um teste de
hipteses

populacional (situao muito comum),


podemos utilizar o desvio-padro obtido
atravs da amostra:

120

unidade 7

sx = n

ESTATSTICA E PROBABILIDADES

Dessa forma, a estatstica de teste passa a ser:


-
Z = s/n
Com os dados do problema, temos ento:
Z=

502 - 500
= 4,0
s/36

O nmero obtido significa que 502 gramas encontram-se a 4,0 desvios-padro de distncia da
mdia populacional de 500 gramas. Mas esse valor perto ou longe da mdia populacional?
Quando Z = 0, pode-se afirmar que a mdia amostral exatamente igual ao valor
hipottico da mdia populacional.
Quando Z = 1, a probabilidade do valor da mdia amostral ter sido obtido devido
flutuao amostral de aproximadamente 34%, pois 68% dos dados encontram-se a
at um desvio-padro de distncia da mdia, conforme a figura 8.1
FIGURA 8.1: rea da distribuio normal padronizada
de acordo com o nmero de desvios-padro.

Fonte: TRIOLA, 2013, p. 88.

121

unidade 7

ESTATSTICA E PROBABILIDADES

Quando Z = 2, a probabilidade do valor da mdia amostral ter sido obtido devido


flutuao amostral de aproximadamente 5%, pois 95% dos dados encontram-se a
at um desvio-padro de distncia da mdia4.
Quando Z = 3, a probabilidade do valor da mdia amostral ter sido obtido devido
flutuao amostral de aproximadamente 0,2%, pois 99,8% dos dados encontram-se
a at um desvio-padro de distncia da mdia.
Utilizando o mesmo raciocnio, com o valor de Z = 4,0, depreende-se que a probabilidade do
valor da mdia amostral ter sido obtida devido flutuao amostral seja bem menor que 0,2%.
Dessa forma, o valor de Z = 4 significa que os 502 gramas obtidos pela amostra apresentam
uma grande distncia dos 500 gramas propostos na hiptese nula (a distncia de 2 gramas
corresponde a 4 desvios-padro). O fato dos valores serem tidos como distantes implica
na rejeio da hiptese nula. Para definir quais valores do escore Z so considerados altos,
utiliza-se o desenho da distribuio normal padronizada, conforme o 3 passo.
Os valores acima podem ser obtidos atravs de um software estatstico, ou pela tabela Z.
3 etapa: Obteno da regio de rejeio
Para tomar a deciso de rejeitar ou no a hiptese nula, podemos utilizar o diagrama da figura 8.2:
FIGURA 8.2 - Regies de rejeio da hiptese nula

Fonte: Elaborado pelo autor.

4 - Observe pela Figura 8.1 que 34% + 13,5% = 47,5%. Ao multiplicarmos esse valor por dois, obtemos os 95%.

122

unidade 7

ESTATSTICA E PROBABILIDADES

A figura 8.2 representa a distribuio normal

Devemos procurar na tabela o valor do nvel

padronizada. A rea em vermelho refere-

de significncia dividido por 2, ou seja 2,

se regio de rejeio da hiptese nula.

pois o teste bilateral, o que implica em

Valores menores que - 1,96 desvios-padro

duas regies de rejeio (as caudas direita

ou maiores que + 1,96 desvios-padro so

e esquerda da distribuio, conforme a

considerados demasiadamente afastados

figura 8.3). Observe que a combinao da

quando consideramos uma significncia de

linha com a coluna gera o valor do escore

5% para o teste bilateral (ou seja, podemos

Z = 1,96. O nmero 1,96 foi obtido atravs

considerar que tais valores sejam pontos de

da combinao da coluna e linha formados

corte). Dessa forma, cada uma das reas

pelo valor 0,0250 referente rea da cauda

em vermelho representa 2,5% dos dados. A

direita (ou esquerda) da distribuio normal

rea total abaixo dos dados (soma da rea

padronizada.

verde com a rea vermelha) representa


100% dos dados.
Quando o valor da estatstica de teste
encontra-se

na

regio

em

vermelho,

consideramos pouco provvel que a mdia


amostral (ou outra estatstica) tenha sido
resultado das flutuaes amostrais. Os
valores crticos (- 1,96 e 1,96) foram obtidos
pelo percentil 97,5 da tabela da distribuio
normal padronizada. Podem ser calculados
tambm atravs de softwares estatsticos.
A figura 8.3 indica de onde os dados foram
obtidos.

123

unidade 7

ESTATSTICA E PROBABILIDADES

FIGURA 8.3 - Distribuio normal padro

Fonte: BARBETTA, 2010, p. 377

124

unidade 7

ESTATSTICA E PROBABILIDADES

4 etapa: Concluso

2 etapa: Obteno da estatstica de teste


-
Z = s/n

Com base nos valores obtidos pela estatstica


de teste e pela regio de rejeio, tomamos
uma deciso em relao hiptese nula.

Com os dados do problema, temos ento:

No caso em questo, a deciso rejeit-la,

Z=

pois o valor 4 desvios-padro (relativo aos 2


gramas de distncia entre a mdia amostral
e a mdia populacional proposta na hiptese

3 etapa: Obteno da regio de rejeio

nula) pode ser considerado muito longe da


mdia, uma vez que se encontra na parte
vermelha do diagrama. A estatstica de teste
no valor de 4,00 maior do que o valor crtico
de + 1,96 (nmero obtido na tabela da Figura
8.3, que serve de referncia para rejeio ou
no rejeio da hiptese nula).
Exemplo 7.3
Um processo foi delineado para fabricar
bancadas

de

tamanho

igual

120

centmetros. Para verificar se o processo


encontra-se sob controle, um especialista
coletou uma amostra de 64 peas. Foi
obtida uma mdia amostral

= 120,2

centmetros, com desvio-padro s = 1,6


centmetros. Teste a hiptese de que o
processo encontra-se sob controle, ou seja,
que a mdia populacional seja igual a 120
centmetros. Use significncia de 10%.
1 
etapa:

Estabelea

as

hipteses

120,2 - 120,0 = 1,0


1,6/64

de

interesse
H0: = 120 centmetros
H1: 120 centmetros

125

unidade 7

ESTATSTICA E PROBABILIDADES

FIGURA 8.4 - Regies de rejeio da hiptese nula.

Fonte: Elaborado pelo autor.

O valor crtico de 1,645 positivo (ou negativo) foi obtido pela combinao da linha e coluna
relativas rea igual a 0,050 (0,100 dividido por 2)5 da tabela da distribuio normal padro da
figura 8.4.

5 - O valor 0,10 refere-se aos 10% escolhidos como nvel de significncia pelo pesquisador. Tal valor consiste
na probabilidade de rejeitar a hiptese nula, dado que ela verdadeira, ou seja, probabilidade de tomar uma
deciso equivocada em relao hiptese.

126

unidade 7

ESTATSTICA E PROBABILIDADES

FIGURA 8.5 - Distribuio normal padro

Fonte: BARBETTA, 2010, p. 377

127

unidade 7

ESTATSTICA E PROBABILIDADES

4 etapa: Concluso

a hiptese de que a mdia seja igual a 10


milmetros. Use significncia de 5%.

Como o valor de Z = 1,00 obtido pela


estatstica de teste no supera a valor

1 
etapa:

nula. No podemos descartar a hiptese de


que a mdia seja 120 centmetros. Portanto,
h indcios de que o processo encontra-se
sob controle.

as

hipteses

de

interesse

crtico de 1,645, ou seja, no pertence


regio crtica, no rejeitamos a hiptese

Estabelea

H0: = 10 milmetros
H1: 10 milmetros
2 etapa: Obteno da estatstica de teste
Nesse caso, devemos utilizar o escore t no
lugar do Z:

TESTES DE HIPTESES

PARA AMOSTRAS
PEQUENAS

Com os dados do problema, temos ento:

Nos exemplos 7.2 e 7.3 as amostras tm


tamanho maior que 30. Quando a amostra
for pequena (menor do que 30) e o desviopadro for desconhecido (situao mais
frequente), devemos utilizar a Distribuio t
de Student para realizar o teste.

t=

- = 10,2 - 10,0
0,2/16 = 4,0
s/n

3 etapa: Obteno da regio de rejeio


Nesse caso, devemos trabalhar com a
distribuio t:

O exemplo 7.4 consiste num problema de


teste de mdia em que a amostra pequena
e o desvio-padro () desconhecido.
Exemplo 7.4
Um engenheiro acredita que um processo
esteja sob controle produzindo esferas com
10 milmetros de dimetro. Foi coletada
uma amostra com 16 esferas cujo o valor
obtido para a mdia foi X = 10,2 milmetros
e desvio-padro s = 0,20 milmetros. Teste

128

unidade 7

ESTATSTICA E PROBABILIDADES

FIGURA 8.6 - Distribuio t de Student

Fonte: Elaborado pelo autor.

Para saber o valor crtico, devemos consultar a tabela t. Como a amostra conta com 16
elementos, temos 15 graus de liberdade. Como o nvel de significncia igual a 5%, devemos
procurar o escore t na coluna do 0,05 (rea em duas caudas, pois o teste bilateral)

129

unidade 7

ESTATSTICA E PROBABILIDADES

FIGURA 8.7 - Tabela da Distribuio t

Fonte: TRIOLA, 2013, p. 614.

4 etapa: Concluso
Como o valor 4,0 obtido pela estatstica de teste supera a valor crtico 2,13 obtido pela
distribuio t, rejeitamos a hiptese de que a mdia seja de 10 milmetros. Portanto, o processo
encontra-se fora de controle.

130

unidade 7

ESTATSTICA E PROBABILIDADES

TESTE PARA

firma ficam estressados quando fazem

UMA PROPORO

horas extras durante a madrugada.

Quando

variveis

trabalhadores, dos quais 12 afirmaram

quantitativas, o principal parmetro de

se estressar nessa situao. Teste a

interesse costuma ser a mdia. Alm da

hiptese de que a proporo seja de

mdia, outros parmetros tambm podem

30%. Use significncia de 5%.

trabalhamos

com

Foi coletada uma amostra com 49

ser testados, como, por exemplo, o desviopadro. No caso de variveis categricas,

1 
etapa:

Estabelea

as

hipteses

de

interesse

geralmente a medida de interesse a ser


testada uma proporo.

H0: = 0,30
No teste de hipteses, o valor do erro padro

H1: 0,30

da proporo geralmente est baseado no


uso do valor hipottico:

Sp =

Observao

Enquanto

mdia

representada pela letra , a proporo

(1n -)

representada pela letra grega (pi).

A frmula para o clculo de Z para testar


uma hiptese voltada para o valor da
proporo da populao :
Z=

1:

Observao 2: Para representarmos os


30% propostos na hiptese nula, utilizamos
a escala decimal. Dessa forma, o valor
utilizado nos clculos 0,30 (ou seja, 30
dividido por 100).

p-
Sp

2 etapa: Obteno da estatstica de teste


O exemplo 7.5 consiste num teste de
proporo.

Antes de obtermos o escore padronizado


Z, devemos calcular o desvio-padro da
proporo populacional, dado pela frmula

Exemplo 7.5

a seguir:

Um engenheiro acredita que 30% dos


trabalhadores

de

uma

determinada

131

unidade 7

ESTATSTICA E PROBABILIDADES

Sp =

= 0,00428 = 0,0655
(1n -) = 0,30 (149- 0,30) = 0,21
49

O escore padronizado ento :


Z=

p-
0,0655

0,2653 - 0,3000 - 0,0347


=
= -0,53
0,0655
0,0655

3 etapa: Obteno da regio de rejeio


Como o teste bilateral e com 5% de significncia, obtemos atravs da tabela Z o valor crtico
igual a - 1,96.
FIGURA 8.8 - Distribuio normal padronizada

Fonte: Elaborado pelo autor.

4 etapa: Concluso
O valor - 0,53, obtido pela estatstica de teste, encontra-se fora da regio de rejeio, sendo
prximo de zero e longe do valor crtico de -1,96. Dessa forma, no rejeitamos a hiptese
nula. Portanto, no h indcios de que a proporo de trabalhadores estressados na empresa
estudada seja diferente de 30%.
No prximo tpico voc ver situaes em que o pesquisador tem como interesse comparar
os valores dos parmetros de duas amostras.

132

unidade 7

ESTATSTICA E PROBABILIDADES

TESTES PARA DUAS OU

O numerador apresenta as mdias das

MAIS AMOSTRAS

duas amostras, enquanto o denominador

Nos tpicos anteriores aprendemos a

padro

delinear testes de hipteses bilaterais

tamanhos de amostras. No exemplo 7.6

em que uma afirmao numrica feita

feito um teste em que so comparadas as

sobre uma mdia ou uma proporo para

mdias de duas amostras.

consiste na raiz da soma dos desviosdivididos

pelos

respectivos

uma amostra. Em algumas situaes o


pesquisador tem interesse em comparar

Exemplo 7.6

tais valores em dois grupos. Nesse caso,


podemos afirmar que temos um teste

Um engenheiro resolveu comparar o tempo

de hiptese para a comparao de duas

de secagem de duas marcas diferentes de

mdias ou de duas propores.

tintas para determinado tipo de parede.


Para a marca A foram verificados os tempos
de secagem de 50 paredes. O tempo mdio

TESTE PARA A
COMPARAO
DE DUAS MDIAS EM

obtido foi

= 80 minutos, com desvio-

padro s1 = 6 minutos. Para a marca B,


foram verificadas 40 paredes, com tempo

AMOSTRAS
INDEPENDENTES

mdio

= 88 minutos e desvio-padro

s2 = 10 minutos. Teste a hiptese de que


no existe diferena entre as mdias. Use

Em vrias situaes devemos decidir se

significncia 1%.

uma diferena observada entre as mdias


de dois grupos pode ser atribuda ao acaso

1 
Etapa:

Estabelea

as

hipteses

interesse

ou se h indcios de que os valores obtidos


de fato provm de populaes com mdias
diferentes. Quando desejamos comparar
as mdias obtidas por duas amostras
independentes,

utilizamos

estatstica de teste:

Z=

seguinte

H0: A = B
H1: A B
2 Etapa: Obteno da estatstica de teste

s s22
+
n1 n2
2
1

Aplicando a frmula, temos:

133

unidade 7

de

ESTATSTICA E PROBABILIDADES

Z=

s s
+
n1 n2
2
1

2
2

80 - 88

6 10
+
50 40
2

-8

36 100
+
50 40

-8

-8

-8
= 1,7944 = -4,46
3,22

0,72 + 2,5
=

3 Etapa: Obteno da regio de rejeio.


FIGURA 8.9 - Regies de rejeio da hiptese nula.

Fonte: Elaborado pelo autor.

O valor crtico de 2,33 positivo (ou negativo) foi obtido pela combinao da linha e coluna
relativas rea igual a 0,005 (0,010 dividido por 2) da tabela da distribuio normal padro.
4 Etapa: Concluso
Como o valor de Z = - 4,46 bem inferior ao valor crtico - 2,33, obtido pela tabela da
distribuio normal padronizada, rejeitamos a hiptese nula. No h indcios de que o tempo
mdio de secagem das tintas seja diferente.

TESTE PARA A COMPARAO

DE DUAS PROPORES
Quando se deseja testar a hiptese de que as propores em duas populaes so iguais, o
procedimento anlogo ao teste para a comparao de mdias. A frmula a seguinte:

134

unidade 7

ESTATSTICA E PROBABILIDADES

1 - p
2
p

Z=

p (1 - p) + p (1 - p)
n1
n2

= x1 e p2 = x2 (propores amostrais)
Onde p
n2
n1
x1 + x2
p = n1 + n2 (proporo amostral combinada)

Exemplo 7.7
Um especialista acredita que a proporo de trabalhadores com estresse ocupacional no
turno da manh seja estatisticamente diferente do turno da tarde. Uma amostra de 100
trabalhadores foi estudada, sendo 50 pela manh e 50 a tarde. No turno da manh contou-se
10 trabalhadores nessa situao. No turno da tarde contou-se 15. Teste a hiptese de que as
propores sejam diferentes nos respectivos turnos. Nvel de significncia: 5%.
1 Etapa: Estabelea as hipteses de interesse
H0: p1 = p2
H1: p1 p2
2 Etapa: Obteno da estatstica de teste
Aplicando a frmula, temos:
x1 + x2 10 + 15
25
p = n1 + n2 = 50 + 50 = 100 = 0,25
10
1 =
p
50 = 0,20
15
2 =
p
50 = 0,30

Z=

1 - p
2
p

p (1 - p) + p (1 - p)
n1
n2

- 0,10

0,25 (0,75) + 0,25 (0,75)


50
50

0,20 - 0,30

0,25 (1 - 0,25) + 0,25 (1 - 0,25)


50
50

- 0,10

0,0075

- 0,10
0,0866 = -1,15

135

unidade 7

ESTATSTICA E PROBABILIDADES

3 Etapa: Obteno da regio de rejeio.


FIGURA 8.10 - Regies de rejeio da hiptese nula.

Fonte: Elaborado pelo autor.

O valor crtico de 1,96 positivo (ou negativo) foi obtido pela combinao da linha e coluna
relativas rea igual a 0,025 (0,050 dividido por 2) da tabela da distribuio normal padro.
4 Etapa: Concluso
O Z calculado de - 1,15 encontra-se fora da regio crtica. No rejeitamos a hiptese nula.
Portanto, no h diferena na proporo de trabalhadores com estresse entre os turnos da
manh e tarde.

APLICAO

PRTICA

Os testes de hiptese so extremamente teis na engenharia, principalmente no delineamento


de experimentos. Em vrias situaes busca-se a otimizao de processos. Espera-se que os
insumos sejam combinados da melhor maneira possvel, de forma a obter produtos de qualidade
ao menor custo possvel. Nesse contexto, diversos fatores podem determinar o sucesso de um
processo de produo de produtos ou servios.
Num processo produtivo em que determinada mercadoria embalada de forma manual por um
trabalhador, diversos fatores (ou seja, diversas variveis) exercem influncia sobre o desempenho

136

unidade 7

ESTATSTICA E PROBABILIDADES

desse trabalhador, como, por exemplo, a

unidade focaram em testes bilaterais.

iluminao, a temperatura, o nmero de horas


trabalhadas, e talvez at a altura de uma

Para definir o tipo de teste a ser utilizado,

bancada. Dessa forma, a execuo de um

levamos em considerao o tamanho

experimento com diversas combinaes de

da amostra e o conhecimento ou no do

valores que as variveis possam assumir pode

desvio-padro

ser til para a otimizao do processo. Por

desconhecemos o desvio-padro e a

exemplo: o desempenho dos trabalhadores

amostra tem tamanho inferior a 30,

melhor quando a temperatura de um galpo

utilizamos o teste t. No caso de conhecer o

de 22 graus celsius, de 23 ou de 24? Como um

desvio-padro populacional ou a amostra

experimento desse tipo depende da utilizao

igual ou superior a 30, utilizamos o teste

de amostras, torna-se fundamental o uso

Z. O nome do teste ocorre em funo

de testes de hipteses para obteno de

da distribuio da estatstica de teste,

concluses acerca do processo.

que construda atravs do conjunto de

populacional.

Quando

possveis amostras, o que conhecido


como distribuio amostral.

REVISO
Nessa

unidade

aprendemos

os

Os testes podem ser utilizados para

fundamentos dos testes de hipteses. O

verificar

principal objetivo deles contrapor uma

amostra, sobre duas amostras ou sobre

hiptese de interesse, conhecida como

mais de duas amostras. Os dois primeiros

hiptese nula, a uma hiptese contrria,

casos foram abordados nessa unidade.

conhecida

como

hiptese

uma

afirmao

sobre

uma

alternativa,

em relao a um parmetro de interesse

A grande utilidade do teste de hipteses

(geralmente a mdia, no caso de variveis

para o engenheiro ocorre no delineamento

quantitativas e a proporo, no caso de

de experimentos e no controle estatstico

variveis categricas).

de processos.

As hipteses podem ser unilaterais ou


bilaterais. No primeiro caso, a hiptese
nula de igualdade contrape-se hiptese
alternativa, em que o sinal de menor
ou maior. No caso dos testes bilaterais,
na hiptese alternativa temos o sinal
de diferente. Todos os exemplos dessa

137

unidade 7

ESTATSTICA E PROBABILIDADES

PARA SABER

MAIS

LEVINE, David; BERENSON, Mark; STEPHAN,


David. Estatstica: teoria e aplicaes - usando
o Microsoft Excel em portugus. 6 ed. LTC, 2011,
812 p.
MOORE, David. A estatstica bsica e sua prtica.
Rio de Janeiro: LTC, 2014.
TRIOLA,

Mrio.

Introduo

Estatstica:

Atualizao da Tecnologia. 11 ed. LTC, 2013.


VitalBook file.
Para uma fundamentao matemtica mais
aprofundada sobre o assunto, consulte a
seguinte obra:
MONTGOMERY,
Estatstica

Douglas;

aplicada

RUNGER,

George

probabilidade

para

engenheiros. 3 ed. Rio de Janeiro: LTC, 2009.

138

unidade 7

UNIDADE

ANLISE DE CORRELAO E

REGRESSO

o analisar um conjunto de dados, podemos ter interesse no relacionamento


entre duas variveis quantitativas. Dessa forma, poderamos traar o seguinte
questionamento: um aumento no valor da varivel X se relaciona a um aumento

na varivel Y? Qual seria a magnitude dessa relao? As tcnicas de anlise de correlao


e anlise de regresso podem ser utilizadas para estudos desse tipo.

A relao entre variveis quantitativas pode ser modelada atravs de anlise de correlao e
regresso. Com a evoluo da informtica nos ltimos 20 anos, essas tcnicas tm sido cada
vez mais utilizadas no ambiente empresarial.
Nesta unidade, voc aprender a desenvolver clculos para correlao e regresso tanto
passo a passo como atravs do software Microsoft Excel.

140

unidade 8

ESTATSTICA E PROBABILIDADES

ANLISE DE

CORRELAO
Quando temos interesse em investigar o quanto duas variveis quantitativas esto associadas,
podemos utilizar uma medida conhecida como coeficiente de correlao.

CONCEITO
O coeficiente de correlao mede o grau de intensidade do relacionamento linear entre duas variveis
quantitativas.

DIAGRAMA DE

DISPERSO
Antes de calcular a correlao entre duas variveis, interessante representar os dados num
diagrama de disperso.

CONCEITO
Diagrama de disperso: Consiste na representao grfica de duas variveis quantitativas no plano
cartesiano.

A figura 8.1 se refere a uma pesquisa com anncios de vendas de 58 imveis. As variveis so:
REA DO IMVEL (em metros quadrados) e VALOR DO IMVEL (em R$ mil).

141

unidade 8

ESTATSTICA E PROBABILIDADES

FIGURA 8.1 - rea do imvel x valor do Imvel


800

Valor do imvel (R$ mil)

700
600
500
400
300
200
100
0

50

100

150

200

250

300

rea (em metros quadrados)


Fonte: Elaborado pelo autor

Atravs do grfico de disperso possvel visualizar graficamente alguns aspectos relativos


ao comportamento conjunto das variveis, como: direo, forma e fora da relao.
No que se refere direo, a figura 8.1 apresenta indcios de que as variveis (REA e VALOR)
estejam positivamente relacionadas, ou seja, parece que a direo ascendente. H situaes
em que as variveis apresentam associao negativa6 como por exemplo o PREO e a
QUANTIDADE DEMANDADA (para a maioria das mercadorias, quanto maior o preo, menor a
quantidade demandada).
Em relao forma, na figura 8.1 podemos observar que a relao entre as variveis parece
ser linear. Observe a reta que resume a associao. Existem situaes em que duas variveis
se encontram associadas, porm de forma no linear, como na figura 8.2.

6 - Associao negativa: Duas variveis apresentam associao negativa quando o crescimento de uma se
associa diminuio da outra, ou o contrrio, a queda em uma se associa ao acrscimo da outra.

142

unidade 8

ESTATSTICA E PROBABILIDADES

FIGURA 8.2 - Relao no linear entre as variveis X e Y


80
70
60
Y

50
40
30
20
10
0
0

10

15

20

X
Fonte: Elaborado pelo autor

Outro aspecto de grande importncia ao observar o diagrama de disperso a fora da


relao. Na figura 8.1, o VALOR DO IMVEL se relaciona REA, mas a intensidade da relao
no parece to extrema.
A figura 8.3 mostra um diagrama de disperso onde as variveis apresentam ausncia de
relao.
FIGURA 8.3: Ausncia de relao entre as variveis X e Y
15
14
14

13
13
12
12
11
11
10
0

10
X

Fonte: Elaborado pelo autor

143

unidade 8

15

20

ESTATSTICA E PROBABILIDADES

O grau de intensidade da relao linear entre duas variveis quantitativas dado pelo
coeficiente de correlao de Pearson.

COEFICIENTE DE

CORRELAO DE PEARSON
O coeficiente de correlao linear de Pearson consiste na medida do grau de intensidade
da relao linear entre duas variveis quantitativas, podendo assumir valores entre -1 e 1.
Podemos afirmar que duas variveis esto positivamente correlacionadas se elas caminham
no mesmo sentido, ou seja, quando uma delas aumenta de valor, o valor da outra tambm
aumenta. Nesse caso, quanto mais prxima de 1, maior a intensidade da associao entre
as variveis.

Quando as variveis caminham em sentidos opostos, dizemos que elas

esto negativamente correlacionadas. Quanto mais prxima de -1, maior a intensidade da


associao, porm a relao inversa.
importante destacar que o fato de duas variveis estarem associadas no significa,
necessariamente, que exista uma relao de causa e efeito. Por exemplo: geralmente crianas
mais novas apresentam menor peso, entretanto isso no significa que o envelhecimento
causa aumento de peso. mais provvel que a criana aumente o peso pelo fato de aumentar
a altura.
A anlise de correlao tem objetivo exploratrio servindo como elemento auxiliar na anlise
da relao entre variveis. Dessa forma, em muitas ocasies o estudo da correlao utilizado
como um recurso a mais na anlise dos dados.
O coeficiente de correlao de Pearson dado pela frmula:
Cor ( X, Y ) = r =

( x -x ) ( y - y )
sxsy ( n - 1)

O numerador da frmula se refere ao somatrio do produto dos desvios da varivel X e da


varivel Y em relao s suas respectivas mdias. No denominador, encontra-se o produto
dos desvios padro de cada uma das duas variveis multiplicado pelo tamanho da amostra
menos uma unidade.

144

unidade 8

ESTATSTICA E PROBABILIDADES

Exemplo 8.1 (adaptado de HINES et al, 2006)


Um engenheiro qumico est estudando o efeito da temperatura de operao do processo
sobre o resultado da produo. O estudo resultou nos seguintes dados:

X - Temperatura ( Celsius) 100 110 120 130 140 150 160 170 180 190
Y - Resultado (porcentagem) 45
51
54
61
66
70
74
78
85
89

Calcule o coeficiente de correlao entre as variveis.


Soluo:
Ao realizar uma anlise de correlao, interessante construir o diagrama de disperso para
ter uma ideia sobre a associao entre as variveis:
FIGURA 8.4 - Resultado do processo (em %) em funo da temperatura (em C)
100
90
Y - Resultado (%)

80
70
60
50
40
30
20
10
0
0

50

100

150

200

X - Temperatura ( C)
Fonte: HINES et al (2006), pag.369

A figura 8.4 apresenta indcios de que as variveis esto fortemente associadas. Para
confirmar essa suspeita, podemos calcular o coeficiente de correlao, conforme a tabela 8.1:

145

unidade 8

ESTATSTICA E PROBABILIDADES

TABELA 8.1 - Dados para o clculo do coeficiente


de correlao entre temperatura (X) e resultado (Y)
X
Y
100
45
110
51
120
54
130
61
140
66
150
70
160
74
170
78
180
85
190
89
Mdia (X) = 145
Mdia (Y) = 67,3
Desv. Pad (X) = 30,3 Desv. Pad (Y) = 14,7

( )
100 - 145 = -45
110 - 145 = -35
120 - 145 = -25
130 - 145 = -15
140 - 145 = -05
150 - 145 = +05
160 - 145 = +15
170 - 145 = +25
180 - 145 = +35
190 - 145 = +45

( )
45 - 67,3 = -22,3
51 - 67,3 = -16,3
54 - 67,3 = -13,3
61 - 67,3 = -06,3
66 - 67,3 = -01,3
70 - 67,3 = +02,7
74 - 67,3 = +06,7
78 - 67,3 = +10,7
85 - 67,3 = +17,7
89 - 67,3 = +21,7

( )( )
(-45) (-22,3) = 1003,5
(-35) (-16,3) = 570,5
(-25) (-13,3) = 332,5
(-15) (-6,3) = 94,5
(-5) (-1,3) = 6,5
(5) (2,7) = 13,5
(15) (6,7) = 100,5
(25) (10,7) = 267,5
(35) (17,7) = 619,5
(45) (21,7) = 976,5

= 1

( )( ) =

3985

Fonte: Elaborado pelo autor

Cor ( X, Y ) = r =

3985
3985
=
= + 0,99
( 30,3) (14,7) (10 -1) 4008,7

O valor + 0,99 obtido pelo coeficiente de correlao confirma que as variveis esto fortemente
associadas, conforme indcio dado pelo diagrama de disperso (figura 8.4).
O exemplo 8.2 se refere a uma situao em que as variveis apresentam correlao negativa.
Exemplo 8.2
O quadro abaixo representa o PREO (em R$) e a QUANTIDADE DEMANDADA de uma
determinada mercadoria.
Preo (X)
Quantidade (Y)

10
11
12
13
14
15
16
17
18
19
200 171 168 165 170 147 120 130 105 124

Soluo:
Antes de calcular o coeficiente de correlao, interessante construir o diagrama de disperso
para ter uma ideia da direo e da forma da associao entre as variveis.

146

unidade 8

ESTATSTICA E PROBABILIDADES

FIGURA 8.5 - Quantidade x preo


220

Y - Quantidade

200
180
160
140
120
100
8

10

12

14

16

18

20

X - Preo
Fonte: Elaborado pelo autor

Para o clculo do coeficiente de correlao, temos:


TABELA 8.2 - Dados para o clculo do coeficiente de correlao entre preo (X) e quantidade (Y)
Preo (X)
Quantidade (Y)
10
200
11
171
12
168
13
165
14
170
15
147
16
120
17
130
18
105
19
124
Mdia (X) = 14,5
Mdia (Y) = 150
Desv. Pad (X) = 3,0 Desv. Pad (Y) = 29,6

( )
-4,5
-3,5
-2,5
-1,5
-0,5
0,5
1,5
2,5
3,5
4,5

( )

-225
-73,5
-45
-22,5
-10
-1,5
-45
-50
-157,5
-117

( )(
) =

-747

=1

Fonte: Elaborado pelo autor

Cor ( X, Y ) = r =

50
21
18
15
20
-3
-30
-20
-45
-26

( )( )

-747
=
( 3,0) (29,6) (10 -1)

-747
= - 0,93
799,2

Portanto, as variveis apresentam forte correlao negativa, conforme indcio do diagrama de


disperso.
Observaes importantes sobre o coeficiente de correlao de Pearson:

147

unidade 8

ESTATSTICA E PROBABILIDADES

O valor da correlao independe da


unidade de medida dos dados. Por
exemplo, se tivermos interesse em
medir a correlao entre ALTURA
e PESO de um grupo de pessoas,

USO DA TECNOLOGIA
PARA O CLCULO DO

COEFICIENTE DE
CORRELAO

tanto faz a ALTURA entrar nos

O clculo do coeficiente de correlao no

clculos em centmetros ou em

Excel dado pela funo:

metros;
A correlao no se aplica a mais
de duas variveis;

= CORREL (matriz1;matriz2)
Onde os parmetros (matriz1 e matriz2)

A correlao no faz distino


sobre qual varivel se projeta em

se referem aos dados das duas variveis.


Observe a figura 8.6.

cada eixo do plano cartesiano.


Dessa forma, Cor (X,Y) = Cor (Y,X);
As

variveis

quantitativas.

devem
coeficiente

ser
de

correlao linear de Pearson no se


aplica a variveis categricas;
A correlao mede o grau de
associao linear. Dessa forma,
se duas variveis quantitativas se
relacionam de forma quadrtica
ou exponencial, o coeficiente de
correlao linear no indicado,
uma vez que matematicamente tem
a capacidade de captar relaes
lineares.

148

unidade 8

ESTATSTICA E PROBABILIDADES

FIGURA 8.6 - Coeficiente de correlao no Excel

Fonte: Elaborado pelo autor

REGRESSO

LINEAR SIMPLES
A regresso linear simples tem como objetivo estimar uma equao que relacione
matematicamente duas variveis, sendo que uma delas explicada pela outra. A varivel
explicada geralmente denominada varivel resposta ou varivel dependente. A varivel
explicativa denominada varivel explanatria ou varivel independente.
A anlise de regresso mltipla tem por objetivo estimar uma equao que relacione
matematicamente uma varivel resposta a duas ou mais variveis explicativas.
A figura 8.7 reapresenta os dados relativos figura 8.1 onde a varivel resposta VALOR se
correlaciona REA DO IMVEL.

149

unidade 8

ESTATSTICA E PROBABILIDADES

FIGURA 8.7 - Valor do imvel x rea do imvel

Fonte: Elaborado pelo autor

Observe que os pontos do diagrama no caem exatamente sobre a reta de regresso, mas a
reta capaz de resumir o padro geral de comportamento dos dados. Uma das tcnicas mais
utilizadas para obteno dessa reta conhecida como mtodo dos mnimos quadrados.

CONCEITO
Mtodo dos mnimos quadrados: uma tcnica estatstica utilizada para resumir um conjunto de
variveis quantitativas numa equao. Ela se baseia na minimizao da distncia quadrtica de cada
ponto em relao reta.

A equao que representa o modelo de regresso linear simples :


Y1 = 0 + 1 X1 + 1

150

unidade 8

ESTATSTICA E PROBABILIDADES

Onde:

^ =
^0 +
^ 1X
Y

Yi = valor da varivel dependente na i-sima


A anlise de regresso se distingue da

tentativa, ou observao;

correlao por supor uma relao de


0 = primeiro parmetro da equao de

causalidade entre as variveis resposta e

regresso, o qual indica o intercepto

explanatria. A anlise geralmente se baseia

no eixo Y, ou seja, o valor de Y quando

numa referncia terica, que justifique uma

X = 0;

relao matemtica de causalidade.

1= segundo parmetro da equao de

^
^
A estimativa dos parmetros 0 e 1

coeficiente

do modelo se d a partir das seguintes

regresso,

chamado

angular, que indica a inclinao da reta

frmulas:

de regresso;
^
XY - nXY
1 =
X2 - nX2

i = o valor do erro, que significa a diferena


entre o valor verdadeiro e o valor

^
o = Y - 1X

previsto pela equao de regresso (


a letra grega psilon). Aps a estimao
da equao de regresso, o erro passa a
ser denominado resduo.
Os parmetros 0 e 1 no modelo de
regresso linear so estimados pelos
valores 0 e 1 que se baseiam nos dados
amostrais. O chapu sobre as letras indica
que foi feita uma estimativa dos parmetros
do modelo com base em dados obtidos
atravs de uma amostra.

Exemplo 8.3
Um professor acredita que a NOTA na
prova de estatstica esteja relacionada ao
nmero de HORAS DE ESTUDO dos alunos.
Para tentar convencer os estudantes dessa
relao, o professor resolve fazer a pesquisa
levantando dados de sete estudantes,
conforme o quadro abaixo.

Dessa forma, a equao de regresso linear


baseada nos dados da amostra que usada
para estimar um simples valor da varivel
dependente, onde o chapu sobre o Y
indica que ele um valor estimado, :

151

unidade 8

ESTATSTICA E PROBABILIDADES

QUADRO 8.1 -Dados para a estimao da reta de regresso


que relaciona nota na prova de estatstica (Y) e horas de estudo (X)
Estudante
1
2
3
4
5
6
7

Horas de
estudo (X)
20
15
35
26
30
24
18

Nota na
prova (Y)
72
62
87
77
90
83
68

Fonte: Elaborado pelo autor

[a] Determine a equao da reta de regresso para os dados da tabela.


[b] Use a eq uao de regresso para estimar a nota de um estudante que tenha dedicado 20
horas de estudo para a prova.
Soluo:
[a] Podemos incluir mais duas colunas na tabela para facilitar a operacionalizao dos
clculos:
QUADRO 8.2 - Clculos para a estimao da reta de regresso
que relaciona nota na prova de estatstica (Y) e horas de estudo (X)
Estudante
1
2
3
4
5
6
7

Horas de
estudo (X)
20
15
35
26
30
24
18
MDIA (X) = 24

Nota na
prova (Y)
72
62
87
77
90
83
68
MDIA(Y) = 77

X.Y

400
225
1225
676
900
576
324
2
X = 4.326

1440
930
3045
2002
2700
1992
1224
XY = 13.333

Fonte: Elaborado pelo autor

Na penltima coluna foram obtidos os valores da varivel X ao quadrado. Na ltima coluna os


valores de X foram multiplicados pelos valores de Y para cada estudante. Em seguida, foram
obtidas as mdias de cada varivel e, finalmente, o somatrio das duas ltimas colunas.
Colocando os dados obtidos nas frmulas, temos:

152

unidade 8

ESTATSTICA E PROBABILIDADES

^ 1 = XY - nXY

X2 - nX2

13.333 - 7 . 24. 77
13.333 -12.936
397
=
=
= 1,35
2
4.326 - 4.032
294
4.326 - 7.24

^ o = 77 - (1,35) . (24) = 77 - 32,4 = 44,6

A equao estimada foi:


Y^ = 44,6 + 1,35 . X
Para calcular o valor estimado da nota (Y) com base no nmero de horas estudadas (X), basta
inserir o valor de X na equao. Considerando X = 20, temos:
Y^ = 44,6 + 1,35 . 20 = 44,6 + 27 = 71,6
Portanto, estima-se que um estudante que tenha dedicado 20 horas de estudo obtenha
aproximadamente 72 pontos na prova. Observe abaixo o diagrama da figura 8.8:
FIGURA 8.8 - Previso da NOTA (Y) com base no nmero de HORAS DE ESTUDO (X)

Fonte: Elaborado pelo autor

153

unidade 8

ESTATSTICA E PROBABILIDADES

INTERPRETAO DO RESULTADO DA REGRESSO


Alm de permitir a previso de uma varivel resposta em funo de uma varivel explanatria,
a anlise de regresso tambm mede a variao de Y quando variamos X. A partir da equao
obtida pelos dados do exemplo 8.3, podemos afirmar que o aumento de uma unidade na
varivel X (nmero de horas estudadas) aumenta, em mdia, 1,35 unidades na varivel Y
(pontos na prova de estatstica).
USO DA TECNOLOGIA PARA A ESTIMAO DA REGRESSO
Com a evoluo da informtica, a tcnica de regresso mltipla passou a ser cada vez mais
utilizada pelas organizaes e pelos cientistas, pois os clculos se tornaram menos tediosos.
No exemplo 8.4, os dados do exemplo 8.3 foram rodados no Excel.
Exemplo 8.4
Estime a equao de regresso com os dados do exemplo 8.2 utilizando o Excel.
Soluo:
DADOS > ANLISE DE DADOS > REGRESSO > OK
FIGURA 8.9 - Comandos utilizados no Excel para anlise de regresso

Fonte: Elaborado pelo autor

Nos intervalos de entrada e sada, insira o endereo das variveis explanatria (X horas de
estudo) e resposta (Y nota na prova), respectivamente. Em seguida, aperte OK.

154

unidade 8

ESTATSTICA E PROBABILIDADES

FIGURA 8.10 - Comandos utilizados no Excel para anlise de regresso

Fonte: Elaborado pelo autor

Aps rodar a regresso, o Excel apresenta trs quadros. O primeiro mostra, dentre outras
estatsticas, o valor do R-quadrado. No exemplo em questo, o valor observado igual a 0,843.
Isso significa que o modelo explica aproximadamente 84,3% da variabilidade em Y a partir da
variao em X.
TABELA 8.3 - Estatsticas para anlise de regresso
Estatstica de regresso
R mltiplo
0,918
R-Quadrado
0,843
R-quadrado ajustado
0,811
Erro padro
4,470
Observaes
7
Fonte: Elaborado pelo autor

A tabela 8.4 diz respeito ao teste de significncia do modelo, conhecido como teste F, que
produziu uma estatstica igual a 26,8, que implica num valor p prximo de zero. Dessa forma,
rejeitamos a hiptese de que o modelo no se ajusta bem aos dados. Portanto, o modelo
estatisticamente significativo.

155

unidade 8

ESTATSTICA E PROBABILIDADES

TABELA 8.4 - Resultados do teste de adequao do modelo de regresso simples (teste F)


ANOVA
gl

Regresso
Resduo
Total

SQ
MQ
F
Valor p
1 536,085 536,085 26,8271 0,00353
5 99,915 19,983
6
636

Fonte: Elaborado pelo autor

A outra sada se refere a valores p dos testes dos coeficientes 0 e 1.


As hipteses para o intercepto so:
H0: 0 = 0
H0: 0 0
As hipteses para a varivel explanatria so:
H0: 1 = 0
H0: 1 0
Os valores p iguais a zero para o intercepto e para a varivel X1 implicam na rejeio da
hiptese de que os valores sejam no significativos. Portanto os coeficientes ( 0 e 1 ) so
significativos com base no teste t para cada um separadamente.
TABELA 8.5 - Coeficientes da regresso e estatsticas de interesse

Interseo
Varivel X 1

Coeficientes Erro padro


44,59
6,48
1,35
0,26

Stat t
6,88
5,18

valor-P
0,00
0,00

Fonte: Elaborado pelo autor

A equao estimada :
= 44,6 +1,35 . X1
Y
Dessa forma, o modelo se mostra til tanto para analisar o impacto que a varivel explanatria
exerce sobre a varivel resposta, quanto para previso.

156

unidade 8

ESTATSTICA E PROBABILIDADES

A interpretao do coeficiente da varivel X1 : o aumento de uma unidade na varivel X (ou


seja, a cada hora a mais de estudo) consiste no aumento de 1,35 unidades na varivel Y (1,35
pontos na prova de estatstica)
Para um estudante que tenha dedicado 30 horas ao estudo, o valor previsto pela equao 85:
= 44,6 + 1,35 x 30 = 44,6 + 40,5 = 85
Y

REGRESSO

LINEAR MLTIPLA
Na regresso linear simples, uma varivel resposta pode ser explicada por uma varivel
explanatria. Na figura 8.7, o valor do imvel pode ser previsto com base no seu tamanho
(em metros quadrados). O valor obtido para o R2 foi de 0,45. Isso significa que a varivel
explanatria X explica 45% da variao na varivel Y. No exemplo em questo, outras variveis
tambm podem ser utilizadas para explicar melhor a variao de Y (preo do imvel), como
por exemplo a idade do imvel, o preo do condomnio, o nmero de banheiros, etc.
Dessa forma, na regresso mltipla, uma varivel resposta se relaciona a duas ou mais
variveis explanatrias. O objetivo tambm predizer os valores de Y com base nas variveis
explanatrias.
Na maioria das vezes, uma varivel resposta se relaciona a mais de uma varivel explanatria.
Nessa situao, tambm podemos utilizar o mtodo dos mnimos quadrados para obter uma
equao que relacione as variveis. Nesse caso, temos uma regresso mltipla:
Yi = 0 + 1 X1 + 2 X2 + + k Xk + i
Onde:
Yi = varivel resposta (varivel dependente);
0 = intercepto (valor assumido por Y quando todas as demais variveis assumem valor igual
a zero);
1, 2,..., k = coeficientes angulares;
k = nmero de variveis explanatrias (variveis independentes).

157

unidade 8

ESTATSTICA E PROBABILIDADES

A estimao da equao de regresso linear mltipla tambm se d atravs do mtodo dos


mnimos quadrados. O objetivo obter o hiperplano que melhor se ajuste ao conjunto de
dados atravs da minimizao dos desvios quadrticos.
Com a evoluo da informtica, a tcnica de regresso mltipla passou a ser cada vez mais
utilizada pelas organizaes e pelos cientistas, pois os clculos se tornaram menos tediosos.
No exemplo 8.5, o preo do imvel estimado com base em duas variveis: REA DO IMVEL
e NMERO DE QUARTOS.
Exemplo 8.5
Estime a equao de regresso relacionando o VALOR DO IMVEL s variveis: REA do
apartamento e NMERO DE QUARTOS.

158

unidade 8

ESTATSTICA E PROBABILIDADES

Axis Title

Chart Title
800.000,00
700.000,00
600.000,00
500.000,00
400.000,00
300.000,00
200.000,00
100.000,00
-

y = 1868,2x + 239876
R = 0,55094
Series1
Linear (Series1)

50

100

150

200

Axis Title

159

unidade 8

250

300

ESTATSTICA E PROBABILIDADES

Soluo
DADOS > ANLISE DE DADOS > REGRESSO > OK
Nos intervalos de entrada e sada, insira o endereo das variveis explanatria e dependente,
respectivamente, assim como foi feito para a regresso simples. Em seguida, aperte OK.
Aps rodar a regresso mltipla, o Excel produz tabelas. Segue a primeira:
TABELA 8.7 - Resultados do teste de adequao do modelo de regresso mltipla (teste F)
ANOVA
Regresso
Resduo
Total

gl
2
55
57

SQ
MQ
557.278.841.710 278.639.420.855
360.283.037.601
6.550.600.684
917.561.879.310

F
42,5

Valor p
0,000

Fonte: Elaborado pelo autor

A sada da ltima coluna se refere aos valores p do teste dos coeficientes da regresso. A
hiptese nula de que cada coeficiente igual a zero, individualmente, versus a hiptese
alternativa de que seja diferente de zero, respectivamente.

TABELA 8.8 - Coeficientes de regresso e estatsticas de interesse

Interseo
Varivel X 1
Varivel X 2

Coeficientes
86.873
1.335
67.719

Erro padro
60.689
285
24.091

Stat t
1,43
4,68
2,81

valor-P
0,16
0,00
0,01

Fonte: Elaborado pelo autor

A equao estimada :
Y = 86.873 + 1.335X1 + 67.719X2
Na ltima coluna temos os valores p, que mostram que as variveis so significativas e o
intercepto no, conforme os testes t para cada coeficiente separadamente. O intercepto no
caso no tem significado prtico nesse exemplo.

160

unidade 8

ESTATSTICA E PROBABILIDADES

Dessa forma, o modelo se mostra til tanto para analisar o impacto que cada uma das variveis
explanatrias exerce sobre a varivel resposta, mantendo constantes as outras variveis,
quanto para previso.

A interpretao do coeficiente da varivel X1 : a cada uma unidade de aumento na REA (ou


seja a cada metro quadrado a mais) a varivel Y (VALOR) aumenta em R$ 1.335,00, se mantida
constante a varivel X2 (NMERO DE QUARTOS).
A interpretao do coeficiente da varivel X2 : a cada uma unidade de aumento na varivel
X2 (NMERO DE QUARTOS), a varivel Y (VALOR) aumenta em mdia R$ 67.719, se mantida
constante a varivel X1 (REA).
Para um apartamento que tenha 80 metros quadrados e trs quartos, o valor previsto pela
equao :
Y = 86.873 + 1.335 80 + 67.719 3=
= 86.873 + 106.800 + 203.157 = R$ 396.830
Y

APLICAO

PRTICA

Os exemplos de anlise de regresso utilizados nesta unidade contm uma varivel explicativa, no caso
da regresso simples, ou duas variveis explicativas, no caso da regresso mltipla. Tais situaes
ilustram a utilizao dos modelos de regresso para situaes mais simples. Na verdade, esses modelos
podem ser utilizados com um nmero bem maior de variveis explicativas.
Por exemplo, para prever o preo de revenda de um automvel, o analista de dados pode utilizar diversas
variveis, como: idade, nmero de quilmetros rodados, presena de vidros eltricos, presena de ar
condicionado, consumo de combustvel na estrada, consumo de combustvel na cidade, estado de
conservao dos pneus, estado de conservao da pintura, etc.
Nesse sentido, os modelos de regresso se mostram muito teis para a realizao de previses. Outro
exemplo: imagine o gestor de uma empresa de varejo de alimentos que tem que tomar a deciso sobre a
quantidade de itens em estoque. Nesse caso, ele no pode estocar muito, pois os produtos podem perder

161

unidade 8

ESTATSTICA E PROBABILIDADES

validade, alm do custo do espao utilizado para

o estudo da relao entre duas variveis

guardar as mercadorias. Ao mesmo tempo,

a regresso simples, muito til para fazer

estocar uma quantidade insatisfatria pode

previses. Alm da regresso simples, a

implicar na falta de produtos para a venda.

regresso mltipla tambm bastante

Nesse caso, de grande valia a utilizao de

utilizada, pois na maioria das situaes

modelos de previso para estimar a quantidade

as variveis previstas so associadas a

de mercadorias que sero comercializadas num

diversas

certo espao de tempo.

quantitativas quanto categricas.

Um terceiro exemplo do uso de modelos de


regresso se refere deciso dos bancos
sobre conceder ou no um emprstimo para
determinado candidato. Para isso, o banco
geralmente levanta diversas variveis para
estimar a probabilidade de o cliente ser ou no
um bom pagador.

variveis

explanatrias,

tanto

Para que o modelo de regresso seja til,


o analista depende do conhecimento da
teoria acerca do assunto e de alguma
experincia prtica capaz de auxiliar na
escolha das melhores variveis candidatas
e explicativas.
A utilizao dos modelos de regresso na
engenharia muito importante, uma vez

REVISO

que vrios experimentos so delineados na

A presente unidade tratou do tema relao

otimizao de processos de produo.

entre duas ou mais variveis quantitativas.


Foi demonstrado que, para o estudo de duas
variveis

quantitativas

PARA SABER

simultaneamente,

MAIS

faz-se interessante o uso de diagramas de


disperso com o objetivo de inspecionar
visualmente se elas apresentam associao.

Para estudar mais sobre os modelos de

Devemos observar, principalmente, a forma,

regresso, consulte as seguintes obras:

a intensidade e a direo da relao entre as


variveis. Alm disso, tambm importante

DOANE, David, SEWARD, Lori. Estatstica

o clculo do coeficiente de correlao, que

Aplicada Administrao e Economia.

fornece um valor entre 0 e 1, podendo ser

ArtMed, 2010. VitalBook file.

negativo no caso de relacionamento linear


inverso entre as variveis.

FREUND, John, SIMON, Gary. Estatstica


Aplicada:

Outra tcnica bastante interessante para

Economia,

Administrao

e Contabilidade. 9 Ed. Porto Alegre:

162

unidade 8

ESTATSTICA E PROBABILIDADES

Bookman, 2007.
LEVINE, David; BERENSON, Mark; STEPHAN,
David. Estatstica: teoria e aplicaes usando o Microsoft Excel em portugus. 6
ed.Rio de Janeiro: LTC, 2011, 812 p.
MONTGOMERY, Douglas, RUNGER, George.
Estatstica aplicada e probabilidade para
engenheiros. 3.ed. Rio de Janeiro: LTC,
2009.
MOORE, David. A estatstica bsica e sua
prtica. Rio de Janeiro: LTC, 2014.
TRIOLA, Mrio. Introduo Estatstica. 10
ed. Rio de Janeiro: LTC. 2008. 722p.

163

unidade 8

REFERNCIAS

FREUND, John. Estatstica Aplicada Economia.

BARBETTA, Pedro Alberto, REIS, Marcelo


Menezes,

BORNIA,

Antnio

Cezar.

Estatstica: Para Cursos de Engenharia e


Informtica. 3 ed. Atlas, 2010. VitalBook file.
BAILAR III, John.C.; MOSTELLER, Frederick.
Medical uses of statistics. 2. ed. Boston:
NEJM Books, 1992.
CARVALHO, Danilo Heraldo; COUTO, Brulio
Roberto Gonalves Marinho. Levantamentos
por amostragem ou pesquisas de survey.
Relatrio tcnico DCET, N 3/2003. 107p

aplicaes usando Microsoft Excel em


portugus. 3 ed. Rio de Janeiro: LTC, 2000

que ajudou a mudar o mundo. 18 fev. 2013. In:


Site TecMundo. Disponvel em: <http://www.
tecmundo.com.br/tecnologia/36697-lotus1-2-3-o-software-que-ajudou-a-mudar-omundo.htm>. Acesso em: 15 abr. 2015
GRIFFITHS, Dawn. Use a cabea! Estatstica.
Rio de Janeiro: Altabooks, 2009.
HINES, William, MONTGOMERY, Douglas,
Dave,

BORROR,

Connie.

Probabilidade e Estatstica na Engenharia. 4


ed. Rio de Janeiro: LTC, 2006. VitalBook file.
KAZMIER, Leonard. Estatstica Aplicada

DOANE, David, SEWARD, Lori. Estatstica


Aplicada Administrao e Economia.
ArtMed, 2010. VitalBook file.

Administrao e Economia. Bookman, 2007.


LEVINE, David M. et al. Estatstica - teoria
e aplicaes: usando Microsoft Excel em

DOWNING, Douglas. Estatstica Aplicada.


Trad. Alfedro Alves de Farias: 2ed So Paulo:
Saraiva, 2003

portugus. 6 ed. Rio de Janeiro: LTC, 2012. 804 p


MAGALHES, Marcos Nascimento; LIMA,
Antnio

FIELD, Andy. Descobrindo a Estatstica


Usando o SPSS. 2 ed. Porto Alegre:
ARTMED, 2009. 688p

Carlos

Acesso

Pedroso.

Noes

de

Probabilidade e Estatstica. 6. ed. So Paulo:


Editora da Universidade de So Paulo, 2007.
MALHOTRA,

FORMULRIO GOOGLE DOCS. Disponvel em:


em: 15 abr. 2015

GAZZARRRINI, Rafael. Lotus 1-2-3: o software

GOLDSMAN,

DAVID M. et al. Estatstica: teoria e

<https://docs.google.com/forms>.

11 ed. Bookman, 2006. VitalBook file.

Naresh

K..

Pesquisa

de

marketing: uma orientao aplicada. trad.


Lene Belon Ribeiro, Monica Stefani. rev. tc.
Janana de Moura Engracia Giraldi. Porto
Alegre: Bookman, 2012.

164

McCLAVE, James T.; BENSON, George;

VELLEMAN. Paul. Estatstica Aplicada -

SINCICH,

Administrao, Economia e Negcios. Porto

Terry.

Estatstica

para

administrao e economia. trad. Fabrcio

Alegre: Bookman, 2011.

Pereira Soares e Fernando Sampaio Filho;


rev. tc. Galo Carlos Lopez Noriega. So

SOARES,

Jos

Francisco;

SIQUEIRA,

Paulo: Pearson Prentice Hall, 2009.

Armanda Lcia. Introduo Estatstica


Mdica. Belo Horizonte: UFMG, 2002. 300p

MONTGMOMERY,

Douglas

C;

RUNGER,

George C. Estatstica aplicada e probabilidade

STEVENSON, William. Estatstica Aplicada

para engenheiros. trad. e rev. tc. Vernica

Administrao. ed 2001. So Paulo:

Calado. Rio de Janeiro: LTC, 2009.

Harbra, 1981.

MOORE, David. A estatstica bsica e sua

TRIOLA, Mario Farias. Introduo Estatstica:

prtica. Rio de Janeiro. LTC, 2014.

traduo de Vera Regina Lima de Farias e


Flores, reviso tcnica Ana Maria Lima de

NETO, Antnio Peli. Intervalos de confiana,

Farias. 10 ed. Rio de Janeiro: LTC, 2008

Intervalos de Predio e Campo de Arbtrio


nas

Avaliaes

Urbanos.

TRIOLA, Mario F. Introduo Estatstica:

Associao Brasileira dos Engenheiros

Atualizao da Tecnologia, 11 ed. LTC,

Civis - Departamento da Bahia. Bahia, 2010.

03/2013. VitalBook file.

Disponvel

em:

de

Imveis

<http://goo.gl/6uFFSt>.

Acesso em 16 jun. 2015.

WERKEMA,

Maria

Cristina

Catarino;

AGUIAR, Silvio. Planejamento e anlise de


REIDEL, Adilson et al. Utilizao de efluente de

experimentos: Como Identificar as principais

frigorfico, tratado com macrfita aqutica, no

variveis influentes em um processo. Belo

cultivo de tilpia do Nilo. R. Bras. Eng. Agrc.

Horizonte:

Ambiental, Campina Grande, v.9, (Suplemento),

Escola de Engenharia da UFMG, 1996.

Fundao

Cristiano

Ottoni,

p.181-185, 2005. Disponvel em: <http://goo.


gl/TQP0re>. Acesso em: 21 jan. 2015

WALPOLE,

Ronald.

Probabilidade

estatstica para engenharia e cincias. So


SILVA,

Nilza

Nunes.

Amostragem

Paulo: Pears, 2008

probabilstica. 2 ed. So Paulo: Editora da


Universidade de So Paulo, 2001. 120p
SHARP,

Norean,

DE

VEAUX,

Richard,

165

www.animaeducacao.com.br

Você também pode gostar