Você está na página 1de 214

Estatística e

Probabilidades
Bráulio Roberto Gonçalves Marinho Couto
Janaína Giovani Noronha de Oliveira
Octávio Alcântara Torres
Reinaldo Carvalho de Morais
Bráulio Roberto Gonçalves Marinho Couto
Janaína Giovani Noronha de Oliveira
Octávio Alcântara Torres
Reinaldo Carvalho de Morais

ESTATÍSTICA E PROBABILIDADES

Belo Horizonte
Junho de 2015
COPYRIGHT © 2015
GRUPO ĂNIMA EDUCAÇÃO
Todos os direitos reservados ao:
Grupo Ănima Educação

Todos os direitos reservados e protegidos pela Lei 9.610/98. Nenhuma parte deste livro, sem prévia autorização
por escrito da detentora dos direitos, poderá ser reproduzida ou transmitida, sejam quais forem os meios
empregados: eletrônicos, mecânicos, fotográicos, gravações ou quaisquer outros.

Edição
Grupo Ănima Educação

Vice Presidência
Arthur Sperandeo de Macedo

Coordenação de Produção
Gislene Garcia Nora de Oliveira

Ilustração e Capa
Alexandre de Souza Paz Monsserrate
Leonardo Antonio Aguiar

Equipe EaD
Conheça
o Autor
Bráulio Roberto Gonçalves Marinho Couto é
doutor em Bioinformática, mestre em Ciência
da Computação, especialista em Estatística,
bacharel em Engenharia Química e técnico
em Química. Atuante nas áreas de Estatística,
Cálculo Numérico, Informática em Saúde,
Epidemiologia Hospitalar e Bioinformática.
Professor do Centro Universitário de Belo
Horizonte (UniBH).
Conheça
a Autora
Janaína Giovani Noronha de Oliveira
é mestre em Estatística e graduada
em Licenciatura em Matemática com
Habilitação em Física. Possui experiência
como docente na área de Matemática e
Estatística do Ensino superior e médio.
Experiência com orientação de Monografias.
Conheça
o Autor
Octávio Alcântara Torres é bacharel em
Estatística e mestre em Demografia. Possui
experiência nas áreas de probabilidade
e estatística, regressão e correlação,
análise estatística multivariada e controle
estatístico de processo. Áreas de interesse:
projeções populacionais, projeções de mão
de obra qualificada, pesquisa de mercado,
estatística aplicada.
Conheça
o Autor
Reinaldo Carvalho de Morais é mestre e
bacharel em Administração Pública, graduado
em Estatística e especialista em Gestão
Financeira. Possui experiência em pesquisas
sobre economia e inanças públicas mineiras,
bem como docência nas disciplinas de
estatística, de economia, de engenharia
econômica, de matemática inanceira e de
administração da produção.
Apresentação
da disciplina
Egressos de cursos de Engenharia e Tecnologia são proissionais que
resolvem problemas. E como isso ocorre? Pela aplicação eiciente
do método cientíico. Pois bem, é disso que se trata essa disciplina:
apresentar ferramentas estatísticas que possibilitarão a você
transformar-se num especialista em qualquer área do conhecimento
e, portanto, apto a resolver problemas. A disciplina é dividida em oito
unidades cujo objetivo é introduzir o aluno na área da Estatística e
Probabilidades, tornando-o capaz de planejar e de executar experimentos
de pequeno e médio porte nas áreas de Ciências Exatas e de Engenharia.
Além de fazer a análise exploratória dos dados e de realizar inferências,
por meio da tomada de decisão na presença de incerteza.

A Unidade 1 apresenta deinições fundamentais para a correta


compreensão do processo de coleta e de análise de dados. Conceitos
sobre população e amostra, censo e amostragem, e variáveis são
discutidos nessa unidade. A Unidade 2 trata da análise exploratória de
dados, quando são apresentadas técnicas de Estatística Descritiva. O
objeto dessa unidade, bastante intuitiva, é trabalhar a síntese numérica,
gráica e tabular dos dados. A ideia é usar ferramentas como o Excel para
construir tabelas e gráicos, como histograma, diagrama de dispersão,
Pareto e calcular valores como média, mediana, desvio padrão, e
coeiciente de variação. Na Unidade 3 são introduzidos conceitos básicos
de probabilidades, cruciais para que se entenda o processo de tomada de
decisão na presença de incerteza. Na unidade 4, que é uma continuação
da terceira unidade, são apresentados os modelos probabilísticos mais
importantes para se modelar problemas de pequeno e médio porte na
área de Engenharia e Tecnologia.

A partir da Unidade 5 caminhamos para a área “nobre” da Estatística, que


envolve as inferências, isto é, o processo de generalização de resultados
parciais, observados em amostras, para toda a população envolvida
num problema. Nessa unidade é discutida a forma de obter os intervalos
de coniança, tanto para média quanto para proporção. Na Unidade 5
discute-se, por exemplo, como o resultado de uma pesquisa eleitoral é
calculado e o signiicado do intervalo deinido pela soma e subtração de
uma “margem de erro”.

A Unidade 6 é voltada para o planejamento de experimentos, quando


é apresentado, por exemplo, como calcular o tamanho de uma
amostra. Em alguns livros este item é colocado na primeira unidade,
o que tem certa lógica por tratar da coleta de dados, primeira etapa
de qualquer análise estatística. Entretanto, como são necessários
conceitos probabilísticos e de inferência para entender o planejamento
de experimentos, optamos por colocar essa unidade logo após a
discussão sobre intervalos de coniança.

As Unidades 7 e 8 fecham a disciplina, apresentado as ferramentas mais


úteis para que você inalmente se transforme num especialista em uma
área qualquer e, portanto, realmente apto a resolver seus problemas. Na
Unidade 7 são discutidos os métodos para fazer e interpretar testes de
hipóteses, num contexto uni variado e, na Unidade 8, discute-se métodos
de correlação e regressão, introduzindo a análise multivariada.

Ao longo das oito unidades, procuraremos apresentar uma abordagem


baseada em PPL – Aprendizagem Baseada em Problemas, além de
usarmos como ferramentas computacionais o Microsoft® Excel e o
software de domínio público, EpiInfo.

Bom trabalho!

Bráulio, Janaína, Octávio e Reinaldo.


UNIDADE 1 003
Introdução à estatística 004
Conceitos básicos 006
O papel das variáveis numa base de dados: identiicação, auxiliares,
variáveis explicativas e variável reposta (desfecho) 012
Tipos de variáveis 015
Uso do Excel como um sistema de gerenciamento de dados
e dos formulários do Google Docs para coleta de informações 017
Revisão 021

UNIDADE 2 023
Análise exploratória de dados 024
Síntese gráica de dados 026
Síntese tabular de dados 047
Síntese numérica de dados 048
Revisão 059

UNIDADE 3 061
Introdução à teoria de probabilidades 062
A teoria das probabilidades 064
Probabilidade clássica e probabilidade frequentista 066
Leis básicas de probabilidades 067
União e interseção de eventos 068
Tabelas de contingência 070
Eventos independentes 072
Teorema de Bayes 072
Revisão 076

UNIDADE 4 079
Modelos probabilísticos 080
Variáveis aleatórias 081
Modelos probabilísticos 088
Distribuição binomial 088
Distribuição Poisson 089
Distribuição normal 090
Revisão 095
UNIDADE 5 096
Estimação de médias e proporções 097
Teorema central do limite 099
Estimação pontual e por intervalos de coniança para uma
média populacional 103
Estimação pontual e por intervalos de coniança para uma
proporção populacional 112
Uso do Excel no cálculo de intervalos de coniança para
média e proporção 116
Introdução ao programa EpiInfo 120
Revisão 121

UNIDADE 6 124
Planejamento de experimentos 125
Cálculo de tamanho de amostra baseado em intervalos de
coniança para uma proporção 127
Cálculo de tamanho de amostra baseado em intervalos de coniança
para uma média 132
Planejamento de experimentos 135
Planejamento de experimentos - terminologia básica 140
Revisão 144

UNIDADE 7 147
Testes de Hipóteses 148
A construção e o signiicado de uma hipótese estatística 149
Testes para uma amostra 151
Testes para duas ou mais amostras 167
Revisão 172

UNIDADE 8 174
Análise de correlação e regressão 175
Análise de correlação 176
Regressão linear simples 185
Regressão linear múltipla 193
Revisão 200

REFERÊNCIAS 202
Introdução à
estatística
Introdução

Podemos entender o método estatístico como um processo para obter,


apresentar e analisar características ou valores numéricos, identiicando
• Conceitos
padrões que possibilitam a tomada de decisão em situações de incerteza.
básicos
Pode acreditar, se você aplicar o método estatístico para a análise e solução
• O papel das
de problemas, muito rapidamente se tornará um especialista de qualquer variáveis numa
área do conhecimento! Num mundo real, completamente cercado de base de dados:
identificação,
incertezas, ser capaz de identiicar padrões de comportamento de
auxiliares,
pessoas, projetos, produtos, serviços, etc pode transformá-lo num “mago”. variáveis
explicativas e
váriavel reposta
Entretanto, antes de você transformar-se num “mago”, é necessário (desfecho)
um entendimento adequado do método estatístico, que tem suas
• Tipos de
“armadilhas”. Costumo dizer que Estatística não é Matemática... é muito variáveis
mais “difícil”. Na verdade, Estatística é uma das áreas da Matemática • Uso do Excel
que, por sinal, é a Ciência cuja aplicação no mundo real possibilitou ter como um
sistema de
uma vida incrivelmente confortável. Bom, quando airmo que “Estatística
gerenciamento
não é Matemática”, quero dizer que, na Matemática que você aprendeu no de dados e dos
Ensino Fundamental e Médio, os problemas têm usualmente uma única formulários do
Google Docs
forma de serem resolvidos e devem todos chegar ao mesmo resultado para coleta de
(uma única resposta correta). Na Estatística, os problemas têm várias informações
formas de serem resolvidos, podem chegar a resultados diferentes e • Revisão
todos estão corretos! Isso ocorre porque a Estatística requer a habilidade
de considerarmos as coisas dentro de uma perspectiva probabilística, o
que vai completamente contra a conceituação usual dos problemas em
simplesmente certo ou errado. Não buscaremos a “verdade absoluta”,
mas padrões de comportamento que nos possibilitarão tomar decisões
com alto grau de coniança.
Para melhor entendermos o que será discutido, o método estatístico
será dividido em quatro grandes áreas:

1. amostragem e coleta de dados;

2. análise exploratória de dados (estatística descritiva);

3. teoria das probabilidades;

4. decisão na presença de incerteza (inferência).

A ideia por trás dessa unidade é levar até você o conhecimento


fundamental que lhe permitirá entender a coleta de dados.
Estudaremos conceitos fundamentais de Estatística, questões
simples, mas essenciais para que tenhamos sucesso nas outras
etapas do método estatístico, que serão discutidas nas próximas
unidades. Estes são os objetivos da Unidade 1:

a) apresentar conceitos básicos de Estatística e Probabilidades;

b) identiicar as funções e os principais tipos de dados e de variáveis;

c) identiicar e corrigir problemas de dados faltantes (missing);

d) conigurar o Excel como instrumento de coleta de dados;

e) entender o sistema de endereçamento de células do Excel.

f) construir formulários de coleta de dados no Google Docs;

g) enviar formulários de coleta de dados por meio de mala direta.

É crucial que você entenda os conceitos que serão discutidos


nessa unidade. Sem o entendimento do que seja, por exemplo, uma
variável, o seu tipo e a sua função na base de dados, não há como
você ser feliz nas outras etapas do processo!
ESTATÍSTICA E PROBABILIDADES

Conceitos
básicos
Você sabe o que é população? E amostra? Vejamos o exemplo a seguir.

Vamos supor que uma cozinheira esteja preparando dois litros de sopa.

Como ela sabe se a sopa está temperada?

Os dois litros de sopa formam a população e, se a cozinheira


comer/provar toda a sopa, estará fazendo um censo, o que geraria
um absurdo do tipo “É, a sopa estava ótima!”.

A cozinheira sabe que em experimentos baseados em ensaios


destrutivos, quando a própria análise destrói o dado coletado, o
censo é um absurdo. Na verdade, ela sabe que censos, de modo
geral, são inviáveis, muito caros e/ou muito demorados. Mais
ainda, ela sabe que se usar uma pequena amostra cuidadosamente
retirada, chamada amostra representativa, poderá tomar decisões
sobre toda a população envolvida no problema com um alto grau
de coniança.

A cozinheira então retira uma pequena amostra, uma “pitada”


da comida, prova-a e generaliza o resultado para toda a sopa.
Isso é chamado de inferência: tomar decisões sobre toda uma
população com base em informações parciais de uma amostra
(veja a FIGURA 1).

Entretanto, a cozinheira sabe que para fazer inferências válidas,


deve tomar cuidado para não trabalhar com amostras viciadas. E o
que seria isso?

Se ela retirar uma amostra somente da parte de cima da sopa, muito


provavelmente terá uma amostra viciada, isto é, sem representantes

006
unidade 1
ESTATÍSTICA E PROBABILIDADES

de todos os componentes da sopa como um todo que, neste caso, é


a população amostrada.

E como ela retira uma amostra representativa da sua população


(“sopa”)? Como a cozinheira procede para obter uma amostra com
“representantes” de cada estrato da sopa?

Simples, ela mistura a sopa fazendo uma homogeneização e sorteia


uma porção/pitada que será usada no seu processo decisório.
Fazendo uma amostragem aleatória, a cozinheira sabe que terá
grande chance de trabalhar com amostras representativas.

Podemos agora resumir esses conceitos.

População:

a. consiste na totalidade das unidades de observação a partir


População inita: o
dos quais ou sobre os quais deseja tomar uma decisão; número de unidades
de observação pode
b. conjunto de elementos que formam o universo do nosso ser contado e é
estudo e que são passíveis de serem observados; limitado.

c. conjunto de indivíduos sobre os quais recairão todas as


generalizações das conclusões obtidas no estudo;

d. usualmente, as unidades de observações são pessoas,


objetos ou eventos;

e. é o universo a ser amostrado;

f. do ponto de vista matemático, a população é deinida como


um conjunto de elementos que possuem pelo menos uma
característica em comum (SILVA, 2001).

População inita: o número de unidades de observação pode ser


contado e é limitado. Exemplos:

a. alunos matriculados na disciplina Estatística e


Probabilidades;

007
unidade 1
ESTATÍSTICA E PROBABILIDADES

b. todas as declarações de renda recebidas pela Receita Federal;

c. todas as pessoas que compram telefone celular num


determinado ano;

d. um lote com N produtos.

População ininita: a quantidade de unidades de observação é


ilimitada, ou a sua composição é tal que as unidades da população
não podem ser contadas. Exemplos:

a. conjunto de medidas de determinado comprimento;

b. gases, líquidos e alguns sólidos em que as suas unidades


não podem ser identiicadas e contadas. População ininita:
a quantidade
de unidades de
Amostra: conjunto de unidades selecionadas de uma população, ou
observação é
seja, uma parte dos elementos da população. ilimitada, ou a sua
composição é tal
Amostra representativa: é uma versão em miniatura da população,
que as unidades
da população
exatamente como ela é, somente menor. A amostra representativa não podem ser
segue o modelo populacional, tal que suas características contadas.
importantes são distribuídas similarmente entre ambos os grupos.

Unidade amostral: é a menor parte distinta de uma população,


identiicável para ins de seleção e construção da amostra.

Amostra aleatória: é aquela obtida por meio de um processo de


sorteio ou aleatorização.

Amostra viciada: é aquela que representa apenas parte da


população, não possuindo elementos de todos os estratos ou
subconjuntos que formam a população como um todo.

Censo: exame de todas as unidades de observação de uma


população. Como discutido no exemplo da cozinheira, se a

008
unidade 1
ESTATÍSTICA E PROBABILIDADES

pesquisa envolve ensaio destrutivo, o censo é inviável. Na verdade,


somente se a população alvo for pequena é razoável observá-la
por inteiro, através do censo, pois mesmo quando viáveis, censos
são caros e demorados. Outros exemplos de ensaios destrutivos,
nos quais é impossível aplicar censo: pesquisa sobre a força de
tração de um lote de barras de aço para construção; pesquisa
sobre contaminação de soro isiológico em um lote; testes de
resistência e durabilidade de um lote de concreto; tempo de pega
de um lote de cimento.

Amostragem: processo pelo qual uma amostra de unidades da


população é retirada e observada. É a parte mais importante
do processo de pesquisa. O principal e fundamental objetivo de
qualquer plano de amostragem é selecionar a amostra, de tal
maneira que ela retrate ielmente a população pesquisada.

FIGURA 1 - População alvo, população amostrada e amostra

População alvo do estudo

Inferência População
amostrada

Amostra

Fonte: Elaborado pelo autor.

Inferir significa generalizar resultados de uma amostra para toda


a população.

Por que usar amostras? Por que não incluir no estudo todos os
indivíduos da população?

009
unidade 1
ESTATÍSTICA E PROBABILIDADES

A amostragem deve ser usada porque torna o processo eiciente


e preciso. E ela é eiciente, uma vez que o recurso que poderia
ser despendido na coleta de dados desnecessários de um
grande número de indivíduos pode ser gasto em outra atividade,
como na monitoração da qualidade da própria coleta dos dados.
As amostras, por serem menores que a população, podem ser
estudadas mais rapidamente que censos e são também mais
baratas. Além disso, se o processo de amostragem gerar uma
amostra representativa da população alvo do estudo, os resultados
observados poderão ser generalizados, sem risco de chegar a
uma conclusão diferente daquela que seria obtida se trabalhar
com toda a população.

Vejamos agora alguns aspectos relevantes para o campo da


amostragem. São eles:

- Questões da amostragem: Qual o tamanho da amostra?


Como a amostra será obtida? Como garantir que a amostra A amostragem deve
ser usada porque
obtida seja representante da população objeto do estudo? A
torna o processo
questão mais importante não é o seu tamanho, mas como eiciente e preciso.
a amostra será obtida, pois a amostragem mal feita invalida
qualquer pesquisa.

- Tamanho da amostra (n): está relacionado ao total de


unidades amostradas, usadas no processo de inferência.
Imagino que você esteja curioso em relação ao tamanho
da amostra, mas, como citado anteriormente, esta não é
de longe a questão mais importante. Por exemplo, o que
você que teria mais credibilidade numa pesquisa sobre
a aceitação (ou não) do aborto por parte da população
brasileira: resultados de pesquisa realizada no domingo
à noite por uma emissora de TV, envolvendo milhões de
pessoas que, após assistirem a uma reportagem sobre o
assunto, responderam à pesquisa; ou resultados de uma
amostra de 2.500 pessoas selecionadas aleatoriamente
no território brasileiro?

010
unidade 1
ESTATÍSTICA E PROBABILIDADES

No entanto, essa não é uma questão muito importante


para obtermos o tamanho da amostra adequada para uma
pesquisa, visto que é necessário estudarmos alguns conceitos
probabilísticos, que serão apresentadas somente nas
próximas unidades.

A maioria das pessoas, quando questionadas sobre qual o tamanho da

amostra necessária para uma pesquisa, tem o raciocínio equivocado de

que o tamanho da amostra (n) tem relação direta com o tamanho da

população amostrada (N). Inevitavelmente, a maioria das pessoas airma

erroneamente que uma boa amostra deve conter pelo menos, digamos,

30% da população. O que a cozinheira diria disto? Para provar dois litros

de sopa, quanto de amostra ela teria que avaliar? Isso mesmo, uma pitada. Amostra
probabilística:
E para provar 400 litros de sopa, ela beberia um prato inteiro? Não. Ela
existe uma garantia,
provará a mesma pitada, pois sabe que, o mais importante nesse processo em termos de
inferencial não é o tamanho da amostra, mas provar uma amostra não probabilidade, de que
viciada, representativa de toda a sopa. qualquer membro
da população possa
ser selecionado para
Voltando aos processos de amostragem, as amostras podem ser amostra.
classiicadas em probabilísticas e não probabilísticas:

Amostra probabilística:

- existe uma garantia, em termos de probabilidade, de que


qualquer membro da população possa ser selecionado
para amostra.

Amostra não probabilística:

- os elementos da amostra não são escolhidos por meio de


um sorteio.

CARVALHO e COUTO (2003) apresentam as principais


características de tipos de amostragem mais comuns, relacionados

011
unidade 1
ESTATÍSTICA E PROBABILIDADES

principalmente com pesquisas de survey. Outras amostras, por


exemplo, amostragem de minério, de solo, de gases e de líquidos
têm procedimentos próprios que buscam, em última instância,
obter amostras que sejam representativas de cada população
envolvida. Em suma, qualquer que seja o esquema de amostragem,
probabilístico ou não, deve-se sempre garantir que a amostra reflita
as características da população da qual foi retirada.

Conforme discutido anteriormente, algumas pessoas acreditam que uma

amostra representativa é necessária coletar dados de um percentual

mínimo da população, digamos, 30% do total de indivíduos. Isso é

absolutamente falso e, o que é pior, mesmo que fossem analisados


Qualquer que
tal percentual de indivíduos da população, não é o tamanho que
seja o esquema
garante representatividade da amostra, mas a forma com ela é obtida. de amostragem,
É a imparcialidade do processo de seleção dos seus elementos e a probabilístico
ou não, deve-se
homogeneidade da distribuição das características da amostra e da
sempre garantir que
população que garantem a representatividade da amostra. a amostra reflita as
características da
população da qual
foi retirada.

O papel das variáveis


numa base de dados:
identificação, auxiliares,
variáveis explicativas
e variável reposta
(desfecho)
O primeiro passo de qualquer processo estatístico é a coleta
de dados. Portanto, tudo o mais será alicerçado sobre o que
for coletado. Sendo assim, essa fase deve ser cuidadosamente

012
unidade 1
ESTATÍSTICA E PROBABILIDADES

planejada, já que da qualidade dos dados coletados dependerá


toda a análise e a tomada de decisão subsequente.

Antes da coleta de um dado, é importante entender o conceito


de variável que está por trás da informação que você procura. A
variável contém a informação que você quer analisar, sob a forma
de uma medição sobre determinadas características dos indivíduos
estudados e das unidades de observação.

E, por que esse conceito é tão importante? Porque, no im das contas,


é a variável que é analisada e não a informação que ela contém. Por
isso, é importante que você, antes de sair coletando informações,
analise o seu questionário de coleta de dados, identiique cada variável
envolvida e responda perguntas, tais como: O que exatamente a
variável está medindo? Para que serve esta variável e, principalmente,
é possível analisá-la? E com que método estatístico?
Uma variável é a
quantiicação de
uma característica
de interesse da
pesquisa (SOARES e
Uma variável é a quantiicação de uma característica de interesse da SIQUEIRA, 2002).
pesquisa (SOARES e SIQUEIRA, 2002). Refere-se ao fenômeno a ser

pesquisado. É o campo de variação de cada tipo de dado a ser pesquisado.

Observe que, como o próprio nome diz, uma variável deve variar, ou seja,

se você está coletando dados sobre características de alunos da disciplina

Cálculo Diferencial, podemos pensar em inúmeras variáveis para a unidade

de observação “aluno”: idade, sexo, curso, local do ensino médio, tempo

entre inal do ensino médio e início da graduação, nota inal, percentual de

presença às aulas etc. Entretanto, o tipo de disciplina não é uma variável

nesse caso, pois ela é constante (Cálculo Diferencial).

O grau de variabilidade de uma variável é chave no método


estatístico e será foco de discussões nas próximas unidades.
Entretanto, neste momento, é crucial que você entenda dois
aspectos básicos de qualquer variável: o seu tipo e a sua função, o
papel que ela exerce na base de dados.

013
unidade 1
ESTATÍSTICA E PROBABILIDADES

Toda análise que será feita na base de dados dependerá do seu

entendimento sobre o tipo e a função de cada variável coletada!

Vejamos os tipos de funções de cada variável:

QUADRO 1 - O papel de uma variável numa base de dados.

TIPOS CARACTERÍSTICAS

Servem para o rastreamento dos indivíduos e das unidades


Variáveis de identiicação amostrais, ou são usadas na definição de outras variáveis. Exemplos
e auxiliares de variáveis de identificação: CPF, nome, número de matrícula,
número da amostra etc.

Exemplos de variáveis auxiliares: datas, peso e altura.


Variáveis de identiicação e auxiliares não são analisadas, mas fazem
parte da base de dados.

São aquelas que, por hipótese, podem influenciar, determinar ou afetar


Variáveis explicativas a variável resposta ou desfecho da pesquisa. São chamadas também
de co-variáveis ou variáveis independentes.

Para cada estudo existem variáveis explicativas próprias, deinidas


por hipóteses da própria pesquisa ou conforme revisão da literatura.
Em processos químicos, quando se busca entender os fatores que
afetam o rendimento de uma reação química, são exemplos de
variáveis explicativas a temperatura, a pressão, o tipo de catalisador e
a concentração de reagentes. Se alguém pesquisar sobre as razões de
algumas pessoas serem maiores que outras, as alturas do pai e da mãe,
a origem étnica, a idade e o sexo são exemplos de variáveis explicativas.

É aquela que queremos explicar, em função de ser influenciada, afetada


Variável desfecho por outros fatores (variáveis explicativas). Também denominada de
variável dependente ou variável resposta. Sempre deina um ou mais
desfechos para o estudo, conforme os objetivos da sua pesquisa. Por
exemplo, numa pesquisa cujo objetivo é explicar porque imóveis de
uma mesma região têm preços tão variados, o preço de venda seria
uma variável resposta. Fatores como área, número de quatros, número
e tipo de vaga de garagem, quantidade de suítes, presença de salão de
festas ou piscina são algumas das possíveis variáveis explicativas para
esse problema.

Fonte: Elaborado pelo autor.

014
unidade 1
ESTATÍSTICA E PROBABILIDADES

A função de cada variável na base de dados, assim como o seu


tipo, deinirá que tipo de análise será feita. Não subestime esses
conceitos pois, sem eles, não há como entender os métodos de
análise estatística que serão estuados nas próximas unidades.

Tipos de
variáveis
Se considerarmos a maioria absoluta das variáveis envolvidas em
experimentos de pequeno e médio porte nas áreas de Ciências
Exatas e Engenharia, teremos duas situações para o tipo da variável.

I) Variável qualitativa ou categórica: é aquela que expressa


características ou atributos de classiicação, distribuídos em
A função de cada
categorias mutuamente exclusivas de objetos ou entidades.
variável na base
Categorias mutuamente exclusivas ou mutuamente excludentes de dados, assim
não podem ser observadas simultaneamente num mesmo como o seu tipo,
deinirá que tipo de
indivíduo. Por exemplo, grupo sanguíneo (A, B, AB, O) é uma
análise será feita.
variável categórica mutuamente exclusiva: um indivíduo tem
somente um grupo sanguíneo, não podendo ser classiicado em
mais de uma categoria ao mesmo tempo. Variáveis qualitativas
têm um nível baixo de informação, sendo obtidas por um critério
de classiicação. Por exemplo, sexo (masculino, feminino), estado
civil (com companheiro, sem companheiro), cor de um produto
(branco, verde, amarelo, azul), tipo de transmissão de um carro
(manual, automática), conformidade de qualidade de um produto
(aceito, não aceito), dia chuvoso (sim, não), resultado inal de um
aluno numa disciplina (aprovado, reprovado) etc.

A análise de uma variável categórica é muito restrita e simples:


conta-se quantas unidades amostrais ou resultados observados em
cada categoria da variável e calcula-se o percentual de ocorrência
de cada classe ou categoria.

015
unidade 1
ESTATÍSTICA E PROBABILIDADES

II) Variável quantitativa: é aquela obtida por meio de um processo


de medição ou contagem. Por exemplo: peso, altura, dosagem
e concentrações de produtos químicos e outros insumos,
temperatura, pressão, altitude, umidade, largura, diâmetro,
comprimento, voltagem, corrente, quantidade de chuva (mm),
número de falhas, número de ligações telefônicas, número de
mensagens eletrônicas, número de faltas de um aluno numa
disciplina, nota inal na disciplina, área, preço, etc.

A variável quantitativa possui o mais alto nível de informação,


sendo objeto de inúmeras técnicas de análise. Para cada variável
quantitativa podemos calcular seu valor médio, mediano, modal,
mínimo, máximo, seu desvio padrão, coeiciente de variação,
intervalos especíicos de variação e outras técnicas analíticas que
serão descritas na próxima unidade.

As variáveis quantitativas são chamadas também de numéricas,


As variáveis
mas essa nomenclatura pode gerar confusão, pois o simples quantitativas são
fato de alocar números aos resultados de uma variável não a chamadas também
de numéricas.
torna quantitativa. Por exemplo, se os grupos sanguíneos fossem
classiicados em 1, 2, 3 e 4 (ao invés de A, B, AB e O), tal codiicação
não a tornaria uma variável quantitativa. Na verdade, para que uma
variável seja quantitativa, deve ser possível aplicarmos operações
aritméticas aos seus resultados. A capacidade de realizarmos, por
exemplo, somas e subtrações “válidas” aos resultados de uma
variável é um indicativo de que ela é quantitativa. Claro que a análise
do seu processo de obtenção é mais importante: os resultados
de uma variável quantitativa devem ser obtidos por medição ou
contagem. Além disso, essas variáveis podem ser contínuas,
quando representadas por números reais, ou discretas, quando
representadas por números inteiros.

Usualmente, se ela é obtida por medição, então é contínua. Caso


seja obtida por meio de contagem, é uma variável discreta. Para
efeitos práticos, não faremos distinção entre variáveis contínuas e
discretas, o fundamental é entendê-las como quantitativas.

016
unidade 1
ESTATÍSTICA E PROBABILIDADES

Algumas variáveis originalmente de classiicação. As notas obtidas


por um aluno numa prova são tratadas como quantitativas, mesmo
que não sejam obtidas por meio de um aparelho ou dosador. Nesse
caso, a nota de uma prova é tratada como variável quantitativa
porque considera-se válido aplicar operações aritméticas aos seus
resultados. Entretanto, será que um aluno que obtém 80 pontos
numa disciplina sabe o dobro que um aluno que obteve 40 pontos?
Claro que não. Já uma pessoa de 100 Kg tem o dobro de peso de
uma pessoa de 50 Kg. Outro exemplo, as temperaturas medidas
em Graus Celsius são tratadas como variáveis quantitativas. Isso
quer dizer que um dia com 40ºC tem o dobro de calor de um dia
com 20ºC? Transforme os valores em Graus Celsius para Kelvin e
compare o resultado.

Bom, os conceitos por trás dessa discussão envolve o nível de


mensuração da variável (nominal, ordinal, intervalar e de razão) que Para efeito prático,
será tratado a seguir. Para efeito prático, consideraremos somente consideraremos
duas categorias de variáveis: quantitativas versus categóricas.
somente duas
categorias
Conforme citado anteriormente, esses são os tipos de variável de variáveis:
coletadas em problemas típicos de Ciências Exatas e de Engenharia. quantitativas
versus categóricas.

Uso do Excel como


um sistema de
gerenciamento de dados
e dos formulários do
Google Docs para coleta
de informações
Duas ferramentas essenciais para coleta de dados de
experimentos de pequeno e médio porte na área de Ciências
Exatas e Engenharia são o Excel, um dos componentes do

017
unidade 1
ESTATÍSTICA E PROBABILIDADES

pacote Office da Microsoft, e os Formulários do Google Docs


<https://docs.google.com/forms>.

O Excel é uma planilha eletrônica com origens no Lotus


1-2-3 (GAZZARRRINI, 2013). Ambas as ferramentas são
extremamente práticas, de grande utilidade e serão discutidas
por meio de vídeo aulas.

Os formulários do Google Docs são ótimos para pesquisas


envolvendo pessoas que têm endereço eletrônico (e-mails).
Para usá-los você terá que obter uma lista com os nomes dos
respondentes e os respectivos e-mails. Após construir o formulário
de coleta de dados no Google Docs, você poderá enviá-lo usando o
mecanismo de “mala direta”, da aba “correspondências” do Word,
que também é parte do pacote Ofice da Microsoft. As respostas
enviadas pelos respondentes são automaticamente armazenadas
em planilha eletrônica, facilitando a coleta e a análise dos dados.

É crucial que você domine o Excel como instrumento de coleta


de dados e entenda perfeitamente o papel de cada variável a ser
coletada. Identiicar variáveis explicativas e desfecho (s), distinguir
entre variável quantitativa e categórica é uma questão relativamente
simples, mas fundamental para as discussões que serão feitas nas
próximas unidades.

Considere o artigo “Utilização de efluente de frigorífico, tratado com

macrófita aquática, no cultivo de tilápia do Nilo”, de autoria de Adilson

Reidel e outros pesquisadores da Universidade Estadual do Oeste do

Paraná (REIDEL et al.; 2005) disponível em:

<http://www.agriambi.com.br/revista/suplemento/index_arquivos/

PDF/181.pdf>

018
unidade 1
ESTATÍSTICA E PROBABILIDADES

Neste trabalho, os pesquisadores izeram um experimento em que,

resumidamente, foram colocadas amostras aleatórias de alevinos

(“ilhotes”) de tilápia em aquários com água potável (tratamento A) e em

tanques com efluente de frigoríico após passar num sistema de iltro com

aguapé (tratamento B), avaliando-se comparativamente o desenvolvimento

e a sobrevivência dos peixes. A pergunta principal da pesquisa era: “É

possível cultivar tilápias em efluente de frigoríico tratado com aguapé?”

Nas tabelas 1 e 2 do artigo, são apresentados alguns resultados e um

conjunto de variáveis envolvidas na pesquisa.

TABELA 1 – Valores médios dos parâmetros físico-químicos


determinados durante o cultivo da tilápia do Nilo (O. niloticus)
TRATAMENTOS
PARÂMETROS
A B

Temperatura média (ºC) 26,4 = 1,60 26,4 = 1,70


Oxigienio Dissolvido (mg L ) -1
7,17 = 0,60 7,18 = 0,90
Condutividade Elétrica (uS cm-1) 227,48 = 36 1779,7 = 68
pH 8,44 = 0,12 7,40 = 0,35

Tratamentos: (A) controle (água potável + ração); (B) efluente tratado (efluente do sistema de
iltro de aguapé + ração)

Fonte: REIDEL et al., 2005.

TABELA 2 – Valores médios de desempenho e sobrevivência de alevinos


de tilápia do Nilo, cultivados com água potável e efluente tratado

Tratamento A Tratamento B Teste t-Student


VARIÁVEIS
média O média O T calculado

Peso inicial (indivíduo) (g) 0,235 a 43,267 0,232 a 46,113 0


Biomassa inicial (aquário) (g) 1,172 a 2,426 1,160 a 1,901 0,001
Peso inal (indivíduo) (g) 1,391 a 42,269 1,054 a 45,582 0,028
Biomassa inal (aquário) 5,280 a 38,890 4,300 a 45,721 0,028
Sobrevivência (%) 75 a 80,467 80 a 25,819 0,08

Médias seguidas da mesma letra, na linha, não diferem signiicadamente pelo teste t de Student ao nível 5% de signiicância

Fonte: REIDEL et al.; 2005.

019
unidade 1
ESTATÍSTICA E PROBABILIDADES

Esse é um exemplo prático da aplicação de conceitos discutidos


na Unidade 1 em experimentos de pequeno e médio porte na área
de Ciências Exatas e de Engenharia. O experimento é baseado
em amostragem e analisa o impacto de variáveis explicativas em
desfechos diretamente ligados ao objetivo do projeto: sobrevivência
dos peixes, peso e biomassa inal no aquário.

Nesse trabalho são usadas três variáveis resposta, uma categórica


(“O peixe sobreviveu?” “sim ou não”) e dois desfechos quantitativos
(peso inal e biomassa inal, medidos em gramas). Dentre as
variáveis explicativas envolvidas, a mais importante, que está
diretamente ligada ao objetivo da pesquisa é o tipo de tratamento (A
versus B), uma variável categórica dicotômica.

Muitas pessoas têm diiculdade em identiicar essa variável


explicativa, apesar dela ser a mais importante na pesquisa. As
outras variáveis explicativas são todas quantitativas e, como tal,
foram obtidas por meio de um processo de medição, contagem
ou dosagem: temperatura (ºC), oxigênio Dissolvido (mg L-1),
condutividade Elétrica (μS cm-1), pH, peso inicial (g) e biomassa
inicial (g).

Nas tabelas apresentadas aparecem métricas (média, desvio


padrão e valor de t de student) que são usadas na análise e na
conclusão do projeto. Fique tranquilo, esses conceitos serão
tratados nas próximas unidades!

De qualquer forma, a conclusão da pesquisa para a pergunta “É


possível cultivar tilápias em efluente de frigoríico tratado com
aguapé?”, é: “Sim, é possível cultivar tilápias em efluente de
frigoríico tratado com aguapé. Os dados não mostraram diferença
signiicativa entre os dois tratamentos, tanto em relação ao
desenvolvimento quanto à sobrevivência dos peixes”.

O entendimento completo das razões para chegar a essa conclusão


será obtido nas próximas unidades. Entretanto, neste momento, é

020
unidade 1
ESTATÍSTICA E PROBABILIDADES

fundamental que você já entenda conceitos referentes ao processo


de amostragem/coleta de dados e, principalmente, que consiga
diferenciar os tipos e as funções das variáveis numa pesquisa.

Revisão
Vimos nessa unidade alguns dos principais tópicos introdutórios do
campo da Estatística. Em resumo, estudamos sobre:

População, amostra, censo e amostragem:

- Censo de toda a população não é viável, devido aos altos


custos e/ou quando a pesquisa envolve ensaios destrutivos.

- Uma pequena, mas cuidadosamente escolhida, amostra


pode ser usada para representar a população.
Variável
quantitativa: é
- Os resultados observados numa amostra representativa aquela obtida
por meio de
poderão ser generalizados, sem risco de chegar a uma
um processo
conclusão diferente daquela que seria obtida no caso de de medição ou
trabalhar com toda a população. contagem.

- A questão mais importante numa amostragem não


é o tamanho da amostra, mas como a amostra será
obtida, pois o delineamento amostral mal feito invalida
qualquer pesquisa.

Tipos de variáveis:

- Variável qualitativa ou categórica: é aquela que expressa


características ou atributos de classiicação, distribuídos
em categorias mutuamente exclusivas de objetos ou
entidades.

- Variável quantitativa: é aquela obtida por meio de um


processo de medição ou contagem.

021
unidade 1
ESTATÍSTICA E PROBABILIDADES

Função das variáveis:

- Variáveis de identiicação e auxiliares: servem para o


rastreamento dos indivíduos e das unidades amostrais ou
são usadas na deinição de outras variáveis.

- Variáveis explicativas: são aquelas que, por hipótese,


podem influenciar, determinar ou afetar a variável resposta
ou desfecho da pesquisa.

- Variável desfecho: é aquela que queremos explicar, em


função de ser influenciada e/ou afetada por outros fatores
(variáveis explicativas). Também denominada de variável
dependente ou variável resposta. Aconselha-se sempre
deinir um ou mais desfechos para o estudo, conforme os
objetivos da sua pesquisa.

Ainda compreendemos que alguns sistemas computacionais são


ferramentas essenciais para coleta de dados de experimentos de
pequeno e médio porte na área de Ciências Exatas e da Engenharia.
São eles: o Excel, um dos componentes do pacote Ofice da Microsoft,
e os Formulários do Google Docs <https://docs.google.com/forms>.

Para aprofundar sobre as questões discutidas nessa unidade, leia o

Capítulo 1 do livro texto: LEVINE, David M. et al. Estatística: teoria e

aplicações usando Microsoft Excel em português, 3º edição ou superior:

“Introdução e Coleta de Dados”, assim como o suplemento do capítulo 1

“Introdução à Utilização do Microsoft Excel”.

022
unidade 1
Análise
exploratória
de dados
Introdução

Conforme citado na Unidade 1, se você usar técnicas de análise


estatística, você poderá rapidamente se transformar num especialista
em qualquer assunto, certo? Pois bem, como exemplo, que tal se tornar
um especialista em reprovação em disciplinas básicas de cursos de
Engenharia e Tecnologia? E você não precisará “repetir” nenhuma
dessas disciplinas para ser um especialista em reprovação...! Esse é
um problema bem conhecido, mas suas causas e fatores associados
não! Uma hipótese é que durante o ensino fundamental e médio muitos
alunos não conseguem adquirir habilidade em resolver problemas • Sintese gráfica
de dados
matemáticos. Essa deiciência então culmina nos cursos de Engenharia
• Sintese tabular
com altos índices de reprovação no ciclo básico. Disciplinas como
de dados
Cálculo Diferencial, Geometria Analítica e Álgebra Linear (GAAL),
• Sinteses
Química Geral e Algoritmos (AEDS) podem ser verdadeiros “infernos” numérica de
para alunos da área de Exatas. dados
• Revisão
Considerando o problema geral “desempenho acadêmico em
disciplinas de ciclo básico de cursos de Engenharia”, que tal analisar
dados de amostra de alunos, buscando identiicar as características
e possíveis fatores associados aos desfechos “conceito” (aprovado
ou reprovado), “nota histórico” (0 a 100 pontos) e “abandonou a
disciplina?” (sim ou não)?

Para resolver o problema acima, qual a primeira providência? Muitos


podem pensar: “Preciso estudar melhor o assunto, fazer uma
revisão da literatura sobre o problema. Em seguida, preciso planejar
e executar a coleta dos dados”. Essa primeira etapa já foi feita e
faz parte de projeto de iniciação cientíica do Centro Universitário
de Belo Horizonte – UniBH, cujo título da pesquisa é “Fatores
associados ao desempenho acadêmico de alunos em disciplinas do
ciclo básico de cursos de Engenharia”. A pesquisa foi aprovada pelo
Comitê de Ética em Pesquisa (CEP) do UniBH com o nº 920.308,
em 17/12/2014 e os dados estão disponíveis para download no link:
http://disciplinas.nucleoead.com.br/complementos/graduacao/
grad_ep/arquivos/dados_brutos.xlsx.

Agora que você já tem acesso aos dados, qual o próximo passo para
resolvermos o problema de reprovação e abandono em Cálculo,
GAAL, Química Geral e AEDS? A primeira etapa de qualquer análise
estatística, ou melhor, a fase preliminar da busca das informações
agregadas a dados já coletados, é a análise exploratória dos
mesmos. Como o próprio nome diz, a análise exploratória dos
dados é o conjunto de ferramentas da Estatística Descritiva que têm
como objetivo fazer uma síntese dos dados, organizando-os sob a
forma de tabelas, gráicos e números. Portanto, para entendermos e
resolvermos nosso problema de reprovação, precisamos estudar as
ferramentas da Estatística Descritiva:

a. Síntese tabular: Resumo da análise por meio de tabelas;

b. Síntese numérica: Medidas de posição (média, mediana e


moda) e medidas de variabilidade (soma dos quadrados dos
resíduos, variância, desvio padrão, coeiciente de variação);

c. Síntese gráica: Gráicos de pizza, barra, coluna, linha, séries


históricas, histograma, gráico de Pareto, gráico misto, de
coluna e de linha, diagrama de dispersão e box-plot.

O objetivo desta unidade é promover o conhecimento fundamental


que lhe permitirá entender dados coletados, transformando dados
brutos em informações úteis!
ESTATÍSTICA E PROBABILIDADES

Síntese gráfica
de dados
Uma igura vale mais que mil palavras! Isso é verdade, entretanto um
gráico vale mais que mil palavras se e somente se ele for desenhado
de forma clara, correta e concisa. Sempre desenhe gráicos a partir
de seus dados, mas tente fazê-los de tal forma que a frase “basta
olhar para entender” seja válida. Os gráicos mais úteis para análise
de dados de experimentos de pequeno e médio porte na área de
Ciências Exatas e Engenharia são: gráicos de pizza, barras, colunas,
linha, séries históricas, histograma, gráico de Pareto, gráico misto,
de coluna e de linha, diagrama de dispersão e box-plot (tabela 3).
De todos esses, somente vejo sentido em construi-los “à mão”
histogramas e diagramas de dispersão. Entretanto, na prática
devemos construir gráicos usando ferramentas computacionais
como o Excel.

TABELA 3 - Gráicos mais úteis para análise de dados de experimentos


de pequeno e médio porte na área de Ciências Exatas e Engenharia.

TIPO DE GRÁFICO NÚMERO DE VARIÁVEIS TIPO DE VARIÁVEL ANALISADA


ENVOLVIDAS
Pizza ou setor Uma Categórica

Colunas (verticais) Uma Categórica

Barras (horizontais) Uma Categórica

Histograma Uma Quantitativa, mas categorizada numa


tabela de distribuição de frequências

Gráicos de linha Duas Quantitativa no eixo vertical, e


categórica no eixo horizontal

Séries históricas Duas Quantitativa no eixo vertical, e


o “tempo” no eixo horizontal

Gráico de Pareto Uma Categórica

Gráico misto, de Duas Quantitativa no eixo vertical, e


coluna e linhas o “tempo” no eixo horizontal

Diagrama de Duas Variável explicativa quantitativa no eixo horizontal, e


dispersão desfecho quantitativo no eixo vertical

Box-plot Uma ou mais Quantitativa

Fonte: Elaborado pelo autor.

026
unidade 2
ESTATÍSTICA E PROBABILIDADES

Como fazer os gráicos? Siga regras e comentários abaixo e você


terá sucesso ao desenhar gráicos:

1. Um gráico deve conter um título, entretanto este não deve


ser colocado no próprio gráico (como o Excel insiste em
fazer...). Quando desenhamos um gráico usando o Excel,
por exemplo, este será exportado para algum documento
do Word ou para o PowerPoint, ou para outros editores de
texto e apresentadores de slides. O título do gráico será
então colocado no slide ou na descrição da igura no editor
de textos, sendo desnecessário e errado colocá-lo no
meio do próprio gráico. Mesmo em casos excepcionais,
quando o gráico não é exportado para nenhum outro
aplicativo, sendo impresso diretamente do Excel, o título
Mesmo em casos
não deve ser colocado no meio da igura. O título deve ser
excepcionais,
inserido no cabeçalho da planilha que contém o gráico. quando o gráico
não é exportado
2. Ao escrever um relatório, comece pelas iguras. É para nenhum
outro aplicativo,
impressionante, mas as pessoas leem artigos cientíicos,
sendo impresso
relatórios técnicos, jornais e revistas de “fofoca” da diretamente do
mesma forma: começamos pelas iguras! Por isso, o título Excel, o título não
deve ser colocado
de gráicos e tabelas deve ser o mais claro possível: toda
no meio da igura.
informação necessária para o entendimento da igura
deve estar no seu título. Essa é uma tendência das revistas
cientíicas (Nature, Science, por exemplo) e tem um efeito
colateral: o título da igura ica muito longo. Isso não é
exatamente uma regra, mas recomendação. Se você quer
que seu relatório seja lido, invista nos títulos de iguras
e tabelas e sempre coloque respostas claras para pelo
menos quatro perguntas: O que? Quem? Quando? Onde?
A interpretação das informações no gráico também deve
ser colocada como subtítulo da igura. Se necessário,
coloque notas explicativas, usando siglas somente para
coisas realmente conhecidas de quem lerá o seu texto
(seu chefe ou o chefe do seu chefe...). Veja um exemplo
de gráico de pizza na igura a seguir.

027
unidade 2
ESTATÍSTICA E PROBABILIDADES

FIGURA 2 – Principais ferramentas estatísticas encontradas em


artigos publicados no New England Journal of Medicine (NEJM).

A maioria absoluta (58%) dos 760 artigos publicados nos volumes 298 a 301 da NEJM utilizou somente técnicas de
Estatística Descritiva na análise dos dados. Praticamente um quarto dos artigos usou teste t de student e 15% aplicou
teste de qui-quadrado nas tabelas de contingência, ferramentas que serão discutidas na Unidade 7 deste livro.

Fonte: BAILAR & MOSTELLER,1992.

3. Caso o gráico tenha eixos (horizontal X e vertical Y), estes


devem estar rotulados para entendimento. Os rótulos dos
eixos devem conter as respectivas unidades de medida
envolvidas (g, R$, kg, m/s, etc.). Esse é mais um ponto de
erro do Excel! Além de não colocar os rótulos nos eixos,
o Excel coloca o título no meio da igura e uma legenda
que não tem a menor utilidade. Na verdade, as legendas
somente devem ser colocadas se existirem mais de um
grupo de dados na igura. Veja um exemplo correto de
gráico de barras na igura a seguir.

028
unidade 2
ESTATÍSTICA E PROBABILIDADES

FIGURA 3 – Risco de reprovação em disciplinas de cursos de Engenharia


e Tecnologia do Centro Universitário de Belo Horizonte – UniBH.

Análise de 21 disciplinas avaliadas em sete semestres (2011/1 a 2014/1), considerando amostra de 78.399 alunos.
Quatro disciplinas têm mais de 40% de seus alunos reprovados: Cálculo Diferencial, Geometria Analítica e Álgebra
Linear, Cálculo de Várias Variáveis e Algoritmo e Estruturas de Dados.

Fonte: Elaborado pelo autor.

4. Não existe regra ixa para a escolha da escala do gráico.


Qualquer escala é boa desde que os valores no gráico
não iquem muito espalhados nem muito juntos numa
única região da igura.

5. Sombreamento, efeitos 3D e pequenas iguras relacionadas


com o tipo de dado usado no gráico, colocados para
dar vida à igura: na maioria das vezes esses efeitos são
inúteis, podendo até mesmo distorcer o gráico.

6. A maioria dos gráicos apresenta o valor zero como ponto


de início dos eixos, mas isso não é necessário se o ponto
de início da escala é devidamente marcado na igura. Na
verdade, as pessoas usualmente assumem que o valor
zero está na base do gráico. Para os gráicos de linha isso

029
unidade 2
ESTATÍSTICA E PROBABILIDADES

não é problemático, entretanto, quando se tratar de gráicos


de colunas ou de barras, o valor zero deve obrigatoriamente
estar na base da coluna. Caso isso não seja feito, ocorre
uma distorção do gráico levando a uma interpretação
errada dos dados. Veja o exemplo abaixo. O primeiro
gráico, como não começa no valor zero, está errado, ele
“ilude o leitor”: a auditoria foi um sucesso?!

FIGURA 4 – Exemplos de gráico de colunas: o valor


zero deve obrigatoriamente ser incluído na igura.

Fonte: Elaborado pelo autor.

7. Mais de uma curva ou linha pode ser desenhada em um


único gráico com o objetivo de comparação. Entretanto,
deve-se diferenciar claramente os dados de cada linha
para que não haja erro de interpretação (use cores
diferentes ou linhas pontilhadas ou mesmo símbolos).
Linhas de grade, usualmente colocadas no gráico para
auxiliar a leitura das escalas, devem ser discretas (na cor
cinza, por exemplo) ou serem eliminadas.

030
unidade 2
ESTATÍSTICA E PROBABILIDADES

FIGURA 5- Exemplo de gráico com legenda identiicando diferentes dados.

Fonte: Elaborado pelo autor.

8. Os gráicos devem ser desenhados no formato de


paisagem, com a altura tendo aproximadamente ¾ da sua
largura. Caso isso não seja feito, poderá haver distorção
da igura e da própria informação, que ica comprometida:
o primeiro gráico está correto, mas os outros estão na
categoria “como mentir com estatística”...

031
unidade 2
ESTATÍSTICA E PROBABILIDADES

FIGURA 6 – Formato dos gráicos: a igura deve ser desenhada em


formato de paisagem, com a altura tendo aproximadamente 75% da largura.

Fonte: Elaborado pelo autor.

FIGURA 7 – Gráico distorcido: desenhando a igura com a altura muito pequena, em relação
à largura, a informação é falseada e se tem a sensação de estabilidade dos dados.

Fonte: Elaborado pelo autor.

032
unidade 2
ESTATÍSTICA E PROBABILIDADES

FIGURA 8 - Gráico distorcido: desenhando a igura com a altura


muito grande, em relação à largura, a informação é falseada e se
tem a sensação de redução dos dados ao longo do tempo

Fonte: Elaborado pelo autor.

9. Gráicos de pizza, “o queridinho”: Apesar de muito


“engraçadinhos”, estes gráicos são muitos confusos.
Evite o seu uso, substituindo por gráicos de barra ou de
colunas. É aceitável construi-los somente quando são
poucos setores bem deinidos (até cinco pedaços). Evitar
gráicos de pizza em 3D, com vários pedaços. Construi-
los como na igura 2.

10. Diagrama de dispersão: Ferramenta que nos permite


avaliar o efeito de uma variável explicativa quantitativa
sobre um desfecho. Serve tanto para visualizarmos
funções matemáticas teóricas (igura 9) quanto
funções de relacionamentos empíricos já conhecidos
(igura 10), mas a sua grande utilidade é quando
tentamos estabelecer a associação entre duas variáveis
quantitativas (igura 11). A igura 9 é um diagrama de

033
unidade 2
ESTATÍSTICA E PROBABILIDADES

dispersão mostrando uma relação completamente


teórica entre duas variáveis (x e y). Como é uma relação
exata, somente é desenhada a linha que liga os pontos do
gráico. Na igura 10 é desenhada uma relação empírica,
no caso a lei de Abrams, que relaciona a resistência do
concreto à compressão (R) com o fator água/cimento
(fx) da seguinte forma: R = α/βfx. Nessa igura, α e β foram
deinidos como 100 e 10 respectivamente, de tal forma
que a equação icou R = 100/10fx, fx variando de 0 a 3.
Já a igura 11 mostra o uso “nobre” dos diagramas de
dispersão, quando tentamos explorar, criar e propor uma
nova relação empírica entre duas variáveis quantitativas.
Nesse exemplo, ao invés de aplicarmos a relação
empírica de Abrams, usamos dados reais de fator fx
de água/cimento e a resistência medida em 28 dias de
uma amostra de concretos (desfecho). Ao inserirmos
uma linha de tendência linear, estamos sugerindo que,
na faixa de variação medida de fx (entre 0,2 e 1,0), a
resistência à compressão do concreto se relaciona com
fx por meio de uma equação de reta.

FIGURA 9 – Diagrama de dispersão sem os marcadores


e com linhas contínuas mostrando a relação de x e sua
função f(x) = 2x3 – cos(x+1) – 3. Nesse caso o diagrama
está mostrando uma relação teórica exata, tal como
aquela encontrada nas disciplinas de Cálculo Diferencial.

Fonte: Elaborado pelo autor.

034
unidade 2
ESTATÍSTICA E PROBABILIDADES

FIGURA 10 – Diagrama de dispersão com marcadores e linhas contínuas mostrando


a relação empírica da lei de Abrams que relaciona a resistência à compressão
de concretos, medida em megapascal (MPa), e o fator água/cimento (fx),
determinado pela razão do peso de água pelo peso em cimento do concreto.

Fonte: Elaborado pelo autor.

FIGURA 11 – Diagrama de dispersão somente com os marcadores e sem


linhas contínuas mostrando uma possível relação linear entre resistência à
compressão de concretos em 28 dias (MPa) e o fator água/cimento (fx).

Fonte: Elaborado pelo autor baseado nos dados em DAFICO, Dario de Araújo. Método Simples para Explicar a Resistência
à Compressão do Concreto de Alto Desempenho. Disponível em: http://www2.ucg.br/nupenge/pdf/Dario.pdf. Acesso em
14 maio 2015.

035
unidade 2
ESTATÍSTICA E PROBABILIDADES

A igura 12 mostra possíveis padrões de relacionamento entre uma


variável explicativa (X) e o desfecho (Y), ambos quantitativos. Sempre
que construir um diagrama de dispersão, você deve interpretar o
gráico gerado em um dos quatro padrões mostrados na igura 12. A)
Correlação positiva: Em média, quando X aumenta, Y também aumenta,
numa tendência em “linha reta”. Por exemplo, quanto maior a área de
um imóvel, maior é o seu preço de venda. B) Correlação negativa: Em
média, quando X aumenta, Y tende a diminuir. Por exemplo, quanto
mais velho um imóvel, menor é o seu preço de venda. C) Associação
curvilinear: Em média, quando X aumenta, Y também aumenta, mas
não numa tendência em “linha reta”, e sim “em curva”. Isso pode
ocorrer quando, por exemplo, a relação entre a variável resposta (Y) e a
explicativa (X) for uma equação de segundo grau (parábola) ou cúbica,
de grau três. D) Sem associação: Também é um padrão importante,
pois indica que não há relação entre as duas variáveis associadas, que
a variável explicativa, na verdade, não explica o desfecho! Por exemplo,
frequentemente se observa que a idade do aluno não está associada à
sua nota na maioria das disciplinas que ele cursa.

FIGURA 12 – Padrões de relacionamentos entre variáveis avaliadas por meio de diagrama


de dispersão: correlação positiva (A), correlação negativa (B), associação curvilinear (C) e
ausência de associação (D).

Fonte: Elaborado pelo autor.

036
unidade 2
ESTATÍSTICA E PROBABILIDADES

11. Histograma: A ideia deste gráico é categorizar uma variável


quantitativa, dividindo-a em intervalos ou classes, contar
quantos valores se encaixam em cada intervalo e construir
um gráico de colunas com o resultado. Ao se interpretar
um histograma, deve-se tentar responder às seguintes
questões: Qual é a forma da distribuição dos dados? Existe
um ponto central bem deinido? Como é a amplitude de
variação dos dados? Existe apenas um pico isolado? A
distribuição é simétrica? Os exemplos abaixo podem auxiliá-
lo na interpretação de um histograma. Procure descobrir
com qual destes oito tipos o seu histograma se parece.

Exemplo 1 - Histograma simétrico: A frequência de dados é mais


alta no centro e decresce gradualmente à esquerda e à direita de
forma aproximadamente simétrica, em forma de sino.

Fonte: Elaborado pelo autor

Exemplo 2 - Histograma fortemente assimétrico: A frequência dos


dados decresce rapidamente num dos lados e muito lentamente
no outro, provocando uma assimetria na distribuição dos valores. A
distribuição dos salários numa empresa é um exemplo comum de
histograma assimétrico: muitas pessoas ganham pouco e poucas
pessoas ganham muito (a). A situação (b), apesar de mais rara,
também pode acontecer.

037
unidade 2
ESTATÍSTICA E PROBABILIDADES

Fonte: Elaborado pelo autor

Exemplo 3 - Histograma tipo despenhadeiro: O histograma termina


abruptamente em um ou nos dois lados, dando a impressão de que
faltam dados. Na verdade, essa possivelmente deve ser a explicação
para histogramas com esse formato: os dados muito pequenos e/
ou muito grandes foram eliminados da amostra.

038
unidade 2
ESTATÍSTICA E PROBABILIDADES

Fonte: Elaborado pelo autor

Exemplo 4 - Histograma com dois picos: Ocorrem picos na


distribuição e a frequência é baixa entre os picos. Possivelmente,
os dados se referem a uma mistura de valores de diferentes
populações, devendo ser avaliados com cuidado. Se houve mistura
dos dados, é melhor separá-los.

Fonte: Elaborado pelo autor

Exemplo 5 - Histograma tipo platô: As classes de valores centrais


apresentam aproximadamente a mesma frequência. Essa situação
também sugere mistura de valores de diferentes populações.

039
unidade 2
ESTATÍSTICA E PROBABILIDADES

Fonte: Elaborado pelo autor

Exemplo 6 – Histograma com uma pequena ilha isolada: Alguns


valores isolados têm frequência elevada, formando uma espécie de
ilha. Também pode ter ocorrido uma mistura de dados.

Fonte: Elaborado pelo autor

Exemplo 7 – Histograma tipo serrote: As frequências de valores se


alternam formando vários dentes. Pode indicar algum problema na
obtenção (leitura) dos dados.

040
unidade 2
ESTATÍSTICA E PROBABILIDADES

Fonte: Elaborado pelo autor

Vamos usar como exemplo de dados para a construção de um


histograma notas de amostra de alunos em uma prova de Cálculo
Diferencial (n=120):

FIGURA 13 – Dados brutos de notas de amostra de alunos em prova de


Cálculo Diferencial. Centro Universitário de Belo Horizonte – UniBH, 2014/2.

0 0 0 1 5 5 6 9 13 17 18 21
0 0 0 1 5 5 6 10 13 17 18 21
0 0 0 1 5 5 6 11 14 17 20 22
0 0 0 2 5 5 9 11 14 17 20 22
0 0 0 2 5 5 9 12 14 17 20 24
0 0 0 3 5 5 9 12 14 17 20 24
0 0 0 3 5 5 9 13 15 17 20 25
0 0 0 5 5 6 9 13 15 17 20 25
0 0 0 5 5 6 9 13 17 18 21 25
0 0 1 5 5 6 9 13 17 18 21 25

Fonte: Elaborado pelo autor

Passo 1 - Determinar valores mínimo, máximo e amplitude (R):

mín = 0; máx = 25; R = máx – mín = 25 – 0 = 25

Passo 2 – Determinar quantas classes ou intervalos (k) serão


usados para dividir os dados. O número de classes deve ser

041
unidade 2
ESTATÍSTICA E PROBABILIDADES

algo entre 5 a 20 subintervalos. Regra empírica: k ≈ √n e

5 ≤ k ≤ 20 . No exemplo, n ≈ 120; k ≈ √120 ≈ 10.


R
Passo 3 – Determinar o tamanho de cada subintervalo (h). h ≈ k . No
R 25
exemplo, h ≈ k ≈ 10 . ≈ 2,5 Ou seja, no nosso exemplo, temos 120
valores que variam de 0 a 25 e vamos dividi-los em 10 classes de
tamanho 2,5.

Passo 4 - Contar a frequência de valores em cada classe. No


exemplo, começando em zero (valor mínimo), teremos uma
tabela de distribuição de frequências, base para construção do
histograma, de 2,5 a 2,5 pontos cada subintervalo. Vamos veriicar
na base de dados quantos valores se encaixam em cada classe.

Observe na igura 14 o símbolo --|, ele indica que o valor à direita


Lembre-se de que
faz parte do intervalo, mas o valor à sua esquerda não! Ou seja, o
o total, a soma da
intervalo 2,5 --| 5,0 implica em valores acima de 2,5 e menores ou coluna “Frequência”,
iguais a 5,0. Por exemplo, alunos que tiraram 5,0 são contabilizados deve ser exatamente
o tamanho da
somente no segundo intervalo (2,5 --| 5,0), assim como aqueles
amostra (n).
que tiraram 7,5 pontos entram somente na terceira classe (5,0
--| 7,5). Veja também o símbolo |--|, ele só pode ser usado no
primeiro subintervalo e possibilita que incluamos o valor 0,0 na
primeira classe (0,0 |--| 2,5). Se não izéssemos isso, não teríamos
onde colocar a frequência de valores iguais a zero. Eventualmente
você poderá se deparar com tabelas construídas com o símbolo
“invertido”, |--, que indica valores maiores ou iguais ao número
colocado à esquerda e menores que o valor colocado à direita. Por
exemplo, 30 |-- 40 implica valores maiores ou iguais a 30 e menores
que 40. Usei a notação --| que é o padrão usado pelo Excel na
construção de histogramas (igura 14).

Lembre-se de que o total, a soma da coluna “Frequência”, deve


ser exatamente o tamanho da amostra (n). Além da coluna de
frequência absoluta, podemos calcular a frequência relativa ou
percentual de cada classe (em relação ao total de valores) e

042
unidade 2
ESTATÍSTICA E PROBABILIDADES

a frequência acumulada ou percentual acumulado, útil para a


construção de gráicos de Pareto (que será explicado mais à frente).

FIGURA 14 – Tabela de distribuição de frequências das notas de amostra de alunos em


prova de Cálculo Diferencial. Centro Universitário de Belo Horizonte – UniBH, 2014/2.

NOTA FREQUÊNCIA PERCENTUAL PERCENTUAL ACUMULADO

0,0 |--| 2,5 35 29% 29%

2,5 --| 5,0 22 18% 48%

5,0 --| 7,5 6 5% 53%

7,5 --| 10,0 9 8% 60%

10,0 --| 12,5 4 3% 63%

12,5 --| 15,0 12 10% 73%

15,0 --| 17,5 10 8% 82%

17,5 --| 20,0 10 8% 90%

20,0 --| 22,5 6 5% 95%

22,5 --| 25,0 6 5% 100%

Total 120 100%

Fonte: Elaborado pelo autor

FIGURA 15 – Histograma com a distribuição das notas na prova de Cálculo


Diferencial: os dados mostram um padrão de distribuição assimétrico,
semelhante àquele apresentado no histograma do exemplo 2.

Fonte: Elaborado pelo autor

043
unidade 2
ESTATÍSTICA E PROBABILIDADES

12. Gráico de Pareto: Esta ferramenta é ótima para ajudar


na deinição de prioridades, quando precisamos fazer
um plano de ação para melhoria de qualidade de um
serviço ou produto. Por exemplo, se um determinado
problema ou defeito pode ocorrer de diversas formas,
como escolher os tipos de defeito prioritários para
serem corrigidos? A ideia do “efeito Pareto” é que 80%
dos problemas estão associados a 20% dos problemas.
Nem sempre esse efeito ocorre, mas esse é o objetivo
do gráico de Pareto: veriicar quais itens ou problemas
ocorrem com maior frequência num determinado
cenário. Por exemplo, numa amostra de 400 defeitos de
fabricação de uma peça mecânica, foram observados
16 tipos de defeito: rebarbas, diâmetro menor, diâmetro
maior, sem usinagem, altura menor, trincas, altura maior, Gráico de Pareto:
borda muito ina, enviesado, base maior que o topo, borda Esta ferramenta é
ótima para ajudar
muito grossa, cor muito escura, estrutura pouco flexível,
na deinição de
base menor que o topo, cor muito clara e estrutura frágil. prioridades, quando
Ao se construir um gráico de Pareto com os dados precisamos fazer
um plano de ação
(igura 16), observa-se que a maioria absoluta (66%)
para melhoria de
dos defeitos se refere somente a três tipos: rebarbas qualidade de um
(32%), diâmetro menor (21%) e diâmetro maior (13%). Ou serviço ou produto.
seja, ao fazer um plano de ação para corrigir possíveis
defeitos de fabricação dessa peça, “ignore” 13 defeitos e
priorize suas ações em apenas esses três. Fazendo isso,
66% do problema estará corrigido!

044
unidade 2
ESTATÍSTICA E PROBABILIDADES

FIGURA 16 – Gráico de Pareto com a frequência de defeitos de fabricação


de uma peça mecânica: 66% dos defeitos são somente de três categorias prioritárias
para um plano de ação para melhorar a qualidade do processo de fabricação
(rebarbas, diâmetro menor e diâmetro maior).

Fonte: Elaborado pelo autor

13. Box-plot: Este gráico, também conhecido como


diagrama em caixa ou “caixa e bigode”, informa sobre
a distribuição dos dados. Somente se aplica a variáveis
quantitativas (igura 17), informando o menor valor
(pequena linha horizontal inferior) e valor máximo
(pequena linha horizontal superior). A distância entre
o valor mínimo e a aresta inferior da caixa cinza é a
amplitude em que ocorrem os 25% dos valores mais
baixos. Este é conhecido como 1º quartil, sendo
delimitado pelo percentil 25 dos dados. As duas caixas,
cinza e vermelha, mostram onde estão 50% dos dados.
A distância entre a aresta superior da caixa vermelha
e a pequena linha horizontal superior, que equivale
ao máximo dos dados, refere-se ao intervalo em que
ocorrem 25% dos maiores valores da variável. A linha
separando as duas caixas representa a mediana, que

045
unidade 2
ESTATÍSTICA E PROBABILIDADES

expressa o valor do meio se todos os dados fossem


colocados em ordem. Assim como os histogramas, o
box-plot nos informa sobre a maneira de distribuição dos
dados, tendo a vantagem de permitir a visualização de
grupos de dados (igura 18). Nessa igura, é apresentado
um resumo comparativo da taxa de aprovação de oito
disciplinas de ciclo básico de cursos de Engenharia.

FIGURA 17 – Exemplo de box-plot para uma variável quantitativa genérica: quanto maior o
tamanho das duas caixas, vermelho e cinza, maior a variabilidade e dispersão dos dados.

Fonte: Elaborado pelo autor

046
unidade 2
ESTATÍSTICA E PROBABILIDADES

FIGURA 18 – Box-plot com as taxas de aprovação de oito disciplinas de ciclo básico de cursos
de Engenharia: Desenho e Estatística se destacam das outras disciplinas, que têm taxas de
aprovação bem menores e mais heterogêneas. Cálculo Integral é a disciplina com menor taxa de
aprovação e maior variabilidade dos dados.

Fonte: Elaborado pelo autor

Síntese tabular
de dados
Na análise exploratória de dados, em última instância, todos os
resultados são apresentados ou na forma de iguras ou de tabelas.
Assim como nos gráicos, invista no título da tabela e sempre
coloque respostas claras para pelo menos quatro perguntas: O
que? Quem? Quando? Onde? Sugerimos que a interpretação das
informações na tabela também seja colocada no próprio título. Se
necessário, coloque notas explicativas, usando siglas somente
para coisas realmente conhecidas. A tabela 4 é um exemplo de
formato de tabelas, apresentando modelo para síntese de variáveis
categóricas de uma base de dados.

047
unidade 2
ESTATÍSTICA E PROBABILIDADES

TABELA 4 – Análise exploratória de variáveis categóricas: a síntese de variáveis


categóricas, sejam elas explicativas ou desfecho, resume-se a apresentar suas
categorias, a frequência de valores em cada categoria e os respectivos percentuais.

VARIÁVEL CATEGORIA FREQUÊNCIA PERCENTUAL

Conceito Aprovado 2287 49%

Reprovado 2386 51%

Local do ensino médio Instituição privada 1509 32%

Instituição pública 3164 68%

Sexo Feminino 1948 42%

Masculino 2725 58%

Turno Manhã 1153 25%

Noite 3520 75%

Fonte: Elaborado pelo autor.

Síntese numérica
de dados
A síntese numérica de variáveis categóricas é muito simples, basta
que você apresente suas categorias, a frequência de valores em
cada categoria e os respectivos percentuais, tal como apresentado
na tabela 3. Já a síntese de variáveis quantitativas é mais ampla e
envolve resumir dois aspectos:

1. um valor típico ou característico para a variável;

2. uma medida do grau de variabilidade ou de dispersão


dos dados.

1. Valor típico ou medida de posição: O objetivo é


encontrar o valor característico, aquele que melhor
represente os dados. Vamos discutir aqui as
duas possibilidades mais aplicadas a problemas

048
unidade 2
ESTATÍSTICA E PROBABILIDADES

de pequeno e médio porte na área de Ciências


Exatas e Engenharia: a média ( X ) e a mediana
( Md ). A média é obtida pelo resultado da soma
de todos os valores, dividido pelo total de dados
ou tamanho da amostra (n). Matematicamente, a
média é obtida por:

Já a mediana, é na verdade uma medida de ordem, indicando o


valor “do meio”, aquele que “divide os dados em duas metades”:

Passo 1 – Colocar os dados em ordem crescente.

Passo 2 – Encontrar o “valor do meio”, isto é:

se n, o tamanho da amostra, é ímpar, então Md é o A média é obtida pelo


valor central; resultado da soma
de todos os valores,
se n é par, então Md é a média dos dois valores centrais.
dividido pelo total de
dados ou tamanho
Exemplo A (n=11), dados já ordenados: da amostra (n).
{3; 4; 4; 5; 9; 9; 9; 10; 10; 10; 10}

Para a mediana, como são 11 valores (n é ímpar) e a metade de 11


é 5,5, então Md é o 6º valor, ou seja, o “valor do meio” (lembre-se
de que os dados já estão ordenados):

Md = 9

Exemplo B (n=18), dados já ordenados:

{17; 17; 20; 20; 20; 24; 26; 28; 30; 40; 50; 50; 50; 50; 50; 51; 51; 52}

049
unidade 2
ESTATÍSTICA E PROBABILIDADES

Para a mediana, como são 18 valores (n é par) e a metade de 18 é 9,


então Md é a média entre o 9º e o 10º valor, ou seja:

30 + 40
Md = = 35
2

Não se esqueça, para obter a mediana é necessário, antes de tudo, colocar

os dados em ordem crescente. Não ordenar os dados é a principal fonte

de erro no cálculo da mediana!

Se média e
Algumas pessoas se perguntam: “Quantas casas decimais devo
mediana forem
apresentar no resultado?”. Quanto menos casas decimais você semelhantes,
conseguir apresentar nos seus resultados, melhor para o entendimento então usar a média
da informação! Apresente seus resultados usando o mesmo número
para representar
os dados.
de casas decimais que os dados originais ou, no máximo, uma casa
decimal além do original, como foi feito nos cálculos anteriores.

Outra questão é “Quando escolher entre média e mediana


para melhor representar um conjunto de dados?” ou “Em que
situações resumir uma variável quantitativa usando a média e
quando a mediana é melhor para representar os dados?”. Para
essa resposta, é preciso seguir uma regra prática:

• Se média e mediana forem semelhantes, então usar a


média para representar os dados.

• Se média e mediana forem muito diferentes, então usar a


mediana para representar os dados.

050
unidade 2
ESTATÍSTICA E PROBABILIDADES

Além de se basear nas regras acima, que exigem uma interpretação


caso a caso do que seja “média e mediana muito diferentes”, você
poderá construir histogramas e, pelo padrão do gráico, escolher
uma ou outra medida para representar os dados. Nos modelos de
histograma colocados no tópico anterior, os exemplos 1 (simétrico),
3 (despenhadeiro) e 5 (platô), a média é a melhor medida de posição.
Já nos histogramas dos exemplos 2 (fortemente assimétrico)
e 6 (ilha isolada), a mediana é a melhor medida de posição que
caracteriza o conjunto de dados.

2. Medida do grau de variabilidade ou de dispersão dos


dados: O objetivo é quantiicar o quanto os dados são
heterogêneos, são imprevisíveis, em suma, quantiicar o
grau de variabilidade de uma variável quantitativa.

A princípio, podemos medir a variabilidade de um dado informando


o seu valor mínimo (mín) e o valor máximo (máx), o que nos leva à
sua amplitude (R): R = máx – mín.

Entretanto, essa é uma forma muito “simplista”, pois envolve


somente dois valores da variável, o mínimo e o máximo, ignorando
todos os outros. Para uma medida mais adequada de variabilidade,
uma forma é calcular a sua média ( X ) e, em seguida, calcular
quanto os dados estão distantes da média, em média! Soa
estranho, mas a ideia faz sentido. Por exemplo, seja uma amostra
de n = 5 pessoas e seus respectivos números de ilhos:

Pessoa A B C D E

Número de ilhos 0 1 1 2 3

Qual o número médio de ilhos?

Isso mesmo, essas pessoas têm, em média, 1,4 ilhos! Você deve
estar se perguntado, “como assim... um e 0,4 ilho? Não existe

051
unidade 2
ESTATÍSTICA E PROBABILIDADES

0,4 ilho!!” Não se preocupe, a média funciona como um modelo


e, como tal, é uma aproximação da realidade. A média é o melhor
valor representativo para esses dados e, caso seja necessário
resumir toda a informação num único valor, ela deve ser usada
para substituir o verdadeiro número de ilhos de cada pessoa. Bom,
voltando à variabilidade, como calcular o quanto os dados estão
distantes da média, em média? Para cada indivíduo, devemos
subtrair o valor observado pela média, calculando um “resíduo”:

Pessoa A B C D E

Número de ilhos 0 1 1 2 3

Resíduo 0-1,4 =-1,4 1-1,4 =-0,4 1-1,4 =-0,4 +0,6


2-1,4 = 3-1,4 = +1,6

O resíduo mede a distância de cada valor em relação à média dos


dados, ou seja, é uma medida de quanto os dados estão distantes
da média. Para resumir os resíduos num único valor, o ideal é então
calcular uma média dos resíduos, que refletiria o quanto os dados
estão distantes da média, em média! Infelizmente, se izermos essa
média, ela sempre dará zero, pois os resíduos negativos anulam os
positivos, dando uma soma dos resíduos igual a zero. Para resolver
esse problema, ao invés de simplesmente calcular os resíduos,
devemos calcular o resíduo elevado ao quadrado:

Pessoa A B C D E

Número de ilhos 0 1 1 2 3

Resíduo 0-1,4 = 1-1,4 = 1-1,4 = 2-1,4 = 3-1,4 =


-1,4 -0,4 -0,4 +0,6 +1,6

Resíduo elevado (-1,4)2 = (-0,4)2 = (-1,4)2 = (+0,6)2 = (+1,6)2 =


ao quadrado 1,96 0,16 0,16 0,36 2,56

Se somarmos os resíduos elevados ao quadrado teremos a soma


n
dos quadrados dos resíduos ( ∑ ( Xi -X )2 ), uma métrica que aparece
i =1

em várias outras análises estatísticas. Quanto maior a soma dos

052
unidade 2
ESTATÍSTICA E PROBABILIDADES

quadrados dos resíduos, maior a variabilidade dos dados! Para


resumir essa métrica, calculamos a sua média, que é chamada de
variância amostral ( s2 ):

Nessas fórmulas, Xi representa cada um dos dados individuais, X é


a média e n o tamanho da amostra ou total de dados. Observe que,
no denominador, dividimos a soma dos quadrados dos resíduos
por (n - 1) e não por ( n ). Isso é feito porque nossos dados foram
obtidos por meio de amostragem e não por censo. Ou seja, sempre
que tivermos dados amostrais, que é a situação mais comum,
calcularemos a variância amostral dividindo a soma dos quadrados
dos resíduos por (n - 1). Se tivermos acesso à população toda,
ou melhor, se izermos um censo (o que é muito raro), então Sempre que
2
poderemos calcular a variância populacional (Ợ ), dividindo a soma tivermos dados
amostrais, que
dos quadrados dos resíduos por (n):
é a situação
mais comum,
calcularemos a
variância amostral
dividindo a soma
É importante se lembrar dessa diferença, pois ela aparece nas dos quadrados dos
calculadoras cientíicas e no Excel, que permite o cálculo tanto de s2 resíduos por (n - 1).
2
quanto de Ợ . Na prática (e na dúvida), sempre calcule a variância
amostral (s2).

Uma outra métrica de variabilidade é o desvio padrão amostral (s).


Ele é a raiz quadrada da variância e tem uso mais difundido que
sua “mãe” (s2), porque, ao tirarmos a raiz quadrada da variância,
o resultado tem a mesma unidade de medida que a média e os
dados originais. Assim, no exemplo anterior, do número de ilhos da
amostra de n=5 pessoas, a variância amostral é:

053
unidade 2
ESTATÍSTICA E PROBABILIDADES

O desvio padrão amostral é:

É muito comum, ao divulgarmos uma síntese de uma variável


quantitativa, apresentarmos a sua média, seguida do seu desvio
padrão no formato ( X = s ). Ou seja, no exemplo anterior, essas
pessoas têm 1,4 = 1,1 ilhos.

Cuidado, isso não signiica que os dados variem somente dentro do


intervalo X = s , de 1,4 – 1,1 = 0,3 até 1,4 + 1,1 = 2,5 ilhos! Essa
é apenas uma forma usada para apresentar ambos os valores, de
média ( X ) e desvio padrão (s). Na verdade, se os dados tiverem
um histograma de forma simétrica, aproximadamente 95% dos
É muito comum, ao
dados ocorrerão dentro do intervalo deinido pela média mais ou divulgarmos uma
menos dois desvios padrões ( X = 2s ), e 99,7% dentro da média síntese de uma
mais ou menos três desvios padrões ( X = 3s ). Se não tivermos
variável quantitativa,
apresentarmos a sua
como avaliar a forma de distribuição dos dados, ou seja, se não média, seguida do
soubermos o padrão do histograma dos dados, pelo menos 89% seu desvio padrão no
dos dados cairão no intervalo X = 3s . formato ( X = s ).

Supondo que você já consiga calcular o desvio padrão ( s ) de um


conjunto de dados, como interpretar o seu resultado? É fato que,
quanto maior o desvio padrão, maior a variabilidade dos dados.
Mas, o que é um desvio padrão grande? Essa resposta depende da
magnitude da média ( X ), isto é, para sabermos se um desvio padrão
é grande ou pequeno, vai depender do valor da média. Por exemplo,
sejam os resultados das provas de um atleta, resumidos abaixo:

Tempo para correr 100 metros: X = 11,5 e s = 2,1 segundos;

Salto em altura: X = 2,2 e s = 0,8 e metros.

Em qual prova, salto em altura e tempo para 100 m, o atleta é mais


heterogêneo, tem os resultados com maior variabilidade? Se você

054
unidade 2
ESTATÍSTICA E PROBABILIDADES

responder essa questão comparando os dois desvios padrões,


estará cometendo dois erros:

1º Não se pode comparar diferentes unidades de medida (s versus m);

2º Deve-se considerar a magnitude da média ao se avaliar um


desvio padrão.

Então, como efetivamente obter o grau de variabilidade de


uma variável? Isso é feito pelo coeiciente de variação (cv),
uma relação percentual entre o desvio padrão e a média:
s
cv = x x 100 (%).

Além de ser uma medida adimensional, o que possibilita


comparações entre diferentes variáveis, o CV pode ser interpretado
de forma absoluta:

QUADRO 2 – Deinição e interpretação do grau de variabilidade de um conjunto de dados.

CV INTERPRETAÇÃO

CV <= 20% Dados com pouca variabilidade, bem comportados, homogêneos. A variável
tem um comportamento bem previsível.

20 < CV <= 30% Dados com variabilidade intermediária.

CV > 30% Dados com muita variabilidade, heterogêneos. A variável tem um


comportamento muito imprevisível.

CV > 100% Neste caso, o desvio padrão é maior que a média. Dados com variabilidade
extrema, muito heterogênea. A variável tem um comportamento caótico,
completamente imprevisível.

Fonte: Elaborado pelo autor.

No caso do atleta, teremos os seguintes valores de coeiciente de


variação:

2,1
Tempo para correr 100 metros: cv = x 100 = 18,26%;
11,5
0,8
Salto em altura: cv = x 100 = 36%;
2,2

055
unidade 2
ESTATÍSTICA E PROBABILIDADES

Podemos dizer então que o atleta tem pouca variabilidade nos


seus resultados da corrida de 100 m e muita variabilidade nos
saltos em altura.

Quando você izer uma análise exploratória de dados, lembre-se de corrigir

os gráicos produzidos pelo Excel. Lembre-se também de colocar os

títulos das tabelas e das iguras o mais informativo possível. E, ao calcular

o desvio padrão, não se esqueça de considerar que você tem dados

amostrais. Conira na sua calculadora e/ou no próprio Excel qual a fórmula

que está sendo usada. Resuma os dados por meio de gráicos, números e

tabelas. Esse é o primeiro e fundamental passo para entender os dados e

o problema investigado.

A análise exploratória dos dados é o primeiro passo para que


você se torne especialista na área investigada. Suas ferramentas
de análise não produzem conclusões definitivas sobre um
problema, mas possibilitam que hipóteses sejam construídas de
forma consistente.

O artigo “Avaliação do impacto do Cálculo Zero no desempenho de alunos

ingressantes de cursos de Engenharia”, apresentado em 2013 por COUTO

e cols. no COBENGE - Congresso Brasileiro de Educação em Engenharia,

teve como objetivo avaliar o impacto do “Cálculo Zero” no desempenho de

alunos ingressantes em cursos de Engenharia e Ciência da Computação,

tanto em termos da nota inal em Cálculo Diferencial e Geometria

Analítica e Álgebra Linear (GAAL), quanto na chance de aprovação nessas

disciplinas. As perguntas-chave do trabalho eram: O “Cálculo Zero” afeta

de forma signiicativa o resultado dos alunos nas disciplinas obrigatórias

de Cálculo Diferencial e GAAL? Vale a pena investir em projetos de “Cálculo

Zero”? Quais são os fatores, as características que afetam o desempenho

dos alunos nessas duas disciplinas?

056
unidade 2
ESTATÍSTICA E PROBABILIDADES

Várias técnicas de análise exploratória de dados foram utilizadas no artigo.

Por exemplo, usando um gráico de linhas, uma série temporal, mostrou-

se no artigo a elevação no número de matrículas nas duas disciplinas-alvo

do trabalho, Cálculo Diferencial e GAAL:

FIGURA 19 - Evolução do número de alunos matriculados e o percentual de aprovados em


Cálculo Diferencial e GAAL. Entre o 2º semestre de 2009 e o 2º semestre de 2012, o percentual
de aprovação em ambas as disciplinas apresentou elevação, principalmente em Cálculo
Diferencial. O número de alunos matriculados nas disciplinas também aumentou de forma
importante no período, principalmente após o 1º semestre de 2011.

Fonte: COUTO et al., 2013.

Um diagrama de dispersão foi construído mostrando claramente o efeito

das faltas às aulas na nota inal de Cálculo Diferencial:

057
unidade 2
ESTATÍSTICA E PROBABILIDADES

FIGURA 20 – Gráico de dispersão considerando o percentual de faltas/ausências


às aulas de Cálculo Diferencial e a nota inal do aluno nessa disciplina: análise
considerando somente alunos em que foram registradas pelo menos uma falta
às aulas durante o semestre. Há uma forte correlação negativa (r= -0,77) entre
ausências às aulas e a nota inal do aluno: quanto mais faltas às aulas o aluno tiver,
menor a sua nota inal em Cálculo Diferencial. IET/ UniBH, 1º semestre de 2011.

Fonte: COUTO et al., 2013.

Além de gráicos, tabelas com a síntese numérica dos dados coletados no estudo

também foram apresentadas no artigo. O uso dessas ferramentas estatísticas

de análise de dados mostrou de forma inequívoca que valia a pena implementar

ações como o “Cálculo Zero”, pois o fato de se ofertar essa disciplina afetava o

resultado dos alunos nas disciplinas obrigatórias de Cálculo Diferencial e GAAL.

Esse é um exemplo real de como usar a análise exploratória dos dados e

outras técnicas de Estatística e Probabilidades para se entender a fundo

um problema, resolvendo-o e se tornando um especialista na área.

Referência:

XLI CONGRESSO BRASILEIRO DE EDUCAÇÃO EM ENGENHARIA, 2013. Avaliação

do Impacto do Cálculo Zero no Desempenho de Alunos Ingressantes de Cursos

de Engenharia. Paraná: FADEP, 2013. Disponível em: <http://www.fadep.br/

engenharia-eletrica/congresso/pdf/116280_1.pdf>. Acesso em 14 maio 2015.

058
unidade 2
ESTATÍSTICA E PROBABILIDADES

Revisão
Vimos nesta unidade os principais tópicos da análise exploratória
de dados, também denominada de Estatística Descritiva:

Síntese gráica: Uma igura vale mais que mil palavras! Isso é
verdade, entretanto um gráico vale mais que mil palavras se e
somente se ele for desenhado de forma clara, correta e concisa.
Sempre desenhe gráicos a partir de seus dados, mas tente fazê-
los de tal forma que a frase “basta olhar para entender” seja válida.
Os gráicos mais úteis para análise de dados de experimentos de
pequeno e médio porte na área de Ciências Exatas e Engenharia
são: gráicos de pizza, barras, colunas, linha, séries históricas,
histograma, gráico de Pareto, gráico misto, de coluna e de linha,
diagrama de dispersão e box-plot. Na prática devemos construir Na análise
gráicos usando ferramentas computacionais como o Excel. exploratória de
dados, em última
instância, todos
Síntese tabular de dados: Na análise exploratória de dados, em
os resultados são
última instância, todos os resultados são apresentados ou na forma apresentados ou na
de iguras ou de tabelas. Assim, invista no título da tabela e sempre forma de iguras ou
coloque respostas claras para pelo menos quatro perguntas: O
de tabelas.
que? Quem? Quando? Onde? Também sugiro que a interpretação
das informações na tabela seja colocada no próprio título. Se
necessário, coloque notas explicativas, usando siglas somente para
coisas realmente conhecidas.

Síntese numérica: O resumo de uma variável categórica é muito


simples, basta que você apresente suas categorias, a frequência
de valores em cada categoria e os respectivos percentuais. Já a
síntese de variáveis quantitativas é mais ampla e envolve resumir
dois aspectos:

1. Um valor típico ou característico para a variável, que é


deinido pela média ( X ) e pela mediana (Md). Se média
e mediana forem semelhantes, então a média deve ser
usada para representar os dados. Entretanto, caso haja

059
unidade 2
ESTATÍSTICA E PROBABILIDADES

discrepância muito grande entre média e mediana, então se


deve usar a mediana para representar os dados;

2. Uma medida do grau de variabilidade ou de dispersão


dos dados, calculada pelo desvio padrão amostral (s) e o
coeiciente de variação (CV).

Caso você deseje aprofundar sobre as questões discutidas nesta unidade,

leia os capítulos 2 e 3 do livro texto: LEVINE, David M. et al. Estatística:

teoria e aplicações: usando Microsoft Excel em português. 6. ed. Rio de

Janeiro: LTC, 2012,

060
unidade 2
Introdução à
teoria de
probabilidades
Introdução

A origem da teoria das probabilidades é comumente associada


à questões colocadas por MÉRÉ (1607-1684) a PASCAL (1623-
1662). Todavia, existem autores que sustentam que o cálculo das
probabilidades iniciou-se na Itália, com PACCIOLI (1445-1514),
CARDANO (1501-1576), TARTAGLIA (1499-1557) e GALILEO (1564-
1642), dentre outros.

Contudo, foi ADOLPHE QUÉTELET (1796 – 1874) o pioneiro na


tarefa de mensurar, ou seja, quantiicar uma pequena amostra do • Probabilidade
clássica e
universo de interesse da investigação, almejando inferir sobre toda probabilidade
a população em estudo, baseando-se em análises probabilísticas e frequentista
embasando-se em rigorosos métodos cientíicos. • Leis básicas de
probabilidade
A teoria das probabilidades, porém, só começa a fazer sentido • União e
nas engenharias por volta de 1930, quando surgem os primeiros
interseção de
eventos
trabalhos práticos destinados aos engenheiros. O primeiro foi
• Tabelas de
executado pelo matemático WILLIAM GOSSET (1876 – 1937), com
contingência
a aplicação das probabilidades no Controle de Qualidade em uma
• Eventos
fábrica de cervejas. independentes
• Teorema de
A teoria das probabilidades é uma importante área da estatística Bayes
que possibilita ao proissional no mercado de trabalho calcular • Revisão
percentuais, trabalhar com estimativas e realizar predições em toda
e qualquer área do conhecimento. No que tange às Engenharias, a
probabilidade está presente no controle de processos de produtos
e serviços, permitindo estimar o risco e o acaso de eventos futuros.
Também é amplamente utilizada no que tange ao planejamento de
novas técnicas e estratégias de produção e vendas, dentre outras.

Suponha que você é o engenheiro responsável pela qualidade


na linha de produção de uma grande marca de bebidas. Sabe-
se que não é possível “experimentar” todos os produtos antes de
disponibilizá-lo ao mercado, pois ninguém compraria uma bebida
já provada, e que o processo de fabricação é composto por etapas,
por interferências dos funcionários, por equipamentos (que podem
estar ou não muito bem regulados), e por uma série de outros
fatores controláveis ou não, como até mesmo uma simples umidade
excessiva no ambiente de fabricação devido ao período chuvoso.
No entanto, você pode suspeitar que um determinado lote, devido à
variabilidade inerente ao processo, apresente um percentual de itens
não conformes maior que o permitido pelos órgãos iscalizadores.

A teoria das probabilidades vem auxiliá-lo nesse processo de


tomada de decisão, permitindo inferir sobre a população em estudo,
ou mesmo sobre eventos que ainda irão ocorrer, estimando as
“chances” de sucesso do mesmo.
ESTATÍSTICA E PROBABILIDADES

A teoria das
probabilidades
A teoria das probabilidades nasce na Idade Média com os
tradicionais jogos de azar existentes na Corte. Jogos de
cartas e dados, ou mesmo os lançamentos de moeda são
classificados como fenômenos que envolvem o acaso, assim
como a maioria dos jogos esportivos. Uma aplicação direta
da teoria das probabilidades no campo das Engenharias é o
processo de decisão, seja para aumentar o investimento ou
cortar despesas, no qual o profissional do mercado de trabalho
deve arriscar-se mantendo “os pés no chão”.

Um dos principais conceitos matemáticos amplamente estudado no que

diz respeito à teoria das probabilidades é o de conjunto. Um conjunto pode

ser deinido como uma coleção de objetos, itens ou serviços que possuem

característica (s) comum (s).

No contexto da teoria das probabilidades, o conjunto de todos os

resultados possíveis a ser estudado em um experimento aleatório é

denominado espaço amostral.

Espaço Amostral (Ω) é qualquer conjunto de todos os possíveis

resultados em um experimento aleatório.

Sendo deinido como experimento todo e qualquer resultado que sugere a

incerteza antes da observação, ou seja, fenômenos que, mesmo repetidos

várias vezes sob condições semelhantes, apresentam resultados

imprevisíveis (acaso). Os resultados dos experimentos são nomeados

estatisticamente como eventos.

Um Evento Aleatório (E) é qualquer subconjunto de um

espaço amostral.

064
unidade 3
ESTATÍSTICA E PROBABILIDADES

O espaço amostral (Ω) é essencial na teoria das probabilidades


por deinir o espaço de interesse da investigação, permitindo
ao pesquisador de toda e qualquer área do conhecimento fazer
inferências sobre o todo a partir da parte estudada. Pode ser deinido
de acordo com o evento de interesse da investigação, podendo
ser caracterizado por: (1) o mesmo evento repetidas vezes; ou (2)
eventos distintos; ou (3) eventos aleatórios.

Se tivermos o mesmo evento repetidas vezes, como no lançamento


de um dado ou de uma moeda, ou mesmo nas possibilidades
de ilhos de um casal, ou de peças defeituosas em uma linha de
produção, o espaço amostral (Ω) é dado pelas possibilidades do
evento elevado ao número de repetições realizadas, por exemplo:

No lançamento de uma moeda três vezes, temos duas possibilidades


(cara ou coroa) em cada lançamento, portanto o espaço amostral
(Ω) é dado por:

Ω = ( possibilidades )(repetições)= 23 = 8

Se tivermos eventos distintos, como no lançamento de um dado


e uma moeda, o espaço amostral (Ω) é dado pelo produto da
quantidade de possibilidades de cada evento, como:

No lançamento de uma moeda e um dado, temos duas


possibilidades da moeda (cara ou coroa) e seis possibilidades do
dado (os números inteiros de 1 a 6). Portanto, o espaço amostral
(Ω) é dado por:

Ω = ( possibilidades ) . ( possibilidades ) = 2 . 6 = 12

Se tivermos eventos aleatórios, como o número de funcionários


ausentes em um dia de trabalho de uma determinada linha de
produção, ou mesmo o número de caminhões presentes em uma
determinada rota, não há um modelo matemático que simpliique a

065
unidade 3
ESTATÍSTICA E PROBABILIDADES

mensuração dos elementos que compõem esse espaço amostral. É


preciso “apelar” para o princípio fundamental da contagem, ou seja,
o serviço “braçal”.

Os eventos que compõem o espaço amostral podem ser


classiicados de acordo com a sua ocorrência. Os eventos nos quais
cada elemento do banco de dados pode ocorrer com a mesma
probabilidade são chamados de eventos equiprováveis.

Eventos Equiprováveis são aqueles cujos todos os elementos do banco


de dados têm a mesma probabilidade de ocorrência.

Os eventos são classiicados como mutuamente exclusivos, se eles


não puderem ocorrer simultaneamente, ou seja, A ∩ B= Ø.

Se E = Ω, E é chamado de evento certo.

Se E = Ø , E é chamado de evento impossível.

Probabilidade
clássica e
probabilidade
frequentista
A probabilidade de realização de um evento A é dada pelo quociente
entre o número de ocorrências de A pelo número de eventos
possíveis, ou seja:

número de orcorrências de A
P(A)=
espaço amostral (Ω)

066
unidade 3
ESTATÍSTICA E PROBABILIDADES

A probabilidade pode ser resumida como o quociente do que se


“quer” pelo que se “tem”. Na qual primeiro determina-se o que
é possível “ter” e depois retira o que se “quer do que se tem”, não
podendo “querer mais do que tem”, ou seja:

Existem duas restrições à aplicação da definição da


probabilidade clássica: (1) todos os eventos possíveis devem
ter a mesma probabilidade de ocorrência, ou seja, os eventos
devem ser equiprováveis e (2) deve-se ter um número finito de
eventos possíveis.

Leis básicas de
probabilidades A probabilidade
pode ser resumida
como o quociente
Para qualquer evento E de um espaço amostral Ω : 0 ≤ P ( E ) ≤ 1; do que se “quer”
pelo que se “tem”.

P ( Ω ) = 1;

P ( Ac ) = 1 - P ( A ), sendo Ac o evento complementar ao evento A;

067
unidade 3
ESTATÍSTICA E PROBABILIDADES

As operações com os eventos utilizam as mesmas propriedades

matemáticas, ou seja:

QUADRO 3 – Leis Matemáticas

PROPRIEDADE DESCRIÇÃO MATEMÁTICA

Associatividade (A∩B)∩C=A∩(B∩C)
(AUB)UC=AU(BUC)

Comutatividade A∩B = B∩A


AUB = BUA

Distributividade (A∩B)UC=(AUC)∩(BUC)
(AUB)∩C=(A∩C)U(B∩C)

Absorção ACB → A∩B=A


ACB → A∩B=B

Modulares A ฀Ω = A
A ฀Ω = Ω
A ฀Ø = Ø As operações
A Ø=A com os eventos
utilizam as mesmas
Leis de De Morgan A∩B = AUB propriedades
AUB = A∩B matemáticas.
Dupla negação A=A

Fonte: Elaborado pelo autor.

União e interseção
de eventos
A união de dois eventos A e B, indicada por A U B, é o evento que
contém todos os elementos de A e todos os elementos de B.

P(AUB)=P(A)+P(B)-P(A∩B)

P ( A U B ) = P ( A ) + P ( B ), se A e B são mutuamente exclusivos;

068
unidade 3
ESTATÍSTICA E PROBABILIDADES

A interseção de dois eventos A e B, indicada por A ∩ B, é o evento


que contém todos os elementos comuns a A e B.

P(A ∩ B) = P(B). P(A | B)

Sendo P ( A | B ), a probabilidade condicional, ou seja, a probabilidade


de A ocorrer sabendo que o evento B ocorreu.

TABELA 5 – Tipo Sanguíneo

TIPO SANGUÍNEO

O A B AB TOTAL

Positivo 156 139 37 12 344

Negativo 28 25 8 4 65

Total 184 164 45 16 409

Fonte: Elaborado pela autora.

A probabilidade de o doador ter tipo sanguíneo O ou A é dada por:

184 + 164 = 0,8508


409

A probabilidade de o doador ter tipo sanguíneo B ou ser Rh negativo


é dada por:

45 + 65 - 8 = 0,2494
409

Dois ou mais eventos podem ser classiicados como mutuamente

exclusivos quando a realização de um exclui a realização do (s) outro (s).

No lançamento de uma moeda, o evento "tirar cara" e o evento "tirar coroa"

são mutuamente exclusivos, já que a realização de um deles implica,

necessariamente, na não realização do outro.

069
unidade 3
ESTATÍSTICA E PROBABILIDADES

Portanto, em eventos mutuamente exclusivos, a probabilidade de que um

ou outro se realize é igual à soma das probabilidades de que cada um

deles se realize.

Eventos mutuamente exclusivos não é a mesma coisa de eventos

independentes. O primeiro é utilizado quando apenas um dos eventos

pode ocorrer, excluindo qualquer probabilidade de ocorrência do outro. Já

o segundo é utilizado quando a ocorrência de um dos eventos não afeta a

ocorrência do outro.

Exemplo: Um grupo de alunos que usa óculos é independente do número

de alunos do sexo masculino em sala de aula, mas não são eventos

mutuamente exclusivos, pois é possível ter alunos do sexo masculino em

sala de aula que usam óculos.


Eventos mutuamente
exclusivos não
é a mesma
coisa de eventos

Tabelas de independentes.

contingência
As tabelas de contingência são aplicadas na avaliação do
relacionamento das categorias com respeito aos grupos segundo
dois modos: independência ou homogeneidade. Ou seja, eventos
com dupla entrada.

A aplicação de tabela de contingência dois por dois é dada quando


n elementos, selecionados aleatoriamente de uma população, são
classiicados em duas categorias. Depois dos elementos serem
classiicados, um tratamento é aplicado e alguns são examinados
novamente e classiicados nas duas categorias. O que se almeja
saber é: o tratamento alterou signiicativamente a proporção de
objetos em cada uma das duas categorias?

070
unidade 3
ESTATÍSTICA E PROBABILIDADES

Em relação à pratica apresentada no início dessa unidade, suponha que

em uma amostra de 2000 produtos disponibilizados ao mercado, sejam

800 refrigerantes e 1200 cervejas, dos quais 5 e 10 apresentaram algum

tipo de defeito, respectivamente, seja no rótulo da embalagem, no volume

líquido ou qualquer outro tipo de avaria. A tabela 1 apresenta uma tabela

de contingência para melhor visualizar esses dados.

TABELA 6 - Produtos Disponibilizados

CERVEJA REFRIGERANTE TOTAL

Bom 1190 795 1985

Defeito 10 5 15

Total 1200 800 2000

Fonte: Elaborado pela autora.

A partir dessa tabela, é possível estimar que a probabilidade dessa

empresa disponibilizar um produto (dentre cervejas e/ou refrigerantes) no

mercado com algum tipo de defeito é dada por:

P (defeito) = 15 = 0,0075
2000

Portanto, apenas 0,75% dos produtos disponibilizados por essa empresa

apresentam algum tipo de defeito.

A tabela de contingência é um processo de organizar a informação

correspondente a dados dicotômicos. De uma maneira geral, uma tabela

de contingência é uma representação dos dados, quer de tipo qualitativo,

quer de tipo quantitativo, especialmente quando são de tipo bivariado, isto

é, podem ser classiicados segundo dois critérios.

071
unidade 3
ESTATÍSTICA E PROBABILIDADES

Eventos
independentes
Um ou mais eventos pode (m) ser classiicado (s) como
independente (s) quando a realização de um dos eventos não afeta
a probabilidade de ocorrência do outro, e vice-versa.

Quando dois eventos são independentes, P ( A ∩ B ) = P ( A ) . P ( B ).

Nota na prova e ter feito a prova de chinelo;


Um ou mais
O valor de venda de um produto e a cor do cabelo das funcionárias que
eventos pode (m)
o fabricaram. ser classiicado (s)
como independente
(s) quando a
realização de um
dos eventos não
Teorema afeta a probabilidade
de ocorrência do
de Bayes outro, e vice-versa.

A probabilidade condicional, ou seja, as chances de um evento A


ocorrer, dado que outro evento B ocorreu, é dada por:

P(A∩ B)
P(A|B)=
P(B)

para P ( B ) > 0.

O teorema de Bayes propõe que, se os eventos E1 , E2, …, En são


partições do espaço amostral Ω, então:

P ( B | Ei ) . P ( E i )
P ( Ei | B ) =
P(B)

072
unidade 3
ESTATÍSTICA E PROBABILIDADES

Recorrendo à lei de probabilidade total, é possível inferir que:

P ( Ei | B ) = P ( B | Ei ) . P ( Ei )
∑ P ( B | Ej ) . P (Ej )

Seja B1, B2, …, Bn um conjunto de eventos mutuamente exclusivos


cuja união forma o espaço amostral Ω. Seja E outro evento no
mesmo espaço amostral Ω, tal que P ( E ) > 0, então:

P ( E ) = P ( E ∩ B1 ) + P ( E ∩ B2 ) + P ( E ∩ B3 ) + ... + P ( E ∩ Bn )

P (E) = P (B1) . P (E | B1) + P (B2) P (E | B2) + P (B3 ) P (E | B3) + ... + P(Bn ) P (E | Bn)

Portanto,

P ( E ) = ∑ P ( Bi ) . P ( E | Bi )

Numa sala de aula, sabe-se que 10% dos homens e 2% das mulheres

têm mais de 1,80 m. A sala tem 70% de mulheres e 30% de homens. Um

estudante foi escolhido aleatoriamente, e constatou-se que tem mais de

1,80 m. Qual a probabilidade de que seja homem?

(0,1 x 0,3) = 0,03/0,044 = 0,682


(0,1x0,30 + 0,02x0,7)

073
unidade 3
ESTATÍSTICA E PROBABILIDADES

A teoria das probabilidades pode auxiliar facilmente a resolver o problema

proposto no início dessa unidade. Vejamos:

“Suponha que você é o engenheiro responsável pela qualidade na linha

de produção de uma grande marca de bebidas. Está ciente de que não

é possível “experimentar” todos os produtos antes de disponibilizá-lo

ao mercado, pois ninguém compraria uma bebida já provada, e que o

processo de fabricação é composto por etapas, por interferências dos

funcionários, por equipamentos (que podem estar ou não muito bem

regulados), e por uma série de outros fatores controláveis ou não, como

até mesmo uma simples umidade excessiva no ambiente de fabricação

devido ao período chuvoso. Você pode suspeitar que um determinado lote,

devido à variabilidade inerente ao processo, apresente um percentual de

itens não conformes maior que o permitido pelos órgãos iscalizadores? ”

Se a empresa aqui citada produzir dois lotes com duas mil unidades em

cada por semana, distribuídas entre 1000 cervejas, 600 refrigerantes e 400

sucos por lote, com aproximadamente 0,2, 0,1 e 0,15 por cento de itens

defeituosos, respectivamente, podemos utilizar a teoria das probabilidades

para responder questões como:

a. Qual o percentual de refrigerantes distribuídos semanalmente?

b. Qual a probabilidade do consumidor adquirir um suco?

c. Dentre as cervejas, qual a probabilidade do consumidor adquirir

uma cerveja com defeito?

d. Dentre os sucos, qual a probabilidade do consumidor adquirir um

suco sem defeito do primeiro lote?

e. Sabendo que foi adquirido um produto com defeito, qual a

probabilidade de ser um suco?

Para responder essas questões, utilizamos a probabilidade clássica para

responder o item (a); a união de probabilidades para responder o item (b); a

probabilidade condicional para responder o item (c); e o teorema de Bayes

074
unidade 3
ESTATÍSTICA E PROBABILIDADES

para responder o item (d). Ou seja:

a) P (refrigerante ) = 1200 =0,30 = 30%


4000

b) P (suco) = 400 + 400 = 0,40 = 40%


2000 2000

Observe que, neste caso, tanto faz se o consumidor adquirir um suco do

primeiro lote ou do segundo lote, independente da ordem de ocorrência do

evento.

P (cerveja com defeito )


c) P ( defeito | cerveja ) = =
P ( cerveja )

0,2 . 1000 + 0,2 . 1000 400


= = 0,20
1000 + 1000 2000

d) P ( suco sem defeito do primeiro lote | suco ) =

= 0,5. 0,2 . 0,85 = 0,0850 = 0,5


0,5.0,2.0,85+0,5.0,2.0,85 0,1700

075
unidade 3
ESTATÍSTICA E PROBABILIDADES

P ( suco com defeito | defeito ) =

= 2. (0,5 . 0,2 . 0,15 ) = 0,0150 = 0,1875

2. ( 0,5 . 0,2 . 0,15 + 0,5 .0,3 .0,1 + 0,5 .0,5 .0,2) 0,0800

Revisão
A teoria das probabilidades é utilizada em todas as áreas do
conhecimento. Ela visa auxiliar o proissional no mercado de
trabalho a predizer valores futuros, estimando as “chances” de
ocorrência de um evento antes que ele ocorra.

Para calcular a probabilidade, basta dividir o que se “quer” pelo que


se “tem”, ou seja:

Sendo imprescindível, primeiro, deinir o que se “tem” para somente


depois retirar do que se “tem” o que se “quer”.

Quando a ocorrência de um evento não afeta a realização ou não de


um outro evento, eles são classiicados como eventos independentes.

076
unidade 3
ESTATÍSTICA E PROBABILIDADES

O Teorema de Bayes é aplicado em situações cuja a probabilidade de


ocorrência de um evento está vinculada às chances de sucesso de
um outro evento.

Filmes

A Probabilidade Estatística do Amor Á Primeira Vista (Adaptado)

Jennifer E. Smith

Com uma certa atmosfera de ‘Um dia’, mas voltado para o público jovem

adulto, a probabilidade estatística do amor à primeira vista é uma história

romântica, capaz de conquistar fãs de todas as idades. Quem imaginaria

que quatro minutos poderiam mudar a vida de alguém? Mas é exatamente

o que acontece com Hadley. Presa no aeroporto em Nova York, esperando

outro voo depois de perder o seu, ela conhece Oliver. Um britânico fofo,

que se senta a seu lado na viagem para Londres. Enquanto conversam

sobre tudo, eles provam que o tempo é, sim, muito, muito relativo. Passada

em apenas 24 horas, a história de Oliver e Hadley mostra que o amor,

diferentemente das bagagens, jamais se extravia.

SMITH, Jennifer E. A Probabilidade Estatística do Amor à Primeira Vista.

Rio de Janeiro: Galera Record, 2013

Quebrando a banca (Adaptado).

Ben Campbell (Jim Sturgess) é um brilhante estudante do M.I.T.

(Instituto Tecnológico de Massachusetts). O seu único problema é

não ter dinheiro para pagar as contas escolares, mas a solução está

onde ele menos esperava: nas cartas. Ele é recrutado para integrar o

grupo dos mais talentosos estudantes da escola, que todos os fins-

de-semana vão a Las Vegas, com falsas identidades e com as suas

mentes brilhantes, são capazes de aumentar em grande escala as

probabilidades de ganhar no blackjack.

077
unidade 3
ESTATÍSTICA E PROBABILIDADES

Além disto, ainda contam com o professor de matemática (e gênio da

estatística) Micky Rosa (Kevin Spacey) como líder. A contagem das cartas

e um, muito bem deinido esquemas de sinais, que permitem à equipa

vencer nos grandes cassinos. Seduzido pelo dinheiro e pelo estilo de vida

de Vegas, e pela sua inteligente e sexy amiga Jill Taylor (Kate Bosworth),

Ben começa a ir até ao limite.

Apesar da contagem da carta não ser ilegal, o risco é cada vez mais elevado

e o grande desaio prende-se agora com, não só manter a contagem

correta, mas também enganar o chefe de segurança dos casinos: Cole

Williams (Laurence Fishburne).

Quebrando a Banca. Direção: Robert Luketic. EUA: Sony Pictures, 2008.

(123 min), son., color., legendado.

078
unidade 3
Modelos
probabilísticos
Introdução

• Variáveis
Assim como a Matemática, também a Estatística apresenta
aleatórias
funções que norteiam o comportamento de suas variáveis, como
• Modelos
as retas, parábolas e hipérboles. Na Estatística temos os modelos probabilísticos
probabilísticos. Esses modelos são funções paramétricas que
• Distribuição
descrevem o comportamento de uma variável em estudo. binomial
• Distribuição
Possion
• Distribuição
normal
• Revisão
ESTATÍSTICA E PROBABILIDADES

Variáveis
aleatórias
O estudo das variáveis aleatórias é de suma importância nas
engenharias ou mesmo em qualquer outra área do conhecimento
técnico e cientíico. Isso porque, nem sempre, os dados que
compõem o estudo estatístico são números, sendo necessário
descobrir um meio de transformá-los em números, a partir de uma
função chamada de ‘variável aleatória’, visando facilitar a estimativa
das medidas estatísticas.

Probabilidade As variáveis
aleatórias podem
Seja um experimento aleatório qualquer de um espaço amostral Ω e um ser classiicadas
como contínuas ou
espaço de probabilidades P. Então a variável aleatória X no espaço de
discretas, de acordo
probabilidade é uma função real definida no espaço amostral Ω, tal que com o domínio da
( X ≤ x ) é um evento aleatório para qualquer x real. variável abordada
no estudo.
As variáveis aleatórias podem ser classiicadas como contínuas ou
discretas, de acordo com o domínio da variável abordada no estudo.
São classiicadas como variáveis discretas as funções para as
quais é possível associar um único número real a cada evento de
uma partição do espaço amostral Ω. Portanto são variáveis que
resultam de processos aleatórios nos quais os resultados possíveis
são casuais e formam um conjunto enumerável.

São classiicadas como variáveis contínuas as funções para as


quais é possível associar ininitos valores a um intervalo ( a, b ),
sendo que para valores que não pertencem ao intervalo no qual se
limita o experimento, a probabilidade de ocorrência é zero.

081
unidade 4
ESTATÍSTICA E PROBABILIDADES

Variáveis discretas
É função P ( x ) aquela nas quais se associam probabilidades aos
valores da variável aleatória X abordada no estudo estatístico. Ou
seja, quando uma variável aleatória X assume os valores x1,x2,x3,…
,xn com as respectivas probabilidades p ( x1 ), p ( x2 ), p ( x3 ) ,…,
p (xn) deinidas por uma P ( X ), na qual a soma de todas as possíveis
probabilidades é igual a um, conforme apresentado na tabela 7, ou
seja:

TABELA 7 - Distribuição de probabilidades discretas

X x1 x2 x3 ... xn
P (X) p ( x1 ) p ( x2 ) p ( x3 ) ... p ( xn )

Fonte: Elaborado pelo autor.

Para uma distribuição discreta de probabilidades, é possível deinir


O valor esperado,
a função acumulada indicada por F ( x ) = P ( X ≤ xi ), ou seja, a indicado por
probabilidade da variável aleatória assumir valores menores ou E (x) = μ, é a
iguais a xi. média de uma
variável discreta.

O valor esperado, indicado por E ( x ) = μ, é a esperança matemática


de uma variável aleatória discreta X que assume os valores x1, x2, x3,
…, xn com as respectivas probabilidades p ( x1 ), p ( x2 ), p ( x3 ),…, p ( xn )
deinidas por uma P ( Xn ), ou seja, é igual ao valor médio da variável:

E ( x ) = x1 . p ( x1 ) + x2. p ( x2 ) + x3 .p ( x3 )+...+ xn. p (xn)


n
E (x) = ∑ xi . p ( xi )
i =1

O valor esperado, indicado por E (x) = μ, é a média de uma variável discreta.

A variância, ou seja, a medida estatística que concentra as


probabilidades em torno da média é indicada por Var ( x ) ou σ2 e
dada por:

082
unidade 4
ESTATÍSTICA E PROBABILIDADES

Var ( x ) = E ( x2 ) - [ E ( x ) ] 2

sendo E ( x ) o valor esperado, e E (x2 ) dada por:

E ( x2 ) = x12 . p ( x1 ) + x22. p ( x2 ) + x32 . p ( x3 ) + ... + xn2 . p ( xn )

n
2
E ( x2 ) = ∑ xi . p ( xi )
i =1

O desvio padrão indicado por DP ( x ) = σ é a raiz da variância, ou seja:

DP ( x ) = √Var ( x )

Para uma variável aleatória n-dimensional (também chamada


de vetor aleatório), com n=2, denota-se por ( X,Y ) o vetor
aleatório, sendo:

TABELA 8 - Distribuição discreta

X VALORES ASSOCIADOS
P(Y)
Y À VARIÁVEL X

Valores associados Probabilidade conjunta Probabilidade


à variável Y P ( X, Y ) marginal de Y

P(X) Probabilidade marginal de X 1 Pois P (X,Y) é


uma f.d.p.

Fonte: Elaborado pelo autor.

083
unidade 4
ESTATÍSTICA E PROBABILIDADES

Só é possível realizar análises estatísticas sobre distribuições que

sejam uma função densidade de probabilidade, ou seja, f.d.p. Dizemos

que uma ou mais variáveis são uma f.d.p. quando a soma de todas as

probabilidades que compõem o evento em estudo é igual a 1, ou seja,

100%. Portanto, uma ou mais variáveis podem ser classificadas como

f.d.p. quando:

n
∑ p ( xi ) = p ( x1) + ( x2 ) + p ( x3 ) + ... + p ( xn ) = 1
i =1

As probabilidades são sempre dispostas paralelamente às suas

variáveis na construção da tabela bidimensional. Portanto, se

invertermos as posições de X e Y na tabela anterior, teremos a seguinte

distribuição de probabilidades:

TABELA 9 - Distribuição discreta

Y VALORES ASSOCIADOS
P(X)
X À VARIÁVEL Y

Valores associados Probabilidade conjunta Probabilidade


à variável X P ( X, Y ) marginal de X

P(Y) Probabilidade marginal de Y 1


Pois P (X,Y) é
uma f.d.p.

Fonte: Elaborado pelo autor.

O valor esperado da distribuição conjunta, indicado por E ( X, Y),


é dado pelo produto entre cada valor associado à variável X, com
cada valor associado à variável Y e sua respectiva probabilidade
conjunta, ou seja:

n n
E ( X, Y ) = ∑ ∑ xi . yj . p ( xi , yj )
i =1 j =1

084
unidade 4
ESTATÍSTICA E PROBABILIDADES

Portanto,
E ( X, Y ) = a . d . p ( a , d ) + b . d . p ( b, d ) + c . d . p ( c, d ) + a . e . p ( a, e ) + b . e . p ( b , e ) +
+ c . e . p ( c, e ) + a . f . p ( a, f ) + b . f . p ( b, f ) + c . f . p ( c, f )

Para a tabela de distribuição a seguir:


TABELA 10 - Distribuição discreta

X
Y a b c P(Y)

d P (a, d ) P ( b, d) P ( c, d ) P(d)
e P ( a, e ) P ( b, e ) P ( c, e ) P(e)
f P ( a, f ) P ( b, f ) P ( c, f ) P(f)
P(X) P(a) P(b) P(c) 1

Fonte: Elaborado pelo autor.

Variáveis contínuas
É uma função f ( x ) aquela nas quais se associam probabilidades
aos ininitos valores da variável aleatória X, abordada no estudo
estatístico. Ou seja, quando uma variável aleatória X assume
ininitos valores em um determinado intervalo ( a, b ), sendo a
probabilidade igual a zero para valores fora desse intervalo e a
soma de todas as possíveis probabilidades contidas nesse intervalo
igual a um. Portanto, para as variáveis contínuas, temos que:

• f (x) ≥ 0,∀ x ∊ R;

+ oo

• ∫
- oo
f ( x ) dx = 1 (toda área sob a curva de probabilidade, ou
curva de frequência, deinida por f ( x ) vale um);
b

• P ( a ≤ x ≤ b) = ∫
a
f ( x ) dx (probabilidade correspondente
à área sob a curva limitada pelo intervalo compreendido
entre x = a e x = b ). Esse assunto será mais detalhado
posteriormente no estudo da distribuição normal.

O valor esperado, indicado por E ( x ) = μ, é a esperança matemática


de uma variável aleatória contínua X, que assume os ininitos
valores do intervalo ( a, b ), ou seja:

085
unidade 4
ESTATÍSTICA E PROBABILIDADES

E (x) = ∫ x .f ( x ) dx
a

A variância, ou seja, a medida estatística que concentra as


probabilidades em torno da média é indicada por Var ( x ) ou σ2 e
dada por:

Var ( x ) = E ( x2 ) - [ E ( x ) ]2,

sendo E ( x ) o valor esperado, e E ( x2 ) dada por:

E ( x ) = ∫ x2 . f ( x ) dx฀
2

a
A covariância
para as variáveis
Para uma variável aleatória contínua bidimensional, deinida
contínuas ou
em todos os valores dos números reais, a função densidade de discretas, ou seja, a
probabilidade conjunta f ( x, y ) é uma função que satisfaz: medida estatística
que possibilita
• f ( x, y ) ≥ 0, para todo ( x, y ) ∊ R2; veriicar se as
variáveis envolvidas
na análise são
• ∫ ∫R R
f ( x, y ) d x d y =1 diretamente ou
inversamente
O valor esperado da distribuição conjunta, indicado por E ( X, Y ), é proporcionais.
dado por:

E ( X, Y ) = ∫ ∫
R R
x . y . f ( x, y ) d x d y

A covariância para as variáveis contínuas ou discretas, ou seja, a


medida estatística que possibilita veriicar se as variáveis envolvidas
na análise são diretamente ou inversamente proporcionais. Isso
porque à medida que X aumenta o Y também aumenta, ou à
medida que X diminui o Y aumenta, respectivamente. Tal relação é
dada por:

086
unidade 4
ESTATÍSTICA E PROBABILIDADES

Cov ( X, Y ) = E ( X, Y ) - E ( X ) . E ( Y )

E o coeiciente de correlação das variáveis contínuas ou discretas,


indicado por ρX,Y , ou seja, a medida estatística que mensura a
relação entre as variáveis X e Y é dado por:

ρ X, Y = Cov ( X, Y )
σX . σY

Sendo -1 ≤ ρ X,Y ≤ 1.

Independentemente de a classiicação da variável aleatória ser dada

como discreta ou contínua, sendo a e b constantes e x e y variáveis

aleatórias, valem as propriedades:

E(X)=μ Var ( x ) = σ2

E(a)=a Var ( a ) = 0

E(ax)=a.E(x) Var ( a x ) = a2 . Var ( x )

E(a±bx)=a±b.E(x) Var ( a ± b x ) =b2 . Var ( x )

E(ax±by)=a.E(x)±b.E(y) Var ( a x ± b y ) = a2 . Var ( x ) = b2 . Var ( y ) ± 2 . a . b . Cov ( x, y )

Duas variáveis aleatórias X e Y são independentes se o produto das

distribuições marginais for igual à distribuição conjunta, ou seja:

p ( x ) . p ( y ) = p ( x , y ) para distribuição discreta;

f ( x ) . f ( y ) = f ( x , y ) para distribuição contínua.

087
unidade 4
ESTATÍSTICA E PROBABILIDADES

Modelos
probabilísticos
Assim como na Matemática, temos os modelos que representam
o comportamento da variável abordada no estudo, ou seja,
as retas, parábolas e hipérboles dentre tantas outras funções
matemáticas. Na Estatística, os modelos probabilísticos descrevem
o comportamento de uma variável, sendo possível calcular
a probabilidade associada aos eventos da variável abordada
no estudo, recorrendo apenas aos modelos probabilísticos.
Esses modelos são chamados de distribuições, apresentando
particularidades próprias que facilitam a sua identiicação, podendo
ser divididos em contínuos e discretos, assim como as variáveis
estudadas no início deste tópico. A distribuição
binomial é denotada
por X~Bin ( n; p ),
sendo n o número
de amostragens
Distribuição (tentativas) e p

binomial a probabilidade
de sucesso do
experimento.
A distribuição binomial é denotada por X~Bin ( n; p ), sendo
n o número de tentativas e p a probabilidade de sucesso do
experimento. Trata-se de uma distribuição discreta, aplicada em
casos dicotômicos, ou seja, experimentos aleatórios com apenas
duas possibilidades de resposta, denotadas por sucesso ou falha.
Podemos citar como exemplo o lançamento de uma moeda, um
item ter defeito ou não, um funcionário faltar ou não.

Para se caracterizar como distribuição binomial, a variável aleatória


abordada no estudo deve ter:

a. n tentativas ou provas independentes, ou seja, eventos sem


reposição;

088
unidade 4
ESTATÍSTICA E PROBABILIDADES

b. cada uma das n tentativas só admite dois resultados


possíveis, sendo eles sucesso ou falha;

c. as probabilidades de sucesso e falha são complementares


e constantes durante todo o processo de observação.

O valor esperado, ou seja, a média da distribuição binomial e a


variância são dadas por:

E ( x ) = μ = n . p e Var ( x ) = σ2 = np . ( 1 - p ), respectivamente.

A probabilidade de ocorrência de um determinado evento na


distribuição binomial é dada por:

n n-x
P ( X = x ) = ( x ). px. ( 1 - p )

n
sendo: ( ) a combinação de n elementos x a x, ou seja:
x
n
( )= n! e p a probabilidade de sucesso.
x
( n- x) ! . x!

A distribuição binomial é amplamente aplicada para avaliar


probabilidades de eventos relacionados com controle de qualidade,
mercado de ações, risco de apólices de seguro, análise demográica
e vendas, dentre outras inúmeras situações de controle da
variabilidade inerente ao processo produtivo.

Distribuição
Poisson
A distribuição Poisson é denotada por X~Poisson (λ), sendo
1
λ a taxa média, ou seja, λ = μ e sendo λ também sempre
inversamente proporcional ao intervalo de tempo ou espaço
definido no problema. Portanto, o seu valor deve corresponder
ao tamanho do intervalo apresentado. Assim, para qualquer

089
unidade 4
ESTATÍSTICA E PROBABILIDADES

outro intervalo, o valor da média deve sofrer a correção


numérica adequada.

A distribuição Poisson é uma distribuição discreta, aplicada em


variáveis aleatórias cujo número de sucessos observados num
intervalo contínuo, de tempo ou espaço, pode estar relacionado à
quantidade de: carros que passam em um sinal por minuto; defeitos
por metro quadrado de um revestimento; chamadas por hora numa
delegacia etc.

A probabilidade de ocorrência de um determinado evento com


distribuição Poisson é dada por:

e-λ . λx
P(X=x)=
x!
A distribuição
Poisson pode ser
A distribuição Poisson pode ser aplicada como um caso limite da aplicada como
binomial, quando o tamanho da amostra em eventos dicotômicos é
um caso limite da
binomial, quando
maior que 30. o tamanho da
amostra em eventos
dicotômicos
é maior que 30.
Distribuição
normal
A distribuição normal é denotada por X~Normal (μ; σ2 ), sendo
o valor esperado, ou seja, a média da distribuição normal e a
variância dadas por:

E ( x ) = μ e Var ( x ) = σ2, respectivamente.

Por diversas razões, tanto na teoria quanto na prática, a distribuição


normal é a mais importante das distribuições de probabilidade.
Isso porque muitas variáveis no mundo real têm comportamento
bastante aproximado dessa distribuição. Sua relevância pode ser
destacada pelo fato de:

090
unidade 4
ESTATÍSTICA E PROBABILIDADES

a. seus resultados serem de fácil operação matemática;

b. muitas técnicas estatísticas pressuporem que os dados


têm distribuição normal;

c. os dados de muitas situações reais, embora não sejam


rigorosamente normais, podem gerar bons resultados,
facilitando o tratamento matemático;

d. a distribuição amostral de muitas estatísticas tenderem à


distribuição normal, em face do teorema do limite central.

Essa distribuição é classiicada como contínua, podendo a variável


assumir qualquer valor dentro de um intervalo previamente deinido.
Essa distribuição, delineada por uma curva em forma de sino com
f.d.p, é dada por:

A distribuição
amostral de
muitas estatísticas
tenderem à
distribuição normal,
As principais propriedades da distribuição normal são: em face do teorema
do limite central.
1. ter a forma de um sino;

2. ser simétrica em relação à média μ ;

3. ser assintótica1 em relação ao eixo de x;

4. ser unimodal2 e ter achatamento proporcional ao desvio


padrão ou variância;

5. ter média, moda e mediana iguais.

1 - Não toca o eixo x.

2 - Só tem uma moda.

091
unidade 4
ESTATÍSTICA E PROBABILIDADES

FIGURA 21 - Distribuição normal

Fonte: TRIOLA, 2011, p.88.

Como o cálculo da área abaixo da curva é a integral da f.d.p. nos


limites desejados e esse cálculo é, muitas vezes, longo, a área sob a
curva pode ser simpliicada pela transformação:

x-μ
z=
σ

Sendo z uma variável aleatória com distribuição normal, média zero


e variância 1, e x sendo uma variável aleatória com distribuição
normal, média μ e variância σ2.

A área total limitada pela curva normal e pelo eixo das abscissas é
1u.a. (uma unidade de área), ou seja, 100%, sendo as áreas sob a
curva limitadas pela distância entre o desvio padrão e a média. Essa
área é apresentada na tabela a seguir.

092
unidade 4
ESTATÍSTICA E PROBABILIDADES

TABELA 11 - Área sob a curva da normal

Fonte: BARBETTA, 2010, p. 377.

Sendo a primeira coluna e a primeira linha o número inteiro


mais a primeira casa decimal e a segunda casa decimal,
respectivamente, do número z calculado pela estatística de teste
x-μ
z= e, no centro da tabela, as probabilidades correspondentes
σ
à área entre zero e esse ponto, conforme ilustração a seguir.

093
unidade 4
ESTATÍSTICA E PROBABILIDADES

FIGURA 22 - Distribuição normal padrão

Fonte: Elaborado pela autora.

Uma grande indústria compra diversos novos processadores de texto no

inal de cada ano, sendo que o número exato deles depende da frequência

dos reparos no ano anterior. Suponha que o número de processadores,

indicado por X, que são comprados a cada ano, tenha a seguinte

distribuição de probabilidade:

TABELA 12 - Distribuição de frequências

X 0 1 2 3
P(X) 0,10 0,30 0,40 0,20

Fonte: Elaborado pelo autor.

Se o custo do modelo desejado permanecer ixo em R$ 1500,00 durante

este ano e um desconto de 50.X2 (em reais) for fornecido em relação a

qualquer compra, quanto a empresa espera gastar E ( X ) em novos

processadores no inal do ano?

E ( X ) = 0.0,1 + 1.0,3 + 2.0,4 + 3.0,2

E ( X ) = 1,7

094
unidade 4
ESTATÍSTICA E PROBABILIDADES

Revisão
A distribuição discreta é usada em casos cujos dados analisados podem
ser alocados em uma tabela de probabilidades, sendo que aquelas
localizadas no centro da tabela são classiicadas como probabilidade
conjunta e as localizadas nas laterais, como probabilidades marginais.

Probabilidades marginais são aquelas que correspondem a apenas


uma das variáveis em estudo, e as probabilidades conjuntas são as
que correspondem a duas variáveis analisadas concomitantemente.

A distribuição contínua é usada em casos cujos dados analisados


podem ser alocados em um intervalo contínuo.

No que tange as distribuições de probabilidade, cabe ressaltar:

TABELA 13 - Revisão das medidas de tendência central

DISTRIBUIÇÃO LIMITAÇÕES QUANDO USAR

Binomial Não usual para amostras com Quando os eventos estudados permitem apenas
mais de 30 elementos. duas respostas possíveis.

Poisson Quando o foco do estudo é na quantidade do


período.

Normal Quando a média e o desvio padrão são


conhecidos.

Fonte: Elaborado pelo autor.

Para estudar mais sobre os conteúdos abordados nessa unida, sob perspectiva aplicada, consulte as

obras sugeridas abaixo.

MOORE, David. A estatística básica e sua prática. Rio de Janeiro. LTC, 2014.

Para uma fundamentação matemática mais aprofundada sobre o assunto, consulte a seguinte obra:

MONTGOMERY, Douglas; RUNGER, George Estatística aplicada e probabilidade para engenheiros. 3 ed.

Rio de Janeiro: LTC, 2009.

095
unidade 4
Estimação de
médias
e proporções
Introdução

• Teorema
Nas unidades anteriores, você estudou três grandes áreas do
central do limite
método estatístico: amostragem e coleta de dados; análise
• Estimação
exploratória de dados; e teoria de probabilidades. A partir de agora, pontual e por
você vai entender como essas áreas se relacionam para construir a intervalos de
confiança para
quarta área do método estatístico, que é a decisão na presença de
uma média
incerteza ou estatística inferencial. populacional
• Estimação
A estatística inferencial recebe esse nome por ser um conjunto de pontual e por
métodos e técnicas que permitem, a partir dos dados provenientes
intervalos de
confiança para
de uma amostra, inferir informações sobre toda a população alvo uma proporção
do estudo. Logicamente existe uma incerteza associada a esse populacional
processo, mas ela é quantiicada através dos níveis de coniança • Uso do Excel
e margens de erro do estudo. Essa é a grande contribuição da no cálculo de
intervalos
estatística inferencial, permitir que se conheça o nível de incerteza de confiança
da informação antes de tomar decisões. para média e
proporção

Existe uma infinidade de técnicas de estatística inferencial, • Introdução ao


programa EpiInfo
como os intervalos de confiança, testes de hipóteses
• Revisão
paramétricos e não paramétricos, análises de correlação
e regressão, dentre outras. Para que você tenha noção da
quantidade de técnicas, imagine que exista um curso de
graduação em Estatística com duração de quatro anos em
que o aluno passa a maior parte do tempo estudando técnicas
de estatística inferencial. E ainda assim esse tempo não é
suficiente para estudar todas as técnicas!
A boa notícia é que em todas essas técnicas existe um ponto
em comum, conceitos que são utilizados em todas elas, como
estimativa pontual, intervalos de coniança e testes de hipóteses.
Esses conhecimentos estão presentes em todas as técnicas de
estatística inferencial. E é exatamente o que estudaremos nas
próximas unidades.

Nesta unidade, especiicamente, você vai conhecer o teorema


principal da estatística, o fundamento de grande parte das técnicas
de estatística inferencial: o teorema central do limite. Esse teorema
fala sobre a relação entre o modelo normal de probabilidades e a
média calculada a partir de uma amostra. Você consegue imaginar
qual seja essa relação?

Aqui você vai descobrir como são calculadas as margens de erro


das pesquisas eleitorais, que são obtidas através das estimativas
pontuais e intervalares para médias e proporções populacionais. Vai
descobrir como utilizar o Excel para construir uma calculadora para
intervalos de coniança. E também um software muito útil para fazer
várias análises estatísticas, o EpiInfo.
ESTATÍSTICA E PROBABILIDADES

Teorema central
do limite
Imagine a seguinte situação: um engenheiro de produção deseja
monitorar um processo de produção de ibra sintética de maneira
a garantir que a característica de qualidade resistência à tração
esteja sempre dentro dos limites de especiicação. É conhecido
que a resistência à tração das ibras produzidas naquela empresa
é normalmente distribuída com média de 75 psi (libras força por
polegada quadrada) com desvio-padrão de 3,5 psi.

Como não é viável medir a característica de qualidade em todas


as peças produzidas (inspeção 100%) ele decidiu coletar amostras
periodicamente para veriicar se não houve alteração na média O TCL diz que
do processo. Acontece que cada vez que ele coleta uma amostra quando trabalhamos
com amostras
e obtém a média dessa amostra existe uma variação, ou seja,
e calculamos
as médias das amostras são sempre diferentes. A dúvida é: o médias, as médias
engenheiro pode airmar que houve alteração na média do processo das amostras
são normalmente
(de todas as peças produzidas) ou a variação é devida simplesmente
distribuídas em torno
à uma flutuação amostral? da verdadeira média
populacional.
O teorema central do limite (TCL) poderá auxiliar o engenheiro a
interpretar os resultados dessas amostras e resolver a dúvida. O
TCL diz que quando trabalhamos com amostras e calculamos
médias, as médias das amostras são normalmente distribuídas
em torno da verdadeira média populacional. Isso acontece porque,
exatamente pelo fato de serem baseadas em sorteio aleatório, as
amostras são sempre diferentes e, se calcularmos então a média
em cada amostra, é bem difícil encontrarmos exatamente os
mesmos valores.

Entretanto, apesar de as amostras serem diferentes e terem médias


diferentes, se selecionarmos várias amostras e obtivermos suas
médias, podemos fazer um histograma dessas médias. Ao realizar
esse procedimento poderemos ver que, à medida que aumentamos

099
unidade 5
ESTATÍSTICA E PROBABILIDADES

a quantidade de amostras, o histograma mais se assemelha à curva


da distribuição normal de probabilidades e, ainda, a média dessas
médias mais se aproxima da verdadeira média populacional.

Deinição do teorema central do limite

Se X é uma variável aleatória com média µ e variância σ2 e éa


média de uma amostra com n elementos dessa variável aleatória,
então podemos dizer que a forma limite da distribuição de

X-μ
z=
σ
⁄√n

é a distribuição normal padrão quando n tende ao ininito.

Podemos dizer ainda que X é normalmente distribuído com média

μX = μ e desvio-padrão σX = σ ⁄
√n .

EXEMPLO

Pensando no exemplo das ibras sintéticas, chamamos de X a


variável aleatória resistência à tração das ibras. Sabemos que a
média é 75 psi e o desvio-padrão é 3,5 psi. Encontre a probabilidade
de uma amostra aleatória de n = 25 ibras ter uma resistência média
menor que 73,6 psi.

Note que a distribuição amostral de é normal, com média μX =75


psi e um desvio-padrão de

σX = σ = 3,5 = 0,7 psi


√n √25

Consequentemente, a probabilidade desejada corresponde à área


sombreada na igura abaixo.

100
unidade 5
ESTATÍSTICA E PROBABILIDADES

FIGURA 23 - Distribuição amostral de X - Média 75 e desvio-


padrão 0,7

Fonte: Elaborada pelo autor.

Desse modo, podemos dizer que

P( < 73,6 ) = P ( Z < z ) onde o valor de z é obtido através da


padronização:

73,6 - 75
z= = -2
3,5
⁄√ 25

Então,

P( < 73,6 ) = P ( Z < -2 ) = 0,0228 (pela tabela da distribuição


normal padrão).

O resultado acima indica que a probabilidade de selecionar


uma amostra de fibras e obter resistência média menor
que 73,6 psi é de 2,28%. Na Unidade 7 veremos que essa
probabilidade pode ser considerada baixa e, portanto, de posse
dessa informação, o engenheiro poderia adotar o seguinte
critério: ao observar uma amostra de fibras com resistência
média menor que 73,6 psi, o processo deve ser verificado.

101
unidade 5
ESTATÍSTICA E PROBABILIDADES

É importante ressaltar que o TCL pode ser utilizado ainda que


a distribuição da variável aleatória X não seja normal, ou seja, o
teorema é valido para qualquer que seja a distribuição de X. Essa é
a grande contribuição do TCL para o desenvolvimento dos métodos
estatísticos. Entretanto, nas situações em que a distribuição da
variável aleatória X seja muito assimétrica, a aplicação do TCL é
adequada para amostras grandes ( n ≥ 30 ). A igura abaixo ilustra
as distribuições amostrais de para diferentes populações e
diferentes tamanhos de amostra.

FIGURA 24 - Distribuições amostrais de para diferentes populações e tamanhos de amostra


População original Distribuição amostral Distribuição amostral Distribuição amostral
(distribuição de X) de X para n = 2 de X para n = 5 de X para n = 30

Fonte: Elaboração do autor.

Note nos gráficos acima que a aproximação pela distribuição normal


é razoável para amostras com 30 ou mais observações. Por essa
razão, a utilização do teorema central do limite é adequada quando

102
unidade 5
ESTATÍSTICA E PROBABILIDADES

o tamanho da amostra for ao menos 30 ou quando a distribuição da


variável aleatória X for normal.

Nos próximos tópicos, você vai descobrir como aplicar o


teorema central do limite para obter estimativas intervalares
para médias e proporções populacionais a partir da média e
proporções amostrais. Na Unidade 7, o TCL será utilizado para
realizar testes de hipóteses sobre os parâmetros populacionais.

Estimação pontual
e por intervalos de
confiança para uma
média populacional
Neste tópico, você vai aprender a obter uma estimativa para média
populacional e calcular a precisão dessa estimativa. Você vai
entender por que apresentar a margem de erro e o nível de coniança
da pesquisa é tão importante quanto apresentar a estimativa
pontual para média. Após a leitura deste tópico, você terá um novo
olhar sobre as estatísticas que lhe são apresentadas diariamente
em jornais ou revistas.

Considere que uma montadora desenvolveu um novo modelo e está


elaborando a icha técnica do veículo. Uma informação relevante
para o cliente é o consumo médio de combustível. Sabe-se que
o consumo está relacionado ao tipo de combustível (etanol ou
gasolina ), à maneira de conduzir, ao tipo de via (cidade ou estrada),
à qualidade do combustível, dentre outras variáveis. O consumo
pode variar também entre os veículos de mesmo modelo, por
essa razão podemos tratar o consumo de combustível como uma
variável aleatória.

103
unidade 5
ESTATÍSTICA E PROBABILIDADES

Para deinir o consumo médio de combustível do novo modelo de


veículo, a montadora coletou dados sobre distância percorrida e
consumo de combustível de 35 veículos. Com esses dados, calculou
o consumo médio na estrada e na cidade tanto para gasolina quanto
para etanol. Os resultados são apresentados na tabela abaixo:

TABELA 14 - Revisão das medidas de tendência central

TRAJETO ETANOL (KM/L) GASOLINA (KM/L)


Cidade 8,7 12,5
Estrada 10,4 15,2

Fonte: Elaborado pelo autor.

Os 35 veículos que participaram do experimento podem ser


considerados uma amostra do total de veículos produzidos pela
montadora, já que o objetivo é obter informação sobre todos os
veículos do referido modelo que são produzidos. Dessa forma, a
montadora está utilizando a média da amostra para estimar µ, o
consumo médio de todos os veículos.

Dizemos que a média da amostra representa um único estimador


numérico da média da população. Por essa razão, recebe o nome
de estimador pontual. Observe, por exemplo, na tabela 21 que o
consumo médio do veículo na cidade com etanol foi estimado em
8,7 km/L, mas não foi apresentada nenhuma informação quanto à
precisão dessa estimativa.

No tópico anterior, vimos que a média amostral pode ser


considerada uma variável aleatória. Isso significa que, caso
selecionássemos outra amostra de 35 veículos e calculássemos
o consumo médio na cidade com etanol, o resultado poderia
ser diferente de 8,7 km/L. Por essa razão, a estimativa pontual
deve vir sempre acompanhada da margem de erro, informando
assim sua precisão. A margem de erro pode ser obtida através
da equação a seguir:

104
unidade 5
ESTATÍSTICA E PROBABILIDADES

E = Zα/ σ
2

Onde:

z α/ está relacionado ao nível de coniança desejado para o estudo;


2

σ é o desvio-padrão populacional da variável aleatória X;

n é o tamanho da amostra coletada.

O nível de coniança do estudo é deinido pelo valor de zα/ que


2

pode ser obtido da tabela da distribuição normal padrão. O nível de


coniança é dado em valor percentual e deve ser sempre inferior
a 100%. Chamamos signiicância (α) o percentual restante, de
maneira que coniança + signiicância = 100%. Por exemplo, para
um estudo com 95% de coniança, o valor de α será 5%. O valor de
z = 1,96 é deinido então a partir da distribuição normal padrão,
como ilustra a igura abaixo:

FIGURA 25 - Deinição do valor de z para coniança de 95%

Fonte: Elaborado pelo autor.

Observe também que, para o cálculo da margem de erro, precisamos


conhecer o desvio-padrão populacional da variável aleatória X, isto
é, o desvio-padrão do consumo de combustível de todos os veículos
do referido modelo produzidos pela montadora. Entretanto, como a

105
unidade 5
ESTATÍSTICA E PROBABILIDADES

amostra pode ser considerada grande ( n > 30 ), podemos utilizar


o desvio-padrão da amostra s como aproximação de σ, e então o
cálculo da margem de erro será:

E = Zα/ S
2

Vamos obter, portanto, a margem de erro para o verdadeiro consumo


médio de etanol na cidade para esse veículo, com um nível de 95%
de coniança, sabendo que o desvio-padrão do consumo de etanol
na cidade para a amostra dos 35 veículos foi de 4 km/L.

4
E = 1,96 = 1,325
√35

O cálculo acima mostra que a margem de erro do estudo é de 1,325


km/L para o consumo do veículo ao rodar com etanol na cidade.
Com isso, podemos dizer que o verdadeiro consumo médio do
veículo é de 8,7 km/L com uma margem de 1,325 km/L para mais
ou para menos, ou seja, está entre 8,7 - 1,325 = 7,375 km/L e 8,7 +
1,325 = 10,025 km/L. O intervalo que acabamos de construir (7,375;
10,025) é conhecido como intervalo de coniança ou estimador
intervalar e é deinido pela equação:

IC [ μ; ( 100 - α ) % ] = ±E

Ou seja, o intervalo de coniança para μ, a verdadeira média


populacional, com um nível de ( 100 - α ) % de coniança, é dado pela
média amostral menos a margem de erro e a média amostral mais a
margem de erro.

O resultado do exemplo acima é comumente interpretado da


seguinte maneira: “se obtivermos várias amostras de 35 veículos
e, para cada uma delas, calcularmos os correspondentes intervalos
com 95% de coniança, esperamos que a proporção de intervalos
que contenham o verdadeiro consumo médio μ seja igual a 95%”.

106
unidade 5
ESTATÍSTICA E PROBABILIDADES

Exemplo:

Para os dados da tabela 21, supondo que o desvio-padrão para o


consumo de etanol na estrada seja de 2 km/L, obtenha o intervalo
de 95% para o verdadeiro consumo médio.

Solução:

Para resolver a questão acima, podemos utilizar a equação:

IC [ μ; 95% ] = ±E

Precisamos, portanto, encontrar a margem de erro do estudo. Para


isso, vamos utilizar a equação:

E = Zα/ S
2

Logo:

2
E = 1,96 * = 0,663
√35
Então:

IC [ μ ; 95% ] = 10,4 ± 0,663

O intervalo é comumente apresentado como segue:

IC [ μ ; 95% ] = [ 9,737 ; 11,063 ]

Dessa forma, airmamos com 95% de coniança que o consumo


médio de etanol na estrada para o novo modelo de veículo está
entre 9,737 km/L e 11,063 km/L.

107
unidade 5
ESTATÍSTICA E PROBABILIDADES

Estimação por intervalos de confiança


para uma média populacional
(amostras pequenas)

Você deve ter observado no tópico anterior que o cálculo da


margem de erro para o intervalo de coniança exige o conhecimento
do desvio-padrão populacional (σ). Entretanto, na maioria das vezes
em que se deseja estimar a média populacional, o desvio-padrão
populacional também é desconhecido, o que torna inadequada a
aplicação da equação para o cálculo da margem de erro.

Felizmente, quando trabalhamos com grandes amostras


Felizmente, quando
( n > 30 ), o desvio-padrão amostral (s) é uma boa aproximação
trabalhamos com
para o desvio-padrão populacional (σ), o que possibilita a utilização grandes amostras
da equação apresentada para o cálculo da margem de erro. Mas, o ( n > 30 ), o desvio-
padrão amostral
que fazer quando a amostra é pequena ( n < 30 )? É exatamente o
(s) é uma boa
que descobriremos aqui. aproximação para
o desvio-padrão
Nas situações em que a amostra é pequena, nos deparamos com populacional (σ),
o que possibilita
dois problemas:
a utilização
da equação
1. Não podemos utilizar o teorema central do limite
apresentada para o
para dizer que a média amostral ( ) é normalmente cálculo da margem
distribuída, pois o TCL é válido somente para amostras de erro.
com mais de 30 observações.

2. A aproximação do desvio-padrão populacional pelo desvio-


padrão amostral é considerada pobre.

Para contornar o problema 1, lançamos mão do seguinte teorema:

Se X é uma variável aleatória normalmente distribuída, ao selecionar


amostras de tamanho n, a distribuição amostral de será uma
distribuição normal.

108
unidade 5
ESTATÍSTICA E PROBABILIDADES

Esse teorema garante que, se a variável aleatória X é normalmente


distribuída, então a distribuição amostral de será normal
independente do tamanho da amostra.

Para contornar o problema 2, vamos precisar utilizar uma nova


distribuição de probabilidades, a distribuição t-student. Essa
distribuição é muito semelhante à distribuição normal: tem
forma de sino, é simétrica e tem média zero. A diferença é que a
distribuição t-student é mais achatada (tem caudas mais pesadas).
Com isso, as estimativas obtidas a partir dessa distribuição serão
menos precisas.

FIGURA 26 - Comparação entre a distribuição normal e a distribuição t-student (5 gl)

Fonte: Elaborado pelo autor.

A igura a seguir ilustra parte da tabela dos valores mais utilizados


para distribuição t-student. Para construção de intervalos de
coniança, devemos olhar os valores para área em duas caudas e a
α α
área deve se referir ao valor de ⁄ + ⁄ . Os graus de liberdade são
2 2
dados por n - 1, ou seja, o tamanho da amostra menos 1.

109
unidade 5
ESTATÍSTICA E PROBABILIDADES

FIGURA 27 -Valores tabelados para distribuição t-student

Fonte: TRIOLLA, 2013, p. 614.

Exemplo:

Uma equipe de engenharia está desenvolvendo uma nova


mistura para concreto e deseja estimar a resistência média
do produto à compressão. Como o teste de resistência à
compressão é um ensaio destrutivo, o máximo que a equipe
conseguiu para realização do estudo foram 10 corpos de prova.
A resistência média à compressão da amostra foi de 2.500 psi
e o desvio-padrão foi de 45 psi. Sabendo que a resistência do
concreto à compressão segue uma distribuição normal, obtenha
uma estimativa intervalar para a verdadeira resistência média
populacional com 95% de confiança.

110
unidade 5
ESTATÍSTICA E PROBABILIDADES

Solução:

Observe que o tamanho da amostra é pequeno, n = 10, e o desvio-


padrão foi obtido da amostra (não conhecemos o desvio-padrão
populacional). Nesse caso, para construir o intervalo de coniança, é
necessário utilizar a distribuição t-student e a margem de erro deve
ser calculada utilizando a equação:

E = t S
n

Onde t é obtido da tabela t-student, sendo os parâmetros:


α⁄ a área em cada uma das duas caudas e n - 1 os graus de
2
liberdade.

Como o intervalo é de 95% de coniança, sabemos que a signiicância


é o α = 5% (para consultar a tabela usamos o valor em decimal, 0,05).
Os graus de liberdade são obtidos calculando n-1, ou seja, 10 - 1 =
9. Assim, encontramos que o valor de t0,025;9 é de 2,262.

FIGURA 28: Tabela t-student - encontrando t 0,025;9

Fonte: TRIOLA, 2013, p. 614

111
unidade 5
ESTATÍSTICA E PROBABILIDADES

Com isso, estimamos que a margem de erro será:

E = 2,262 . 45 = 32,189
√10
O intervalo de coniança pode ser então obtido:

IC [ μ ; 95% ] = 2.500 ± 32,189

IC [ μ ; 95% ] = [ 2.467,81 ; 2.532,19 ]

A equipe de engenharia pôde interpretar o resultado como segue:


airmamos com 95% de coniança que a resistência média do
concreto à compressão está entre 2.467,81 psi e 2.532,19 psi.

Estimação pontual
e por intervalos
de confiança para
uma proporção
populacional
Como são calculadas as margens de erro das pesquisas eleitorais?
Possivelmente no início da unidade você tenha icado instigado a
descobrir como é feito esse cálculo. Antes de dar início, é preciso
entender que as pesquisas eleitorais buscam descobrir o percentual
de eleitores que são favoráveis ao candidato A ou B, e esses
percentuais são tratados na estatística como proporções.

Para simpliicar os cálculos, vamos pensar em uma eleição que foi


para o segundo turno e, portanto, tem apenas dois candidatos. Uma
empresa de pesquisa entrevistou 2.500 eleitores quanto à intenção
de voto nos candidatos A e B. Note que "candidato" é uma variável
qualitativa, e o que queremos descobrir é como estimar a probabilidade

112
unidade 5
ESTATÍSTICA E PROBABILIDADES

de sucesso em um experimento binomial em que p é a probabilidade


de que o eleitor escolhido preira o candidato A, por exemplo. Uma
maneira bem intuitiva de estimar p para a população é usar a proporção
de sucessos da amostra:

p ˆ= Número de eleitores que preferem o candidato A

Número de eleitores amostrados

Suponha que dos 2.500 eleitores amostrados 1.300 tenham


declarado intenção de votar no candidato A, 950 no candidato B e
250 em branco ou nulo. Assim, podemos estimar a proporção de
eleitores que votariam no candidato A por:

1.300
pˆ = = 0,52
2.500

Ou seja, a amostra indica que cerca de 52% dos eleitores


têm intenção de votar no candidato A. Entretanto, devemos
lembrar que caso fosse realizada outra amostragem e fossem
selecionados outros 2.500 eleitores o resultado poderia ser
diferente de 0,52. O valor de pˆ é uma estimativa pontual para p, a
verdadeira proporção de eleitores que têm intenção de votar no
candidato A em toda a população.

Podemos tratar p como uma média, se pensarmos que X é uma


variável aleatória que assume 0 quando o eleitor declara votar no
candidato B, em branco ou nulo e 1 quando o eleitor declara votar
no candidato A. Nesse caso, podemos utilizar o teorema central do
limite e dizer que pˆ é normalmente distribuído com média μp = p
p.q
e desvio-padrão σp = , onde q = 1-p, ou de maneira aproximada
n
σp = p.q , pois não conhecemos os verdadeiros valores de p e q.
n

113
unidade 5
ESTATÍSTICA E PROBABILIDADES

Sabemos que o TCL é válido apenas para amostras grandes. No caso


de estimativas para proporções, dizemos que a amostra é grande
quando n . pˆ ≥ 5 e também n . qˆ ≥ 5, ou seja, ambos os critérios devem
ser satisfeitos.

Caso esses critérios tenham sido satisfeitos, podemos calcular a


margem de erro através da equação:

ˆpqˆ
E = Zα
/2 √ n

E então o intervalo de coniança para p será:

IC [ p ; ( 100 - α) % ]= pˆ ± E

No exemplo da pesquisa eleitoral, n . ˆp = 2.500 * 0,52 = 1.300 e


n.qˆ = 2.500 * 0,48 = 1.200. Como ambos os critérios foram
satisfeitos, dizemos que temos uma amostra grande o bastante
para justiicar a utilização do TCL, logo podemos obter a margem
de erro com o nível de 95% de coniança:

E = 1,96 0,52 × 0,48 = 0,0196


2.500

E o intervalo de coniança será:

IC [ p ; 95% ] = 0,52 ± 0,0196

IC [ p ; 95% ] = [ 0,5004 ; 0,5396 ]

Podemos airmar com 95% de coniança que a verdadeira proporção


de eleitores que votam no candidato A em toda a população está
entre 50,04% e 53,96%. Observe que airmar com 95% de coniança
signiica dizer que, se fossem feitas 100 pesquisas e calculados os
intervalos de coniança, cerca de 95 deles conteriam a verdadeira
proporção de eleitores que votam no candidato A.

114
unidade 5
ESTATÍSTICA E PROBABILIDADES

Exemplo:

A empresa XYZ compra tubos de aço do fornecedor A. Na última


semana, a XYZ recebeu uma proposta de comprar tubos de aço do
fornecedor B pela metade do preço do fornecedor A. Para decidir,
o gerente de compras deseja estimar qual o percentual de não
conformidade nos tubos do fornecedor B (proporção de tubos
defeituosos). Em um lote de 150 tubos havia 21 não conformes.
Obtenha o intervalo de 90% de coniança para a verdadeira
proporção de tubos não conformes do fornecedor B.

Solução:

Uma estimativa pontual para a verdadeira proporção de tubos não


conformes é dada por:

pˆ = 21 = 0,14
150

Veriicamos que a aplicação do teorema central do limite é adequada,


pois n . p
ˆ = 21 e n . q = 150 * 0,86 = 129, ou seja, ambos são maiores
que 5, indicando que a amostra é suicientemente grande. Podemos
estimar a margem de erro do estudo pela equação:

E = Zα pq
ˆˆ
/2 n

0,14 × 0,86
E = 1,645 150 = 0,047

Então, deinimos o intervalo com 90% de coniança para p


pela equação:

IC [ p ; 90% ] = p
ˆ±E

IC [ p ; 90% ] = 0,14 ± 0,047

IC [ p ; 90% ] = [ 0,093 ;0,187 ]

115
unidade 5
ESTATÍSTICA E PROBABILIDADES

O gerente de compras pode airmar, com 90% de coniança, que


a verdadeira proporção de tubos não conformes provenientes do
fornecedor B está entre 9,3% e 18,7%. O gerente fará sua decisão
baseado nessa informação e em outras que julgar convenientes.

Uso do Excel no
cálculo de intervalos
de confiança para
média e proporção
Agora que você já sabe exatamente como são obtidos os intervalos
O intervalo de
de coniança, vamos utilizar o Excel para construir uma calculadora
coniança para a
de intervalos de coniança. Começaremos pelo intervalo para média. média populacional
pode ser obtido
Nos tópicos anteriores, vimos que o intervalo de coniança para a
de duas maneiras:
utilizando a
média populacional pode ser obtido de duas maneiras: utilizando distribuição normal
a distribuição normal (estatística z) ou a distribuição t-student (estatística z)
(estatística t). Vimos também que a distribuição t-student é ou a distribuição
t-student
utilizada quando o tamanho da amostra é menor que 30 e o desvio-
(estatística t).
padrão populacional é desconhecido. Nos outros casos, utilizamos
a distribuição normal.

Vamos construir primeiramente uma calculadora para intervalos de


coniança utilizando a distribuição normal. Utilizaremos os dados
sobre consumo de combustível do primeiro exemplo.

A igura a seguir ilustra como deve icar nossa calculadora nas


colunas A e B.

116
unidade 5
ESTATÍSTICA E PROBABILIDADES

FIGURA 29 - Calculadora para intervalo de coniança para média:


amostras grandes ou desvio-padrão populacional conhecido

Fonte: Elaborado pelo autor.

Nas linhas 4 a 7 são inseridas as informações iniciais do problema,


como: desvio-padrão, que pode ser tanto da população quanto da
amostra; a média amostral ; o tamanho da amostra n; e o nível
de coniança desejado. Note que a célula B7 deve ser conigurada
como porcentagem.

Nas linhas 9 a 11 são realizados cálculos intermediários


como erro padrão da média σ x (ou σˆ x ), o valor de z relativo ao
nível de confiança desejado e a margem de erro resultante.
As fórmulas utilizadas para cada um dos cálculos são
apresentadas exatamente à sua direita. Por exemplo, na célula
B9 foi inserida a fórmula = B4/RAIZ(B6), que é o desvio-padrão
dividido pela raiz do tamanho da amostra. Nas linhas 13 e 14 é
apresentado o intervalo de confiança, sendo limite inferior do

117
unidade 5
ESTATÍSTICA E PROBABILIDADES

intervalo o valor de - E e o limite superior do intervalo o valor


de + E.

Para construir a calculadora para amostras pequenas e desvio-


padrão populacional desconhecido, vamos utilizar os dados
do exemplo sobre a resistência do concreto à compressão.
O procedimento é o mesmo do anterior, alterando apenas as
informações relativas aos parâmetros da distribuição t-student:

FIGURA 30 - Calculadora para intervalo de coniança para média:


amostras pequenas e desvio-padrão populacional desconhecido

Fonte: Elaborado pelo autor.

Para construir a calculadora de intervalos de coniança para


proporções, vamos utilizar os dados do exemplo da pesquisa
eleitoral. Nesse caso, os dados iniciais são o número de sucessos
e o tamanho da amostra. Lembrando que a palavra sucesso está
relacionada à distribuição binomial e se refere ao número de vezes

118
unidade 5
ESTATÍSTICA E PROBABILIDADES

que ocorreu o evento de interesse. No caso do exemplo sobre as


eleições, o número de sucessos é a quantidade de entrevistados
que declarou intenção de votar no candidato A, 1300 pessoas. O
tamanho da amostra foi de 2500 entrevistados. Com esses dados,
calcula-se a proporção estimada ˆp dividindo o número de sucessos
pelo tamanho da amostra (célula B6).

O erro padrão da média é calculado através da equação σpˆ = ˆˆ=


p.q
n
implementada na célula B9. As demais células utilizam as mesmas
fórmulas já apresentadas nas calculadoras anteriores.

FIGURA 31 - Calculadora para intervalo de coniança para proporção

Fonte: Elaborado pelo autor.

119
unidade 5
ESTATÍSTICA E PROBABILIDADES

Introdução ao
programa EpiInfo
O software EpiInfo é uma ferramenta muito útil para análise de
dados. Esse software foi desenvolvido pelo Centro de Controle de
Doenças (CDC) para análise de dados epidemiológicos, entretanto
pode ser utilizado em qualquer área, inclusive em engenharia. O
software está disponível no site www.cdc.gov/epiinfo

Veja no material web da disciplina os vídeos de instalação do EpiInfo


e de introdução à análise de dados utilizando essa ferramenta.

Um fabricante de anéis para pistões de motor deseja veriicar se seu

produto atende as especiicações do cliente. Para isso, resolveu estimar

o diâmetro médio dos anéis produzidos. A partir de uma amostra de 40

anéis, registrou-se diâmetro médio de 74,045 milímetros com desvio-

padrão de 0,02 milímetros. Construa o intervalo com 99% de coniança

para o verdadeiro diâmetro médio dos anéis.

Solução:

Note que o enunciado não informou a distribuição de probabilidade da

variável diâmetro dos anéis e, além disso, também não temos informação

a respeito do desvio-padrão populacional dessa variável. Entretanto, como

a amostra é considerada grande (40 anéis), podemos valer do teorema

central do limite e airmar que a distribuição amostral do diâmetro

médio dos anéis é normal, com média μ e desvio-padrão σ⁄√ n , onde μ é

o verdadeiro diâmetro médio dos anéis e σ o verdadeiro desvio-padrão.

Sabemos ainda que o estimador de μ é X, a média amostral e o estimador

de σ é s, o desvio-padrão amostral. Dessa forma, utilizaremos as equações

a seguir para construir o intervalo com 99% de coniança para o verdadeiro

diâmetro médio dos anéis.

120
unidade 5
ESTATÍSTICA E PROBABILIDADES

IC [ μ ;99% ] = x ± E

Precisamos, portanto, encontrar a margem de erro do estudo. Para isso,

vamos utilizar a equação:

E = Zα/ S
2

Logo:

0,02
E = 2,575 * = 0,008
√40
Então:

IC [ μ ; 99% ] = 74,045 ± 0,008

O intervalo é comumente apresentado como segue:

IC [ μ ;99% ] = [ 74,037 ; 74,053]

Dessa forma, airmamos com 99% de coniança que o diâmetro médio dos

anéis está entre 74,037 milímetros e 74,053 milímetros.

Revisão
Nesta unidade, você aprendeu a construir estimativas pontuais e por
intervalos para os verdadeiros parâmetros populacionais através de
dados provenientes de amostras. Aprendeu também que existem
ao menos quatro maneiras de obter estimativas intervalares, e que
a escolha da maneira adequada para cada situação é determinada
basicamente pelo tipo de dados (qualitativo ou quantitativo) e
pelo tamanho da amostra ( n < 30 ou n ≥ 30 ). O esquema abaixo
apresenta de maneira resumida o processo de decisão:

121
unidade 5
ESTATÍSTICA E PROBABILIDADES

FIGURA 32– Processo de decisão

Tipo de dados

Quantitativo parâmetro μ Qualitativo parâmetro p

Amostra grande ( n ≥ 30 ) Amostra pequena ( n < 30 ) Aplicável quando np ≥ 5 e nq ≥ 5

Pelo teorema central do O intervalo de coniança pode


O intervalo de
limite, o intervalo de ser obtido pela equação 3
coniança pode ser
coniança pode ser obtido apenas se a população tem
obtido pela equação 4.
pelas equações 1 ou 2. distribuição normal.

Fonte: Elaborada pelo autor

Equação 1: x ± Zα/ σ
2

Equação 2: x ± Zα/ S
2

Equação 3: x ± t S
n

p
ˆ qˆ
Equação 4: pˆ ± Zα 2
/ √ n

Caso você tenha se interessado pelo assunto desta unidade e deseja

aprofundar nesse conteúdo, recomendo a leitura do capítulo 5 do livro texto:

McCLAVE, James T. George Benson, Terry Sincich. Estatística para

administração e economia. trad. Fabrício Pereira Soares e Fernando

Sampaio Filho; rev. téc. Galo Carlos Lopez Noriega. São Paulo: Pearson

Prentice Hall, 2009.

Se você deseja uma leitura mais formal e tem interesse em demonstrações

das equações, leia o capítulo 8 do livro texto:

MONTGMOMERY, Douglas C. George C. Runger. Estatística aplicada e

probabilidade para engenheiros. trad. e rev. téc. Verônica Calado. Rio de

Janeiro: LTC, 2009.

122
unidade 5
ESTATÍSTICA E PROBABILIDADES

Se você deseja um estudo de caso com aplicação do conteúdo na área de

engenharia, leia o artigo:

NETO, Antônio Peli. Intervalos de coniança, Intervalos de Predição e

Campo de Arbítrio nas Avaliações de Imóveis Urbanos. Associação

Brasileira dos Engenheiros Civis - Departamento da Bahia. Bahia, 2010.

Disponível em: <http://www.abenc-ba.org.br/attachments/289_ANTONIO_

PELLI_ABNT%20NBR%2014653-2%20%282%C2%BAProjeto%29212751_1.

pdf>. Acesso em 16 jun. 2015.

123
unidade 5
Planejamento de
experimentos
Introdução

Na Unidade 5, Estimação de médias e proporções, você aprendeu


a estimar parâmetros populacionais a partir de dados amostrais.
Você deve ter observado que os resultados amostrais foram
disponibilizados, mas não foram apresentados os métodos
utilizados para seleção das amostras ou sequer a justiicativa para
o tamanho amostral. Nesta unidade você vai aprender a planejar
um experimento de pequeno e médio porte na área de Engenharia
e Ciências Exatas, bem como calcular o tamanho mínimo de uma
amostra que tenha representatividade estatística.

• Cálculo de
Uma situação que utiliza o planejamento de experimentos muito tamanho de
frequentemente é o estudo dos efeitos do tratamento térmico de amostra baseado
em intervalos de
metais sobre suas propriedades mecânicas. Considere que uma confiança para
equipe de engenharia deseja estudar o efeito de três diferentes uma proporção
tipos de banho de têmpera sobre a dureza de um determinado tipo • Cálculo de
de aço. Os tipos de banho de têmpera utilizados são têmpera em
1 tamanho de
amostra baseado
água, têmpera em óleo e têmpera em solução aquosa de cloreto em intervalos de
de sódio (água salgada). O propósito do estudo é determinar qual confiança para
uma média
banho de têmpera produzirá a dureza máxima do aço.
• Planejamento
de experimentos
A princípio, a equipe considerou suiciente para o propósito do
• Planejamento
estudo submeter um determinado número de corpos de provas a
de experimentos
cada meio de têmpera e medir a dureza da liga metálica. A partir - terminologia
básica
• Revisão
A têmpera consiste essencialmente em aquecer uma peça de aço a uma certa
temperatura e, a seguir, resfriá-la rapidamente em um banho, usualmente água, óleo
ou soluções salinas. Seu objetivo é, em geral, aumentar a dureza do aço e tornar
mais elevadas suas resistências à tração, à compressão e ao desgaste
desses resultados calcular-se-ia a dureza média em cada um dos
diferentes tipos de banho. Aquele que apresentasse a maior dureza
média seria o mais adequado.

Entretanto, ao analisar o experimento com cautela, o engenheiro de


produção detectou várias questões que deviam ser respondidas antes
do início da coleta de dados: água, óleo e água salgada são os únicos
banhos de interesse no processo de têmpera? Há outros fatores que
possam afetar a dureza do aço e que devem ser pesquisados? Quantos
corpos de prova devem ser submetidos a cada banho de têmpera? De
que modo os corpos de prova devem ser alocados aos três diferentes
banhos? Em que ordem os dados devem ser coletados? Qual método de
análise de dados deve ser utilizado? Qual diferença entre dureza média
será considerada signiicativa do ponto de vista prático?

Diante de todas essas questões, a equipe constatou a necessidade


de utilizar técnicas estatísticas para planejamento do experimento,
a im de assegurar a coniabilidade dos resultados do estudo. São
estas técnicas que você irá aprender nessa unidade.
ESTATÍSTICA E PROBABILIDADES

Cálculo de
tamanho de
amostra baseado
em intervalos de
confiança para
uma proporção
Para alguns pesquisadores, a deinição do tamanho da amostra
é o único cuidado necessário para validade estatística do estudo.
Como você observou na introdução dessa unidade, existe uma série
de cuidados que devem ser tomados ao conduzir experimentos em Se o objetivo do
engenharia, além do tamanho da amostra. A começar pelo objetivo estudo é comparar
resultados expressos
do estudo.
em forma de
porcentagens
Se o objetivo do estudo é comparar resultados expressos em forma ou proporções,
existe um método
de porcentagens ou proporções, existe um método adequado para
adequado para o
o cálculo do tamanho amostral. Se o objetivo é comparar resultados cálculo do tamanho
expressos em forma de médias, existe outro método adequado para amostral.
o cálculo do tamanho amostral. Diversos outros fatores podem ser
considerados nestes cálculos, alterando, assim, a adequação de
cada método.

Neste tópico você aprenderá a calcular o tamanho amostral para um


estudo que tem o interesse de estimar uma proporção populacional.
Os parâmetros controlados são o nível de coniança e a margem de
erro máxima desejados para o estudo. Vejamos um exemplo:

Exemplo 8

Uma empresa fabricante de motores deseja comprar correias do


fornecedor Borrachão, pois o atual fornecedor tem apresentado

127
unidade 6
ESTATÍSTICA E PROBABILIDADES

um percentual elevado de peças defeituosas (não conformes).


Para estimar o percentual de correias não conformes produzidas
pelo fornecedor Borrachão, a empresa fabricante de motores
deseja adquirir uma amostra que seja representativa. A equipe
de engenharia deseja que seja conduzido um estudo com 95% de
coniança e margem de erro máxima da estimativa de 2 pontos
percentuais, para mais ou para menos. Qual o tamanho de amostra
necessário para esse estudo? A equação abaixo deverá ser utilizada
para o cálculo do tamanho amostral desejado:

Equação 1: Tamanho de amostra


exigido para estimativa de uma
proporção populacional – Conhecendo
uma estimativa de pˆ

(Z α/2 )2 pq
ˆˆ
n=
E2
Onde:

n: é o tamanho da amostra calculado

zα : escore z que separa uma área de α/2 na cauda direita da


⁄2
distribuição normal padrão

ˆ é uma estimativa da verdadeira proporção populacional.


p:

qˆ : é obtido por 1-p


ˆ

E: é a margem de erro máxima aceitável para o estudo.

Note que a equação acima exige que se tenha um


conhecimento prévio da verdadeira proporção populacional.
Esse pressuposto pode não ser satisfeito na prática. Nesse
caso, deve-se utilizar o valor 0,5 no lugar de p,
ˆ e a equação
passa a ser:

128
unidade 6
ESTATÍSTICA E PROBABILIDADES

Equação 2: Tamanho de amostra


exigido para estimativa de uma
proporção populacional –
Desconhecendo estimativa de pˆ

(Z α/2 )20,25
n=
E2

Para o exemplo das correias, a equipe utilizou a equação 2, uma vez


que não havia conhecimento sobre a estimativa de p.
ˆ

1,962 x 0,25
n=
0,022

n = 2.401

Dessa forma, a equipe concluiu que para estimar a verdadeira


proporção de correias não conformes produzidas pelo fornecedor
Borrachão, com 95% de coniança e uma precisão de 2%, será
necessário coletar uma amostra de 2.401 correias.

Note que, caso a equipe tivesse uma informação quanto ao


verdadeiro percentual de correias não conformes e desejasse
realizar um estudo apenas para conirmação da informação o
tamanho amostral, poderia ser signiicativamente menor. Suponha
que o fornecedor Borrachão airmasse que o percentual de
peças não conformes fosse de 5%. A equipe poderia utilizar essa
informação como uma estimativa de pˆ e poderia então utilizar a
equação 1:

1,962 x 0,05 x 0,95


n=
0,022

n = 456,19 � 457

Observe que o tamanho de amostra necessário para conirmar a


airmação do fornecedor é de apenas 457 correias. Isso sempre

129
unidade 6
ESTATÍSTICA E PROBABILIDADES

acontecerá, ou seja, o tamanho amostral resultante da equação 1


será sempre menor que o resultante da equação 2, pois na primeira
já temos um conhecimento a priori do verdadeiro valor populacional
e desejamos apenas conirmá-lo.

É importante destacar que, para o cálculo do tamanho amostral, o

resultado deve ser sempre arredondado para cima, independentemente

do valor decimal. Assim, no exemplo anterior, apesar de o cálculo

exato resultar em 456,19 ainda assim arredondamos para 457 correias.

Isso ocorre porque o tamanho de amostra mínimo necessário para

atender aos requisitos do nível de coniança e margem de erro seria de

456,19 correias. Como não faz sentido amostrar 0,19 correia, devemos

selecionar uma peça a mais.


Para o cálculo do
tamanho amostral,
Cálculo de tamanho de amostra o resultado deve ser
sempre arredondado
baseado em intervalos de confiança para cima,
para uma proporção – população finita independentemente
do valor decimal.
No tópico anterior aprendemos a calcular o tamanho de
amostra para estimar uma proporção, mas observe que não foi
considerado o total de elementos na população. Isso ocorre em
situações em que a população é considerada infinita, ou seja, o
número de elementos da população é tão grande que pode ser
considerado infinito. Em algumas situações, no entanto, esse
pressuposto não é minimamente razoável. Nessas situações
precisamos utilizar um fator de correção para população finita.
Utilizamos, então, a equação 3:

130
unidade 6
ESTATÍSTICA E PROBABILIDADES

Equação 3: Tamanho de amostra


exigido para estimativa de uma
proporção populacional –
Correção para população inita

ˆˆ (zα )2
N pq /2
n=
ˆˆ (zα/ )2 + (N - 1) E 2
pq 2

Considere que desejamos estimar o percentual de peças defeituosas


em um lote de 100 peças. Qual o tamanho de amostra necessário,
se queremos uma estimativa com 90% de coniança e margem de
erro máxima de 3%? Utilizando a equação 2 teríamos o seguinte
resultado:

1,6452 x 0,25
n= = 752
0,032

Observe que o resultado da equação é irreal, pois como poderíamos


amostrar 457 peças em um lote de 100? Nessa situação devemos
utilizar a equação 3, que leva em consideração o tamanho do lote:

100 x 0,5 x 0,5 (1,645)2


n=
0,5 x 0,5 (1,645)2 + (100 - 1) 0,032

n = 89

O tamanho da amostra passa a ser então 89 peças, o que é real,


ou possível, tendo em vista que o tamanho do lote é de 100 peças.
Caso já existisse uma informação sobre o percentual de peças
defeituosas e fosse desejável apenas conirmar a informação,
o tamanho amostral seria menor. Por exemplo, considere que
normalmente cerca de 5% das peças são defeituosas. Para
conirmar tal informação, seriam necessárias 60 peças na amostra.

100 x 0,05 x 0,95 (1,645)2


n=
0,05 x 0,95 (1,645)2 + (100 - 1) 0,032

n = 60

131
unidade 6
ESTATÍSTICA E PROBABILIDADES

Cálculo de tamanho de
amostra baseado em
intervalos de confiança
para uma média
No início dessa unidade falamos que o cálculo do tamanho amostral
depende de vários fatores, sendo o principal deles o objetivo do
estudo. Nesta seção você aprenderá a calcular o tamanho amostral
para um estudo que tem o interesse de estimar uma média
populacional. Os parâmetros controlados continuam sendo o nível
de coniança e a margem de erro máxima desejados para o estudo.
Vejamos um exemplo:

Exemplo 9

Uma empresa fabricante de baterias automotivas desenvolveu


um novo produto e deseja estimar a sua vida média. De estudos
anteriores, sabe-se que a vida média das baterias produzidas
por esse fabricante segue uma distribuição normal, com desvio-
padrão de seis meses. A equipe de engenharia do produto ressalta
a importância da correta estimação da vida média da bateria, pois
a partir desta será determinado o tempo de garantia. Por essa
razão, decidiu-se que o nível de coniança do estudo será de 99%
e a margem de erro máxima aceitável para a estimativa é de três
meses. Utilizando a equação abaixo, a equipe poderá determinar o
tamanho amostral necessário para atender às exigências do estudo.

Equação 4: Tamanho de amostra exigido para estimativa de uma


média populacional

zα/2 .σ
n=
E

132
unidade 6
ESTATÍSTICA E PROBABILIDADES

Onde:

n: é o tamanho da amostra

zα/2: escore z que separa uma área de α/2 na cauda direita da


distribuição normal padrão

σ: é o desvio-padrão populacional

E: é a margem de erro máxima aceitável para a estimativa.

Utilizando a equação 4, a equipe determinou que para estimar a


vida média da nova bateria desenvolvida, com 99% de coniança na
estimativa e margem de erro máxima de três meses, será necessária
uma amostra de 27 baterias.

n=
{ 2,5753 x 6 } 2 Devemos sempre
arredondar o
resultado para cima.
n = 26,5 ˜ 27

Ao calcular tamanho de amostra para estimativa de uma média


populacional, continua valendo aquela regra de arredondamento
apresentada no tópico anterior, ou seja, devemos sempre arredondar
o resultado para cima.

Você deve ter observado no exemplo 9 que já dispúnhamos de


uma estimativa a priori do desvio-padrão populacional (σ), ou seja,
a equipe utilizou o desvio-padrão das outras baterias. Em muitas
situações práticas, o desvio-padrão populacional não é conhecido e
nesses casos pode-se utilizar uma das seguintes alternativas:

1. Utilização da regra empírica da amplitude para estimação


Amplitude
do desvio-padrão: σ ≈ . Para aplicação dessa
alternativa, é necessário coletar uma amostra piloto
de aproximadamente 87 observações. Para maior

133
unidade 6
ESTATÍSTICA E PROBABILIDADES

esclarecimento sobre essa regra, consulte Triolla (2013),


seção 3-3.

2. Comece o processo de coleta sem o conhecimento de σ


e, como base nos primeiros resultados, obtenha o desvio-
padrão amostral s. Use essa estimativa em lugar de σ.

3. Utilize o valor de σ estimado por outros estudos realizados


anteriormente.

Cálculo de tamanho de amostra


baseado em intervalos de confiança
para uma média – população finita

Nos tópicos anteriores apresentamos uma fórmula alternativa para


o cálculo do tamanho amostral para estimativa de uma proporção
populacional, no caso de populações initas. Da mesma forma,
para calcular o tamanho amostral para estimativa de uma média
populacional, no caso de populações initas, existe também um
fator de correção. A equação abaixo apresenta o método correto
para essas situações:

Equação 5: Tamanho de amostra


exigido para estimativa de uma média populacional –
população inita

N(zσ /2 σ)2
n=
(N - 1)E 2 + (Zα/2 σ)2

Exemplo 10

Suponha que o exército brasileiro deseje encomendar uma remessa


de uniformes para os novos recrutas. Para melhor adequação dos
tamanhos dos uniformes, o sargento decidiu obter uma estimativa
da altura média deles. Dos 100 novos recrutas, o sargento deseja

134
unidade 6
ESTATÍSTICA E PROBABILIDADES

obter a estimativa a partir de uma amostra com 95% de coniança


e margem de erro máxima de cinco centímetros. Sabendo que nos
anos anteriores o desvio-padrão da altura dos recrutas era de 30
centímetros, o sargento utilizou a equação 4 para determinar o
tamanho da amostra necessária, encontrando o valor 139 (maior
que o total de novos recrutas):

n=
[ 1,965 x 30 ]2

n = 139

Sem entender o que havia feito de errado, o sargento decidiu


O planejamento
conversar com um soldado que tinha conhecimento de estatística de experimentos,
para auxiliá-lo. O soldado informou então que, neste caso, o também conhecido
sargento deveria utilizar a equação 5, que leva em consideração o como DOE (Design
of Experiments),
tamanho populacional. Utilizando o método adequado, o sargento
é um conjunto de
decidiu, portanto, que para estimar a altura média dos 100 novos técnicas estatísticas
recrutas, com 95% de coniança e margem de erro máxima da que visa garantir
uma coleta de
estimativa de cinco cm, era necessária uma amostra de 59 recrutas:
dados eficiente
para uma análise
n=
100 x 302 x (1,96)2 de dados que
(100 - 1) x 52 + (30 x 1,96)2 seja informativa e
confiável.
n = 58,3 ˜ 59

Planejamento de
experimentos
O planejamento de experimentos, também conhecido como
DOE (Design of Experiments), é um conjunto de técnicas
estatísticas que visa garantir uma coleta de dados eficiente
para uma análise de dados que seja informativa e confiável.
Esse conjunto de técnicas tem vasta utilização em diversas

135
unidade 6
ESTATÍSTICA E PROBABILIDADES

áreas do conhecimento, desde ciências ligadas à saúde até as


engenharias. Em engenharia, especialmente, o DOE é utilizado
principalmente em Pesquisa e Desenvolvimento, ou na área de
qualidade e desenvolvimento do produto.

O propósito dos experimentos planejados, estatisticamente,


é tornar a análise de dados tão informativa quanto possível.
Experimentos que tenham sido mal planejados fornecem pouca
ou nenhuma informação útil, mesmo com soisticadas técnicas
de análise de dados, e podem levar, inclusive, à conclusões
completamente equivocadas.

Em engenharia, o DOE é utilizado em conjunto com outras técnicas O objetivo do DOE


estatísticas, como as cartas de controle de processos, por é identiicar quais
são os fatores
exemplo, ou combinado ao ciclo PDCA. Nesses casos o objetivo
que atuam sobre
é, normalmente, estudar os efeitos de possíveis fatores sobre o o processo, quais
resultado de um processo, expresso como uma característica desses fatores
da qualidade do produto (ou processo). O planejamento de
são controláveis
e, dentre os
experimentos pode ser deinido assim: controláveis, qual
a relação que têm
Um experimento é um procedimento no qual alterações propositais com o resultado
são feitas nas variáveis de entrada de um processo ou sistema, do processo ou
de modo que se possa avaliar as possíveis alterações sofridas a característica
pela variável resposta como também as razões destas alterações de qualidade de
(WERKEMA & AGUIAR, 1996). interesse.

Todo processo ou sistema é impactado pelos insumos e por um


conjunto de fatores. O objetivo do DOE é identiicar quais são os
fatores que atuam sobre o processo, quais desses fatores são
controláveis e, dentre os controláveis, qual a relação que têm
com o resultado do processo ou a característica de qualidade
de interesse. A igura abaixo ilustra essa situação, podem estar
aturando sobre o sistema os insumos, os equipamentos, as
informações do processo, as condições ambientais, as pessoas,
os métodos e os procedimentos:

136
unidade 6
ESTATÍSTICA E PROBABILIDADES

FIGURA 33 - Modelo geral de um processo ou sistema


Fatores de ruído
(não controláveis)

Y
SISTEMA Varíaveis resposta
Entradas (Características de
(PRODUTO/PROCESSO
Qualidade)

Fatores controláveis
(especiicados pelo pesquisador)

Fonte: WERKEMA & AGUIAR, p.15, 2006. Adaptado.

Considere uma situação em que se deseja estudar a resistência


à compressão de um concreto. O engenheiro civil identiicou que
existem quatro tipos de técnicas de mistura desse concreto e ele
acredita que a resistência à compressão resultante varia conforme
a técnica de mistura utilizada. O objetivo do engenheiro é determinar
qual a técnica produzirá o concreto com maior resistência.

Com esse objetivo, decidiu produzir uma série de corpos de prova,


utilizando cada uma das quatro técnicas e medindo a resistência à
compressão desses concretos. A resistência média seria utilizada
para determinar qual seria a melhor técnica de mistura.

Analisando o experimento com mais cautela, o engenheiro


detectou várias questões que deveriam ser respondidas antes do
início da coleta de dados: existem apenas essas quatro técnicas
de mistura ou existem outras? Por que foram escolhidas estas
quatro técnicas? Existem outros fatores que possam afetar a
resistência à compressão do concreto? Quantos corpos de prova
devem ser produzidos com cada técnica? De que modo os corpos
de prova devem ser alocados às diferentes técnicas de mistura?
Qual método de análise de dados deve ser utilizado? Qual
resistência à compressão deverá ser considerada significativa do
ponto de vista prático?

137
unidade 6
ESTATÍSTICA E PROBABILIDADES

Em todo experimento, a forma de coleta dos dados é fundamental


para interpretação dos resultados e, consequentemente, para
coniabilidade do estudo. Suponha que nesse estudo sobre a
resistência à compressão do concreto tenham sido utilizados quatro
sacos de cimento, provenientes de quatro fornecedores distintos,
sendo alocados da seguinte maneira:

- Técnica de mistura 1 – cimento do fornecedor A

- Técnica de mistura 2 – cimento do fornecedor B

- Técnica de mistura 3 – cimento do fornecedor C

- Técnica de mistura 4 – cimento do fornecedor D

Você concorda com esse procedimento? Ao adotá-lo, o engenheiro


assumiu que as características do cimento dos diferentes
fornecedores são idênticas, ou que qualquer diferença entre os
As réplicas são
cimentos não exerceria influência sobre a resistência à compressão
repetições do
dos corpos de prova. Entretanto, não podemos tomar essa conduta, experimento
pois é bem provável que existam características especíicas de cada feitas sob as
mesmas condições
fornecedor que poderiam impactar na resistência à compressão
experimentais.
dos corpos de prova.

Da maneira como o estudo foi conduzido pelo engenheiro, quando


forem obtidas as resistências à compressão médias de cada
técnica ele não será capaz de dizer quanto da diferença observada
é resultado da técnica de mistura utilizada e quanto é resultado das
diferenças inerentes aos quatro tipos de cimento utilizados. Nesse
caso, dizemos que o efeito da técnica de mistura foi confundido com
o efeito do tipo de cimento. Vamos apresentar agora três princípios
básicos do planejamento de experimentos que devem ser sempre
utilizados. Estes princípios são: réplica, aleatorização e blocagem.

As réplicas são repetições do experimento feitas sob as mesmas


condições experimentais. No exemplo que estamos considerando,
uma réplica do experimento completo consiste em medir a
resistência à compressão de um corpo de prova produzido pela

138
unidade 6
ESTATÍSTICA E PROBABILIDADES

técnica de mistura 1, outro pela técnica 2, outro pela técnica 3


e outro pela técnica 4. Se três corpos de prova foram produzidos
para cada técnica, dizemos que foram produzidas três réplicas do
experimento (veja que teremos 3 x 4 = 12 corpos de prova, mas
apenas três réplicas).

É muito importante que as réplicas sejam produzidas sob as


mesmas condições experimentais. Isso signiica que todos os
demais fatores que possam exercer impacto sobre a característica
resultante de interesse devem ser mantidos constantes.

O segundo princípio básico do DOE é a aleatorização. De acordo


com esse princípio, são deinidos de maneira aleatória tanto a
ordem de realização dos ensaios individuais do experimento,
quanto a alocação de cada corpo de prova às respectivas condições
experimentais. Esse princípio garante que o efeito dos fatores não
controláveis sejam distribuídos igualmente ao longo de todos os Chamamos de
ensaios, evitando assim que haja confusão do efeito desses fatores
blocos os conjuntos
homogêneos
com o efeito dos fatores de interesse. de unidades
experimentais.
No exemplo citado, suponha que os corpos de prova serão
produzidos por operadores distintos e, como se sabe, a habilidade
dos operadores pode influenciar a qualidade do concreto produzido.
Logo, se todas as amostras produzidas através da técnica de mistura
1 forem feitas pelo operador menos experiente, poderemos estar
continuamente colocando a técnica de mistura 1 em desvantagem,
em relação às outras técnicas de mistura. A distribuição aleatória
da ordem de produção de cada corpo de prova para cada operador
atenuaria esse problema.

O terceiro e último princípio básico é o princípio da blocagem.


Chamamos de blocos os conjuntos homogêneos de unidades
experimentais. No exemplo considerado, os corpos de prova são
produzidos com cimento de fornecedores distintos. Logo são
bastante heterogêneos em relação a outros fatores além da técnica
de mistura.

139
unidade 6
ESTATÍSTICA E PROBABILIDADES

Para resolver esse problema, podemos realizar o experimento


da seguinte maneira: Cada pacote de cimento será utilizado para
produzir um corpo de prova para cada técnica de mistura. Nesse
caso, cada bloco é um pacote de cimento (fornecedor) que será
utilizado para produzir quatro corpos de prova. A igura 34 ilustra
como icaria o experimento. Cada retângulo vertical (azul claro) é
considerado um bloco enquanto cada retângulo horizontal (azul
escuro) é um corpo de prova produzido por uma das quatro técnicas
de mistura. Logo, para o cimento proveniente do fornecedor A, por
exemplo, serão produzidos quatro corpos de prova, um para cada
técnica de mistura. Este procedimento é mais adequado que aquele
proposto pelo engenheiro no início da seção, em que cada pacote
de cimento seria utilizado para produção de quatro corpos de prova,
utilizando uma única técnica de mistura.

FIGURA 34 - Blocagem dos cimentos para cada tipo de técnica de mistura do concreto

FORNECEDOR A FORNECEDOR B FORNECEDOR C FORNECEDOR D

Téc. 1 Téc. 1 Téc. 1 Téc. 1

Téc. 2 Téc. 2 Téc. 2 Téc. 2

Téc. 3 Téc. 3 Téc. 3 Téc. 3

Téc. 4 Téc. 4 Téc. 4 Téc. 4

Fonte: Elaborado pelo autor

Planejamento de
experimentos -
terminologia básica
Agora que você já aprendeu quais são os princípios básicos do DOE,
vamos aprender alguns termos comuns e muito úteis para o bom
planejamento do experimento. Serão apresentados seis termos
básicos, a saber: Unidade Experimental, Fatores, Níveis de um
Fator, Tratamento, Ensaio e Variável Resposta (ou desfecho). Para

140
unidade 6
ESTATÍSTICA E PROBABILIDADES

melhor entendimento, vamos utilizar o exemplo sobre resistência à


compressão do concreto, do tópico anterior, e deinir cada termo.

A Unidade Experimental é a unidade básica para a qual será feita a


medida da resposta. No nosso exemplo, cada unidade experimental
corresponde a um corpo de prova do concreto utilizado no estudo.

Os Fatores são os tipos distintos de condições que são manipuladas as


unidades experimentais. Ou seja, são as variáveis controláveis que podem
exercer influência sobre a variável resposta. E desejamos conhecer essa
influência. No exemplo citado temos um único fator: técnica de mistura.

Os Níveis de um fator são os diferentes modos de presença de


um fator no estudo considerado. No exemplo citado, os níveis do
fator técnica de mistura são os diferentes tipos de técnica: Técnica
1, Técnica 2, Técnica 3 e Técnica 4. Podemos dizer, portanto, que
Os Níveis de
nosso fator tem quatro níveis.
um fator são os
diferentes modos
Chamamos de Tratamento as combinações especíicas dos níveis de presença de um
fator no estudo
de diferentes fatores. Quanto temos apenas um fator, como no
considerado.
nosso exemplo, os tratamentos são os próprios níveis dos fatores,
Tratamento 1 = Técnica 1, Tratamento 2 = Técnica 2, Tratamento 3
= Técnica 3 e Tratamento 4 = Técnica 4.

Em alguns estudos podemos desejar estudar dois ou mais fatores com


diferentes níveis. Nesses casos, os tratamentos seriam a combinação
de cada nível do fator 1 com cada um dos diferentes níveis do fator 2.
Suponha que um engenheiro deseja estudar o efeito de dois métodos
de pintura de para-choques de automóveis (imersão e aspersão) e de
três tipos de tinta (A, B e C) sobre a força de adesão da tinta.

Aqui, o fator 1 seria o método de pintura, que tem dois níveis


(Imersão e Aspersão) e o fator 2 seria o tipo de tinta, que tem três
níveis (A, B e C). Para esse estudo, teríamos 2x3=6 tratamentos, a
saber: T1 = Imersão + Tinta A, Imersão + Tinta B, Imersão + Tinta C,
Aspersão + Tinta A, Aspersão + Tinta B e por im, Aspersão + Tinta

141
unidade 6
ESTATÍSTICA E PROBABILIDADES

C. Observe que a unidade experimental seria cada um dos para-


choques sobre os quais aplicaríamos os distintos tratamentos.

Deinimos como Ensaio cada realização do experimento em uma


determinada condição de interesse (tratamento), ou seja, ao aplicar
um tratamento a uma unidade experimental, realizamos um ensaio.
No nosso exemplo sobre a resistência à compressão do concreto,
cada ensaio consiste em produzir um corpo de prova utilizando
determinada técnica de mistura do concreto.

No exemplo sobre os métodos de pintura de para-choques


automotivos, um ensaio seria aplicar um tratamento em uma
unidade experimental (para-choque), por exemplo, pintar um para-
choque por Imersão usando tinta A.

Por im, o termo Variável Resposta, você já conheceu nas unidades


anteriores, nada mais é que o resultado de interesse registrado após
a realização de um ensaio. No exemplo sobre as técnicas de mistura
do concreto, a variável resposta é a resistência à compressão do corpo
de prova produzido com cada uma das técnicas de mistura. Já no
exemplo sobre os métodos de pintura de para-choques automotivos,
a variável resposta é força de adesão da tinta sobre o para-choque,
medida após a aplicação da tinta com cada método de aplicação e tipo
de tinta.

Considere que você tenha uma máquina de secar roupas que trabalha

com diferentes níveis de temperatura e deseja determinar o efeito do nível

de temperatura sobre o tempo de secagem das roupas.

a. Deina para essa situação cada um dos seis termos básicos.

b. O que seria uma réplica nesse estudo?

c. Descreva um viés de amostragem que poderia ser resolvido pela

aleatorização.

142
unidade 6
ESTATÍSTICA E PROBABILIDADES

d. Descreva um viés de amostragem que poderia ser resolvido pela

blocagem.

SOLUÇÂO:

a. Unidade Experimental: Cada trouxa de roupa molhada que será

introduzida para secagem.

Fator: O fator, nesse caso, é a temperatura de operação da máquina

de lavar.

Níveis do fator: Os níveis do fator são as diferentes faixas de

temperatura da secadora, podendo ser Baixo, Médio e Alto, por

exemplo.

Tratamento: Como estamos trabalhando com um único fator, os

níveis do fator são o próprio tratamento, logo, T1=baixo, T2=médio

e T3 = Alto.

Ensaio: Um ensaio seria secar uma trouxa de roupa utilizando

temperatura baixa, por exemplo. Outro ensaio seria secar outra

trouxa de roupa utilizando temperatura alta.

Variável resposta: A variável resposta desse estudo é o tempo

para secagem das roupas, que pode ser medido em minutos, por

exemplo.

b. Para este estudo, uma réplica seria secar umas três trouxas de

roupa, sendo uma para cada nível de temperatura da secadora, ou

seja, um ensaio para cada um dos tratamentos existentes.

c. A temperatura ambiente poderia ser um fator, de maneira que, caso

realizássemos todos os ensaios com tratamento 1 (temperatura

baixa) no período manhã (normalmente mais frio) e todos os

ensaios com tratamento 3 (temperatura alta) no período da tarde

(normalmente mais quente), por exemplo, no inal não saberíamos

dizer quanto da diferença no tempo de secagem é devido aos

diferentes níveis de temperatura da máquina, e quanto é devido

à variação da temperatura ambiente. Aleatorizando a ordem de

realização dos ensaios atenuaríamos esse problema.

143
unidade 6
ESTATÍSTICA E PROBABILIDADES

d. Diferentes tipos de roupa poderiam ser um problema, uma vez

que roupas com malhas mais grossas levam um tempo maior

para secar do que outras. Devem-se agrupar as roupas por

características semelhantes de fabricação, como leveza do pano,

tamanho das peças. A quantidade das mesmas também deve

ser controlada para que cada ensaio seja feito de forma mais

homogênea possível. Por exemplo, se tiver disponível três peças de

moletom, deve-se alocar uma a cada trouxa de roupas, ou se tiver

seis peças jeans, deve-se alocar duas para cada trouxa de roupas.

Revisão
Nesta unidade você aprendeu que, para calcular o tamanho
amostral, diversos fatores devem ser levados em consideração.
Em especial você aprendeu a calcular o tamanho amostral em
quatro situações: quando o objetivo do estudo é a estimativa de
uma proporção populacional, sendo o tamanho populacional inito
ou “ininito”. E quando o objetivo do estudo é a estimativa de uma
média populacional, novamente, sendo o tamanho populacional
inito ou “ininito”. O quadro abaixo resume essas situações:

QUADRO 4 - Equações para cálculo de tamanho amostral segundo objetivos do estudo

Estimar uma proporção populacional Estimar uma média populacional

População Ininita: Equação 1 População Ininita: Equação 3


ˆˆ
E2

População Finita: Equação 2 População Finita: Equação 4


ˆˆ
ˆˆ (Zα/ )2 + (N - 1) E2
pq 2

Fonte: Elaborado pelo autor.

144
unidade 6
ESTATÍSTICA E PROBABILIDADES

Você aprendeu também que em qualquer área do conhecimento a


coleta de dados deve ser sempre precedida pelo planejamento do
experimento. Essa prática assegura a coniabilidade dos resultados
e simpliica os métodos de análise. Por outro lado, a não observância
dessa prática inviabiliza a utilização dos resultados a despeito de
qualquer técnica estatística, por mais soisticada que seja.

Neste sentido, os princípios básicos que você aprendeu foram:


réplica, aleatorização e blocagem. E também os seis termos básicos
utilizados em qualquer planejamento de experimentos, a saber:
Unidade Experimental, Fatores, Níveis de um fator, Tratamento,
Ensaio e Variável Resposta.

Se você tem interesse em aprender mais sobre o cálculo do tamanho de

amostra para estimação de médias ou proporções, levando em consideração

o nível de coniança e margem de erro da estimativa, leia o capítulo 8 do livro:

MONTGMOMERY, Douglas C. George C. Runger. Estatística aplicada e

probabilidade para engenheiros. trad e rev téc Verônica Calado - Rio de

Janeiro: LTC, 2009.

Para este assunto você pode ler também o capítulo 7 do livro:

TRIOLLA, Mario F. Introdução à Estatística: Atualização da tecnologia. trad

e rev téc Ana Maria Lima de Farias, Vera Regina Lima de Farias e Flores.

Rio de Janeiro: LTC, 2013.

Se você tem interesse em aprofundar sobre Planejamento de Experimentos,

leia o capítulo 13 do livro:

MONTGMOMERY, Douglas C. George C. Runger. Estatística aplicada e

probabilidade para engenheiros. trad e rev téc Verônica Calado. Rio de

Janeiro: LTC, 2009.

145
unidade 6
ESTATÍSTICA E PROBABILIDADES

Ou você pode ler o capítulo 1 do livro:

WERKEMA, Maria Cristina Catarino; AGUIAR, Silvio. Planejamento e análise

de experimentos: Como Identiicar as principais variáveis influentes em um

processo. Belo Horizonte: Fundação Cristiano Ottoni, Escola de Engenharia

da UFMG, 1996.

146
unidade 6
Testes de
Hipóteses
Introdução

O teste de hipóteses é uma técnica estatística utilizada para avaliar


alguma airmação feita sobre uma população de interesse através
de dados amostrais. Por exemplo: um engenheiro pode estar
interessado em avaliar a hipótese de que o tempo de duração de
um fusível seja de 1.000 horas, contra a hipótese de que tal valor
seja diferente de 1.000 horas. Essa seria uma airmação sobre uma
média, uma vez que a variável de interesse – tempo de duração – é
quantitativa. Nesse caso, o objetivo é testar se a hipotética média
de 1.000 horas é verdadeira.

No exemplo em questão, seria impraticável observar o tempo de • A construção


e o significado
duração de todos os fusíveis fabricados, ou seja, da população de uma hipótese
de interesse. De forma que é necessária a utilização de dados estatística
amostrais. O engenheiro poderia selecionar alguns fusíveis, calcular • Testes para uma
o valor da média e comparar com o valor proposto de 1.000 horas. amostra
• Testes para
Você irá aprender que, além de avaliar airmações sobre médias,
duas ou mais
amostras
as hipóteses estatísticas também podem ser testadas para outros
• Revisão
parâmetros de interesse, como proporções (em caso de variáveis
categóricas), desvio-padrão, medianas, etc.
ESTATÍSTICA E PROBABILIDADES

A construção e
o significado de
uma hipótese
estatística
Uma hipótese estatística pode ser construída a partir de alguma teoria
sobre determinado assunto, ou através de alguma airmação sobre
certo parâmetro da população em análise. No caso do engenheiro
interessado em testar se o tempo médio de duração de um fusível
é 1.000 horas, a hipótese não se deu através de uma teoria, mas
possivelmente em função da experiência dele com o assunto.

Um teste estatístico tem como objetivo o fornecimento de


evidências para subsidiar a decisão de rejeitar ou não rejeitar uma
hipótese sobre algum parâmetro de uma população através de Damos o nome de
hipótese alternativa
dados obtidos por uma amostra.
à airmação contrária
à da hipótese nula.
A airmação sobre a média populacional é tida como a hipótese
nula. Damos o nome de hipótese alternativa à airmação contrária
à da hipótese nula.

Hipótese nula: Refere-se a uma airmação do que queremos provar sobre

algum parâmetro. Geralmente representada por H0.

Hipótese alternativa: Refere-se a uma airmação contrária ao que

queremos provar. Geralmente representada por H1 ou Ha.

Exemplo 11

Um fabricante airma que o tempo médio de secagem da tinta de


sua marca é de 30 minutos. Uma pessoa decide testar se essa

149
unidade 7
ESTATÍSTICA E PROBABILIDADES

airmação é verdadeira. Para isso, marca o tempo de secagem de


40 paredes e depois calcula a média. Quais seriam as hipóteses
nula e alternativa?

SOLUÇÃO:

A hipótese nula é o tempo de secagem, igual a 30 minutos.

A hipótese alternativa é o contrário (ou o complemento): o tempo de


secagem é diferente de 30 minutos. As hipóteses são representadas
da seguinte forma:

H0: μ = 30 minutos

H1: μ ≠ 30 minutos

Nível de
Além da deinição acerca das hipóteses, o nível de signiicância signiicância:
também deve ser escolhido pelo analista.
Consiste na
probabilidade de
rejeitar a hipótese
nula, dado que ela é
verdadeira.

Nível de signiicância: Consiste na probabilidade de rejeitar a hipótese

nula, dado que ela é verdadeira. Geralmente é representado pela letra grega

alfa (α). O nível de signiicância também é conhecido como erro tipo I.

Qual seria o signiicado da expressão “... rejeitar a hipótese nula,


dado que ela é verdadeira”? Assim como no exemplo do tempo de
duração do fusível, em que o analista resolve testar se a airmação
de que o fusível sobrevive por 1.000 horas, a operacionalização
do teste ocorre a partir de dados amostrais. Nesse caso, pode ser
obtida uma amostra muito ou pouco parecida com a população.
Tanto no primeiro como no segundo caso existem probabilidades
associadas. Existem chances de coletar uma amostra que dê
evidências de que a hipótese seja rejeitada, mesmo quando, na
verdade, a hipótese seja verdadeira. O analista sempre corre o risco

150
unidade 7
ESTATÍSTICA E PROBABILIDADES

de tomar uma decisão equivocada no que se refere à rejeição ou não


da hipótese nula, cabendo a ele escolher quanto risco aceita correr.
Esse risco é conhecido como nível de signiicância e geralmente é
estipulado em 10%, 5% ou 1%. Dessa forma, ao efetuar um teste de
hipóteses com 5% de signiicância, podemos airmar que exista 5%
de probabilidade de rejeitar a hipótese nula, quando na verdade ela é
verdadeira, ou seja, 5% de chance de cometer o erro tipo I.

Os testes de hipótese com airmações sobre médias ou proporções


podem ser feitos principalmente com uma ou duas amostras. No
primeiro caso é testada uma airmação sobre o valor que a variável
assume. No segundo caso são comparados os valores de média
ou proporção entre dois grupos. Além disso, podemos fazer testes
unilaterais ou bilaterais. O próximo tópico aborda o teste bilateral
Se o tamanho da
com uma amostra.
amostra for pequeno
(menor do que 30)
e o desvio-padrão
for desconhecido,
Testes para a distribuição da
estatística de teste
uma amostra apresenta formato
mais próximo da
distribuição t de
A distribuição da estatística de teste tende para o formato de uma Student.
distribuição normal quando o tamanho da amostra é relativamente
grande (geralmente maior ou igual a 30). Se o tamanho da amostra
for pequeno (menor do que 30) e o desvio-padrão for desconhecido,
a distribuição da estatística de teste apresenta formato mais
próximo da distribuição t de Student. Essa informação é importante
porque deinirá até que valor da estatística de teste a hipótese deve
ser rejeitada.

Testes de grandes amostras para uma média populacional

O exemplo a seguir consiste numa situação em que é feita uma


airmação acerca do valor de uma média (parâmetro mais testado
quando trabalhamos com variáveis quantitativas).

151
unidade 7
ESTATÍSTICA E PROBABILIDADES

Exemplo 12

Uma indústria realiza o empacotamento do produto café em


grãos. Um dos objetivos é que a embalagem contenha 500
gramas de café. É natural que em situações como essa exista
alguma variação no peso do produto empacotado. Dessa forma,
podem ter pacotes com 498 gramas, com 502 gramas, com 501
gramas, com 499 gramas, ou qualquer outro valor próximo do
especificado. No entanto, a indústria geralmente trabalha para
que exista certa margem de aceitação tanto para cima quanto
para baixo, devido aos seguintes fatores:

• pacotes com volume muito alto podem provocar aumento


exagerado de custos;

• pacotes com peso muito abaixo dos 500 gramas


podem provocar sanções à indústria junto aos órgãos
de fiscalização.

Para certificar de que o peso esteja dentro da margem aceitável,


pode ser inviável verificar todos os produtos embalados (ou
seja, toda a população de interesse). Nesse contexto, torna-
se interessante utilizar amostras para testar se o processo
encontra-se dentro de padrões aceitáveis, ou seja, para testar
se o processo encontra-se sobre controle.

Suponha que um profissional especializado em controle


estatístico de processos resolva fazer esse teste. Nesse
caso, o objetivo é testar a hipótese de que o processo
esteja sob controle, ou seja, que o peso médio do café após
empacotamento seja de 500 gramas. Para a operacionalização
do teste, 36 pacotes foram inspecionados (pesados). Sabendo
que a média obtida através dessa amostra foi de 502 gramas,
e que o desvio-padrão foi de 3 gramas, podemos afirmar que o
processo está sob controle?

Para operacionalizar esse teste, devemos seguir as seguintes etapas:

152
unidade 7
ESTATÍSTICA E PROBABILIDADES

1ª etapa: Estabeleça as hipóteses de interesse

No caso em estudo, o parâmetro2 a ser testado é a média. Temos o


interesse em veriicar se ela é igual a 500 gramas. Então devemos
estabelecer as hipóteses nula e alternativa. Dessa forma, as
hipóteses são:

H0: μ = 500 gramas

H1: μ ≠ 500 gramas

Note que o teste refere-se à média populacional e não amostral.


A média amostral será utilizada como base para tomar a decisão
sobre rejeição ou não rejeição da hipótese nula. Os parâmetros mais
frequentemente
2ª etapa: Obtenção da estatística de teste investigados
através dos testes
de hipóteses
O valor médio obtido pela amostra foi: = 502 gramas. Será que são: a média, o
esse valor foi obtido em função da variabilidade amostral3 , ou desvio-padrão, no
caso de variáveis
seja, o valor obtido de 502 gramas é próximo do valor proposto
quantitativas e
de μ = 500 gramas? Para respondermos a essa questão devemos a proporção, no
veriicar qual a probabilidade de obter o valor 502 gramas, caso de variáveis
levando em consideração a distribuição das médias amostrais, categóricas.)
ou seja, a possibilidade de obtenção de resultados diferentes
de amostra para amostra. Para isso, utilizamos a distribuição
normal padronizada quando o valor de σ é conhecido ou quando
o tamanho da amostra é razoavelmente grande (geralmente
igual ou acima de 30). Quando a amostra é pequena (geralmente
menor do que 30) e o desvio-padrão é desconhecido, utilizamos

2 - Um parâmetro refere-se à determinada medida que caracterize a população de


interesse. Os parâmetros mais frequentemente investigados através dos testes
de hipóteses são: a média, o desvio-padrão, no caso de variáveis quantitativas e a
proporção, no caso de variáveis categóricas.)
3 - A variabilidade amostral ocorre porque existem chances de tomarmos tanto
amostras parecidas com a população de interesse quanto amostras pouco
semelhantes à população. Qualquer processo de amostragem sujeita-se a essa
situação. Cabe ao pesquisador levar esse fato em consideração ao construir um
teste de hipóteses

153
unidade 7
ESTATÍSTICA E PROBABILIDADES

a distribuição t para avaliar a probabilidade em questão. Como


no presente exemplo temos uma amostra de tamanho igual a
36, podemos trabalhar com a distribuição normal padronizada.
Nomeamos o valor obtido da estatística de teste, que é calculada
de acordo com a fórmula abaixo:


Z= σ
x

Essa fórmula permite que a média amostral obtida passe de


qualquer escala (em gramas, no presente exemplo) para número
de desvio-padrão. Isso possibilita traçar comparações com os
valores de probabilidade da distribuição normal padronizada (em
que a unidade de medida é a quantidade de desvio-padrão). Sem
esse procedimento, essa comparação seria pouco viável. A fórmula
é composta dos seguintes itens:

Z: Escore da distribuição normal padronizada

: Média obtida através da amostra

μ: Valor da média populacional a ser testada

σx: Valor do desvio-padrão da distribuição das médias amostrais.

σ
σx = √n

Caso não se conheça o desvio-padrão populacional σ (situação


muito comum), podemos utilizar o desvio-padrão obtido através
da amostra:

s
s = √n
x

Dessa forma, a estatística de teste passa a ser:


Z = s/√n

154
unidade 7
ESTATÍSTICA E PROBABILIDADES

Com os dados do problema, temos então:

502 - 500
Z= = 4,0
3/√36

O número obtido signiica que 502 gramas encontram-se a 4,0


desvios-padrão de distância da média populacional de 500 gramas.
Mas esse valor é perto ou longe da média populacional?

• Quando Z = 0, pode-se airmar que a média amostral é


exatamente igual ao valor hipotético da média populacional.

• Quando Z = 1, a probabilidade do valor da média


amostral ter sido obtido devido à flutuação amostral é de
aproximadamente 34%, pois 68% dos dados encontram-se
a até um desvio-padrão de distância da média, conforme
a igura 35.

FIGURA 35 - Área da distribuição normal padronizada


de acordo com o número de desvios-padrão.

Fonte: TRIOLA, 2013, p. 88.

• Quando Z = 2, a probabilidade do valor da média


amostral ter sido obtido devido à flutuação amostral é de

155
unidade 7
ESTATÍSTICA E PROBABILIDADES

aproximadamente 5%, pois 95% dos dados encontram-se a


até um desvio-padrão de distância da média4.

• Quando Z = 3, a probabilidade do valor da média


amostral ter sido obtido devido à flutuação amostral é de
aproximadamente 0,2%, pois 99,8% dos dados encontram-
se a até um desvio-padrão de distância da média.

Utilizando o mesmo raciocínio, com o valor de Z = 4,0, depreende-


se que a probabilidade do valor da média amostral ter sido obtida
devido à flutuação amostral seja bem menor que 0,2%. Dessa forma,
o valor de Z = 4 signiica que os 502 gramas obtidos pela amostra
apresentam uma grande distância dos 500 gramas propostos na
hipótese nula (a distância de 2 gramas corresponde a 4 desvios-
padrão). O fato dos valores serem tidos como distantes implica na
rejeição da hipótese nula. Para deinir quais valores do escore Z
são considerados altos, utiliza-se o desenho da distribuição normal
padronizada, conforme o 3º passo.

Os valores acima podem ser obtidos através de um software


estatístico, ou pela tabela Z.

3ª etapa: Obtenção da região de rejeição

Para tomar a decisão de rejeitar ou não a hipótese nula, podemos


utilizar o diagrama da igura 36:

4 - Observe pela Figura 35 que 34% + 13,5% = 47,5%. Ao multiplicarmos esse valor
por dois, obtemos os 95%.

156
unidade 7
ESTATÍSTICA E PROBABILIDADES

FIGURA 36 - Regiões de rejeição da hipótese nula

Fonte: Elaborado pelo autor.

A igura 36 representa a distribuição normal padronizada. A área em


vermelho refere-se à região de rejeição da hipótese nula. Valores
menores que - 1,96 desvios-padrão ou maiores que + 1,96 desvios-
padrão são considerados demasiadamente afastados quando
consideramos uma signiicância de 5% para o teste bilateral (ou
seja, podemos considerar que tais valores sejam pontos de corte).
Dessa forma, cada uma das áreas em vermelho representa 2,5%
dos dados. A área total abaixo dos dados (soma da área verde com
a área vermelha) representa 100% dos dados.

Quando o valor da estatística de teste encontra-se na região em


vermelho, consideramos pouco provável que a média amostral (ou
outra estatística) tenha sido resultado das flutuações amostrais. Os
valores críticos (- 1,96 e 1,96) foram obtidos pelo percentil 97,5 da
tabela da distribuição normal padronizada. Podem ser calculados
também através de softwares estatísticos. A igura 37 indica de
onde os dados foram obtidos.

Devemos procurar na tabela o valor do nível de signiicância dividido


por 2, ou seja α⁄2, pois o teste é bilateral, o que implica em duas
regiões de rejeição (as caudas direita e esquerda da distribuição,
conforme a igura 37). Observe que a combinação da linha com a
coluna gera o valor do escore Z = 1,96. O número 1,96 foi obtido

157
unidade 7
ESTATÍSTICA E PROBABILIDADES

através da combinação da coluna e linha formados pelo valor 0,0250


referente à área da cauda direita (ou esquerda) da distribuição
normal padronizada.
FIGURA 37 - Distribuição normal padrão

Fonte: BARBETTA, 2010, p. 377

158
unidade 7
ESTATÍSTICA E PROBABILIDADES

4ª etapa: Conclusão

Com base nos valores obtidos pela estatística de teste e pela


região de rejeição, tomamos uma decisão em relação à hipótese
nula. No caso em questão, a decisão é rejeitá-la, pois o valor 4
desvios-padrão (relativo aos 2 gramas de distância entre a média
amostral e a média populacional proposta na hipótese nula) pode
ser considerado muito longe da média, uma vez que se encontra na
parte vermelha do diagrama. A estatística de teste no valor de 4,00
é maior do que o valor crítico de + 1,96 (número obtido na tabela da
Figura 37, que serve de referência para rejeição ou não rejeição da
hipótese nula).

Exemplo 13

Um processo foi delineado para fabricar bancadas de tamanho


igual a 120 centímetros. Para veriicar se o processo encontra-se
sob controle, um especialista coletou uma amostra de 64 peças.
Foi obtida uma média amostral = 120,2 centímetros, com desvio-
padrão s = 1,6 centímetros. Teste a hipótese de que o processo
encontra-se sob controle, ou seja, que a média populacional μ seja
igual a 120 centímetros. Use signiicância de 10%.

1ª etapa: Estabeleça as hipóteses de interesse

H0 : μ = 120 centímetros

H1 : μ ≠ 120 centímetros

2ª etapa: Obtenção da estatística de teste


Z=
s/√n

159
unidade 7
ESTATÍSTICA E PROBABILIDADES

Com os dados do problema, temos então:

120,2 - 120,0
Z= = 1,0
1,6/√64

3ª etapa: Obtenção da região de rejeição

FIGURA 38 - Regiões de rejeição da hipótese nula.

Fonte: Elaborado pelo autor.

O valor crítico de 1,645 positivo (ou negativo) foi obtido pela


combinação da linha e coluna relativas à área igual a 0,050 (0,100
dividido por 2)5 da tabela da distribuição normal padrão da igura 38.

5 - O valor 0,10 refere-se aos 10% escolhidos como nível de signiicância pelo
pesquisador. Tal valor consiste na probabilidade de rejeitar a hipótese nula, dado
que ela é verdadeira, ou seja, probabilidade de tomar uma decisão equivocada em
relação à hipótese.

160
unidade 7
ESTATÍSTICA E PROBABILIDADES

FIGURA 39 - Distribuição normal padrão

Fonte: BARBETTA, 2010, p. 377

161
unidade 7
ESTATÍSTICA E PROBABILIDADES

4ª etapa: Conclusão

Como o valor de Z = 1,00 obtido pela estatística de teste não supera


a valor crítico de 1,645, ou seja, não pertence à região crítica, não
rejeitamos a hipótese nula. Não podemos descartar a hipótese de
que a média seja 120 centímetros. Portanto, há indícios de que o
processo encontra-se sob controle.

Testes de hipóteses para amostras


pequenas
Nos exemplos 12 e 13 as amostras têm tamanho maior que 30.
Quando a amostra for pequena (menor do que 30) e o desvio-
padrão for desconhecido (situação mais frequente), devemos
utilizar a Distribuição t de Student para realizar o teste.

O exemplo 14 consiste num problema de teste de média em que a


amostra é pequena e o desvio-padrão (σ) é desconhecido.

Exemplo 14

Um engenheiro acredita que um processo esteja sob controle


produzindo esferas com 10 milímetros de diâmetro. Foi coletada uma
amostra com 16 esferas cujo o valor obtido para a média foi X = 10,2
milímetros e desvio-padrão s = 0,20 milímetros. Teste a hipótese de
que a média seja igual a 10 milímetros. Use signiicância de 5%.

1ª etapa: Estabeleça as hipóteses de interesse

H0: μ = 10 milímetros

H1: μ ≠ 10 milímetros

2ª etapa: Obtenção da estatística de teste

Nesse caso, devemos utilizar o escore t no lugar do Z:

162
unidade 7
ESTATÍSTICA E PROBABILIDADES

Com os dados do problema, temos então:

- μ = 10,2 - 10,0
t=
s/√n 0,2/√16 = 4,0

3ª etapa: Obtenção da região de rejeição

Nesse caso, devemos trabalhar com a distribuição t:

FIGURA 40 - Distribuição t de Student

Fonte: Elaborado pelo autor.

Para saber o valor crítico, devemos consultar a tabela t. Como a


amostra conta com 16 elementos, temos 15 graus de liberdade.
Como o nível de significância é igual a 5%, devemos procurar o
escore t na coluna do 0,05 (área em duas caudas, pois o teste é
bilateral)

163
unidade 7
ESTATÍSTICA E PROBABILIDADES

FIGURA 41 - Tabela da Distribuição t

Fonte: TRIOLA, 2013, p. 614.

4ª etapa: Conclusão

Como o valor 4,0 obtido pela estatística de teste supera a valor


crítico 2,13 obtido pela distribuição t, rejeitamos a hipótese de que a
média seja de 10 milímetros. Portanto, o processo encontra-se fora
de controle.

164
unidade 7
ESTATÍSTICA E PROBABILIDADES

Teste para uma proporção


Quando trabalhamos com variáveis quantitativas, o principal
parâmetro de interesse costuma ser a média. Além da média, outros
parâmetros também podem ser testados, como, por exemplo, o
desvio-padrão. No caso de variáveis categóricas, geralmente a
medida de interesse a ser testada é uma proporção.

No teste de hipóteses, o valor do erro padrão da proporção


geralmente está baseado no uso do valor hipotético:

π (1 -π)
Sp =
n

A fórmula para o cálculo de Z para testar uma hipótese voltada para


Quando trabalhamos
o valor da proporção da população é:
com variáveis
quantitativas, o
Z=
p-π principal parâmetro
Sp de interesse
costuma ser a
média.
O exemplo 15 consiste num teste de proporção.

Exemplo 15

Um engenheiro acredita que 30% dos trabalhadores de uma


determinada irma icam estressados quando fazem horas extras
durante a madrugada. Foi coletada uma amostra com 49 trabalhadores,
dos quais 12 airmaram se estressar nessa situação. Teste a hipótese
de que a proporção seja de 30%. Use signiicância de 5%.

1ª etapa: Estabeleça as hipóteses de interesse

H0: π = 0,30

H1: π ≠ 0,30

165
unidade 7
ESTATÍSTICA E PROBABILIDADES

Observação 1: Enquanto a média é representada pela letra μ, a


proporção é representada pela letra grega π (pi).

Observação 2: Para representarmos os 30% propostos na hipótese


nula, utilizamos a escala decimal. Dessa forma, o valor utilizado nos
cálculos é 0,30 (ou seja, 30 dividido por 100).

2ª etapa: Obtenção da estatística de teste

Antes de obtermos o escore padronizado Z, devemos calcular o


desvio-padrão da proporção populacional, dado pela fórmula a seguir:

Sp =
π (1 -π)
n
=
0,30 (1 - 0,30)
49
=
0,21
49
= √0,004286 = 0,0655

O escore padronizado então é:


p-π 0,2653 - 0,3000 - 0,0347
Z= = = = -0,53
sp̂ 0,0655 0,0655

3ª etapa: Obtenção da região de rejeição

Como o teste é bilateral e com 5% de signiicância, obtemos através


da tabela Z o valor crítico igual a - 1,96.

FIGURA 42 - Distribuição normal padronizada

Fonte: Elaborado pelo autor.

166
unidade 7
ESTATÍSTICA E PROBABILIDADES

4ª etapa: Conclusão

O valor - 0,53, obtido pela estatística de teste, encontra-se fora da


região de rejeição, sendo próximo de zero e longe do valor crítico de
-1,96. Dessa forma, não rejeitamos a hipótese nula. Portanto, não
há indícios de que a proporção de trabalhadores estressados na
empresa estudada seja diferente de 30%.

No próximo tópico você verá situações em que o pesquisador


tem como interesse comparar os valores dos parâmetros de
duas amostras.

Testes para duas ou


mais amostras Temos um teste
de hipótese para a
Nos tópicos anteriores aprendemos a delinear testes de hipóteses comparação de duas
bilaterais em que uma airmação numérica é feita sobre uma média médias ou de duas
proporções.
ou uma proporção para uma amostra. Em algumas situações o
pesquisador tem interesse em comparar tais valores em dois grupos.
Nesse caso, podemos airmar que temos um teste de hipótese para
a comparação de duas médias ou de duas proporções.

Teste para a comparação de duas


médias em amostras independentes
Em várias situações devemos decidir se uma diferença observada
entre as médias de dois grupos pode ser atribuída ao acaso ou se
há indícios de que os valores obtidos de fato provêm de populações
com médias diferentes. Quando desejamos comparar as médias
obtidas por duas amostras independentes, utilizamos a seguinte
estatística de teste:

167
unidade 7
ESTATÍSTICA E PROBABILIDADES

1 - 2
Z=
n1 n2

O numerador apresenta as médias das duas amostras, enquanto o


denominador consiste na raiz da soma dos desvios-padrão divididos
pelos respectivos tamanhos de amostras. No exemplo 16 é feito um
teste em que são comparadas as médias de duas amostras.

Exemplo 16

Um engenheiro resolveu comparar o tempo de secagem de duas


marcas diferentes de tintas para determinado tipo de parede. Para
a marca A foram veriicados os tempos de secagem de 50 paredes.
O tempo médio obtido foi A = 80 minutos, com desvio-padrão
s1 = 6 minutos. Para a marca B, foram veriicadas 40 paredes, com
tempo médio B = 88 minutos e desvio-padrão s2 = 10 minutos.
Teste a hipótese de que não existe diferença entre as médias. Use
signiicância 1%.

1ª Etapa: Estabeleça as hipóteses de interesse

H0: μA = μB

H1: μA ≠ μB

2ª Etapa: Obtenção da estatística de teste

Aplicando a fórmula, temos:

Z= - 2 = 80 - 88 = -8 -8 -8 = -8
√ √ √
1
= = = -4,46
s21 s22
+
62 102
+
36 100
+ √ 0,72 + 2,5 √
3,22 1,7944
n1 n2 50 40 50 40

3º Etapa: Obtenção da região de rejeição.

168
unidade 7
ESTATÍSTICA E PROBABILIDADES

FIGURA 43 - Regiões de rejeição da hipótese nula.

Fonte: Elaborado pelo autor.

O valor crítico de 2,33 positivo (ou negativo) foi obtido pela


combinação da linha e coluna relativas à área igual a 0,005 (0,010
dividido por 2) da tabela da distribuição normal padrão.

4ª Etapa: Conclusão

Como o valor de Z = - 4,46 é bem inferior ao valor crítico - 2,33,


obtido pela tabela da distribuição normal padronizada, rejeitamos a
hipótese nula. Não há indícios de que o tempo médio de secagem
das tintas seja igual.

Teste para a comparação de duas


proporções
Quando se deseja testar a hipótese de que as proporções em duas
populações são iguais, o procedimento é análogo ao teste para a
comparação de médias. A fórmula é a seguinte:

pˆ 1 - p
ˆ2


Z=
p (1 - p) + p (1 - p)
n1 n2

169
unidade 7
ESTATÍSTICA E PROBABILIDADES

Onde pˆ = x1 e pˆ2 = x2 (proporções amostrais)


n1 n2

x +x
p = n 1 + n 2 (proporção amostral combinada)
1 2

Exemplo 17

Um especialista acredita que a proporção de trabalhadores com


estresse ocupacional no turno da manhã seja estatisticamente
diferente do turno da tarde. Uma amostra de 100 trabalhadores
foi estudada, sendo 50 pela manhã e 50 a tarde. No turno da
manhã contou-se 10 trabalhadores nessa situação. No turno da
tarde contou-se 15. Teste a hipótese de que as proporções sejam
diferentes nos respectivos turnos. Nível de signiicância: 5%.

1ª Etapa: Estabeleça as hipóteses de interesse

H0 : p1 = p2

H1 : p1 ≠ p2

2ª Etapa: Obtenção da estatística de teste

Aplicando a fórmula, temos:

170
unidade 7
ESTATÍSTICA E PROBABILIDADES

3º Etapa: Obtenção da região de rejeição.

FIGURA 44 - Regiões de rejeição da hipótese nula.

Fonte: Elaborado pelo autor.

O valor crítico de 1,96 positivo (ou negativo) foi obtido pela


combinação da linha e coluna relativas à área igual a 0,025 (0,050
dividido por 2) da tabela da distribuição normal padrão.

4ª Etapa: Conclusão

O Z calculado de - 1,15 encontra-se fora da região crítica. Não


rejeitamos a hipótese nula. Portanto, não há diferença na proporção
de trabalhadores com estresse entre os turnos da manhã e tarde.

Os testes de hipótese são extremamente úteis na engenharia, principalmente

no delineamento de experimentos. Em várias situações busca-se a

otimização de processos. Espera-se que os insumos sejam combinados

da melhor maneira possível, de forma a obter produtos de qualidade ao

menor custo possível. Nesse contexto, diversos fatores podem determinar o

sucesso de um processo de produção de produtos ou serviços.

Num processo produtivo em que determinada mercadoria é embalada

de forma manual por um trabalhador, diversos fatores (ou seja, diversas

171
unidade 7
ESTATÍSTICA E PROBABILIDADES

variáveis) exercem influência sobre o desempenho desse trabalhador,

como, por exemplo, a iluminação, a temperatura, o número de horas

trabalhadas, e talvez até a altura de uma bancada. Dessa forma, a execução

de um experimento com diversas combinações de valores que as variáveis

possam assumir pode ser útil para a otimização do processo. Por exemplo:

o desempenho dos trabalhadores é melhor quando a temperatura de um

galpão é de 22 graus celsius, de 23 ou de 24? Como um experimento desse

tipo depende da utilização de amostras, torna-se fundamental o uso de

testes de hipóteses para obtenção de conclusões acerca do processo.

Revisão
Nessa unidade aprendemos os fundamentos dos testes de
hipóteses. O principal objetivo deles é contrapor uma hipótese de
interesse, conhecida como hipótese nula, a uma hipótese contrária,
conhecida como hipótese alternativa, em relação a um parâmetro
de interesse (geralmente a média, no caso de variáveis quantitativas
e a proporção, no caso de variáveis categóricas).

As hipóteses podem ser unilaterais ou bilaterais. No primeiro caso, a


hipótese nula de igualdade contrapõe-se à hipótese alternativa, em
que o sinal é de menor ou maior. No caso dos testes bilaterais, na
hipótese alternativa temos o sinal de diferente. Todos os exemplos
dessa unidade focaram em testes bilaterais.

Para deinir o tipo de teste a ser utilizado, levamos em consideração


o tamanho da amostra e o conhecimento ou não do desvio-padrão
populacional. Quando desconhecemos o desvio-padrão e a amostra
tem tamanho inferior a 30, utilizamos o teste t. No caso de conhecer
o desvio-padrão populacional ou a amostra igual ou superior a 30,
utilizamos o teste Z. O nome do teste ocorre em função da distribuição
da estatística de teste, que é construída através do conjunto de
possíveis amostras, o que é conhecido como distribuição amostral.

172
unidade 7
ESTATÍSTICA E PROBABILIDADES

Os testes podem ser utilizados para veriicar uma airmação


sobre uma amostra, sobre duas amostras ou sobre mais de duas
amostras. Os dois primeiros casos foram abordados nessa unidade.

A grande utilidade do teste de hipóteses para o engenheiro ocorre


no delineamento de experimentos e no controle estatístico
de processos.

Para estudar mais sobre testes de hipóteses sob perspectiva aplicada,

consulte as seguintes obras:

LEVINE, David; BERENSON, Mark; STEPHAN, David. Estatística: teoria e

aplicações - usando o Microsoft Excel em português. 6 ed. LTC, 2011, 812 p.

MOORE, David. A estatística básica e sua prática. Rio de Janeiro: LTC, 2014.

TRIOLA, Mário. Introdução à Estatística: Atualização da Tecnologia. 11 ed.

LTC, 2013. VitalBook ile.

Para uma fundamentação matemática mais aprofundada sobre o assunto,

consulte a seguinte obra:

MONTGOMERY, Douglas; RUNGER, George Estatística aplicada e

probabilidade para engenheiros. 3 ed. Rio de Janeiro: LTC, 2009.

173
unidade 7
Análise de
correlação
e regressão
Introdução

Ao analisar um conjunto de dados, podemos ter interesse no


relacionamento entre duas variáveis quantitativas. Dessa forma,
poderíamos traçar o seguinte questionamento: um aumento no valor
da variável X se relaciona a um aumento na variável Y? Qual seria a
magnitude dessa relação? As técnicas de análise de correlação e
análise de regressão podem ser utilizadas para estudos desse tipo.

A relação entre variáveis quantitativas pode ser modelada


através de análise de correlação e regressão. Com a evolução da • Análise de
correlação
informática nos últimos 20 anos, essas técnicas têm sido cada vez
• Regressão
mais utilizadas no ambiente empresarial.
linear simples
• Regressão
Nesta unidade, você aprenderá a desenvolver cálculos para linear múltipla
correlação e regressão tanto passo a passo como através do
• Revisão
software Microsoft Excel.
ESTATÍSTICA E PROBABILIDADES

Análise de
correlação
Quando temos interesse em investigar o quanto duas variáveis
quantitativas estão associadas, podemos utilizar uma medida
conhecida como coeiciente de correlação.

O coeiciente de correlação mede o grau de intensidade do relacionamento

linear entre duas variáveis quantitativas.

Diagrama de dispersão
O coeiciente de
Antes de calcular a correlação entre duas variáveis, é interessante correlação mede o
representar os dados num diagrama de dispersão.
grau de intensidade
do relacionamento
linear entre
duas variáveis
quantitativas.
Diagrama de dispersão: Consiste na representação gráica de duas

variáveis quantitativas no plano cartesiano.

A igura 45 se refere a uma pesquisa com anúncios de vendas de 58


imóveis. As variáveis são: ÁREA DO IMÓVEL (em metros quadrados)
e VALOR DO IMÓVEL (em R$ mil).

176
unidade 8
ESTATÍSTICA E PROBABILIDADES

FIGURA 45 - Área do imóvel x valor do Imóvel

800

700
Valor do imóvel (R$ mil)

600

500

400

300

200

100

-
0 50 100 150 200 250 300
Área (em metros quadrados)

Fonte: Elaborado pelo autor

Através do gráico de dispersão é possível visualizar graicamente


alguns aspectos relativos ao comportamento conjunto das
variáveis, como: direção, forma e força da relação.

No que se refere à direção, a igura 45 apresenta indícios de que


as variáveis (ÁREA e VALOR) estejam positivamente relacionadas,
ou seja, parece que a direção é ascendente. Há situações em que
as variáveis apresentam associação negativa6 como por exemplo
o PREÇO e a QUANTIDADE DEMANDADA (para a maioria das
mercadorias, quanto maior o preço, menor a quantidade demandada).

Em relação à forma, na igura 45 podemos observar que a relação


entre as variáveis parece ser linear. Observe a reta que resume a

6 - Associação negativa: Duas variáveis apresentam associação negativa quando o


crescimento de uma se associa à diminuição da outra, ou o contrário, a queda em
uma se associa ao acréscimo da outra.

177
unidade 8
ESTATÍSTICA E PROBABILIDADES

associação. Existem situações em que duas variáveis se encontram


associadas, porém de forma não linear, como na igura 46.

FIGURA 46 - Relação não linear entre as variáveis X e Y

80
70
60
50
40
Y

30
20
10
0
0 5 10 15 20
X

Fonte: Elaborado pelo autor

Outro aspecto de grande importância ao observar o diagrama


de dispersão é a força da relação. Na figura 45, o VALOR DO
IMÓVEL se relaciona à ÁREA, mas a intensidade da relação não
parece tão extrema.

A igura 47 mostra um diagrama de dispersão onde as variáveis


apresentam ausência de relação.

178
unidade 8
ESTATÍSTICA E PROBABILIDADES

FIGURA 47 - Ausência de relação entre as variáveis X e Y

15
14
14
13
13
Y

12
12
11
11
10
0 5 10 15 20
X
Fonte: Elaborado pelo autor

O grau de intensidade da relação linear entre duas variáveis


quantitativas é dado pelo coeiciente de correlação de Pearson.

Coeficiente de correlação de Pearson


O coeiciente de correlação linear de Pearson consiste na medida
do grau de intensidade da relação linear entre duas variáveis
quantitativas, podendo assumir valores entre -1 e 1. Podemos
airmar que duas variáveis estão positivamente correlacionadas
se elas caminham no mesmo sentido, ou seja, quando uma delas
aumenta de valor, o valor da outra também aumenta. Nesse caso,
quanto mais próxima de 1, maior a intensidade da associação entre
as variáveis. Quando as variáveis caminham em sentidos opostos,
dizemos que elas estão negativamente correlacionadas. Quanto
mais próxima de -1, maior a intensidade da associação, porém a
relação é inversa.

É importante destacar que o fato de duas variáveis estarem


associadas não signiica, necessariamente, que exista uma
relação de causa e efeito. Por exemplo: geralmente crianças mais

179
unidade 8
ESTATÍSTICA E PROBABILIDADES

novas apresentam menor peso, entretanto isso não signiica que


o envelhecimento causa aumento de peso. É mais provável que a
criança aumente o peso pelo fato de aumentar a altura.

A análise de correlação tem objetivo exploratório servindo como


elemento auxiliar na análise da relação entre variáveis. Dessa forma,
em muitas ocasiões o estudo da correlação é utilizado como um
recurso a mais na análise dos dados.

O coeiciente de correlação de Pearson é dado pela fórmula:

∑ ( x -x ) ( y - y )
Cor ( X, Y ) = r =
sxsy ( n - 1)

O numerador da fórmula se refere ao somatório do produto dos


desvios da variável X e da variável Y em relação às suas respectivas
médias. No denominador, encontra-se o produto dos desvios
padrão de cada uma das duas variáveis multiplicado pelo tamanho
da amostra menos uma unidade.

Exemplo18 (adaptado de HINES et al, 2006)

Um engenheiro químico está estudando o efeito da temperatura


de operação do processo sobre o resultado da produção. O estudo
resultou nos seguintes dados:

X - Temperatura (º Celsius) 100 110 120 130 140 150 160 170 180 190
Y - Resultado (porcentagem) 45 51 54 61 66 70 74 78 85 89

Calcule o coeiciente de correlação entre as variáveis.

Solução:

Ao realizar uma análise de correlação, é interessante construir o


diagrama de dispersão para ter uma ideia sobre a associação entre
as variáveis:

180
unidade 8
ESTATÍSTICA E PROBABILIDADES

FIGURA 48 - Resultado do processo (em %) em função da temperatura (em °C)

100
90
80
Y - Resultado (%)

70
60
50
40
30
20
10
0
0 50 100 150 200
X - Temperatura (º C)

Fonte: HINES et al (2006), pag.369

A igura 48 apresenta indícios de que as variáveis estão fortemente


associadas. Para conirmar essa suspeita, podemos calcular o
coeiciente de correlação, conforme a tabela 15:

TABELA 15 - Dados para o cálculo do coeiciente


de correlação entre temperatura (X) e resultado (Y)
X Y (� � − �̅ ) (�� − ��) (� � − �̅ ) (�� − ��)
100 45 100 - 145 = -45 45 - 67,3 = -22,3 (-45) × (-22,3) = 1003,5
110 51 110 - 145 = -35 51 - 67,3 = -16,3 (-35) × (-16,3) = 570,5
120 54 120 - 145 = -25 54 - 67,3 = -13,3 (-25) × (-13,3) = 332,5
130 61 130 - 145 = -15 61 - 67,3 = -06,3 (-15) × (-6,3) = 94,5
140 66 140 - 145 = -05 66 - 67,3 = -01,3 (-5) × (-1,3) = 6,5
150 70 150 - 145 = +05 70 - 67,3 = +02,7 (5) × (2,7) = 13,5
160 74 160 - 145 = +15 74 - 67,3 = +06,7 (15) × (6,7) = 100,5
170 78 170 - 145 = +25 78 - 67,3 = +10,7 (25) × (10,7) = 267,5
180 85 180 - 145 = +35 85 - 67,3 = +17,7 (35) × (17,7) = 619,5
190 89 190 - 145 = +45 89 - 67,3 = +21,7 (45) × (21,7) = 976,5

Média (X) = 145 Média (Y) = 67,3
� (� � − �̅ ) (� � − �� ) = 3985
Desv. Pad (X) = 30,3 Desv. Pad (Y) = 14,7 �=1

Fonte: Elaborado pelo autor

3985 3985
Cor ( X, Y ) = r = = = + 0,99
( 30,3) (14,7) (10 -1) 4008,7

181
unidade 8
ESTATÍSTICA E PROBABILIDADES

O valor + 0,99 obtido pelo coeiciente de correlação conirma que as


variáveis estão fortemente associadas, conforme indício dado pelo
diagrama de dispersão (igura 48).

O exemplo 19 se refere a uma situação em que as variáveis


apresentam correlação negativa.

Exemplo 19

O quadro abaixo representa o PREÇO (em R$) e a QUANTIDADE


DEMANDADA de uma determinada mercadoria.

Preço (X) 10 11 12 13 14 15 16 17 18 19
Quantidade (Y) 200 171 168 165 170 147 120 130 105 124

Solução:

Antes de calcular o coeiciente de correlação, é interessante


construir o diagrama de dispersão para ter uma ideia da direção e
da forma da associação entre as variáveis.
FIGURA 49 - Quantidade x preço

220

200
Y - Quantidade

180

160

140

120

100
8 10 12 14 16 18 20
X - Preço
Fonte: Elaborado pelo autor

182
unidade 8
ESTATÍSTICA E PROBABILIDADES

Para o cálculo do coeiciente de correlação, temos:

TABELA 16 - Dados para o cálculo do coeiciente de correlação entre preço (X) e quantidade (Y)

Preço (X) Quantidade (Y) (�� − �̅ ) (�� − ��) (�� − �̅ )(�� − ��)
10 200 -4,5 50 -225
11 171 -3,5 21 -73,5
12 168 -2,5 18 -45
13 165 -1,5 15 -22,5
14 170 -0,5 20 -10
15 147 0,5 -3 -1,5
16 120 1,5 -30 -45
17 130 2,5 -20 -50
18 105 3,5 -45 -157,5
19 124 4,5 -26 -117

Média (X) = 14,5 Média (Y) = 150 �(�� − �̅ )(�� − �
�) = -747
Desv. Pad (X) = 3,0 Desv. Pad (Y) = 29,6 � =1

Fonte: Elaborado pelo autor

-747 -747
Cor ( X, Y ) = r = = = - 0,93
( 3,0) (29,6) (10 -1) 799,2

Portanto, as variáveis apresentam forte correlação negativa,


conforme indício do diagrama de dispersão.

Observações importantes sobre o coeiciente de correlação


de Pearson:

• O valor da correlação independe da unidade de medida


dos dados. Por exemplo, se tivermos interesse em medir a
correlação entre ALTURA e PESO de um grupo de pessoas,
tanto faz a ALTURA entrar nos cálculos em centímetros ou
em metros;

• A correlação não se aplica a mais de duas variáveis;

• A correlação não faz distinção sobre qual variável se projeta


em cada eixo do plano cartesiano. Dessa forma, Cor (X,Y) =
Cor (Y,X);

• As variáveis devem ser quantitativas. O coeiciente de correlação


linear de Pearson não se aplica a variáveis categóricas;

• A correlação mede o grau de associação linear. Dessa forma,


se duas variáveis quantitativas se relacionam de forma
quadrática ou exponencial, o coeiciente de correlação

183
unidade 8
ESTATÍSTICA E PROBABILIDADES

linear não é indicado, uma vez que matematicamente tem a


capacidade de captar relações lineares.

Uso da tecnologia para o cálculo do


coeficiente de correlação
O cálculo do coeiciente de correlação no Excel é dado pela função:

= CORREL (matriz1;matriz2)

Onde os parâmetros (matriz1 e matriz2) se referem aos dados das


duas variáveis. Observe a igura 50.

FIGURA 50 - Coeiciente de correlação no Excel

Fonte: Elaborado pelo autor

184
unidade 8
ESTATÍSTICA E PROBABILIDADES

Regressão
linear simples
A regressão linear simples tem como objetivo estimar uma equação
que relacione matematicamente duas variáveis, sendo que uma
delas é explicada pela outra. A variável explicada geralmente é
denominada variável resposta ou variável dependente. A variável
explicativa é denominada variável explanatória ou variável
independente.

A análise de regressão múltipla tem por objetivo estimar uma


equação que relacione matematicamente uma variável resposta a
duas ou mais variáveis explicativas.

A igura 51 reapresenta os dados relativos à igura 45 onde a variável


resposta VALOR se correlaciona à ÁREA DO IMÓVEL.

FIGURA 51 - Valor do imóvel x área do imóvel

Fonte: Elaborado pelo autor

185
unidade 8
ESTATÍSTICA E PROBABILIDADES

Observe que os pontos do diagrama não caem exatamente sobre


a reta de regressão, mas a reta é capaz de resumir o padrão
geral de comportamento dos dados. Uma das técnicas mais
utilizadas para obtenção dessa reta é conhecida como método
dos mínimos quadrados.

Método dos mínimos quadrados: É uma técnica estatística utilizada para

resumir um conjunto de variáveis quantitativas numa equação. Ela se

baseia na minimização da distância quadrática de cada ponto em relação

à reta.

A equação que representa o modelo de regressão linear simples é

Yi = β 0 + β 1 X i + ε i Método dos
mínimos
quadrados: É uma
técnica estatística
Onde:
utilizada para
resumir um conjunto
Yi = valor da variável dependente na i-ésima tentativa, ou observação; de variáveis
quantitativas numa
equação.
β0 = primeiro parâmetro da equação de regressão, o qual indica o
intercepto no eixo Y, ou seja, o valor de Y quando X = 0;

β1= segundo parâmetro da equação de regressão, chamado


coeiciente angular, que indica a inclinação da reta de regressão;

εi = o valor do erro, que signiica a diferença entre o valor verdadeiro


e o valor previsto pela equação de regressão (ε é a letra grega
épsilon). Após a estimação da equação de regressão, o erro
passa a ser denominado resíduo.

Os parâmetros β0 e β1 no modelo de regressão linear são estimados


pelos valores β0 e β1 que se baseiam nos dados amostrais. O
“chapéu” sobre as letras indica que foi feita uma estimativa dos

186
unidade 8
ESTATÍSTICA E PROBABILIDADES

parâmetros do modelo com base em dados obtidos através de


uma amostra.

Dessa forma, a equação de regressão linear baseada nos dados


da amostra que é usada para estimar um simples valor da variável
dependente, onde o “chapéu” sobre o Y indica que ele é um valor
estimado, é:

^ ^ ^
Y = β 0+ β 1X

A análise de regressão se distingue da correlação por supor uma


relação de causalidade entre as variáveis resposta e explanatória.
A análise geralmente se baseia numa referência teórica, que
justiique uma relação matemática de causalidade.

A análise de
A estimativa dos parâmetros β0 e β1 do modelo se dá a partir das regressão se
seguintes fórmulas: distingue da
correlação por supor
uma relação de
^ ∑ XY - nXY causalidade entre as
β1 =
∑ X2 - nX2
variáveis resposta e
explanatória.

^
βo = Y - β^ 1X

Exemplo 20

Um professor acredita que a NOTA na prova de estatística esteja


relacionada ao número de HORAS DE ESTUDO dos alunos. Para
tentar convencer os estudantes dessa relação, o professor resolve
fazer a pesquisa levantando dados de sete estudantes, conforme o
quadro abaixo.

187
unidade 8
ESTATÍSTICA E PROBABILIDADES

QUADRO 5 -Dados para a estimação da reta de regressão


que relaciona nota na prova de estatística (Y) e horas de estudo (X)

Horas de Nota na
Estudante
estudo (X) prova (Y)
1 20 72
2 15 62
3 35 87
4 26 77
5 30 90
6 24 83
7 18 68
Fonte: Elaborado pelo autor

[a] Determine a equação da reta de regressão para os dados


da tabela.

[b] Use a equação de regressão para estimar a nota de um estudante


que tenha dedicado 20 horas de estudo para a prova.

Solução:

[a] Podemos incluir mais duas colunas na tabela para facilitar a


operacionalização dos cálculos:

QUADRO 6 - Cálculos para a estimação da reta de regressão


que relaciona nota na prova de estatística (Y) e horas de estudo (X)

Horas de Nota na 2
Estudante X X.Y
estudo (X) prova (Y)
1 20 72 400 1440
2 15 62 225 930
3 35 87 1225 3045
4 26 77 676 2002
5 30 90 900 2700
6 24 83 576 1992
7 18 68 324 1224
2
MÉDIA (X) = 24 MÉDIA(Y) = 77 ΣX = 4.326 ΣXY = 13.333
Fonte: Elaborado pelo autor

Na penúltima coluna foram obtidos os valores da variável X ao


quadrado. Na última coluna os valores de X foram multiplicados
pelos valores de Y para cada estudante. Em seguida, foram obtidas

188
unidade 8
ESTATÍSTICA E PROBABILIDADES

as médias de cada variável e, inalmente, o somatório das duas


últimas colunas. Colocando os dados obtidos nas fórmulas, temos:

A equação estimada foi:

^
Y = 44,6 + 1,35 . X

[b] Para calcular o valor estimado da nota (Y) com base no número
de horas estudadas (X), basta inserir o valor de X na equação.
Considerando X = 20, temos:

^
Y = 44,6 + 1,35 . 20 = 44,6 + 27 = 71,6

Portanto, estima-se que um estudante que tenha dedicado 20 horas


de estudo obtenha aproximadamente 72 pontos na prova. Observe
abaixo o diagrama da igura 52:

FIGURA 52 - Previsão da NOTA (Y) com base no número de HORAS DE ESTUDO (X)

Fonte: Elaborado pelo autor

189
unidade 8
ESTATÍSTICA E PROBABILIDADES

Interpretação do resultado da regressão

Além de permitir a previsão de uma variável resposta em função de


uma variável explanatória, a análise de regressão também mede a
variação de Y quando variamos X. A partir da equação obtida pelos
dados do exemplo 20, podemos airmar que o aumento de uma
unidade na variável X (número de horas estudadas) aumenta, em
média, 1,35 unidades na variável Y (pontos na prova de estatística).

Uso da tecnologia para a estimação da regressão

Com a evolução da informática, a técnica de regressão múltipla


passou a ser cada vez mais utilizada pelas organizações e pelos
cientistas, pois os cálculos se tornaram menos tediosos. No
exemplo 21, os dados do exemplo 20 foram rodados no Excel. Com a evolução
da informática, a
técnica de regressão
Exemplo 21
múltipla passou a
ser cada vez mais
Estime a equação de regressão com os dados do exemplo 19 utilizada pelas
organizações e pelos
utilizando o Excel.
cientistas, pois os
cálculos se tornaram
Solução: menos tediosos.

DADOS > ANÁLISE DE DADOS > REGRESSÃO > OK

FIGURA 53 - Comandos utilizados no Excel para análise de regressão

Fonte: Elaborado pelo autor

190
unidade 8
ESTATÍSTICA E PROBABILIDADES

Nos intervalos de entrada e saída, insira o endereço das variáveis


explanatória (X – horas de estudo) e resposta (Y – nota na prova),
respectivamente. Em seguida, aperte OK.

FIGURA 54 - Comandos utilizados no Excel para análise de regressão

Fonte: Elaborado pelo autor

Após rodar a regressão, o Excel apresenta três quadros. O primeiro


mostra, dentre outras estatísticas, o valor do R-quadrado. No
exemplo em questão, o valor observado é igual a 0,843. Isso signiica
que o modelo explica aproximadamente 84,3% da variabilidade em
Y a partir da variação em X.

TABELA 17 - Estatísticas para análise de regressão

Estatística de regressão
R múltiplo 0,918
R-Quadrado 0,843
R-quadrado ajustado 0,811
Erro padrão 4,470
Observações 7
Fonte: Elaborado pelo autor

A tabela 18 diz respeito ao teste de signiicância do modelo,


conhecido como teste F, que produziu uma estatística igual a 26,8,
que implica num valor p próximo de zero. Dessa forma, rejeitamos a
hipótese de que o modelo não se ajusta bem aos dados. Portanto, o
modelo é estatisticamente signiicativo.

191
unidade 8
ESTATÍSTICA E PROBABILIDADES

TABELA 18 - Resultados do teste de adequação do modelo de regressão simples (teste F)

ANOVA
gl SQ MQ F Valor p
Regressão 1 536,085 536,085 26,8271 0,00353
Resíduo 5 99,915 19,983
Total 6 636
Fonte: Elaborado pelo autor

A outra saída se refere a valores p dos testes dos coeicientes β0 e β1.

As hipóteses para o intercepto são:

H0: β0 = 0
H1: β0 ≠ 0

As hipóteses para a variável explanatória são:

H0: β1 = 0
H1: β1 ≠ 0

Os valores p iguais a zero para o intercepto e para a variável X1


implicam na rejeição da hipótese de que os valores sejam não
signiicativos. Portanto os coeicientes ( β0 e β1 ) são signiicativos
com base no teste t para cada um separadamente.

TABELA 19 - Coeicientes da regressão e estatísticas de interesse

Coeficientes Erro padrão Stat t valor-P


Interseção 44,59 6,48 6,88 0,00
Variável X 1 1,35 0,26 5,18 0,00
Fonte: Elaborado pelo autor

A equação estimada é:

^
Y = 44,6 +1,35 . X1

192
unidade 8
ESTATÍSTICA E PROBABILIDADES

Dessa forma, o modelo se mostra útil tanto para analisar o impacto


que a variável explanatória exerce sobre a variável resposta, quanto
para previsão.

A interpretação do coeiciente da variável X1 é: o aumento de uma


unidade na variável X (ou seja, a cada hora a mais de estudo)
consiste no aumento de 1,35 unidades na variável Y (1,35 pontos na
prova de estatística)

Para um estudante que tenha dedicado 30 horas ao estudo, o valor


previsto pela equação é 85:

^
Y = 44,6 + 1,35 x 30 = 44,6 + 40,5 = 85

Na regressão
linear simples, uma
Regressão variável resposta
pode ser explicada
linear múltipla por uma variável
explanatória.

Na regressão linear simples, uma variável resposta pode ser


explicada por uma variável explanatória. Na igura 51, o valor do
imóvel pode ser previsto com base no seu tamanho (em metros
quadrados). O valor obtido para o R2 foi de 0,45. Isso signiica que
a variável explanatória X explica 45% da variação na variável Y. No
exemplo em questão, outras variáveis também podem ser utilizadas
para explicar melhor a variação de Y (preço do imóvel), como por
exemplo a idade do imóvel, o preço do condomínio, o número de
banheiros, etc.

Dessa forma, na regressão múltipla, uma variável resposta se


relaciona a duas ou mais variáveis explanatórias. O objetivo também
é predizer os valores de Y com base nas variáveis explanatórias.

Na maioria das vezes, uma variável resposta se relaciona a


mais de uma variável explanatória. Nessa situação, também

193
unidade 8
ESTATÍSTICA E PROBABILIDADES

podemos utilizar o método dos mínimos quadrados para obter


uma equação que relacione as variáveis. Nesse caso, temos uma
regressão múltipla:

Yi = β 0 + β 1 X 1 + β 2 X 2 + … + β k X k + ε i

Onde:

Yi = variável resposta (variável dependente);

β0 = intercepto (valor assumido por Y quando todas as demais


variáveis assumem valor igual a zero);

β1, β2 ,..., βk = coeicientes angulares;

k = número de variáveis explanatórias (variáveis independentes). A estimação


da equação de
regressão linear
A estimação da equação de regressão linear múltipla também se múltipla também
dá através do método dos mínimos quadrados. O objetivo é obter se dá através
do método
o hiperplano que melhor se ajuste ao conjunto de dados através da
dos mínimos
minimização dos desvios quadráticos. quadrados.

Com a evolução da informática, a técnica de regressão múltipla


passou a ser cada vez mais utilizada pelas organizações e pelos
cientistas, pois os cálculos se tornaram menos tediosos. No
exemplo 22, o preço do imóvel é estimado com base em duas
variáveis: ÁREA DO IMÓVEL e NÚMERO DE QUARTOS.

Exemplo 22

Estime a equação de regressão relacionando o VALOR DO IMÓVEL


às variáveis: ÁREA do apartamento e NÚMERO DE QUARTOS.

194
unidade 8
ESTATÍSTICA E PROBABILIDADES

195
unidade 8
ESTATÍSTICA E PROBABILIDADES

Chart Title 
 800.000,00  
 700.000,00   y = 1868,2x + 239876 
 600.000,00   R² = 0,55094 
Axis Title 

 500.000,00  
 400.000,00  
Series1 
 300.000,00  
 200.000,00   Linear (Series1) 
 100.000,00  
 ‐    
0  50  100  150  200  250  300 
Axis Title 

196
unidade 8
ESTATÍSTICA E PROBABILIDADES

Solução

DADOS > ANÁLISE DE DADOS > REGRESSÃO > OK

Nos intervalos de entrada e saída, insira o endereço das variáveis


explanatória e dependente, respectivamente, assim como foi feito
para a regressão simples. Em seguida, aperte OK.

Após rodar a regressão múltipla, o Excel produz tabelas. Segue


a primeira:

TABELA 20: Estatísticas da regressão múltipla

Fonte: Elaborado pelo autor

Nesse caso, a principal estatística a ser analisada é o


R-quadrado. A tabela 20 apresenta valor igual a 0,78. Isso
significa que o modelo explica aproximadamente 78% da
variabilidade em Y a partir das duas variáveis explanatórias.

A tabela 21 diz respeito ao teste de significância conjunta do


modelo. Para essa situação utilizamos o teste F, que produziu
uma estatística igual a 42,5, que implica num valor p igual a
zero. Portanto, rejeitamos a hipótese de que o modelo não se
ajusta bem aos dados.

197
unidade 8
ESTATÍSTICA E PROBABILIDADES

TABELA 21: Resultados do teste de adequação do modelo de regressão múltipla (teste F)


ANOVA
gl SQ MQ F Valor p
Regressão 2 557.278.841.710 278.639.420.855 42,5 0,000
Resíduo 55 360.283.037.601 6.550.600.684
Total 57 917.561.879.310
Fonte: Elaborado pelo autor

A saída da última coluna se refere aos valores p do teste dos


coeicientes da regressão. A hipótese nula é de que cada coeiciente
é igual a zero, individualmente, versus a hipótese alternativa de que
seja diferente de zero, respectivamente.

TABELA 22 - Coeicientes de regressão e estatísticas de interesse

Coeficientes Erro padrão Stat t valor-P


Interseção 86.873 60.689 1,43 0,16
Variável X 1 1.335 285 4,68 0,00
Variável X 2 67.719 24.091 2,81 0,01
Fonte: Elaborado pelo autor

A equação estimada é:

^
Y = 86.873 + 1.335X1 + 67.719X2

Na última coluna temos os valores p, que mostram que as variáveis


são signiicativas e o intercepto não, conforme os testes t para
cada coeiciente separadamente. O intercepto no caso não tem
signiicado prático nesse exemplo.

198
unidade 8
ESTATÍSTICA E PROBABILIDADES

Dessa forma, o modelo se mostra útil tanto para analisar o


impacto que cada uma das variáveis explanatórias exerce sobre
a variável resposta, mantendo constantes as outras variáveis,
quanto para previsão.

A interpretação do coeiciente da variável X1 é: a cada uma unidade


de aumento na ÁREA (ou seja a cada metro quadrado a mais) a
variável Y (VALOR) aumenta em R$ 1.335,00, se mantida constante
a variável X2 (NÚMERO DE QUARTOS).

A interpretação do coeiciente da variável X2 é: a cada uma unidade


de aumento na variável X2 (NÚMERO DE QUARTOS), a variável Y
(VALOR) aumenta em média R$ 67.719, se mantida constante a
variável X1 (ÁREA).

Para um apartamento que tenha 80 metros quadrados e três


quartos, o valor previsto pela equação é:

Y^ = 86.873 + 1.335 × 80 + 67.719 × 3 =

^
Y = 86.873 + 106.800 + 203.157 = R$ 396.830

Os exemplos de análise de regressão utilizados nesta unidade contêm

uma variável explicativa, no caso da regressão simples, ou duas variáveis

explicativas, no caso da regressão múltipla. Tais situações ilustram a

utilização dos modelos de regressão para situações mais simples. Na

verdade, esses modelos podem ser utilizados com um número bem maior

de variáveis explicativas.

Por exemplo, para prever o preço de revenda de um automóvel, o analista de

dados pode utilizar diversas variáveis, como: idade, número de quilômetros

rodados, presença de vidros elétricos, presença de ar condicionado,

consumo de combustível na estrada, consumo de combustível na cidade,

estado de conservação dos pneus, estado de conservação da pintura, etc.

199
unidade 8
ESTATÍSTICA E PROBABILIDADES

Nesse sentido, os modelos de regressão se mostram muito úteis para a

realização de previsões. Outro exemplo: imagine o gestor de uma empresa

de varejo de alimentos que tem que tomar a decisão sobre a quantidade

de itens em estoque. Nesse caso, ele não pode estocar muito, pois os

produtos podem perder validade, além do custo do espaço utilizado para

guardar as mercadorias. Ao mesmo tempo, estocar uma quantidade

insatisfatória pode implicar na falta de produtos para a venda. Nesse

caso, é de grande valia a utilização de modelos de previsão para estimar a

quantidade de mercadorias que serão comercializadas num certo espaço

de tempo.

Um terceiro exemplo do uso de modelos de regressão se refere à decisão

dos bancos sobre conceder ou não um empréstimo para determinado

candidato. Para isso, o banco geralmente levanta diversas variáveis para

estimar a probabilidade de o cliente ser ou não um bom pagador.

Nos três exemplos acima, o analista deve combinar a utilização da teoria

com um pouco de experiência no assunto para a escolha das variáveis

capazes de explicar melhor o fenômeno.

Revisão
A presente unidade tratou do tema relação entre duas ou mais
variáveis quantitativas. Foi demonstrado que, para o estudo de
duas variáveis quantitativas simultaneamente, faz-se interessante
o uso de diagramas de dispersão com o objetivo de inspecionar
visualmente se elas apresentam associação. Devemos observar,
principalmente, a forma, a intensidade e a direção da relação entre as
variáveis. Além disso, também é importante o cálculo do coeiciente
de correlação, que fornece um valor entre 0 e 1, podendo ser negativo
no caso de relacionamento linear inverso entre as variáveis.

Outra técnica bastante interessante para o estudo da relação entre


duas variáveis é a regressão simples, muito útil para fazer previsões.
Além da regressão simples, a regressão múltipla também é bastante

200
unidade 8
ESTATÍSTICA E PROBABILIDADES

utilizada, pois na maioria das situações as variáveis previstas são


associadas a diversas variáveis explanatórias, tanto quantitativas
quanto categóricas.

Para que o modelo de regressão seja útil, o analista depende do


conhecimento da teoria acerca do assunto e de alguma experiência
prática capaz de auxiliar na escolha das melhores variáveis
candidatas e explicativas.

A utilização dos modelos de regressão na engenharia é muito


importante, uma vez que vários experimentos são delineados na
otimização de processos de produção.

Para estudar mais sobre os modelos de regressão, consulte as

seguintes obras:

DOANE, David, SEWARD, Lori. Estatística Aplicada à Administração e à

Economia. ArtMed, 2010. VitalBook ile.

FREUND, John, SIMON, Gary. Estatística Aplicada: Economia,

Administração e Contabilidade. 9 Ed. Porto Alegre: Bookman, 2007.

LEVINE, David; BERENSON, Mark; STEPHAN, David. Estatística: teoria e

aplicações - usando o Microsoft Excel em português. 6 ed.Rio de Janeiro:

LTC, 2011, 812 p.

MONTGOMERY, Douglas, RUNGER, George. Estatística aplicada e

probabilidade para engenheiros. 3.ed. Rio de Janeiro: LTC, 2009.

MOORE, David. A estatística básica e sua prática. Rio de Janeiro: LTC, 2014.

TRIOLA, Mário. Introdução à Estatística. 10 ed. Rio de Janeiro: LTC. 2008. 722p.

201
unidade 8
ESTATÍSTICA E PROBABILIDADES

Referências
BARBETTA, Pedro Alberto, REIS, Marcelo Menezes, BORNIA, Antônio
Cezar. Estatística: Para Cursos de Engenharia e Informática. 3 ed. Atlas,
2010. VitalBook ile.

BAILAR III, John.C.; MOSTELLER, Frederick. Medical uses of statistics. 2.


ed. Boston: NEJM Books, 1992.

CARVALHO, Danilo Heraldo; COUTO, Bráulio Roberto Gonçalves Marinho.


Levantamentos por amostragem ou “pesquisas de survey. Relatório
técnico DCET, Nº 3/2003. 107p

DAVID M. et al. Estatística: teoria e aplicações usando Microsoft Excel


em português. 3 ed. Rio de Janeiro: LTC, 2000

DOANE, David, SEWARD, Lori. Estatística Aplicada à Administração e à


Economia. ArtMed, 2010. VitalBook ile.

DOWNING, Douglas. Estatística Aplicada. Trad. Alfedro Alves de Farias:


2ed São Paulo: Saraiva, 2003

FIELD, Andy. Descobrindo a Estatística Usando o SPSS. 2 ed. Porto


Alegre: ARTMED, 2009. 688p

FORMULÁRIO GOOGLE DOCS. Disponível em: <https://docs.google.com/


forms>. Acesso em: 15 abr. 2015

FREUND, John. Estatística Aplicada à Economia. 11 ed. Bookman, 2006.


VitalBook ile.

GAZZARRRINI, Rafael. Lotus 1-2-3: o software que ajudou a mudar o


mundo. 18 fev. 2013. In: Site “TecMundo”. Disponível em: <http://www.
tecmundo.com.br/tecnologia/36697-lotus-1-2-3-o-software-que-ajudou-
a-mudar-o-mundo.htm>. Acesso em: 15 abr. 2015

202
ESTATÍSTICA E PROBABILIDADES

GRIFFITHS, Dawn. Use a cabeça! Estatística. Rio de Janeiro:


Altabooks, 2009.

HINES, William, MONTGOMERY, Douglas, GOLDSMAN, Dave, BORROR,


Connie. Probabilidade e Estatística na Engenharia. 4 ed. Rio de Janeiro:
LTC, 2006. VitalBook ile.

KAZMIER, Leonard. Estatística Aplicada à Administração e Economia.


Bookman, 2007.

LEVINE, David M. et al. Estatística - teoria e aplicações: usando Microsoft Excel


em português. 6 ed. Rio de Janeiro: LTC, 2012. 804 p

MAGALHÃES, Marcos Nascimento; LIMA, Antônio Carlos Pedroso.


Noções de Probabilidade e Estatística. 6. ed. São Paulo: Editora da
Universidade de São Paulo, 2007.

MALHOTRA, Naresh K.. Pesquisa de marketing: uma orientação aplicada.


trad. Lene Belon Ribeiro, Monica Stefani. rev. téc. Janaína de Moura
Engracia Giraldi. Porto Alegre: Bookman, 2012.

McCLAVE, James T.; BENSON, George; SINCICH, Terry. Estatística para


administração e economia. trad. Fabrício Pereira Soares e Fernando
Sampaio Filho; rev. téc. Galo Carlos Lopez Noriega. São Paulo: Pearson
Prentice Hall, 2009.

MONTGMOMERY, Douglas C; RUNGER, George C. Estatística aplicada e


probabilidade para engenheiros. trad. e rev. téc. Verônica Calado. Rio de
Janeiro: LTC, 2009.

MOORE, David. A estatística básica e sua prática. Rio de Janeiro. LTC, 2014.

NETO, Antônio Peli. Intervalos de coniança, Intervalos de Predição e


Campo de Arbítrio nas Avaliações de Imóveis Urbanos. Associação
Brasileira dos Engenheiros Civis - Departamento da Bahia. Bahia, 2010.
Disponível em: <http://goo.gl/6uFFSt>. Acesso em 16 jun. 2015.

203
ESTATÍSTICA E PROBABILIDADES

REIDEL, Adilson et al. Utilização de efluente de frigoríico, tratado com


macróita aquática, no cultivo de tilápia do Nilo. R. Bras. Eng. Agríc. Ambiental,
Campina Grande, v.9, (Suplemento), p.181-185, 2005. Disponível em: <http://
goo.gl/TQP0re>. Acesso em: 21 jan. 2015

SILVA, Nilza Nunes. Amostragem probabilística. 2 ed. São Paulo: Editora


da Universidade de São Paulo, 2001. 120p

SHARP, Norean, DE VEAUX, Richard, VELLEMAN. Paul. Estatística Aplicada


- Administração, Economia e Negócios. Porto Alegre: Bookman, 2011.

SOARES, José Francisco; SIQUEIRA, Armanda Lúcia. Introdução à


Estatística Médica. Belo Horizonte: UFMG, 2002. 300p

STEVENSON, William. Estatística Aplicada à Administração. ed 2001.


São Paulo: Harbra, 1981.

TRIOLA, Mario Farias. Introdução à Estatística: tradução de Vera Regina Lima


de Farias e Flores, revisão técnica Ana Maria Lima de Farias. 10 ed. Rio de
Janeiro: LTC, 2008

TRIOLA, Mario F. Introdução à Estatística: Atualização da Tecnologia, 11


ed. LTC, 03/2013. VitalBook ile.

WERKEMA, Maria Cristina Catarino; AGUIAR, Silvio. Planejamento


e análise de experimentos: Como Identiicar as principais variáveis
influentes em um processo. Belo Horizonte: Fundação Cristiano Ottoni,
Escola de Engenharia da UFMG, 1996.

WALPOLE, Ronald. Probabilidade e estatística para engenharia e


ciências. São Paulo: Pears, 2008

204
www.animaeducacao.com.br

Você também pode gostar