Escolar Documentos
Profissional Documentos
Cultura Documentos
pArA Business
intelligence
Cicero Aparecido Bezerra
Egon Walter Wildauer
Leandro Escobar
Superintendente Prof. Paulo Arns da Cunha
Reitor Prof. José Pio Martins
Pró-Reitora Acadêmica Profa. Márcia Teixeira Sebastiani
Diretor de EAD Prof. Roberto de Fino Bentes
Gerente Editorial e de Tutoria Profa. Manoela Pierina Tagliaferro
Gerente de Metodologia Profa. Dinamara Pereira Machado
Autoria Prof. Cicero Aparecido Bezerra,
Prof. Egon Walter Wildauer e
Prof. Leandro Escobar
Supervisão Editorial Fabieli Campos Higashiyama
e Bianca de Britto Nogueira
Análise de Conteúdo Francine Ozaki e Silvia Mara Hadas
Análise de Qualidade Betina Dias Ferreira
Edição de Texto Giovane Michels
Design Instrucional Wagner Gonçalves da Silva
Design de Atividades Mariana Moschkovich Athayde
Layout de Capa Valdir de Oliveira
Imagem de Capa Thiago Sihvenger
Edição de Arte Denis Kaio Tanaami
Diagramação Regiane Rosa
Design Gráfico Juliano Henrique e Thiago Sihvenger
Revisão Anderson Novello, Elizabeth Pinheiro,
Yohan Barczyszyn e Marina López Moreira
*Todos os gráficos, tabelas e esquemas são creditados aos autores, salvo quando indicada a referência.
Informamos que é de inteira responsabilidade dos autores a emissão de conceitos. Nenhuma parte
desta publicação poderá ser reproduzida por qualquer meio ou forma sem autorização. A violação dos
direitos autorais é crime estabelecido pela Lei n.º 9.610/98 e punido pelo artigo 184 do Código Penal.
Copyright Universidade Positivo 2014
Rua Prof. Pedro Viriato Parigot de Souza, 5300 – Campo Comprido
Curitiba-PR – CEP 81280-330
Ícones
Afirmação Curiosidade
Assista
Dicas
Biografia
Esclarecimento
Conceito
Contexto Exemplo
Inserir Aqui o Título da Obra
5
Sumário
Apresentação ................................................................................................................... 7
Os autores ........................................................................................................................ 8
Capítulo 1
Introdução à teoria da probabilidade, aplicações e distribuição de frequências�����������11
1.1 Frequência����������������������������������������������������������������������������������������������������������������11
1.1.1 Representações gráficas��������������������������������������������������������������������������������������������������������������������������������������� 19
1.2 Arranjos e combinações�������������������������������������������������������������������������������������������24
1.2.1 Arranjos e combinações��������������������������������������������������������������������������������������������������������������������������������������� 27
1.2.2 Espaço amostral e eventos����������������������������������������������������������������������������������������������������������������������������������� 30
1.2.3 Teoria dos conjuntos��������������������������������������������������������������������������������������������������������������������������������������������� 31
Referências����������������������������������������������������������������������������������������������������������������������43
Capítulo 2
Estatística������������������������������������������������������������������������������������������������������������������������45
2.1 Medidas de tendência central����������������������������������������������������������������������������������48
2.2 Medidas de dispersão�����������������������������������������������������������������������������������������������51
2.3 População e amostragem�����������������������������������������������������������������������������������������56
2.3.1 Amostragem probabilística���������������������������������������������������������������������������������������������������������������������������������� 60
2.3.2 Amostragem não probabilística��������������������������������������������������������������������������������������������������������������������������� 68
2.4 Estimação estatística������������������������������������������������������������������������������������������������74
Referências����������������������������������������������������������������������������������������������������������������������80
Inserir Aqui o Título da Obra
6
Capítulo 3
Teste de hipóteses�����������������������������������������������������������������������������������������������������������81
3.1 Definição do problema e hipóteses��������������������������������������������������������������������������82
3.2 Testes mono e bicaudais�������������������������������������������������������������������������������������������84
3.3 Distribuições Z e t�����������������������������������������������������������������������������������������������������93
3.4 Valores críticos, p-valores e erros����������������������������������������������������������������������������100
Referências��������������������������������������������������������������������������������������������������������������������115
Capítulo 4
Análise de regressão����������������������������������������������������������������������������������������������������� 117
4.1 Elementos básicos�������������������������������������������������������������������������������������������������� 117
4.2 Correlação���������������������������������������������������������������������������������������������������������������120
4.3 Regressão linear simples����������������������������������������������������������������������������������������124
4.4 Regressão múltipla e não linear�����������������������������������������������������������������������������140
Referências��������������������������������������������������������������������������������������������������������������������154
Apresentação
Currículo Lattes:
<http://lattes.cnpq.br/1767196615552654>
Currículo Lattes:
<http://lattes.cnpq.br/8651113987192195>
Currículo Lattes:
<http://lattes.cnpq.br/8395924007688119>
1.1 Frequência
49 40 32 50
31 40 46 51
© WonderfulPixel / / Fotolia
45 36 51 47
40 40 47 54
36 42 31 53
31 40 45 50
31 40 46 51
32 40 47 51 © WonderfulPixel / / Fotolia
36 40 47 53
36 42 49 54
Amplitude de dados refere-se à distância numérica existente entre o maior e o menor número
de uma lista. Para encontrá-la, ordene a lista em ordem crescente e, em seguida, faça a subtra-
ção dos números das extremidades. O resultado será a amplitude da lista de dados.
Outra informação que podemos extrair do quadro com dados ordenados é o valor
que mais se repete na lista, facilmente identificado pelo número 40, que representa a
moda do conjunto de dados.
Moda é a representação do número que mais vezes se repete em uma lista de números.
Logo, temos:
Design Gráfico: Juliano Henrique
© kanate / / Fotolia. (Adaptado).
k=√n
k = √ 20
k = 4,45 ≅ 5
Limite inferior = 31 – 6
2
Limite inferior = 28
Análise de Dados para Business Intelligence 16
Atenção:
Note que os intervalos de classe na tabela acima são fechados à esquerda e
abertos à direita. Isso é demonstrado pelo símbolo . Isso significa que, o menor
valor pertence à classe, mas o maior valor não pertence à classe.
Por exemplo, na classe 34 40, conjunto possível de dados é {34, 35, 36, 37, 38, 39}.
A definição quanto á estrutura “aberto” ou “fechado” dos intervalos de classe é
fundamental para a análise das frequências e dos próprios dados.
Nxi
fr =
N
Design Gráfico: Juliano Henrique
Onde:
Nxi é o número de observações dentro da classe
N é o total de elementos na amostra
fa
fr =
total
Design Gráfico: Juliano Henrique
Análise de Dados para Business Intelligence 19
Frequência acumulada
25
20
15
10 Frequência acumulada
Design Gráfico: Juliano Henrique
5
0
28 Ⱶ 34 34 Ⱶ 40 40 Ⱶ 46 46 Ⱶ 52 52 Ⱶ 58
Análise de Dados para Business Intelligence 21
Frequência acumulada
por intervalo de classes
25
20
15 Design Gráfico: Juliano Henrique
10
5
0
28 Ⱶ 34 34 Ⱶ 40 40 Ⱶ 46 46 Ⱶ 52 52 Ⱶ 58
Nesse ponto, pode surgir uma pergunta: qual a aplicabilidade da frequência acu-
mulada no call center, por exemplo? A resposta é que a frequência acumulada permi-
te que o gestor tenha uma visão clara do total de observações (ligações recebidas) de
uma determinada sequência de classes, dispondo, assim, do volume (absoluto ou rela-
tivo) de ligações recebidas totais (somadas) recebidas dentro das classes em questão.
A frequência acumulada pode ser aplicada aos casos em que o gestor deseja de-
terminar a capacidade produtiva e partir desse número, verificar quantas classes serão
atendidas.
Se o gestor do call center tiver como meta atender até 90% das ligações, ele deve preparar sua
equipe para receber 52 ligações diárias aproximadamente.
Análise de Dados para Business Intelligence 22
25
20
Frequência absoluta
15 Frequência relativa
10 Frequência acumulada
0
28 Ⱶ 34 34 Ⱶ 40 40 Ⱶ 46 46 Ⱶ 52 52 Ⱶ 58
Gráfico de linhas
Frequência acumulada
20
Frequência relativa
15 Frequência absoluta
10
0
28 Ⱶ 34 34 Ⱶ 40 40 Ⱶ 46 46 Ⱶ 52 52 Ⱶ 58
Análise de Dados para Business Intelligence 23
Estudantes
55 em Ciências da
Computação; 18%
98 em Biologia; 32%
Biologia
Administração
Direito
C. da computação
Design Gráfico: Juliano Henrique
85 em Direito; 28%
65 em
Administração; 22%
Análise de Dados para Business Intelligence 24
Nesse exemplo, cada categoria possui uma área do gráfico que corresponde a
um percentual do todo. Assim, o curso de Administração corresponde a 22% do total,
Biologia perfaz 32% do total e assim por diante, fechando em 100% o total de catego-
rias da informação desejada.
Até o momento, vimos que apresentar os dados em forma de tabelas e gráficos
nos dá uma boa ideia do que eles representam.
s+1
P(resultado futuro) =
n+2
m
P(E ocorrer) =
N
Design Gráfico: Juliano Henrique
A teoria da probabilidade faz uso dessas teorias para melhor explicar seus even-
tos. Exemplo:
P(E ocorrer) = m
N
1
P(E ocorrer) =
6
x!
K! (x! –k!)
2x
Design Gráfico: Juliano Henrique
x!
K!(x! – k!)
2x
6!
4!(6! – 4!)
26
720
24(720 – 24)
64
720
16704
© Hans-Jörg Nisch / / Fotolia. (Adaptado).
64
Design Gráfico: Juliano Henrique
0,0431
64
0,000673
Análise de Dados para Business Intelligence 27
n!
(n – R)!
Design Gráfico: Juliano Henrique
Exemplo
Suponha que, em uma corrida da Fórmula 1, com o grid de largada formado por
24 carros, você deseja acertar a ordem de chegada dos três primeiros carros (pilotos),
sem nada saber sobre os carros. Qual será a sua probabilidade de acertar a ordem de
chegada dos três finalistas?
Resposta: Como você deve escolher 3 entre 24 carros, isso equivale à escolha de 3
entre 24, ou seja, n será o total número de carros e R o número de carros que você es-
colherá, então, n = 24 e R = 3, sendo dado por n! / (n – R)! Logo:
Análise de Dados para Business Intelligence 28
n!
R!
CR,x =
x! (R – x)
Design Gráfico: Juliano Henrique
Como conclusão, podemos dizer que toda vez que tivermos o evento E1 ocorren-
do simultaneamente com o evento E2, haverá a intersecção dos eventos, representa-
dos matematicamente por E1 E2. Ainda, quando ocorrer pelo menos um dos eventos
E1 ou E2, teremos a união dos eventos, representados matematicamente por E1 E2.
Com essa fundamentação, a probabilidade de um evento determinado ocorrer es-
tará sempre no intervalo que vai de 0 (zero) a 1 (um, ou 100% – com P(A) sendo a pro-
babilidade de o evento A ocorrer), então:
0 ≤ P(A) ≤ 1
Design Gráfico: Juliano Henrique
P(A) = A
N (Ω)
Design Gráfico: Juliano Henrique
Sendo:
P(A) é a probabilidade de sucesso de o evento A ocorrer;
A é o evento para o qual se deseja sucesso;
N(Ω) expressa o número de casos possíveis.
Logo:
Se P(A) = 1, então, o evento A terá 100% de certeza em ocorrer.
Se P(A) = 0, então, o evento A terá 0% de certeza em ocorrer, ou seja, impossível.
Se AC é o complemento do evento A, então, P(AC) = 1 – P(A).
Se o evento A está contido no evento B (A ⊂ B), então, P(A) ≤ P(B).
As propriedades apresentadas até agora podem ser expressas pela seguinte for-
mulação geral:
ΣωεΩ
P({ω}) = P
U ωεΩ
{ω} = 1
Sendo:
Ω o espaço amostral;
ω o elemento que se deseja obter no experimento;
N(Ω) o número de casos possíveis.
Sabendo-se que: Ω = {ω1, ω2 , ω3 ... , ωn}
No caso de os eventos serem mutuamente exclusivos (ou disjuntos), usamos a inter-
secção, e a formulação da probabilidade de um evento ocorrer com sucesso é dada por:
Σ
P [A1
U A2]= P({ω})
ωεA1 A2
U
Sendo:
A1 o evento 1 e A2 o evento 2;
ω o elemento que se deseja obter no experimento.
No caso da união, a formulação da probabilidade de um evento ocorrer com su-
cesso é dada por:
P [A1
U Σ A2] =
ωεA1U A2
P({ω})
Sendo:
A1 o evento 1 e A2 o evento 2;
ω o elemento que se deseja obter no experimento.
Há casos em que a ocorrência do evento A1 elimina a ocorrência do evento A2
(conhecidos como eventos mutuamente exclusivos), ou seja, a probabilidade de que
cada um dos eventos apresentados se realize é igual quando os elementos dos eventos
não se repetem. Em outras palavras, dois eventos são mutuamente exclusivos quando
não podem ocorrer simultaneamente. Por exemplo, jogarmos um dado, se definirmos
A como o conjunto dos resultados de números pares e B como o conjunto dos números
ímpares, então, teremos que:
Análise de Dados para Business Intelligence 34
Ω = {1, 2, 3, 4, 5, 6}
A = {2, 4, 6} e,
B = {1, 3, 5}
Logo, A B = Ø
Podemos também formular os eventos mutuamente exclusivos ao definirmos
que, se A e B são dois eventos quaisquer, teremos a chamada regra da adição de proba-
bilidades, dada por (BUSSAB; MORETTIN, 2012, p. 107):
P(A B) = P(A) + P(B) – P(A B), que se reduz a
P(A B) = P(A) + P(B), se A e B forem eventos mutuamente exclusivos.
Um exemplo clássico que utiliza esse racio-
cínio é o nascimento de uma criança. Sabendo-se
que pode ser um menino ou uma menina e que os
olhos podem ser verdes, azuis, castanhos ou pre-
tos, pode-se estimar a probabilidade de nascer
© massimo maghenzani / / Fotolia
Menina Menina
Olhos verdes Olhos azuis
Menina Menina
Olhos castanhos Olhos pretos
Menino Menino
Olhos verdes Olhos azuis
Menino Menino
Olhos castanhos Olhos pretos
Vejamos um exemplo.
Se A é o conjunto das letras vogais e B é o conjunto
das letras consoantes, então, A ∪ B é o conjunto de todas
as letras do alfabeto, ou seja, A seria composto por 5 letras
e B por 21 letras. O resultado, portanto, seria o conjunto
das 26 letras do nosso alfabeto português (incluindo-se as
letras K, W e Y).
De acordo com Bussab e Morettin (2012), o teorema
da probabilidade condicional leva em consideração que,
existindo dois eventos A e B, em que o evento B já ocorreu
(portanto, a P(B) > 0 por já ter ocorrido), a probabilidade
de o evento A ocorrer será dada pela probabilidade condi-
cional, que é:
P(A/B) = P(A ∩ B) / P(B)
© lil_22 / / Fotolia. (Adaptado).
Vejamos um exemplo:
Questionamento 01
Qual a probabilidade de se escolher um ALUNO (homem – H) dessa universidade?
Resposta: O espaço amostral Ω de estudantes é de 303 e o total de homens é de
153, então, a P(H) = 153 / 303 = 0,50495 = 50,49%.
Análise de Dados para Business Intelligence 39
Questionamento 02
Qual a probabilidade de se escolher aleatoriamente um estudante do curso de
Biologia (BIO)?
Resposta: O espaço amostral Ω de estudantes é de 303 e o total de estudantes (ho-
mens e mulheres) de Biologia (BIO) é de 98, então, P(BIO) = 98 / 303 = 0,32343 = 32,34%.
Podemos considerar, ainda, questionamentos mais abrangentes, que exemplifi-
cam o uso das propriedades da probabilidade.
Questionamento 03
Qual a probabilidade de escolhermos aleatoriamente um aluno (portanto homem
– H) de um curso de Direito (DIR)?
Resposta: H DIR, chamado intersecção de H e DIR, porque H e DIR ocorrem si-
multaneamente, então, utilizamos a propriedade da intersecção para resolver a ques-
tão. O espaço amostral Ω de estudantes é de 303 e o total de estudantes homens (H)
que cursam Direito (DIR) 51, então:
P(H DIR) = 51/303
O que significa que o estudante escolhido deve ser homem e, ao mesmo tempo,
deverá estar matriculado no curso de Direito.
Questionamento 04
Qual é a probabilidade de escolhermos um aluno (homem) ou qualquer aluno
(homem ou mulher) do curso de direito? Se P(H) representa a probabilidade de esco-
lher um homem em todo o espaço amostral Ω, então, temos que P(H) = 153/303 e que
P(DIR) é a probabilidade de escolher um estudante qualquer de Direito (DIR) em todo
o espaço amostral Ω. Logo, temos que P(DIR) = 85/303. A formulação é P(H DIR), en-
tão, poderíamos pensar em:
P(H DIR) = P(H) + P(DIR) = 153/303 + 85/303 = 238/303
No entanto contaríamos, assim, duas vezes os homens matriculados no curso de
Direito. Para resolvermos, utilizaremos o teorema da adição, que consiste em:
P(H DIR) = P(H) + P(DIR) – P(H DIR) = 153/303 + 85/303 – 51/303 = 187/303
Questionamento 05
Qual a probabilidade de escolhermos aleatoriamente um estudante que está ma-
triculado em Administração, Direito ou Ciência da Computação, sem nos interessar se
é homem ou mulher?
Análise de Dados para Business Intelligence 40
Questionamento 06
Qual a probabilidade de escolhermos aleatoriamente um estudante de Ciência da
Computação, sendo que o estudante é uma mulher?
Resposta: Como foi definida a probabilidade condicionada de estudante de
Ciência da Computação (CC), sendo fornecida a condição mulher (M), temos uma
questão do teorema da probabilidade condicional, que define a probabilidade con-
dicional de um evento A dado B, ou seja, (P(A|B), como definem Bussab e Morettin
(2012, p. 111):
P(A|B) = P(A B) / P(B)
Nesse caso, definimos que o evento A é o “estudante de Ciência da Computação”
(A = CC) e que o evento B é a condição dada, ou seja, de “ser mulher” (B = M). Logo,
devemos observar que:
a. P(A) = P(CC) = Probabilidade de “ser estudante matriculado em Ciência da
Computação” = 55/303.
b. Temos a informação dada de que B ocorreu, ou seja, P(B) = P(M) =
Probabilidade de “ser estudante mulher” = 21/303.
c. Com a informação de que B ocorreu, aumenta a chance de A ocorrer, então:
P(CC|M) = P(CC M) / P(M) = (55/303) / (21/303) = 55/21
Análise de Dados para Business Intelligence 41
m
P(A) =
n
Design Gráfico: Juliano Henrique
60
n=
6
Design Gráfico: Juliano Henrique
Análise de Dados para Business Intelligence 42
Referências
BRUNI, A. L. Estatística Aplicada à Gestão Empresarial. 4. ed. São Paulo: Atlas, 2011.
BRUNI, A. L. Estatística Aplicada à Gestão Empresarial. 4. ed. São Paulo: Atlas, 2013.
BUSSAB, W. de O.; MORETTIN, P. M. Estatística Básica. 7. ed. São Paulo: Saraiva,
2012.
NEUFELD, J L. Estatística Aplicada à Administração Usando Microsoft Excel. São Paulo:
Prentice Hall, 2003.
2 Estatística
© Coloures-pic / / Fotolia
O termo estatística é comumente utilizado com diferentes significados. Por vezes,
significa um grupo de dados numéricos; outras, um conjunto de dados que representam o
comportamento de vendas de um produto. Mas também pode significar uma coleção de
dados numéricos que descrevem o comportamento das exportações de um país ou, ainda,
seu produto interno bruto (PIB) – isso apenas para ficarmos em alguns exemplos.
Portanto, como podemos constatar, são vários os usos do termo estatística para
relacionar, correlacionar, ordenar, classificar e apresentar dados, entre outras ações.
A estatística é um ramo da matemática que trata e analisa dados de acordo com
um determinado critério, que chamamos de método estatístico. A estatística é aplicada
em várias áreas de estudo: administração, economia, contabilidade, medicina, farmá-
cia, veterinária, computação, jogos e outras áreas que utilizam dados para gerenciar
seu ramo de atuação e facilitar a tomada de decisões. Por exemplo, antes de lançar um
remédio no mercado, os farmacêuticos necessitam testar as diferentes fórmulas asso-
ciadas aos diferentes voluntários e verificar se as dosagens, tomadas em grupos ou in-
dividualmente, são eficientes.
Para trabalharmos com estatística, é importante, inicialmente, definirmos sua ne-
cessidade e a aplicação dos seus métodos de forma adequada. Para um melhor entendi-
mento das questões que nos cercam, fazemos uso do raciocínio lógico que, por sua vez,
faz-se sobre determinadas construções de raciocínio, que podem ser de cunho dedutivo
ou indutivo.
46
n
Σ
¡=1
x¡
µ=
n
49
Para calcular a média com base nos números de carros vendidos por mês, basta
somar todas as quantidades de vendas por mês e dividir pela quantidade de meses.
Se definirmos o mês por i e a quantidade de carros utilitários vendidos por x, po-
demos verificar que no mês 1, ou seja, no i = 1, a quantidade x de carros utilitários ven-
didos foi de 45, ou seja x = 45 quando i = 1. Considerando que a lógica é a mesma para
todos os i, cuja soma é 12, se chamarmos o total de meses de n, teremos n = 12, ou
seja, o total de meses cujas quantidades de vendas foram coletadas foi de 12, sendo
n = 12.
Outra medida de tendência central é a moda. Moda é o valor que ocorre com
maior frequência em uma relação de números, em um intervalo de dados, em uma ma-
triz ou em outro tipo de coleta de dados. Se houver mais de um valor que corresponde
ao conceito de moda, então, esses valores podem ser chamados modas.
A moda possui classificações:
• Unimodal: ocorre quando há um número com maior incidência de repetição na
lista.
• Bimodal: ocorre quando existem dois números que se repetem.
• Multimodal: ocorre quando há mais de dois números que se repetem na lista.
• Amodal: quando não há um número que se repita em uma determinada lista.
Ao analisarmos a figura que apresenta os números de carros vendidos, podemos
identificar o número que mais se repete na lista: 67. É esse, portanto, o valor da moda
da lista em questão.
50
Para calcular a amplitude, basta subtrair o maior número da lista pelo menor.
Aproveitemos a figura com os números de carros vendidos:
Original 45 67 59 81 75 55 67 84 73 80 77 90
Média 71,08 71,08 71,08 71,08 71,08 71,08 71,08 71,08 71,08 71,08 71,08 71,08
DMA 26,08 4,08 12,08 9,92 3,92 16,08 4,08 12,92 1,92 8,92 5,92 18,92
σ2
σ = √σ
Design Gráfico: Juliano Henrique
Em nosso exemplo:
σ – √156,2431
σ = 12,4997
O Coeficiente de Variação é uma medida utilizada para verificar a homogeneidade dos dados
em relação à média; se essa medida for inferior a 30%, em geral, a média será bastante repre-
sentativa. É um número adimensional, ao contrário da variância e do desvio-padrão.
Para calcular o coeficiente de variação (cv), basta dividir o desvio-padrão pela mé-
dia encontrada, conforme equação a seguir:
Na estatística, o termo inferência significa desenvolver ou fazer uso de métodos que permi-
tam generalizar conclusões, ou seja, a partir de dados amostrais, apresentar conclusões, conse-
quências, deduções em uma população.
Barbetta (2001, p. 43) ainda aconselha a não usar amostragem nos seguintes
casos:
• quando temos uma população pequena;
• quando a característica de estudo é de fácil mensuração;
• quando há necessidade de alta precisão, como nos casos dos estudos do IBGE.
A amostragem pode ser obtida por meio de dois métodos: a amostragem pro-
babilística e a não probabilística. Basicamente, o que diferencia uma amostragem da
outra é que na amostragem probabilística os elementos da população possuem proba-
bilidade conhecida (e diferente de zero) de pertencer à amostra.
Para definirmos a amostragem, primeiro identificamos os objetivos da análise, a
população e os parâmetros a estimar, a fim de que esses objetivos sejam atingidos. A
seleção dos elementos que farão parte da amostra pode ser realizada por meio de téc-
nicas estatísticas conhecidas e seus conceitos.
Existem algumas formas de realizar a amostragem. Elas levam em consideração a
reposição dos elementos e as probabilidades de eles serem escolhidos. São eles:
Amostragem probabilística
As amostras não probabilísticas, por sua vez, podem ser classificadas como:
esmo, intencional (ou por julgamento) e cotas. Veja:
60
© Coloures-pic / / Fotolia
Exemplo 1
Os empregados de uma firma têm etiquetas numeradas con-
secutivamente de 101 a 831. Para que não haja reclamações,
deve-se escolher um comitê de segurança de 10 pessoas,
de modo aleatório. O critério utilizado pode ser o de colo-
car todas as etiquetas em uma TNA e utilizar os três primei-
ros números da segunda coluna da tabela para selecionar a
comissão.
Dessa forma, a comissão deve ser composta pelos emprega-
dos: 479, 107, 452, 526, 162, 315, 442, 318, 324 e 608.
Exemplo 2
Escreve-se o nome de todos os alunos da sala (100) em peda-
ços de papel, colocando-os em um recipiente. A probabilida-
de de cada um ser escolhido será 0,01. Escolhem-se 7, a fim
de formarem uma amostra de tamanho 7, usando a tabela de
números aleatórios (TNA) ou a geração de números aleató-
rios por computador.
© jpgon / / Fotolia. (Adaptado).
64
Quando definimos que devemos sortear igual número de elementos de cada es-
trato, podemos chamar a amostra estratificada de amostra estratificada uniforme.
Quando temos estratos com tamanhos diferentes de elementos, esse método não
pode ser utilizado, porque não teremos como extrair o número igual de elementos de
cada estrado. A solução, nesse caso, é calcular as proporções de cada estrato e retirar
o número de elementos de cada um, respeitando a proporção calculada (geralmente
em porcentagem). Pretende-se, ao final do processo, apresentar uma proporção igual
para cada estrato, porém com número de elementos diferentes. Podemos chamar esse
método de amostra estratificada proporcional.
Se a composição da amostra possuir o número de elementos proporcionais a cada
estrato que respeite uma variabilidade dos elementos dentro de cada estrato (dado
pelo desvio-padrão de cada estrato), teremos em mãos uma amostra denominada
amostra estratificada ótima.
Exemplo
Um engenheiro quer fazer uma amostragem estratificada proporcional do diâmetro
de uma peça produzida por duas máquinas distintas. Caso adote n = 5 e utilize os valores
do quadro a seguir, qual será a amostra?
66
Diâmetro de peças
Máquina A: 1 2 3 4 5 6 7
Máquina B: 1 2 3 4 5 6 7 8 9 10 11 12 13
Diâmetros: 44,0 47,1 46,0 45,2 46,7 49,4 43,8 44,8 48,6 46,5 47,5 49,5 48,0
Leitura tabela 7 5 1 9 10
Exemplo 2
Uma solução possível seria a estratificação dessa população por tipo de universi-
dade, ou seja:
1. Universidade 1 possui 1,2 mil estudantes, então: (1... 1.200);
2. Universidade 2 possui 3 mil estudantes, então: (1.201...4.200);
3. Universidade 3 possui 4 mil estudantes, então: (4.201... 8.200); e assim por
diante, até totalizar os 500 mil estudantes;
4. Poderíamos, então, coletar uma amostra aleatória de universidades igual a 5.
Com as 5 universidades escolhidas, seriam entrevistados todos os elementos
desses conglomerados.
Observação: alguns autores entendem que, na última etapa (4), também pode
ser feita uma amostra aleatória simples sobre cada subpopulação selecionada. Ou seja,
se desejássemos uma amostra de 1.000 estudantes, selecionaríamos apenas 200 de
cada universidade.
generalizar os resultados das pesquisas para a população, pois amostras desse tipo
não garantem a representatividade da população.
Há algumas considerações da amostragem não probabilística a serem
observadas:
• não há seleção aleatória; ela é subjetiva, baseada na decisão pessoal do
pesquisador;
• a variabilidade amostral não pode ser estabelecida com precisão;
• listagem dos elementos da população nem sempre é possível na prática;
• não se conhece a probabilidade de um elemento da população pertencer à
amostra;
• o erro amostral não pode ser estimado;
• as conclusões da amostra não podem ser estendidas para a população com
uma medida de probabilidade de acerto.
Nesse ponto, é possível que você esteja se perguntando: “Mas, afinal, quando vou
utilizar a amostragem não probabilística?”.
A resposta relaciona-se com os casos em que você e seu trabalho estão:
• na etapa preliminar em projetos de pesquisa;
• envolvidos em projetos de pesquisa qualitativa, com bom conhecimento da
população;
• envolvidos em projetos em que a população não pode ser relacionada
(listagem).
Amostragens não probabilísticas são amostras retiradas de populações de forma
não aleatória, seguindo, portanto, um determinado critério. Segundo Barbetta (2001,
p. 56) e conforme dissemos anteriormente, as amostragens não probabilísticas podem
ser classificadas em cotas, intencional (julgamento) e a esmo.
A amostragem não probabilística por cotas assemelha-se à amostragem estra-
tificada proporcional, por não haver sorteio na seleção dos elementos. A população é
dividida em diversos grupos ou subgrupos, selecionando-se, para fazer parte da amos-
tra, uma cota de cada grupo ou subgrupo, proporcional ao seu tamanho e cuja seleção
não precisa ser aleatória. Para facilitar, divide-se a população em um grande número
de subgrupos.
Por exemplo, uma pesquisa socioeconômica pode ser dividida por localidade; a
localidade pode ser dividida por nível de instrução; este, por sua vez, pode ser dividido
por faixa de renda e aplicado o sorteio das amostras proporcionais ao tamanho da po-
pulação dos subgrupos.
70
Categorias de idades
Idade (anos) Homens Mulheres Ambos
Exemplo 1
Um pesquisador deseja coletar
opiniões sobre tendência de cor-
tes de cabelo, então, dirige-se a
grandes salões de beleza e entre-
vista os profissionais da área.
Exemplo 2
Em uma pesquisa de produtivi-
dade de soja, o pesquisador pode
escolher os produtores que, se-
gundo ele, são os que melhor
representam o estudo da produti-
vidade de soja em dada região.
Um analista possui uma caixa com 10.000 parafusos e deve escolher alguns para compor a
amostra sem nenhuma norma. Basta, então, escolher a esmo os parafusos que comporão o ta-
manho da amostra.
Qualitativa Quantitativa
Design Gráfico: Thiago Sihvenger
n= Zσ
d
Z2 pq
n=
d2
16 - (σ) Desvio-padrão 5
NZ 2 pq
n= 2
Z pq+ (N – 1) d2
79
© ltstudiooo / / Fotolia
a média, a moda e a mediana, assim
como as medidas de dispersão, ca-
racterizadas pela amplitude dos da-
dos, pelo desvio médio absoluto,
pela variância e desvio-padrão. Esses conceitos são básicos para o entendimento dos
métodos estatísticos sobre os dados, permitindo a realização de análises futuras mais
amplas. Além disso, este capítulo também introduziu os conceitos de população e
amostra, apresentando a caracterização dos diferentes tipos de amostras que podem
ser utilizados para aplicar os métodos estatísticos sobre os dados. Os tipos de amos-
tras são identificados em dois grupos: os probabilísticos e os não probabilísticos.
Por fim, vimos os possíveis tipos de amostras probabilísticas e suas definições,
como as amostras aleatórias simples, sistemática, estratificada e de conglomerados,
com exemplos que permitem distingui-los e verificar qual o melhor tipo para compor
os seus estudos. Da mesma forma, foram apresentados os diferentes tipos de amos-
tras não probabilísticas, como a amostragem por cotas, intencional e a amostragem
a esmo. Além disso, mediante aplicação prática, foram apresentados os cálculos que
permitem determinar os tamanhos de cada tipo de amostra, de forma a caracterizar a
validade do estudo estatístico e a aplicação dos seus métodos.
80
Referências
BARBETTA, P. A. Estatística Aplicada às Ciências Sociais. 4. ed. Florianópolis: UFSC,
2001.
BRUNI, A. L. Estatística Aplicada à Gestão Empresarial. 3. ed. São Paulo: Atlas, 2011.
BUSSAB, W. de O.; MORETTIN, P. M. Estatística Básica. 7. ed. São Paulo: Saraiva, 2012.
DOWNING, D.; CLARK, J. Estatística Aplicada. São Paulo: Saraiva, 2000.
FONSECA, J. S. da; MARTINS, G. de A. Curso de Estatística. 3. ed. São Paulo: Atlas, 1980.
NETO, P. L. de O. C. Estatística. São Paulo: Blücher, 1977.
3 Teste de hipóteses
© bloomua / / Fotolia
O objetivo do teste de hipóteses é averiguar se determinada suposição, efetua-
da a partir das amostras, pode ser estendida à população. Ou seja, o teste utiliza dados
de uma amostra para verificar se determinada característica de uma população é ver-
dadeira e é elaborado a partir da definição dos seguintes elementos:
• definição do problema e hipóteses;
• determinação das regiões de aceitação;
• determinação da distribuição a ser utilizada;
• avaliação dos resultados dos testes pelo intervalo de confiança ou p-valor.
É importante ressaltar que tomaremos como exemplos apenas testes que en-
volvam a média da população. Justifica-se: esses testes empregam todos os funda-
mentos de testes de hipóteses e são mais facilmente demonstrados e compreendidos
empiricamente.
H0: peso médio nos potes é de 1,1 quilograma, ou, H0: μ = 1,1 quilograma.
H1: peso médio nos potes é diferente de 1,1 quilograma, ou, H1: μ ≠ 1,1 quilograma.
É uma situação óbvia, em que buscamos apenas comprovar que os potes verifica-
dos não contêm 1,1 quilo de suplemento. Se não conseguirmos provar essa situação,
H0 será aceita como verdadeira.
H0: quantidade média de dias para pagamento é menor ou igual (“até”) a 4, ou,
H0: μ ≤ 4 dias.
H1: quantidade média de dias para pagamento é maior que (que é o contrário de ser
menor ou igual) 4, ou, H1: μ > 4 dias.
Essa situação é emblemática, porque, na prática, H 0 é formulada da seguinte ma-
neira: H 0: μ = 4 dias, mesmo que valores menores que 4 sejam aceitos como verdadeiros.
Como isso pode ser correto? É a típica situação na qual vamos buscar evidências não para
rejeitar H 0, mas sim para comprovar H1. No caso de não as encontrarmos, aceitamos H 0
como resposta ao nosso problema, ou seja, quaisquer quantidades de dias contrárias a ser
maiores que 4 são, obviamente, menores ou iguais a 4 dias.
Análise de Dados para Business Intelligence 84
Distribuição normal
Li σ√2π
Sendo:
Li = limite inferior
Ls = limite superior
x = variável normalmente distribuída
P(Li < x < Ls ) = probabilidade de a variável x encontrar-se dentro do intervalo de Li e Ls
μ = média
σ = desvio-padrão
x–µ
Z=
σ
Design Gráfico: Juliano Henrique
Sendo:
Z = afastamento em desvios-padrão e representa a curva normal padronizada
x = variável distribuída normalmente
μ = média
σ = desvio-padrão
Quais são as aplicações desses conceitos? Vamos a um exemplo.
Uma indústria produz chapas de aço que, em média, apresentam 150 mm de espes-
sura, com desvio-padrão de 20 mm. Partindo do princípio de que a espessura das chapas
se distribui normalmente, qual a probabilidade de uma chapa retirada ao acaso apresen-
tar entre 150 mm e 190 mm?
Primeiramente, vamos visualizar os dados do problema no gráfico apresentado
na figura a seguir:
Análise de Dados para Business Intelligence 87
Espessura de chapas
Pela figura, é óbvio que chapas com a espessura máxima de 190 mm se afastam
dos desvios-padrão (de 20 mm cada) da média de 150 mm. O cálculo de Z, evidente-
mente, confirma a observação:
Z=?
x = 190
μ = 150
σ = 20
Z=
σ
Design Gráfico: Juliano Henrique
190 – 150
Z=
20
Z= 2
A Tabela Z foi criada por Moivre, em 1733, e descreve uma série de fenômenos físicos e natu-
rais, descritos pelos parâmetros média e desvio-padrão. É muito utilizada em estatística infe-
rencial e encontrada na maioria dos livros de introdução à estatística, podendo ser gerada em
planilhas eletrônicas.
Z = – 1,25 Z = 0,75
© evgeniya_m / / Fotolia. (Adaptado).
Design Gráfico: Thiago Sihvenger
Análise de Dados para Business Intelligence 90
Ou seja, do lado esquerdo da média (por isso, o sinal negativo no número de des-
vios-padrão), temos 1,25 desvio-padrão, o que corresponde à área de 0,3944 (empre-
gando-se a Tabela Z a primeira coluna indica o valor 1.2 e a primeira linha indica o valor
0,05. Você pode consultar a tabela Z ao final do capítulo), e, do lado direito, 0,75 des-
vio-padrão, equivalente à área de 0,2734 (também empregando-se a Tabela Z). Dessa
forma, a probabilidade de uma chapa medir entre 125 mm a 165 mm é de 66,77%
(0,3944 + 0,2734).
Agora, vamos supor que desejemos obter a probabilidade de uma chapa retirada
ao acaso ter sua espessura superior a 190 mm, conforme a figura a seguir:
150 190
É simples. Como da direita da média aos valores mais extremos temos uma área
de 50%, ou 0,5 (é característico da distribuição normal que a área formada pelos va-
lores mais extremos de ambos os lados da média seja 1, ou 100%), basta calcularmos
a área da média de 150 mm até 190 mm. Esse cálculo já foi realizado anteriormente
e seu resultado é de 0,4772. Portanto, ao subtrairmos esse valor da área total de 0,5
(que nada mais é do que o que se vê do valor central até o valor padronizado), teremos
como resultado 2,28% (0,5 – 0,4772 = 0,0228).
Mas qual a importância desses conceitos para o teste de hipóteses? Ora, as hi-
póteses levantadas irão determinar se os testes devem ser aplicados em uma ou nas
duas caudas da distribuição de frequência empregada. Ou seja, basta calcularmos as
áreas de aceitação (ou rejeição) das hipóteses para verificarmos se os resultados dos
testes empregados se encontram nas áreas obtidas. Nesse sentido, os testes de hipó-
teses podem ser monocaudais ou bicaudais.
Análise de Dados para Business Intelligence 91
Teste monocaudal
1 2 3 4 5 6 7
Análise de Dados para Business Intelligence 92
3.3 Distribuições Z e t
Antes de abordarmos, especificamente, as distribuições Z e t, vamos enten-
der o que é uma distribuição amostral. Quando estamos analisando um parâmetro
(por exemplo, a média) extraído de uma amostra, temos que levar em consideração
que o valor desse parâmetro pode não ser necessariamente igual ao valor do mesmo
parâmetro da população. Por outro lado, à medida que aumentarmos o tamanho da
amostra, esta irá distribuir-se conforme a distribuição da população. Além disso, se a
amostra tiver um número elevado de elementos, ela irá se distribuir de forma aproxi-
madamente normal, conforme a equação a seguir:
Sendo:
σx = desvio-padrão das médias amostrais
σ = desvio-padrão da população
n = tamanho da amostra
Dessa forma, é óbvio que a média das médias das amostras terá um valor mui-
to próximo à média da população. Porém, é preciso considerar que esse “muito próxi-
mo” carrega certa imprecisão. Logo, para deduzirmos o valor da média da população
a partir da amostra, teremos de considerar essa imprecisão, chamada de erro inferen-
cial. Esse erro é fornecido, portanto, pelo desvio-padrão das médias amostrais e pelo
intervalo de confiança presumido (pois, como estamos trabalhando com amostras – e
não com a totalidade da população –, nunca teremos certeza do resultado). O inter-
valo de confiança é obtido por meio da área sob a curva normal que o representa. Por
exemplo, se desejarmos um intervalo de confiança de 95% de que os resultados este-
jam corretos, a área sob a curva normal terá a forma mostrada na figura a seguir:
Análise de Dados para Business Intelligence 94
Liminf μ Limsup
O valor é de 1,96 (1,9 da linha, mais 0,06 da coluna). O que isso, de fato, signifi-
ca? Na verdade, é o fator de ajuste (ou probabilidade de acerto) de nossa estimativa a
ser aplicado para a obtenção da média populacional a partir dos valores conhecidos do
desvio-padrão da população, de acordo com a equação a seguir:
Sendo:
μ = média populacional
x = média amostral
z = valor Z
σ = desvio-padrão da população
n = tamanho da amostra
Vamos mostrar uma aplicação das distribuições Z e t a partir do exemplo
seguinte.
Em uma inspeção de rotina, o auditor da qualidade de uma indústria de material
escolar retirou uma amostra de 30 lápis da produção de um dia. Verificou-se que os lá-
pis dessa amostra apresentaram um comprimento médio de 16,2 cm. Sabe-se que o
desvio-padrão do processo de produção, que se distribui normalmente, tem apresen-
tado 1,21 cm. Nessas condições, com um intervalo de confiança de 90%, quantos cen-
tímetros de comprimento, em média, o auditor da qualidade pode esperar que os lápis
produzidos pela indústria tenham?
O primeiro passo é encontrar o valor Z. Um intervalo de confiança de 90% indica
45% na tabela Z (ou 0,45) para cada lado da área a partir da média. Esse valor, portan-
to, é de 1,65 (BRUNI, 2011, p. 387). Assim, temos os seguintes valores:
μ=?
x = 16,2
z = 1,65
σ = 1,21
n = 30
Análise de Dados para Business Intelligence 96
Assim, com 90% de segurança, o auditor pode esperar que os lápis produzidos te-
nham, em média, entre 15,84 e 16,56 cm. Mas e se o auditor desejasse ficar mais se-
guro ainda, optando por um intervalo de confiança de 95% (z = 1,96)? Como deveria
proceder?
gl = n – 1
Design Gráfico: Juliano Henrique
Sendo:
gl = graus de liberdade
n = tamanho da amostra
Vamos supor que desejemos combinar dois a dois, ao acaso e sem repetição, os
elementos A, B e C. Teremos liberdade de compor quantas combinações? Se escolher-
mos ao acaso A e B (combinação 1), e A e C (combinação 2), só restará combinarmos,
obrigatoriamente, B e C. Para a última combinação, não teremos liberdade de escolha
– daí graus de liberdade significarem todos os elementos da amostra, menos um deles.
Cabe ressaltar que, em uma amostra, sua definição dá-se pela média, desvio-padrão e
outros parâmetros. Portanto, definida a média, já restam n-1 parâmetros a serem con-
siderados como incógnitas, por isso, gl = n-1.
Da mesma forma que na distribuição Z, além dos graus de liberdade, também ne-
cessitamos estabelecer o intervalo de confiança com que desejamos trabalhar para
estimar a média da população a partir de uma amostra. Vale ressaltar que essa popu-
lação deve ser distribuída normalmente, ainda que não saibamos seu desvio-padrão. A
equação empregada é apresentada a seguir:
µ= x +– t s
√n
Design Gráfico: Juliano Henrique
Sendo:
μ = média populacional
x = média amostral
t = valor t
s = desvio-padrão da amostra
n = tamanho da amostra
Análise de Dados para Business Intelligence 98
de 1,21 cm. Nessas condições, com um intervalo de confiança de 90%, quantos centí-
metros, em média, o auditor da qualidade pode esperar que os lápis produzidos pela
indústria tenham de comprimento?
Note que, nesse exemplo, o desvio-padrão não é do processo de produção, mas
sim daquelas amostras. Os dados do problema, portanto, são os seguintes:
μ=?
x = 16,2
t = 1,6991
s = 1,21
n = 30
µ= x +– t s , temos
Design Gráfico: Juliano Henrique
√n
µ = 16,2 +– 1,6991 1,21
√30
Os resultados mostram que, nessa situação, o auditor deve esperar que os lápis
produzidos tenham, em média, de 15,82 a 16,58 cm. Vamos supor agora que o auditor
deseje um intervalo de confiança maior, de 95%. Qual seria a média do comprimento
dos lápis produzidos nessa condição?
Análise de Dados para Business Intelligence 100
Os resultados indicam que a média do comprimento dos lápis deve variar de 15,75
a 16,65 cm, ou seja, da mesma forma como mostrado na distribuição Z. Aumentando o
intervalo de confiança, temos que esperar também uma faixa mais abrangente. Vamos
fazer outra experiência: retornemos o intervalo de confiança para 90%, porém supo-
nhamos que os dados da média e desvio-padrão amostral tenham sido extraídos de
uma amostra com somente 2 lápis. Nessas condições, qual será a faixa de valores que
representam a média do comprimento dos lápis produzidos pela indústria?
Ou seja, a média irá variar de 10,80 a 21,26 cm (mais que o dobro!). Como explicar
esse resultado? Ora, com apenas 2 lápis de amostra, não é possível arriscar que toda a
produção terá o comprimento desses lápis. A faixa de valores, naturalmente, será mais
elástica ainda. E o contrário também é verdadeiro: à medida que aumentarmos o nú-
mero de amostras, menor será a faixa, pois a população estará sendo cada vez mais
adequadamente representada pelas amostras.
Apesar disso, devemos nos perguntar: quanto podemos confiar nas estimativas
das médias populacionais obtidas? Para nos certificarmos dos resultados, empregamos
algumas técnicas, entre elas, os valores críticos e os p-valores.
Escolha de procedimentos
n > 30?
sim não
σé né
conhecido? normal?
não sim
sim não σé
conhecido?
não sim
Assim, temos:
μ = 1.684
x = 1.588
n = 25
s = 233
1588 – 1684
tt =
Design Gráfico: Juliano Henrique
233
√25
tt = – 2,060
Passo 3: Definir o intervalo de confiança. Vamos empregar 95% (ou seja, o nível de
significância é 5%). Além disso, como empregaremos a distribuição t, também preci-
samos dos graus de liberdade – como temos um n de 25, os graus de liberdade são 24
(gl = n – 1).
Passo 4: Buscar os valores críticos na tabela de distribuição t. Nesse passo, temos que
saber se empregamos um teste mono ou bicaudal. Como a H1 consiste em ser diferen-
te de 1.684, podemos encontrar tanto valores maiores como menores. Assim, o teste é
bicaudal.
Análise de Dados para Business Intelligence 103
Teste unicaudal
... ... ... ... ... ... ... ... ... ...
... ... ... ... ... ... ... ... ... ...
-2,0639 2,0639
-2,060
Rejeito H0 Aceito H0 Rejeito H0
Análise de Dados para Business Intelligence 104
x– – µ
Zt = σ
√n
Análise de Dados para Business Intelligence 105
Assim, temos:
μ=6
x=9
n = 230
σ=2
9–6
Zt = 2
Área de aceitação
Aceito H0 Aceito H0
Design Gráfico: Thiago Sihvenger
Rejeito H0
50% 46% 4%
Análise de Dados para Business Intelligence 106
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 2,1894 2,3278 2,5176 2,8314
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
22,749
1,75
Aceito H0 Rejeito H0
Análise de Dados para Business Intelligence 107
Como o valor do teste (22,749) se encontra além do valor crítico 1,75, rejeita-se
a hipótese nula de que o prazo de entrega seja igual a 6 dias, ou seja, de fato, as en-
tregas têm demorado mais do que o operador tem prometido. Outra forma de acei-
tarmos (ou rejeitarmos) uma hipótese é por meio do cálculo do p-valor, que nada mais
é do que a probabilidade exata de o teste apresentar um valor igual ou maior do que
aquele observado na amostra, admitindo-se que a hipótese nula seja verdadeira. O
p-valor pode ser obtido a partir de uma das formas mostradas para testes z e t, confor-
me podemos observar a seguir:
Cálculo do p-valor
Teste Condição Monocaudal Bicaudal
04 Calcular a estatística-teste.
05 Calcular o p-valor.
© Regio Eligo / / Fotolia. (Adaptado).
Design Gráfico: Thiago Sihvenger
Vamos a um exemplo.
O fornecedor de máquinas que embalam frangos congelados tem garantido que
suas máquinas devem ser reajustadas a, pelo menos, cada lote de 1360 embalagens,
com um desvio-padrão de 4 embalagens. O encarregado de manutenção foi informa-
do por um de seus mecânicos de que as máquinas têm sofrido ajustes antes da quanti-
dade garantida pelo fornecedor. Para dirimir essa dúvida, o encarregado solicitou que,
nas próximas 20 paradas, fosse anotada a quantidade embalada até aquele momento.
Depois de certo tempo, o mecânico retornou com a média obtida após as 20 paradas:
1.358. Menos, portanto, do que o garantido pelo fornecedor. Com um intervalo de con-
fiança de 95%, baseado nos dados obtidos, o encarregado deve aceitar que as máqui-
nas estão aquém do desempenho garantido pelo fabricante?
Passo 1: Definir a hipótese nula e a alternativa:
H0: μ ≥ 1.360 formalmente, como H0 define sempre a igualdade, representando-a
como:
H0: μ = 1.360
H1: μ < 1.360
Passo 2: Determinar se o teste é mono ou bicaudal. Como qualquer valor maior ou
igual a 1.360 torna válida a afirmação do fabricante, o teste é monocaudal.
Passo 3: Escolher o nível de significância. Como o encarregado deseja 95% de segu-
rança quanto ao resultado, o nível de significância é de 0,05 (1 – 95/100).
Passo 4: Calcular a estatística-teste. Como a amostra é maior do que 30 e o desvio po-
pulacional é conhecido, optamos pela seguinte equação:
x= – µ
Zt = σ
√n
1358 – 1360
Zt =
4
Design Gráfico: Juliano Henrique
√50
Zt = – 2,236
Análise de Dados para Business Intelligence 109
0,05 0,987
Rejeito H0 Aceito H0
Nessas condições, aceitar a H0 implica dizer que a amostra que continha uma mé-
dia de 1.358 embalagens a cada parada ocorreu de forma aleatória e, assim, não é sufi-
ciente para desqualificar a afirmação do fabricante das máquinas.
Vamos a um exemplo de testes de hipóteses empregando o p-valor nas duas cau-
das da distribuição.
Um gerente de produção de uma fábrica de calçados tem se preocupado com
dois fatores que ocorrem na linha de produção, na fase de costura de um determinado
modelo. Se o processo é acelerado, formam-se estoques indesejados no final da linha.
Por outro lado, o processo não pode ser demasiadamente atrasado. Para otimizá-lo, o
gerente reuniu-se com os encarregados da linha de produção em análise (costura), da
Análise de Dados para Business Intelligence 110
linha de produção que a antecede (julgando que esta deve manter certo equilíbrio en-
tre a quantidade de itens a serem processados pela linha subsequente e sua capaci-
dade de processamento) e da predecessora (que experimenta semelhante problema,
vindo da linha de costura). Depois de várias sugestões, chegou-se à conclusão de que
a linha de costura deveria manter uma velocidade de processo tal que, a cada hora,
gerasse um estoque intermediário de 7 pares de calçados – que é a capacidade máxi-
ma de produção da linha subsequente. Menos que isso torna a própria linha de costura
ociosa. Com base nesse consenso, o gerente de produção resolveu testar a solução du-
rante 36 horas, coletando, a cada hora, a quantidade de pares de calçados formados.
Após o período de testes, verificou-se que a média foi de 8 pares, com desvio-padrão
de 2 pares. Com base nesses dados e com um intervalo de confiança de 99%, é possí-
vel afirmar que o processo de costura está ajustado de acordo com o padrão desejado?
Vamos à solução:
Passo 1: Definir a hipótese nula e a alternativa:
H0: μ = 7
H1: μ ≠ 7
Passo 2: Determinar se o teste é mono ou bicaudal. Como qualquer valor menor ou
maior que 7 torna inválida a afirmação de que o processo está ajustado, o teste terá
que levar em consideração as duas caudas, ou seja, é bicaudal.
Passo 3: Escolher o nível de significância. Como o encarregado deseja 99% de segu-
rança quanto ao resultado, o nível de significância é de 0,01 (1 – 99/100).
Passo 4: Calcular a estatística-teste. Apesar de a amostra ser maior do que 30, desco-
nhecemos o desvio-padrão da população, porém, como temos o desvio da amostra,
optamos pela seguinte equação:
x– – µ
tt = s
√n
8–7
tt =
2
Design Gráfico: Juliano Henrique
√36
tt = – 3,0000
Análise de Dados para Business Intelligence 111
Rejeitar a H0 significa aceitar que o processo não se encontra ajustado para a for-
mação de estoques de 7 pares a cada hora.
Até então, temos trabalhado com amostras e com probabilidades de que elas se-
jam representativas da população de onde foram extraídas. Justamente por esses fa-
tos (amostra e probabilidade), as conclusões apresentadas pelos testes podem estar
erradas quando rejeitamos uma hipótese que, de fato, é verdadeira (portanto, não po-
deria ter sido rejeitada), ou quando aceitamos uma hipótese falsa. No primeiro caso,
temos um erro do tipo I e, no segundo, um erro do tipo II, conforme mostrado na figu-
ra a seguir:
Análise de Dados para Business Intelligence 112
Tipos de erros
Se H 0 é
Verdadeira Falsa
Fonte:
Análise de Dados para Business Intelligence 115
Referências
BRUNI, A. L. Estatística Aplicada à Gestão Empresarial. 3. ed. São Paulo: Atlas, 2011.
CORRAR, L. J.; PAULO, E.; DIAS FILHO, J. M. Análise Multivariada. São Paulo: Atlas, 2007.
FÁVERO, L. P. L. et al. Análise de Dados. Rio de Janeiro: Elsevier, 2009.
LAPPONI, J. C. Estatística Usando Excel. São Paulo: Lapponi Treinamento e Editora,
2000.
LATTIN, J.; CARROLL, J. D.; GREEN, P. E. Análise de Dados Multivariados. Rio de Janeiro:
Cengage Learning, 2011.
4 Análise de regressão
O objetivo da análise de regressão é expressar a relação entre duas ou mais va-
riáveis por meio de função matemática. Com o uso dessa técnica, podemos dimensio-
nar o impacto de determinado indicador no resultado esperado, por exemplo: quanto
se pode esperar de faturamento se aumentarmos em 10% nossa força de vendas?
Este capítulo, portanto, abordará inicialmente os pressupostos básicos da análi-
se de regressão, identificando as condições necessárias para o emprego dessa técnica.
Será abordado, também, o teste de correlação para verificar se as variáveis apresen-
tam relação entre si. Em seguida, serão apresentados os modelos de regressão linear
simples, múltipla e não linear e, por fim, desenvolveremos algumas aplicações.
© aleutie / / Fotolia
• T
axa de mortalidade infantil e renda per capita de uma região: a taxa de
mortalidade é certamente a variável y que sabemos ser dependente da
renda per capita (portanto, variável x). Não podemos controlar (ao menos,
diretamente) a taxa de mortalidade, mas sabemos que, se a região tiver
aumento na renda per capita, isso certamente terá um impacto na taxa de
mortalidade.
• Número de vendedores externos e faturamento: certamente, a variável
faturamento é a dependente, condicionada ao número de vendedores
(independente). Em uma situação hipotética, ao aumentarmos o número
de vendedores (variável que controlamos), o faturamento será aumenta-
y = f(x)
Ou do tipo:
y = a + bx
Sendo:
y = variável dependente (que desejamos estimar).
x = variável independente (cujos valores são conhecidos).
a = intercepto, ou o valor assumido por y quando x for igual a 0.
b = coeficiente angular, que mede o aumento (ou redução) em y, para cada unida-
de aumentada (ou reduzida) em x.
Análise de Dados para Business Intelligence 119
y
10
9
8
7
6 y –y 7–5
b = x2 – x 1 = 2 – 1 = 2
5 2 1
4
y = a + bx + ε
Sendo:
ε = erro das estimativas
O modelo estatístico pode ser representado como na figura a seguir:
Análise de Dados para Business Intelligence 120
10 } e4
8
}e2 } e3
6
} e1
4
e1 e2 e3 e4
4.2 Correlação
O primeiro passo na análise de regressão é verificar se, de fato, existe relação en-
tre os dados. Para isso, utilizamos a análise de correlação, que estabelece um valor
numérico que representa a intensidade da relação entre as variáveis dependentes e
independentes.
Inicialmente, devemos determinar o coeficiente de correlação (ou rho de Pearson)
no caso de o cálculo ser realizado na população e de r se o cálculo for realizado na
amostra. Ambos os casos medem tanto o grau de correlação entre duas variáveis
como a direção dessa relação, conforme vemos na equação a seguir:
Juliano Henrique
Design Gráfico:
n Σ xy – Σx Σy
r=
√n Σ x2 – (Σ x)2 x √nΣy2 – (Σy)2
Análise de Dados para Business Intelligence 121
Sendo:
r = coeficiente de correlação.
n = número de casos.
x = variável independente.
y = variável dependente.
O coeficiente de correlação irá fornecer um valor situado entre –1 e +1, que pode
ser interpretado da seguinte forma:
Vamos a um exemplo.
Uma cooperativa agroindustrial está passando por um processo de reestrutura-
ção organizacional e os diretores de vendas e de finanças estão discutindo o aumento
de vendas e redução de custos. O diretor de vendas argumenta que devem ser libe-
rados mais recursos financeiros para abastecimento dos veículos dos vendedores, que
rodariam mais e, consequentemente, realizariam mais vendas. Por sua vez, o diretor fi-
nanceiro insiste na redução de custos e sugere justamente reduzir o fornecimento de
combustível para os vendedores, pois ele acredita que o fato de rodarem mais com os
veículos não tem trazido tantas vendas assim, além de impactar nas finanças da coo-
perativa. Para resolver o impasse, um dos consultores solicitou uma planilha com as re-
ceitas mensais de vendas e as despesas com combustíveis de vendedores. A tabela a
seguir mostra esses valores:
Vendas X Abastecimento
Mês Vendas* Combustíveis
Com os dados à disposição, como resolver essa questão? Quem tem razão?
Como desejamos descobrir a existência de relação entre as variáveis (no caso,
vendas e combustíveis), o coeficiente de correlação é a técnica indicada. Vamos a ela:
Passo 1: Identificar quem é x e quem é y, lembrando que y sempre será a variá-
vel que é definida em função de x. Assim, devemos nos perguntar se as receitas com
vendas são determinadas em função das despesas com combustíveis ou se as despesas
com combustíveis são determinadas em função das receitas com vendas. Tomando a
primeira questão como correta, então, vendas será y e combustíveis x.
Análise de Dados para Business Intelligence 123
n Σ xy – Σx Σy
r=
√n Σ x – (Σ x)2 x √nΣy2 – (Σy)2
2
Design Gráfico: Juliano Henrique
Sendo:
b = coeficiente angular
n = número de casos
x = variável independente
y = variável dependente
a = coeficiente linear (intercepto)
O exemplo a seguir demonstra a aplicação da regressão linear simples.
Uma rede de livrarias com atuação em várias cidades do país deseja abrir nova fi-
lial. Com base em estudos realizados pela rede, verificou-se que livrarias situadas em
regiões com maior renda per capita apresentam melhor desempenho de vendas. A pri-
meira localidade escolhida pela rede apresenta uma renda per capita, estimada, de
R$ 1.838,00. Assim, a partir dos dados coletados, qual deve ser o faturamento estima-
do da livraria nessa região?
Análise de Dados para Business Intelligence 126
n Σ xy – Σx Σy
r=
√n Σ x – (Σ x)2 x √nΣy2 – (Σy)2
2
n Σ xy – Σx Σy
Design Gráfico: Juliano Henrique
b=
n Σ x2 – (Σ x)2
11 x 2976,42 – (147,63 x 212,25)
b=
11 x 2022,34 – 147,632
b = 3,1167
Σy – bΣx
Design Gráfico: Juliano Henrique
a=
n
212,25 – 3,12 x 147,63
a=
11
a = – 22,5336
Análise de Dados para Business Intelligence 128
Passo 6: Definir a equação que irá determinar as vendas em função da renda per
capita:
Sendo y as vendas e x a renda per capita. Assim, a livraria instalada em uma região
de renda per capita de R$ 1.838,00 deverá faturar algo em torno de R$ 3.475.148,80,
obtido a partir da equação encontrada:
A figura a seguir mostra os pontos formados por cada par vendas versus renda
per capita e a reta da equação encontrada:
Reta de regressão
18,00
16,00
14,00
Renda per capita
12,00
10,00
8,00
6,00
4,00
Design Gráfico: Juliano Henrique
2,00
0,00
0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00
Vendas
Perceba que a reta não passa por todos os pontos. Existe uma diferença entre as
coordenadas de cada ponto oriundo dos dados e as coordenadas de cada ponto plota-
do na reta. Chamamos essas diferenças de erro. Esse erro pode ter sido causado por ou-
tros elementos que também explicam o comportamento das vendas, mas que não foram
considerados. Por essa razão, temos de nos certificar de que os valores de a e b, de fato,
são suficientemente confiáveis para explicar a relação supostamente existente entre
vendas e renda per capita.
Análise de Dados para Business Intelligence 129
Assim, primeiramente, vamos calcular o erro-padrão das estimativas (Se), que re-
presenta a dispersão dos dados ao redor da reta, fornecido pela seguinte equação:
Juliano Henrique
Design Gráfico:
Σy2 – aΣy – b Σ xy
Se=
√ n–2
Sendo:
Se = erro-padrão das estimativas
a = coeficiente linear
b = coeficiente angular
n = número de casos
∑x = somatório dos valores da variável independente
∑y = somatório dos valores da variável dependente
∑xy = somatório dos produtos dos valores da variável dependente pela variável
independente
Vamos aplicar a fórmula aos dados do problema:
Σy2 – aΣy – b Σ xy
Se=
√ n–2
Design Gráfico: Juliano Henrique
Se= 1,3027
x– 2
Design Gráfico:
1
Sa= Se + 2
√ n (n – 1) Sx
Análise de Dados para Business Intelligence 130
Sendo:
Sa = erro-padrão do coeficiente linear
Se = erro-padrão das estimativas
n = número de casos
–
x = média das variáveis independentes
Sx = desvio-padrão das variáveis independentes
Sendo a média da renda 14,1055, com desvio-padrão de 2,2581, vamos aplicar a
fórmula aos dados do problema:
1+ x– 2
Sa= Se
Sa= 2,7580
Se
Design Gráfico:
Sb =
√(n – 1)Sx2
Sendo:
Sb = erro-padrão do coeficiente angular
Se = erro-padrão das estimativas
n = número de casos
Sx = desvio-padrão das variáveis independentes
Análise de Dados para Business Intelligence 131
Se
β0 = a +– t x Sa
Sendo:
β 0 = intervalo de confiança do coeficiente linear
a = coeficiente linear
t = distribuição t
Sa = erro-padrão do coeficiente linear
Como a equação requer a distribuição t, temos que estabelecer o intervalo de
confiança desejado e os graus de liberdade. Para o intervalo de confiança, vamos ado-
tar 95%, ou seja, o nível de significância será de 0,05. Os graus de liberdade são ob-
tidos a partir do número de casos. Como temos 11 cidades, o número de graus de
liberdade é 11 – 2 = 9. Consultando a tabela de distribuição t, para um teste binomial
com nível de significância de 0,05, com 9 graus de liberdade, obtemos o valor 2,2622,
conforme a figura a seguir:
Análise de Dados para Business Intelligence 132
Obtendo a distribuição t
bicaudal
Graus de liberdade
0,1 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01
monocaudal
0,05 0,045 0,04 0,035 0,03 0,025 0,02 0,015 0,01 0,005
6 1,9432 2,0192 2,1043 2,2011 2,3133 2,4469 2,6122 2,8289 3,1427 3,7074
7 1,8946 1,9662 2,0460 2,1365 2,2409 2,3646 2,5168 2,7146 2,9980 3,4995
8 1,8595 1,9280 2,0042 2,0902 2,1892 2,3060 2,4490 2,6338 2,8965 3,3554
9 1,8331 1,8992 1,9727 2,0554 2,1504 2,2622 2,3984 2,5738 2,8214 3,2498
10 1,8125 1,8768 1,9481 2,0283 2,1202 2,2281 2,3593 2,5275 2,7638 3,1693
β0 = a +– t x Sa
Design Gráfico: Juliano Henrique
O resultado nos mostra que o intervalo de confiança para o coeficiente linear va-
ria de –16,29 até –28,77. Para aplicar o teste de hipóteses, primeiramente, definimos
as seguintes hipóteses:
H 0: β 0 = 0 : O intervalo de confiança do coeficiente linear é igual a 0.
H1: β 0 ≠ 0 : O intervalo de confiança do coeficiente linear é diferente de 0.
A partir daí, basta calcular a estatística-teste e comparar o resultado com os valo-
res críticos obtidos, conforme equação a seguir:
Juliano Henrique
tt = a
Design Gráfico:
Sa
Análise de Dados para Business Intelligence 133
Sendo:
t t = estatística-teste
a = coeficiente linear
Sa = erro-padrão do coeficiente linear
Aplicando os dados à equação:
tt = a
a/2 a/2
Rejeito H0 Aceito H0 Rejeito H0
–28,77 16,29
Juliano Henrique
Design Gráfico:
β = b +– t x Sb
Sendo:
β = intervalo de confiança do coeficiente angular
b = coeficiente angular
t = distribuição t
Sb = erro-padrão do coeficiente angular
Aplicando os dados à fórmula (novamente, com um nível de confiança de 95% e
graus de liberdade de 9), temos:
tt = b
Sb
Sendo:
t t = estatística-teste
b = coeficiente angular
Sb = erro-padrão do coeficiente angular
Análise de Dados para Business Intelligence 135
tt = b
tt = 15,3221
Parâmetros de regressão
Existem outras formas de validação e uma delas é a ANOVA ou Análise de Variância. Para
saber mais sobre o tema, sugerimos a leitura do livro Pesquisa operacional, de L. J. Corrar e
C. R. Theóphilo e Use a cabeça! Análise de dados, de M. Milton.
Sendo:
y = variável dependente (que desejamos estimar)
xi = variáveis independentes (cujos valores são conhecidos)
a = intercepto (coeficiente linear), ou o valor assumido por y quando x for igual a 0
bi = coeficientes angulares das variáveis independentes
ε = erro das estimativas
Análise de Dados para Business Intelligence 141
Vamos a um exemplo.
Um gerente de produção está preocupado com o número de itens descartados
em um processo de produção. Uma vez que a matéria-prima tem sempre sido entre-
gue pelo mesmo fornecedor, o gerente tem voltado suas atenções para elementos in-
ternos ao processo. A equipe montada para avaliar o problema chegou à conclusão de
que o aumento de itens descartados pode estar relacionado a um conjunto de fato-
res: o aumento nas horas extras (que o encarregado de pessoal afirma estar fadigando
os funcionários) e o número de horas despendidas na manutenção das máquinas (pois
o encarregado de manutenção supõe que algumas máquinas podem estar desajusta-
das em função do tempo transcorrido desde que foram efetuadas as últimas manu-
tenções). O gerente de produção, então, coletou todas as informações dos últimos 10
meses, conforme tabela a seguir:
Dados de produção
Mês Itens descartados Horas extras Horas de manutenção
1 340 30 26
2 384 60 23
3 452 90 19
4 540 180 13
5 601 210 10
6 368 80 26
7 273 70 31
8 476 50 16
9 568 160 12
10 590 200 11
Com base nesses dados, é possível afirmar que eles apresentam algum tipo de
impacto na quantidade de itens produzidos e descartados? Se sim, é possível estimar a
quantidade de itens que serão descartados em função das horas extras, treinamento e
manutenção de máquinas?
O problema proposto é um legítimo exemplo de aplicação de regressão linear múl-
tipla e, como tal, é importante verificar se todos os pressupostos para esse tipo de análi-
se estão atendidos (CORRAR; THEÓPHILO, 2004). A partir daí, basta obter os valores da
análise de regressão: coeficientes de correlação e determinação, coeficientes das variá-
veis independentes e a verificação da validade dos coeficientes obtidos. Antes, é interes-
sante verificar se a quantidade de produtos descartados apresenta relações isoladas com
o número de horas extras e com a quantidade de horas de manutenção. Para isso, temos
que obter os coeficientes de correlação (r) e de determinação (r2) de cada par de dados.
Análise de Dados para Business Intelligence 142
Juliano Henrique
Design Gráfico:
FIVk= 1 2
1 – rk
Sendo:
k = número de pares de variáveis independentes
FIVk = fator de influência da variância do par k
rk2 = coeficiente de determinação do par k
A proximidade do resultado do FIVk a 1 indica a ausência de colinearidade; exce-
dendo a 10, indica a alta presença de colinearidade.
Vamos lançar os dados e as fórmulas dos coeficientes de correlação, determina-
ção e FIVk, conforme visualizado na figura a seguir:
Correlações
Funções
Linear Exponencial
9 3500
8 3000
7 2500
6
5 2000
4 1500
3 1000
2
500
1
0 0
1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8
Logarítmica Potência
3,5 70
3 60
2,5 50
40
Design Gráfico: Juliano Henrique
2
1,5 30
1 20
0,5 10
0
0 1 2 3 4 5 6 7 8
1 2 3 4 5 6 7 8
Nesses casos, quando nos deparamos com uma relação não linear entre os dados,
uma das alternativas é linearizar a relação, ou seja, transformar a equação não linear
em linear, conforme mostrado no quadro a seguir:
P&D X Faturamento
Ano P&D* Faturamento**
1 0,3 0,2
2 0,5 0,7
3 0,9 2,1
4 1,5 4,9
5 2,2 9,9
6 3,4 18,7
7 4,9 29,9
8 5,7 45,1
A partir desses dados, é possível afirmar que existe relação entre os investimen-
tos em P&D e faturamento? Se sim, é possível estimar o faturamento a partir dos valo-
res investidos?
Ao lançarmos os dados em uma planilha, o primeiro passo é verificar visualmente
como as variáveis investimentos em P&D e faturamento se relacionam. Para isso, gera-
mos no Microsoft Excel 2007® um gráfico de dispersão, selecionando as células B1:C9,
acessando a aba “Inserir”, clicando na opção “Dispersão”, do grupo “Gráfico”, confor-
me mostrado na figura a seguir:
De todas as opções de linha de tendência, a que mais se ajustou aos dados foi a po-
tência, cujo r2 foi aquele mais próximo a 1. A figura a seguir mostra a linha de tendência
junto aos pontos formados pelos dados:
50
45 R2 = 0,9937
40
35
Faturamento
30
25
20
15
Exponencial y = aebx ln y = ln a + bx x ln y
Logarítmica y = a + b ln x y = a + b ln x ln x y
Potência y = axb ln y = ln a + b ln x ln x ln y
ln y = ln a + b ln x
Para fazermos isso em nossa planilha, temos que calcular o logaritmo natural
(ln) das variáveis x (investimentos em P&D) e y (faturamento), conforme apresentado
na figura a seguir:
Análise de Dados para Business Intelligence 150
Obtendo o ln de x e y
Agora, basta rodar a regressão sobre os dados linearizados. Assim, a variável de-
pendente (y) passa a ser o logaritmo natural de faturamento; a variável independente
(x), o logaritmo natural dos investimentos em P&D. Os parâmetros para o suplemen-
to de regressão são mostrados na figura a seguir:
Parâmetros de regressão
Análise de Dados para Business Intelligence 151
Resultados da regressão
In y = In a + b ln x y = axb
Como b não está representado como logaritmo natural, não é necessário fazer
quaisquer transformações. Portanto, é possível representar a equação da seguinte
forma:
Juliano Henrique
Design Gráfico:
In y = In 0,772 + 1,767 In x y = 2,164x1,767
Em nossa planilha, aproveitaremos os valores dos coeficientes (do resumo dos re-
sultados da regressão) para implementarmos a fórmula que permitirá estimarmos o
faturamento a partir do valor dos investimentos em P&D, conforme mostrado na figu-
ra a seguir:
Referências
BRUNI, A. L. Estatística Aplicada à Gestão Empresarial. 3. ed. São Paulo: Atlas, 2011.
CHAN, B. L. Análise de Dados. Rio de Janeiro: Elsevier, 2009.
CORRAR, L. J.; THEÓPHILO, C. R. Pesquisa Operacional. São Paulo: Atlas, 2004.
FÁVERO, L. P. L. et al. Análise de Dados. Rio de Janeiro: Elsevier, 2009.
LATTIN, J.; CARROLL, J. D.; GREEN, P. E. Análise de Dados Multivariados. Rio de Janeiro:
Cengage Learning, 2011.
MILTON, M. Use a Cabeça! Análise de Dados. Rio de Janeiro: Alta Books, 2010.
156