Você está na página 1de 156

Análise de dAdos

pArA Business
intelligence
Cicero Aparecido Bezerra
Egon Walter Wildauer
Leandro Escobar
Superintendente Prof. Paulo Arns da Cunha
Reitor Prof. José Pio Martins
Pró-Reitora Acadêmica Profa. Márcia Teixeira Sebastiani
Diretor de EAD Prof. Roberto de Fino Bentes
Gerente Editorial e de Tutoria Profa. Manoela Pierina Tagliaferro
Gerente de Metodologia Profa. Dinamara Pereira Machado
Autoria Prof. Cicero Aparecido Bezerra,
Prof. Egon Walter Wildauer e
Prof. Leandro Escobar
Supervisão Editorial Fabieli Campos Higashiyama
e Bianca de Britto Nogueira
Análise de Conteúdo Francine Ozaki e Silvia Mara Hadas
Análise de Qualidade Betina Dias Ferreira
Edição de Texto Giovane Michels
Design Instrucional Wagner Gonçalves da Silva
Design de Atividades Mariana Moschkovich Athayde
Layout de Capa Valdir de Oliveira
Imagem de Capa Thiago Sihvenger
Edição de Arte Denis Kaio Tanaami
Diagramação Regiane Rosa
Design Gráfico Juliano Henrique e Thiago Sihvenger
Revisão Anderson Novello, Elizabeth Pinheiro,
Yohan Barczyszyn e Marina López Moreira

*Todos os gráficos, tabelas e esquemas são creditados aos autores, salvo quando indicada a referência.
Informamos que é de inteira responsabilidade dos autores a emissão de conceitos. Nenhuma parte
desta publicação poderá ser reproduzida por qualquer meio ou forma sem autorização. A violação dos
direitos autorais é crime estabelecido pela Lei n.º 9.610/98 e punido pelo artigo 184 do Código Penal.
Copyright Universidade Positivo 2014
Rua Prof. Pedro Viriato Parigot de Souza, 5300 – Campo Comprido
Curitiba-PR – CEP 81280-330
Ícones
Afirmação Curiosidade

Assista
Dicas

Biografia

Esclarecimento
Conceito

Contexto Exemplo
Inserir Aqui o Título da Obra
5

Sumário
Apresentação ................................................................................................................... 7
Os autores ........................................................................................................................ 8

Capítulo 1
Introdução à teoria da probabilidade, aplicações e distribuição de frequências�����������11
1.1 Frequência����������������������������������������������������������������������������������������������������������������11
1.1.1 Representações gráficas��������������������������������������������������������������������������������������������������������������������������������������� 19
1.2 Arranjos e combinações�������������������������������������������������������������������������������������������24
1.2.1 Arranjos e combinações��������������������������������������������������������������������������������������������������������������������������������������� 27
1.2.2 Espaço amostral e eventos����������������������������������������������������������������������������������������������������������������������������������� 30
1.2.3 Teoria dos conjuntos��������������������������������������������������������������������������������������������������������������������������������������������� 31
Referências����������������������������������������������������������������������������������������������������������������������43

Capítulo 2
Estatística������������������������������������������������������������������������������������������������������������������������45
2.1 Medidas de tendência central����������������������������������������������������������������������������������48
2.2 Medidas de dispersão�����������������������������������������������������������������������������������������������51
2.3 População e amostragem�����������������������������������������������������������������������������������������56
2.3.1 Amostragem probabilística���������������������������������������������������������������������������������������������������������������������������������� 60
2.3.2 Amostragem não probabilística��������������������������������������������������������������������������������������������������������������������������� 68
2.4 Estimação estatística������������������������������������������������������������������������������������������������74
Referências����������������������������������������������������������������������������������������������������������������������80
Inserir Aqui o Título da Obra
6

Capítulo 3
Teste de hipóteses�����������������������������������������������������������������������������������������������������������81
3.1 Definição do problema e hipóteses��������������������������������������������������������������������������82
3.2 Testes mono e bicaudais�������������������������������������������������������������������������������������������84
3.3 Distribuições Z e t�����������������������������������������������������������������������������������������������������93
3.4 Valores críticos, p-valores e erros����������������������������������������������������������������������������100
Referências��������������������������������������������������������������������������������������������������������������������115

Capítulo 4
Análise de regressão����������������������������������������������������������������������������������������������������� 117
4.1 Elementos básicos�������������������������������������������������������������������������������������������������� 117
4.2 Correlação���������������������������������������������������������������������������������������������������������������120
4.3 Regressão linear simples����������������������������������������������������������������������������������������124
4.4 Regressão múltipla e não linear�����������������������������������������������������������������������������140
Referências��������������������������������������������������������������������������������������������������������������������154
Apresentação

Este livro apresenta os conceitos básicos pertinentes à análise de dados em um


contexto empresarial, principalmente quando se verifica a necessidade de se estabele-
cerem diferenciais competitivos baseados em informações. Fornece noções básicas de
probabilidade, estatística e amostragem, visto que são elementos primordiais à análise
de dados. A partir daí, aborda os procedimentos para se definirem hipóteses a respeito
de um problema de análise, bem como testes para verificar a validade dessas hipóte-
ses. Finalmente, emprega os modelos de regressão, com o intuito de verificar a relação
entre fenômenos organizacionais que possam ser expressos por meio de variáveis. O li-
vro foi elaborado para acompanhar o processo de ensino e aprendizagem à distância,
com exemplos práticos aplicados à teoria e de fácil reprodução por parte do leitor.
Os autores
O professor Egon Walter Wildauer é Doutor em Engenharia Florestal pela
UFPR, com Estágio de Doutorado Sanduíche no exterior, na Albert Ludwig Freiburg
Universität (2007), Mestre em Engenharia de Produção e Qualidade pela UFSC (2002),
Especialista em Ciência da Computação pela PUC-PR (1995) e Graduado em Informática
pela UFPR (1992). É autor de livros na área de informática e negócios. Tem experiên-
cia na área de Ciência da Computação, com ênfase em Sistemas de Informação, atuan-
do, principalmente, nos seguintes temas: Análise e Projeto de Sistemas de Informação,
Banco de Dados, GED, Fluxo da Informação e Gestão da Informação. Atua também no
campo de Administração nos temas Gerenciamento de Processos, Gestão da Qualidade
e Indicadores, Gestão de Pessoas e Fluxos Informacionais.

Currículo Lattes:
<http://lattes.cnpq.br/1767196615552654>

Para Laila, Ayesha e Ingrid, com e por amor.


Os autores
O professor Cicero Aparecido Bezerra possui Pós-Doutorado em Gestão
Estratégica da Informação e do Conhecimento pela PUC-PR (2012), Doutorado e
Mestrado em Engenharia de Produção pela UFSC (2007, 2001) e Graduação em
Informática pela Universidade do Vale do Rio dos Sinos (1992). Tem experiência em
Informática, com ênfase em Sistemas de Informação, atuando, principalmente, nos
seguintes temas: Sistemas de Informação, Gestão da Informação, Gestão do Conhe-
cimento e Análise de Dados.

Currículo Lattes:
<http://lattes.cnpq.br/8651113987192195>

Aos professores Egon e Leandro, pela oportunidade.


Os autores
Leandro Escobar é especialista em Gestão e Planejamento de TI (FAE Business
School) e bacharel em sistemas de informação (Universidade Tuiuti do Paraná). Já
atuou como gestor de TI e gestor de projetos de TI em diversas empresas de médio e
grande porte. Atua como professor em cursos de graduação e pós-graduação, minis-
trando matérias nas áreas de tecnologia da informação, infraestrutura de TI, gestão de
projetos, engenharia da computação, sistemas de informação e gestão de TI.

Currículo Lattes:
<http://lattes.cnpq.br/8395924007688119>

A Vilmara, Isadora e Marcelo, pela inspiração e apoio.


1 Introdução à teoria da probabilidade, aplicações
e distribuição de frequências
Quando se trabalha com estatística, é co-
mum a obtenção de dados em forma bruta, ou
seja, na forma que foram coletados, sem nenhum
tipo de tratamento e com pouca ou nenhuma in-
formação ao usuário. Diante disso, há a neces-
sidade de tratamento dos dados, de modo a
organizá-los e melhor transmitir informações so-
bre o contexto estudado e, assim, apoiar a toma-
da de decisão nos negócios.

1.1 Frequência

© Nailia Schwarz / / Fotolia


Uma forma usual de tratar os dados corres-
ponde à distribuição de frequências, ou seja,
utilizar uma tabela que apresenta o número de
vezes que um evento ou observação ocorrem
dentro de um conjunto de dados. As frequências absolutas representam a contagem
das ocorrências. Já as frequências relativas representam a razão entre o número de
ocorrências e o tamanho da amostra (conjunto de dados).

Distribuição de frequências é a forma como dados são associados às variáveis representa-


das, expressas na construção de tabelas de frequências. Isso permite reduzir o volume de da-
dos para análise, ficando a contagem dos dados da variável exposta como frequências (BRUNI,
2011).

Por exemplo, suponha os dados quantitativos coletados de uma empresa que


vende eletrodomésticos no varejo, cujas informações de sugestões, reclamações, elo-
gios e outras ocorrências importantes dos seus clientes são coletadas e registradas em
um call center. As chamadas dos clientes ao call center são registradas individualmente
pelos atendentes e, no final do dia, são somadas para realizar o fechamento do total
das ligações. Em um período de 10 dias, foram registrados os totais apresentados no
quadro a seguir:
Análise de Dados para Business Intelligence 12

Dados de call center – número de ligações registradas por cada atendente

49 40 32 50

31 40 46 51

© WonderfulPixel / / Fotolia
45 36 51 47

40 40 47 54

36 42 31 53

Se dispusermos os dados em ordem crescente, teremos o quadro a seguir:

Dados ordenados de call center –


Número de ligações registradas por cada atendente

31 40 45 50

31 40 46 51

32 40 47 51 © WonderfulPixel / / Fotolia

36 40 47 53

36 42 49 54

Ao quadro com dados ordenados (seja em ordem crescente ou decrescente) da-


mos o nome de conjunto de dados, pois possui uma lógica, um critério de apresentação
e de organização das informações.
Com base no conjunto de dados apresentado no quadro com dados ordenados,
fica fácil identificar algumas informações, por exemplo, a ocorrência do menor e do
maior número de ligações no call center:
Menor valor = 31 ligações atendidas
Maior valor = 54 ligações atendidas
Também é fácil calcular a informação da amplitude dos dados, simplesmente
subtraindo o valor do menor número de ligações recebidas no call center do maior nú-
mero dessas ligações:
Amplitude = 54 – 31 = 23
Análise de Dados para Business Intelligence 13

Amplitude de dados refere-se à distância numérica existente entre o maior e o menor número
de uma lista. Para encontrá-la, ordene a lista em ordem crescente e, em seguida, faça a subtra-
ção dos números das extremidades. O resultado será a amplitude da lista de dados.

Outra informação que podemos extrair do quadro com dados ordenados é o valor
que mais se repete na lista, facilmente identificado pelo número 40, que representa a
moda do conjunto de dados.

Moda é a representação do número que mais vezes se repete em uma lista de números.

Quando temos em mãos dados que representam uma determinada característi-


ca de uma unidade de negócios, como no exemplo das ligações de cliente para o call
center da empresa, podemos aplicar sobre esses dados um tratamento que consiste
em separar todas as ligações recebidas em parcelas de ligações, de acordo com uma
determinada regra de agrupamentos, que passaremos a chamar de classes.
Chamar de classe uma parcela de dados significa que se pode contar certo nú-
mero de dados para compor classes de dados, chamados de intervalos de classe. Bruni
(2013, p. 12) afirma que “quando variáveis quantitativas se apresentam com valores di-
ferentes, sua análise pode apresentar melhor resultado se forem agrupados em clas-
ses, isto é, a criação de classes de frequência, seguida de posterior tabulação”.
Por definição, todo intervalo de classe pode possuir algum tipo de classificação:
• intervalo de classe aberto: quando os limites inferior ( ) e superior ( ) não per-
tencem à classe em questão;
• intervalo de classe fechado: quando os limites inferior e superior pertencem à
classe em questão;
• intervalo de classe misto: quando apenas um dos limites, inferior ou superior,
pertence à classe.
O intervalo de classes mais utilizado é do tipo misto. Para determinar o interva-
lo de classes do quadro com dados ordenados, é necessário seguir os seguintes passos:
Análise de Dados para Business Intelligence 14

1. Faça o conjunto de dados:


31 40 45 50
31 40 46 51
32 40 47 51
36 40 47 53
36 42 49 54

Design Gráfico: Juliano Henrique


© kanate / / Fotolia. (Adaptado).
2. Determine as classes. Para isso, é necessário definir inicialmente o
número de classes (k) que teremos, de acordo com a seguinte regra:

Sendo n o número de dados (observações), as classes k podem ser


definidas levando em consideração a quantidade de dados que
compõem n, que representa o número de elementos na amostra. No
caso em questão, n=20:

Para n ≤ 100, use k = √ n

Para n > 100, use k = 5 × log n

Logo, temos:
Design Gráfico: Juliano Henrique
© kanate / / Fotolia. (Adaptado).

k=√n
k = √ 20
k = 4,45 ≅ 5

Resultando, portanto, 5 classes.


Análise de Dados para Business Intelligence 15

Design Gráfico: Juliano Henrique


© kanate / / Fotolia. (Adaptado).
3. Apresentar a amplitude total (maior – menor):
Amplitude = 54 – 31 = 23

4. Apresentar a amplitude do intervalo da classe,


que é calculado por c, sendo apresentado em
porcentagem (%):
amplitude
c=
k–1
23
c=
5–1
c = 5,75 ~= 6

Design Gráfico: Juliano Henrique


© kanate / / Fotolia. (Adaptado).
Assim, o intervalo entre as classes será de 6
elementos.

5. Finalmente, determinar os intervalos de classe.


Podemos calcular, inicialmente, o limite inferior da
classe, dado pela diferença:

Limite inferior = menor valor – c


2
Design Gráfico: Juliano Henrique
© kanate / / Fotolia. (Adaptado).

Limite inferior = 31 – 6
2
Limite inferior = 28
Análise de Dados para Business Intelligence 16

6. Finalizando, basta somar o limite inferior


encontrado com a amplitude (c) do intervalo de
classe (passo 4) para determinar as 5 classes dos
dados coletados:
Quadro de classes
28 Ⱶ 34 Primeira classe

Design Gráfico: Juliano Henrique


© kanate / / Fotolia. (Adaptado).
34 Ⱶ 40 Segunda classe
40 Ⱶ 46 Terceira classe
46 Ⱶ 52 Quarta classe
52 Ⱶ 58 Quinta classe

Atenção:
Note que os intervalos de classe na tabela acima são fechados à esquerda e
abertos à direita. Isso é demonstrado pelo símbolo . Isso significa que, o menor
valor pertence à classe, mas o maior valor não pertence à classe.
Por exemplo, na classe 34 40, conjunto possível de dados é {34, 35, 36, 37, 38, 39}.
A definição quanto á estrutura “aberto” ou “fechado” dos intervalos de classe é
fundamental para a análise das frequências e dos próprios dados.

No que tange a distribuição de frequências de um conjunto de dados, podem ser


de três tipos. Para conhecê-los, peguemos novamente o exemplo dos atendimentos no
call center. Poderíamos contar o número de atendimentos relativos a sugestões, a elo-
gios e a reclamações, apresentando, assim, a contagem de cada um deles. O número
de reclamações com os atendimentos é chamado de frequência daquele atendimento e
a tabela resultante é uma tabela de frequências.
Vejamos os três tipos de frequências na prática:
1. Frequência absoluta ( fa): corresponde ao número de vezes que um valor em
particular aparece no conjunto de dados. Por exemplo, na primeira classe, que
diz respeito ao intervalo que possui a contagem de 28 até 34 ligações, há o to-
tal de 3 atendentes que receberam ligações dentro desse intervalo (3 obser-
vações). Pode-se afirmar que o intervalo 28 até 34 tem, portanto, frequência
absoluta 3.
fa = Nxi
Onde xi é a observação ou evento dentro do intervalo.
Análise de Dados para Business Intelligence 17

2. Frequência relativa ( fr): refere-se à proporção do número de observações que


compõem uma determinada classe em relação ao total de observações, expresso
em porcentagem. Por exemplo, na primeira classe, que equivale ao intervalo que
possui a contagem de 28 até 34 ligações, há 3 atendentes que receberam liga-
ções, e o total de todas as ligações recebidas soma 20 (em todas as classes). Por
isso, a relação de 3 ligações sobre 20 corresponde a uma frequência relativa de
0,15, ou seja, a frequência relativa da primeira classe é de 15%.

Nxi
fr =
N
Design Gráfico: Juliano Henrique

Onde:
Nxi é o número de observações dentro da classe
N é o total de elementos na amostra

3. Frequência acumulada ( fac): diz respeito à soma de todas as frequências até


o valor presente (uma dada observação), acumulando-as. Por exemplo, na se-
gunda classe das ligações recebidas no call center, no intervalo que possui a
contagem de 34 até 40 ligações, há o total de 2 elementos, ( fa = 2; fr = 0,1).
Todavia, na segunda classe, a frequência acumulada é 5, pois somam-se os va-
lores da primeira classe ( fa = 3) com os da segunda ( fa = 2).

Sabendo que a frequência absoluta ( fa) corresponde ao número de observações


em uma determinada classe ou em um determinado atributo de uma variável, para
conjunto de dados do quadro com dados ordenados visto anteriormente, temos que:

A primeira classe corresponde a uma


28 Ⱶ 34
frequência absoluta de 3.

A segunda classe corresponde a uma


34 Ⱶ 40
frequência absoluta de 2.
Análise de Dados para Business Intelligence 18

A terceira classe corresponde a uma


40 Ⱶ 46 frequência absoluta de 6.

A quarta classe corresponde a uma


46 Ⱶ 52
frequência absoluta de 7.

© Aleksandr Bryliaev / / Fotolia. (Adaptado).


Design Gráfico: Juliano Henrique
A quinta classe corresponde a uma
52 Ⱶ 58
frequência absoluta de 2.

Vejamos na tabela a seguir a apresentação dos intervalos de classes e as respecti-


vas frequências absolutas:

Frequência absoluta do intervalo de classes


Intervalo Frequência absoluta
28 34 3
34 40 2
40 46 6
46 52 7
52 58 2
Total 20

Para determinar as frequências relativas, deve-se levar em consideração que elas


equivalem à razão entre a frequência absoluta e o total de elementos no conjunto de
dados, conforme representação na tabela a seguir:

fa
fr =
total
Design Gráfico: Juliano Henrique
Análise de Dados para Business Intelligence 19

Frequência relativa do intervalo de classes


Intervalo Frequência absoluta Frequência relativa Frequência percentual
28 34 3 0,15 15%
34 40 2 0,10 10%
40 46 6 0,30 30%
46 52 7 0,35 35%
52 58 2 0,10 10%
Total 20 1,00 100%

Para determinar as frequências acumuladas, deve-se somar as frequências abso-


lutas, algo que pode ser realizado diretamente no conjunto de dados, conforme apre-
sentado na tabela a seguir:

Intervalo de classes e relação das frequências


Frequência Frequência Frequência Frequência acumulada
Intervalo
absoluta relativa acumulada (relativa)
28 34 3 0,15 3 0,15
34 40 2 0,10 5 0,25
40 46 6 0,30 11 0,55
46 52 7 0,35 18 0,90
52 58 2 0,10 20 1,00
Total 20 1,00

1.1.1 Representações gráficas


Para apresentação gráfica dos dados, primeiramente, partimos da disposição ini-
cial dos dados, os quais, em uma planilha eletrônica, podem ser configurados de acor-
do com o que veremos logo adiante. Devemos ter em mente que, para cada tipo de
variáveis, teremos um tipo específico de gráfico, por exemplo: se desejarmos apresen-
tar variáveis que representem uma parte (uma contribuição) perante um todo, deve-
remos usar o gráfico de setores para representar o percentual (%) de cada variável em
relação às outras. Caso desejemos apresentar a contribuição de variáveis independen-
tes umas das outras, utilizaremos o gráfico de colunas. O gráfico de linhas serve para
mostrar a evolução de variáveis ao longo de um determinado contexto. Como pode-
mos perceber, haverá um tipo de gráfico recomendado para cada situação e para cada
conjunto de variáveis, dependendo do que se deseja representar.
Análise de Dados para Business Intelligence 20

No nosso exemplo, vamos utilizar os dados (o número) das ligações recebidas


pelo call center e que foram formatados em intervalos de classes, além do número de
todas as ligações (dados) das distribuições de frequências, a fim de exemplificarmos
suas representações gráficas.

Intervalo de classes e frequências em uma planilha

Para a representação gráfica de uma distribuição de frequência (DF), você pode


utilizar três tipos de gráficos, os quais variam em função do tipo de frequência que de-
seja ilustrar: (1) o histograma, baseado na frequência absoluta; (2) o polígono de fre-
quência, baseado nos pontos médios das classes; (3) a ogiva, baseada nas frequências
acumuladas.
Histograma é a representação gráfica, em colunas, de um conjunto de dados
previamente organizado em classes uniformes. A base de cada coluna representa
uma classe e a altura da coluna representa a frequência com que tal classe ocorreu no
conjunto de dados. O gráfico a seguir apresenta as frequências acumuladas de acordo
com o intervalo de classes definidas para as chamadas no call center:

Histograma da frequência acumulada dos intervalos de classes

Frequência acumulada
25
20
15
10 Frequência acumulada
Design Gráfico: Juliano Henrique

5
0
28 Ⱶ 34 34 Ⱶ 40 40 Ⱶ 46 46 Ⱶ 52 52 Ⱶ 58
Análise de Dados para Business Intelligence 21

Referenciando os dados do intervalo de classes e frequências (conforme a tabe-


la a seguir), podemos exibir as mesmas informações de um gráfico de colunas em um
diagrama denominado polígono de frequências, o qual, em vez de utilizar barras para
representar as classes, apresenta um ponto médio da classe, de modo a unir os pontos
para designar toda a frequência. A figura após a tabela apresenta esse tipo de gráfico.

Intervalo de classes e frequências acumuladas


Intervalo Frequência acumulada
28 34 3
34 40 5
40 46 11
46 52 18
52 58 20

Gráfico de ogiva de frequências

Frequência acumulada
por intervalo de classes
25
20
15 Design Gráfico: Juliano Henrique

10
5
0
28 Ⱶ 34 34 Ⱶ 40 40 Ⱶ 46 46 Ⱶ 52 52 Ⱶ 58

Nesse ponto, pode surgir uma pergunta: qual a aplicabilidade da frequência acu-
mulada no call center, por exemplo? A resposta é que a frequência acumulada permi-
te que o gestor tenha uma visão clara do total de observações (ligações recebidas) de
uma determinada sequência de classes, dispondo, assim, do volume (absoluto ou rela-
tivo) de ligações recebidas totais (somadas) recebidas dentro das classes em questão.
A frequência acumulada pode ser aplicada aos casos em que o gestor deseja de-
terminar a capacidade produtiva e partir desse número, verificar quantas classes serão
atendidas.

Se o gestor do call center tiver como meta atender até 90% das ligações, ele deve preparar sua
equipe para receber 52 ligações diárias aproximadamente.
Análise de Dados para Business Intelligence 22

Outra forma de representar a distribuição de frequência é o gráfico de colunas


agrupadas, construído sobre dois eixos: o horizontal com as classes de dados, ou seja,
os fenômenos, os processos, cujas intensidades são expressas no eixo vertical. É um
gráfico muito utilizado quando necessitamos apresentar a evolução – ou diferença – de
um determinado evento, como vendas, atendimentos, consultas e outras informações
que dependem do contexto de uso.

Gráfico de colunas agrupadas

25

20
Frequência absoluta

15 Frequência relativa

10 Frequência acumulada

Design Gráfico: Juliano Henrique


5 Frequência acumulada (relativa)

0
28 Ⱶ 34 34 Ⱶ 40 40 Ⱶ 46 46 Ⱶ 52 52 Ⱶ 58

Os gráficos de linhas são muito úteis para comparar o comportamento de duas


ou mais variáveis. São construídos sobre dois eixos (horizontal e vertical), nos quais há
uma linha que representa a evolução (aumento ou diminuição) das informações de um
determinado processo ou fenômeno em estudo no decorrer de um período. Pode tam-
bém expressar a alteração de valores entre categorias, por exemplo: evolução de ven-
das, de atendimentos etc.

Gráfico de linhas

25 Frequência acumulada (relativa)

Frequência acumulada
20
Frequência relativa

15 Frequência absoluta

10

0
28 Ⱶ 34 34 Ⱶ 40 40 Ⱶ 46 46 Ⱶ 52 52 Ⱶ 58
Análise de Dados para Business Intelligence 23

O gráfico de setores é útil quando desejamos visualizar uma determinada grandeza


que se subdivide em diferentes categorias. Cada categoria é representada no gráfico por
um setor proporcional à fração sua fração relativa ao total. Por exemplo: vamos supor
que o gestor de uma universidade que oferece quatro cursos (Biologia, Administração,
Direito e Ciência da Computação), cada qual com um determinado número de estudan-
tes, deseja saber qual o percentual de participação de cada curso em relação ao total de
estudantes da universidade. Para isso, o gestor elaboraria uma tabela de acordo com a
descrição a seguir e, a partir dessa tabela, construiria a distribuição do número e percen-
tual de estudantes de cada curso em um gráfico de setores, que representaria a fração
de alunos de cada curso que compõe o total de estudantes da universidade:

Estudantes de quatro cursos da universidade


representados em tabela e em gráfico de setores

Estudantes
55 em Ciências da
Computação; 18%
98 em Biologia; 32%

Biologia
Administração
Direito
C. da computação
Design Gráfico: Juliano Henrique

85 em Direito; 28%
65 em
Administração; 22%
Análise de Dados para Business Intelligence 24

Nesse exemplo, cada categoria possui uma área do gráfico que corresponde a
um percentual do todo. Assim, o curso de Administração corresponde a 22% do total,
Biologia perfaz 32% do total e assim por diante, fechando em 100% o total de catego-
rias da informação desejada.
Até o momento, vimos que apresentar os dados em forma de tabelas e gráficos
nos dá uma boa ideia do que eles representam.

1.2 Teoria da probabilidade


De forma geral, quando procuramos descrever o comportamento de deter-
minados fenômenos, formulamos um modelo matemático para explicá-lo. Bussab
e Morettin (2012, p. 103) concordam com essa afirmação e acrescentam que “a par-
tir das frequências observadas podemos calcular medidas de posição e variabilidade,
como média, mediana, desvio-padrão e outros”. Essas medidas são estimativas de
quantidades desconhecidas, associadas a populações que foram extraídas na forma de
amostras. Logo, essas estimativas são as probabilidades de ocorrências de eventos de
interesse. Nesse mesmo sentido, Neufeld (2003, p. 80) acrescenta que “o valor de uma
variável não pode ser previsto antes da sua ocorrência”, então, conhecendo-se o con-
junto de valores possíveis de essa variável ocorrer, podemos calcular a probabilidade
de um determinado valor ocorrer. Essa é a base da teoria da probabilidade.
Então, com perguntas ou suposições
certas, podemos criar um modelo geral
para reproduzir o comportamento da dis-
tribuição de frequências de um experimen-
to ou fenômeno. Por exemplo, os jogos de
azar relacionam possibilidades e probabili-
dades que foram fundamentalmente pos-
tuladas desde o século XVIII, quando o
matemático francês Pierre Simon Laplace
© Nailia Schwarz / / Fotolia

(1749-1827) estudou teorias matemáticas


e apresentou uma fórmula para explicar
a Regra da Sucessão. Essa regra baseia-se
no fato de que, se um processo só tiver dois
possíveis resultados (sucesso e falha), com nenhum conhecimento prévio dos possíveis
resultados, a fórmula pode apresentar uma probabilidade para que o próximo resultado
do processo seja “sucesso”. Em outras palavras, simbolizando n como número total de
processos observados e S como o número de “sucessos” anteriormente observados, te-
remos a formulação da probabilidade P do próximo resultado:
Análise de Dados para Business Intelligence 25

s+1
P(resultado futuro) =
n+2

Design Gráfico: Juliano Henrique

A formulação de Laplace surge com o nome de teoria da probabilidade; e o termo


probabilidade passou a se referir ao estudo dos fenômenos aleatórios.
Quando o problema versa sobre a probabilidade de um evento ocorrer em N ma-
neiras excludentes, ou seja, um evento excluir a ocorrência de outro – igualmente pro-
vável – e ambos os eventos com a mesma chance de ocorrer, então, a probabilidade de
um evento ocorrer de N maneiras diferentes, podendo depender de m ocorrências com
características favoráveis, é dado por:

m
P(E ocorrer) =
N
Design Gráfico: Juliano Henrique

A teoria da probabilidade faz uso dessas teorias para melhor explicar seus even-
tos. Exemplo:

Qual a probabilidade de escolhermos uma


empresa que esteja em dia com suas
obrigações fiscais em um universo de seis
empresas que estejam ou não em dia?

Resposta: Se raciocinarmos com m sendo igual


a 1 (uma) empresa que desejamos escolher e N
como sendo 6 (seis), então, a probabilidade P de
escolher uma empresa em dia será dada por:
© garrifrotto / / Fotolia. (Adaptado).
Design Gráfico: Juliano Henrique

P(E ocorrer) = m
N
1
P(E ocorrer) =
6

P(E ocorrer) = 0,1666 = 16,66%


Análise de Dados para Business Intelligence 26

Outra forma de apresentar a probabilida-


de é o estudo da jogada de uma moeda equili-
© asafeliason / / Fotolia

brada (honesta), na forma cara = K, coroa = C.


Para sabermos a probabilidade de ocorrer K em
x jogadas de uma moeda, devemos primeiro
calcular o número de resultados possíveis, ou
seja, 2x (2 porque o jogo trata de duas condições possíveis, ocorrer K ou C e a potência
x pelo número de repetições), de forma que possamos determinar o número de manei-
ras possíveis de obter K por uso da seguinte formulação fatorial:

x!
K! (x! –k!)
2x
Design Gráfico: Juliano Henrique

Por exemplo, a probabilidade de se obterem 4 caras (K) em 6 jogadas (x) de uma


moeda equilibrada (honesta) será dada por:

x!
K!(x! – k!)
2x
6!
4!(6! – 4!)
26
720
24(720 – 24)
64

720
16704
© Hans-Jörg Nisch / / Fotolia. (Adaptado).

64
Design Gráfico: Juliano Henrique

0,0431
64
0,000673
Análise de Dados para Business Intelligence 27

Ou seja, a probabilidade de se obterem 4 caras (K) jogando-se uma moeda equili-


brada 6 vezes (x) será de 0,0673%.
A fim de estabelecermos limites para o número de jogadas de uma moeda e de
obtermos cara, devemos utilizar o teste de hipóteses para definir uma zona de acei-
tação, de forma a tornar conhecida a chance de um erro ocorrer (ou seja, de não ob-
ter cara e sim coroa). O teste de hipótese, nesse caso, pode ser formulado pelos limites
(x/2 – a) referindo-se ao inferior e (x/2 + a) referindo-se ao superior, em que x repre-
senta o número de jogadas e a um número de escolha aleatória para tornar inferior a
um valor dado a chance de ocorrer um erro.
Um dos assuntos que a probabilidade aborda são os arranjos e as combinações.
Então, sempre que desejarmos calcular o número de resultados possíveis que possam
vir a satisfazer uma determinada condição, poderemos utilizar o conceito de arranjos
ou o de combinações.

1.2.1 Arranjos e combinações


Quando queremos descobrir o número de maneiras diferentes de escolher R obje-
tos de um grupo de n objetos, falamos da técnica denominada arranjo.

O número de arranjos de n objetos, tomados R de cada vez, é o número de escolhas distintas


de R objetos de um grupo de n objetos (quando cada ordenação distinta dos objetos R escolhi-
dos é contada separadamente).

O cálculo do número de possibilidades será dado por:

n!
(n – R)!
Design Gráfico: Juliano Henrique

Exemplo
Suponha que, em uma corrida da Fórmula 1, com o grid de largada formado por
24 carros, você deseja acertar a ordem de chegada dos três primeiros carros (pilotos),
sem nada saber sobre os carros. Qual será a sua probabilidade de acertar a ordem de
chegada dos três finalistas?
Resposta: Como você deve escolher 3 entre 24 carros, isso equivale à escolha de 3
entre 24, ou seja, n será o total número de carros e R o número de carros que você es-
colherá, então, n = 24 e R = 3, sendo dado por n! / (n – R)! Logo:
Análise de Dados para Business Intelligence 28

n!

Design Gráfico: Juliano Henrique


(n – R)!
24!
(24 – 3)!

Em uma planilha, o cálculo é efetuado conforme formulações do exemplo a seguir:

Exemplo do cálculo de arranjo

A planilha exemplifica o uso de arranjo, em que a célula B4 destaca a fórmu-


la =FATORIAL(A2)/(FATORIAL(A2-A3)), resultando em 12.144 diferentes arranjos, ou
seja, uma dentre 12.144 é a chance que você possui de indicar aleatoriamente a ordem
correta de chegada.
Já a combinação é o conceito que utilizamos quando queremos descobrir o nú-
mero de combinações de R objetos tomados x de cada vez. Nesse sentido, uma com-
binação será o número de escolhas distintas de grupos de x objetos a partir de
um conjunto de R objetos, desde que a ordem dos objetos que estão no grupo seja
irrelevante.
O cálculo do número de combinações de R objetos, tomados x de cada vez, é
dado por:

R!
CR,x =
x! (R – x)
Design Gráfico: Juliano Henrique

Por exemplo, suponha que um gerente de projetos de uma grande consultoria


tem a sua disposição 22 consultores que devem ser alocados em duas equipes. Se o ge-
rente dividir aleatoriamente 11 consultores para cada equipe, qual a probabilidade de
todos os 11 melhores estarem na mesma equipe?
Análise de Dados para Business Intelligence 29

Resposta: Se definirmos os R = 22 objetos, tomados x = 11 de cada vez, teremos


705.432 maneiras de escolher a equipe que trabalhará primeiro. Portanto, a probabi-
lidade de que todos os 11 melhores consultores estejam nessa equipe é de 1/705.432;
mas há também a probabilidade de esses 11 consultores estarem na segunda equi-
pe, dando a probabilidade de estarem na mesma equipe de 2/705.432, portanto,
0,00000283514, ou ainda, de 2,8 × 10 -5.
A figura a seguir mostra o uso da função COMBIN da planilha eletrônica, de ma-
neira a calcular a combinação proposta no exemplo.

Exemplo do cálculo de combinações

A probabilidade passou a ser amplamente utilizada na área da gestão a partir do


período da Revolução Industrial, com o surgimento do processo de produção em mas-
sa, no século XVIII, permitindo e estudo dos fenômenos chamados determinísticos e
aleatórios.
Um fenômeno determinístico é aquele que, quando ocorre sempre sob as mes-
mas características e condições, produz sempre o mesmo resultado, ou seja, os expe-
rimentos seguem o seu modelo matemático e sempre resultam em erros pequenos
comparados ao comportamento-padrão. Assim é, por exemplo, a Lei da Gravidade.
Já o fenômeno não determinístico (ou aleatório) é aquele que, mesmo quando
ocorre sempre sob a mesma formulação matemática, sob as mesmas características e
condições, produz resultados diferentes, aleatórios. Assim é, por exemplo, a predição
de dar cara em n jogadas de uma moeda equilibrada. Portanto, há certa probabilidade
de os fenômenos ocorrerem, seja determinístico ou não determinístico (aleatório).
Análise de Dados para Business Intelligence 30

1.2.2 Espaço amostral e eventos

Para entender a teoria da probabilidade, necessitamos en-


tender dois conceitos: o espaço amostral e seu número de
elementos.
Toda vez que realizamos um experimento, o con-
junto de resultados que obtemos ao final será cha-
mado de espaço amostral, também conhecido como
espaço de probabilidade, que representaremos pela le-
tra grega ômega (Ω), podendo ser finito ou infinito. O
número de elementos (objetos) que o espaço amostral
possui será representado por N. Por exemplo, o espaço
amostral (Ω) de lançar um dado e ler o número
que saiu para cima será dado por:
Ω = {1, 2, 3, 4, 5, 6}
© pixarno / / Fotolia. (Adaptado).

O número de objetos que o espaço


amostral possui será dado por:
N (Ω) = 6.

Já um evento é o subconjunto do espaço amostral (Ω). Então, um evento A que


faça parte do espaço amostral pode ser escrito matematicamente por A ⊂ Ω, ou seja,
o evento A está contido no espaço amostral Ω.
Se tivermos dois eventos, chamados A e B, então, teremos as seguintes
operações:
• Dois eventos quaisquer podem ocorrer (união): A B = sucesso no resultado (o
resultado vai ocorrer) se o evento A ocorre ou o evento B ocorre, ou se ambos
ocorrem.
• Dois eventos não ocorrem simultaneamente, ou seja, os dois eventos são mu-
tuamente exclusivos (intersecção): A B = ∅ = o resultado vai ocorrer se o
evento A e o evento B nunca ocorrerem juntos.
• Negação: Ac o resultado vai ocorrer se o evento A não ocorrer.
Análise de Dados para Business Intelligence 31

Por exemplo, ao jogarmos duas moedas (honestas)


uma vez, definindo K como resultado cara e C como
resultado coroa, o espaço amostral (ou seja, o
conjunto de resultados possíveis) será dado por:

Ω = {KK, KC, CK, CC}

Determinando os resultados dos eventos por:


A = {resultar uma cara e uma coroa}
B = {resultar uma cara na primeira vez}
C = {resultar, pelo menos, uma coroa}
Teremos que:

© Hans-Jörg Nisch / / Fotolia. (Adaptado).


A = {KK, CK}

Design Gráfico: Juliano Henrique


B = {KK, KC}
C = {KC, CK, CC}
A∪B = {KC, CK, KK}
B∩C = {KC}
Ac= {KK, CC}

1.2.3 Teoria dos conjuntos


A teoria da probabilidade utiliza-se dos conceitos de espaço amostral e dos seus
eventos, servindo justamente para calcular a chance de o evento apresentar um deter-
minado resultado, levando em consideração algumas observações:
• o evento ser repetido n número de vezes, sob determinadas condições;
• não se conhecer o resultado, mas todos os possíveis;
• sendo repetido n vezes, existir uma fração de ocorrer um determinado resulta-
do em particular (como no exemplo clássico de jogar uma moeda, sabemos que
o resultado pode ser cara ou coroa e que pode ser repetido indefinidamente).
A teoria dos conjuntos aliada aos axiomas da probabilidade demonstram as ba-
ses da teoria da probabilidade que, basicamente, são:
• a soma de todos os eventos é 1 (100%);
• para todos os eventos E1 e E2, a probabilidade de ocorrerem simultaneamen-
te é igual à soma de todos os eventos inclusos em E1 e em E2, o que chamamos
de intersecção. Se a intersecção for vazia, então, a probabilidade de ocorrerem
simultaneamente é igual a zero e o conjunto será vazio;
• para todos os eventos E1 e E2, a probabilidade de que um ou outro ocorra é
fornecida pela soma das probabilidades dos eventos incluídos em E1 ou em E2,
o que chamamos de união.
Análise de Dados para Business Intelligence 32

Como conclusão, podemos dizer que toda vez que tivermos o evento E1 ocorren-
do simultaneamente com o evento E2, haverá a intersecção dos eventos, representa-
dos matematicamente por E1 E2. Ainda, quando ocorrer pelo menos um dos eventos
E1 ou E2, teremos a união dos eventos, representados matematicamente por E1 E2.
Com essa fundamentação, a probabilidade de um evento determinado ocorrer es-
tará sempre no intervalo que vai de 0 (zero) a 1 (um, ou 100% – com P(A) sendo a pro-
babilidade de o evento A ocorrer), então:

0 ≤ P(A) ≤ 1
Design Gráfico: Juliano Henrique

Assim, a probabilidade de um evento A ocorrer favoravelmente dentro de um es-


paço amostral possível será dado por P(A), ou seja:

P(A) = A
N (Ω)
Design Gráfico: Juliano Henrique

Sendo:
P(A) é a probabilidade de sucesso de o evento A ocorrer;
A é o evento para o qual se deseja sucesso;
N(Ω) expressa o número de casos possíveis.
Logo:
Se P(A) = 1, então, o evento A terá 100% de certeza em ocorrer.
Se P(A) = 0, então, o evento A terá 0% de certeza em ocorrer, ou seja, impossível.
Se AC é o complemento do evento A, então, P(AC) = 1 – P(A).
Se o evento A está contido no evento B (A ⊂ B), então, P(A) ≤ P(B).
As propriedades apresentadas até agora podem ser expressas pela seguinte for-
mulação geral:

ΣωεΩ
P({ω}) = P
U ωεΩ
{ω} = 1

Design Gráfico: Juliano Henrique


Análise de Dados para Business Intelligence 33

Sendo:
Ω o espaço amostral;
ω o elemento que se deseja obter no experimento;
N(Ω) o número de casos possíveis.
Sabendo-se que: Ω = {ω1, ω2 , ω3 ... , ωn}
No caso de os eventos serem mutuamente exclusivos (ou disjuntos), usamos a inter-
secção, e a formulação da probabilidade de um evento ocorrer com sucesso é dada por:

Σ
P [A1
U A2]= P({ω})
ωεA1 A2
U

Design Gráfico: Juliano Henrique

Sendo:
A1 o evento 1 e A2 o evento 2;
ω o elemento que se deseja obter no experimento.
No caso da união, a formulação da probabilidade de um evento ocorrer com su-
cesso é dada por:

P [A1
U Σ A2] =
ωεA1U A2
P({ω})

Design Gráfico: Juliano Henrique

Sendo:
A1 o evento 1 e A2 o evento 2;
ω o elemento que se deseja obter no experimento.
Há casos em que a ocorrência do evento A1 elimina a ocorrência do evento A2
(conhecidos como eventos mutuamente exclusivos), ou seja, a probabilidade de que
cada um dos eventos apresentados se realize é igual quando os elementos dos eventos
não se repetem. Em outras palavras, dois eventos são mutuamente exclusivos quando
não podem ocorrer simultaneamente. Por exemplo, jogarmos um dado, se definirmos
A como o conjunto dos resultados de números pares e B como o conjunto dos números
ímpares, então, teremos que:
Análise de Dados para Business Intelligence 34

Ω = {1, 2, 3, 4, 5, 6}
A = {2, 4, 6} e,
B = {1, 3, 5}
Logo, A B = Ø
Podemos também formular os eventos mutuamente exclusivos ao definirmos
que, se A e B são dois eventos quaisquer, teremos a chamada regra da adição de proba-
bilidades, dada por (BUSSAB; MORETTIN, 2012, p. 107):
P(A B) = P(A) + P(B) – P(A B), que se reduz a
P(A B) = P(A) + P(B), se A e B forem eventos mutuamente exclusivos.
Um exemplo clássico que utiliza esse racio-
cínio é o nascimento de uma criança. Sabendo-se
que pode ser um menino ou uma menina e que os
olhos podem ser verdes, azuis, castanhos ou pre-
tos, pode-se estimar a probabilidade de nascer
© massimo maghenzani / / Fotolia

ou uma menina de olhos verdes ou um menino de


olhos azuis. Podemos postular a probabilidade de
nascer um ou outro, aplicando as formulações já
descritas, então:

O espaço amostral possui 8 elementos e equivale a:

Menina Menina
Olhos verdes Olhos azuis
Menina Menina
Olhos castanhos Olhos pretos
Menino Menino
Olhos verdes Olhos azuis
Menino Menino
Olhos castanhos Olhos pretos

P(A) = P(menina de olhos verdes) = 1/8


P(B) = P(menino de olhos azuis) = 1/8
P(A B) = P(A) + P(B)= 1/8 + 1/8 = ¼ = 25%
Podemos aplicar o teorema da probabilidade da soma se associarmos cada ele-
mento do nosso espaço amostral (Ω) à mesma probabilidade de ocorrer (nesse caso,
o espaço amostral será chamado de equiprovável), ou seja, o resultado só será válido
Análise de Dados para Business Intelligence 35

quando não houver possibilidade de os eventos A e B ocorrerem simultaneamente.


Portanto, se um evento A e outro B são eventos que ocorrem de forma mutuamente
excludentes (que não podem ocorrer conjuntamente), então, a probabilidade de
ocorrer o evento A ou de ocorrer o evento B é dada por:
P(A ou B) = P(A) + P(B)
P(A B) = P(A) + P(B)
Para que possamos, então, determinar a probabilidade de ocorrer um entre dois
eventos, basta efetuarmos a soma das probabilidades dos dois eventos.
Agora, se os eventos A e B não são mutuamente excludentes, podemos expressar
essa determinação por:
P(A ou B) = P(A) + P(B) – P(A e B)
P(A B) = P(A) + P(B) – P(A B)

Vejamos um exemplo.
Se A é o conjunto das letras vogais e B é o conjunto
das letras consoantes, então, A ∪ B é o conjunto de todas
as letras do alfabeto, ou seja, A seria composto por 5 letras
e B por 21 letras. O resultado, portanto, seria o conjunto
das 26 letras do nosso alfabeto português (incluindo-se as
letras K, W e Y).
De acordo com Bussab e Morettin (2012), o teorema
da probabilidade condicional leva em consideração que,
existindo dois eventos A e B, em que o evento B já ocorreu
(portanto, a P(B) > 0 por já ter ocorrido), a probabilidade
de o evento A ocorrer será dada pela probabilidade condi-
cional, que é:
P(A/B) = P(A ∩ B) / P(B)
© lil_22 / / Fotolia. (Adaptado).

Então, caso o evento A já tenha ocorrido, teremos


que:
P(B/A) = P(A ∩ B) / P(A),
lembrando que P(A) > 0 por já ter ocorrido.
Análise de Dados para Business Intelligence 36

A formulação geral do teorema da probabilidade condicional será dada sempre


que houver um espaço amostral (Ω) finito composto pela ocorrência dos eventos A e B:
P(A/B) = quantidade de elementos em (A B) / quantidade de elementos em (B).
Vamos a um exemplo:
Como a probabilidade condicional nos apresenta a probabilidade de ocorrer o
evento A, se já sabemos de antemão que o outro evento (B) ocorreu, então, suponha
que, utilizando um par de dados, deseja-se obter o total de 8 em uma jogada, saben-
do-se que já obtivemos um 5 jogando o primeiro dado.
Resposta: se definirmos o evento A como “obter o total de 8 jogando um par de
dados” e o evento B como “foi obtido 5 jogando o primeiro dado”, a formulação será
dada pela probabilidade condicional:
(A B) só pode ocorrer se tivermos (5, 3) então: P(A B) = 1/36
De forma que:
P(A B) = (1/36) / (1/6)
P(A B) = (6) / (36) = 1/6
No que tange as probabilidades, o teorema do produto dispõe que, em um mes-
mo espaço amostral (Ω), a probabilidade de ocorrerem simultaneamente dois eventos A
e B é: igual ao produto da probabilidade de um dos eventos pela probabilidade condicio-
nal do outro, informado o primeiro, ou seja, os eventos A e B podem ocorrer simulta-
neamente. Isso significa que, se o primeiro de dois experimentos admite J resultados
possíveis e o segundo comporta R resultados possíveis, pode ocorrer qualquer combi-
nação (lembre-se da função fatorial!) desses resultados, de forma que o número total
de resultados possíveis dos dois experimentos será dado por J × R. Portanto, podemos
formular uma expressão para calcularmos essa probabilidade se tivermos a informação
do primeiro evento, o evento A:
P(A/B) = P(A B) / P(B),
Então, teremos que P(A B) = P(B) × P(A/B)
Mas se tivermos a informação do primeiro evento sendo o B:
P(B/A) = P(A B) / P(A),
Então, teremos que P(A B) = P(A) × P(B/A)
Exemplo
Qual a probabilidade de se retirar aleatoriamente uma carta que seja vermelha e
figura de um baralho de 52 cartas?
Análise de Dados para Business Intelligence 37

Resposta: No baralho, há 52 cartas, das quais temos o Valete, a Dama e o Rei,


que são figuras com 4 naipes cada; então, teremos 4 × 3 = 12 figuras. O baralho con-
tém 52 cartas, portanto, metade delas é vermelha (ouro e copas); então, 52/2 = 26 car-
tas vermelhas. Logo, se definirmos A como uma carta com figura e B como uma carta
vermelha, teremos:

Figura → A = 12 / 52 = 0,2307 → 23,07%


Vermelha → B = 26/52 = 0,5 → 50%

A probabilidade de se obter uma carta figura


(representada por A) e vermelha (representada
por B) pode ser formulada por: P(FV) = P(A) ∩
P(B). Então, teremos:

© fotogestoeber / / Fotolia. (Adaptado).


P(FV) = P(A) ∩ P(B)

Design Gráfico: Juliano Henrique


P(FV) = 12/52 ∩ 1/2
P(FV) = 6/52
P(FV) = 0,1153
P(FV) = 11,53%

O teorema da independência considera que um evento A é independente de


B (então, o evento B também será independente de A) se a probabilidade de ocorrer o
evento A for igual à probabilidade condicional de A, informado o B, ou seja:
P(A) = P(A/B)
Se considerarmos o teorema da probabilidade do produto, então, sempre que o
evento A e o evento B forem independentes, teremos:
P(A B) = P(A) × P(B)
Análise de Dados para Business Intelligence 38

Vejamos um exemplo:

Jogando-se um dado, se sair um 5 na


primeira jogada, qual a probabilidade de
sair um 4 na segunda?

Resposta: O fato de ter saído um 5 na primeira


jogada nada nos diz a respeito de sair um 4 na
jogada seguinte. Chamaremos de A a primeira
jogada (A = 5) e de B a segunda jogada (B = 4).
Podemos realizar a seguinte formulação:

© garrifrotto / / Fotolia. (Adaptado).


P(A) = 1/6 e a P(B) = 1/6

Design Gráfico: Juliano Henrique


Logo:
P(A∩B) = P(A) × P(B)
P(A∩B) = 1/6 × 1/6 → 1/36

O fato de A ter ocorrido não afeta a


probabilidade da ocorrência de B.

A tabela a seguir apresenta os dados de estudantes (alunos e alunas) matricula-


dos em cursos de uma universidade. Com base nela, podemos exemplificar o uso dos
teoremas e das propriedades de probabilidades, como soma, produto, independên-
cia, união ( ), intersecção ( ) e negação (C ).

Distribuição de estudantes por curso e sexo em uma universidade


Alunos Alunas
CURSO TOTAL
(Homens – H) (Mulheres – M)
BIO – Biologia 45 53 98
ADM – Administração 23 42 65
DIR – Direito 51 34 85
CC – C. Computação 34 21 55
TOTAL (por sexo) 153 150 303

Questionamento 01
Qual a probabilidade de se escolher um ALUNO (homem – H) dessa universidade?
Resposta: O espaço amostral Ω de estudantes é de 303 e o total de homens é de
153, então, a P(H) = 153 / 303 = 0,50495 = 50,49%.
Análise de Dados para Business Intelligence 39

Questionamento 02
Qual a probabilidade de se escolher aleatoriamente um estudante do curso de
Biologia (BIO)?
Resposta: O espaço amostral Ω de estudantes é de 303 e o total de estudantes (ho-
mens e mulheres) de Biologia (BIO) é de 98, então, P(BIO) = 98 / 303 = 0,32343 = 32,34%.
Podemos considerar, ainda, questionamentos mais abrangentes, que exemplifi-
cam o uso das propriedades da probabilidade.

Questionamento 03
Qual a probabilidade de escolhermos aleatoriamente um aluno (portanto homem
– H) de um curso de Direito (DIR)?
Resposta: H DIR, chamado intersecção de H e DIR, porque H e DIR ocorrem si-
multaneamente, então, utilizamos a propriedade da intersecção para resolver a ques-
tão. O espaço amostral Ω de estudantes é de 303 e o total de estudantes homens (H)
que cursam Direito (DIR) 51, então:
P(H DIR) = 51/303
O que significa que o estudante escolhido deve ser homem e, ao mesmo tempo,
deverá estar matriculado no curso de Direito.

Questionamento 04
Qual é a probabilidade de escolhermos um aluno (homem) ou qualquer aluno
(homem ou mulher) do curso de direito? Se P(H) representa a probabilidade de esco-
lher um homem em todo o espaço amostral Ω, então, temos que P(H) = 153/303 e que
P(DIR) é a probabilidade de escolher um estudante qualquer de Direito (DIR) em todo
o espaço amostral Ω. Logo, temos que P(DIR) = 85/303. A formulação é P(H DIR), en-
tão, poderíamos pensar em:
P(H DIR) = P(H) + P(DIR) = 153/303 + 85/303 = 238/303
No entanto contaríamos, assim, duas vezes os homens matriculados no curso de
Direito. Para resolvermos, utilizaremos o teorema da adição, que consiste em:
P(H DIR) = P(H) + P(DIR) – P(H DIR) = 153/303 + 85/303 – 51/303 = 187/303

Questionamento 05
Qual a probabilidade de escolhermos aleatoriamente um estudante que está ma-
triculado em Administração, Direito ou Ciência da Computação, sem nos interessar se
é homem ou mulher?
Análise de Dados para Business Intelligence 40

Resposta: Devemos considerar que A representa um estudante (de qual-


quer sexo) e B os cursos, então, temos que B = ADM DIR CC. Podemos conside-
rar, então, que A B = Ω e que A B = Ø; portanto, podemos dizer que A e B são
complementares, sendo:

P(A) + P(B) = 1 que é o mesmo que: P(A) + P(AC ) = 1

A resposta, então, será dada por:


P(B) = P(ADM) + P(DIR) + P(CC) = 65/303 + 85/303 + 55/303 = 205/303
Sendo:
P(A) = 98/303

Questionamento 06
Qual a probabilidade de escolhermos aleatoriamente um estudante de Ciência da
Computação, sendo que o estudante é uma mulher?
Resposta: Como foi definida a probabilidade condicionada de estudante de
Ciência da Computação (CC), sendo fornecida a condição mulher (M), temos uma
questão do teorema da probabilidade condicional, que define a probabilidade con-
dicional de um evento A dado B, ou seja, (P(A|B), como definem Bussab e Morettin
(2012, p. 111):
P(A|B) = P(A B) / P(B)
Nesse caso, definimos que o evento A é o “estudante de Ciência da Computação”
(A = CC) e que o evento B é a condição dada, ou seja, de “ser mulher” (B = M). Logo,
devemos observar que:
a. P(A) = P(CC) = Probabilidade de “ser estudante matriculado em Ciência da
Computação” = 55/303.
b. Temos a informação dada de que B ocorreu, ou seja, P(B) = P(M) =
Probabilidade de “ser estudante mulher” = 21/303.
c. Com a informação de que B ocorreu, aumenta a chance de A ocorrer, então:
P(CC|M) = P(CC M) / P(M) = (55/303) / (21/303) = 55/21
Análise de Dados para Business Intelligence 41

Outro exemplo que podemos utili-


zar, a fim de ilustrarmos o uso da teoria
da probabilidade, é o de jogar em uma
loteria, que consiste em escolher 6 nú-
meros entre 60 possíveis, ou seja, jogar
em 6 dezenas de 60 disponíveis. Além
disso, pode-se realizar um jogo pagan-
do-se um valor adicional, que permite a
escolha de 7, 8 ou até 15 números (de-
zenas) – levando-se em consideração
que estamos jogando com uma única
aposta, em um único cartão.
Design Gráfico: Bernardo Beghetto

Teremos, então, a seguinte formulação de probabilidade de acertar na loteria,


sendo:
m o número de casos favoráveis;
n o número de casos possíveis.
A probabilidade de o evento (A), que é acertar, ocorrer será dada por:

m
P(A) =
n
Design Gráfico: Juliano Henrique

Logo, o número de casos possíveis de acertar na loteria é de 1, então, m = 1; o nú-


mero possível de casos favoráveis de acertar 6 em 60 é dado por n, ou seja, pela com-
binatória de:

60
n=
6
Design Gráfico: Juliano Henrique
Análise de Dados para Business Intelligence 42

Então, a formulação geral do problema de acertar na loteria com um cartão e um


jogo será dada por:

Design Gráfico: Juliano Henrique


60
P(A) = 1/
6
P(A) = 1/50.063.860

Assim, 1 (uma) oportunidade de acertar em 50.063.860 possíveis.


Neste capítulo, foram apresentados os conceitos de dado e de informação, es-
senciais para a compreensão do seu uso e aplicabilidade em estatística. Uma vez conhe-
cidos os dados – que podem ser coletados nos ambientes organizacionais (empresas
públicas ou privadas) de diferentes formas –, verificamos que podemos aplicar técnicas
para disponibilizá-los de diferentes maneiras, por exemplo, em uma distribuição de fre-
quências, em determinados intervalos de classes e suas variações (absoluta, relativa ou
acumulada), facilitando seu uso para uma posterior análise e tomada de decisão.
Da mesma forma, este capítulo apresentou os principais elementos que com-
põem a teoria da probabilidade. Vimos que o objetivo do estudo da probabilidade é
calcular o número de resultados possíveis que venham a satisfazer determinada condi-
ção, a qual poderá ser aplicada pelo gestor em sua unidade de negócios. Portanto, útil
para determinar espaços amostrais, arranjos e combinações possíveis de eventos (ou
ocorrências), que são mapeados em objetos (dados) para futura análise e decisão.
Análise de Dados para Business Intelligence 43

Referências
BRUNI, A. L. Estatística Aplicada à Gestão Empresarial. 4. ed. São Paulo: Atlas, 2011.
BRUNI, A. L. Estatística Aplicada à Gestão Empresarial. 4. ed. São Paulo: Atlas, 2013.
BUSSAB, W. de O.; MORETTIN, P. M. Estatística Básica. 7. ed. São Paulo: Saraiva,
2012.
NEUFELD, J L. Estatística Aplicada à Administração Usando Microsoft Excel. São Paulo:
Prentice Hall, 2003.
2 Estatística

© Coloures-pic / / Fotolia
O termo estatística é comumente utilizado com diferentes significados. Por vezes,
significa um grupo de dados numéricos; outras, um conjunto de dados que representam o
comportamento de vendas de um produto. Mas também pode significar uma coleção de
dados numéricos que descrevem o comportamento das exportações de um país ou, ainda,
seu produto interno bruto (PIB) – isso apenas para ficarmos em alguns exemplos.
Portanto, como podemos constatar, são vários os usos do termo estatística para
relacionar, correlacionar, ordenar, classificar e apresentar dados, entre outras ações.
A estatística é um ramo da matemática que trata e analisa dados de acordo com
um determinado critério, que chamamos de método estatístico. A estatística é aplicada
em várias áreas de estudo: administração, economia, contabilidade, medicina, farmá-
cia, veterinária, computação, jogos e outras áreas que utilizam dados para gerenciar
seu ramo de atuação e facilitar a tomada de decisões. Por exemplo, antes de lançar um
remédio no mercado, os farmacêuticos necessitam testar as diferentes fórmulas asso-
ciadas aos diferentes voluntários e verificar se as dosagens, tomadas em grupos ou in-
dividualmente, são eficientes.
Para trabalharmos com estatística, é importante, inicialmente, definirmos sua ne-
cessidade e a aplicação dos seus métodos de forma adequada. Para um melhor entendi-
mento das questões que nos cercam, fazemos uso do raciocínio lógico que, por sua vez,
faz-se sobre determinadas construções de raciocínio, que podem ser de cunho dedutivo
ou indutivo.
46

O raciocínio dedutivo é aquele que, quando de posse de um conhecimento geral,


partimos para conhecer o particular, ou seja, é uma modalidade de raciocínio que parte do
pressuposto de que todo problema possui um princípio geral ou um conjunto de princípios
que permitem, por meio da dedução, conhecer certos aspectos particulares, por exemplo:

• Conhecida a lei da gravidade, qual o peso de


uma maçã em diversos locais do globo terrestre?

• Qual a medida da hipotenusa de um triângulo de


7 cm por 9 cm de arestas?

• Conhecidos os princípios de controle das doen-


ças respiratórias, que resultados podem ser
esperados quando aplicados na população de-
terminados medicamentos químicos em uma
dose específica?
© kanate / / Fotolia. (Adaptado).

O raciocínio indutivo é aquele que parte do particular para o geral, ou seja, a


partir do conhecimento daquilo que é específico, particular, chega-se a um princípio
geral ou a um conjunto de princípios. Dessa forma, surge a expressão inferência esta-
tística, que dá origem à ideia de generalização das conclusões de dados de um deter-
minado contexto, por exemplo:
47

• Conhecidas as maçãs, qual seria o peso delas


em cada posição do globo terrestre, ou seja,
em cada lugar possível no planeta Terra?

• Conhecidas as medidas de um triângulo, quais


leis ou regras podemos aplicar para conhecer-
mos medidas de outros triângulos?

• Conhecidos os resultados de várias tentati-


vas de controle de doenças respiratórias por
meio de doses químicas de medicamentos,
que recomendações gerais podem ser feitas
à população quanto ao uso desses medica-
mentos no controle dessas doenças?

© kanate / / Fotolia. (Adaptado).

Analistas de dados percebem a necessidade da estatística para fornecer uma base


objetiva na avaliação dos resultados que possuem em mãos, de onde surge sua aplica-
ção, por exemplo:
• Uma escola possui vários estudantes na terceira série do ensino médio com a
mesma professora, porém os estudantes apresentam graus de aprendizado
diferentes.
• Se duas fábricas de uma empresa de automóveis produzem modelos iguais, sa-
be-se que dificilmente terão a mesma produção.
• Em um pomar, os pesos de frutos de árvores adjacentes raramente são iguais;
nesses casos, são comuns as diferenças entre frutos da mesma planta.
Conhecida a variabilidade, percebe-se a dificuldade de se avaliar o problema, o
que suscita a necessidade de estudar os dados sob a óptica da estatística, com base
em suas definições e métodos. Quando estudamos estatística, estamos estudando
48

medidas estatísticas. A medida estatística é um número utilizado para resumir as pro-


priedades de um conjunto de números.
Neste capítulo, estudaremos as medidas de tendência central e as medidas de
dispersão, que nos ajudarão a entender o comportamento dos dados e, em seguida,
veremos o conceito de população e os diferentes tipos de amostragens dele derivadas,
bem como o cálculo da amostra.

2.1 Medidas de tendência central


Medidas de tendência central, como o nome sugere, são dados coletados de um
problema predefinido e que são tratados sob o ponto de vista central, buscando o cen-
tro do comportamento comum dos dados coletados.
Com base na coleta de dados representados na figura a seguir, que nos informa
o número de carros utilitários vendidos por uma concessionária, vamos conhecer cada
um dos conceitos das medidas de tendência central: média, moda e mediana.

Número de vendas de carros utilitários por mês

Conceitualmente, média é um valor obtido com a soma de todos os números de


uma lista e a divisão dessa soma pela quantidade de números somados. Esse resultado
apresenta uma boa ideia do tamanho do número que provavelmente obteremos se es-
colhermos aleatoriamente um valor qualquer da lista de números.
Para formularmos o cálculo da média, definimos n como o número de elementos
na lista, i como o descritor de cada elemento da lista de valores e x como o número in-
dividual da lista. Com i, n e x definidos, temos que a média será dada pela somatória
de xi , quando i variar de 1 até n, tudo dividido por n, então:
Design Gráfico: Juliano Henrique

n
Σ
¡=1

µ=
n
49

Para calcular a média com base nos números de carros vendidos por mês, basta
somar todas as quantidades de vendas por mês e dividir pela quantidade de meses.
Se definirmos o mês por i e a quantidade de carros utilitários vendidos por x, po-
demos verificar que no mês 1, ou seja, no i = 1, a quantidade x de carros utilitários ven-
didos foi de 45, ou seja x = 45 quando i = 1. Considerando que a lógica é a mesma para
todos os i, cuja soma é 12, se chamarmos o total de meses de n, teremos n = 12, ou
seja, o total de meses cujas quantidades de vendas foram coletadas foi de 12, sendo
n = 12.

Assim, o cálculo da média é


obtido da seguinte forma:

1. Somar todos os números:


45 + 67 + 59 + 81 + 75 + 55 + 67 + 84 + 73 + 80 + 77 + 90 = 853

© Marina Gorskaya / / Fotolia. (Adaptado).


2. Dividir a soma (do passo 1) pelo total de coletas, ou seja,

Design Gráfico: Thiago Sihvenger


n = 12:
853 / 12 = 71,08

A média do conjunto de dados,


portanto, é 71,08.

Outra medida de tendência central é a moda. Moda é o valor que ocorre com
maior frequência em uma relação de números, em um intervalo de dados, em uma ma-
triz ou em outro tipo de coleta de dados. Se houver mais de um valor que corresponde
ao conceito de moda, então, esses valores podem ser chamados modas.
A moda possui classificações:
• Unimodal: ocorre quando há um número com maior incidência de repetição na
lista.
• Bimodal: ocorre quando existem dois números que se repetem.
• Multimodal: ocorre quando há mais de dois números que se repetem na lista.
• Amodal: quando não há um número que se repita em uma determinada lista.
Ao analisarmos a figura que apresenta os números de carros vendidos, podemos
identificar o número que mais se repete na lista: 67. É esse, portanto, o valor da moda
da lista em questão.
50

Mediana é o número central de uma lista de números. Em outras palavras, em


uma lista de números que estão ordenados (crescentemente), a mediana é o valor ob-
tido de forma que tenhamos a mesma proporção de números acima e abaixo dele.
Então, para o cálculo da mediana, dois passos são necessários:

1 Ordenar a lista de números em ordem crescente


(conjunto de dados ordenados do menor para o maior).

2 Encontrar o elemento central.

3 Ordenar a lista de números em ordem crescente


(conjunto de dados ordenados do menor para o maior).

© Aleksandr Bryliaev / / Fotolia. (Adaptado).


Design Gráfico: Thiago Sihvenger
4 Encontrar o elemento central.

Se a lista apresentar um número par de números, teremos dois elementos cen-


trais, assim, a mediana será dada pela média desses dois números. Caso a lista apre-
sente um número ímpar de números, basta encontrar o elemento do meio da lista para
determinar o valor da mediana.
No caso da figura, que apresenta os números de carros utilitários vendidos, te-
mos uma lista de números pares e, para o cálculo da mediana, devemos ordená-la e
encontrar o elemento central dado pelo cálculo da média dos dois números:
Lista original: 45 67 59 81 75 55 67 84 73 80 77 90
Lista ordenada: 45 55 59 67 67 73 75 77 80 81 84 90
51

Da lista ordenada, identificamos os elementos centrais e, dado que a lista de nú-


meros é par, esses elementos são os números 73 e 75. Veja:
45, 55, 59, 67, 67, 73, 75, 77, 80, 81, 84, 90
A mediana será dada pela média dos números 73 e 75, ou seja 74.
Diversas ferramentas eletrônicas podem ser utilizadas para obter as medidas que
discutimos até aqui, como o Microsoft Excel®, conforme vemos a seguir:

Fórmulas de medidas de tendência central

2.2 Medidas de dispersão


Medidas de dispersão são aquelas que permitem analisar os desvios das obser-
vações de uma determinada lista em relação à média dessas observações (BUSSAB;
MORETIN, 2012, p. 38). Em outras palavras, são dispersões calculadas em relação à
média das observações. De acordo com Downing e Clark (2000), podemos utilizar o
termo dispersão para indicar o grau de afastamento de um conjunto de números em
relação à média.
As medidas de dispersão são conhecidas por amplitude, desvio médio absoluto, va-
riância e desvio-padrão. São esses métodos estatísticos de tratamento de dados que
são utilizados para medir a dispersão dos dados em torno da média, informando ao
analista de dados o quão distante está cada número em relação à média geral.
A amplitude é uma medida que apresenta a distância existente entre o maior e
o menor número da lista. É calculada em relação à amplitude total existente na lista
de números. Apesar de fornecer a distância entre o maior e o menor valor da lista, a
amplitude não fornece nenhuma informação sobre qualquer elemento na relação, com
exceção da distância entre os valores extremos da lista, o que faz com que seja mui-
to utilizada para o caso da amplitude térmica: o menor valor representando o frio e
o maior valor o quente, cuja diferença é a amplitude térmica. Esse princípio também
pode ser utilizado, por exemplo, para maior venda e menor venda, como na amplitude
de vendas.
52

Para calcular a amplitude, basta subtrair o maior número da lista pelo menor.
Aproveitemos a figura com os números de carros vendidos:

Número de vendas de carros utilitários por mês

Amplitude = (maior valor – menor valor)


Amplitude = (90 – 45)
Amplitude = 45
O desvio médio absoluto ou DMA é uma medida de dispersão, uma vez que
toma a média da soma total da lista de números que foram, cada um, subtraídos da
média, resultando em um valor que representa, em termos absolutos, a distância mé-
dia de cada número em relação à média (sem considerar positivamente ou negativa-
mente, ou seja, acima ou abaixo da média).
O DMA, como sugere sua definição, pode ser utilizado, por exemplo, para veri-
ficar quantos atendimentos fora da média um determinado vendedor efetuou em um
período. O número de atendimentos pode ser apresentado por um determinado nú-
mero acima ou abaixo da média, uma vez que o valor é expresso em termos absolutos,
portanto, sem sinal.
Para calcular o DMA, basta subtrair cada número da lista pela média, em termos
absolutos e, em seguida, calcular a média desses números, que resultará na distância
média de cada número em relação à média, conforme cálculos a seguir.
53

Original 45 67 59 81 75 55 67 84 73 80 77 90
Média 71,08 71,08 71,08 71,08 71,08 71,08 71,08 71,08 71,08 71,08 71,08 71,08
DMA 26,08 4,08 12,08 9,92 3,92 16,08 4,08 12,92 1,92 8,92 5,92 18,92

Design Gráfico: Thiago Sihvenger


© kanate / / Fotolia. (Adaptado).
Os números resultantes da subtração dos dados originais com a média são os
números absolutos da terceira linha que, se somados, resultam em 124,8. O total da
soma dos números (124,8) dividido pelo número total de elementos da lista (n = 12)
resultará em 10,4.
Ainda de posse da lista dos números de carros vendidos, analisaremos a variabilida-
de dos dados. Para isso, devemos basear-nos no DMA da lista e empregar a variância, que
nada mais é do que a grandeza que eleva ao quadrado cada uma das diferenças dos núme-
ros em relação à média geral.
A variância serve para analisar o grau de variabilidade que pode existir entre os
dados, permitindo saber se os desempenhos estão próximos, muito diferentes ou
mesmo iguais. Para tanto, é necessário estudar uma área da estatística que se cha-
ma análise de variância ou, derivado do termo original em inglês, analisys of variance
(ANOVA).
54

σ2

© archideaphoto / / Fotolia. (Adaptado).


Design Gráfico: Thiago Sihvenger
Observação 1: é aconselhável que se trabalhe com 4 (quatro) casas decimais após
a vírgula, visando à precisão do cálculo final.
Observação 2: a variância sempre será um número maior que a média, seu resul-
tado é a média dos quadrados dos desvios.
Por sua vez, o desvio-padrão de uma lista de números é dado pela raiz quadrada
da variância dessa lista. O símbolo para designar o desvio-padrão populacional é a le-
tra grega sigma (σ).
Para calcularmos o desvio-padrão da lista de números do nosso exemplo, basta cal-
cularmos a raiz quadrada da variância encontrada, ou seja:

σ = √σ
Design Gráfico: Juliano Henrique

Em nosso exemplo:
σ – √156,2431
σ = 12,4997

Uma vez determinado o desvio-padrão e com o valor da média em mãos, pode-


mos calcular o coeficiente de variação dos dados. Por definição, o coeficiente de va-
riação apresenta-nos o grau de afastamento geral médio padronizado relativo a todos
os números de uma lista que estão afastados da média geral daquela lista.
55

O Coeficiente de Variação é uma medida utilizada para verificar a homogeneidade dos dados
em relação à média; se essa medida for inferior a 30%, em geral, a média será bastante repre-
sentativa. É um número adimensional, ao contrário da variância e do desvio-padrão.

Para calcular o coeficiente de variação (cv), basta dividir o desvio-padrão pela mé-
dia encontrada, conforme equação a seguir:

Design Gráfico: Juliano Henrique


cv = σ
µ

Com os dados das vendas de carros mostrados anteriormente:

12,4997 Design Gráfico: Juliano Henrique


cv =
71,08
cv = 0,1758

Ao multiplicarmos o coeficiente de variação por 100, temos que 17,58% é a varia-


ção geral média das vendas entre todos os meses em relação à média geral de vendas.
Esse tipo de operação pode ser realizado com mais facilidade em ferramentas eletrôni-
cas, como em planilhas eletrônicas, cujas fórmulas podem ser empregadas para obter-
mos as medidas de dispersão, conforme mostradas a seguir:

Fórmulas medidas de dispersão


Design Gráfico: Thiago Sihvenger
56

2.3 População e amostragem


O conceito estatístico de população engloba o uso de todos os valores das variá-
veis de um determinado estudo. Temos, basicamente, dois tipos de populações: a fi-
nita, quando temos a certeza – ou probabilidade – do número de elementos a serem
considerados; a infinita, quando não temos a certeza – ou probabilidade – do número
de elementos a serem considerados. Por exemplo:

População finita: sabe-se quantos elementos


existem. Exemplo: em uma urna, existem 100
bolas; destas, 10 são extraídas, sem reposição.
Nesse exemplo, toma-se a amostragem de uma
população finita, uma vez que são 100 bolas
existentes no total, retirando-se uma quantidade
desejada de elementos.

População infinita: a população não possui


contagem final ou a mensuração final é difícil,
como no caso de astrônomos selecionarem 10
Design Gráfico: Thiago Sihvenger

estrelas do universo para estudo. As estrelas,


como sabemos, possuem um número difícil de
mensurar, considerado infinito.

Suponhamos a seguinte necessidade de estudo de um analista: “Estudar a condição


de saúde cardíaca de homens do município de Curitiba”.
Como a população de homens no município de Curitiba é muito grande, não há tempo
e verba para coletar os dados de todos, um a um, pois seria um procedimento um tanto dis-
pendioso em termos de recursos humanos, materiais e financeiros. Parte-se, então, para o
estudo da amostragem.
57

Amostragem ou amostra é um campo da estatística que consiste em consultar


uma parcela de valores das variáveis em estudo e aplicar inferências sobre a popula-
ção a partir do estudo de uma pequena parte de seus componentes. De acordo com
Fonseca e Martins (1996, p. 177), “a amostra é um subconjunto da população”.

Na estatística, o termo inferência significa desenvolver ou fazer uso de métodos que permi-
tam generalizar conclusões, ou seja, a partir de dados amostrais, apresentar conclusões, conse-
quências, deduções em uma população.

É conveniente planejarmos o tamanho da amostra para que tenhamos amostras


grandes o suficiente para detectarmos diferenças importantes. Por outro lado, amos-
tras exageradamente grandes, além de elevarem o custo do estudo, podem tornar di-
ferenças irrelevantes em estatisticamente significativas.
A amostra envolve premissas que dizem respeito às características do evento es-
tudado, aos fatores que exerçam influência sobre esse evento e à análise que se pre-
tende fazer. Portanto, antes de definir o tamanho da amostra, o analista de dados
deverá ocupar-se das definições de um planejamento amostral, cujas características
serão particulares para cada estudo.
De acordo com Barbetta (2001, p. 43), a razão para usar amostragem reside nos
seguintes fatores:

Economia: é mais econômico usar amostras em somente uma


parte da população.
Design Gráfico: Thiago Sihvenger

Tempo: reduz o tempo suficiente para pesquisar toda a população,


mesmo se houver recursos financeiros em abundância.
58

Confiabilidade de dados: quando se pesquisa um número reduzido


de elementos, pode-se dar mais atenção aos casos individuais e,
consequentemente, evitar evitar erros nas respostas.

Design Gráfico: Thiago Sihvenger


Operacionalidade: é mais fácil realizar operações de pequena
escala.

Barbetta (2001, p. 43) ainda aconselha a não usar amostragem nos seguintes
casos:
• quando temos uma população pequena;
• quando a característica de estudo é de fácil mensuração;
• quando há necessidade de alta precisão, como nos casos dos estudos do IBGE.
A amostragem pode ser obtida por meio de dois métodos: a amostragem pro-
babilística e a não probabilística. Basicamente, o que diferencia uma amostragem da
outra é que na amostragem probabilística os elementos da população possuem proba-
bilidade conhecida (e diferente de zero) de pertencer à amostra.
Para definirmos a amostragem, primeiro identificamos os objetivos da análise, a
população e os parâmetros a estimar, a fim de que esses objetivos sejam atingidos. A
seleção dos elementos que farão parte da amostra pode ser realizada por meio de téc-
nicas estatísticas conhecidas e seus conceitos.
Existem algumas formas de realizar a amostragem. Elas levam em consideração a
reposição dos elementos e as probabilidades de eles serem escolhidos. São eles:

Amostragem com reposição: é a amostra em que cada elemento


de uma população pode ser escolhido mais de uma vez.
Design Gráfico: Thiago Sihvenger

Amostragem sem reposição: cada elemento não pode ser


escolhido mais de uma vez.
59

Amostragem casual: quando cada elemento da população tem a


mesma probabilidade de participar da amostra.

Amostragem aleatória: é um processo de obtenção de uma


amostra em que cada elemento tem a mesma probabilidade
de participar da amostra. Seguem-se os seguintes critérios: (1)

Design Gráfico: Thiago Sihvenger


atribuir um número a cada elemento da população, escrever esses
números em pedaços de papel, colocá-los em uma urna e extraí-
los, misturando-os cuidadosamente antes de cada extração; (2)
emprego da tabela dos números aleatórios.

Portanto, como vimos, as amostras servem para garantir a representatividade da


população de acordo com critérios definidos pelo analista de dados (usuário), principal-
mente em relação aos objetivos da sua pesquisa. Quanto às amostras probabilísticas,
podemos classificá-las em aleatória simples, sistemática, estratificada e conglome-
rados, conforme representado a seguir:

Tipos de amostras probabilísticas

Amostragem probabilística

Design Gráfico: Thiago Sihvenger

Aleatória simples Sistemática Estratificada Conglomerados

As amostras não probabilísticas, por sua vez, podem ser classificadas como:
esmo, intencional (ou por julgamento) e cotas. Veja:
60

Tipos de amostras não probabilísticas


Amostragem não probabilística

Design Gráfico: Thiago Sihvenger


Esmo Intencional (julgamento) Cotas

Atenhamo-nos a esses dois métodos (probabilístico e não probabilístico), a fim de


apresentarmos suas principais características e exemplos de uso.

2.3.1 Amostragem probabilística


A amostragem probabilística é utilizada quando cada elemento da população
tem uma probabilidade conhecida de participar da amostra. De acordo com Fonseca e
Martins (1980, p. 143), são amostragens em que a seleção é aleatória de tal forma que
cada elemento da população tem uma probabilidade conhecida de fazer parte da
amostra.

Se N define o tamanho da população e se todos os elementos da população possuem igual pro-


babilidade, teremos 1/N como a probabilidade de cada elemento participar da amostra.

Para fazermos inferências estatísticas (tirarmos conclusões sobre a população a


partir de observações de amostra), há necessidade de que o processo seja probabilísti-
co, pois somente dessa forma poderemos avaliar a probabilidade do erro.
Existem algumas considerações que devemos observar quanto à amostragem
probabilística:
1. Precisa haver uma listagem dos elementos da população.
2. A probabilidade de um elemento da população pertencer à amostra é
conhecida.
3. O erro amostral pode ser estimado.
4. Podem-se estender os dados da amostra para a população com uma medida de
probabilidade de acertar.
5. No caso de ser do tipo:
61

a. Aleatória simples: recomendável se a população da variável de interes-


se for homogênea.
b. Aleatória sistemática: recomendável se a população da variável de in-
teresse for homogênea e grande (a amostragem aleatória simples pode
ser morosa).
c. Estratificada: população heterogênea, exigindo-se grande conhe-
cimento da população em seus estratos (quase sempre se tem pouca
informação).
d. Por conglomerados: é uma alternativa ao método estratificado, por
ser menos arbitrária.
Fonseca e Martins (1996, p. 181) apresentam a amostragem probabilística como
aquela em que cada um dos elementos da população possui uma determinada probabi-
lidade de ser escolhido para compor a amostra. Por exemplo: seja n o tamanho da popu-
lação, então, a probabilidade de cada um dos elementos que a compõem ser escolhido é
de 1/n.
A amostragem probabilística é mais recomendada por garantir a representativi-
dade da amostra, pois o acaso será o único responsável por eventuais discrepâncias en-
tre população e amostra, o que é levado em consideração pelos métodos de análise da
estatística indutiva.
Um dos tipos de amostragem probabilística é a amostragem probabilística alea-
tória simples, também conhecida como amostragem ao acaso, ocasional, acidental, ca-
sual e randômica. Nesse tipo de amostragem, todos os elementos da população têm
igual probabilidade de ser escolhidos no início, durante e após a conclusão da coleta de
dados. Para a sua determinação, é necessário:

a) Numerar todos os elementos da população.


© Aleksandr Bryliaev / / Fotolia. (Adaptado).
Design Gráfico: Thiago Sihvenger

Efetuar sorteios com reposição até completar


b) o tamanho da amostra (n).
62

A amostragem probabilística aleatória simples é equivalente a um sorteio de


qualquer natureza, como bingo, loteria, entre outros. Todos os elementos da popu-
lação têm igual probabilidade de pertencer à amostra e todas as possíveis amostras
têm também igual probabilidade de ocorrer. Sendo N o número de elementos da po-
pulação e n o número de elementos da amostra, cada elemento da população tem pro-
babilidade n/N de pertencer à amostra. A essa relação n/N dá-se o nome de fração de
amostragem. Por outro lado, se a amostragem for feita sem reposição, a suposição que
fazemos, em geral, é de que existem n possíveis amostras, todas igualmente prováveis
(NETO, 1977).

© Coloures-pic / / Fotolia

Na prática, a amostragem aleatória simples pode ser realizada a partir da numera-


ção da população de 1 a N e com o sorteio, a seguir, por meio de um dispositivo aleatório
qualquer, n números dessa sequência, os quais corresponderão aos elementos sorteados
para a amostra.
Por exemplo:
• as faces de um dado lançado diversas vezes geram uma sequência de números
aleatórios.
• os dígitos das placas dos carros que chegam ao supermercado também são
aleatórios.
• tempo de serviço em estações de pedágio.
• momento da chegada de carros a um posto de pedágio.
63

Na verdade, os métodos não são perfeitamente aleatórios: as faces do dado são


imperfeitas, as cartas de baralho podem aderir uma à outra, impedindo o embaralha-
mento perfeito, as bolas de um globo podem não estar bem misturadas ou ter pesos
diferentes etc. Um instrumento útil para realizar o sorteio é a tabela de números ao
acaso (TNA). Essa tabela é constituída por inúmeros dígitos que foram obtidos por al-
gum processo equivalente a um sorteio. Vejamos dois exemplos:

Exemplo 1
Os empregados de uma firma têm etiquetas numeradas con-
secutivamente de 101 a 831. Para que não haja reclamações,
deve-se escolher um comitê de segurança de 10 pessoas,
de modo aleatório. O critério utilizado pode ser o de colo-
car todas as etiquetas em uma TNA e utilizar os três primei-
ros números da segunda coluna da tabela para selecionar a
comissão.
Dessa forma, a comissão deve ser composta pelos emprega-
dos: 479, 107, 452, 526, 162, 315, 442, 318, 324 e 608.

© jpgon / / Fotolia. (Adaptado).

Exemplo 2
Escreve-se o nome de todos os alunos da sala (100) em peda-
ços de papel, colocando-os em um recipiente. A probabilida-
de de cada um ser escolhido será 0,01. Escolhem-se 7, a fim
de formarem uma amostra de tamanho 7, usando a tabela de
números aleatórios (TNA) ou a geração de números aleató-
rios por computador.
© jpgon / / Fotolia. (Adaptado).
64

De um modo geral, a amostragem aleatória exige que cada elemento tenha a


mesma oportunidade de ser incluído na amostra, dada por n/N.
Já o método da amostragem probabilística sistemática é muito utilizado quando os
elementos da amostra são escolhidos a partir de uma lista ordenada da população. O pro-
cesso é sistematizado da seguinte forma:
a. Calcule o intervalo de amostragem a = N/n (tamanho da população N dividido
pelo tamanho da amostra n).
b. Sorteie um número x entre 1 e a.
c. Forme a amostra de elementos aos números x; x+a; x+2a; x+(n-1)a.
Exemplo
N = 500
n = 50
a = 500/50 = 10
Sorteie um número de 1 a 10. Se saiu, por exemplo, o número 3, a sequência de
elementos será: 3; (3+10) = 13; (3 + 2 × 10) = 23; ... 33; 43; ...
De acordo com Neto (1977, p. 42), “a amostragem sistemática é caracterizada
quando os dados da população que se apresentam de forma ordenada e a retirada de
elementos da amostra é realizada periodicamente”. Podemos ver um exemplo dessa
técnica amostral em uma fábrica de lanternas para automóveis: a cada 20 lanternas
produzidas, duas são retiradas para compor a amostra que será submetida à análise de
sua qualidade de fabricação.
A principal vantagem da amostragem probabilística sistemática está na facilidade
de determinação dos elementos da amostra. O perigo em adotá-la, entretanto, está
na possibilidade de existência de ciclos de variação da variável de interesse, especial-
mente, se o período desses ciclos coincidir com o período de retirada dos elementos
da amostra. Por outro lado, se a ordem dos elementos na população não tiver qualquer
relacionamento com a variável de interesse, então, a amostragem sistemática terá
efeitos equivalentes à causal simples, podendo ser utilizada sem restrições.
Para utilizar a amostragem probabilística sistemática, é recomendável que a po-
pulação seja homogênea e não muito grande, pois a identificação de cada elemento
pode tornar-se trabalhosa.
Outro método da amostragem probabilística é a estratificada, muito utilizada
quando lidamos com populações heterogêneas (por isso, distinguimos em estratos). O
método é dado pelas seguintes etapas:
65

1 Divida a população em K subpopulações


(estratos) mutuamente exclusivos.

2 Selecione uma amostra aleatória de cada


subpopulação.

3 Faça cada subamostra ter tamanho proporcional


ao respectivo número de elementos do estrato.

© Aleksandr Bryliaev / / Fotolia. (Adaptado).


Design Gráfico: Thiago Sihvenger
4 Finalize a estratificação proporcional.

Quando definimos que devemos sortear igual número de elementos de cada es-
trato, podemos chamar a amostra estratificada de amostra estratificada uniforme.
Quando temos estratos com tamanhos diferentes de elementos, esse método não
pode ser utilizado, porque não teremos como extrair o número igual de elementos de
cada estrado. A solução, nesse caso, é calcular as proporções de cada estrato e retirar
o número de elementos de cada um, respeitando a proporção calculada (geralmente
em porcentagem). Pretende-se, ao final do processo, apresentar uma proporção igual
para cada estrato, porém com número de elementos diferentes. Podemos chamar esse
método de amostra estratificada proporcional.
Se a composição da amostra possuir o número de elementos proporcionais a cada
estrato que respeite uma variabilidade dos elementos dentro de cada estrato (dado
pelo desvio-padrão de cada estrato), teremos em mãos uma amostra denominada
amostra estratificada ótima.
Exemplo
Um engenheiro quer fazer uma amostragem estratificada proporcional do diâmetro
de uma peça produzida por duas máquinas distintas. Caso adote n = 5 e utilize os valores
do quadro a seguir, qual será a amostra?
66

Diâmetro de peças
Máquina A: 1 2 3 4 5 6 7

Diâmetros: 45,2 44,1 46,3 44,5 44,3 46,9 45,8

Máquina B: 1 2 3 4 5 6 7 8 9 10 11 12 13

Diâmetros: 44,0 47,1 46,0 45,2 46,7 49,4 43,8 44,8 48,6 46,5 47,5 49,5 48,0

Podemos calcular a amostra seguindo os passos:


1. Calcular a fração da amostra, dado por f:
f = n/N = 5/20 = 0,25 = 25%
2. Definir o número de amostras a serem sorteadas de cada estrato, ou seja:
Estrato (Máquina A) = 7 × 0,25 = 1,75 = 2 (por arredondar acima de 0,5) e
Estrato (Máquina B) = 13 × 0,25 = 3,25 = 3 (por arredondar abaixo de 0,5).
Assim, a Máquina A terá 2 elementos sorteados e a Máquina B terá 3.
3. Sortear os elementos de cada estrato utilizando números aleatórios para cada
um, ou seja, serão escolhidos aleatoriamente a partir da leitura dos dois últi-
mos algarismos de cada número a partir da quinta coluna para a Máquina A e,
depois, para a Máquina B, resultando no quadro a seguir:

Leitura dos diâmetros das peças para escolha da amostra


Estrato Máquina A Máquina B

Leitura tabela 7 5 1 9 10

Diâmetro peça 45,8 44,3 44,0 48,6 46,5

Podemos, dependendo do caso, estar interessados em identificar um subgrupo


que representa uma “miniatura” da população. A esse subgrupo dá-se o nome de con-
glomerado. Ao utilizarmos a técnica de amostragem probabilística por conglomerados,
teremos que escolher um desses subgrupos como a população e efetuar sorteios entre
seus elementos para dar origem à amostra em interesse. Esse tipo de amostragem é
tido como muito econômico e prático.
67

Para determinarmos a amostra em um conglomerado ou em conglomerados,


devemos:
1.º Determinar os conglomerados a partir da divisão da população.
2.º Selecionar os conglomerados que serão utilizados, uma vez que todos os elemen-
tos dentro de cada conglomerado farão parte da amostra (empresas, departamen-
tos, escolas e profissionais são exemplos de conglomerados).
Por exemplo, ao se realizar uma pesquisa do número de pessoas de um país, po-
dem-se realizar conglomerados de Estados e, em seguida, conglomerados de cidades,
bairros, empresas e assim por diante. Uma amostragem por conglomerado é recomen-
dada quando:
a. é preciso fazer entrevistas ou observações em grandes áreas geográficas;
b. o custo de obtenção dos dados cresce com o aumento da distância entre os
elementos;
c. não se dispõe da lista de todos os elementos da população ou a obtenção des-
sa listagem é dispendiosa.
Vejamos alguns exemplos:

© Aleksandr Bryliaev / / Fotolia. (Adaptado).


Exemplo 1
É preciso estimar o rendimento médio familiar em uma grande cidade. Como esco-
lher a amostra?

• Como não há uma listagem de todas as famílias da cidade e é praticamen-


te impossível obtê-la, não é possível usar a amostragem aleatória simples e
estratificada.
• A cidade é dividida em bairros (conglomerados), por isso, podemos tomar uma
amostra aleatória dos bairros e pesquisar a renda de todas as famílias morado-
ras desses bairros.
68

Exemplo 2

© Aleksandr Bryliaev / / Fotolia. (Adaptado).


Suponha a necessidade de uma amostra de estudantes uni-
versitários de um dado Estado brasileiro para entrevistas
pessoais de avaliação de um novo produto a ser lançado. Os
números de universidades e alunos são conhecidos: cerca de
80 universidades e 500 mil estudantes. Precisa-se, então, da
configuração da população de estudantes. Tendo em vista
que enviar entrevistadores a cada universidade seria demora-
do e dispendioso, qual seria a solução?

Uma solução possível seria a estratificação dessa população por tipo de universi-
dade, ou seja:
1. Universidade 1 possui 1,2 mil estudantes, então: (1... 1.200);
2. Universidade 2 possui 3 mil estudantes, então: (1.201...4.200);
3. Universidade 3 possui 4 mil estudantes, então: (4.201... 8.200); e assim por
diante, até totalizar os 500 mil estudantes;
4. Poderíamos, então, coletar uma amostra aleatória de universidades igual a 5.
Com as 5 universidades escolhidas, seriam entrevistados todos os elementos
desses conglomerados.
Observação: alguns autores entendem que, na última etapa (4), também pode
ser feita uma amostra aleatória simples sobre cada subpopulação selecionada. Ou seja,
se desejássemos uma amostra de 1.000 estudantes, selecionaríamos apenas 200 de
cada universidade.

2.3.2 Amostragem não probabilística


Além da amostragem probabilística, cujos tipos vimos até então, há também
uma amostragem dita não probabilística, utilizada quando a probabilidade de cada ele-
mento da população participar de uma amostra é desconhecida (é possível que nem
todas sejam desconhecidas), ha-
vendo uma escolha deliberada
dos elementos que vão compor
a amostra. Esse tipo de amostra-
gem é muito utilizado na área de
Ciências Sociais em pesquisas de
mercado.
Segundo Fonseca e Martins
© vege / / Fotolia

(1996, p. 183), na amostragem


não probabilística, não é possível
69

generalizar os resultados das pesquisas para a população, pois amostras desse tipo
não garantem a representatividade da população.
Há algumas considerações da amostragem não probabilística a serem
observadas:
• não há seleção aleatória; ela é subjetiva, baseada na decisão pessoal do
pesquisador;
• a variabilidade amostral não pode ser estabelecida com precisão;
• listagem dos elementos da população nem sempre é possível na prática;
• não se conhece a probabilidade de um elemento da população pertencer à
amostra;
• o erro amostral não pode ser estimado;
• as conclusões da amostra não podem ser estendidas para a população com
uma medida de probabilidade de acerto.
Nesse ponto, é possível que você esteja se perguntando: “Mas, afinal, quando vou
utilizar a amostragem não probabilística?”.
A resposta relaciona-se com os casos em que você e seu trabalho estão:
• na etapa preliminar em projetos de pesquisa;
• envolvidos em projetos de pesquisa qualitativa, com bom conhecimento da
população;
• envolvidos em projetos em que a população não pode ser relacionada
(listagem).
Amostragens não probabilísticas são amostras retiradas de populações de forma
não aleatória, seguindo, portanto, um determinado critério. Segundo Barbetta (2001,
p. 56) e conforme dissemos anteriormente, as amostragens não probabilísticas podem
ser classificadas em cotas, intencional (julgamento) e a esmo.
A amostragem não probabilística por cotas assemelha-se à amostragem estra-
tificada proporcional, por não haver sorteio na seleção dos elementos. A população é
dividida em diversos grupos ou subgrupos, selecionando-se, para fazer parte da amos-
tra, uma cota de cada grupo ou subgrupo, proporcional ao seu tamanho e cuja seleção
não precisa ser aleatória. Para facilitar, divide-se a população em um grande número
de subgrupos.
Por exemplo, uma pesquisa socioeconômica pode ser dividida por localidade; a
localidade pode ser dividida por nível de instrução; este, por sua vez, pode ser dividido
por faixa de renda e aplicado o sorteio das amostras proporcionais ao tamanho da po-
pulação dos subgrupos.
70

A amostragem não probabilística por cotas, portanto, não é aleatória e é de rápi-


da aplicação. Ela é considerada financeiramente viável, por ser barata, e é, como disse-
mos, muito utilizada nas Ciências Sociais, principalmente, em pesquisas de eleitores,
de opiniões e de mercado.
Já a técnica de cálculo para amostra intencional ou por julgamento consiste em
dois estágios: (1) desenvolver categorias (ou cotas) de controle de elementos da popu-
lação; (2) selecionar os elementos da amostra com base no julgamento.

Exemplo © goodluz / / Fotolia

Suponha uma pesquisa de percepção de homens e mulheres sobre diferentes mo-


delos de carro dentro de uma margem fixa de preço. Suponha, ainda, que seja neces-
sária uma amostra de tamanho 1.000.
O primeiro passo consiste em desenvolver categorias ou cotas de controle de ele-
mentos da população, que podem ser dadas de acordo com os critérios contidos na ta-
bela a seguir:

Categorias de idades
Idade (anos) Homens Mulheres Ambos

< 15 5,9 5,6 11,5

15 a 29 6,1 5,8 11,9

30 a 44 11,8 11,7 23,5

45 a 74 3,7 4,2 7,9

mais de 75 1,5 2,8 4,3


71

1. Estratifique a população de interesse, por exemplo: idade e sexo. Suponha que


seja de interesse a população com mais de 15 anos, que corresponde a 47,3 mi-
lhões da tabela anterior.
2. São necessárias (6,1/43,7) × 1.000 = 129 homens e (5,8/47,3) × 1.000 mulheres
na faixa de 15 a 29 anos; 249 homens na faixa 30 a 44 anos e assim por diante.
3. São dadas as cotas: digamos que 50 entrevistas por entrevistador por dia, en-
tão, teremos: (6,1/47,3)50 = 6 homens e (5,8/47,3)50 = 6 mulheres de 15 a 29
anos, 12 homens com 10 a 44 anos, e assim por diante, de tal forma que todas
as quotas perfaçam o total da amostra = 1.000.
Seguindo critérios de seleção de elementos da amostra com base no julgamento,
é possível que uma pessoa, andando na rua, passe pelos entrevistadores sem ser en-
trevistada. Isso pode ocorrer se essa pessoa não tiver as características que fazem par-
te da cota do entrevistador ou se a cota já estiver preenchida.
Identificamos a seguir os principais problemas na amostragem por cota:
a. serão entrevistados aqueles que estão na rua naquele momento: desemprega-
dos, trabalhadores de distribuição, construção, transporte e serviços públicos;
b. por consequência, deixarão de ser entrevistados, por exemplo, trabalhadores
de fábricas;
c. na rua, a seleção fica a critério do entrevistador: privilegiam-se pessoas que
não estão com pressa ou que tenham aparência confiável etc.;
d. se o controle é o grupo socioeconômico, o julgamento é do entrevistado;
e. os extremos das faixas do estrato são evitados, a fim de evitar desperdício de
tempo com pessoas que podem sair da faixa (por exemplo, idade);
f. não há controle sobre o número daqueles que não quiseram responder e, por-
tanto, não há informações sobre a tendenciosidade da falta de respostas;
g. é difícil a validação do trabalho realizado (as pessoas não fornecem endereço
ou algo parecido para possível confirmação das informações obtidas).
A amostra não probabilística intencional ou por julgamento é muito utilizada para
estudos qualitativos, em que os elementos são aqueles julgados como típicos da popu-
lação que se deseja investigar, geralmente, com população pequena. É uma técnica de
amostragem em que o grupo de elementos é escolhido intencionalmente, atendendo a
critérios do investigador. Vejamos alguns exemplos:
72

Exemplo 1
Um pesquisador deseja coletar
opiniões sobre tendência de cor-
tes de cabelo, então, dirige-se a
grandes salões de beleza e entre-
vista os profissionais da área.

Exemplo 2
Em uma pesquisa de produtivi-
dade de soja, o pesquisador pode
escolher os produtores que, se-
gundo ele, são os que melhor
representam o estudo da produti-
vidade de soja em dada região.

© thekaikoro / / Fotolia. (Adaptado).


Por fim, a amostragem não probabilística a esmo é usada quando qualquer ele-
mento da população homogênea pode fazer parte da amostra, sem qualquer critério
preestabelecido pelo pesquisador, ou seja, qualquer elemento pode ser escolhido, por
isso, não há normas – a escolha é, portanto, a esmo.

Um analista possui uma caixa com 10.000 parafusos e deve escolher alguns para compor a
amostra sem nenhuma norma. Basta, então, escolher a esmo os parafusos que comporão o ta-
manho da amostra.

É comum surgir uma pergunta quando se trabalha com amostragens: afinal,


como se determina uma amostra?
Para responder a essa pergunta, levamos em consideração quatro aspectos:
1. Depende da margem de erro exigida (erro amostral) – incluída a variabilidade
dos dados – e do delineamento utilizado.
2. O grau de confiança exigido (em termos probabilísticos).
3. O tipo de variável que se está considerando.
4. Diferentes perguntas podem exigir diferentes tamanhos de amostras.
73

Essas diferentes perguntas exigem do pesquisador cálculos ou mensurações so-


bre as variáveis de interesse da pesquisa. Vamos, então, considerar a classificação das
variáveis, que podem ser:
a. Quantitativa (também conhecida por intervalares): quando a variável pode ser
contada ou mensurada, por exemplo, o número de funcionários de uma empresa.
As variáveis quantitativas podem ser classificadas em discretas (quando assumem
apenas alguns valores possíveis, que possam ser contados, mensurados, como
no caso do número de filhos, número de dedos em uma mão etc.) e as contínuas
(quando a variável pode assumir uma gama infinita ou impossível de valores, por
exemplo, o número de estrelas, a quantidade de grãos de areia na praia etc.);
b. Qualitativa: quando a variável é caracterizada por atributos (normalmente não
numéricos) do objeto em estudo, por exemplo, designação de nomes, classe so-
cial etc. As variáveis qualitativas podem ser classificadas em nominais (quando a
variável permitir que o analista as identifique por categorias, por exemplo, sexo,
naturalidade etc.) e ordinais (caso em que as variáveis podem ser ordenadas em
categorias, por exemplo, de classe social, nível de renda etc.).
A figura a seguir ilustra a classificação das variáveis:

Classificação das variáveis

Nível de mensuração sobre a variável

Qualitativa Quantitativa
Design Gráfico: Thiago Sihvenger

Nominal Ordinal Discreta Contínua


74

Para dispor de uma boa representatividade da população, o analista deve levar


em consideração a qualidade e a quantidade dos elementos que irão compor a amos-
tra da população. Por isso, é necessário definir onde e como obter uma boa amostra,
procurando delimitar o universo capaz de ser representado, seus estratos, fazer uso do
sorteio (método aleatório, a fim de selecionar os elementos da amostra) e determinar
o tipo da amostra (por exemplo, uma amostra aleatória simples, estratificada, por con-
glomerado etc.).
A quantidade de elementos que uma amostra deve possuir depende de uma
série de fatores que o analista deverá levar em consideração: deve, por exem-
plo, observar muito bem a característica da sua pesquisa estatística (experimental,
descritiva, aplicada, entre outras); verificar se a característica da população é ho-
mogênea ou heterogênea (que são características básicas, como cor, tamanho, ca-
pacidade, localização etc.); considerar o tamanho da população nos casos em que
deseja uma amostra aleatória simples; verificar o grau de precisão que deseja no cál-
culo da amostra, determinando um grau de erro aceitável a sua pesquisa.

2.4 Estimação estatística


Em estatística, o termo estimador refere-se a uma grandeza cujo valor utilizamos
para auferir um determinado parâmetro populacional desconhecido, com base em ob-
servações de uma amostra. Em outras palavras, pode-se dizer que uma média amos-
tral (x) é o estimador da média populacional desconhecida (µ).
Utilizamos, então, a expressão inferência estatística no cálculo de probabilida-
des de um evento ocorrer quando não conhecemos antecipadamente todas as pro-
babilidades. Por exemplo, suponha que toda a carne exportada do Brasil possua uma
distribuição normal de preços, mas que não conheçamos de antemão a média (µ) da
distribuição, que precisa, portanto, ser estimada.
Inferência estatística passa a ser, então, a expressão que utilizaremos para repre-
sentar o processo de usar informações de uma amostra para estimar as características
da população de onde obtivemos a amostra.
De acordo com Bruni (2011, p.176), o termo parâmetro pode ser definido como
“uma função do conjunto de valores da população, tal como as estatísticas média arit-
mética e variância, desde que calculadas diretamente com os dados obtidos na popu-
lação” e estimativa como “o valor assumido pelo parâmetro em determinada amostra”.
Alguns exemplos de estimadores pontuais comumente empregados nas inferências es-
tatísticas apresentam-se no quadro a seguir:
75

Estimadores empregados na estatística


Parâmetro populacional
Tipo da estatística adotada (requerida) Estimador
levado em consideração
Média µ x
Desvio-padrão σ S
Diferença entre as médias das populações µ 1 – µ2 x1 – x2
Proporções P P
Diferença entre as proporções de duas populações P1 – P2 P1 – P2
Fonte: BRUNI, 2011, p. 177. (Adaptado).

Há diferentes tipos de estimadores estatísticos:


a. Estimador de máxima verossimilhança: utilizamos esse tipo de estimador to-
das as vezes que tivermos um parâmetro x desconhecido de uma distribuição
de probabilidade em particular. Por exemplo: queremos estimar a probabilida-
de P(x) de sucesso para uma variável que tenha distribuição normal. O estima-
dor de máxima verossimilhança será dado por:
P(X) = P(sucesso de x) / número de testes
Exemplo prático: imaginemos a situação em que desejamos obter o valor da mé-
dia x = 8 de uma população µ = 20.000. Para aplicar o estimador de máxima verossimi-
lhança em que se deseja x = 8, a população de µ = 20.000 não é uma boa estimativa.
A probabilidade é de que µ = 200 seja uma melhor estimativa para que se tenha x = 8.
Nesse caso, o valor de x será um estimador de máxima verossimilhança para µ, sendo
maior a chance (probabilidade) de obter x = 8 quando µ = 200. em vez de µ = 20.000.
b. Estimador consistente: esse estimador é utilizado quando a variância tende a um
valor nulo (zero), à medida que aumentamos o tamanho da amostra. Isso parece
ser lógico, mas quando podemos aumentar o tamanho da amostra, obtendo mais
informações sobre x, verificamos que o seu valor estará mais próximo do valor da
média µ.
c. Estimador não tendencioso: é um estimador que apresenta um resultado igual ao
verdadeiro valor do parâmetro que desejamos estimar. Por exemplo: se S2 é um
estimador não tendencioso da variância, cuja divisão dos parâmetros não se deu
por n (número de observações da amostra), mas por n – 1 (de modo que a média
amostral passe a ser um estimador não tendencioso da média populacional µ).
d. Estimador pontual e estimador intervalar: de acordo com Bruni (2011, p.
177), esses estimadores podem se apresentar pontualmente (valor único, ou
seja, obtenção de um número único que pode ser usado para estimar o valor de
76

um parâmetro desconhecido) ou de forma intervalar (ou seja, saber se o verda-


deiro valor do parâmetro está próximo de um valor que não está muito distan-
te do conjunto de valores – intervalos – da estimativa), que estão resumidos no
quadro a seguir:

Estimador pontual e intervalar empregados na inferência estatística


Parâmetro
Pontual Intervalar
populacional
Média IDH do estado é de 76,5. IDH do estado está entre 71,5 e 81,5.
Somente 10% dos municípios do esta- Entre 8% e 12% dos municípios do es-
Proporção
do atingiram o IDH desejável. tado atingiram o IDH desejável.
O desvio-padrão do IDH dos municí- O desvio-padrão do IDH dos municípios
Desvio-padrão
pios do estado é 12. do estado está entre 8 e 16.
Fonte: BRUNI, 2011, p. 177. (Adaptado).

IDH significa “índice de desenvolvimento humano” e é o resultado de cálculos sobre dados


econômicos e sociais que expressam um índice que mede o grau de desenvolvimento da quali-
dade de vida e da economia de uma região. O índice varia de 0 (nenhum desenvolvimento) até
1 (desenvolvimento total).

e. Estimação da média: como uma estimativa é o valor do estimador em uma de-


terminada circunstância, se tomarmos uma amostra observada nos números do
conjunto x = {3, 4, 6, 8, 11}, então, a média amostral será x = 6,4. Se definirmos x = µ
= 6,4, então, afirmaremos que x = µ = 6,4 é uma estimativa da média populacional.
Esse tipo de estimativa é utilizado para efetuar o cálculo da amostra em uma deter-
minada população, dependendo, para isso, se ela é maior ou menor que 30, se seus
valores são conhecidos ou não conhecidos e se a população é aproximadamente
normal ou não. Os cálculos são apresentados a seguir:

Para população infinita e natureza da variável contínua


Linha Coluna B Coluna C
3 - (Z) Intervalo de confiança 95
4 - (σ) Desvio-padrão 10
5 - (d) Erro amostral (margem de erro) 1,5
6 - (n) Amostra 170,7316
77

Na planilha eletrônica, a fórmula a ser aplicada para resultar o valor da amostra


170,7316 é:

=POTÊNCIA((INVT((1 – C3/100);10000000000) × C4)/C5;2), sendo:

Design Gráfico: Juliano Henrique


2

n= Zσ
d

Para população infinita e natureza da variável nomial (ordinal):


Linha Coluna G Coluna H
3- (Z) Intervalo de confiança 95
4- (p) Estimativa da ocorrência (percentual) do atributo estudado 0,5
5- (q) Estimativa da não ocorrência do atributo estudado 0,5
6- (d) Erro amostral (margem de erro) 0,05
7- (n) Amostra 384,146

Na planilha eletrônica, a fórmula a ser aplicada para resultar o valor da amostra


384,146 é:

=(POTÊNCIA(INVT((1 – H3/100);10000000000);2) × H4 × H5)/POTÊNCIA (H6;2), sendo:


Design Gráfico: Juliano Henrique

Z2 pq
n=
d2

Para população finita e natureza da variável contínua


Linha Coluna B Coluna C

15 - (N) População 100

16 - (σ) Desvio-padrão 5

17 - (Z) Intervalo de confiança 95

18 - (d) Erro amostral (margem de erro) 0,05

19 - (n) Amostra 99,74295


78

Na planilha eletrônica, a fórmula a ser aplicada para resultar o valor da amostra


99,74295 é:

=(POTÊNCIA (INVT((1 – C17/100);10000000000);2) × POTÊNCIA (C16;2) × C15)/


(POTÊNCIA(C18;2) × (C15 – 1) + (POTÊNCIA (INVT ((1 – C3/100);10000000000);2) × POTÊNCIA
(C16;2))), sendo:

Design Gráfico: Juliano Henrique


N σ2 Z2
n= 2 2
σ Z + (N – 1) d2

Para população finita e natureza da variável nomial (ordinal)


Linha Coluna G Coluna H

15 - (N) População 800

16 - (Z) Intervalo de confiança 95

17 - (p) Estimativa da ocorrência (percentual) do atributo estudado 0,5

18 - (q) Estimativa da não ocorrência do atributo estudado 0,5

19 - (d) Erro amostral (margem de erro) 0,05

20 - (n) Amostra 259,7455

Na planilha eletrônica, a fórmula a ser aplicada para resultar o valor da amostra


99,74295 é:

= (POTÊNCIA (INVT((1 – H16/100);10000000000);2) × H17 × H18 × H15)/(((H15 – 1) × POTÊNCIA


(H19;2)) + (POTÊNCIA (INVT ((1 – H16/100);10000000000);2) × H17 × H18)), sendo:
Design Gráfico: Juliano Henrique

NZ 2 pq
n= 2
Z pq+ (N – 1) d2
79

Este capítulo apresentou os


conceitos de raciocínio indutivo e
dedutivo utilizados na área da esta-
tística, exemplificando as diferenças
existentes entre eles. Mostrou-se
como são definidas e aplicadas as
medidas de tendência central, como

© ltstudiooo / / Fotolia
a média, a moda e a mediana, assim
como as medidas de dispersão, ca-
racterizadas pela amplitude dos da-
dos, pelo desvio médio absoluto,
pela variância e desvio-padrão. Esses conceitos são básicos para o entendimento dos
métodos estatísticos sobre os dados, permitindo a realização de análises futuras mais
amplas. Além disso, este capítulo também introduziu os conceitos de população e
amostra, apresentando a caracterização dos diferentes tipos de amostras que podem
ser utilizados para aplicar os métodos estatísticos sobre os dados. Os tipos de amos-
tras são identificados em dois grupos: os probabilísticos e os não probabilísticos.
Por fim, vimos os possíveis tipos de amostras probabilísticas e suas definições,
como as amostras aleatórias simples, sistemática, estratificada e de conglomerados,
com exemplos que permitem distingui-los e verificar qual o melhor tipo para compor
os seus estudos. Da mesma forma, foram apresentados os diferentes tipos de amos-
tras não probabilísticas, como a amostragem por cotas, intencional e a amostragem
a esmo. Além disso, mediante aplicação prática, foram apresentados os cálculos que
permitem determinar os tamanhos de cada tipo de amostra, de forma a caracterizar a
validade do estudo estatístico e a aplicação dos seus métodos.
80

Referências
BARBETTA, P. A. Estatística Aplicada às Ciências Sociais. 4. ed. Florianópolis: UFSC,
2001.
BRUNI, A. L. Estatística Aplicada à Gestão Empresarial. 3. ed. São Paulo: Atlas, 2011.
BUSSAB, W. de O.; MORETTIN, P. M. Estatística Básica. 7. ed. São Paulo: Saraiva, 2012.
DOWNING, D.; CLARK, J. Estatística Aplicada. São Paulo: Saraiva, 2000.
FONSECA, J. S. da; MARTINS, G. de A. Curso de Estatística. 3. ed. São Paulo: Atlas, 1980.
NETO, P. L. de O. C. Estatística. São Paulo: Blücher, 1977.
3 Teste de hipóteses

© bloomua / / Fotolia
O objetivo do teste de hipóteses é averiguar se determinada suposição, efetua-
da a partir das amostras, pode ser estendida à população. Ou seja, o teste utiliza dados
de uma amostra para verificar se determinada característica de uma população é ver-
dadeira e é elaborado a partir da definição dos seguintes elementos:
• definição do problema e hipóteses;
• determinação das regiões de aceitação;
• determinação da distribuição a ser utilizada;
• avaliação dos resultados dos testes pelo intervalo de confiança ou p-valor.
É importante ressaltar que tomaremos como exemplos apenas testes que en-
volvam a média da população. Justifica-se: esses testes empregam todos os funda-
mentos de testes de hipóteses e são mais facilmente demonstrados e compreendidos
empiricamente.

Para testes que envolvam outros parâmetros populacionais, recomendamos a leitura de


Análise Multivariada, de autoria de Corrar, Paulo e Dias Filho, e de Análise de Dados, de Fávero,
Belfiore, Silva e Chan.
Análise de Dados para Business Intelligence 82

3.1 Definição do problema e hipóteses


O teste de hipóteses inicia-se pela formulação de uma pergunta a respeito de
uma característica da população, cuja resposta admite apenas “Sim” ou “Não” – po-
rém, somente a partir de dados amostrais. Em seguida, devemos estabelecer as hipó-
teses que serão confirmadas (ou rejeitadas) por um determinado teste.
Uma hipótese, por sua vez, é uma suposição que pode ser provada (por exemplo,
por meio de testes) e que responderá à pergunta formulada anteriormente.
Formalmente, temos que estabelecer duas hipóteses para o problema:

Hipótese nula (H0): é a suposição que afirma que a


característica da população é igual à especificada na

© Aleksandr Bryliaev / / Fotolia. (Adaptado).


amostra. Devemos obter evidências que possam rejei-
tar essa hipótese, ou seja, se essas evidências não fo-
rem encontradas, a hipótese será aceita e a pergunta
inicial será respondida. Sempre deve ser estabeleci-
da a partir de uma igualdade simples (=), ou maior ou
igual (≥), ou ainda menor ou igual (≤).

Hipótese alternativa (H1): é a suposição alternativa


à hipótese nula, ou seja, afirma que determinada ca-
© Aleksandr Bryliaev / / Fotolia. (Adaptado).

racterística populacional é diferente daquela encon-


trada na amostra. Devemos obter evidências para que
seja aceita (ao contrário da H0, na qual as evidências
encontradas a rejeitam) e, encontrando-as, o proble-
ma inicial é respondido. Sempre é formulada a partir
de uma desigualdade (≠, > ou <).

Essas hipóteses, isoladamente, podem apresentar como resultado “verdadeiro”


ou “falso”, porém, se analisadas simultaneamente, são mutuamente excludentes. Isso
significa que se uma delas for verdadeira, a outra será falsa e que, ocorrendo uma, a
outra torna-se ausente. Vamos a alguns exemplos:
Análise de Dados para Business Intelligence 83

© Aleksandr Bryliaev / / Fotolia. (Adaptado).


Exemplo 1
O responsável pelo ajuste de máquinas que enchem
potes de um quilograma de suplementos alimentares
alega que os potes têm sido enchidos com 1,1 quilo-
grama de suplementos, em média. Como comprovar
isso?

H0: peso médio nos potes é de 1,1 quilograma, ou, H0: μ = 1,1 quilograma.
H1: peso médio nos potes é diferente de 1,1 quilograma, ou, H1: μ ≠ 1,1 quilograma.
É uma situação óbvia, em que buscamos apenas comprovar que os potes verifica-
dos não contêm 1,1 quilo de suplemento. Se não conseguirmos provar essa situação,
H0 será aceita como verdadeira.

© Aleksandr Bryliaev / / Fotolia. (Adaptado).


Exemplo 2
Um gerente de uma empresa de cartões de crédito
alega que os clientes que pagam em dia demoram, em
média, até quatro dias para pagar a fatura após o re-
cebimento. Isso é verdade?

H0: quantidade média de dias para pagamento é menor ou igual (“até”) a 4, ou,
H0: μ ≤ 4 dias.
H1: quantidade média de dias para pagamento é maior que (que é o contrário de ser
menor ou igual) 4, ou, H1: μ > 4 dias.
Essa situação é emblemática, porque, na prática, H 0 é formulada da seguinte ma-
neira: H 0: μ = 4 dias, mesmo que valores menores que 4 sejam aceitos como verdadeiros.
Como isso pode ser correto? É a típica situação na qual vamos buscar evidências não para
rejeitar H 0, mas sim para comprovar H1. No caso de não as encontrarmos, aceitamos H 0
como resposta ao nosso problema, ou seja, quaisquer quantidades de dias contrárias a ser
maiores que 4 são, obviamente, menores ou iguais a 4 dias.
Análise de Dados para Business Intelligence 84

© Aleksandr Bryliaev / / Fotolia. (Adaptado).


Exemplo 3
Um diretor comercial de uma concessionária de veícu-
los afirma que o novo modelo de carro popular faz, em
média, pelo menos 18 quilômetros por litro de com-
bustível. Como averiguar?

H 0: quantidade de quilômetros percorridos com 1 litro de combustível é maior ou igual


(“pelo menos”) a 18, ou, H 0: μ ≥ 18 quilômetros.
H1: quantidade de quilômetros percorridos com 1 litro de combustível é menor que
(contrário de ser maior ou igual) 18, ou, H1: μ < 18 quilômetros.
Trata-se da mesma situação do segundo exemplo. Na prática, definimos H 0: μ = 18
quilômetros e buscamos evidências que nos levem a aceitar H1. Na hipótese de não
as encontrarmos, tomamos H 0 como verdadeira, ou seja, a quilometragem percorrida
com 1 litro de combustível é, de fato, maior ou igual a 18.
De maneira geral, a ideia básica de qualquer teste de hipóteses é estabelecer cri-
térios para distinguir entre diferenças reais e casuais existentes na amostra.

3.2 Testes mono e bicaudais


Uma vez formuladas as hipóteses do problema original, temos que determinar
como os dados da amostra se distribuem para, assim, podermos compará-los com os
dados da população e assumir que os dados da amostra, de fato, são provenientes (ou
não) da população.
Nesse sentido, grande importância é dada à distribuição normal, visto que suas
propriedades são essenciais para os fundamentos da estatística inferencial – da qual os
testes de hipóteses fazem parte. Graficamente, a distribuição normal apresenta uma
curva em forma de sino, cujos dados se distribuem simetricamente em relação à mé-
dia, conforme a figura a seguir:
Análise de Dados para Business Intelligence 85

Distribuição normal

Design Gráfico: Thiago Sihvenger


–3 –2 –1 0 1 2 3
– 3σ – 2σ – 1σ μ 1σ 2σ 3σ
68%
95,5%
99,7%
Fonte: BRUNI, 2011. (Adaptado).

A distribuição mostrada na figura é chamada de distribuição normal padronizada,


por apresentar média igual a 0 (μ = 0) e desvio-padrão igual a 1 (σ = 1). A distribuição
normal padronizada possui algumas propriedades amplamente utilizadas nos testes de
hipóteses:
• Em torno da média, encontra-se uma grande concentração de valores que vão
se dispersando na direção das caudas.
• Cerca de 68% de seus valores estão concentrados no intervalo formado por
um desvio-padrão em cada lado da média, 95,5% no intervalo de dois desvios-
-padrão e 99,7% dentro de três desvios-padrão.
• A área total sob a curva, a partir de seu menor valor até o maior, corresponde a
1, representando 100% da probabilidade de uma variável aleatória estar entre
estes valores.
• Apesar disso, a curva não toca no eixo das abscissas.
Essas características fazem com que seja possível calcularmos a área formada en-
tre um intervalo desejado, ou seja, a probabilidade de ocorrência de um valor entre
dois outros fornecidos, conforme a equação a seguir:
Análise de Dados para Business Intelligence 86

Design Gráfico: Juliano Henrique


(x – µ) 2
Ls 1 –
P (Li < x < Ls ) = ∫ e 2σ
2

Li σ√2π

Sendo:
Li = limite inferior
Ls = limite superior
x = variável normalmente distribuída
P(Li < x < Ls ) = probabilidade de a variável x encontrar-se dentro do intervalo de Li e Ls
μ = média
σ = desvio-padrão

Pela equação, evidentemente, entraríamos no cálculo de integrais para encontrar-


mos a solução. Porém, com o uso de tabelas padronizadas, as operações matemáticas
envolvidas são consideravelmente mais simples, substituindo o uso de médias e desvios-
-padrão distintos pela variável padronizada Z, que representa o afastamento, em des-
vios-padrão, de uma variável x em relação à media μ, conforme equação a seguir:

x–µ
Z=
σ
Design Gráfico: Juliano Henrique

Sendo:
Z = afastamento em desvios-padrão e representa a curva normal padronizada
x = variável distribuída normalmente
μ = média
σ = desvio-padrão
Quais são as aplicações desses conceitos? Vamos a um exemplo.
Uma indústria produz chapas de aço que, em média, apresentam 150 mm de espes-
sura, com desvio-padrão de 20 mm. Partindo do princípio de que a espessura das chapas
se distribui normalmente, qual a probabilidade de uma chapa retirada ao acaso apresen-
tar entre 150 mm e 190 mm?
Primeiramente, vamos visualizar os dados do problema no gráfico apresentado
na figura a seguir:
Análise de Dados para Business Intelligence 87

Espessura de chapas

Design Gráfico: Thiago Sihvenger


150 190

Pela figura, é óbvio que chapas com a espessura máxima de 190 mm se afastam
dos desvios-padrão (de 20 mm cada) da média de 150 mm. O cálculo de Z, evidente-
mente, confirma a observação:
Z=?
x = 190
μ = 150
σ = 20

Z=
σ
Design Gráfico: Juliano Henrique

190 – 150
Z=
20
Z= 2

Voltemos à pergunta do problema: qual a probabilidade de uma chapa retirada ao


acaso apresentar entre 150 mm e 190 mm? Utilizando tabelas padronizadas – no caso
específico, a tabela padronizada Z – esse cálculo é facilitado utilizando o quadro a se-
guir (BRUNI, 2011, p. 387):
Análise de Dados para Business Intelligence 88

A Tabela Z foi criada por Moivre, em 1733, e descreve uma série de fenômenos físicos e natu-
rais, descritos pelos parâmetros média e desvio-padrão. É muito utilizada em estatística infe-
rencial e encontrada na maioria dos livros de introdução à estatística, podendo ser gerada em
planilhas eletrônicas.

Área a partir do número de desvios-padrão


Z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0 0 0,004 0,008 0,012 0,016 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
... ... ... ... ... ... ... ... ... ... ...
2 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,483 0,4834 0,4838 0,4842 0,4846 0,485 0,4854 0,4857
... ... ... ... ... ... ... ... ... ... ...
Fonte: BRUNI, 2011, p. 387. (Adaptado).

Passo 1: Calcula-se o valor de z. No exemplo z = 2.


Passo 2: Particiona-se o valor obtido de z em duas partes:
a. Até a primeira casa decimal. No exemplo, 2,0.
b. Casas centesimais. Ne exemplo, 0,00.
Passo 3: Localiza-se o valor do passo 2 (a) na primeira coluna da tabela Z.
Passo 4: Localiza-se o valor do passo 2 (b) na primeira linha da tabela Z.
Passo 5: A interseção da linha e da coluna indica a probabilidade. No exemplo,
0,4772 (47,72% de probabilidade).
Assim, podemos afirmar que a probabilidade de uma chapa retirada ao acaso
apresentar entre 150 mm e 190 mm é de 0,4772, ou 47,72%. Ou seja, exatamente a
metade da área formada por dois desvios-padrão a partir da média (47,72%), conforme
característica de uma distribuição normal mostrada na figura que representa a espes-
sura das chapas.
Vamos exercitar o teste monocaudal: Imaginemos que, mantendo os mesmos pa-
râmetros de média e desvio-padrão, agora seja necessário obter a probabilidade de uma
chapa ter entre 125 mm e 165 mm. Vamos visualizar a área total que desejamos obter:
Análise de Dados para Business Intelligence 89

Áreas acima e abaixo da média

Design Gráfico: Thiago Sihvenger


125 150 165

Nesse caso, teremos que somar as áreas de 125 mm a 150 mm e de 150 mm a


165 mm.

Z=? x–μ Z=? x–μ


Z= σ Z= σ
x = 125 x = 165
μ = 150 125 – 150 μ = 150 165 – 150
Z= 20 Z= 20
σ = 20 σ = 20

Z = – 1,25 Z = 0,75
© evgeniya_m / / Fotolia. (Adaptado).
Design Gráfico: Thiago Sihvenger
Análise de Dados para Business Intelligence 90

Ou seja, do lado esquerdo da média (por isso, o sinal negativo no número de des-
vios-padrão), temos 1,25 desvio-padrão, o que corresponde à área de 0,3944 (empre-
gando-se a Tabela Z a primeira coluna indica o valor 1.2 e a primeira linha indica o valor
0,05. Você pode consultar a tabela Z ao final do capítulo), e, do lado direito, 0,75 des-
vio-padrão, equivalente à área de 0,2734 (também empregando-se a Tabela Z). Dessa
forma, a probabilidade de uma chapa medir entre 125 mm a 165 mm é de 66,77%
(0,3944 + 0,2734).
Agora, vamos supor que desejemos obter a probabilidade de uma chapa retirada
ao acaso ter sua espessura superior a 190 mm, conforme a figura a seguir:

Área acima de 190 mm

Design Gráfico: Thiago Sihvenger

150 190

É simples. Como da direita da média aos valores mais extremos temos uma área
de 50%, ou 0,5 (é característico da distribuição normal que a área formada pelos va-
lores mais extremos de ambos os lados da média seja 1, ou 100%), basta calcularmos
a área da média de 150 mm até 190 mm. Esse cálculo já foi realizado anteriormente
e seu resultado é de 0,4772. Portanto, ao subtrairmos esse valor da área total de 0,5
(que nada mais é do que o que se vê do valor central até o valor padronizado), teremos
como resultado 2,28% (0,5 – 0,4772 = 0,0228).
Mas qual a importância desses conceitos para o teste de hipóteses? Ora, as hi-
póteses levantadas irão determinar se os testes devem ser aplicados em uma ou nas
duas caudas da distribuição de frequência empregada. Ou seja, basta calcularmos as
áreas de aceitação (ou rejeição) das hipóteses para verificarmos se os resultados dos
testes empregados se encontram nas áreas obtidas. Nesse sentido, os testes de hipó-
teses podem ser monocaudais ou bicaudais.
Análise de Dados para Business Intelligence 91

Um teste monocaudal é aquele aplicado em apenas uma cauda da distribuição.


Ocorre quando a H 0 é especificada com os símbolos ≤ ou ≥. O exemplo 2 da seção an-
terior ilustra essa questão. Vejamos novamente:
Um gerente de uma empresa de cartões de crédito alega que os clientes que pa-
gam em dia demoram, em média, até quatro dias para pagar a fatura, após o recebi-
mento. Isso é verdade?

H0: μ < = 4 dias.


H1: μ > 4 dias.

Perceba que, nesse problema, estamos interessados em confirmar o pagamento


em somente uma direção, ou seja, 4 dias, 3 dias, 2 dias ou 1 dia – o pagamento em 5, 6, 7,
até a data do vencimento, não confirmaria a suposição do gerente.
Graficamente, temos esta situação expressa na figura a seguir:

Teste monocaudal

Design Gráfico: Thiago Sihvenger

1 2 3 4 5 6 7
Análise de Dados para Business Intelligence 92

Já um teste bicaudal é aplicado em ambas as caudas da distribuição. Ocorre


quando a H1 é especificada com o símbolo ≠. O exemplo 1, da seção anterior, apresen-
ta um teste bicaudal:
O responsável pelo ajuste de máquinas que enchem potes de um quilograma de su-
plementos alimentares alega que esses potes têm sido cheios com 1,1 quilograma de suple-
mentos, em média. Como comprovar isso?
H 0: μ = 1,1 quilograma.
H1: μ ≠ 1,1 quilograma.
Note que qualquer valor menor ou maior que 1,1 quilogramas irá fazer com que
rejeitemos a hipótese nula (H 0) – segunda a qual só aceitaríamos o valor 1,1 quilogra-
mas como válido para a suposição do responsável. A figura a seguir mostra as áreas de
rejeição da hipótese nula:
Teste bicaudal

Design Gráfico: Thiago Sihvenger

0,8 0,9 1,0 1,1 1,2 1,3 1,4

Uma vez definidas as hipóteses e, consequentemente, as áreas da distribuição


que serão testadas (caudas), o próximo passo é verificar os parâmetros de que dis-
pomos da população para, a partir da amostra, realizarmos inferências sobre essa
população.
Análise de Dados para Business Intelligence 93

3.3 Distribuições Z e t
Antes de abordarmos, especificamente, as distribuições Z e t, vamos enten-
der o que é uma distribuição amostral. Quando estamos analisando um parâmetro
(por exemplo, a média) extraído de uma amostra, temos que levar em consideração
que o valor desse parâmetro pode não ser necessariamente igual ao valor do mesmo
parâmetro da população. Por outro lado, à medida que aumentarmos o tamanho da
amostra, esta irá distribuir-se conforme a distribuição da população. Além disso, se a
amostra tiver um número elevado de elementos, ela irá se distribuir de forma aproxi-
madamente normal, conforme a equação a seguir:

Design Gráfico: Juliano Henrique


σ
σx =
√n

Sendo:
σx = desvio-padrão das médias amostrais
σ = desvio-padrão da população
n = tamanho da amostra
Dessa forma, é óbvio que a média das médias das amostras terá um valor mui-
to próximo à média da população. Porém, é preciso considerar que esse “muito próxi-
mo” carrega certa imprecisão. Logo, para deduzirmos o valor da média da população
a partir da amostra, teremos de considerar essa imprecisão, chamada de erro inferen-
cial. Esse erro é fornecido, portanto, pelo desvio-padrão das médias amostrais e pelo
intervalo de confiança presumido (pois, como estamos trabalhando com amostras – e
não com a totalidade da população –, nunca teremos certeza do resultado). O inter-
valo de confiança é obtido por meio da área sob a curva normal que o representa. Por
exemplo, se desejarmos um intervalo de confiança de 95% de que os resultados este-
jam corretos, a área sob a curva normal terá a forma mostrada na figura a seguir:
Análise de Dados para Business Intelligence 94

Intervalo de confiança de 95%

Design Gráfico: Thiago Sihvenger


47,5% 47,5%

Liminf μ Limsup

Ou seja, para um intervalo de confiança de 95%, basta obtermos as áreas de


47,5% de cada lado da média, visto que, por ser uma distribuição normal, os interva-
los são simétricos em relação à média. As áreas podem ser obtidas por meio da Tabela
Z (BRUNI, 2011, p. 387), que apresenta as áreas entre a média e o valor desejado.
Para um intervalo de confiança de 95% (ou um nível de significância de 5%, conhecido
por α), basta procurar pela linha e coluna o mais próximo a 0,4750 na Tabela Z, confor-
me a figura a seguir:

Busca da área correspondente na Tabela Z


Z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0 0 0,004 0,008 0,012 0,016 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
... ... ... ... ... ... ... ... ... ... ...
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
... ... ... ... ... ... ... ... ... ... ...
Fonte: BRUNI, 2011, p. 387. (Adaptado).
Análise de Dados para Business Intelligence 95

O valor é de 1,96 (1,9 da linha, mais 0,06 da coluna). O que isso, de fato, signifi-
ca? Na verdade, é o fator de ajuste (ou probabilidade de acerto) de nossa estimativa a
ser aplicado para a obtenção da média populacional a partir dos valores conhecidos do
desvio-padrão da população, de acordo com a equação a seguir:

Design Gráfico: Juliano Henrique


σ
µ = x +– z
√n

Sendo:
μ = média populacional
x = média amostral
z = valor Z
σ = desvio-padrão da população
n = tamanho da amostra
Vamos mostrar uma aplicação das distribuições Z e t a partir do exemplo
seguinte.
Em uma inspeção de rotina, o auditor da qualidade de uma indústria de material
escolar retirou uma amostra de 30 lápis da produção de um dia. Verificou-se que os lá-
pis dessa amostra apresentaram um comprimento médio de 16,2 cm. Sabe-se que o
desvio-padrão do processo de produção, que se distribui normalmente, tem apresen-
tado 1,21 cm. Nessas condições, com um intervalo de confiança de 90%, quantos cen-
tímetros de comprimento, em média, o auditor da qualidade pode esperar que os lápis
produzidos pela indústria tenham?
O primeiro passo é encontrar o valor Z. Um intervalo de confiança de 90% indica
45% na tabela Z (ou 0,45) para cada lado da área a partir da média. Esse valor, portan-
to, é de 1,65 (BRUNI, 2011, p. 387). Assim, temos os seguintes valores:
μ=?
x = 16,2
z = 1,65
σ = 1,21
n = 30
Análise de Dados para Business Intelligence 96

A solução, portanto, é óbvia:

Design Gráfico: Juliano Henrique


– 1,21
µ = 16,2 +1,65
√30

Assim, com 90% de segurança, o auditor pode esperar que os lápis produzidos te-
nham, em média, entre 15,84 e 16,56 cm. Mas e se o auditor desejasse ficar mais se-
guro ainda, optando por um intervalo de confiança de 95% (z = 1,96)? Como deveria
proceder?

Design Gráfico: Juliano Henrique


1,21
µ = 16,2 –+1,92
√30

Aumentando o intervalo de confiança, o auditor obtém uma faixa maior de com-


primento médio, variando de 15,78 a 16,62 cm. Como explicar isso? Ora, com o primei-
ro intervalo de confiança de 90% (mais relaxado do que o segundo, de 95%), a faixa
ficou entre 15,84 e 16,56 cm, porém, o auditor deve esperar que a cada 100 observa-
ções, 10 venham com valores fora dessa faixa. Já com um intervalo de confiança maior,
ele pode esperar que, a cada 100 observações, apenas 5 estejam fora da faixa – eviden-
temente que, para ter tamanha certeza, a faixa das médias dos comprimentos deve ser
maior.
Até o momento, vimos que é fundamental que tenhamos o valor do desvio-pa-
drão da população para, a partir da média amostral, determinar a média da população
com certa segurança. No entanto, esse é um parâmetro que nem sempre está a nossa
disposição, o que nos leva à pergunta: como proceder nesses casos? Como resposta,
poderíamos afirmar: empregando a distribuição t.
A distribuição t é semelhante à distribuição normal, exceto pelo fato de apresen-
tar caudas mais largas – o que significa a possibilidade de trabalharmos com valores
mais extremos do que aqueles empregados na normal. Enquanto a distribuição normal
independe do tamanho da amostra (mas necessita da média e desvio-padrão), a distri-
buição t utiliza justamente esse parâmetro (dispensando média e desvio-padrão), tra-
balhando apenas com o tamanho da amostra. Apesar disso, quanto maior a amostra,
mais próxima essa distribuição estará da distribuição normal.
Análise de Dados para Business Intelligence 97

Na distribuição t, o tamanho da amostra é utilizado para se obterem os graus de


liberdade que denotam o número de combinações possíveis com a quantidade de ele-
mentos da amostra, fornecido pela seguinte equação:

gl = n – 1
Design Gráfico: Juliano Henrique

Sendo:
gl = graus de liberdade
n = tamanho da amostra
Vamos supor que desejemos combinar dois a dois, ao acaso e sem repetição, os
elementos A, B e C. Teremos liberdade de compor quantas combinações? Se escolher-
mos ao acaso A e B (combinação 1), e A e C (combinação 2), só restará combinarmos,
obrigatoriamente, B e C. Para a última combinação, não teremos liberdade de escolha
– daí graus de liberdade significarem todos os elementos da amostra, menos um deles.
Cabe ressaltar que, em uma amostra, sua definição dá-se pela média, desvio-padrão e
outros parâmetros. Portanto, definida a média, já restam n-1 parâmetros a serem con-
siderados como incógnitas, por isso, gl = n-1.
Da mesma forma que na distribuição Z, além dos graus de liberdade, também ne-
cessitamos estabelecer o intervalo de confiança com que desejamos trabalhar para
estimar a média da população a partir de uma amostra. Vale ressaltar que essa popu-
lação deve ser distribuída normalmente, ainda que não saibamos seu desvio-padrão. A
equação empregada é apresentada a seguir:

µ= x +– t s
√n
Design Gráfico: Juliano Henrique

Sendo:
μ = média populacional
x = média amostral
t = valor t
s = desvio-padrão da amostra
n = tamanho da amostra
Análise de Dados para Business Intelligence 98

O valor t é encontrado por meio da tabela de distribuição t, conforme apresen-


tado por Bruni (2011, p. 388), a partir do intervalo de confiança desejado – mono
ou bicaudal – e os graus de liberdade. A figura a seguir mostra o valor t correspon-
dente, a partir de um teste bicaudal, para uma amostra de 6 elementos (portanto, 5
graus de liberdade) e 95% de intervalo de confiança (portanto, 5% ou 0,05 de nível de
significância):

Busca da área correspondente na Tabela t


Teste bicaudal
liberdade
Graus de

30% 20% 10% 5% 4% 2% 1% 0,2% 0,1%


Teste unicaudal
15% 10% 5% 2,5% 2% 1% 0,5% 0,1% 0,05%
1 1,9626 3,0777 6,3137 12,7062 15,8945 31,8210 63,6559 318,2888 636,5776
2 1,3862 1,8856 2,9200 4,3027 4,8487 6,9645 9,9250 22,3285 31,5998
3 1,2498 1,6377 2,3534 3,1824 3,4819 4,5407 5,8408 10,2143 12,9244
4 1,1896 1,5332 2,1318 2,7765 2,9985 3,7469 4,6041 7,1729 8,6101
5 1,1558 1,4759 2,0150 2,5706 2,7565 3,3649 4,0321 5,8935 6,8685
Fonte: BRUNI, 2011, p. 388. (Adaptado).

Perceba que as equações empregadas para estimar a média da população apre-


sentam formato semelhante. Porém, uma é ajustada pelo valor Z (quando conhe-
cemos o desvio-padrão da população ou quando o tamanho da amostra é maior
do que 30) e outra pelo valor t (quando desconhecemos o desvio-padrão da popula-
ção). Imaginemos uma situação em que desejemos um intervalo de confiança de 95%
(para ambos os casos) em testes bicaudais. Para esse nível, compare todos os valores
da Tabela Z e da Tabela t (BRUNI, 2011, p. 387-388). Por que os valores na Tabela t,
em todos os casos, são maiores que os da Tabela Z? A resposta é simples: os valores
da Tabela t são maiores pelo fato de desconhecermos o desvio-padrão da população.
Nesse caso, necessitaremos de uma margem mais elástica para a faixa de valores em-
pregada para estimarmos a média. Já o fato de conhecermos o desvio-padrão da po-
pulação nos dá maior segurança quanto à média, ou seja, a faixa de valores estimada
será menor. Por essa razão, o valor Z é menor.
Para entendermos melhor essa situação, vamos empregar o exemplo anterior
com algumas modificações.
Em uma inspeção de rotina, o auditor de qualidade de uma indústria de material
escolar retirou uma amostra de 30 lápis da produção de 1 dia. Verificou-se que os lápis
dessa amostra apresentaram um comprimento médio de 16,2 cm, com desvio-padrão
Análise de Dados para Business Intelligence 99

de 1,21 cm. Nessas condições, com um intervalo de confiança de 90%, quantos centí-
metros, em média, o auditor da qualidade pode esperar que os lápis produzidos pela
indústria tenham de comprimento?
Note que, nesse exemplo, o desvio-padrão não é do processo de produção, mas
sim daquelas amostras. Os dados do problema, portanto, são os seguintes:
μ=?
x = 16,2
t = 1,6991
s = 1,21
n = 30

Busca da área correspondente na Tabela t


Teste bicaudal
liberdade
Graus de

30% 20% 10% 5% 4% 2% 1% 0,2% 0,1%


Teste unicaudal
15% 10% 5% 2,5% 2% 1% 0,5% 0,1% 0,05%
1 1,9626 3,0777 6,3137 12,7062 15,8945 31,8210 63,6559 318,2888 636,5776
2 1,3862 1,8856 2,9200 4,3027 4,8487 6,9645 9,9250 22,3285 31,5998
... ... ... ... ... ... ... ... ... ...
29 1,0553 1,3114 1,6991 2,0452 2,1503 2,4620 2,7564 3,3963 3,6595
30 1,0547 1,3104 1,6973 2,0423 2,1470 2,4573 2,7500 3,3852 3,6460
... ... ... ... ... ... ... ... ... ...
Fonte: BRUNI, 2011, p. 388. (Adaptado).

Aplicando os dados à equação mostrada anteriormente:

µ= x +– t s , temos
Design Gráfico: Juliano Henrique

√n
µ = 16,2 +– 1,6991 1,21
√30

Os resultados mostram que, nessa situação, o auditor deve esperar que os lápis
produzidos tenham, em média, de 15,82 a 16,58 cm. Vamos supor agora que o auditor
deseje um intervalo de confiança maior, de 95%. Qual seria a média do comprimento
dos lápis produzidos nessa condição?
Análise de Dados para Business Intelligence 100

Design Gráfico: Juliano Henrique


1,21
µ = 16,2 +– 2,0452
√30

Os resultados indicam que a média do comprimento dos lápis deve variar de 15,75
a 16,65 cm, ou seja, da mesma forma como mostrado na distribuição Z. Aumentando o
intervalo de confiança, temos que esperar também uma faixa mais abrangente. Vamos
fazer outra experiência: retornemos o intervalo de confiança para 90%, porém supo-
nhamos que os dados da média e desvio-padrão amostral tenham sido extraídos de
uma amostra com somente 2 lápis. Nessas condições, qual será a faixa de valores que
representam a média do comprimento dos lápis produzidos pela indústria?

Design Gráfico: Juliano Henrique


µ = 16,2 +– 6,3138 1,21
√2

Ou seja, a média irá variar de 10,80 a 21,26 cm (mais que o dobro!). Como explicar
esse resultado? Ora, com apenas 2 lápis de amostra, não é possível arriscar que toda a
produção terá o comprimento desses lápis. A faixa de valores, naturalmente, será mais
elástica ainda. E o contrário também é verdadeiro: à medida que aumentarmos o nú-
mero de amostras, menor será a faixa, pois a população estará sendo cada vez mais
adequadamente representada pelas amostras.
Apesar disso, devemos nos perguntar: quanto podemos confiar nas estimativas
das médias populacionais obtidas? Para nos certificarmos dos resultados, empregamos
algumas técnicas, entre elas, os valores críticos e os p-valores.

3.4 Valores críticos, p-valores e erros


Uma das formas de se verificar a confiabilidade de um teste estatístico é compa-
rar seu resultado com um valor teórico crítico, como os valores z e t, por exemplo. Para
que isso seja possível, devemos transformar o resultado do teste em um valor de mes-
ma natureza da distribuição teórica.
A aplicação do valor crítico em testes estatísticos depende de três variáveis: ta-
manho da amostra, distribuição da população e desvio-padrão, conforme exemplo
mostrado na figura a seguir:
Análise de Dados para Business Intelligence 101

Escolha de procedimentos
n > 30?
sim não

σé né
conhecido? normal?
não sim

sim não σé
conhecido?

não sim

Design Gráfico: Thiago Sihvenger


x– – μ x– – μ aumente o x– – μ x– – μ
zt = zt = tamanho da tt = tt =
σ s s σ
√n √n amostra para √n √n
n ≥ 30

Fonte: BRUNI, 2011, p. 215.

A figura apresenta testes para determinação da média da população, a partir da


amostra:
zt = estatística-teste com distribuição Z
t t = estatística-teste com distribuição t
μ = média populacional
x = média amostral
n = tamanho da amostra
s = desvio-padrão da amostra
σ = desvio-padrão da população
Vamos a um exemplo.

Um analista de marketing tem segmentado os clientes de uma empresa que comerciali-


za roupas para atividades físicas. Ele efetuou um levantamento e verificou que, na cidade
onde essa empresa atua, existem clientes com três perfis distintos de consumo mensal dos
produtos: A, que compram, em média, R$ 1.684,00; B, R$ 1.078,00; C, R$ 534,00. Porém,
os vendedores afirmaram que esse consumo mensal tem caído, principalmente, no grupo
A. Preocupado com a situação, o analista solicitou uma pesquisa com os clientes do referi-
do grupo, para saber o quanto cada pesquisado consumiu no último mês. Após alguns dias,
chegaram resultados de 25 consumidores. A média de consumo desses consumidores foi de
R$ 1.588,00, com um desvio-padrão de R$ 233,00 e distribuição normal. É possível afirmar
que esses dados vieram da população A?
Análise de Dados para Business Intelligence 102

Vamos resolver esse problema de maneira formal.


Passo 1: Definir a hipótese nula e a alternativa. Como a hipótese nula sempre indica a
igualdade e a alternativa indica que a característica populacional é diferente daquela
encontrada na amostra, temos a seguinte configuração:
H0: μ = 1.684
H1: μ ≠ 1.684
Passo 2: Escolher o teste indicado. Como temos a amostra com 25 respondentes, com
distribuição normal, mas não temos a informação sobre o desvio-padrão da popula-
ção, iremos empregar o seguinte teste:

Design Gráfico: Juliano Henrique


x– – µ
tt = s
√n

Assim, temos:
μ = 1.684
x = 1.588
n = 25
s = 233

1588 – 1684
tt =
Design Gráfico: Juliano Henrique

233
√25
tt = – 2,060

Passo 3: Definir o intervalo de confiança. Vamos empregar 95% (ou seja, o nível de
significância é 5%). Além disso, como empregaremos a distribuição t, também preci-
samos dos graus de liberdade – como temos um n de 25, os graus de liberdade são 24
(gl = n – 1).
Passo 4: Buscar os valores críticos na tabela de distribuição t. Nesse passo, temos que
saber se empregamos um teste mono ou bicaudal. Como a H1 consiste em ser diferen-
te de 1.684, podemos encontrar tanto valores maiores como menores. Assim, o teste é
bicaudal.
Análise de Dados para Business Intelligence 103

Busca da área correspondente na Tabela t


Teste bicaudal
liberdade
Graus de

30% 20% 10% 5% 4% 2% 1% 0,2% 0,1%

Teste unicaudal

15% 10% 5% 2,5% 2% 1% 0,5% 0,1% 0,05%

1 1,9626 3,0777 6,3137 12,7062 15,8945 31,8210 63,6559 318,2888 636,5776

2 1,3862 1,8856 2,9200 4,3027 4,8487 6,9645 9,9250 22,3285 31,5998

... ... ... ... ... ... ... ... ... ...

24 1,0593 1,3178 1,7109 2,0639 2,1715 2,4922 2,7970 3,4668 3,7454

25 1,0584 1,3163 1,7081 2,0595 2,1666 2,4851 2,7874 3,4502 3,7251

... ... ... ... ... ... ... ... ... ...

Fonte: BRUNI, 2011, p. 388. (Adaptado).

Passo 5: Verificar se o resultado do teste se encontra na região de aceitação ou rejei-


ção de H 0, conforme mostrado na figura a seguir:

Regiões de aceitação e rejeição

Design Gráfico: Thiago Sihvenger

-2,0639 2,0639
-2,060
Rejeito H0 Aceito H0 Rejeito H0
Análise de Dados para Business Intelligence 104

Como o valor do teste (–2,060) se encontra entre os valores críticos (–2,0639 e


2,0639), o analista deve aceitar a hipótese (H0) de que os respondentes pertencem à clas-
se de consumo A. Ou seja, se forem realizadas mais pesquisas com consumidores desse
grupo e com resultados semelhantes, é possível afirmar que, de fato, reduziu-se o dispên-
dio no grupo A.
Vamos a um exemplo de teste monocaudal:
Um operador logístico tem garantido aos seus clientes que as entregas para de-
terminada região não ultrapassam 6 dias, com desvio-padrão de 2 dias. Porém alguns
de seus clientes têm refutado essa afirmação, alegando prejuízos com entregas efe-
tuadas acima desse prazo e, por esse motivo, querem revisão nos valores do contra-
to e multas por atrasos. Com o objetivo de rever os contratos com base em dados, o
operador levantou 230 comprovantes de recebimento de volumes entre os clientes da-
quela região. Após tabular os dados, verificou que o prazo médio de entregas foi de 9
dias. Isso o preocupou, pois caso a média tivesse sido menor que 6 dias, os dados da
amostra estariam condizentes com o prazo de entrega estipulado. Por outro lado, essa
diferença entre a média informada e a média observada pode ser considerada tão sig-
nificativa, a ponto de os contratos serem reavaliados, com um intervalo de confiança
de 96%?
Vamos à solução:
Passo 1: Definir a hipótese nula e a alternativa:
H0: μ ≤ 6, formalmente, como H0 define sempre a igualdade, a representamos como
H0: μ = 6
H1: μ > 6
Passo 2: Escolher o teste indicado. Como temos uma amostra com 230 dados e conhe-
cemos o desvio-padrão da população, iremos empregar o seguinte teste:
Design Gráfico: Juliano Henrique

x– – µ
Zt = σ
√n
Análise de Dados para Business Intelligence 105

Assim, temos:
μ=6
x=9
n = 230
σ=2

9–6
Zt = 2

Design Gráfico: Juliano Henrique


√230
Zt = 22,749

Passo 3: Buscar os valores críticos na tabela de distribuição Z. Como o intervalo de


confiança é de 96%, a área de aceitação da H0 é 46%, ou 0,46, conforme visualizado
na figura a seguir:

Área de aceitação

Aceito H0 Aceito H0
Design Gráfico: Thiago Sihvenger

Rejeito H0
50% 46% 4%
Análise de Dados para Business Intelligence 106

Temos, portanto, que buscar na Tabela Z a linha e coluna correspondentes ao va-


lor mais próximo de 0,46, mostrado na figura a seguir:

Busca da área correspondente na Tabela Z


Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 2,1894 2,3278 2,5176 2,8314

1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545

1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633

1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706

1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767

Fonte: BRUNI, 2011, p. 388. (Adaptado).

O valor Z encontrado é 1,75.


Passo 4: Verificar se o resultado do teste se encontra na região de aceitação ou rejei-
ção de H 0, conforme mostrado na figura a seguir:

Regiões de aceitação e rejeição

Design Gráfico: Thiago Sihvenger

22,749

1,75
Aceito H0 Rejeito H0
Análise de Dados para Business Intelligence 107

Como o valor do teste (22,749) se encontra além do valor crítico 1,75, rejeita-se
a hipótese nula de que o prazo de entrega seja igual a 6 dias, ou seja, de fato, as en-
tregas têm demorado mais do que o operador tem prometido. Outra forma de acei-
tarmos (ou rejeitarmos) uma hipótese é por meio do cálculo do p-valor, que nada mais
é do que a probabilidade exata de o teste apresentar um valor igual ou maior do que
aquele observado na amostra, admitindo-se que a hipótese nula seja verdadeira. O
p-valor pode ser obtido a partir de uma das formas mostradas para testes z e t, confor-
me podemos observar a seguir:

Cálculo do p-valor
Teste Condição Monocaudal Bicaudal

x≥μ P(z t ≥ zc) 2 x P(z t ≥ zc)


Z
x≤μ P(z t ≤ zc) 2 x P(z t ≤ zc)

x≥μ P(t t ≥ tc) 2 x P(t t ≥ tc)


t
x≤μ P(t t ≤ tc) 2 x P(t t ≤ tc)

Sendo que P é a probabilidade de a condição ser verdadeira.


O teste de hipóteses com o uso do p-valor requer que sejam efetuados seis
passos:

01 Definir a hipótese nula e a alternativa.

02 Determinar se o teste é mono ou bicaudal.

03 Escolher o nível de significância.

04 Calcular a estatística-teste.

05 Calcular o p-valor.
© Regio Eligo / / Fotolia. (Adaptado).
Design Gráfico: Thiago Sihvenger

Comparar o p-valor com o nível de signifi-


cância: se o p-valor for menor que o nível
06 de significância, então rejeitar H0; se o valor
for maior ou igual ao nível de significância,
então, aceitar H0.
Análise de Dados para Business Intelligence 108

Vamos a um exemplo.
O fornecedor de máquinas que embalam frangos congelados tem garantido que
suas máquinas devem ser reajustadas a, pelo menos, cada lote de 1360 embalagens,
com um desvio-padrão de 4 embalagens. O encarregado de manutenção foi informa-
do por um de seus mecânicos de que as máquinas têm sofrido ajustes antes da quanti-
dade garantida pelo fornecedor. Para dirimir essa dúvida, o encarregado solicitou que,
nas próximas 20 paradas, fosse anotada a quantidade embalada até aquele momento.
Depois de certo tempo, o mecânico retornou com a média obtida após as 20 paradas:
1.358. Menos, portanto, do que o garantido pelo fornecedor. Com um intervalo de con-
fiança de 95%, baseado nos dados obtidos, o encarregado deve aceitar que as máqui-
nas estão aquém do desempenho garantido pelo fabricante?
Passo 1: Definir a hipótese nula e a alternativa:
H0: μ ≥ 1.360 formalmente, como H0 define sempre a igualdade, representando-a
como:
H0: μ = 1.360
H1: μ < 1.360
Passo 2: Determinar se o teste é mono ou bicaudal. Como qualquer valor maior ou
igual a 1.360 torna válida a afirmação do fabricante, o teste é monocaudal.
Passo 3: Escolher o nível de significância. Como o encarregado deseja 95% de segu-
rança quanto ao resultado, o nível de significância é de 0,05 (1 – 95/100).
Passo 4: Calcular a estatística-teste. Como a amostra é maior do que 30 e o desvio po-
pulacional é conhecido, optamos pela seguinte equação:

x= – µ
Zt = σ
√n
1358 – 1360
Zt =
4
Design Gráfico: Juliano Henrique

√50
Zt = – 2,236
Análise de Dados para Business Intelligence 109

Passo 5: Calcular o p-valor. Como o teste é monocaudal e procuramos pela situação


de a média amostral (x) ser maior ou igual à média popu­lacional (μ), temos de obter
a probabilidade de zt ≥ zc. Nesse sentido, o p-valor será 1 – a área sobre a distribuição
normal do zt, ou seja, 0,987 –, conforme Bruni (2011, p. 387).

Passo 6: Comparar o p-valor com o nível de significância. Como o p-valor (0,987) é


maior do que o nível de significância (0,05), aceitamos a hipótese nula de que a amos-
tra veio de uma população com média de 1.360 embalagens, conforme mostrado na fi-
gura a seguir:

Resultado p-valor monocaudal

Design Gráfico: Thiago Sihvenger

0,05 0,987

Rejeito H0 Aceito H0

Nessas condições, aceitar a H0 implica dizer que a amostra que continha uma mé-
dia de 1.358 embalagens a cada parada ocorreu de forma aleatória e, assim, não é sufi-
ciente para desqualificar a afirmação do fabricante das máquinas.
Vamos a um exemplo de testes de hipóteses empregando o p-valor nas duas cau-
das da distribuição.
Um gerente de produção de uma fábrica de calçados tem se preocupado com
dois fatores que ocorrem na linha de produção, na fase de costura de um determinado
modelo. Se o processo é acelerado, formam-se estoques indesejados no final da linha.
Por outro lado, o processo não pode ser demasiadamente atrasado. Para otimizá-lo, o
gerente reuniu-se com os encarregados da linha de produção em análise (costura), da
Análise de Dados para Business Intelligence 110

linha de produção que a antecede (julgando que esta deve manter certo equilíbrio en-
tre a quantidade de itens a serem processados pela linha subsequente e sua capaci-
dade de processamento) e da predecessora (que experimenta semelhante problema,
vindo da linha de costura). Depois de várias sugestões, chegou-se à conclusão de que
a linha de costura deveria manter uma velocidade de processo tal que, a cada hora,
gerasse um estoque intermediário de 7 pares de calçados – que é a capacidade máxi-
ma de produção da linha subsequente. Menos que isso torna a própria linha de costura
ociosa. Com base nesse consenso, o gerente de produção resolveu testar a solução du-
rante 36 horas, coletando, a cada hora, a quantidade de pares de calçados formados.
Após o período de testes, verificou-se que a média foi de 8 pares, com desvio-padrão
de 2 pares. Com base nesses dados e com um intervalo de confiança de 99%, é possí-
vel afirmar que o processo de costura está ajustado de acordo com o padrão desejado?
Vamos à solução:
Passo 1: Definir a hipótese nula e a alternativa:
H0: μ = 7
H1: μ ≠ 7
Passo 2: Determinar se o teste é mono ou bicaudal. Como qualquer valor menor ou
maior que 7 torna inválida a afirmação de que o processo está ajustado, o teste terá
que levar em consideração as duas caudas, ou seja, é bicaudal.
Passo 3: Escolher o nível de significância. Como o encarregado deseja 99% de segu-
rança quanto ao resultado, o nível de significância é de 0,01 (1 – 99/100).
Passo 4: Calcular a estatística-teste. Apesar de a amostra ser maior do que 30, desco-
nhecemos o desvio-padrão da população, porém, como temos o desvio da amostra,
optamos pela seguinte equação:

x– – µ
tt = s
√n
8–7
tt =
2
Design Gráfico: Juliano Henrique

√36
tt = – 3,0000
Análise de Dados para Business Intelligence 111

Passo 5: Calcular o p-valor: Como o teste é bicaudal e procuramos pela situação


de a média amostral (x ) ser maior ou menor à média populacional (μ), temos de ob-
ter a probabilidade de 2 × (t t ≥ tc). Nesse sentido, a área sobre a distribuição t será de
0,0049. Assim sendo, o p-valor será 2 × 0,0049 = 0,0098.
Passo 6: Comparar o p-valor com o nível de significância. Como o p-valor (0,0098) é
menor do que o nível de significância (0,01), rejeitamos a hipótese nula de que a amos-
tra veio de uma população com média de 7 pares de calçados, conforme mostrado na
figura a seguir:

Resultado p-valor bicaudal

Design Gráfico: Thiago Sihvenger


-2,0639 2,0639
-2,060
Rejeito H0 Aceito H0 Rejeito H0

Rejeitar a H0 significa aceitar que o processo não se encontra ajustado para a for-
mação de estoques de 7 pares a cada hora.
Até então, temos trabalhado com amostras e com probabilidades de que elas se-
jam representativas da população de onde foram extraídas. Justamente por esses fa-
tos (amostra e probabilidade), as conclusões apresentadas pelos testes podem estar
erradas quando rejeitamos uma hipótese que, de fato, é verdadeira (portanto, não po-
deria ter sido rejeitada), ou quando aceitamos uma hipótese falsa. No primeiro caso,
temos um erro do tipo I e, no segundo, um erro do tipo II, conforme mostrado na figu-
ra a seguir:
Análise de Dados para Business Intelligence 112

Tipos de erros
Se H 0 é

Verdadeira Falsa

Aceitar H 0 Erro tipo I Decisão correta Erro tipo II


Ação
Rejeitar H 0 Erro tipo I Decisão correta

Fonte: BRUNI, 2011, p. 224. (Adaptado).

A probabilidade de ocorrência de um erro do tipo I é chamada de α e a do tipo II


chama-se β. Conforme visualizado na figura "Tipos de erros", as probabilidades são in-
versas, ou seja, β = 1 – α. Quando empregamos testes de hipóteses, nossa expectati-
va é minimizar a ocorrência de erros de quaisquer tipos. A única forma de diminuirmos
a probabilidade de erros é com o aumento da amostra – o que, muitas vezes, não está
ao nosso alcance, portanto, temos que assumir a possibilidade de estarmos incorrendo
em um desses erros.
Este capítulo apresentou a importância do devido tratamento estatístico de da-
dos de contextos empresariais e fez isso a partir da determinação formal de problemas e
respectivas hipóteses que os respondem – hipóteses que devem ser comprovadas ou re-
jeitadas por testes. Grande parte desses testes envolve o uso da distribuição normal de
probabilidades. Vimos a importância de determinar as áreas da distribuição normal que
representam o problema, bem com o emprego das distribuições Z e t.
Finalmente, o capítulo apresentou formas alternativas de verificar a confiabilidade
do resultado de um teste estatístico, seja pelos seus valores críticos ou p-valores. Porém,
como se trata de testes efetuados sob uma amostra, sempre é possível que o resulta-
do apresente erros quando estendido à população, exigindo observação cuidadosa para
evitá-los.
Análise de Dados para Business Intelligence 113

Tabela de distribuição normal Z


z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0 0 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,195 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,291 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,492 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,494 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
3,1 0,999 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
Fonte:
Análise de Dados para Business Intelligence 114

Tabela de distribuição t - Student


Teste bicaudal
Graus de 30% 20% 10% 5% 4% 2% 1% 0,2% 0,1%
liberdade Teste unicaudal
15% 10% 5% 2,5% 2% 1% 0,5% 0,1% 0,05%
1 1,9626 3,0777 6,3137 12,7062 15,8945 31,8210 63,6559 318,2888 636,5776
2 1,3862 1,8856 2,9200 4,3027 4,8487 6,9645 9,9250 22,3285 31,5998
3 1,2498 1,6377 2,3534 3,1824 3,4819 4,5407 5,8408 10,2143 12,9244
4 1,1896 1,5332 2,1318 2,7765 2,9985 3,7469 4,6041 7,1729 8,6101
5 1,1558 1,4759 2,0150 2,5706 2,7565 3,3649 4,0321 5,8935 6,8685
6 1,1342 1,4398 1,9432 2,4469 2,6122 3,1427 3,7074 5,2075 5,9587
7 1,1192 1,4149 1,8946 2,3646 2,5168 2,9979 3,4995 4,7853 5,4081
8 1,1081 1,3968 1,8595 2,3060 2,4490 2,8965 3,3554 4,5008 5,0414
9 1,0997 1,3830 1,8331 2,2622 2,3984 2,8214 3,2498 4,2969 4,7809
10 1,0931 1,3722 1,8125 2,2281 2,3593 2,7638 3,1693 4,1437 4,5868
11 1,0877 1,3634 1,7959 2,2010 2,3281 2,7181 3,1058 4,0248 4,4369
12 1,0832 1,3562 1,7823 2,1788 2,3027 2,6810 3,0545 3,9296 4,3178
13 1,0795 1,3502 1,7709 2,1604 2,2816 2,6503 3,0123 3,8520 4,2209
14 1,0763 1,3450 1,7613 2,1448 2,2638 2,6245 2,9768 3,7874 4,1403
15 1,0735 1,3406 1,7531 2,1315 2,2485 2,6025 2,9467 3,7329 4,0728
16 1,0711 1,3368 1,7459 2,1199 2,2354 2,5835 2,9208 3,6861 4,0149
17 1,0690 1,3334 1,7396 2,1098 2,2238 2,5669 2,8982 3,6458 3,9651
18 1,0672 1,3304 1,7341 2,1009 2,2137 2,5524 2,8784 3,6105 3,9217
19 1,0655 1,3277 1,7291 2,0930 2,2047 2,5395 2,8609 3,5793 3,8833
20 1,0640 1,3253 1,7247 2,0860 2,1967 2,5280 2,8453 3,5518 3,8496
21 1,0627 1,3232 1,7207 2,0796 2,1894 2,5176 2,8314 3,5271 3,8193
22 1,0614 1,3212 1,7171 2,0739 2,1829 2,5083 2,8188 3,5050 3,7922
23 1,0603 1,3195 1,7139 2,0687 2,1770 2,4999 2,8073 3,4850 3,7676
24 1,0593 1,3178 1,7109 2,0639 2,1715 2,4922 2,7970 3,4668 3,7454
25 1,0584 1,3163 1,7081 2,0595 2,1666 2,4851 2,7874 3,4502 3,7251
26 1,0575 1,3150 1,7056 2,0555 2,1620 2,4786 2,7787 3,4350 3,7067
27 1,0567 1,3137 1,7033 2,0518 2,1578 2,4727 2,7707 3,4210 3,6895
28 1,0560 1,3125 1,7011 2,0484 2,1539 2,4671 2,7633 3,4082 3,6739
29 1,0553 1,3114 1,6991 2,0452 2,1503 2,4620 2,7564 3,3963 3,6595
30 1,0547 1,3104 1,6973 2,0423 2,1470 2,4573 2,7500 3,3852 3,6460
35 1,0520 1,3062 1,6896 2,0301 2,1332 2,4377 2,7238 3,3400 3,5911
40 1,0500 1,3031 1,6839 2,0211 2,1229 2,4233 2,7045 3,3069 3,5510
50 1,0473 1,2987 1,6759 2,0086 2,1087 2,4033 2,6778 3,2614 3,4960
60 1,0455 1,2958 1,6706 2,0003 2,0994 2,3901 2,6603 3,2317 3,4602
120 1,0409 1,2886 1,6576 1,9799 2,0763 2,3578 2,6174 3,1595 3,3734
>120 1,0364 1,2816 1,6449 1,9600 2,0537 2,3264 2,5758 3,0902 3,2905

Fonte:
Análise de Dados para Business Intelligence 115

Referências
BRUNI, A. L. Estatística Aplicada à Gestão Empresarial. 3. ed. São Paulo: Atlas, 2011.
CORRAR, L. J.; PAULO, E.; DIAS FILHO, J. M. Análise Multivariada. São Paulo: Atlas, 2007.
FÁVERO, L. P. L. et al. Análise de Dados. Rio de Janeiro: Elsevier, 2009.
LAPPONI, J. C. Estatística Usando Excel. São Paulo: Lapponi Treinamento e Editora,
2000.
LATTIN, J.; CARROLL, J. D.; GREEN, P. E. Análise de Dados Multivariados. Rio de Janeiro:
Cengage Learning, 2011.
4 Análise de regressão
O objetivo da análise de regressão é expressar a relação entre duas ou mais va-
riáveis por meio de função matemática. Com o uso dessa técnica, podemos dimensio-
nar o impacto de determinado indicador no resultado esperado, por exemplo: quanto
se pode esperar de faturamento se aumentarmos em 10% nossa força de vendas?
Este capítulo, portanto, abordará inicialmente os pressupostos básicos da análi-
se de regressão, identificando as condições necessárias para o emprego dessa técnica.
Será abordado, também, o teste de correlação para verificar se as variáveis apresen-
tam relação entre si. Em seguida, serão apresentados os modelos de regressão linear
simples, múltipla e não linear e, por fim, desenvolveremos algumas aplicações.

© aleutie / / Fotolia

4.1 Elementos básicos


Primeiramente, é importante definir quais são os elementos básicos de uma aná-
lise de regressão. Em sua representação mais simples, temos duas variáveis envolvidas,
y (conhecida como variável dependente) e x (também chamada de variável independente).
Nesse modelo, considera-se que mudanças nos valores de x causem alterações nos va-
lores de y. Ou seja, y depende de x. A variável y é aquela cujos resultados são desconhe-
cidos, ao passo que, na variável x, os valores são conhecidos (controlados). Por meio da
análise de regressão, portanto, ao definirmos os valores de x, teremos os resultados es-
perados em y. Alguns exemplos:
Análise de Dados para Business Intelligence 118

• T
axa de mortalidade infantil e renda per capita de uma região: a taxa de
mortalidade é certamente a variável y que sabemos ser dependente da
renda per capita (portanto, variável x). Não podemos controlar (ao menos,
diretamente) a taxa de mortalidade, mas sabemos que, se a região tiver
aumento na renda per capita, isso certamente terá um impacto na taxa de
mortalidade.
• Número de vendedores externos e faturamento: certamente, a variável
faturamento é a dependente, condicionada ao número de vendedores
(independente). Em uma situação hipotética, ao aumentarmos o número
de vendedores (variável que controlamos), o faturamento será aumenta-

© thekaikoro / / Fotolia. (Adaptado).


do (quanto maior o número de vendedores externos, maior a quantidade
de vendas e, portanto, maior o faturamento).
• H
oras de estudo e nota da prova: a nota da prova é certamente dependen-
te do número de horas de estudo. Quanto mais estudarmos, maior será a
nota da prova.

A relação entre as variáveis dependente e independente pode ser modelada tanto


matemática como estatisticamente. Por ser um modelo matemático, trata de estabe-
lecer uma relação do tipo:
Design Gráfico: Juliano Henrique

y = f(x)
Ou do tipo:
y = a + bx

Sendo:
y = variável dependente (que desejamos estimar).
x = variável independente (cujos valores são conhecidos).
a = intercepto, ou o valor assumido por y quando x for igual a 0.
b = coeficiente angular, que mede o aumento (ou redução) em y, para cada unida-
de aumentada (ou reduzida) em x.
Análise de Dados para Business Intelligence 119

Graficamente, uma regressão simples modelada matematicamente assume a se-


guinte forma:

Modelo matemático da regressão simples

y
10
9
8
7
6 y –y 7–5
b = x2 – x 1 = 2 – 1 = 2
5 2 1
4

Design Gráfico: Juliano Henrique


3 a= 3
2
1
0 x
0 0,5 1 1,5 2 2,5 3 3,5

Fonte: CORRAR; THEÓPHILO, 2004, p. 78. (Adaptado).

Na figura, é possível perceber que o modelo que representa a regressão é dada


por uma equação de uma reta, sendo a o ponto onde a reta se origina no eixo y e b a
inclinação da reta obtida a partir da variação de y em relação a x. Dessa forma, é possí-
vel afirmar que os valores de y estão diretamente relacionados aos valores de x.
Já estatisticamente, o objetivo do modelo de regressão é determinar não o mo-
delo exato (como o modelo matemático), mas aquele que melhor se ajusta aos dados,
incorporando o erro à equação:
Juliano Henrique
Design Gráfico:

y = a + bx + ε

Sendo:
ε = erro das estimativas
O modelo estatístico pode ser representado como na figura a seguir:
Análise de Dados para Business Intelligence 120

Modelo estatístico da regressão simples


y
12

10 } e4
8
}e2 } e3
6
} e1
4

Design Gráfico: Juliano Henrique


0 x
0 0,5 1 1,5 2 2,5 3 3,5

e1 e2 e3 e4

Fonte: BRUNI, 2011, p. 267. (Adaptado).

Na abordagem estatística da regressão, o modelo busca minimizar os erros (por


meio da soma de seus quadrados) entre os dados observados e uma reta representada
pela equação de regressão.

4.2 Correlação
O primeiro passo na análise de regressão é verificar se, de fato, existe relação en-
tre os dados. Para isso, utilizamos a análise de correlação, que estabelece um valor
numérico que representa a intensidade da relação entre as variáveis dependentes e
independentes.
Inicialmente, devemos determinar o coeficiente de correlação (ou rho de Pearson)
no caso de o cálculo ser realizado na população e de r se o cálculo for realizado na
amostra. Ambos os casos medem tanto o grau de correlação entre duas variáveis
como a direção dessa relação, conforme vemos na equação a seguir:
Juliano Henrique
Design Gráfico:

n Σ xy – Σx Σy
r=
√n Σ x2 – (Σ x)2 x √nΣy2 – (Σy)2
Análise de Dados para Business Intelligence 121

Sendo:
r = coeficiente de correlação.
n = número de casos.
x = variável independente.
y = variável dependente.
O coeficiente de correlação irá fornecer um valor situado entre –1 e +1, que pode
ser interpretado da seguinte forma:

• Valores próximos a +1: indicam forte


relação entre as variáveis dependente e
independente, sendo que o sinal sugere que essa
relação é diretamente proporcional, ou seja,
aumentando o valor da variável independente, o
valor da variável dependente será também
aumentado.
• Valores próximos a –1: também indicam forte
relação entre as variáveis, porém o sinal
negativo representa que a relação é
inversamente proporcional, ou seja, à medida
que a variável independente é aumentada, a
variável dependente é decrescida
proporcionalmente.
© vilnarobotav3d / / Fotolia. (Adaptado).

• Valores próximos a zero: indicam que a


Design Gráfico: Juliano Henrique

relação entre as variáveis é fraca (e, nesses


casos, devemos perguntar-nos: “vale a pena
prosseguir com a análise?”).
Análise de Dados para Business Intelligence 122

Vamos a um exemplo.
Uma cooperativa agroindustrial está passando por um processo de reestrutura-
ção organizacional e os diretores de vendas e de finanças estão discutindo o aumento
de vendas e redução de custos. O diretor de vendas argumenta que devem ser libe-
rados mais recursos financeiros para abastecimento dos veículos dos vendedores, que
rodariam mais e, consequentemente, realizariam mais vendas. Por sua vez, o diretor fi-
nanceiro insiste na redução de custos e sugere justamente reduzir o fornecimento de
combustível para os vendedores, pois ele acredita que o fato de rodarem mais com os
veículos não tem trazido tantas vendas assim, além de impactar nas finanças da coo-
perativa. Para resolver o impasse, um dos consultores solicitou uma planilha com as re-
ceitas mensais de vendas e as despesas com combustíveis de vendedores. A tabela a
seguir mostra esses valores:

Vendas X Abastecimento
Mês Vendas* Combustíveis

Janeiro 78.945,19 4.827,26

Fevereiro 51.186,66 6.134,32

Março 96.090,96 8.982,58

Abril 42.384,04 2.070,38

Maio 69.751,40 2.585,85

Junho 28.306,32 9.456,07

Julho 35.423,07 5.007,31

Agosto 52.367,15 7.029,41

Setembro 36.840,97 1.766,04

Outubro 21.446,18 1.178,19


* Valores totais divididos por 1.000

Com os dados à disposição, como resolver essa questão? Quem tem razão?
Como desejamos descobrir a existência de relação entre as variáveis (no caso,
vendas e combustíveis), o coeficiente de correlação é a técnica indicada. Vamos a ela:
Passo 1: Identificar quem é x e quem é y, lembrando que y sempre será a variá-
vel que é definida em função de x. Assim, devemos nos perguntar se as receitas com
vendas são determinadas em função das despesas com combustíveis ou se as despesas
com combustíveis são determinadas em função das receitas com vendas. Tomando a
primeira questão como correta, então, vendas será y e combustíveis x.
Análise de Dados para Business Intelligence 123

Passo 2: Obter os dados da fórmula do coeficiente de correlação:

Vendas (y) Combustíveis (x) xy x2 y2

78.945,19 4.827,26 381.088.957,88 23.302.439 6.232.343.024,14

51.186,66 6.134,32 313.995.352,17 37.629.881 2.620.074.161,96

96.090,96 8.982,58 863.144.735,48 80.686.743 9.233.472.593,72

42.384,04 2.070,38 87.751.068,74 4.286.473,34 1.796.406.846,72

69.751,40 2.585,85 180.366.657,69 6.686.620,22 4.865.257.801,96

28.306,32 9.456,07 267.666.543,36 89.417.259,84 801.247.751,94

35.423,07 5.007,31 177.374.292,64 25.073.153 1.254.793.888,22

52.367,15 7.029,41 368.110.167,88 49.412.604 2.742.318.399,12

36.840,97 1.766,04 65.062.626,66 3.118.897,28 1.357.257.070,54

21.446,18 1.178,19 25.267.674,81 1.388.131,68 459.938.636,59

Passo 3: Obter os totais de cada coluna:


n = 10
∑x = 49.037,37
∑y = 512.741,89
∑xy = 2.729.828.077,31
∑x 2 = 321.002.205,18
∑y2 = 31.363.110.174,92

Passo 4: Aplicar os totais na fórmula:

n Σ xy – Σx Σy
r=
√n Σ x – (Σ x)2 x √nΣy2 – (Σy)2
2
Design Gráfico: Juliano Henrique

10 × 2.729.828.077,31 – (49.037,37 × 512.741,89)


r=
10 × 321.002.205,18 – 49.037,372 × 10 × 31.363.110.174,92 – 512.741,892
r = 0,3371

Passo 5: Interpretar o resultado. O resultado do coeficiente de correlação (r) indi-


ca não haver significativa relação entre vendas e despesas com combustível, visto que
o valor de r se encontra mais próximo a 0 do que a 1.
Análise de Dados para Business Intelligence 124

Outro indicador facilmente obtido a partir do coeficiente de correlação (r) é o


coeficiente de determinação (r2), que, como a própria representação indica, é obtido
a partir do quadrado do coeficiente de correlação. Ao multiplicar o r2 por 100, explica-
mos a variação percentual da variável dependente em função da variável independen-
te. No exemplo anterior, elevando-se o r ao quadrado e multiplicando o resultado por
100 (0,33712 × 100), obtemos 11,36%. O que isso significa? Significa que somente
11,36% da variação nas vendas são explicados pela variação nas despesas com com-
bustível, ou seja, 88,64% são explicados por outros fatores que não o combustível.
Vamos implementar uma planilha eletrônica com os dados do problema, confor-
me figura a seguir:

Planilha de vendas X Abastecimento

No exemplo mostrado, o coeficiente de correlação não foi expressivo a ponto de


indicar que uma análise de regressão iria trazer maiores informações. Caso esse coefi-
ciente tivesse apresentado valores próximos a –1 ou +1, o próximo passo seria efetuar a
própria análise de regressão.

4.3 Regressão linear simples


Na regressão linear simples, partimos do princípio de que apenas uma variável
(independente) apresenta efeito sobre outra (dependente), o que é comprovado pelo
coeficiente de correlação. Nesse caso, a análise de regressão permite que o analista
determine a “força” do impacto da variável independente sobre a variável dependente.
Mais do que isso, possibilita estimar o resultado da variável dependente a partir do va-
lor conhecido da variável independente.
Análise de Dados para Business Intelligence 125

Partindo da equação y = a + bx + ε, mostrada na seção 4.1, pelo método dos


mínimos quadrados, é possível estimar uma reta de regressão com as seguintes
características:
• a soma do quadrado dos erros é a menor encontrada em relação a quaisquer
outras retas;
• a soma algébrica dos desvios dos pontos obtida entre o valor da ordenada
(amostra) e o valor correspondente da ordenada estimada é zero;
• a reta estimada passa pela média dos pares dos pontos da amostra.
Para ajustar a reta aos pontos, basta determinarmos os valores de b e a, confor-
me equações a seguir:

Design Gráfico: Juliano Henrique


Σy – bΣx
a=
n
nΣxy – Σx Σy
b=
nΣx2 – (Σx)2

Sendo:
b = coeficiente angular
n = número de casos
x = variável independente
y = variável dependente
a = coeficiente linear (intercepto)
O exemplo a seguir demonstra a aplicação da regressão linear simples.
Uma rede de livrarias com atuação em várias cidades do país deseja abrir nova fi-
lial. Com base em estudos realizados pela rede, verificou-se que livrarias situadas em
regiões com maior renda per capita apresentam melhor desempenho de vendas. A pri-
meira localidade escolhida pela rede apresenta uma renda per capita, estimada, de
R$ 1.838,00. Assim, a partir dos dados coletados, qual deve ser o faturamento estima-
do da livraria nessa região?
Análise de Dados para Business Intelligence 126

Vendas de livros X Renda per capita


Cidade Vendas* Renda per capita**
Brasília 21,58 14,04
Campinas 13,16 11,81
Curitiba 17,55 12,73
Florianópolis 26,65 15,53
Lajeado 9,12 9,88
Niterói 29,05 17
Porto Alegre 23,61 14,31
Rio de Janeiro 16,01 12,04
São Paulo 12,19 11,8
Vinhedo 18,21 13,51
Vitória 25,12 14,98

* Média anual dividida por 100.000


** Média anual dividida por 100

Inicialmente, vamos utilizar os mesmos passos empregados na obtenção do coe-


ficiente de correlação.
Passo 1: Identificar quem é x e quem é y, sendo y a variável que desejamos deter-
minar, ou seja, vendas. Logo, x será renda per capita.
Passo 2: Obter os dados da fórmula do coeficiente de correlação:
Cidade Vendas (y) Renda (x) xy x2 y2
Brasília 21,58 14,04 302,9832 197,1216 465,6964
Campinas 13,16 11,81 155,4196 139,4761 173,1856
Curitiba 17,55 12,73 223,4115 162,0529 308,0025
Florianópolis 26,65 15,53 413,8745 241,1809 710,2225
Lajeado 9,12 9,88 90,1056 97,6144 83,1744
Niterói 29,05 17,00 493,85 289 843,9025
Porto Alegre 23,61 14,31 337,8591 204,7761 557,4321
Rio de Janeiro 16,01 12,04 192,7604 144,9616 256,3201
São Paulo 12,19 11,80 143,842 139,24 148,5961
Vinhedo 18,21 13,51 246,0171 182,5201 331,6041
Vitória 25,12 14,98 376,2976 224,4004 631,0144
∑ 212,25 147,63 2.976,42 2.022,34 4.509,15

Passo 3: Obter os totais de cada coluna:


n = 11
∑x = 147,63
∑y = 212,25
∑xy = 2.976,42
∑x 2 = 2.022,34
∑y2 = 4.509,15
Análise de Dados para Business Intelligence 127

O coeficiente de correlação está sendo calculado para sabermos se, de fato, a


renda per capita possui relação com as vendas.
Passo 3: Aplicar os totais na fórmula do coeficiente de correlação:

n Σ xy – Σx Σy
r=
√n Σ x – (Σ x)2 x √nΣy2 – (Σy)2
2

Design Gráfico: Juliano Henrique


11 × 2.976,42 – (147,63 × 212,25)
r=
11 × 2.022,34 – 147,632 × 11 × 4.509,15 – 212,252
r = 0,9814

Passo 4: Interpretar o resultado. Como r apresentou um valor bastante próximo a


+1, isso indica que as vendas apresentam uma relação diretamente proporcional à ren-
da per capita. Ao elevarmos o r ao quadrado (obtendo o coeficiente de determinação)
e multiplicarmos por 100, vemos que somente a variação da renda per capita explica
96,31% da variação das vendas. São resultados significativos, o que justifica o empre-
go da análise de regressão para estimar as vendas.
Passo 5: Temos que encontrar os valores de a e b, cujos elementos já foram obti-
dos no passo 2:

n Σ xy – Σx Σy
Design Gráfico: Juliano Henrique

b=
n Σ x2 – (Σ x)2
11 x 2976,42 – (147,63 x 212,25)
b=
11 x 2022,34 – 147,632
b = 3,1167

Aplicando esse valor na equação mostrada anteriormente, temos:

Σy – bΣx
Design Gráfico: Juliano Henrique

a=
n
212,25 – 3,12 x 147,63
a=
11
a = – 22,5336
Análise de Dados para Business Intelligence 128

Passo 6: Definir a equação que irá determinar as vendas em função da renda per
capita:

Design Gráfico: Juliano Henrique


y = a + bx
y = – 22,53 + 3,12x

Sendo y as vendas e x a renda per capita. Assim, a livraria instalada em uma região
de renda per capita de R$ 1.838,00 deverá faturar algo em torno de R$ 3.475.148,80,
obtido a partir da equação encontrada:

Design Gráfico: Juliano Henrique


y = – 22,53 + 3,12x
y = – 22,53 + 3,12 x 18,38
y = 34,75

A figura a seguir mostra os pontos formados por cada par vendas versus renda
per capita e a reta da equação encontrada:

Reta de regressão

18,00
16,00
14,00
Renda per capita

12,00
10,00
8,00
6,00
4,00
Design Gráfico: Juliano Henrique

2,00
0,00
0,00 5,00 10,00 15,00 20,00 25,00 30,00 35,00
Vendas

Perceba que a reta não passa por todos os pontos. Existe uma diferença entre as
coordenadas de cada ponto oriundo dos dados e as coordenadas de cada ponto plota-
do na reta. Chamamos essas diferenças de erro. Esse erro pode ter sido causado por ou-
tros elementos que também explicam o comportamento das vendas, mas que não foram
considerados. Por essa razão, temos de nos certificar de que os valores de a e b, de fato,
são suficientemente confiáveis para explicar a relação supostamente existente entre
vendas e renda per capita.
Análise de Dados para Business Intelligence 129

Assim, primeiramente, vamos calcular o erro-padrão das estimativas (Se), que re-
presenta a dispersão dos dados ao redor da reta, fornecido pela seguinte equação:

Juliano Henrique
Design Gráfico:
Σy2 – aΣy – b Σ xy
Se=
√ n–2

Sendo:
Se = erro-padrão das estimativas
a = coeficiente linear
b = coeficiente angular
n = número de casos
∑x = somatório dos valores da variável independente
∑y = somatório dos valores da variável dependente
∑xy = somatório dos produtos dos valores da variável dependente pela variável
independente
Vamos aplicar a fórmula aos dados do problema:

Σy2 – aΣy – b Σ xy
Se=
√ n–2
Design Gráfico: Juliano Henrique

4509,15 – ( – 22,53 x 212,25) – (3,12 x 2976,42)


Se=
√ 11 – 2

Se= 1,3027

O resultado (1,30) indica que o modelo encontrado (y = – 22,53 + 3,12x) apresen-


ta um erro de estimativa de R$ 130.271,38. É possível também (e desejável) calcular o
erro-padrão do coeficiente linear (Sa), pelos mesmos motivos que justificam o erro-pa-
drão das estimativas. A equação a seguir mostra os elementos necessários ao cálculo:
Juliano Henrique

x– 2
Design Gráfico:

1
Sa= Se + 2
√ n (n – 1) Sx
Análise de Dados para Business Intelligence 130

Sendo:
Sa = erro-padrão do coeficiente linear
Se = erro-padrão das estimativas
n = número de casos

x = média das variáveis independentes
Sx = desvio-padrão das variáveis independentes
Sendo a média da renda 14,1055, com desvio-padrão de 2,2581, vamos aplicar a
fórmula aos dados do problema:

1+ x– 2
Sa= Se

Design Gráfico: Juliano Henrique


2
√ n (n – 1) Sx
1 13,422
Sa= 1,30 +
√ 11 (11 – 1)2,0252
2

Sa= 2,7580

O resultado mostra um erro (aproximado) de 2,7580 no coeficiente linear estima-


do (a), cujo valor é de –22,5336. Teoricamente, indica a distância entre o coeficiente
linear estimado (a) e o coeficiente linear populacional (A). Quanto menor for essa dis-
tância, melhor será o valor estimado.
Uma vez que obtivemos o valor do erro-padrão do coeficiente linear (a), pode-
mos também determinar o erro-padrão do coeficiente angular (Sb), a partir da seguin-
te equação:
Juliano Henrique

Se
Design Gráfico:

Sb =
√(n – 1)Sx2

Sendo:
Sb = erro-padrão do coeficiente angular
Se = erro-padrão das estimativas
n = número de casos
Sx = desvio-padrão das variáveis independentes
Análise de Dados para Business Intelligence 131

Aplicando a fórmula aos dados analisados, temos que:

Se

Design Gráfico: Juliano Henrique


Sb =
√(n – 1)Sx2
1,30
Sb =
√(11 – 1)2,02522
Sb = 0,2034

Ou seja, o coeficiente angular estimado (b), 3,1167, apresenta um erro-padrão de


0,2034.
Finalmente, como estamos, na verdade, inferindo sobre os coeficientes, devemos
empregar os testes de hipóteses para nos assegurarmos da sua confiabilidade. Assim,
devemos primeiramente escolher uma distribuição de probabilidade que possa repre-
sentar o número de casos. No exemplo que estamos desenvolvendo, temos apenas 11
casos, ou seja, a distribuição mais indicada é a t.
A partir desses elementos, para o coeficiente linear (a), o intervalo de confiança
será obtido a partir da seguinte fórmula:
Juliano Henrique
Design Gráfico:

β0 = a +– t x Sa

Sendo:
β 0 = intervalo de confiança do coeficiente linear
a = coeficiente linear
t = distribuição t
Sa = erro-padrão do coeficiente linear
Como a equação requer a distribuição t, temos que estabelecer o intervalo de
confiança desejado e os graus de liberdade. Para o intervalo de confiança, vamos ado-
tar 95%, ou seja, o nível de significância será de 0,05. Os graus de liberdade são ob-
tidos a partir do número de casos. Como temos 11 cidades, o número de graus de
liberdade é 11 – 2 = 9. Consultando a tabela de distribuição t, para um teste binomial
com nível de significância de 0,05, com 9 graus de liberdade, obtemos o valor 2,2622,
conforme a figura a seguir:
Análise de Dados para Business Intelligence 132

Obtendo a distribuição t
bicaudal
Graus de liberdade

0,1 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01

monocaudal

0,05 0,045 0,04 0,035 0,03 0,025 0,02 0,015 0,01 0,005

6 1,9432 2,0192 2,1043 2,2011 2,3133 2,4469 2,6122 2,8289 3,1427 3,7074

7 1,8946 1,9662 2,0460 2,1365 2,2409 2,3646 2,5168 2,7146 2,9980 3,4995

8 1,8595 1,9280 2,0042 2,0902 2,1892 2,3060 2,4490 2,6338 2,8965 3,3554

9 1,8331 1,8992 1,9727 2,0554 2,1504 2,2622 2,3984 2,5738 2,8214 3,2498

10 1,8125 1,8768 1,9481 2,0283 2,1202 2,2281 2,3593 2,5275 2,7638 3,1693

Fonte: BRUNI, 2011, p. 388. (Adaptado).

De posse desse valor, basta aplicarmos na equação:

β0 = a +– t x Sa
Design Gráfico: Juliano Henrique

β0 = –22,53 –+ 2,2622 x 2,76


β0inferior = – 28,77
β0superior = – 16,29

O resultado nos mostra que o intervalo de confiança para o coeficiente linear va-
ria de –16,29 até –28,77. Para aplicar o teste de hipóteses, primeiramente, definimos
as seguintes hipóteses:
H 0: β 0 = 0 : O intervalo de confiança do coeficiente linear é igual a 0.
H1: β 0 ≠ 0 : O intervalo de confiança do coeficiente linear é diferente de 0.
A partir daí, basta calcular a estatística-teste e comparar o resultado com os valo-
res críticos obtidos, conforme equação a seguir:
Juliano Henrique

tt = a
Design Gráfico:

Sa
Análise de Dados para Business Intelligence 133

Sendo:
t t = estatística-teste
a = coeficiente linear
Sa = erro-padrão do coeficiente linear
Aplicando os dados à equação:

tt = a

Design Gráfico: Juliano Henrique


Sa
–22,53
tt =
2,76
tt = – 8,17

Devemos testar esse valor na área de aceitação da distribuição t, mostrada na fi-


gura a seguir:

Área de aceitação do erro-padrão do coeficiente linear

Design Gráfico: Juliano Henrique

a/2 a/2
Rejeito H0 Aceito H0 Rejeito H0
–28,77 16,29

Como t t é –8,17 e, portanto, encontra-se à direita de –16,29, rejeitamos a hipóte-


se de nulidade do intervalo de confiança do coeficiente linear, ou seja, com um nível de
confiança de 95%, aceitamos a hipótese de o coeficiente linear ser diferente de 0. Isso
leva a crer que o coeficiente linear (a) definido pela equação é aceitável, mostrando
utilidade na função de regressão linear obtida.
Análise de Dados para Business Intelligence 134

Esse procedimento também deve ser aplicado ao erro-padrão do coeficiente an-


gular (b). O intervalo de confiança para esse coeficiente é obtido a partir da seguinte
equação:

Juliano Henrique
Design Gráfico:
β = b +– t x Sb

Sendo:
β = intervalo de confiança do coeficiente angular
b = coeficiente angular
t = distribuição t
Sb = erro-padrão do coeficiente angular
Aplicando os dados à fórmula (novamente, com um nível de confiança de 95% e
graus de liberdade de 9), temos:

Design Gráfico: Juliano Henrique

β = 3,12 –/+ 2,2622 x 0,2034


βinferior = 2,6566
βsuperior = 3,5769

O intervalo de confiança para o coeficiente angular é de 2,66 a 3,58. Para aplicar


o teste de hipóteses, temos que defini-las:
H 0: β = 0 : O coeficiente angular é igual a 0.
H1: β ≠ 0 : O coeficiente angular é diferente de 0.
A partir daí, basta calcular a estatística-teste, a partir da seguinte equação:
Juliano Henrique
Design Gráfico:

tt = b
Sb

Sendo:
t t = estatística-teste
b = coeficiente angular
Sb = erro-padrão do coeficiente angular
Análise de Dados para Business Intelligence 135

Aplicando os dados, temos que:

tt = b

Design Gráfico: Juliano Henrique


Sb
3,1167
tt = 0,2034

tt = 15,3221

O valor da estatística-teste deve ser comparado ao intervalo de confiança, con-


forme mostrado na figura a seguir:

Área de aceitação do erro-padrão do coeficiente angular

a/2 Design Gráfico: Juliano Henrique


a/2
Rejeito H0 Aceito H0 Rejeito H0
3,58 2,66

O valor de tt é maior (15,3221) do que o limite superior da região de aceitação da


hipótese nula (3,58), o que nos leva a aceitar a hipótese de que o coeficiente angular não
é nulo. Portanto, conclui-se que a regressão ajustada é validada.
Em planilhas eletrônicas, a análise de regressão pode ser facilmente obtida de duas
formas: digitando as fórmulas ou utilizando suplementos de análise. Implementando as
fórmulas, inicialmente, temos que lançar os dados conforme mostrado na figura a seguir,
sendo que já é possível calcular os elementos necessários às equações:
Análise de Dados para Business Intelligence 136

Dados da regressão simples

Com os dados já calculados, basta digitar as fórmulas da análise, de acordo com a


figura a seguir:

Fórmulas da regressão simples

Em seguida, basta digitarmos as fórmulas para as estimativas dos coeficientes:

Estimativas dos coeficientes


Análise de Dados para Business Intelligence 137

Já para a segunda maneira de se obter a análise de regressão (utilizando suple-


mento de análise), algumas planilhas dispõem de um suplemento de análise de dados.
No caso do Microsoft Excel 2007®, esse suplemento, se instalado, encontra-se na aba
“Dados”. De qualquer forma, para utilizá-lo, devemos lançar os dados do problema,
sem a necessidade de fórmulas, e clicar no ícone “Análise de dados”, conforme mostra-
do na figura a seguir, e escolher a opção “Regressão”:

Dados para o uso do suplemento de análise


Análise de Dados para Business Intelligence 138

A seguir, devemos parametrizar os elementos necessários à análise:

Parâmetros de regressão

Temos que atentar, especialmente, para os seguintes campos:


• Intervalo Y de entrada: devemos informar o intervalo das células nas quais
estão digitados os valores de y, no caso, B1:B12, que representam as vendas.
Perceba que foi selecionado, inclusive, o título (rótulo) da coluna.
• Intervalo X de entrada: de maneira semelhante, tal campo foi preenchido com
o intervalo das células que contêm os valores de x (renda per capita), no caso,
células C1:C12, incluindo, também, o rótulo da coluna.
• Rótulos: como foram selecionados os rótulos das colunas, temos que informar
que as primeiras células de cada coluna representam os títulos e, portanto, não
serão empregadas na obtenção dos valores da regressão.
Análise de Dados para Business Intelligence 139

• Nível de confiança: o suplemento apresenta, por default, o valor de 95%. Caso


desejássemos outro valor, deveríamos marcar esse campo e digitar novo inter-
valo de confiança.
• Intervalo de saída: ao indicar a célula E1, informamos que os resultados serão
mostrados a partir dessa célula.
Clicando no botão "OK", os resultados são apresentados conforme mostrado na
figura a seguir:

Resultados da análise de regressão

Compare os resultados apresentados pelo suplemento e aqueles implementados


diretamente na planilha. Veja que, como não poderia ser de outra forma, existe total
correspondência entre eles, com exceção dos nomes associados aos resultados, con-
forme o quadro a seguir:
Análise de Dados para Business Intelligence 140

Correspondência entre nomes


Planilha Suplemento
R R múltiplo
r2 R-Quadrado
Se Erro-padrão
A Coeficientes X Intersecção
B Coeficientes X Renda
as Erro-padrão X Intersecção
Sb Erro-padrão X Renda
t t (Sa) Stat t X Intersecção
t t (Sb) Stat t X Renda
β 0 inferior 95% inferiores X Intersecção
β 0 superior 95% superiores X Intersecção
β inferior 95% inferiores X Renda
β superior 95% superiores X Renda

Existem outras formas de validação e uma delas é a ANOVA ou Análise de Variância. Para
saber mais sobre o tema, sugerimos a leitura do livro Pesquisa operacional, de L. J. Corrar e
C. R. Theóphilo e Use a cabeça! Análise de dados, de M. Milton.

4.4 Regressão múltipla e não linear


Uma vez que já compreendemos o mecanismo da regressão simples, vamos apli-
ca-lo à regressão múltipla. Nesse caso, temos mais de uma variável independente que
julgamos apresentarem (no conjunto) algum tipo de impacto sobre a variável depen-
dente. Isso pode ser expresso sob a forma da seguinte equação:
Juliano Henrique
Design Gráfico:

y = a+b1x1+ b2x2+ ... + bnxn+ ε

Sendo:
y = variável dependente (que desejamos estimar)
xi = variáveis independentes (cujos valores são conhecidos)
a = intercepto (coeficiente linear), ou o valor assumido por y quando x for igual a 0
bi = coeficientes angulares das variáveis independentes
ε = erro das estimativas
Análise de Dados para Business Intelligence 141

Vamos a um exemplo.
Um gerente de produção está preocupado com o número de itens descartados
em um processo de produção. Uma vez que a matéria-prima tem sempre sido entre-
gue pelo mesmo fornecedor, o gerente tem voltado suas atenções para elementos in-
ternos ao processo. A equipe montada para avaliar o problema chegou à conclusão de
que o aumento de itens descartados pode estar relacionado a um conjunto de fato-
res: o aumento nas horas extras (que o encarregado de pessoal afirma estar fadigando
os funcionários) e o número de horas despendidas na manutenção das máquinas (pois
o encarregado de manutenção supõe que algumas máquinas podem estar desajusta-
das em função do tempo transcorrido desde que foram efetuadas as últimas manu-
tenções). O gerente de produção, então, coletou todas as informações dos últimos 10
meses, conforme tabela a seguir:

Dados de produção
Mês Itens descartados Horas extras Horas de manutenção
1 340 30 26
2 384 60 23
3 452 90 19
4 540 180 13
5 601 210 10
6 368 80 26
7 273 70 31
8 476 50 16
9 568 160 12
10 590 200 11

Com base nesses dados, é possível afirmar que eles apresentam algum tipo de
impacto na quantidade de itens produzidos e descartados? Se sim, é possível estimar a
quantidade de itens que serão descartados em função das horas extras, treinamento e
manutenção de máquinas?
O problema proposto é um legítimo exemplo de aplicação de regressão linear múl-
tipla e, como tal, é importante verificar se todos os pressupostos para esse tipo de análi-
se estão atendidos (CORRAR; THEÓPHILO, 2004). A partir daí, basta obter os valores da
análise de regressão: coeficientes de correlação e determinação, coeficientes das variá-
veis independentes e a verificação da validade dos coeficientes obtidos. Antes, é interes-
sante verificar se a quantidade de produtos descartados apresenta relações isoladas com
o número de horas extras e com a quantidade de horas de manutenção. Para isso, temos
que obter os coeficientes de correlação (r) e de determinação (r2) de cada par de dados.
Análise de Dados para Business Intelligence 142

Além disso, em regressão múltipla, é imprescindível que as variáveis independen-


tes sejam, de fato, independentes entre si. Quando as variáveis independentes apresen-
tam alta correlação entre si, são chamadas de colineares. Nessa situação, elas fornecerão
informações muito semelhantes ao explicarem a variável dependente, o que torna difícil
a identificação do efeito individual de cada uma. Uma das formas de constatar a presen-
ça de colinearidade entre as variáveis independentes é o fator de influência da variância
(FIV), cuja equação é mostrada a seguir: 

Juliano Henrique
Design Gráfico:
FIVk= 1 2
1 – rk

Sendo:
k = número de pares de variáveis independentes
FIVk = fator de influência da variância do par k
rk2 = coeficiente de determinação do par k
A proximidade do resultado do FIVk a 1 indica a ausência de colinearidade; exce-
dendo a 10, indica a alta presença de colinearidade.
Vamos lançar os dados e as fórmulas dos coeficientes de correlação, determina-
ção e FIVk, conforme visualizado na figura a seguir:

Correlações

As fórmulas empregadas para implementar o cálculo do r, r2 e FIVk são mostradas


a seguir:

Fórmulas dos coeficientes e FIVk


Análise de Dados para Business Intelligence 143

O que esses resultados nos informam?


Ambos os coeficientes de correlação mostram que, isoladamente, tanto o núme-
ro de horas extras como o de manutenção apresentam expressiva relação com o núme-
ro de produtos descartados. No primeiro caso, existe um percentual de explicação de
73,44% e, no segundo, de 98,74%.
Vale atentarmos no r entre Itens descartados e Horas de manutenção, cujo resul-
tado é negativo: –0,99367. O que isso significa? Que essas variáveis apresentam alta
correlação entre si (o resultado é próximo a –1), porém, de forma inversamente propor-
cional, ou seja, à medida que se aumenta o número de horas de manutenção nas máqui-
nas, cai o número de itens descartados no processo.
Já o FIVk (2,9274) encontra-se mais próximo a 1 do que a 10, indicando que a coli-
nearidade entre Horas extras e Horas de manutenção não prejudica o modelo gerado
pela regressão múltipla.
Uma vez que os resultados dos coeficientes de correlação e do FIVk foram favo-
ráveis à análise de regressão, basta determinar o modelo de regressão linear múltipla.
Esses cálculos já foram demonstrados na regressão simples e, nesse caso, como en-
volvem o dobro de variáveis independentes, teríamos, consequentemente, duas vezes
mais cálculos, pelo menos. Com a intenção de otimizar a análise e focarmos nos resul-
tados, vamos empregar o suplemento de análise de dados da planilha eletrônica, para-
metrizado conforme a figura a seguir:

Parâmetros de regressão múltipla


Análise de Dados para Business Intelligence 144

Perceba que informamos os mesmos parâmetros utilizados na regressão simples,


porém atente para o fato de que o “intervalo X de entrada” contém dados das duas co-
lunas que representam as variáveis independentes, ou seja, de C1:D11. Os resultados
são mostrados na figura a seguir:

Resultados da regressão múltipla

Design Gráfico: Juliano Henrique


O que os resultados indicam?
• Para a regressão múltipla, recomendamos o “R2 ajustado” (célula B18) para ve-
rificar o percentual de explicação do modelo. Corrar e Theóphilo (2004) apre-
sentam as razões para a utilização dessa estatística. O resultado mostra que a
variação do conjunto das variáveis independentes explica 99,35% da variação
da variável dependente.
• A conclusão anterior é confirmada pelo “F de significação” (célula F24). Assim
como o p-valor, caso o F de significação seja menor do que o nível de signifi-
cância (como estamos empregando 95% de intervalo de confiança, o nível de
significância é, obviamente, 5% ou 0,05), é possível considerar os resultados
como significativos. Na célula F24 da figura anterior, o valor do F de significa-
ção é 9,39x10 –9 , ficando próximo a zero.

Para uma compreensão mais aprofundada do F de significação, recomendamos a leitura do livro


Pesquisa operacional, de Luiz J. Corrar e Carlos Renato Theóphilo (2004).
Análise de Dados para Business Intelligence 145

• Os coeficientes das variáveis dependentes também se apresentam bastante


adequados a suas aplicações no modelo de regressão, conforme visualizado e
confirmado pelo “valor-P” nas células D29:D31, que também se aproxima de 0.
Portanto, a equação que representa o número de produtos descartados (PD), em
função do número de horas extras (HE) e de manutenção (HM), é a seguinte:

PD = 683,2309 + (0,2533 × HE) – (13,5107 × HM) + 9,2901


Design Gráfico: Juliano Henrique

Com o controle do número de horas extras e de manutenção, o gerente de produ-


ção poderá estimar o número de produtos descartados.
Até o momento, aplicamos a análise de regressão sobre funções lineares. Porém,
sabemos que existem outras funções (não lineares) que também representam a rela-
ção entre conjuntos de dados. A figura a seguir mostra alguns tipos de funções:

Funções
Linear Exponencial
9 3500
8 3000
7 2500
6
5 2000
4 1500
3 1000
2
500
1
0 0
1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8

Logarítmica Potência
3,5 70

3 60

2,5 50
40
Design Gráfico: Juliano Henrique

2
1,5 30

1 20

0,5 10
0
0 1 2 3 4 5 6 7 8
1 2 3 4 5 6 7 8

Fonte: CORRAR; THEÓPHILO, 2004, p. 78. (Adaptado).


Análise de Dados para Business Intelligence 146

Nesses casos, quando nos deparamos com uma relação não linear entre os dados,
uma das alternativas é linearizar a relação, ou seja, transformar a equação não linear
em linear, conforme mostrado no quadro a seguir:

Principais transformações lineares


Função Original Linearizada x y
Exponencial y = aebx ln y=ln a + bx x ln y
Logarítmica y = a + b ln x y = a + b ln x ln x y
Potência y = axb ln y = ln a + b ln x ln x ln y
Fonte: CORRAR; THEÓPHILO, 2004. (Adaptado).

Como podemos perceber, as transformações são efetuadas sobre os dados – na


verdade, os dados foram linearizados. Assim, basta efetuar a análise de regressão so-
bre os dados. Ao descobrirmos um modelo que se ajuste aos dados linearizados, de-
vemos voltar esse modelo para o conjunto original dos dados (não linearizados). Pode
parecer que não, mas a ideia é bastante simples. Vejamos um exemplo.
Um jovem empreendedor está interessado em abrir uma empresa de design e,
como qualquer outro empreendedor – principalmente de áreas altamente inovadoras
–, tem dúvidas sobre a relação entre o investimento necessário em pesquisa e desen-
volvimento (P&D) e o retorno financeiro. Para ter uma visão mais abrangente desse
mercado, solicitou uma pesquisa a um observatório econômico. Esse observatório co-
letou dados anuais de 79 empresas fundadas há 8 anos e tabulou a média anual dos
percentuais investidos em P&D e do faturamento, conforme tabela a seguir:

P&D X Faturamento
Ano P&D* Faturamento**

1 0,3 0,2

2 0,5 0,7

3 0,9 2,1

4 1,5 4,9

5 2,2 9,9

6 3,4 18,7

7 4,9 29,9

8 5,7 45,1

* Percentual da receita investido


** Valores divididos por 1.000.000
Análise de Dados para Business Intelligence 147

A partir desses dados, é possível afirmar que existe relação entre os investimen-
tos em P&D e faturamento? Se sim, é possível estimar o faturamento a partir dos valo-
res investidos?
Ao lançarmos os dados em uma planilha, o primeiro passo é verificar visualmente
como as variáveis investimentos em P&D e faturamento se relacionam. Para isso, gera-
mos no Microsoft Excel 2007® um gráfico de dispersão, selecionando as células B1:C9,
acessando a aba “Inserir”, clicando na opção “Dispersão”, do grupo “Gráfico”, confor-
me mostrado na figura a seguir:

Opções do gráfico de dispersão

O gráfico formado mostra como os pares de dados se distribuem. Porém, mui-


tas vezes, como é o nosso caso, a interpretação visual da forma de distribuição pode
nos enganar: é possível enxergar um comportamento linear, talvez exponencial ou,
até mesmo, uma potência. Para dirimir essa dúvida, basta clicar com o botão direi-
to do mouse em um dos pontos do gráfico e selecionar a opção “Adicionar Linha de
Tendência”, conforme mostrado a seguir:
Análise de Dados para Business Intelligence 148

Adicionar linha de tendência

O quadro apresenta algumas opções de tipos de linhas de tendência a serem


aplicadas aos dados. É possível testar cada uma delas, pois o resultado é mostrado
imediatamente no gráfico. Porém, tão importante quanto a linha de tendência é o coe-
ficiente de determinação (r2) gerado, pois, com ele, teremos a certeza numérica da
opção que mais se ajusta aos dados (quanto mais próximo a 1, melhor). Portanto, de-
vemos clicar na opção “Exibir valor de R-quadrado no gráfico”, conforme apresentado
na figura a seguir:

Formatando linha de tendência


Análise de Dados para Business Intelligence 149

De todas as opções de linha de tendência, a que mais se ajustou aos dados foi a po-
tência, cujo r2 foi aquele mais próximo a 1. A figura a seguir mostra a linha de tendência
junto aos pontos formados pelos dados:

Gráfico da linha de tendência

50
45 R2 = 0,9937
40
35
Faturamento

30
25
20
15

Design Gráfico: Juliano Henrique


10
5
0
0 1 2 3 4 5 6
% Investido em P&D

Por se tratar de uma função potência, a equação é expressa da seguinte forma:


y = axb
Temos, portanto, que linearizá-la, transformando-a conforme mostrado anterior-
mente. Veja:

Principais transformações lineares


Função Original Linearizada x y

Exponencial y = aebx ln y = ln a + bx x ln y

Logarítmica y = a + b ln x y = a + b ln x ln x y

Potência y = axb ln y = ln a + b ln x ln x ln y

Fonte: CORRAR; THEÓPHILO, 2004. (Adaptado).

ln y = ln a + b ln x
Para fazermos isso em nossa planilha, temos que calcular o logaritmo natural
(ln) das variáveis x (investimentos em P&D) e y (faturamento), conforme apresentado
na figura a seguir:
Análise de Dados para Business Intelligence 150

Obtendo o ln de x e y

Agora, basta rodar a regressão sobre os dados linearizados. Assim, a variável de-
pendente (y) passa a ser o logaritmo natural de faturamento; a variável independente
(x), o logaritmo natural dos investimentos em P&D. Os parâmetros para o suplemen-
to de regressão são mostrados na figura a seguir:

Parâmetros de regressão
Análise de Dados para Business Intelligence 151

Já os resultados são mostrados a seguir:

Resultados da regressão

Design Gráfico: Juliano Henrique


Antes de analisarmos os resultados, é importante nos lembrarmos de que são vá-
lidos para a seguinte equação:
ln y = ln a + b ln x
Com isso em mente, vamos analisar os resultados:
• R múltiplo (r): o coeficiente de correlação apresentou um número muito próxi-
mo a 1, indicando que existe uma relação altamente significativa entre o ln dos
investimentos em P&D e o ln do faturamento.
• R-Quadrado (r2): o coeficiente de determinação indica que a variação do loga-
ritmo natural dos investimentos em P&D explica 99,37% da variação do loga-
ritmo natural do faturamento.
• A boa representação dos dados, pelo modelo, é também confirmada pelo F de
significação – este, muito próximo a 0.
• Da mesma forma, os valores encontrados para o ln(a) e para o coeficiente do
ln(x) mostram-se bastante significativos – informação provida pelo valor-P.
Logo, a equação assume a seguinte forma:
ln y = ln a + b ln x
ln y = ln 0,772 + 1,767 ln x
Análise de Dados para Business Intelligence 152

Porém, ao analista não é de muito interesse estimar o logaritmo natural do fatu-


ramento, mas sim o faturamento em si. Para resolver essa questão, basta retornarmos
a equação, que está em sua forma linear, para sua configuração original:

In y = In a + b ln x y = axb

Design Gráfico: Juliano Henrique


Ora, se In a = 0,77194, então
a = e0,77194, ou seja,
a = 2,16395

Como b não está representado como logaritmo natural, não é necessário fazer
quaisquer transformações. Portanto, é possível representar a equação da seguinte
forma:

Juliano Henrique
Design Gráfico:
In y = In 0,772 + 1,767 In x y = 2,164x1,767

Em nossa planilha, aproveitaremos os valores dos coeficientes (do resumo dos re-
sultados da regressão) para implementarmos a fórmula que permitirá estimarmos o
faturamento a partir do valor dos investimentos em P&D, conforme mostrado na figu-
ra a seguir:

Fórmula para a regressão não linear

Assim, em resposta ao problema, é possível concluirmos que existe relação entre


investimentos em P&D e faturamento. Além disso, definimos a equação que represen-
ta essa relação.
Neste capítulo, vimos como empregar a análise de regressão em algumas situa-
ções que envolvem dados empresariais, especificamente, naquelas em que supomos,
de antemão, existir relação entre variáveis, ou seja, sempre que uma determinada va-
riável muda seu valor (variável independente), outra variável muda seu valor (variável
dependente).
Mostrou-se que é possível estabelecer um grau de correlação entre essas variá-
veis, em que valores próximos a +1 indicam forte relação entre as variáveis dependente
e independente, sendo que o sinal sugere que essa relação é diretamente proporcional,
Análise de Dados para Business Intelligence 153

ou seja, aumentando o valor da variável independente, o valor da variável dependen-


te será também aumentado. No caso de valores próximos a –1, a relação é de natureza
inversamente proporcional, ou seja, à medida que a variável independente é aumenta-
da, a variável dependente é decrescida proporcionalmente. Valores próximos a 0 (zero)
indicam que não existe relação entre essas variáveis.
Vimos também que, uma vez estabelecida a correlação entre as variáveis, é pos-
sível determinar um modelo que represente essa relação. Esse modelo pode ser esta-
belecido por uma regressão linear simples, partindo do princípio de que apenas uma
única variável (independente) apresenta efeito sobre outra (dependente), representa-
da graficamente por uma reta. Caso tenhamos mais de uma variável que esteja, su-
postamente, relacionada com a variável que desejamos estimar, então temos uma
regressão linear múltipla.
Finalmente, na presença de relações que não podem ser representadas por uma
reta, podemos transformar os dados de forma a se tornarem lineares e proceder com
a regressão, tomando cuidado para que o resultado seja sobre dados linearizados que
devem ser transformados para sua forma original.
Análise de Dados para Business Intelligence 154

Referências
BRUNI, A. L. Estatística Aplicada à Gestão Empresarial. 3. ed. São Paulo: Atlas, 2011.
CHAN, B. L. Análise de Dados. Rio de Janeiro: Elsevier, 2009.
CORRAR, L. J.; THEÓPHILO, C. R. Pesquisa Operacional. São Paulo: Atlas, 2004.
FÁVERO, L. P. L. et al. Análise de Dados. Rio de Janeiro: Elsevier, 2009.
LATTIN, J.; CARROLL, J. D.; GREEN, P. E. Análise de Dados Multivariados. Rio de Janeiro:
Cengage Learning, 2011.
MILTON, M. Use a Cabeça! Análise de Dados. Rio de Janeiro: Alta Books, 2010.
156