Você está na página 1de 140

ANÁLISE ESTATÍSTICA

DE DADOS

Autoria: Amanda Souza da Silva

UNIASSELVI-PÓS
Programa de Pós-Graduação EAD
CENTRO UNIVERSITÁRIO LEONARDO DA VINCI
Rodovia BR 470, Km 71, no 1.040, Bairro Benedito
Cx. P. 191 - 89.130-000 – INDAIAL/SC
Fone Fax: (47) 3281-9000/3281-9090

Reitor: Prof. Hermínio Kloch

Diretor UNIASSELVI-PÓS: Prof. Carlos Fabiano Fistarol

Equipe Multidisciplinar da Pós-Graduação EAD:


Carlos Fabiano Fistarol
Ilana Gunilda Gerber Cavichioli
Cristiane Lisandra Danna
Norberto Siegel
Camila Roczanski
Julia dos Santos
Ariana Monique Dalri
Jóice Gadotti Consatti
Marcelo Bucci

Diagramação e Capa:
Centro Universitário Leonardo da Vinci – UNIASSELVI
Copyright © UNIASSELVI 2019
Ficha catalográfica elaborada na fonte pela Biblioteca Dante Alighieri
UNIASSELVI – Indaial.

SI586a
Silva, Amanda Souza da

Análise estatística de dados. / Amanda Souza da Silva. – Indaial:


UNIASSELVI, 2019.

140 p.; il.

ISBN 978-85-7141-300-9
1.Estatística empresarial – Brasil. II. Centro Universitário Leonardo
Da Vinci.

CDD 658.00727

Impresso por:
Sumário

APRESENTAÇÃO...........................................................................05

CAPÍTULO 1
Análise Estatística de Dados no Mundo Corporativo............. 7

CAPÍTULO 2
Princípios Fundamentais do Data Science
Para Negócios............................................................................. 49

CAPÍTULO 3
Modelagem Multivariada............................................................ 99
APRESENTAÇÃO
Dentro de uma organização, analisar a concorrência é importante, sem
deixar de lado a satisfação dos consumidores, compreendendo suas expectativas
e moldando seus produtos de acordo com seus interesses, e sempre manter-
se atualizado sobre as tendências do mercado. Sem esses preceitos, uma
empresa pode ficar obsoleta perante as inovações das demais organizações,
não conseguindo alcançar de maneira eficiente os objetivos dos consumidores
e, consequentemente, não atingir suas metas. Portanto, conhecer o mercado é o
primeiro passo para realizar planejamentos estratégicos.

Para fazer planejamentos sobre o mercado deve-se levar em consideração


as variáveis que permeiam os clientes, por exemplo, suas características
pessoais, dados demográficos, financeiros e outros que intensificam a chance
de uma organização alcançá-los de forma direta. Para que isso seja possível, é
importante utilizar as técnicas de análise de dados, pois elas auxiliam na extração
das informações e identificação de padrões.

Esses dados geram uma grande quantidade de informações que precisam


ser processadas de forma rápida, e para isso ser possível é necessário usar uma
ferramenta que seja capaz de realizar inferências de forma consolidada, esta
ferramenta é denominada de Big Data Analytics. Ela auxilia uma organização a
lidar com os dados coletados e utilizá-los para encontrar novas frentes. Isso leva a
movimentos de negócios mais inteligentes, lucros mais altos, operações eficientes
e clientes satisfeitos.

Logo, para que seja possível entender os conceitos, formas de coletas e


sobre a extração desses dados, este livro tem o objetivo de abordar as técnicas de
estatísticas e machine learning utilizadas para explorar as informações e apoiar a
tomada de decisão da organização.

Com base nisso, este material foi dividido em três partes. O primeiro capítulo
fala sobre técnicas de estatística descritiva, a utilização delas em um negócio. E
como é realizada a inferência sobre dados.

O segundo capítulo aborda os princípios e características fundamentais


que envolvem Data Science para negócios. Data Science é altamente usado
quando trabalhamos com um grande volume de dados. Logo, falaremos sobre as
principais técnicas e conceitos usados nesta área de estudo.

O terceiro capítulo trata sobre agrupamento de dados e análise multivariada.


Este assunto é muito importante quando também temos um grande volume de
dados, pois precisamos agrupar os dados de maneira que, no agrupamento,
não sejam perdidas as características iniciais dos dados. O capítulo aborda as
técnicas de como tratar esses dados de maneira a otimizar a extração e inferência
das informações.
C APÍTULO 1
Análise Estatística de Dados no
Mundo Corporativo
A partir da perspectiva do saber-fazer, neste capítulo você terá os seguintes
objetivos de aprendizagem:

� Compreender a importância e as características da análise de dados para uma


organização.

� Compreender as principais técnicas de estatísticas utilizadas para análise de


dados.

� Aprender a inferir sobre as informações coletadas.

� Saber usar as técnicas estatísticas para tomar decisões de um negócio.

� Saber fazer inferência sobre os dados.


Análise Estatística de Dados

8
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo

1 Contextualização
Conhecer as expectativas e tendências do mercado é muito importante
para que seja viável consolidar estratégias para um negócio. Para que isto seja
possível, a análise de dados possui um conjunto de métodos específicos capazes
de transformar um agrupamento de dados em informações que auxiliam todos
os setores de uma organização. A geração de dados decorre de várias fontes,
desde a opinião de usuários, clientes, internet, e por meio de todos os setores da
empresa.

A análise de dados fornece suporte para extrair informações e realizar


inferências que tragam escopo e suporte para a tomada de decisão da
organização. Através dela podemos conhecer o perfil de cliente, tendências do
mercado, entre outras informações de interesse para o negócio. Através das
análises estatísticas podemos analisar o perfil de cliente e ajustar os produtos
desenvolvidos de acordo com o perfil encontrado.

Portanto, este capítulo descreve as técnicas estatísticas usadas para extrair


e retirar a maior quantidade de informações dos dados das organizações. Os
métodos são úteis para realizar previsões e inferências, por exemplo, se o produto
que se pretende lançar é compatível com o perfil de consumidores.

Com base nisso, neste capítulo abordaremos todo o processo de análise,


consolidação dos dados, gráficos e inferência, bem como a importância de fazer
uso dessas técnicas em uma organização.

2 A Importância da Análise de
Dados Para um Negócio
À medida que o mercado se torna mais impulsionado pela tecnologia e
rapidez nas informações, a análise de dados tem um papel cada vez mais
importante nos negócios.

Por que a análise de dados é importante?

A análise de dados é uma função organizacional interna, que vai além de


apresentar números para a diretoria e gerência.

Ela requer abordagens mais aprofundadas para registrar, analisar e extrair


dados para apresentar as informações descobertas em um formato de fácil
compreensão.

9
Análise Estatística de Dados

A análise de dados ajuda os gerentes de negócios a tomar decisões para


impulsionar a empresa, melhorar a eficiência, aumentar os lucros e alcançar as
metas organizacionais, e o seu uso traz os seguintes impactos para o negócio:

1) Melhorar a eficiência:
Todos os dados coletados pela empresa não estão relacionados apenas aos
indivíduos externos à organização. A maioria dos dados coletados pelas empresas
é analisada internamente. Esses dados ajudam a conhecer o desempenho dos
funcionários e também dos negócios.

2) Compreensão do mercado:
A análise de dados permite coletar uma maior quantidade de dados de uma ampla
variedade de consumidores. Por exemplo, verificar se os clientes da empresa
estão satisfeitos ou não com o novo horário de atendimento da loja.

3) Redução de custos:
Com a análise de dados é possível identificar as mais eficientes formas de fazer
negócios. Isso é uma característica bem relevante, pois ajuda na economia
dos custos de desenvolver um produto que se adéque ao padrão esperado
pelo consumidor ou verificar qual o melhor local para construir um novo
empreendimento.

A análise de dados traz um impacto significativo nos custos,


por exemplo, a empresa deseja saber antes se o produto que está
prestes a ser desenvolvido irá atender às expectativas dos clientes,
isto é, será mais fácil moldar o produto ao cliente, evitando possíveis
erros e ajustes, e ao final reduz o custo de produção do produto.

4) Otimizar a tomada de decisão:


A análise de dados pode melhorar a tomada de decisão da empresa, pois ela gera
informações em tempo rápido, eficiente, e assim é possível gerenciar os prazos
de entrega de relatórios com facilidade.

5) Novos produtos/serviços:
Com o poder da análise de dados, as necessidades e satisfação dos clientes são
detectadas mais rapidamente, e atendidas de uma maneira melhor. Isso ajuda a
garantir que o produto/serviço esteja alinhado com os valores do público-alvo.

10
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo

6) Conhecimento da indústria:
Com as informações inferidas pode-se conhecer de maneira aprofundada o
comportamento da indústria e mostrar como uma empresa pode funcionar em um
futuro próximo.

Cite uma forma pela qual a análise de dados pode ajudar a


melhorar o desenvolvimento da empresa.

Segundo Provost (2013), com o crescimento da quantidade de dados


disponíveis, as empresas estão cada vez mais focadas em explorar essas
informações para obter vantagem competitiva, pois com as informações coletadas
podem ser feitos vários planos estratégicos que envolvam o conhecimento do
perfil do cliente, para checar a maior probabilidade de acertar em um novo produto
e gerar uma vantagem competitiva para o seu negócio. Podemos citar algumas
vantagens, como:

• Acompanhamento das fases do processo de vendas.


• Conhecer os pontos fortes e fracos da organização.
• Interpretar reclamações de clientes atuais, com o intuito de captar novos
clientes e fidelizar os antigos.

No momento em que uma corporação consegue realizar análises de dados


e usufruir dos resultados alcançados, fica mais fácil entender todos os cenários
em que a empresa está inserida, e isto é muito importante, pois o mercado a
cada instante torna-se mais disputado, e verificar de modo ágil as variações que
ocorrem deixa a organização à frente de suas concorrentes. Com a contínua
evolução do mercado, estar à frente no processo de desenvolvimento de produtos
e serviços inovadores com alta aceitação pelos clientes é fundamental.

Agora vamos começar a estudar como podemos fazer a análise de


dados! Vamos começar?

A análise de dados envolve a extração de tendências, padrões e informações


úteis a partir de um conjunto de dados existentes que serão inúteis se não forem
analisados. É um tipo de business intelligence que é usado para obter lucros e
aproveitar melhor os recursos da organização. Isso também pode ajudar a melhorar
as operações gerenciais e alavancar as organizações para o próximo nível.

11
Análise Estatística de Dados

Mas, antes que seja feita a análise de dados existe a fase de


planejamento e coleta desses dados! É importante que seja entendida toda
essa etapa inicial para que possamos prosseguir com os nossos estudos.

Então, antes de fazer a análise de dados, precisamos realizar o processo


de planejamento e coleta desses dados. Podemos definir esse processo
como pesquisa de mercado, como aborda Pinheiro (2015), sendo um esforço
organizado para coletar informações sobre o mercado ou clientes. É uma técnica
muito importante da estratégia de negócios. A análise de dados é realizada com
base nos dados coletados da pesquisa de mercado.

A pesquisa de mercado é um dos principais métodos utilizados


para manter a competitividade de uma empresa em relação aos
concorrentes. Ela fornece informações importantes para identificar e
analisar as necessidades, tamanho do mercado e a concorrência.

A pesquisa pode ter várias frentes e o seu foco pode estar concentrado no
consumidor, concorrente, fornecedor ou em qualquer situação que precisa ser
investigada. Uma definição mais formal de pesquisa de mercado, segundo a
Associação Nacional de Empresas de Pesquisa de Mercado (ANEP):

A coleta sistemática e o registro, classificação, análise


e apresentação objetiva de dados sobre hábitos,
comportamentos, atitudes, valores, necessidades, opiniões e
motivações de indivíduos e organizações dentro do contexto
de suas atividades econômicas, sociais, políticas e cotidianas.

A pesquisa de mercado é uma maneira de obter uma visão geral dos desejos,
necessidades e crenças dos consumidores. Também pode envolver descobrir
como eles agem. A pesquisa pode ser usada para determinar como um produto
pode ser comercializado. Com base nas informações colhidas da pesquisa de
mercado é possível:

● Conhecer e monitorar o mercado consumidor e concorrente.


● Dimensionar a demanda.
● Verificar a presença do público-alvo (clientes).
● Avaliar resultados de ações de marketing.
● Identificar e dimensionar problemas ou necessidades.
● Observar tendências.

12
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo

● Avaliar a satisfação dos consumidores.


● Testar produtos e estratégias antes do seu lançamento.
● Analisar as práticas da concorrência (quantidade e agressividade).
● Monitorar a dinâmica e o comportamento dos diferentes segmentos e nichos.

Fatores que podem ser investigados através de pesquisa de mercado


incluem:

1. Informação de mercado:
Por meio das informações de mercado pode-se conhecer os preços de diferentes
empresas no mercado, bem como a situação de oferta e demanda.

2. Segmentação de mercado:
Dividir o mercado em subgrupos com estímulos parecidos.

3. Tendências de mercado:
Os movimentos anteriores e posteriores do mercado, durante um determinado
período de tempo, com o propósito de determinar o tamanho do mercado.

A pesquisa de mercado ganha relevância à proporção que


o mercado fica cada vez mais competitivo e as modificações no
comportamento dos clientes se tornam mais rápidas e constantes,
deixando o processo de decisão dos negócios da organização cada
dia mais complexo.

O investimento em pesquisa de mercado e análise de dados é fundamental no


processo de decisões importantes da organização, e assim realizar planejamento
estratégico, por exemplo:

● Auxiliar na preparação e lançamento de um produto, com base na coleta


de dados sobre a satisfação de clientes em relação aos produtos e serviços
anteriores que a organização gerou.
● A partir do feedback colhido, compreender de maneira satisfatória as
necessidades do mercado.
● Localizar a posição que o negócio ocupa em comparação aos seus
concorrentes.
● Ações de como visitar a concorrência para verificar os pontos fortes e fracos
em comparação ao mercado.

13
Análise Estatística de Dados

Essas informações são importantes para criar métodos de marketing,


fidelização e branding, e compreender quais os produtos ou serviços que não
estão gerando lucro para o negócio.

Portanto, para que a análise tenha bons resultados é necessário fazer um bom
planejamento, que envolve as diretrizes e finalidades das pesquisas. Pesquisas
desde as mais simples até as complexas devem ser elaboradas previamente para
evitar erros de todos os tipos, desde a escolha incorreta do método a ser usado,
até a importância das informações obtidas para o processo decisório.

A pesquisa de mercado pode ser dividida em sete etapas:

1. Definição do problema ou questões de pesquisa:


a. Objetivo – quais perguntas a pesquisa vai responder.
b. Público-alvo.
2. Desenvolvimento do plano de pesquisa:
a. Qual método de pesquisa será usado.
b. Universo (é a população total que tenha a característica de interesse para ser
investigada).
c. Amostra (é somente uma “fatia” extraída da população de interesse, em que
são feitas análises sobre a população de interesse).
d. Cronograma.
3. Questionário de pesquisa:
a. Elaboração e revisão das perguntas.
b. Definição da forma de aplicação (correio, telefone, entrevista pessoal, e-mail,
distribuição).
c. Teste em pequena escala.
4. Aplicação da pesquisa:
a. Seleção e treinamento dos entrevistadores (quando usado).
b. Coleta de dados junto ao mercado.
5. Tabulação dos dados:
a. Organização dos dados em tabelas e gráficos.
b. Realização de cálculos (médias, medianas etc.) e aproximações.
6. Avaliação dos resultados:
a. Análise quantitativa, qualitativa e comparativa dos resultados.
b. Realização do relatório de conclusão da pesquisa.
7. Tomar as decisões de marketing:
As pesquisas podem ser classificadas em:
● Qualitativa: usada para conhecer a percepção dos clientes sem quantificá-los.
Nesse caso, o interesse está nas avaliações subjetivas e normalmente visa
identificar as percepções humanas sobre produtos, serviços e empresas, a fim
de apontar comportamentos e tendências.

14
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo

● Quantitativa: procura levantar indicadores numéricos no mercado, por isso


segue rigorosos critérios estatísticos, como: amostragem, margem de erro,
estimativa, desvio padrão etc.

Com relação à frequência das pesquisas, temos as seguintes formas:

• Pesquisas contínuas: monitoram continuamente indicadores de mercado.


• Pesquisas “ad hoc”: usadas quando surgem questões específicas a responder.
• Cíclicas: realizadas repetidas vezes a cada determinado período de tempo.

Os resultados de uma pesquisa de mercado geralmente são apresentados


na forma de relatório que é construído a partir de tabelas, gráficos e comentários
mais relevantes. As informações resultantes de uma pesquisa devem ser
analisadas pelos gestores da empresa, ou a pessoa que tenha propriedade para
interpretar os dados obtidos, segundo a Pesquisa de Mercado (2004).

Bom, vimos que antes de fazer as análises dos dados, existem algumas
fases antes que precisam ser feitas!

Vimos qual a finalidade de se fazer um bom planejamento.

Agora, vamos estudar o que é necessário para fazer uma boa coleta de
dados!

Para realizar as análises de forma assertiva necessita-se realizar as


perguntas certas para consolidar quais são os objetivos que o negócio
deseja atingir, e depois é preciso criar meios para alcançá-los.

Então, primeiramente, deve-se definir os propósitos e expectativas da


organização, para que depois seja feita a coleta dos dados com base no perfil do
mercado, produto ou cliente.

Depois dessas fases serem concluídas e os dados serem consolidados por


meio de alguma ferramenta, podemos iniciar a etapa de análise dos dados para
que seja possível compará-los e identificar padrões.

Mas, como pode ser feita a extração e análise de dados de forma que auxilie
na tomada de decisão e gerar lucros para um negócio? Para isso existem alguns
passos.

1. Realizar as perguntas certas: é necessário ter objetivos de curto, médio e


longo prazo definidos, isto é, os atributos importantes de sucesso do negócio.
Com base nesses atributos seremos capazes de reconhecer os pontos que

15
Análise Estatística de Dados

os negócios devem seguir e evitar que sejam direcionados tempo e recursos


para atividades que ao final do processo acabem não gerando os resultados
esperados.

A partir dos objetivos estabelecidos podemos encaminhar tempo, pessoal e


investimentos para otimizar os lucros da empresa.

Essas perguntas iniciais podem ser:

● Qual o perfil de cliente que a organização precisa atingir?


A partir dessa pergunta é possível inferir qual o perfil de consumidor se adéqua
melhor ao produto que será desenvolvido.
● O produto que estamos desenvolvendo adéqua-se a este perfil de cliente?
Essa pergunta garante se o produto lançado está atraindo os consumidores
traçados no perfil inicial, ou ele não teve um bom êxito entre os clientes esperados.
● Como adequar o produto ao perfil do cliente?
O objetivo é traçar quais as características que o produto deve ter para se encaixar
no perfil dos consumidores.
● Quais os problemas que podem surgir?
Nesta pergunta devem ser elencados os possíveis problemas que podem surgir
antes, durante ou depois do desenvolvimento do produto.
● Qual lucro esse produto pode gerar?
Nesta pergunta é questionado qual o lucro que o produto desenvolvido pode
atingir, e se ele vai estar dentro do esperado.

Planejar e desenvolver o questionário correto antes de


iniciar a coleta e análise de dados é imprescindível para o bom
desenvolvimento da pesquisa de mercado, para tornar mais
confiável e segura a forma como os dados vão ser consolidados e
posteriormente inferidos.

2. Quais os objetivos de realizar uma boa análise de dados?

● Gerenciar melhor seus clientes e consumidores: para definir quais


consumidores se encaixam de uma melhor maneira ao perfil de produtos que a
organização produz.
● Criar soluções diferenciadas para produtos e serviços: gerar soluções com
base no feedback dos clientes pode otimizar e diminuir o tempo de solução
para eventuais erros de produtos e serviços.

16
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo

● Responder de forma rápida às necessidades identificadas como


problemas ou potenciais problemas do negócio: com base nesse propósito
pode-se diminuir os custos da empresa.
● Crescer os bons resultados: consequentemente elevar os lucros da empresa.

Estas atividades são consideradamente importantes para toda gestão do


negócio, pois em um ambiente que está cada dia mais globalizado, os dados
ao final do processo que não gerem informações precisas direcionadas podem
atrapalhar a gestão. Então, é imprescindível que as análises de dados estejam
inseridas na rotina das empresas, seguindo todas as etapas do planejamento da
pesquisa.

Para iniciar o processo é feita a fase realização do planejamento. Ela é


dividida em cinco fases: planejamento da pesquisa, coleta e análise de dados,
tomada de decisão e avaliação de ação, levando a outro planejamento e assim
sucessivamente.

1. Planejamento: fase de consolidação dos objetivos da organização depois


de realizar as perguntas referentes ao negócio, estas questões podem ser
perfil de cliente, produto ou uma nova localização para futuras instalações da
organização.

2. Coleta: A partir da coleta de dados, eles são agrupados de maneira que


facilite uma posterior análise. Ela auxilia a analisar ponto a ponto os fatos
ou fenômenos que estão ocorrendo em uma organização, sendo o ponto de
partida para a elaboração e execução de um trabalho.

Existem várias formas de coletas dados:

1) Entrevista: segundo Gressler (2003), a entrevista consiste em uma


conversação com o propósito de obter informações para uma investigação,
envolvendo duas ou mais pessoas. As entrevistas são frequentemente usadas
em pesquisa de mercado, de opinião pública. Ela é considerada uma técnica
versátil, onde não consiste em um bate-papo informal, já que há o interesse
em obter um conhecimento especializado. É permitido que as perguntas
sejam elaboradas novamente, no momento em que o entrevistado não as
compreenda da primeira vez. Essa abordagem é qualitativa.

2) Questionário: conjunto de perguntas que se faz para obter informação


com algum objetivo em concreto. Cervo e Bervian (2002) apontam diversos
parâmetros que caracterizam as vantagens de utilização do questionário.
Afirmam também que o questionário é a forma mais usada para coletar dados,
pois possibilita medir com melhor exatidão o que se deseja.

17
Análise Estatística de Dados

Questionários precisam de algumas regras para serem feitos:

● O questionário deve ter natureza impessoal para assegurar uniformidade na


avaliação de uma situação para outra.
● Os respondentes devem se sentir confiantes, devido ao anonimato, dessa
forma possibilita coletar informações e respostas mais reais (o que pode não
acontecer na entrevista).

Coletar dados não é uma tarefa muito simples, pois exige uma
metodologia bem definida e suporte tecnológico. Então é preciso
planejar e conhecer de maneira clara os objetivos da análise, e como
ela pode ajudar nas decisões a serem tomadas pela empresa, antes
de iniciar a coleta.

Depois que as fases de planejamento e coleta são encerradas, a próxima


etapa é a consolidação e análise dos dados.

3 Análise de Dados
As medidas estatísticas permitem comparar grupos de variáveis relacionadas
e obter um quadro simples e resumido do cenário de uma empresa, a sua aplicação
em um negócio pode incentivar a reagir de modo inteligente aos acontecimentos
do contexto corporativo.

Inicialmente é necessário definir quais métricas serão usadas, de modo


que os objetivos definidos no início da fase de planejamento possam ser
atingidos.

Antes de começar a análise é importante discutir se os dados do estudo são


de natureza quantitativa ou qualitativa.

1. Dados quantitativos: são usados para quantificar o problema por meio da


geração de dados numéricos ou dados que podem ser transformados
em estatísticas utilizáveis. São usados para quantificar atitudes, opiniões,
comportamentos e outras variáveis definidas e generalizar os resultados
de uma amostra populacional maior. A pesquisa quantitativa usa dados
mensuráveis para formular fatos e descobrir padrões na pesquisa. Métodos de
coleta de dados quantitativos incluem várias formas de pesquisas, como:

18
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo

1. Pesquisas on-line.
2. Pesquisas em papel.
3. Pesquisas móveis e quiosques.
4. Entrevistas presenciais.
5. Entrevistas telefônicas.
6. Estudos longitudinais.
7. Interceptadores de sites.

Exemplos: rendimento mensal, números de clientes, quantidade de consumidores


que aprovaram o novo produto lançado, quantidade de consumidores que não
aprovaram o novo produto etc.

Esses dados podem ser divididos em variáveis Discreta e Contínua:


Variável Discreta: É avaliada através dos números de contagem, podendo
somente utilizar números inteiros. Exemplos:

● Quantidade de clientes que aprovaram o novo produto.


● Quantidade de clientes que frequentam uma loja.
● Quantidade de clientes que compraram algum serviço bancário.
● Número de viagens realizadas dentro do Brasil.
● Número de pessoas contaminadas com o vírus HIV no mundo.

Variável Contínua: São valores obtidos como resultado de medições, podendo


assumir casos decimais. Exemplos:

● A altura média de uma população.


● O peso médio das crianças de uma turma.
● A pressão arterial de pessoas com mais de 60 anos.

Dados qualitativos/categorias

A pesquisa qualitativa é usada para revelar tendências de pensamento e


opiniões. Os métodos de coleta de dados qualitativos variam usando técnicas não
estruturadas ou semiestruturadas. Alguns métodos comuns incluem grupos focais
(discussões em grupo), entrevistas individuais e participação/observações. Pode-
se definir este tipo de variável através de categorias, com o objetivo de classificar
indivíduos ou objetos. É dividida como variáveis nominais ou ordinais.

Variável nominal

As categorias não possuem ordenações. Exemplos:

● Cor dos olhos.


● Cor da pele.
● Fumantes ou não.

19
Análise Estatística de Dados

● Alcoólatra ou não.
● Doente ou sadio.

Variável ordinal

As categorias possuem ordenações. Exemplos:

● Escolaridade.
● Mês.
● Ano.
● Idade.

Para tabular e organizar dados quantitativos podemos usar tabelas dinâmicas


que devem conter os campos de frequência (número de respostas de uma mesma
alternativa) e porcentagem (relação entre as frequências). Porém, em relação aos
dados do tipo qualitativos é necessário padronizar as respostas em categorias e
depois incluir suas respectivas frequências e porcentagens.

Para tratar os dados coletados é preciso fazer uso de softwares específicos,


em consequência dos grandes volumes de informações, e que sejam capazes de
extrair informações necessárias para o negócio. As ferramentas tecnológicas são
essenciais para a rotina de uma organização.

O Big Data

De acordo com os sites Canal Tech e Totvs, o Big Data Analytics é uma
potente ferramenta que auxilia na organização de como lidar com os dados e
utilizá-los para encontrar inferências. Isso leva a movimentos de negócios mais
inteligentes, lucros mais altos, operações eficientes e clientes satisfeitos. A ideia
é compartilhar as perspectivas de negócios de uma maneira melhor no futuro e
usá-las com o conceito de análise. É uma ferramenta capaz de construir análises
complexas, com base em um grande volume de dados por meio de complexos
algoritmos. Big Data é a expressão que descreve o grande volume de dados
estruturados e não estruturados que podem trazer grandes impactos aos negócios
diariamente. Ele é formado por uma variedade de aplicações usadas para analisar
dados, transformando-os em um modelo visual, como gráficos e tabelas que
permitem análises sofisticadas da realidade e das tendências do negócio.

Porém, ainda existem empresas que não têm a análise estatística como
estratégia de gestão e isso pode significar a falta de atualização perante as
tendências do mercado e seus clientes, pois a demanda do fluxo de informações
acontece de maneira dinâmica. Sem o hábito da coleta e análise contínua de
dados, negócios podem correr alguns riscos, como:

20
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo

● Perda de espaço no mercado e clientes.


● Desenvolver produtos em desacordo com as necessidades dos clientes.
● Não conseguir fidelizar clientes.
● Oferecer um serviço que não atenda às necessidades do mercado.

Então, para que um negócio consiga manter-se de maneira competitiva no


mercado, o uso da inteligência de negócios é fundamental, porque ela transforma
dados em informações que têm o poder de interferir no êxito de uma organização.

E para que a atividade de analisar dados tenha ao final o resultado esperado


é preciso que tenha uma estratégia definida e direcionada nas diversas áreas da
empresa. Cada gestor deve direcionar suas atividades nas informações originárias
das análises desses dados, gerando mais produtividade. A análise de dados pode
beneficiar todas as áreas da empresa, por exemplo:

● Financeira: possui uma grande aplicabilidade das pesquisas estatísticas, pois


se dedica a:
1. Crescimento dos lucros.
2. Análise de custos.
3. Avaliar gastos.
4. Verificar as avaliações do mercado.
5. Análises dos processos.

Portanto, é fundamental para um gestor ter uma ampla visão do negócio,


para que possa tomar as devidas providências essenciais para o desenvolvimento
da organização. Os números lhe fornecem interpretações com mais exatidão e
permitem maior confiabilidade na ação.

● Produção: os métodos estatísticos utilizados podem verificar os dados


relacionados aos produtos, aos processos ou aos funcionários. É nesta
área em que há a necessidade de monitoramento, por exemplo, no controle
de qualidade dos produtos. Existem gráficos, segundo Santos (2016), que
demonstram a cada processo o avanço e as falhas de cada produto, permitindo
parar a produção e fazer a manutenção, ou mesmo descobrir novas maneiras
de realizar cada tarefa.

● Marketing: a partir do marketing a empresa passa para os clientes a sua


imagem. A estatística auxilia essa área da empresa através da análise da
população e amostra para avaliar a média ou aceitação do produto através
da propaganda, ou mesmo, analisar a aceitação por parte da amostra de sua
propaganda (SANTOS, 2016).

● Recursos humanos: no RH usa-se os dados estatísticos para as seguintes


atividades:

21
Análise Estatística de Dados

1. Testes.
2. Dinâmicas.
3. Avaliações qualitativas em suas atribuições.

● Gestão do desempenho: a importância da estatística na gestão é significativa,


pois com a ajuda da estatística um gerente pode analisar:

1. Desempenho da organização em geral.


2. Produtividade dos funcionários.
3. Verificar a produtividade das unidades.
4. A tarefa concluída dos funcionários.
5. O gerente pode usar as técnicas estatísticas para melhorar a produtividade da
força de trabalho e multiplicar a produção.

● Cenários alternativos: a tarefa ou a função de um gerente não termina após


aumentar a produtividade dos funcionários. Um gerente tem que participar
com os outros gerentes de diferentes departamentos para tomar decisões.
A decisão pode ser sobre a escolha de software específico, sistemas para
sistemas de pedidos automáticos de clientes etc.

Com base nas informações coletadas podem ser feitas várias


estratégias que envolvam o conhecimento do perfil do cliente, e isso
proporciona muitas vantagens, entre elas, a redução de custos, maior
probabilidade de acertar em um novo produto e gerar uma vantagem
competitiva para o seu negócio. Dentre as vantagens que podem
ser citadas, trata-se do acompanhamento das fases do processo
de vendas, conhecer os pontos fortes e fracos da organização e
interpretar reclamações de clientes atuais, com o intuito de captar
novos clientes e fidelizar os antigos.

4 Processo da Análise de Dados


Na seção anterior vimos como é importante fazer análise de dados e como
ela pode conseguir extrair informações importantes para trazer vantagens ao
negócio. Por esse motivo, fazer uso de técnicas estatísticas em uma organização
é fundamental, devendo ser vista como uma das principais ferramentas da gestão
de um negócio. A conclusão que podemos ter em relação a este assunto é o

22
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo

fato de que analisar dados é uma maneira de redefinir os planejamentos da


empresa, com o propósito de transformar os indicativos em fatores que auxiliem
nas atividades do negócio.

Então, agora, o nosso objetivo é descrever como é feito o processo da


análise de dados. O processo tem por objetivo:

1. Elaborar toda a metodologia de como será feita a análise de dados.


2. Entender de maneira eficaz as informações coletadas do ambiente ou local de
interesse.
3. Definir o estudo aprofundado de algum objeto de interesse, como a aceitação
de um novo produto lançado.

Portanto, a análise de dados ou também conhecida como inferência estatística


são métodos que têm o objetivo da coleta, redução, análise e modelagem dos
dados, com o propósito de realizar inferências para uma população da qual
os dados foram obtidos (MORETTIN, 2017), a fim de identificar respostas ou
soluções.

Esses métodos utilizados são importantes nas mais variadas áreas, como:

● Ciências sociais.
● Saúde.
● Educação.
● Negócios.

Com o desenvolvimento e evolução constante dos algoritmos computacionais


é possível coletar um maior número de informações, e assim as análises
estatísticas tornaram-se mais robustas, podendo extrair informações de dados
complexos. Essa evolução também é possível ser vista quando utilizamos gráficos
que agrupam uma maior quantidade de informações para fazer inferências.

Para a implementação dessas técnicas, foram desenvolvidos pacotes


estatísticos atualmente usados no meio acadêmico, bem como em negócios,
bancos, órgãos do governo, assinala Morettin (2017). Esses novos softwares são
capazes de interpretar grandes volumes de dados, incluindo operações como a
identificação de padrões.

Portanto, vamos definir a estatística como a ciência que fornece os princípios


e a metodologia para coleta, organização, apresentação, resumo, análise e
interpretação de dados. Por meio dela é possível:

1. Aumentar o lucro das empresas.


2. Aumentar a qualidade dos processos.

23
Análise Estatística de Dados

3. Aumentar a qualidade dos produtos.


4. Minimizar custos.
5. Tomar decisões de valor político ou econômico.
6. Aumentar a análise crítica, entre outros.

5 Conceitos Básicos Estatísticos


Com o uso das técnicas estatísticas pode-se comparar grupos de variáveis
relacionadas e ao final obter um cenário simples e resumido da real situação
de uma empresa ou negócio. Desta forma, a aplicação da estatística na gestão
de negócios estimula ter ideias de maneira inteligente aos acontecimentos do
contexto corporativo.

Com base na reflexão, análise e questionamento das informações


encontradas, os gestores têm maiores possibilidades de tomar decisões mais
assertivas ao conduzir e controlar as organizações. Isto é, a cada momento cresce
a importância da estatística em um negócio, principalmente quando é preciso
tomar providências e decisões a partir de seus resultados. As técnicas estatísticas
são frequentemente aplicadas para resolver as seguintes situações:

1. Identificar situações problemáticas.


2. Compreender as atividades que acontecem dentro da organização.
3. Melhorar a qualidade da tomada de decisão.
4. Compreender o crescimento das vendas de produtos ou serviços que a
organização fornece para seus clientes.
5. Identificar possíveis motivos de defeitos da baixa qualidade em seus produtos/
serviços.
6. Elucidar o comportamento dos clientes em relação aos seus produtos/serviços.
7. Usar métodos de localização de anomalia para identificação de fraudes.

Um negócio é planejado para ter um bom lucro e crescer entre seus clientes.
Para isso, o uso das análises estatísticas se faz necessário para tornar mais
confiáveis e sólidas as atividades que envolvam a empresa. Logo, podemos
concluir que a estatística é uma ferramenta fundamental desde o início e
desenvolvimento das organizações, dado que não faz apenas a monitoração do
progresso, como também para melhoria dos resultados.

A estatística ajuda na escolha das estratégias a serem adotadas na


organização e nas técnicas de pesquisa e análise da quantidade e da qualidade
do produto e mesmo dos possíveis lucros e perdas, levando em consideração o
fato de os gestores sempre procurarem novas maneiras de elevar seus lucros

24
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo

e vendas, ao mesmo tempo que procuram diminuir as falhas e potenciais


dificuldades. Os gestores usam a estatística com frequência para:

1. Aprimorar processos de negócios.


2. Aprimorar as estruturas do negócio.
3. Melhorar e aprimorar a distribuição dos sistemas.
4. Usar sempre métodos e fontes de dados diferentes, para ter uma maior
variedade do feedback de produtos e serviços.
5. Diminuir gastos com recursos desnecessários.

Então, vamos definir as estatísticas de negócios como a ciência da boa


tomada de decisões em face das incertezas do mercado.

A compreensão das técnicas estatísticas depende do entendimento de alguns


conceitos básicos, que são bastante utilizados na área para a interpretação dos
resultados.

Agora, vamos começar a estudar alguns conteúdos importantes de


estatística. Conforme Webster (2006):

● População: conjuntos de todos os itens ou elementos que têm pelo menos


uma característica comum. Uma população estatística pode ser um grupo de
elementos existentes, por exemplo, o conjunto de todos os clientes de uma
organização. Outro grupo que pode ser citado é o hipotético, por exemplo, os
possíveis clientes que uma empresa pode alcançar com o lançamento de um
serviço novo.
● Parâmetro: característica que descreve a população. Por exemplo, podemos
estar interessados pela média de clientes que frequentam uma determinada
loja em um mês. E chegamos à conclusão de que a média é de 1.350 clientes,
então concluímos que isso é um parâmetro, isto é, a média dos clientes.
● Amostra: subconjunto de uma parte da população que será analisada.
A amostra é uma ferramenta fundamental e se bem aplicada permite que o
administrador tome as decisões com confiança.
● Variável: característica da população que será analisada.
● Estimador: característica numérica estabelecida na amostra.

Os conceitos acima citados se inter-relacionam, porém é preciso entender


suas diferenças. Vamos analisar o próximo exemplo:

Queremos analisar a quantidade de pessoas que pretendem comprar um


determinado produto, e quantas pessoas não pretendem consumir esse novo
produto. Temos:

25
Análise Estatística de Dados

1. População: a quantidade de pessoas analisadas.


2. Parâmetro: a quantidade de pessoas que pertencem ao perfil do produto que
vai ser lançado.
3. Variável: os consumidores/clientes.
4. Dados: as informações extraídas na pesquisa.
5. Amostra: neste caso seria uma subparcela do total da população para
analisar.

Distribuição de Frequências

Depois de coletar os dados é conveniente organizá-los de forma simples


e clara, para melhor entendimento das informações.

Como iremos agrupar esses dados?

Para responder essa questão vamos estudar as distribuições de frequência.

Distribuição de frequência, segundo Fonseca (1996), é uma tabela na qual


são agrupados os dados coletados em um estudo.

Ela pode estar em formato de lista, tabela ou gráfico, mostrando a frequência


de vários resultados de uma amostra. Cada entrada na tabela contém a frequência
ou a contagem das ocorrências de valores dentro de um determinado grupo ou
intervalo e, dessa forma, a tabela resume a distribuição de valores na amostra.

Uma distribuição de frequência nos mostra um agrupamento resumido de


dados dividido em classes mutuamente exclusivas e o número de ocorrências em
uma classe. É uma maneira de consolidar dados não organizados para mostrar
resultados de uma pesquisa.

As distribuições de frequência são usadas para dados


qualitativos e quantitativos.

Para uma empresa é importante usar métodos de distribuição de frequência


para analisar os seus recursos de acordo com sua quantidade e classe, como:

1. Quantidade de funcionários que frequentaram a empresa no mês analisado.


Assim é construída a frequência de funcionários mensal.

26
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo

2. Quantidade de novos clientes durante o ano.


3. Lucros mensais da organização.
4. Quantidade de falhas no sistema por dia.

Abaixo segue a definição de cada frequência:

a) Frequência Absoluta (F): é o número de vezes que cada dado aparece na


pesquisa.
b) Frequência Relativa ou Percentual (Fr): é o resultado da divisão entre a
frequência absoluta pelo número total de dados.
c) Frequência Acumulada (Fa): é a soma de cada frequência com as que lhe
são anteriores na distribuição.

Logo a seguir temos a Tabela 1 que agrupa a percentagem dos valores


investidos mensalmente. A tabela é dividida entre os meses de abril e setembro.
Em cada mês é mostrada a sua frequência relativa.

TABELA 1: TABELA DE FREQUÊNCIA DO VALOR INVESTIDO MENSAL

Valor Investido
Meses
(Frequência Relativa)
Abril 9,444%
Maio 10,493%
Junho 4,197%
Julho 13,641%
Agosto 16,055%
Setembro 20,986%
Outubro 25,184%
FONTE: O autor.

Agrupamento em classes

Quando o conjunto de valores de dados é distribuído, isto é, os dados são


bastante dispersos, fica difícil configurar uma tabela de frequência para cada
valor de dados, pois haverá muitas linhas na tabela. Por conta disso, agrupamos
os dados em intervalos de classes (ou grupos) para nos ajudar a organizar,
interpretar e analisar os dados.

27
Análise Estatística de Dados

O tamanho da amostra para alguns estudos é elevado, então,


para facilitar a visibilidade da tabela é comum agrupar os valores em
intervalos de classe. Desse modo, é possível resumir e visualizar um
conjunto de valores sem ter a necessidade de levar em conta dados
individuais.

A Tabela 2 mostra a frequência de salários de uma organização. A tabela é


dividida em Frequência Absoluta, Acumulada e Relativa de cada classe.

TABELA 2: FREQUÊNCIA DE SALÁRIOS DE UMA ORGANIZAÇÃO

Salário (em reais) Freq. Absoluta (F) Freq. Acumulada (Fa) Freq. Relativa (Fr)

1000,00 |- 1500,00 18 18 0,29

1500,00 |- 2000,00 29 47 0,43

2500,00 |- 3000,00 10 57 0,14

3500,00 |- 4000,00 4 61 0,05

4500,00 |- 5000,00 2 63 0,02

5500,00 |- 6000,00 3 66 0,06

6500,00 |- 7000,00 1 67 0,014


Total 67
FONTE: O autor.

Para definir a quantidade de classes de uma Distribuição de Frequência


podemos usar vários critérios.

O primeiro critério é a perspicácia do próprio pesquisador, o qual tem a


expertise suficiente para definir o tamanho e a quantidade de classes de cada
distribuição.

28
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo

Porém, a estatística fornece outros critérios, como:

• Regra de Sturges.
• Critério da raiz quadrada.

Os tamanhos das classes não precisam ser todos iguais!

a) Regra de Sturges: A regra é dada pela seguinte fórmula:

b) Critério da raiz quadrada: O número de classes (k) é dado por:

Uma distribuição de frequência com classe possui algumas características,


como:

a) Limite inferior: É o valor da esquerda. Vamos abreviar o limite inferior por Li.
Na Tabela 2 o primeiro limite inferior é: 1000.
b) Limite superior: É o valor da direita. Vamos abreviar o limite superior por Ls.
Na Tabela 2 o primeiro limite superior é: 1500.
c) Ponto médio: O ponto médio de cada classe é obtido somando os limites
superior e inferior da classe e dividindo o resultado por 2.

(Li - Ls)/2

d) Amplitude do conjunto de dados: A amplitude dos dados é simplesmente a


diferença entre o maior e menor valor do conjunto de dados.

L - xmax - xmin

e) Amplitude da classe: É o tamanho correspondente ao intervalo da classe.

h - Li - Ls

29
Análise Estatística de Dados

6 Gráficos
Para analisar os dados de um negócio de uma maneira mais clara e assertiva
e visualizar as informações mais completas, podemos usar as ferramentas de
construção de gráficos. Eles identificam padrões, resultados e comparam medidas
de forma mais rápida e simples, em relação a outras medidas estatísticas.

Os gráficos podem mostrar o desempenho do negócio em determinado


período de tempo, evidenciando os pontos que precisam ser otimizados e
proporcionando aos setores da organização elaborar um planejamento eficiente,
baseando-se em dados consistentes.

Gráficos são métodos comuns para ilustrar visualmente os


relacionamentos nos dados. A finalidade de um gráfico é apresentar
dados que são muito numerosos ou complicados para serem
descritos adequadamente no texto e em menos espaço. Os gráficos
podem mostrar tendências dos dados coletados ou revelarem
relações entre variáveis.

Para gerar gráficos é preciso seguir alguns princípios:

1. A condição básica para um gráfico é que ele seja claro e legível.


2. Fornecer uma legenda clara que descreva as informações contidas no gráfico.
3. Um gráfico pode conter várias informações, como: título, nota de rodapé,
campo de dados, legendas e fonte.
4. Os símbolos de plotagem precisam ser distintos, legíveis e fornecer um bom
contraste entre a figura em primeiro plano e o plano de fundo.

Agora vamos descrever os tipos de gráficos.

a) Diagrama de dispersão: usamos para mostrar a relação entre duas variáveis.


Por exemplo, vamos fazer o gráfico de dispersão para analisar a relação entre
a quantidade de vendas por quantidade de clientes. Analise o Gráfico 1 a
seguir.

30
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo

GRÁFICO 1: GRÁFICO DE DISPERSÃO QUANTIDADE


DE VENDAS X QUANTIDADE DE CLIENTES

FONTE: O autor.

b) Gráfico de linhas: este gráfico representa os dados contínuos como tempo,


temperatura ou pressão. Ele traça uma série de valores relacionados que
descrevem uma mudança em Y como uma função de X.

Vamos usar um pequeno exemplo: em um banco foi avaliado o rendimento


mensal de dois clientes chamados de João e Maria. O rendimento varia entre os
meses de abril e outubro. Cada mês tem uma variação diferente. Então, vamos
avaliar através de um gráfico de linhas o comportamento desses rendimentos.

GRÁFICO 2: GRÁFICO DO RENDIMENTO MENSAL

FONTE: O autor.

31
Análise Estatística de Dados

c) Gráfico de barras:
• Este gráfico possui colunas horizontais ou verticais.
• Quanto maior o comprimento das barras, maior o valor.
• Usa-se com frequência para comparar um único valor entre vários grupos, e
comparar variável qualitativa ou quantitativa discreta.

Com base nos exemplos dos clientes do banco vamos construir os próximos
gráficos de barras. A seguir, o exemplo do gráfico horizontal para os rendimentos
mensais.

GRÁFICO 3: GRÁFICO DO RENDIMENTO MENSAL (HORIZONTAL)

FONTE: O autor.

GRÁFICO 4: GRÁFICO DO RENDIMENTO MENSAL (VERTICAL)

FONTE: O autor.

d) Histograma:
• Este gráfico não contém intervalos entre as colunas.
• Usa-se para representar dados da medição de uma variável contínua.
• Os pontos de dados individuais são agrupados em classes para mostrar a
frequência dos dados em cada classe.

32
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo

• A frequência é medida pela área da coluna.

O Gráfico 5 apresenta um exemplo de histograma do gráfico do rendimento


mensal do cliente João.

GRÁFICO 5: GRÁFICO DO RENDIMENTO MENSAL - JOÃO

FONTE: O autor.

e) Gráfico de setores (gráfico de pizza): No gráfico de setores o tamanho da


fatia representa cada categoria estudada e ela é proporcional à frequência
relativa de cada categoria. Cada fatia possui a sua respectiva percentagem.
Agora temos o exemplo em que para os meses de abril até outubro foi
calculada a percentagem do investimento de um determinado cliente.

GRÁFICO 6: GRÁFICO DO RENDIMENTO MENSAL

FONTE: O autor.

33
Análise Estatística de Dados

É importante também escolher o tipo de gráfico correto com


base no tipo de dados a serem apresentados.

1. Se as variáveis ​​independentes e dependentes forem numéricas, o


ideal é usar diagramas de linhas ou diagramas de dispersão.
2. Para variável dependente numérica, use gráficos de barras.
3. Para proporções, use gráficos de barras ou gráficos de pizza.

7 Medidas-Resumo
Depois que vimos as fases iniciais do planejamento e coleta dos dados, e as
maneiras como esses dados podem ser agrupados e visualizados, agora chegou
o momento de estudarmos como os métodos estatísticos descritivos podem nos
ajudar a avaliar os dados e extrair a maior quantidade de informações possível.

Vamos lá?

Quando concluímos a fase de agrupamento dos dados entramos na outra


etapa do processo: a análise dos dados. Nesta fase são avaliados os dados e
extraídas as informações que neles estão contidas.

Porém, fica difícil avaliar todos os dados de uma única vez. Então, para
facilitar nossas análises, podemos usar as medidas que resumem os dados, elas
apresentam somente o valor que represente toda série dos dados (MORETTIN,
2017).

Essas medidas podem ser divididas em Medidas de Posição e Medidas de


Dispersão.

Medidas de Posição:

Método pelo qual é determinada a posição que um valor específico possui


dentro de um determinado conjunto. Também denominadas como as medidas
estatísticas que dão uma ideia condensada de todo o conjunto de dados, podendo
ser conhecidas como medidas de localização.

34
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo

Pode-se definir as medidas de dispersão como valores que


representam a tendência de concentração dos dados observados.

As principais medidas de tendência central são: Média, Mediana e Moda.

a) Média aritmética ( ): representa uma característica do conjunto de dados. Ela


fornece à empresa uma situação do quanto ela se situa em relação ao mercado.
Por exemplo, ao analisar a quantidade de roupas vendidas semanalmente em
uma loja, podemos ter a média geral das vendas realizadas, e assim ter um
controle maior do estoque.

Segundo Morettin (2017), a média é dada pela soma das observações, dividida
pelo número delas.

Por exemplo, a média aritmética desse conjunto de dados 3,4,7,8 é:

(3 + 4 + 6 + 9) / 4 = 5,5.

A fórmula do cálculo da média amostral é dada por:

b) Média Aritmética Ponderada: é calculada multiplicando cada valor do conjunto


de dados pelo seu respectivo peso, em seguida a soma desses valores será
dividida pela soma dos pesos. É usada quando os dados estiverem agrupados,
isto é, na forma de distribuição de frequências.

Ou

35
Análise Estatística de Dados

Depois que vimos a definição de média e média ponderada, vamos analisar


alguns exemplos onde são usadas as técnicas apresentadas.

A seguir temos uma Tabela 3 que apresenta as notas de uma turma de


matemática depois da aplicação da prova semestral.

TABELA 3 - NOTAS

Aluno 1 6,7

Aluno 2 7
Aluno 3 8,7
Aluno 4 9,4
Aluno 5 5,3
Aluno 6 3,1
FONTE: O autor.

Agora vamos analisar a Tabela 3 e calcular a média aritmética das notas. O


cálculo é dado pela seguinte forma:

Vamos estudar outro exemplo de aplicação:

• Cinco baldes contêm 4 litros de água cada um.


• Três baldes com 2 litros de água cada um.
• E ao final, dois outros contêm 5 litros de água cada um.

Se toda essa água fosse distribuída igualmente em cada um dos


baldes, com quantos litros ficaria cada um?

Então, como faríamos esse cálculo?

36
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo

c) Mediana : Colocando os valores em ordem crescente, define-se


mediana como o elemento que ocupa a posição central (FONSECA, 1996). A
mediana de um conjunto de dados é o valor que divide um conjunto de dados
(ordenados) em dois subconjuntos de mesmo número de elementos.

Obs.: No caso de o número de elementos do conjunto for ímpar, então a


mediana será exatamente o valor “do meio”. Por exemplo, na sequência de
dados: 13, 11, 17, 20, 18, 21 e 20. Qual o valor da mediana? Primeiramente,
temos que ordenar os valores: 11, 13, 14, 17, 18, 20 e 21. Agora, notamos que
o número de elementos é igual a 7, ou seja, ímpar. Então a mediana é o valor
central, no nosso caso o valor mediano é o 17.

No caso de o número de elementos for par, então a mediana será exatamente a


média “dos dois valores do meio”. Para a sequência de dados anterior 3, 5, 7, 9.
Qual seria o valor mediano? É importante verificar que o número de elementos é
par. Logo, vamos somar os elementos centrais e dividir por dois.

d) Moda : Podemos definir moda, segundo Fonseca (1996), como o valor


(ou valores) que ocorre com maior frequência em um conjunto de dados.
Por exemplo, o salário recebido pelo maior número de empregados em uma
determinada organização é considerado o salário modal.

A moda pode ser definida em unimodal, bimodal, amodal e multimodal.

• Unimodal: o conjunto de valores contém apenas uma única moda.


Exemplo: A distribuição das notas de uma turma foi: 5,4; 7,8; 9,5; 9; 4,3; 5,1;
2,6; 8,5; 9; 9. Podemos notar que apenas a nota 9 é repetida, ou seja, o conjunto
contém apenas uma única moda. Logo, o conjunto é unimodal.

• Bimodal: quando um valor se repete duas vezes na mesma quantidade,


chamamos de bimodal.
Exemplo: Em uma distribuição de peso de 15 pessoas: 63; 67; 70; 69; 81; 57; 63;
73; 68; 63; 71; 71; 71 e 83, possui duas modas (63 e 71 kg), isto é, ela é bimodal.

• Amodal: Em algumas circunstâncias no conjunto não existem valores


repetidos, denominamos de amodal.

37
Análise Estatística de Dados

Exemplo: O peso (em kg) correspondente a oito pessoas: 56; 78; 59; 74; 81; 82;
91 e 70 - este conjunto de valores não possui uma moda, então podemos chamar
de amodal.

• Multimodal: Em uma distribuição pode acontecer de vários valores se


repetirem.
Exemplo: Na distribuição de peso temos o conjunto de dados: 63; 67; 51; 70;
69; 81; 57; 63; 73; 68; 51; 63; 71; 71; 71; 83; 64; 64. Nesta situação temos vários
valores que se repetem: 51, 63, 64 e 71. Então, neste caso temos a distribuição
multimodal.

8 Medidas de Dispersão
Na seção anterior estudamos as medidas de posição. Porém, usar
somente as medidas de posição pode não ser muito confiável, pois os dados
podem conter uma grande variedade de valores. Agora vamos estudar as
medidas de posição e como elas se comportam.

Segundo Morettin (2017), resumir o conjunto de dados por uma única medida
de posição central pode esconder informações importantes sobre a variabilidade
do conjunto de observações. As medidas de posição servem para verificar a
representatividade das medidas de posição, pois é muito comum encontrar
distribuições que possuem a mesma média, porém são compostas de maneira
diferentes (FONSECA, 1996).

Vamos analisar as distribuições:

a) 17, 17, 17, 17, 17


b) 15, 10, 10, 20, 30

A média dos conjuntos a e b é igual a 17. O conjunto “a” possui a média


inteira concentrada em 17, enquanto os valores do conjunto “b” se dispersam em
torno do mesmo valor. Isto é, os conjuntos contêm dispersões diferentes.

Nesta seção iremos discutir sobre as principais medidas de dispersão. Elas


são citadas a seguir:

a) Amplitude Total ( )

É a diferença entre o maior e o menor valor da série. Logo, podemos definir como

38
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo

Exemplo: Para a série 5, 12, 15, 30, 40

Entretanto, a amplitude total é muito limitante, visto que depende


apenas dos valores extremos, e não é afetada pela dispersão dos
valores internos (FONSECA, 1996).

b) Desvio médio ( ): é definido como sendo a distância entre qualquer valor


do conjunto de dados em relação à média aritmética do conjunto de dados.

=(x- ).

c) Desvio Padrão (S): é a medida que fornece o grau de dispersão de um


conjunto de dados. Ele indica o quanto uma distribuição de dados é uniforme.
Um desvio padrão elevado significa que os dados se espalham mais
amplamente a partir da média, em que um desvio padrão baixo sinaliza
que mais dados se alinham com a média.

O objetivo é determinar a dispersão dos valores em relação à média. Sua


fórmula é expressa pela raiz quadrada da média aritmética dos quadrados dos
desvios, isto é:

Quanto mais próximo de 0 for o desvio padrão, mais homogêneos


são os dados.

Em que:
• representa cada uma das observações do conjunto de dados;

39
Análise Estatística de Dados

• é a média do conjunto de dados;


• n é o número total de observações do conjunto de dados.

Exemplo: A quantidade de retrovisores de moto vendidos em uma loja durante


uma semana teve a distribuição: 10, 14, 13, 15, 16, 18 e 12 retrovisores.

Agora vamos calcular o desvio padrão:

Então, podemos concluir que a loja pode ter vendido 2,65 retrovisores a mais ou a
menos em torno da média.

d) Variância ( ): definimos a variância como a medida de dispersão que mostra


a distância de cada valor do conjunto de dados em relação à média desse
conjunto.

A variância é o valor do desvio-padrão elevado ao quadrado, isto é,

Exemplo: Vamos usar os mesmos valores do exemplo anterior. Neste caso a


variância será dada por:

É importante salientar que variância tem o propósito de mensurar o


distanciamento de seus dados ou observações em relação à média. Com base
nestas análises a empresa pode inferir quando seus parâmetros estão fora do
esperado, isto é, quando um produto não está sendo produzido como especificado,
por exemplo.

40
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo

Por exemplo, como podemos usar a variância para otimizar a


produção de uma empresa?

Em uma linha de produção de cabos de ferro pode ocorrer
uma pane na máquina que molda o tamanho ou espessura dos
cabos. Então, vai haver uma variação do formato dos cabos, que
modificará o resultado final esperado. Como podemos verificar
estatisticamente esse erro?

e) Coeficiente de Variação (cv): medida usada para comparar a variação de


conjuntos de dados que diferem na média ou são medidos em grandezas
diferentes (unidades de medição diferentes). O coeficiente de variação é
definido como o quociente entre o desvio-padrão e a média, sendo expresso
em porcentagem

Exemplo: Vamos usar os mesmos dados do exemplo dos retrovisores. Neste


caso o coeficiente de variação é dado por:

Isto é, a variabilidade é de 18,93% dos dados em relação à média.

f) Percentis: denominamos percentis as medidas que dividem a amostra em 100


partes iguais (FONSECA, 1996). Como citado em seções anteriores, a mediana
divide em duas partes iguais o conjunto de dados, isto é, fraciona em 50% dos
dados. Mas existem outras divisões dos valores que podem apresentar quaisquer
posições em uma distribuição ordenada de dados. Como:

● 1º percentil determina o 1% menor dos dados.


● 25º percentil é o primeiro quartil.
● 50º percentil é a mediana.
● 10º percentil é o primeiro decil.

41
Análise Estatística de Dados

Os Percentis mais usuais são chamados de Quantis.

g) Quantis: em algumas situações a média e o desvio padrão não são medidas


adequadas para representar um conjunto de dados (MORETTIN, 2017), pois:

● Pode ser facilmente afetado por valores extremos.


● Apenas com esses dois valores não é possível ter ideia da simetria ou
assimetria da distribuição dos dados.

Então, com o propósito de contornar esses problemas, usa-se com frequência os


quartis, dividindo-se um conjunto de valores em quatro partes iguais. Logo:

● 1º Quartil (Q1): divide 25% dos elementos. O valor é situado de tal modo na
série que uma quarta parte (25%) dos dados é menor que ele e as três quartas
partes restantes (75%) são maiores.
● 2º Quartil (Q2): divide os dados em 50%, isto é, o valor da mediana. O valor
é situado de maneira que deixa metade (50%) dos dados à esquerda dele e a
outra metade à direita.
● 3º Quartil (Q3): é o valor situado na série, onde as três quartas partes (75%)
dos dados são menores e uma quarta parte restante (25%) é maior.

Os quartis de um conjunto de dados podem ser representados graficamente por


BoxPlots (MORETTIN, 2017). Um gráfico pode ser horizontal ou vertical. A Figura
1 apresenta um exemplo de gráfico Boxplot.

FIGURA 1: BOXPLOT

FONTE: <http://www.portalaction.com.br/sites/default/files/resize/
EstatisticaBasica/figuras/boxplot1-700x354.png> Acesso em: 12 out. 2018.

42
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo

Os limites do boxplot são calculados da seguinte forma:


Limite inferior: Q1-1,5*(Q3-Q1)
Limite superior: Q3+1,5*(Q3-Q1)

Vamos conceituar algumas características deste tipo de gráfico:

• Boxplot é formado pelo primeiro e terceiro quartil e pela mediana.


• Os valores da amostra compreendidos entre o 1º e o 3º quartis são
representados por um retângulo (caixa) com a mediana indicada por uma
barra.
• Esse gráfico também pode identificar os dados de outliers.

O espaçamento entre as diferentes partes da caixa indica o grau de


dispersão e se a distribuição de dados é simétrica ou inclinada.

O boxplot também pode ser usado para comparar dois ou mais grupos, em
que duas ou mais caixas são colocadas lado a lado e se compara a variabilidade
entre elas.

Outliers

Outliers: O que são? Acesse o site para saber mais!


<https://goo.gl/v7uXge> Acesso em: 10 out. 2018.

As observações que apresentam um grande afastamento das restantes


ou são inconsistentes com elas são habitualmente designadas por outliers.
Estas observações são também designadas por observações “anormais”,
contaminantes, estranhas, extremas ou aberrantes.

A diferença entre os quartis (Q3-Q1) é uma medida da


variabilidade dos dados.

43
Análise Estatística de Dados

Agora vamos analisar um exemplo.

A Tabela 4 contém dados retirados de uma fábrica de usinagem, e estamos


com interesse de investigar se os dados contêm outliers.

TABELA 4: DADOS DE USINAGEM

Usinagem
903,88 1036,92 1098,04 1011,26
1020,70 915,38 1014,53 1097,79
934,52 1214,08 993,45 1120,19
860,41 1039,19 950,38 941,83
936,78 1086,98 1144,94 1066,12

FONTE: <https://goo.gl/eAgi1o> Acesso em: 14 dez. 2018.

FIGURA 2: BOXPLOT – DADOS DE USINAGEM

FONTE: <http://www.portalaction.com.br/sites/default/files/resize/
EstatisticaBasica/figuras/ex3.1.1-750x371.png> Acesso em: 12 out. 2018.

Também podemos usar vários boxplots no mesmo momento. Quando


queremos analisar mais de uma variável é possível colocar vários no mesmo
gráfico.

Vamos analisar o seguinte exemplo:

Uma indústria produz uma peça automotiva cujo valor de referência é 75cm.
Após verificar lotes com peças fora de especificação, enviaram duas equipes

44
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo

de trabalhadores (A e B) para um treinamento. Para verificar a eficiência do


treinamento, foram selecionadas 10 peças produzidas pelas equipes A e B e 10
peças produzidas pelas equipes C e D que não participaram do treinamento.

TABELA 5: TAMANHO DAS PEÇAS


A B C D
75,27 74,93 74,94 74,75 75,93 73,34 75,98 76,75
75,33 74,72 75,25 74,65 76,95 74,04 75,61 76,78
74,58 74,53 75,44 74,94 75,47 75 74,2 74,74
75,01 75,32 74,62 74,92 73,6 76,18 76,44 72,58
75,71 74,05 75,35 75,46 74,85 75,33 76,84 72,86
FONTE: <http://www.portalaction.com.br/estatistica-
basica/31-boxplot> Acesso em: 12 out. 2018.

FIGURA 3: BOX PLOT DO TAMANHO DAS PEÇAS

FONTE: <http://www.portalaction.com.br/sites/default/files/resize/
EstatisticaBasica/figuras/ex3.1.3-500x500.png> Acesso em: 12 out. 2018.

45
Análise Estatística de Dados

Atividades de Estudos:

1) Marque verdadeiro ou falso para as opções.

População: Conjuntos de todos os elementos que possuem


pelo menos uma característica comum. Porém, todos os seus
elementos têm que ser novos. ( )
Amostra: Característica que descreve a população. ( )
Variável: Atributo que deve ser analisado da população. ( )
Estimador: Característica numérica estabelecida na amostra. ( )

Qual a sequência correta?

a) FFVV.
b) FVVV.
c) VVVV.
d) FFVF.

2) Como poderíamos classificar uma variável quantitativa:


a) São usados para quantificar o problema por meio da geração
de dados numéricos.
b) São usados para quantificar o problema por meio da geração
de dados, onde os problemas somente podem conter duas
variáveis.
c) Dados quantitativos podem ser usados para dados numéricos,
porém não pode ultrapassar o limite de 100 dados.
d) Os estudos com variáveis quantidade não produzem resultados
bons, por esse motivo não têm respaldo junto com a comunidade
científica.

3) Sobre as distribuições de frequência, marque a opção correta.


a) É uma forma de agrupar os dados coletados em um estudo.
b) É uma forma de agrupar os dados coletados do estudo, porém
somente em formato de gráfico.
c) Nas distribuições de frequências podemos somente usar
tabelas de dupla entrada.
d) As distribuições de frequências não são aconselháveis para
usar em uma empresa, por conta da sua falta de consistência.

46
Capítulo 1 Análise Estatística de Dados no Mundo Corporativo

4) Qual dos gráficos citados abaixo podemos usar para verificar a


relação entre as variáveis?
a) Dispersão.
b) Linha.
c) Pizza.
d) Coluna.

5) Qual a medida que mostra o grau de variação dos dados?


a) Desvio-padrão.
b) Desvio-médio.
c) Média.
d) Moda.

Algumas Considerações
Este capítulo apresentou conceitos sobre a importância da análise de
dados e como ela é fundamental para o negócio. Com base nas informações
extraídas da análise de dados, a organização pode ficar à frente de suas
concorrentes, acompanhar as tendências do mercado e auxiliar na tomada de
decisão de todas as áreas da empresa. Podendo montar estratégias que têm o
foco no cliente, produto, ou alavancar os lucros.

No início do capítulo apresentamos todos os conceitos e ferramentas


que fornecem a pesquisa de mercado. Ela proporciona meios de consultas de
opiniões, como entrevista e questionário, e a partir deles podemos conhecer o
ponto vista que os consumidores podem ter de um produto que está em fase
de desenvolvimento ou sobre o perfil de uma organização no geral.

Depois discutimos as formas de consolidar os dados coletados e sobre os


principais conceitos da estatística descritiva. Vimos como ela fornece técnicas
voltadas para fazer a extração das informações e gerar relatórios confiáveis.
Ao usar técnicas estatísticas como a média é possível fazer comparações entre
a organização e seus concorrentes, e com a variância podemos verificar se os
produtos produzidos estão de acordo com as especificações da empresa.

Com os gráficos podemos analisar de forma mais simples o comportamento


das informações e fazer inferências sobre os dados colhidos. Porém, sempre
que utilizarmos gráficos é essencial que juntamente a eles tenha alguma
técnica de estatística, pois é somente dessa maneira que podemos garantir a
confiança na análise.

47
Análise Estatística de Dados

Referências
AZEVEDO, Gustavo Carrer. Pesquisa de Mercado: São Paulo: Sebrae, 2004.
14 slides, color. Disponível em: <http://www.portalaction.com.br/sites/default/files/
resize/EstatisticaBasica/figuras/ex3.1.3-500x500.png>. Acesso em: 12 out. 2018.

BRASIL, Critério de Classificação Econômica. Associação Nacional de Empresas


de Pesquisa. Dados com base no levantamento socioeconômico, 2000.

CERVO, Amado; BERVIAN, Pedro A. Metodologia científica. São Paulo:


Prentice Hall, 2002. p. 242.

DOS SANTOS, Bruna Maria et al. A importância e o uso da estatística na


área empresarial: uma pesquisa de campo com empresas do município de Elói
Mendes-MG, 2016.

FONSECA, Jairo Simon da; MARTINS, Gilberto de Andrade. Curso de


estatística. São Paulo: Atlas, 1996.

GRESSLER, Lori Alice. Introdução à pesquisa: projetos e relatórios. São Paulo:


Loyola, 2003.

MORETTIN, Pedro Alberto; BUSSAB, WILTON OLIVEIRA. Estatística básica.


Editora Saraiva, 2017.

PINHEIRO, Roberto Meireles. Pesquisa de mercado. Editora FGV, 2015.

PROVOST, Foster; FAWCETT, Tom. Data Science for Business: What you
need to know about data mining and data-analytic thinking. " O'Reilly Media,
Inc.", 2013.

TECH, Canal. Big Data: Entenda as principais vantagens de utilizar na sua


empresa. Disponível em: <https://canaltech.com.br/big-data/o-que-e-big-data>.
Acesso em: 7 out. 2018.

TOTVS. O que é Big Data? Disponível em: <https://www.totvs.com/blog/big-


data/>. Acesso em: 7 out. 2018.

WEBSTER, A. L. Estatística aplicada à Administração e Economia; São


Paulo: McGraw-Hill, 2006.

48
C APÍTULO 2
Princípios Fundamentais do Data
Science Para Negócios
A partir da perspectiva do saber-fazer, neste capítulo você terá os seguintes
objetivos de aprendizagem:

� Entender os processos fundamentais e elencar suas diferenças principais, das


ferramentas usadas no Data Science.

� Aprender as técnicas de mineração de dados.

� Aprender os fundamentos da modelagem de dados.

� Aprender sobre a técnica de modelos de regressão.


Análise Estatística de Dados

50
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios

1 Contextualização
A aprendizagem supervisionada pode ser usada em vários contextos como,
por exemplo, para classificar clientes em potenciais devedores ou não devedores,
ou prever a chance de os clientes do negócio aprovarem a atualização de um
aplicativo interno. As técnicas de classificação e previsão são as mais usadas
no aprendizado supervisionado, porém elas precisam de dados a priori para que
possam fazer as análises.

Nem sempre temos dados a priori de um evento, por exemplo, tentar


classificar em grupos a quantidade de clientes que irão consumir o novo produto
fabricado. Neste caso não temos os dados iniciais da qualidade e aceitação
desse produto por parte dos clientes, pois ele é novo e não tem informação, é
preciso um tempo para que esses dados sejam coletados e seja feita uma análise
supervisionada. Então, nestes casos (que não são poucos) usamos o aprendizado
não supervisionado. Essa técnica não necessita de dados a priori.

Na aprendizagem supervisionada temos uma ferramenta importante,


chamada mineração de dados. Ela pode ser definida como o processo capaz de
encontrar erros, padrões e correlações em grandes volumes de dados para extrair
informações e prever resultados. Com base nesta técnica podemos avaliar lucros,
reduzir custos e aperfeiçoar o relacionamento entre clientes e empresa.

O processo da mineração de dados contém vários estágios que variam


desde a aplicação da tecnologia da informação (TI), com uso de algoritmos
automatizados e avaliação de padrões a partir da inferência realizada nos dados,
até o conhecimento prévio dos objetivos de uma organização que um analista
deve possuir. Este último é de grande importância, pois somente uma pessoa com
experiência do negócio pode avaliar de maneira concreta os dados extraídos com
a mineração.

No segundo capítulo introduzimos os conceitos de aprendizagem


supervisionada e não supervisionada.

No terceiro capítulo abordaremos todo o processo de mineração de dados.


Neste capítulo são introduzidas as etapas de mineração de dados, e discutimos
os tipos comuns de tarefas de mineração.

No quarto capítulo falaremos sobre os modelos de regressão, técnica de


estatística usada para fazer previsões.

51
Análise Estatística de Dados

2 Aprendizagem Supervisionada e
Aprendizagem não Supervisionada
Iniciaremos o capítulo com um exemplo:

Vamos considerar duas questões que podemos perguntar para os clientes de


uma organização. A primeira é: “Nossos clientes espontaneamente se enquadram
em diferentes grupos?”

Por exemplo, eles se dividem em clientes que aprovam o serviço (Grupo 1)


ou clientes que não aprovam os serviços oferecidos (Grupo 2).

A princípio não foi feito um critério de divisão ou agrupamento dos clientes.


Eles naturalmente se enquadram nos dois grupos. Logo, para a mineração de
dados podemos resolver esse problema a partir de uma aprendizagem não
supervisionada.

Agora vamos analisar a próxima pergunta.

“É possível encontrar grupos de clientes que têm uma maior probabilidade de


cancelar o serviço antes do vencimento de seus contratos?”

Bom, para essa pergunta temos um critério: encontrar grupos de clientes


que têm uma maior probabilidade de cancelar o serviço antes do vencimento
de seus contratos.

Aqui temos um grupo definido: O cliente sairá antes do contrato terminar?

Neste caso, o agrupamento está sendo feito pelo motivo específico: tomar
medidas com base na probabilidade de o cliente cancelar o serviço. Podemos
chamar esse tipo de problema de mineração de dados de aprendizagem
supervisionada.

A diferença entre essas perguntas é sutil, porém muito


importante:

Se já existir uma forma a priori de separar esses grupos, o


problema pode ser formulado como um aprendizado supervisionado.

52
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios

2.1 Aprendizagem Supervisionada


Uma forma intuitiva de pensar sobre a extração de padrões de dados em uma
maneira supervisionada é tentar segmentar a população de estudo em subgrupos
que têm diferentes valores para a variável de destino e, segundo Provost (2013),
dentro do subgrupo as instâncias têm valores para a variável de destino.

A segmentação pode fornecer um conjunto de padrões de segmentações


compreensíveis.

Vamos analisar o seguinte exemplo:

Suponhamos que queremos fazer um estudo que envolva os profissionais de


meia idade que moram em São Paulo, e inicialmente foi coletado que em média
temos uma taxa de 5% de fumantes dentro dessa população.

Especificamente, o termo “profissionais de meia-idade que moram na


cidade de São Paulo” é a definição do segmento de interesse (que faz referência
a alguns atributos) e “uma taxa de fumantes de 5%” descreve o valor previsto
da variável-alvo para o segmento.

Em muitos estudos o interesse é aplicar a mineração de dados quando temos


muitos atributos e não tenho certeza exatamente do que os segmentos devem ser.

Exercício proposto: Em nosso problema de previsão de fumantes,


quais são os melhores segmentos para prever o câncer de
pulmão?

Bom, agora vamos analisar alguns conceitos fundamentais:

● Como podemos julgar se uma variável contém informações importantes sobre


a variável de destino?
● Quantas variáveis serão necessárias?

53
Análise Estatística de Dados

Para responder essas perguntas é necessário primeiramente analisar o


banco de dados, e quais informações queremos extrair, ou seja, a expertise do
pesquisador é fundamental para que sejam extraídas as variáveis de interesse do
estudo.

Voltando ao problema dos fumantes, consideremos apenas a seleção do


atributo mais informativo. Então, como escolheremos esse atributo?

Quais das variáveis abaixo podem ser escolhidos como atributo?

● Histórico familiar?
● Tipo de trabalho?
● Local de residência?
● Renda?
● Idade?

O primeiro passo é examinar de forma cuidadosa uma maneira útil de


selecionar variáveis informativas e, em seguida, a partir dessa técnica, pode ser
usada repetidamente para construir uma segmentação supervisionada.

As variáveis multivariadas para segmentação supervisionada


são apenas uma aplicação para selecionar variáveis informativas.

Quando temos conjuntos muito grandes de atributos, pode ser útil


selecionar um subconjunto de atributos informativos. Fazer isso pode reduzir
substancialmente o tamanho de um conjunto de dados, e podemos melhorar a
precisão do modelo resultante.

Analisaremos mais um exemplo:

O próximo exemplo pertence a Provost (2013, p. 57).

Para mostrar o uso do ganho de informação vamos usar um exemplo simples,


do repositório de conjunto de dados de aprendizado de máquina da Universidade
da Califórnia em Irvine. Esse conjunto de dados descreve cogumelos comestíveis
e venenosos retirados do Audubon - Guia de Campo da Sociedade para
Cogumelos Norte-Americanos. A partir da descrição:

54
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios

● Este conjunto de dados inclui descrições de amostras hipotéticas


correspondentes a 23 espécies de cogumelos.
● Cada espécie é identificada como definitivamente comestível, definitivamente
venenosa, ou de comestibilidade desconhecida e não recomendada.
● Esta última classe foi combinada com a venenosa.
● O Guia claramente afirma que não há regra simples para determinar a
comestibilidade de um cogumelo;

Para mais informações sobre a pesquisa e a Universidade da


Califórnia, em Irvine, acesse o site: <http://archive.ics.uci.edu/ml/
index.php> Acesso em: 17 jan. 2019.

Cada dado (instância) é uma amostra de cogumelo, descrita em termos de


amostra observável (atributos).

Para o exemplo dado, cada atributo assume um único valor discreto (por
exemplo, cor do cogumelo = preto). Foram utilizados 5.644 exemplos do conjunto
de dados, compreendendo 2.156 venenosos e 3.488 cogumelos comestíveis.

Vamos usar o ganho de informação para responder à pergunta:

“Qual único atributo é o mais útil para distinguir cogumelos comestíveis


(Comestível = Sim) dos venenosos (Comestível = Não)?”

Definir este atributo refere-se a um problema de seleção. Em problemas


muito maiores, poderíamos imaginar a seleção dos dez melhores 50 atributos de
várias centenas ou milhares, e muitas vezes você quer fazer isso se suspeitar que
há muitos atributos para o seu problema de mineração. Aqui, por simplicidade,
encontraremos o melhor atributo único em vez dos dez primeiros. Como agora
temos uma maneira de medir o ganho de informação: através do atributo
que fornece o maior ganho de informação.

O aprendizado supervisionado precisa que os dados sejam rotulados para


que se possa identificar padrões, isto é, para que a aprendizagem supervisionada
funcione é preciso inserir os valores de entrada, no mesmo momento em que
antecipa o valor de saída esperado, conhecido como sinal de supervisão
(PROVOST, 2013). Os dados precisam ser suficientes sobre o estudo em
interesse. A aprendizagem supervisionada possui duas técnicas: classificação e
previsão.

55
Análise Estatística de Dados

Na aprendizagem supervisionada é necessário que se tenha


os dados iniciais, e também dados que contenham informações em
interesse.

Vamos analisar o exemplo:

Pode ser útil saber se um determinado cliente permanecerá


por pelo menos seis meses sendo cliente de um negócio, porém
nos dados históricos da organização esta informação não existe ou
está incompleta. Neste caso, nossos dados não têm informações
suficientes para uma análise supervisionada.

O que são dados rotulados?

Os dados cujas respostas de destino já são conhecidas são


denominados dados rotulados.

Cada observação nos dados precisa conter dois elementos:

● Destino: A resposta que você deseja prever.


● Variáveis/recursos: são atributos de exemplo que podem ser
usados para identificar padrões para prever a resposta de destino.

FONTE: <https://docs.aws.amazon.com/pt_br/machine-learning/latest/
dg/collecting-labeled-data.html> Acesso em: 16 nov. 2018.

2.2 Classificação
O objetivo dessa técnica é classificar um indivíduo em uma classe ou
conjunto (WEBB, 2002). As classes são mutuamente exclusivas, de acordo com
Provost (2013).

Um exemplo prático de classificação seria:

56
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios

“Os clientes poderão comprar ou não o novo produto lançado?”

Neste exemplo as classes poderiam ser chamadas de os clientes: comprarão


ou não.

Nos problemas de classificação é produzido um modelo que, dado um novo


elemento, determina a qual classe esse indivíduo pertence (CASTANHEIRA,
2008).

Um modelo de pontuação aplicado a um determinado elemento


representa a probabilidade de esse indivíduo pertencer a cada
classe.

Em nosso exemplo de resposta ao cliente, um modelo de


pontuação pode avaliar cada cliente individualmente e produzir uma
pontuação da probabilidade de cada um comprar ou não o produto.
Classificação e pontuação estão bastante relacionadas.

2.3 Regressão
A regressão tenta estimar ou prever para cada indivíduo o valor numérico de
alguma variável que pertença a ele (CHARNET, 1999).

Um exemplo de regressão seria:

"Quantas vezes um determinado cliente utilizará o serviço?" (Variável).

Logo, o intuito é prever a quantidade de vezes que o serviço será usado.


Podemos gerar o modelo a partir dos dados históricos da quantidade de uso de
serviço. O objetivo do modelo é encontrar a relação entre uma variável dependente
(denotada por Y) e uma série de outras variáveis ​​​​independentes (denotadas por
X) (PROVOST, 2013).

57
Análise Estatística de Dados

Exercício: No seguinte exemplo: Queremos analisar se o


número de casos de dengue aumenta com a chegada da
quadra invernosa? Quem são nossas variáveis dependente e
independente?

A regressão ajuda os gestores de negócio a avaliar os ativos


e a entender as relações entre variáveis, como os preços de
um determinado produto e valor desse produto que está sendo
comercializado pelas empresas.

Regressão está relacionada à classificação, mas os dois são


diferentes. Informalmente, classificação prediz se algo vai acontecer,
enquanto a regressão prevê como muita coisa vai acontecer,
segundo Provost (2013).

Classificação X Regressão

Agora vamos analisar outros exemplos.

"O cliente vai comprar o serviço?"

Este é um problema de classificação, porque tem um alvo binário (o cliente


compra ou não).

“Qual dos pacotes de serviços (X1, X2 ou nenhum) o cliente pode escolher?"

Aqui temos outro problema de classificação, com um alvo de três valores.

Agora vamos analisar outro exemplo.

58
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios

"Quantas vezes o cliente frequentará uma loja durante o ano?"

Bom, este é um problema de regressão, porque possui um destino numérico


(PROVOST, 2013). A variável de destino é a quantidade de vezes que o cliente
frequentará a loja.

2.4 Aprendizado de Máquina Não


Supervisionado
Algoritmos de aprendizado de máquina não supervisionados inferem padrões
de um conjunto de dados sem referência a resultados conhecidos ou rotulados,
de acordo com Monard (2003). As técnicas de aprendizado de máquina não
supervisionado não podem ser aplicadas diretamente a problemas como de
regressão ou classificação (PROVOST, 2013), pois não teremos dados suficientes
para aplicar esses métodos.

O aprendizado não supervisionado pode ser usado para descobrir a estrutura


subjacente dos dados sem a necessidade de existir um conjunto de dados a priori.
Ele é usado frequentemente na análise exploratória de dados.

Por que o aprendizado não supervisionado é importante?


Ele extrai padrões que não são conhecidos previamente nos
dados, visto que esses padrões não possuem boas aproximações
e o aprendizado de máquina supervisionado não consegue detectá-
los. E também como não temos os dados iniciais, não temos como
identificar o nível de precisão dos resultados finais, e assim o
aprendizado de máquina supervisionado torna-se mais aplicável aos
problemas do cotidiano.

Então, usamos o aprendizado de máquina não supervisionado quando não


temos dados a priori. Vamos analisar a próxima pergunta.

“Como determinar um mercado-alvo para um produto totalmente novo que


sua empresa nunca desenvolveu antes?”

59
Análise Estatística de Dados

Neste caso temos dados sobre o produto? Não. Então, não temos os
dados iniciais para fazer algum tipo de previsão ou classificação, e neste caso o
aprendizado não supervisionado é o mais indicado.

Conforme Provost (2013), aprendizado de máquina não supervisionado


possui alguns métodos, como:

1. Clustering: permite segmentar automaticamente o conjunto de dados em


grupos, de acordo com a similaridade (HAIR, 2009). Porém, em algumas
vezes, a Análise de Cluster superestima a semelhança entre os grupos e
não trata os pontos de dados como indivíduos. Por esse motivo, a Análise de
Cluster é uma opção inadequada para dividir grupos de clientes, por exemplo.

O que é similaridade?
Medida usada para determinar o grau de semelhança
entre os objetos e realiza o agrupamento de acordo com a sua
homogeneidade. Conforme Witten e Frank (2005), as medidas de
similaridade são aprendizado baseado em instância, em que cada
nova instância é comparada com as existentes usando uma métrica
de distância, e a instância existente mais próxima é usada para
atribuir a classe à nova.

2. Anomaly detection: através dessa técnica podemos descobrir


automaticamente pontos de dados incomuns no conjunto de dados
(CHANDOLA, 2009). Ela é útil para identificar transações fraudulentas,
descobrir peças defeituosas ou inferir um caso atípico causado por um erro
humano durante a entrada de dados.

3. Association mining: identifica conjuntos de itens que ocorrem frequentemente


juntos (ZAKI, 2000). Os varejistas costumam usá-lo para a análise de cestas,
porque permite que os analistas descubram bens frequentemente comprados
ao mesmo tempo e desenvolvam estratégias mais eficazes de marketing e
merchandising.

4. Latent variable models: podemos usar ​​para o pré-processamento de dados,


como a redução do número de recursos em um conjunto de dados (redução
de dimensionalidade), ou a decomposição do conjunto de dados em vários
componentes (BARTHOLOMEW, 1999).

60
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios

Os padrões dos métodos de aprendizado de máquina não


supervisionados também podem ser úteis ao implementar métodos
de aprendizado de máquina supervisionados. Por exemplo: uma
técnica não supervisionada pode realizar a análise de cluster
nos dados e usar o cluster como um recurso extra no modelo de
aprendizado supervisionado.

3 Processo de Mineração de Dados


Mineração de dados é a análise semiautomática ou automática (REZENDE,
2003) do processo de identificação de padrões desconhecidos e interessantes ao
estudo no conjunto de dados. Ela engloba métodos de aprendizado de máquina,
estatística e sistemas de banco de dados. O objetivo principal é a extração de
padrões em um grande volume de dados (PROVOST, 2013).

As organizações estão usando a mineração de dados para aumentar a


eficiência de seus negócios. É essencial para um negócio fazer uso do processo
de mineração de dados para analisar seus dados.

O processo de mineração é dado pelo Processo Cross Industry Standard


para Data Mining (SHEARER et al., 2000), como mostra a Figura 1.

FIGURA 1 - PROCESSO DE MINERAÇÃO DE DADOS CRISP

FONTE: CRISP-DM; Shearer (2000).

61
Análise Estatística de Dados

O diagrama apresentado na Figura 1 mostra as interações do processo da


mineração de dados. A seguir vamos descrever todos os passos descritos no
diagrama.

3.1 Business Understanding


(Compreensão de Negócios)
Compreender o problema a ser resolvido é o passo mais importante antes
de iniciar a análise de dados. Muitas vezes é necessário reformular o problema
e projetar a melhor solução para que seja possível, posteriormente, extrair
informações dos dados. O processo de compreensão pode ter várias iterações
até que chegue ao resultado esperado.

Por esse motivo é importante que os analistas tenham um alto nível de


conhecimento do negócio, pois somente com base neste conhecimento pode-se
consolidar as formulações certas para resolver o problema.

Conforme Provost (2013), deve-se elaborar os cenários de uso com base nas
seguintes perguntas:

1. O que exatamente queremos fazer?


2. Como exatamente nós faríamos isso?
3. Quais partes deste cenário de uso constituem possíveis modelos de mineração
de dados?

Com base nessas perguntas podemos começar uma visão


do cenário de uso, mas ele deve ser ajustado para se ajustar às
necessidades do negócio.

3.2 Data Understanding


(Entendimento de Dados)
Os dados fazem parte da matéria-prima que teremos como base para que
seja possível construir a solução e resolver o problema (PROVOST, 2013). Porém,

62
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios

esses dados podem não ser suficientes, eles podem ter falta de informações ou
ausência de dados.

Para solucionar alguns problemas é preciso ter registrados os dados


históricos do negócio, mas esses dados podem não ter sido coletados, ou
coletados para outros fins.

Por exemplo:

● Banco de dados de satisfação dos clientes.


● Banco de dados de transações realizadas.
● Banco de dados de resposta de marketing.

Esses dados podem ter sido coletados e conter informações diferentes


do seu propósito, como: abranger populações distintas ou graus variados de
confiabilidade. A maneira como os dados foram colhidos pode não ser suficiente
para resolver o problema do negócio.

Vamos citar alguns problemas em relação a esses dados:

1. Os custos dos dados podem variar.


2. Alguns dados não são disponíveis de forma simples.
3. Em alguns momentos os dados simplesmente podem não existir.
4. Em alguns momentos é preciso criar uma forma viável para organizar a coleta.

Logo, é importante calcular os custos e benefícios de cada fonte de dados e


verificar se um possível investimento adicional é preciso. Por exemplo, registros
de clientes e identificadores de produtos podem trazer em seus dados algumas
informações desnecessárias ou que não condizem com a realidade do banco.
Logo, faz-se necessário limpar e combinar registros de clientes para garantir
que exista apenas um registro por cliente, segundo Hernández et al. (1995) e
Elmagarmid et al. (2007).

Quanto mais os dados são consolidados por diferentes formas, mais soluções
podem ser descobertas e os esforços da equipe podem aumentar.

Vamos analisar alguns exemplos!

Detecção de fraude em cartão de crédito:

Os gastos feitos com o cartão aparecem na conta de cada cliente, por isso,
cobranças fraudulentas geralmente são capturadas, inicialmente pela empresa,
e depois pelo cliente quando a atividade da conta é revisada (PROVOST, 2013).

63
Análise Estatística de Dados

As fraudes são identificadas e rotuladas de forma não confiável, uma vez que o
cliente legítimo e a pessoa responsável pela fraude são pessoas diferentes e têm
diferentes objetivos. As transações com cartões de crédito têm rótulos confiáveis
(fraudulentos e legítimos) que podem servir como alvos para uma técnica
supervisionada.

Identificação de fraudes em planos de saúde:

O problema de detecção de fraudes em planos de saúde pode custar bilhões


de dólares anualmente (PROVOST, 2013). Ele pode parecer um problema de
identificação de fraude convencional, porém é diferente do problema de detecção
de fraudes em cartões de crédito.

Nestes problemas, médicos submetem falsos atestados e, às vezes, seus


pacientes também são provedores de serviços ilegítimos e usuários do sistema de
faturamento.

Pacientes e médicos que cometem alguma fraude são um subconjunto do


total dos usuários legítimos. E dessa forma, os dados de faturamento dos
planos de saúde não têm uma variável que indique fraude, e uma abordagem
de aprendizagem que poderia ser aplicada para a fraude de cartão de crédito não
pode ser aplicável. Esse tipo de problema requer abordagens não supervisionadas,
como criação de perfil, clustering e detecção de anomalias (PROVOST, 2013).

Os dois problemas de fraudes citados acima são parecidos,


porém têm soluções diferentes. No primeiro caso é preciso analisar
os dados de forma minuciosa para detectar qual a estrutura do
problema de negócios e os dados que estão disponíveis e, em
seguida, combiná-los a uma ou mais tarefas de mineração de dados
para extrair as inferências, consolidar as possíveis soluções e decidir
qual a melhor tecnologia a ser utilizada.

No segundo exemplo, para chegarmos a uma solução viável


precisaremos usar uma ou mais ferramentas do aprendizado não
supervisionado. Por quê? Pelo motivo de que não temos os rótulos
de entrada.

64
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios

3.3 Data Preparation (Preparação


dos Dados)
Com o constante avanço dos algoritmos, as tecnologias voltadas para
análises de dados estão cada dia mais poderosas, mas ainda é preciso que os
dados sigam alguns requisitos para se adequar às especificações de alguns
algoritmos. A preparação dos dados configura os dados de uma maneira que torne
possível sua análise. Essa etapa é muito importante, pois uma boa preparação
de dados torna possível a extração de informações, auxiliando nas tomadas de
decisões e nas soluções de problemas (PROVOST, 2013).

Portanto, uma fase de preparação de dados geralmente prossegue com a


compreensão dos dados, em que eles serão manipulados e consolidados em
formulários que gerem melhores resultados. Exemplos típicos de preparação de dados:

1. Converter dados em formato tabular.


2. Remover ou inferir valores ausentes.
3. Converter dados para tipos diferentes.

Preparação dos Dados

Alguns dados precisam de formatação antes de se começar a


análise, pois o conjunto pode conter dados faltosos, errados ou que
não estejam de acordo com o estudo.

Existem várias formas de preparação dos dados, como:


● Limpeza.
● Seleção de atributos e “falsos preditores”.
● Distribuição desbalanceada de classes.

Também é preciso fazer algumas perguntas:


● Os dados são relevantes?
● Há dados relevantes adicionais?
● Qual a quantidade de dados históricos disponíveis?

Fazer uma preparação dos dados é fundamental para o sucesso


da análise.

FONTE: <http://professor.ufabc.edu.br/~ronaldo.prati/DataMining/
Preprocessamento.pdf> Acesso em: 15 out. 2018.

65
Análise Estatística de Dados

3.4 Modeling (Modelagem)


A etapa de modelagem é o momento em que as técnicas de mineração de
dados são aplicadas aos dados, sendo aplicados estatísticas e padrões para
gerar previsões e fazer inferências sobre as informações extraídas. Um modelo
captura dados de uma estrutura de mineração e analisa esses dados usando
algum algoritmo que seja próprio para o conjunto de dados (PROVOST, 2013).

A estrutura e o modelo de mineração são objetos separados.

● A estrutura de mineração armazena informações que definem a fonte de


dados.
● O modelo de mineração agrupa informações oriundas do processamento
estatístico de dados, como as inferências encontradas em decorrência da
análise.

Para cada modelo são especificados seus atributos, como: nome, a


descrição, data do último processamento do modelo, as permissões no modelo e
os filtros nos dados que são usados para treinamento.

Um modelo é facilmente afetado pelos dados que você treina!

Os modelos treinados na mesma estrutura de mineração


podem gerar conclusões diferentes se os dados forem alterados
de formas distintas, ou ser usadas sementes diferentes durante a
análise. Entretanto, vamos salientar que os dados reais não ficam
armazenados no modelo: nestes são armazenadas estatísticas
resumidas, com os dados reais que residem na estrutura de
mineração, de acordo com Provost (2013).

Colunas do modelo

Os modelos de mineração possuem propriedades derivadas da


estrutura de mineração que descrevem as colunas de dados usadas pelo
modelo. Se alguma coluna usada pelo modelo for uma tabela aninhada, ela
também poderá ter um filtro separado aplicado.

66
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios

Os modelos de mineração contêm duas propriedades especiais:


Algorithm e Usage.

1 Algorithm: determina qual algoritmo deve ser usado para criar o


modelo.

● Os algoritmos disponíveis dependem do provedor que está sendo


usado.
● A Algorithm é definida uma única vez para cada modelo.
● Podemos modificar o algoritmo posteriormente, mas algumas colunas
do modelo de mineração poderão se tornar inválidas, se não tiverem
suporte do algoritmo escolhido.

2 Usage: define-se como cada coluna é usada pelo modelo. Podemos


definir o uso da coluna como:

● Input
● Predict
● Onlyou Key

A propriedade Usage é aplicada às colunas dos modelos de mineração


individualmente para cada coluna que esteja incluída em um modelo. Se
a estrutura contiver uma coluna que não é usada no modelo, o uso será
definido como Ignore.

Alguns dados podemos incluir na estrutura de mineração, mas não


usar em análise, por exemplo, nomes de clientes ou endereços de e-mail,
pois são dados pessoais. Para isso, deve-se consultar posteriormente sem
ter que incluí-los durante a fase de análise.

A modelagem é feita com base nas colunas que foram incluídas a partir
dos dados, e estas foram definidas na estrutura de mineração. Pode-se
decidir quais colunas da estrutura de mineração devemos usar no modelo
e criar cópias das colunas da estrutura de mineração e renomeá-las ou
alterar seu uso. Como parte do processo de criação de modelo, devemos
definir o uso da coluna pelo modelo. Isso inclui informações como: se a
coluna é uma chave, se é usada para previsão, ou se pode ser ignorada
pelo algoritmo.

Enquanto o modelo está sendo criado, em lugar de inserir


automaticamente cada coluna de dados disponível, é uma boa prática

67
Análise Estatística de Dados

conferir os dados na estrutura e incluir no modelo somente as colunas que


são significantes e tragam resultados para a análise. Por exemplo, podemos
evitar algumas práticas, como:

● Evitar inserir várias colunas que repetem os mesmos dados.


● Evitar utilizar colunas que têm muitos valores exclusivos.

Quando percebemos que uma coluna não deve ser usada, às vezes
não é necessário excluí-la definitivamente do modelo, além do que, pode-
se resolver apenas definindo sinalizador na coluna que tem a capacidade
de especificar se a coluna deve ser ignorada durante a criação do modelo.
Com isso, a coluna continua na estrutura de mineração, mas não será
usada no modelo de mineração.

Conforme as propriedades dos algoritmos que usamos algumas


colunas na estrutura dos dados podem não ser compatível com alguns
tipos de modelo ou forneça resultados fracos.

Por exemplo, se nossos dados contiverem dados numéricos contínuos


e seu modelo exigir valores discretos, será preciso converter os dados em
intervalos discretos ou excluí-los do modelo.

O algoritmo também pode converter automaticamente os dados,


porém os resultados podem não ser o esperado. Depois que termina o
processo de criação do modelo, podemos fazer alterações, como adicionar
ou remover colunas, ou modificar o título do modelo. Porém, é importante
salientar que qualquer modificação no modelo requer o processamento do
modelo novamente.

FONTE: Provost, 2013, p. 31.

3.5 Evaluation (Avaliação)


A avaliação tem o objetivo de analisar os resultados da mineração de dados
com cuidado e verificar se eles são legítimos e confiáveis ​​antes de prosseguir.
É importante que os modelos e padrões extraídos dos dados apresentem
regularidades e poucas anomalias (PROVOST, 2013).

Para avaliar o modelo, podemos usar vários artifícios:

68
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios

● Implantar resultados logo após a mineração de dados, porém não é


aconselhável.
● Testar primeiro um modelo em um ambiente de laboratório controlado.

A avaliação é frequentemente usada para auxiliar a garantir que o modelo


satisfaça os propósitos iniciais do negócio. Lembre-se de que a principal finalidade
da ciência de dados para uma organização é apoiar a tomada de decisões e
tentar resolver os problemas. As soluções de mineração de dados são apenas um
fragmento de uma solução maior e precisam ser avaliadas como um suporte que
ajuda o negócio a avaliar qual a melhor solução a ser tomada.

Por mais que um modelo passe por vários testes de avaliações,


pode haver considerações externas que desconsidere o resultado do
modelo Provost (2013). Por exemplo, uma falha que ocorre bastante
em soluções de detecção (como detecção de fraudes, detecção de
spam e monitoramento de intrusões) é que elas produzem muitos
alarmes falsos. Um modelo pode ser extremamente preciso (>99%)
pelos padrões de laboratório, mas a avaliação no contexto real dos
negócios pode revelar que ainda produz muitos alarmes falsos para
ser economicamente viável. Isso levanta a questão de quanto custaria
para fornecer a equipe para lidar com todos esses falsos alarmes?
Qual seria o custo na insatisfação do cliente? (PROVOST, 2013).

As avaliações dos resultados podem conter análises qualitativas, e os


resultados do modelo são de interesse de várias áreas de negócios, por exemplo,
desde o RH, produção, até a gestão financeira. Todas elas fazem uso dos modelos
para inferir sobre como serão os próximos passos da organização.

Para facilitar a avaliação, o cientista de dados deve pensar


em gerar modelos compreensíveis para que as partes interessadas
sejam capazes de interpretá-los. Construir modelos abrangentes é
importante para ter informações mais detalhadas e simples.

69
Análise Estatística de Dados

3.6 Deployment (Desenvolvimento)


Na implantação os resultados da mineração de dados são colocados em uso
real, a fim de obter algum retorno sobre o investimento (PROVOST, 2013). Os
casos mais comuns envolvem a implementação de um modelo preditivo em algum
sistema de informações ou processo de negócios. Nesta fase é fundamental
instrumentar o processo para alertar a equipe da ciência de dados de quaisquer
anomalias aparentes e fornecer uma operação à prova de falhas (RIEDER, 2012).

A implantação de um modelo em um sistema de produção


normalmente exige que o modelo seja ajustado para o ambiente
de produção, e isso pode resultar em despesas e investimentos
substanciais. Em muitos casos, a equipe de ciência de dados é
responsável por produzir um protótipo funcional, juntamente com
sua avaliação. Logo após, eles são direcionados ​​para uma equipe de
desenvolvimento.

Independentemente de a implantação ser compatível, o processo geralmente


retorna à fase de compreensão de negócios. O processo de dados de mineração
produz uma grande percepção do problema de negócios e das dificuldades de
sua solução. Uma segunda iteração do modelo formado pode gerar uma solução
aprimorada.

Não é preciso que a implementação tenha falhas para iniciar o ciclo


novamente. A etapa de avaliação pode mostrar que os resultados não são bons o
suficiente para implantar, e precisamos avaliar novamente a definição do problema
ou obter dados diferentes. Isso é representado pelo link "shortcut" que volta ao
Business Understanding no diagrama do processo (PROVOST, 2013). Na prática,
deve haver shortcut para cada etapa anterior, porque o processo sempre mantém
alguns aspectos exploratórios, e o projeto deve ser flexível o suficiente para voltar
para etapas anteriores com base nas descobertas feitas.

Existem outras técnicas capazes de extrair informações dos dados, e que


são bastante relevantes para a organização, pois a análise de negócios envolve a
aplicação de várias tecnologias na análise de dados, como a estatística.

70
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios

3.7 Estatística
Estatística significa uma informação numérica expressa em termos. Essas
informações podem estar relacionadas a todos os fenômenos que desejam ser
estudados. Os dados não possuem limites quanto à sua referência, cobertura e
escopo.

As organizações, não importando o tamanho e volume de vendas, produzem


estatísticas sobre suas operações. Os relatórios das empresas contêm uma
grande variedade de dados sobre vendas, produção, despesas, estoques, capital
empregado e outras atividades. Esses dados podem ser extraídos através de
técnicas de pesquisa científica, ou softwares especializados para esta função.

Existem duas divisões principais de formas de analisar os dados, estatística


descritiva e inferencial:

● Estatística Descritiva: lida com coleta, resumo e simplificação dos dados,


de acordo com Morettin (2017). Ela possui o propósito de atingir conclusões
significativas que podem ser extraídas dos dados, podendo ser usada para
compreender métodos e destacar as principais características do conjunto
de dados. A estatística descritiva simplifica a compreensão dos dados e a
comunicação sistemática e também os torna passíveis de discussão, análise e
interpretações.

● Inferência Estatística: são os métodos usados ​​para gerar inferências sobre


dados (MORETTIN, 2017). O total de observações em que uma inferência
pode ser feita é denominado de universo. A parte do total extraída para coleta
e análise de dados para ganhar conhecimento sobre a população é chamada
de amostra.

A estatística inferencial avalia os riscos envolvidos em gerar inferências ou


generalizações sobre uma população desconhecida com base na informação da
amostra. Por exemplo: uma amostra de cinco clientes pode revelar que todos eles
gostaram do novo produto. Esta informação pode ser usada para concluir que o
novo produto foi bem aceito pelos clientes da empresa.

As técnicas de estatística podem ser usadas em várias áreas dos negócios.


Por exemplo:

1. Podemos usar para calcular valores numéricos que sejam interessantes, por
exemplo: quando precisamos coletar algumas estatísticas sobre a opinião
dos nossos clientes para identificar os pontos negativos e positivos da nossa

71
Análise Estatística de Dados

organização, os cálculos podem incluir somas, médias, moda, mediana,


distribuição de frequência etc. Essas técnicas são chamadas de estatísticas de
resumo. Constantemente, queremos calcular estatísticas de resumo em um ou
mais subconjuntos da população, por exemplo, a taxa de cancelamento difere
entre clientes do sexo masculino e do sexo feminino? Ou... qual o total de
clientes da empresa na região Nordeste?

2. As estatísticas são escolhidas conforme a necessidade do problema. Por


exemplo:
● A renda média (média) do total de vendas durante o trimestre.
● O produto que teve a maior quantidade da organização (moda).
● Verificar a variabilidade dos dados em relação ao número de vendas (desvio
padrão).

Existem três funções principais em qualquer empresa em que os


métodos da estatística são úteis. Elas são descritas a seguir:

(i) O planejamento das operações: relaciona-se a projetos em


desenvolvimento ou às atividades recorrentes de uma empresa
durante um período especificado.
(ii) A criação de normas: relaciona-se com o volume de vendas,
fixação de normas de qualidade para o produto produzido,
normas para a produção diária etc.
(iii) A função de controle: envolve a comparação da produção
real alcançada em relação à norma ou meta estabelecida
anteriormente. Caso a produção, por algum motivo, tenha ficado
fora ou além da meta criada, fornece medidas corretivas para
que tal deficiência não ocorra novamente.

Embora essas três funções sejam separadas, na prática elas


são muito inter-relacionadas.

Diferentes autores destacaram a importância da estatística nos negócios. Por


exemplo, Croxton et al. (1952) citam vários usos para estatística em negócios,
como:

72
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios

● Planejamento de projetos.
● Planejamento e controle orçamentário.
● Planejamento e controle de inventário.
● Controle de qualidade.
● Marketing.
● Produção.
● Administração de pessoal.

Alguns autores, como Irving (1942), citam que a estatística pode ser usada
em uma organização industrial para os seguintes propósitos:

● Pesquisa de mercado.
● Design de desenvolvimento e especificação.
● Compra.
● Produção.
● Inspeção.
● Embalagem e transporte.
● Vendas.
● Reclamações.
● Inventário.
● Manutenção.
● Custos.
● Controle de gestão.
● Engenharia industrial.
● Pesquisa.

Na área da produção, por exemplo, as estatísticas são frequentemente


usadas para o controle de qualidade, no qual ajudam ​​a garantir a produção
de produtos de qualidade. A finalidade principal é identificar e rejeitar produtos
defeituosos ou abaixo do padrão. Para a área de vendas a estatística pode ser
usada para fazer as previsões das vendas, para isso, vários métodos variados de
previsão podem ser utilizados.

Nos negócios as técnicas estatísticas são usadas ​​na gestão para fixar
salários, normas de incentivo e avaliação de desempenho de funcionário
individual, pois, com base na medição da produtividade, são concedidos bônus
aos funcionários.

3.8 Database Querying


Um servidor hospeda um aplicativo de banco de dados. Este fornece serviços
de banco de dados a outros softwares (RISHE, 2004). Sistemas de gerenciamento
de banco de dados (SGBD) fornecem um conjunto de funcionalidades e alguns

73
Análise Estatística de Dados

sistemas de gerenciamento (como MySQL). Eles dependem do modelo cliente-


servidor para acesso ao banco de dados.

Os usuários acessam um servidor por meio de um "front-end" em execução


no seu computador, este mostra os dados solicitados. O "back-end" executa o
servidor e lida com tarefas como análise e armazenamento de dados.

Boa parte dos aplicativos de banco de dados responde a uma linguagem de


consulta. Cada banco de dados entende sua linguagem de consulta, e converte
cada consulta enviada para um formulário legível pelo servidor e a executa para
recuperar os resultados. Exemplos de aplicativos de banco de dados proprietários
incluem:

● Oracle.
● Microsoft SQL Server.
Podemos citar exemplos de aplicativos de banco de dados de software livre:
● PostgreSQL
E sob licença pública:
● MySQL.

Todo servidor usa sua própria lógica e estrutura de consulta.

Uma consulta (Query) é uma solicitação específica para um


subconjunto, formulada em uma linguagem técnica e colocada
em um sistema de banco de dados. Algumas ferramentas estão
disponíveis para responder a perguntas únicas ou repetidas
sobre dados apresentados. Estas são “front-end” para
sistemas de banco de dados, que têm como base linguagem de
consulta Estruturada (SQL) ou uma ferramenta com interface
gráfica de usuário (GUI) voltada a auxiliar a formular consultas
(PROVOST, 2013).

Por exemplo, podemos definir “lucrativo” em termos operacionais calculáveis​​


a partir de itens no banco de dados, uma ferramenta de consulta poderia
responder: “Quem são os clientes mais lucrativos da empresa?”

O analista pode executar a consulta para recuperar uma lista dos clientes
que trazem mais lucros para a empresa. Essa atividade é diferente da mineração
de dados, pois não há descoberta de padrões ou modelos.

Consultas de banco de dados são adequadas quando o analista já tem


uma noção do que pode ser uma subpopulação interessante dos dados e quer
investigar essa população ou confirmar alguma hipótese sobre ela. Por exemplo:
o analista pode suspeitar que homens de meia-idade que moram em São Paulo
têm algum comportamento interessante, ele poderia compor uma consulta SQL.

74
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios

Se esses homens serão alvo de uma oferta, uma ferramenta de consulta pode
ser usada para recuperar todas as informações sobre eles da tabela CLIENTES
no banco de dados.

Em comparação, a mineração de dados poderia ser usada para


criar essa consulta, na qual se tentaria identificar um possível padrão
nos dados. Um procedimento de mineração de dados pode examinar
os clientes anteriores que desistiram dos serviços prestados, e assim
determinar que esses segmentos são preditivos em relação à taxa de
cancelamento.

3.9 Data Warehousing


(Armazenamento De Dados)
Data Warehouse é um repositório central de informações bastante usado auxiliar
as tomadas de decisões das organizações, de acordo com Inmon (2005). Os dados têm
várias fontes, como: sistemas transacionais, bancos de dados relacionais, entre outras.
As ferramentas de relatórios, painéis e análises são baseadas no armazenamento dos
dados, pois eles são eficientes para minimizar a entrada e saída dos dados, e entregar
resultados de consultas com uma maior rapidez.

Com o contínuo crescimento do ambiente de negócios, as


médias e grandes organizações armazenam um grande volume de
informações, e juntamente com a tecnologia da informação, a correta
extração desses dados é um fator importante para destacar-se no
mercado cada vez mais competitivo.

Dentro do ambiente Data Warehouse temos os metadados, que são os


principais recursos para a administração de dados. Podemos definir, segundo
Ikematu (2001), “como os dados que contêm informações sobre os dados, isto é,
uma abstração dos dados”.

75
Análise Estatística de Dados

Podemos citar alguns exemplos de metadados:

● Descrições do processo de um programa de aplicação.


● Arquitetura de um banco de dados.

Data Warehouse possui três camadas de metadados:

● Operacionais: estrutura dos dados mantidos pelos bancos


operacionais, utilizados pelas aplicações de produção da empresa.
● Metadados centrais: são os catálogos do Data Warehouse.
● Nível do usuário: metadados transformados para o entendimento
do usuário.

Sistemas de Data Warehouses são importantes para a empresa, por tais


motivos:

● Proporciona que os sistemas tenham mais tempo de existência.


● Consolida os dados inconsistentes dos sistemas para que possam ser usados
pelos novos sistemas.
● Extrai novas informações oriundas das operações correntes.
● Oferece ambiente para o planejar, desenvolver e arquitetura de novos sistemas
operacionais.

Características dos Data Warehouses:

● Orientado por assunto: descreve os sistemas de transições


organizados em uma determinada aplicação de uma organização.
É um atributo importante, pois a modelagem do Data Warehouse é
orientada a partir das principais questões da empresa. Por exemplo:
uma empresa que fabrica peças íntimas para exportação, em que os
principais assuntos são a produção e venda das peças produzidas. A
implementação por assunto condiz sobre as tabelas relacionadas. Por
exemplo, considerando as informações sobre as vendas realizadas
pelos funcionários de uma loja, podem existir tabelas que contêm
dados básicos dos funcionários (como código do funcionário, nome,

76
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios

endereço, sexo, total de vendas realizadas, entre outras). A primeira


tabela pode conter dados do período de 2005 a 2010, a segunda do
período de 2011-2016.
● Integrado: é a característica mais importante do Data Warehouse. Ela
aborda sobre a integração, que é realizada do ambiente operacional
das aplicações do Data Warehouse. A integração é realizada com o
propósito de colocar padrão nos dados dos sistemas em uma única
representação, para serem transferidos para a base de dados única do
Data Warehouse.
● Não volátil: em sistemas com transições os dados passam por
diversas alterações, por exemplo, a inserção, modificação e exclusão
de dados. No Data Warehouse os dados, antes de serem carregados,
são filtrados e limpos para gerar informações. Depois desta fase os
dados passam apenas para operações de consulta e exclusão, sem
que possam ser alterados, isso representa uma característica de não
volatilidade.
● Variável com o tempo: consiste na preservação do histórico de dados
em relação ao período de tempo maior que dos sistemas comuns.
Isto expressa que os métodos de mineração de dados não podem ser
aplicados em tempo real, para não comprometer o desempenho dos
bancos transacionais. Um banco de dados de um Data Warehouse
está relacionado a um período determinado de tempo, com isso será
criada uma chave de tempo que vai indicar o dia em que esses dados
foram extraídos.
A variação do tempo fornece características específicas, que podem
inserir complexidade ao ambiente do Data Warehouse. Processos mensais
ou anuais são simples, porém dias e meses tendem a trazer dificuldades,
pela quantidade de variação dos números. É importante considerar que
não apenas os dados possuem características temporais, mas também
os metadados, que incluem definições dos itens de dados e rotinas de
validação. Sem a constante manutenção do histórico dos metadados, as
alterações das regras de negócio que afetam os dados no Data Warehouse
são perdidas, e a consequência disto é os dados históricos ficarem
inválidos.

FONTE: <https://www.devmedia.com.br/data-warehouse/12609> Acesso em: 16


out. 2018.

77
Análise Estatística de Dados

Arquitetura Data Warehouse

Um Data Warehouse possui arquitetura genérica em que busca


sistematizar papéis no seu ambiente. Dessa forma, as distintas
abordagens que existem no mercado podem se encaixar dentro
desta descrição. A estrutura então é dividida nas seguintes camadas:

● Bancos de Dados Operacionais: condiz com os dados


operacionais do negócio ligado com dados oriundos de outras
fontes externas, em que serão ajustados para compor o Data
Warehouse.
● Acesso à Informação: nesta camada acontece a interação com
os usuários, são simplesmente as ferramentas que o usuário
utiliza, por exemplo, o excel. Ele envolve o hardware e software
empregado para gerar relatórios, planilhas, gráficos, entre outros.
● Acesso aos Dados: nesta camada ocorre a ligação entre as
ferramentas de acesso à informação e os dados operacionais. Ela
se comunica com diferentes ambientes SGBD’s, sistemas de um
mesmo ambiente e outras fontes com diferentes protocolos de
comunicação, essa característica é chamada de acesso universal
de dados.
● Metadados: os metadados são conceituados como as informações
sobre os dados mantidos pela organização. Para preservar a
funcionalidade de um ambiente de Data Warehouse é preciso ter à
disposição um grande volume de metadados.
● Gerenciamento de Processo: gerencia o controle do processo
das diversas atividades que precisam ser realizadas pelo
administrador do gerenciamento dos processos que contribuem
para manter o Data Warehouse atualizado e consistente.
● Transporte ou Middleware: gerencia o fluxo de informações
pelo ambiente de redes. É utilizado para segregar aplicações,
operacionais ou informacionais, do formato real dos dados.
Inclui a coleta de mensagens de transações, e distribui em locais
especificamente determinados.
● Camada do Data Warehouse: corresponde aos dados utilizados
com a finalidade de fornecer informações. Em alguns casos, ele
é somente uma visão virtual dos dados, podendo não envolver o
armazenamento dos dados. Em um Data Warehouse que já existe
fisicamente, os dados operacionais internos e externos são de fato
armazenados, de maneira a fornecer mais facilmente o acesso e a
flexibilidade de manipulação.

78
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios

● Gerenciamento de Replicação: inclui os processos voltados para


selecionar, editar, resumir, combinar e carregar o Data Warehouse,
abrangendo também as informações ligadas ao acesso, com base
nas bases operacionais e fontes externas. Envolve software de
análise da qualidade dos dados e filtros que localizam padrões nos
dados de operação.

Arquitetura de Dados

O ambiente físico dos dados de um Data Warehouse pode


ser dividido em duas formas: centralizado em um único local ou
distribuído setorialmente.

● Centralizado em um único local: consolida o banco de dados em


um Data Warehouse integrado, procurando usar todo o potencial
disponível.
● Distribuído setorialmente: distribui a informação de acordo com
a função, por exemplo, os dados financeiros ficam em um servidor,
os dados de produção em outro servidor.

Outra abordagem que pode ser citada é por camadas, em que


armazena os dados de forma mais condensada em um servidor,
dados resumidos ao nível de detalhe intermediário em um segundo
servidor, e os que possuem mais detalhes, em um terceiro servidor.

O primeiro servidor contempla grande parte das solicitações de


dados, depois, com um número mais baixo de pedidos, passa para
a camada 2. É importante salientar que enquanto os servidores nas
outras camadas adéquam-se para processar grandes volumes de
dados, mais baixo será o número de usuários.

4. Modelagem dos Dados


Um modelo representa de maneira simples a realidade criada no intuito de
servir de instrumento de análise para algum objetivo de interesse. Ele é feito com

79
Análise Estatística de Dados

base em suposições sobre o que deve ou não ser levado em consideração, ou, às
vezes, com base em restrições sobre informações (PROVOST, 2013).

Na ciência de dados, um modelo preditivo é uma fórmula para estimar o valor


desconhecido de interesse: o alvo.

Qual o objetivo de um modelo preditivo?

Segundo Charnet (1999), “a predição tem o propósito de estimar um valor


desconhecido, o qual pode ser algo no futuro, porém também poderia ser algo no
presente ou no passado”. Logo, para a mineração dos modelos são usualmente
construídos e testados usando eventos que já ocorreram.

Por exemplo:

● Modelos preditivos para pontuação de crédito estimam a probabilidade de o


cliente pagar ou não.
● Modelos preditivos para filtragem de spam, estimar se um determinado e-mail
é spam.
● Modelos preditivos para detecção de fraudes avaliam se uma conta foi
fraudada.
● O modelo é usado para estimar um valor desconhecido.

Essa definição é contraditória com a modelagem descritiva, na qual a


finalidade principal do modelo é usada para estimar um valor. Ela é voltada para
obter uma visão sobre o fenômeno subjacente ou processo.

Para encontrar as melhores maneiras de solucionar problemas


em um negócio é normal pensar nesta solução imaginando tomadas
de decisões futuras. Portanto, precisamos de dados que possam ser
representativos do que pode ocorrer futuramente. Por exemplo:

● No controle de estoques as decisões têm como base a procura


pelo item que está em estoque.
● Em um planejamento financeiro é necessário prever o fluxo de
dinheiro em relação ao tempo, para que seja possível fazer os
investimentos necessários.

Uma empresa precisa saber o momento certo para comprar


insumos, contratar novos funcionários ou analisar seu potencial
produtivo, dessa forma evita-se desperdício de tempo, insumos e,
principalmente, de dinheiro.

80
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios

Os modelos de previsão surgem no mercado como uma ferramenta para


os gerentes, coordenadores e líderes de empresas e negócios. Com base em
Stevenson (2001), as previsões auxiliam gerentes a diminuir incertezas, e
permitem desenvolver planos voltados para a situação real do mercado. Pode-se
definir previsões como estimativas de comportamentos futuros do mercado, isto
é, são especulações sobre o potencial de compra do mercado (CORRÊA, 2009).

Vamos usar o exemplo de demanda de produtos.

Nesta demanda temos os futuros insumos que um cliente deseja consumir. As


organizações fazem uso da previsão de demanda com a finalidade de antecipar
o comportamento do mercado, o que traz a oportunidade aos consumidores de
obter os produtos no tempo desejável.

A modelagem preditiva faz uso de técnicas estatísticas e modelos


matemáticos para prever resultados futuros (PROVOST, 2013). Esta previsão tem
como base o modelo que pode mostrar o melhor resultado, a partir do conjunto
de dados de entrada. Os modelos podem usar um ou mais classificadores para
avaliar a chance de um conjunto de dados pertencer a outro conjunto. Modelos
são bastante úteis nestes exemplos:

● CRM (Customer Relationship Management): prevenção de cancelamento de


assinaturas de TV a cabo.
● Seguros: analisar os riscos de acidentes com base no perfil do segurado.
● Varejo: identificar a relação entre clientes e produtos.
● Finanças: identificar fraudes em cartões de crédito e bancos.

Os modelos são gerados a partir de uma aprendizagem supervisionada,


na qual descrevem uma relação entre um conjunto de variáveis selecionadas
(atributos ou recursos) e uma variável predefinida chamada variável de destino
(PROVOST, 2013). O modelo estima o valor da variável de destino como uma
função (possivelmente uma função probabilística) dos recursos.

Seguem abaixo algumas definições:

● Features (colunas da tabela): podemos definir como as variáveis


independentes ou preditoras, ou os dados de entrada, em algumas pesquisas
também podemos encontrar a denominação para elas de variável explicativa.
● Variável de destino: são os valores a serem previstos, é usualmente
denominado de variável dependente.

81
Análise Estatística de Dados

Exercício proposto: Uma empresa quer verificar se o aumento das


vendas dos seus produtos está relacionado com o atendimento
dos seus vendedores, localização da loja ou horário da venda.
Então, quem são nossas variáveis dependentes e independentes?

A criação de modelos a partir de dados é conhecida como


indução de modelo. Indução é um termo que se refere à
generalização de casos específicos para regras gerais. O
procedimento que cria o modelo a partir dos dados é chamado
de algoritmo de indução. A maioria dos procedimentos indutivos
possui variantes que induzem modelos tanto para classificação
como para regressão (PROVOST, 2013).

4.1 Modelos de Regressão


Os modelos de regressão são frequentemente utilizados em diversas áreas
do conhecimento, tais como: computação, engenharias, biologia, saúde etc.
Na modelagem estatística, a análise de regressão é um conjunto de processos
estatísticos usados para estimar as relações entre as variáveis (MORETTIN, 2017).

Ele inclui várias técnicas para modelagem e análise de diversas variáveis,


quando o foco está na relação entre uma variável dependente e uma ou mais
variáveis ​​independentes. Mais especificamente, a análise de regressão auxilia
a compreender como o valor da variável dependente muda quando qualquer
uma das variáveis independentes
​​ é variada, enquanto as outras variáveis​​
independentes são mantidas fixas.

A análise de regressão estima a expectativa condicional da variável


dependente dadas as variáveis ​​independentes, isto é, o valor médio da variável
dependente quando as variáveis ​​independentes são fixas, segundo Provost
(2013). Outro foco da regressão está em um quartil ou outro parâmetro de
localização da distribuição condicional da variável dependente, dadas as variáveis​​
independentes.

Em todos os casos, uma função das variáveis ​​ independentes, chamada


de função de regressão, deve ser estimada. Na análise de regressão também é
interessante caracterizar a variação da variável dependente em torno da predição da
função de regressão usando uma distribuição de probabilidade (CHARNET, 1999).

82
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios

Podemos usar a análise de regressão nas seguintes situações:

● A análise de regressão também é usada para entender quais dentre as


variáveis ​​independentes estão relacionadas à variável dependente e explorar
as formas dessas relações.
● Pode ser usada também para inferir relações entre as variáveis ​​independentes
e dependentes.

A literatura explora várias técnicas de análises de regressão (CHARNET,


1999). Os métodos mais conhecidos são:

● Regressão linear.
● Regressão por mínimos quadrados ordinários.

De acordo com Charnet (1999), esses métodos são paramétricos, ou seja, os


dados precisam seguir a distribuição normal. A função de regressão é definida em
termos de um número finito de parâmetros desconhecidos que são estimados a
partir dos dados.

Na Regressão não paramétrica os dados não seguem


normalidade, refere-se a técnicas que permitem que a função de
regressão esteja em um conjunto especificado de funções, que
podem ser de dimensão infinita.

O desempenho dos métodos de análise de regressão na prática depende


da forma do processo de geração de dados, e como eles se relacionam com
a abordagem de regressão usada. Como a verdadeira forma do processo de
geração de dados geralmente não é conhecida, a análise de regressão depende,
em certa medida, de fazer suposições sobre esse processo, como supor que os
dados seguem uma distribuição normal.

Essas suposições são, às vezes, testáveis ​​se uma quantidade suficiente


de dados estiver disponível. Os modelos de regressão para previsão costumam
ser úteis mesmo quando as suposições são moderadamente violadas, embora
possam não ter um desempenho ótimo. No entanto, em muitas aplicações,
especialmente com pequenos efeitos ou questões de causalidade baseadas
em dados observacionais, os métodos de regressão podem dar resultados
enganosos.

83
Análise Estatística de Dados

4.2 Análise de Regressão Para


Negócios
Para os negócios e organizações, os principais usos da regressão são
previsão e otimização, elas auxiliam os gerentes a fazer previsões, como o
fluxo de demanda dos produtos, e também ajudam a melhorar os processos de
fabricação e entrega.

Vantagens da análise de regressão: é frequentemente usada por


economistas e pesquisadores de negócios, para auxiliar gerentes e donos de
empresas a prever condições futuras, e fornece suporte quantitativo para a tomada
de decisão dos gerentes. Também auxilia na detecção de falhas das estratégias
gerenciais e fornece novos feedbacks que podem mudar as prospecções do
negócio, de acordo com Provost (2013).

● A previsão é uma das principais vantagens da regressão: um negócio usa


essas análises para prever o que pode ou não acontecer no próximo bimestre,
ano, ou o tempo que a gerência julgar necessário analisar.
● Empresas possuem muitos dados sobre finanças, operações e compras
de clientes. As técnicas de regressão e previsão podem fornecer apoio
em relação às decisões que precisam ser tomadas pelo gerente.

Por exemplo, um gerente que acredita na expansão do horário de


funcionamento de sua loja pode aumentar o fluxo de clientes. O modelo pode
correlacionar o aumento das vendas com a expansão do horário de funcionamento
da loja.

● O uso da regressão pode auxiliar na correção de erros antes da tomada


de decisão por parte da gerência.

Por exemplo, um gerente de uma loja de carros pode acreditar que a expansão
do horário de funcionamento da loja pode impactar nas vendas. Com base na
análise de regressão, porém, pode ser verificado que o fato de a loja ter um maior
aumento de suas horas de funcionamento não aumenta significativamente as
vendas. Pelo contrário, a taxa não significante de vendas pode mostrar que não
é viável o aumento do horário de funcionamento, pelos custos que a loja terá, por
exemplo, pagar horas extras para seus vendedores. Dessa forma, a regressão
pode fornecer suporte quantitativo para as decisões.

Grandes volumes de dados têm o potencial de gerar importantes informações


sobre negócios. As técnicas de regressão e previsão podem gerar novos
feedbacks para gestores de negócio, mostrando padrões e relacionamentos
antes não vistos ou considerados. Por exemplo, a análise de dados de compras
e vendas pode fornecer padrões de compras específicos em determinados dias
da semana ou épocas do ano, como as compras de Natal e a black friday. Esses

84
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios

feedbacks podem mostrar a necessidade de garantir que esses produtos estejam


em oferta suficiente para esses períodos de alta demanda.

4.3 Regressão Linear


A regressão linear é uma abordagem para modelar a relação entre uma
resposta (variável dependente) e uma ou mais variáveis ​​explicativas (variáveis​​
independentes) (CHARNET, 1999). O caso de uma variável explicativa é chamado
de regressão linear simples.

A regressão linear pode ser usada para encontrar a relação


entre os impactos relativos a quantidade de vendas, horário de
funcionamento e idade dos clientes.

O principal propósito é obter uma equação que explique de maneira


satisfatória a relação entre uma variável resposta e uma ou mais variáveis
explicativas, possibilitando fazer predição de valores da variável de interesse.
Este relacionamento deve ser uma equação linear ou uma função não linear,
como mostra a figura abaixo:

FIGURA 2 - RELACIONAMENTO LINEAR


y

x
FONTE: O autor.

85
Análise Estatística de Dados

FIGURA 3 - RELACIONAMENTO NÃO LINEAR


y

x
FONTE: O autor.

Conforme Charnet (1999), podemos definir a Reta de regressão da seguinte


forma:

1) O coeficiente angular da reta é dado pela tangente da reta e se denomina “b”.


2) A inclinação da reta é determinada pelo coeficiente linear denominado “a”, que
é o valor de Y quando X=0.

A fórmula é a seguinte:

Yˆ= a + bX

Conforme Lapponi (2014), os modelos possuem as seguintes características:

1) Para um valor Xi podem existir um ou mais valores de Yi.


2) Para cada valor de Xi existe um valor projetado.
3) Cada valor de Xi possui um desvio di (ou erro ei) dos valores.
4) Frequentemente teremos observações fora da reta.

Determinação da equação: No modelo de regressão os valores da variável


y (variável dependente) são preditos, com base em valores de x (variável
independente). Segundo Lapponi (2014), existem dois critérios de aplicação para
obter os valores dos coeficientes a e b:

1) Ajustar uma reta horizontal de valor igual à média dos valores de y.


2) Ajustar uma reta que divida os pontos observados de forma que a soma dos
desvios seja nula.

86
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios

Método dos mínimos quadrados: Os métodos de mínimos quadrados têm


o propósito de encontrar os coeficientes a e b da reta de regressão que minimizem
a soma dos quadrados dos desvios, segundo Lapponi (2014).

Onde:

1) A soma dos desvios verticais dos pontos em relação à reta é zero.


2) A soma dos quadrados desses desvios é mínima.

A equação é dada por:

∑=
d ∑(y − y )
i
2
i c
2

Em que:

yi = valor observado de y,

yc = o valor calculado de y a partir da equação de mínimos quadrados com o


valor de x correspondente a yi.

Algumas observações:

1) O modelo refere-se à média.


2) A reta de regressão sempre passa pelo ponto (x, y).

Os coeficientes são calculados pelas fórmulas abaixo.

Tendo presente que Cov(x,y) = rxy sx sy, o coeficiente b será igual a estas
quatro fórmulas possíveis:

n ( ∑ xy ) − ( ∑ x )( ∑ y ) Cov ( x, y ) rxyσ xσ y σ
=b = = = rxy y
( 2
)
n ∑ x − (∑ x)
2
Var ( x ) σx2
σx

a=
∑ y − b∑ x= Y −bX
n

A partir dos mínimos quadrados é possível, com os mesmos dados, calcular


as duas possíveis retas de regressão linear, em que se permutam as variáveis de
dependente (Y) para independente (X).

87
Análise Estatística de Dados

O valor do coeficiente b é obtido como resultado da divisão da covariância


das duas variáveis aleatórias pela variância da variável independente.

1) O valor do coeficiente a é atingido com base no resultado da subtração da


média da variável dependente menos o produto do coeficiente b pela média da
variável independente.
2) Minimizar a soma dos quadrados dos desvios não garante que se tenha obtido
a melhor reta ajustada, é apenas uma propriedade desejada de ajuste de reta
(LAPPONI, 2014).

O método de ajuste dos mínimos quadrados é importante, pois:

1) Obtém as melhores estimações, ou seja, as estimativas não são tendenciosas.


2) Evita grandes desvios.
3) Permite realizar testes de significância na equação de regressão.
4) A reta de regressão passa pelo ponto formado pelos valores das médias das
duas séries de observações.

Então, dado um conjunto de n pares de observações (x1, y1), (x2, y2), ... , (xn,
yn), pode-se mostrar que os estimadores de quadrados mínimos são:

b= βˆ=
∑ ( x − x )( y − y )
i i

∑(x − x )
2
i

e,
a= αˆ= y − bx

b é denominado coeficiente de regressão de Y em X no qual é simbolizado por bYX.

Fórmulas:

( ∑ x )( ∑ y )
∑ ( xi − x )( yi − =
y ) ∑ xi yi −
i i

n
(∑ x )
2

∑( x − x ) = ∑ x
2 i
i
2
i − σ y/ x
n

Além da suposição da normalidade de y para qualquer valor específico de x,


o desvio padrão dos resultados y não é modificado.

88
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios

Esta hipótese de variabilidade constante em todos os valores de x é


conhecida como homocedasticidade.

Para ajudar no entendimento, vamos analisar o próximo exemplo: uma


empresa quer analisar a quantidade de lucros a partir de pequenos investimentos
em sua organização. Esses investimentos foram em todas as áreas da empresa.
A Tabela 1 apresenta os dados coletados.

TABELA 1 - INVESTIMENTOS DIÁRIOS

Investimento em reais Lucros


2 3,5
3 5,7
5 9,9
8 16,3
10 19,3
12 25,7
14 28,2
15 32,6
69 141,2
FONTE: O autor.

Agora a empresa que saber se esses pequenos investimentos tiveram


relação ou não com o aumento gradativo dos lucros. Para isso, vamos montar
nosso modelo linear.

TABELA 2 - VALORES DE X E Y

Xi Y_i X2 Y2
7 4 12,3
17,1 9 32,5
49,5 25 98
130,4 64 265,7
193 100 372,5
308,4 144 660,5

89
Análise Estatística de Dados

394,8 196 795,2


489 225 1062,8
1589,2 767 3299,5

FONTE: O autor.

Vamos começar calculando os valores da equação de regressão:

Logo, a equação de regressão linear é dada por:

βˆ =
−0,98 + 2,16 X i

Interpretação do coeficiente de regressão (b).

Obtida uma reta de regressão, o primeiro passo na sua interpretação é


verificar o sinal de b:

● Se for positivo, indica que, quanto maior o valor de X, maior o valor de Y.


● Se negativo, indica que quanto maior o valor de X, menor o valor de Y.

FIGURA 4 - RETA DO COEFICIENTE DE REGRESSÃO

b>0 b<0
FONTE: O autor.

90
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios

Outra interpretação para o coeficiente de regressão é que ele representa em


quanto varia a média de Y para o aumento de uma unidade da variável X. Esta
variação pode ser negativa, situação em que para um acréscimo de X corresponde
um decréscimo de Y.

No exemplo: Yˆ = -0,98 + 2,16 X_i para x = 14, Yˆ = 29,26 e para x = 15,


Yˆ = 31,42. A diferença entre os valores de Yˆ é 2,16, exatamente o valor de b; ou
seja, para cada acréscimo de 1 em X, acresce de 2,16.

Análise de Resíduos: desvios são denominados de resíduos e são


considerados uma amostra aleatória dos erros. Por este fato, uma análise gráfica
dos resíduos é, em geral, realizada para verificar as suposições assumidas para
os erros. Os desvios são:

ei =yi − yˆi (i =
1, ..., n)

Para verificação dos pressupostos necessários para ajuste de um modelo


de regressão é necessário realizar uma Análise de Resíduos. Os três tipos de
resíduos mais comumente utilizados são:

● Resíduos padronizados.
● Resíduos estudentizados.

4.4 Correlação
Para uma análise ficar de maneira consistente é desejado que se avalie a
relação entre as variáveis do modelo, pois é importante conhecer se elas possuem
algum tipo de dependência entre si, ou seja, se valores altos/baixos de uma das
variáveis implicam em valores altos/baixos da outra variável (LIRA, 2004). Por
exemplo:

● Se existe relação entre a expansão da carga horária de funcionamento, com o


aumento do volume de compras?
● Se existe relação entre o aumento de casos de dengue e temporada de chuva?
● Se existe relação na altura de filho e pai?
● Se existe relação entre promoção e aumento de vendas?
● Se diminuir a carga horária aumenta a produtividade dos funcionários?
● Se o corte de gasto aumenta no aumento dos lucros?

91
Análise Estatística de Dados

A análise de correlação (r) fornece um valor que resume o grau de


relacionamento linear entre as duas variáveis. Ela procura determinar o grau de
relacionamento entre as variáveis, ou seja, se procura medir a covariabilidade
entre elas (LIRA, 2004).

Definição: sejam x1, x2, ..., xn; y1, y2, ..., yn os valores observados de X e Y,
respectivamente. Denomina-se coeficiente de correlação (amostral) entre X e Y
o número dado por:

r =
∑ xi yi − ( ∑ xi ∑ yi ) / n ∑ x y − nx y
i i

 x 2 − ( x )2 / n   y 2 − ( y )2 / n 
 ∑ i ∑i   ∑ i ∑ i 
( ∑ x − nx )( ∑ x − ny )
2
i
2 2
i
2

Propriedades
● r varia entre -1 e + 1

FIGURA 5 - RETAS DE REGRESSÃO E O COEFICIENTE DE CORRELAÇÃO LINEAR

FONTE: O autor.

O valor de r mede a intensidade da relação linear, e o sinal de r indica o


sentido da relação.

● As figuras (a) e (e) existem em correlação perfeita: o valor de Y é determinado


por uma reta linear em X, isto é, os pontos estão distribuídos de maneira que
as retas de regressão de Y sobre X e de X sobre Y coincidam.
● Em (c), caso em que r = 0, ou seja, não existem indícios de relação linear.
● Nas figuras (b) e (d) a correlação também é zero, por esse motivo, as retas de
regressão são perpendiculares.

92
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios

● É importante saber que r = 0 não quer dizer que existe ausência de relação
entre duas variáveis, apenas que ela é baixa.

4.5 Coeficiente de Determinação


Pode-se definir o coeficiente de determinação como uma medida usada para
avaliar como o modelo explica e prevê resultados futuros (CHARNET, 1999). Ele
tem variação entre 0 < r2 < 1.

sY2 − sY2 / X
r² =
sY2

Então, podemos definir o coeficiente de determinação como uma medida


descritiva da qualidade do ajuste obtida pela equação de regressão estimada.
Quanto mais próximo de r2 = 1 o modelo está se ajustando perfeitamente aos
dados. Porém, se r2 = 0 não existe uma relação linear entre X e Y.

Para o exemplo a Tabela 1 podemos apresentar que o valor de que r2 =


(0,997)2 = 0,994. Com base neste valor podemos concluir que existe uma relação
linear forte entre o investimento e o lucro.

4.6 Modelo De Regressão Múltiplo


Modelo de Regressão Linear Múltipla é qualquer modelo de regressão que
possui mais variáveis explicativas, isto é, para uma única variável dependente,
possui duas ou mais variáveis independentes (CHARNET, 1999). A finalidade do
modelo de possuir mais variáveis independentes é melhorar a capacidade de
predição.

Vantagens de usar a análise de regressão múltipla:

● Para minimizar os resíduos. No momento em que é reduzida a variância residual


(erro padrão da estimativa), aumenta a força dos testes de significância.
● Para diminuir a tendenciosidade que poderia resultar em uma variável que
afeta a variável dependente Y.

93
Análise Estatística de Dados

A equação da regressão múltipla tem a forma seguinte:

Y = a + b1x1 + a + b2x2 + ... + bkxk + ei em que:

a = intercepto do eixo y.
bi = coeficiente angular da i-ésima variável.
k = número de variáveis independentes.

Em comparação com uma regressão simples de duas variáveis que resulta


na equação de uma reta, um modelo com três variáveis resulta em um plano, e
um modelo de k variáveis resulta em um hiperplano. Na regressão múltipla, as
estimativas dos mínimos quadrados são atingidas pela escolha dos estimadores
que minimizam a soma dos quadrados dos desvios entre os valores observados e
os valores ajustados (CHARNET, 1999).

Na regressão simples:
b = aumento em Y, decorrente de um aumento unitário em X.

Na regressão múltipla:
bi = aumento em Y se Xi for aumentado de 1 unidade, mantendo-se
constantes todas as demais variáveis Xj.

Exercícios de fixação
1) Qual a diferença entre aprendizagem Regressão e
Classificação?
a) Regressão: tenta estimar ou prever, para cada indivíduo, o valor
numérico de alguma variável para esse indivíduo. Classificação:
a estimativa de classificar um indivíduo em uma classe.
b) Regressão: tenta estimar ou prever, para cada indivíduo,
apenas um valor numérico de alguma variável para esse
indivíduo. Classificação: a estimativa de classificar um indivíduo
em uma classe.
c) Regressão: tenta estimar, prever ou classificar, para cada
indivíduo, apenas um valor numérico de alguma variável para
esse indivíduo. Classificação: a estimativa de classificar ou prever
um indivíduo em uma classe.
d) Regressão: tenta estimar ou prever, para cada indivíduo,
apenas um valor numérico de alguma variável para esse
indivíduo. Classificação: a estimativa de classificar e prever um
indivíduo em uma classe.

94
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios

2) Qual o propósito da aprendizagem não supervisionada?


a) Algoritmos de aprendizado de máquina não supervisionados
inferem padrões de um conjunto de dados sem referência a
resultados conhecidos ou rotulados.
b) Algoritmos de aprendizado de máquina não supervisionados
inferem padrões de um conjunto de dados obrigatoriamente com
referência a resultados conhecidos.
c) Algoritmos de aprendizado de máquina não supervisionados
inferem padrões de um conjunto de dados somente que possuem
rótulos.
d) Algoritmos de aprendizado de máquina não supervisionados
possuem as mesmas propriedades dos algoritmos de aprendizado
de máquina supervisionados.

3) Em qual etapa do processo de mineração de dados acontece


esse procedimento: Momento onde as técnicas de mineração
de dados são aplicadas aos dados, sendo aplicados estatísticas
e padrões para gerar previsões e fazer inferências sobre as
informações extraídas.
a) Modeling.
b) Deployment.
c) Data Warehousing.
d) Business Understanding.

4) Qual característica citada abaixo é verdadeira respectivamente
ao modelo de regressão?
a) A predição tem o propósito de estimar um valor desconhecido,
o qual pode ser algo no futuro, porém também poderia ser algo
no presente ou no passado.
b) A predição tem o propósito de estimar um valor conhecido, o
qual pode ser algo no futuro, porém também poderia ser algo no
presente ou no passado.
c) A predição tem o propósito de estimar um valor conhecido, o
qual pode ser algo somente no futuro.
d) A predição tem o propósito de estimar um valor desconhecido,
o qual pode ser algo somente no passado.

5) Qual alternativa representa as principais vantagens do uso do
modelo de regressão para negócios?
a) Previsão e otimização.
b) Previsão e classificação.
c) Otimizar e classificação.
d) Classificação.

95
Análise Estatística de Dados

Algumas Considerações
Neste capítulo discutimos a importância da mineração de dados para
negócios. É uma técnica bastante usada para identificar padrões em dados,
podendo ser usada em todas as áreas da empresa, como para inferir sobre o
perfil do cliente, até mesmo em produção para detectar potenciais falhas e
anomalias nos produtos fabricados. Foram apresentados todos os detalhes do
seu processo, que vai de compreensão do negócio, nesta fase são levantados
todos os problemas para serem solucionados, até a fase da modelagem.

Foram vistos o conceito e as características de modelagem de dados. Modelo


preditivo é uma fórmula para estimar o valor desconhecido de interesse: o alvo. A
fórmula pode ser matemática ou pode ser uma afirmação lógica, como uma regra.
A predição tem o propósito de estimar um valor desconhecido, o qual pode ser
algo no futuro, porém também poderia ser algo no presente ou no passado.

A análise de regressão possui várias técnicas para modelagem e análise de


diversas variáveis, quando o foco está na relação entre uma variável dependente
e uma ou mais variáveis ​​independentes. Mais especificamente, a análise de
regressão auxilia a compreender como o valor da variável dependente (ou
'variável de critério') muda quando qualquer uma das variáveis independentes
​​
é variada, enquanto as outras variáveis ​​independentes são mantidas fixas. Ela
auxilia gerentes e coordenadores a fazer previsões e entender melhor o mercado.

A regressão modela a relação entre uma resposta (variável dependente) e


uma ou mais variáveis ​​explicativas (variáveis ​​independentes). O caso de uma
variável explicativa é chamado de regressão linear simples. Porém, no momento
em que temos um problema que envolve mais de uma variável explicativa, então
usamos regressão múltipla.

96
Capítulo 2 Princípios Fundamentais do Data Science Para Negócios

Referências
BARTHOLOMEW, David J.; KNOTT, Martin. Latent variable models and factor
analysis. London: Arnold, 1999.

BURR, Irving W. Cumulative frequency functions. The Annals of mathematical


statistics, v. 13, n. 2, p. 215-232, 1942.

CASTANHEIRA, Luciana Gomes. Aplicação de técnicas de mineração de


dados em problemas de classificação de padrões. Belo Horizonte: UFMG,
2008.
CHARNET, Reinaldo et al. Análise de modelos de regressão linear com
aplicações. Campinas, São Paulo, Unicamp, 356p, 1999.

CHANDOLA, Varun; BANERJEE, Arindam; KUMAR, Vipin. Anomaly detection: A


survey. ACM computing surveys (CSUR), v. 41, n. 3, p. 15, 2009.

CORREA, H. L.; CORRÊA, C. A. Administração de Produção e de Operações.


1. ed. São Paulo: Atlas, 2009.

CROXTON, Frederick Emory; COWDEN, Dudley Johnstone. Practical business


statistics. Prentice-Hall, 1952.

DIFFERENCES BETWEEN SUPERVISED LEARNING AND UNSUPERVISED


LEARNING. Disponível em:
http://www.differencebetween.net/technology/differences-between-supervised-
learning-and-unsupervised-learning/#ixzz5VNEmlYJo Acesso em: 9 out. 2018.

ELMAGARMID, Ahmed K.; IPEIROTIS, Panagiotis G.; VERYKIOS, Vassilios S.


Duplicate record detection: A survey. IEEE Transactions on knowledge and
data engineering, v. 19, n. 1, p. 1-16, 2007.

HAIR, Joseph F. et al. Análise multivariada de dados. São Paulo: Bookman


Editora, 2009.

HERNÁNDEZ, Mauricio A.; STOLFO, Salvatore J. The merge/purge problem for


large databases. In: ACM Sigmod Record. ACM, 1995. p. 127-138.

IKEMATU, Ricardo Shoiti. Gestão de metadados: sua evolução na tecnologia da


informação. DataGramaZero-Revista de Ciência da Informação, v. 2, n. 6, 2001.

INMON, William H. Building the data warehouse. John Wiley & Sons, 2005.

97
Análise Estatística de Dados

LAPPONI, Juan Carlos. Estatística usando excel. Rio de Janeiro: Elsevier


Brasil, 2004.

LIRA, Sachiko Araki. Análise de correlação: abordagem teórica e de construção


dos coeficientes com aplicações. Universidade Federal do Paraná, 2004.

MODELO ESTATÍSTICO. Disponível em:


http://www.portalaction.com.br/inferencia/modelo-estatistico Acesso em: 12 out. 2018.

Modelos de mineração. Disponível em:


https://docs.microsoft.com/pt-br/sql/analysis-services/data-mining/mining-models-
analysis-services-data-mining?view=sql-server-2017 Acesso em: 7 out. 2018.

MORETTIN, Pedro Alberto; BUSSAB, WILTON OLIVEIRA. Estatística básica.


São Paulo. Editora Saraiva, 2017.

MONARD, Maria Carolina; BARANAUSKAS, José Augusto. Conceitos sobre


aprendizado de máquina. Sistemas Inteligentes-Fundamentos e Aplicações,
v. 1, n. 1, p. 32, 2003.

PROVOST, Foster; FAWCETT, Tom. Data Science for Business: What you
need to know about data mining and data-analytic thinking. " O'Reilly Media,
Inc.", 2013.

REZENDE, Solange Oliveira et al. Mineração de dados. Sistemas inteligentes:


fundamentos e aplicações, v. 1, p. 307-335, 2003.

RIEDER, Helmut. Robust asymptotic statistics. Springer Science & Business


Media, 2012.

RISHE, Naphtali David. Database querying system and method. U.S. Patent n.


6,795,825, 21 set. 2004.

STEVENSON, W. J. Administração das Operações de Produção. LTC. 6ª


edição. Rio de Janeiro, 2001.

WEBB, A. R. Statistical Pattern Recognition. 2. ed. Chichester: John Wiley &


Sons, 2002.  

WITTEN, Ian H., FRANK, Eibe. Data Mining: practical machine learning tools
and techniques. 2ª edição (2005). Morgan Kaufmann series in data management
systems. ISBN: 0-12-088407-0

ZAKI, Mohammed Javeed. Scalable algorithms for association mining. IEEE


transactions on knowledge and data engineering, v. 12, n. 3, p. 372-390, 2000.

98
C APÍTULO 3
Modelagem Multivariada
A partir da perspectiva do saber fazer, neste capítulo você terá os seguintes
objetivos de aprendizagem:

� Compreender as principais técnicas de análise multivariada.

� Entender em quais circunstâncias deve ser aplicada cada técnica.


Análise Estatística de Dados

100
Capítulo 3 Modelagem Multivariada

1 Contextualização
Com a grande quantidade de informações produzidas por diversos meios,
como a internet, grandes volumes de dados são gerados a cada momento. Esses
dados, muitas vezes, têm múltiplas variáveis, e por esse motivo, fazer uso de
técnicas mais simples, por exemplo, a análise de regressão simples, não é viável.

As técnicas multivariadas são capazes de extrair informações dessas


múltiplas relações e obter um entendimento completo para tomar decisões. Elas
estão sendo frequentemente aplicadas nos negócios, e em vários setores do
comércio, pois não é relevante levar em consideração apenas consumidores de
grupos pequenos e homogêneos. Para ter uma boa visão de mercado é preciso
desenvolver estratégias que alcancem diversos grupos de consumidores com
características diferentes.

Neste capítulo vamos abordar sobre técnicas multivariadas explanando suas


características e principais conceitos. Vamos abordar as principais diferenças e
em qual situação cada uma se aplica.

No capítulo inicial falaremos sobre a regressão logística, esclarecendo suas


principais características.

No próximo capítulo a Análise de Cluster é explanada, em que seus principais


conceitos, como medidas de similaridade e distância, são abordados de forma a
deixar claro os seus principais objetivos.

Após vamos contextualizar sobre o agrupamento não hierárquico, elencando


seus principais atributos.

No último capítulo estudaremos sobre os conceitos de K-ésimo vizinho mais


próximo, abordando seus atributos principais.

2 Regressão Logística
O que é Análise Multivariada?

As informações disponíveis para a tomada de decisões aumentaram


gradativamente no decorrer dos anos. Essas informações são coletadas e
armazenadas em bancos de dados, nos quais ficam disponíveis para serem feitas
as extrações dos dados com a finalidade de auxiliar na tomada de decisões.
Parte dessa informação pode ser analisada e compreendida com estatística

101
Análise Estatística de Dados

simples, mas quando temos dados múltiplos é preciso usar técnicas estatísticas
multivariadas mais complexas para converter tais dados em conhecimento (HAIR,
2009).

Com base neste alto conjunto de informações, os métodos multivariados são


bastante usados.

Mas, primeiro vamos entender a diferença entre as técnicas univariadas,


bivariadas e multivariadas.

● Técnicas Univariadas: a população é descrita uma variável por vez. Ex.:


Estatística Descritiva.
● Técnicas Bivariadas: nela são incluídos métodos de análise com duas
variáveis, podendo ser ou não estabelecida uma relação de causa/efeito entre
elas. Ex.: Teste para a independência de duas variáveis; Relação linear entre
duas variáveis.
● Técnicas Multivariadas: são as técnicas de análise das relações de múltiplas
variáveis dependentes e/ou múltiplas variáveis independentes. Essas variáveis
podem ter relação ou não de causa/efeito entre duas ou mais variáveis. Esses
métodos possibilitam que se faça uma exploração da performance conjunta
das variáveis, e seja determinada a correlação entre elas. Ex.: Regressão
múltipla; Análise multivariada de variância.

Pergunta: Em um estudo em que precisamos analisar as variáveis


preço, produto, local e consumidor, qual tipo de técnica devemos
usar?

Análise multivariada tem suas propriedades a partir das estatísticas


univariada e bivariada, a dimensão para a estatística multivariada possui conceitos
adicionais, como a inserção de mais variáveis no modelo.

Para uma distribuição ser considerada multivariada é preciso seguir alguns


conceitos:

● Todas as variáveis devem ser aleatórias.


● Todas a variáveis devem ser inter-relacionadas.
● Os efeitos das variáveis não podem ser significativamente interpretados se
analisadas separadamente.

102
Capítulo 3 Modelagem Multivariada

E como construímos matematicamente as técnicas multivariadas?

O construtor da análise multivariada é denominado de variável estatística,


isto é, uma combinação linear de variáveis com pesos empiricamente determinados
(HAIR, 2009). As variáveis são definidas pelo pesquisador, sendo os pesos
determinados pelo método multivariado. Pode-se definir a variável estatística de n
variáveis ponderadas ( X1 até Xn) como:

W1 X1 + W2 X2 + W3 X3 + ... + Wn Xn

Em que:
X1= variável observada.
W1= peso determinado pela técnica multivariada.

O resultado é o valor que representa a combinação do conjunto inteiro de


variáveis que melhor atinge o objetivo. A variável estatística extrai os valores
multivariados da análise (HAIR, 2009).

2.1 Conceitos da Regressão


Logística
Agora que fizemos uma pequena introdução em análise multivariada, vamos
relembrar os conceitos de Regressão Linear!

Primeiramente vamos relembrar o que é um modelo de regressão.

Um modelo de regressão visa estimar ou prever para cada indivíduo o valor


numérico de alguma variável que pertença a ele. Um exemplo de regressão
seria: existe relação entre o aumento de vendas com a expansão do horário
de funcionamento da loja? Ou: é possível prever a quantidade de produtos que
podem ser vendidos em uma promoção?

Regressão é uma medida estatística usada em qualquer área em que é


preciso verificar a relação entre uma variável dependente (denotada por Y) e
uma série de outras variáveis (variáveis
​​ independentes).
​​ A regressão ajuda os
coordenadores do negócio a avaliar os ativos e a entender as relações entre
variáveis, como os preços de um determinado produto e valor desse produto que
está sendo comercializado pelas empresas.

Bom, agora que fizemos um pequeno resumo sobre regressão,


iniciaremos nosso estudo sobre regressão logística!

103
Análise Estatística de Dados

O que são variáveis categóricas?

Podemos definir as variáveis que podem ser mensuradas usando categorias.


Exemplos de variáveis categóricas:

● Raça.
● Gênero.
● Doença.
● Morte.

Variáveis categóricas são diferentes das variáveis contínuas.

Variáveis contínuas podem assumir um número infinito de


valores.

As variáveis categóricas contêm um número finito de valores.

Essas variáveis são denominadas de dummys, pois elas podem receber


apenas dois valores, “sim” ou “não”. Por exemplo:

Y: Cliente vai comprar o novo produto desenvolvido.


0 = O cliente não compra o produto.
1 = O cliente compra o produto.

O modelo logístico é uma técnica frequentemente usada para situações em


que a variável dependente (Y) é de natureza dicotômica ou binária (PROVOST,
2013). Em relação às variáveis independentes, elas podem ser categóricas ou
não. O modelo é um recurso que nos permite estimar a probabilidade associada
à ocorrência de determinado evento em face de um conjunto de variáveis
explanatórias.

Características:

● Tem o propósito de estimar a probabilidade de a variável dependente poder


assumir um determinado valor em função de valores conhecidos de outras
variáveis.
● Os resultados da análise ficam contidos no intervalo de zero a um.

104
Capítulo 3 Modelagem Multivariada

Cada Y1 tem distribuição de Bernoulli, na qual a função de distribuição de


probabilidade é dada por (MORETTIN, 2017):

Onde:

y: representa o evento ocorrido.


p: probabilidade de sucesso para a ocorrência do evento.

Como podemos verificar, os eventos estão em várias sequências com a


distribuição de Bernoulli, a soma do número de sucessos ou fracassos neste
experimento terá distribuição Binomial de parâmetros n (número de observações)
e p (probabilidade de sucesso). A função de distribuição de probabilidade da
Binomial é dada por Morettin (2017):

A transformação para um modelo logístico é a partir do logaritmo da razão de


probabilidades, onde a regressão nos fornece uma ideia do risco de uma pessoa
obter um dado efeito de algumas variáveis explicativas que serão introduzidas mais
à frente. Essa transformação é chamada de logit, e o principal objetivo é linearizar o
modelo, aplicando o logaritmo. A transformação é dada por Cabral (2013):

105
Análise Estatística de Dados

FIGURA 1 - A ESTIMATIVA DE REGRESSÃO LOGÍSTICA DA


PROBABILIDADE DE CLASSE EM FUNÇÃO DE F(X)

FONTE: Provost (2013, p. 100).

A transformação para um modelo logístico tem um papel importante, pois os


modelos que passam por esse processo têm algumas propriedades do modelo de
regressão linear. Essas propriedades são citadas abaixo (CABRAL, 2013):

● A função logit é linear nos parâmetros.


● A função logit é contínua.
● Os seus valores podem variar dentro do conjunto real.

A transformação é denominada de: transformação logit de π (x). Ela é dada


pela razão citada abaixo:

Podemos chamar essa razão: de odds (razão de chances).


O que é razão de chances?

Use a razão de chances para comparar as chances de dois eventos.


Por exemplo, você quer comparar os estudantes que receberam ensino
doméstico com os alunos que frequentaram o ensino público. O objetivo
da análise é determinar se um grupo era mais provável de se formar na
universidade com honras.

FONTE: O que é razão de chances? Disponível: <https://


goo.gl/ETxLF3> Acesso em: 5 dez. 2018.

106
Capítulo 3 Modelagem Multivariada

Aplicação do modelo logístico:

● Fazer previsões de risco na área tributária – calcular a probabilidade de o


contribuinte ser inadimplente ou adimplente após o parcelamento de tributos,
de acordo com Dias Filho (2003).
● Classificar se a empresa se encontra no grupo de empresas com qualidade ou
sem qualidade.

Vantagens do Modelo Logístico:

● Capacidade de lidar com variáveis independentes categóricas.


● Os resultados são em termos de probabilidade.
● Classificar indivíduos em categorias.
● Não precisa de um grande número de suposições.
● Alto grau de confiabilidade.

Rótulos de Classe e Probabilidades


Podemos pensar que a variável alvo é uma representação da
probabilidade de associação à classe, e os valores observados da
variável de destino nos dados de treinamento, simplesmente por definir a
probabilidade de p (x) = 1 para casos que são observados na classe e p
(x) = 0 para instâncias que não são observadas na classe. Porém, isso não
acontece da mesma forma na regressão logística.

Por exemplo, em um aplicativo a estimativa de probabilidade para o


marketing alcançar um determinado consumidor (que vamos chamar de
c). A probabilidade de ele responder à oferta possui probabilidade p (c
responde) = 0.02, entretanto isso não significa que a probabilidade desse
consumidor responder realmente foi 1.0, nem que o modelo obteve um
grande erro. A probabilidade do consumidor pode, de fato, ter sido em torno
de p (c responde) = 0,02, o que na verdade é uma alta probabilidade de
resposta para muitas campanhas.

FONTE: PROVOST (2013, p. 101-102).

107
Análise Estatística de Dados

Atividade de estudos:
Exercício: Sobre o modelo logístico, coloque F para falso e V para
verdadeiro, nas alternativas abaixo:
a) ( ) Os parâmetros do modelo devem seguir normalidade.
b) ( ) Ele é usado frequentemente para variáveis quantitativas.
c) ( ) Podemos usá-lo no caso univariado.
d) ( ) As variáveis do modelo devem ser dicotômicas.

Atividade de estudos:
Exercício: Vamos supor que temos um conjunto de dados em que
devemos analisar a predominância de uma criança ter câncer ou
não. Qual seria a melhor de fazer essa previsão?

3 Análise de Cluster
A Análise de Cluster também é conhecida por Análise por Agrupamento, tem
o propósito de descrever as diversas técnicas que têm por objetivo classificar os
valores de uma matriz de dados sob estudo em grupos de variáveis discretas.

Quando podemos usar esta técnica?

Quando é preciso explorar as similaridades entre conjunto de indivíduos


ou objetos, em que se considera simultaneamente, no primeiro caso, todas as
variáveis medidas em cada indivíduo e, no segundo, todos os indivíduos nos
quais foram feitas as mesmas mensurações.

O objetivo é fazer agrupamentos homogêneos de itens representados


por pontos num espaço n-dimensional em grupos, em que seus elementos se
relacionam através dos coeficientes de similaridades ou de correspondências. A
análise de agrupamentos faz agregados baseados em distância (proximidade)
(HAIR, 2009).

Agora que vimos os conceitos iniciais do assunto, vamos nos


aprofundar um pouco mais.

108
Capítulo 3 Modelagem Multivariada

Como utilizamos essas técnicas na análise multivariada?

A Análise de Cluster classifica objetos de maneira que cada objeto seja


semelhante aos outros no agrupamento, com base em um conjunto de características
escolhidas (HAIR, 2009). Os grupos formados devem conter uma grande
homogeneidade dentro de cada grupo, e uma taxa alta de heterogeneidade entre
os grupos. Portanto, os objetos dentro dos agrupamentos estarão próximos quando
forem representados graficamente, e cada grupo estará distante do outro. A Figura 2
apresenta alguns exemplos de grupos formados através da técnica de cluster.

FIGURA 2 - AGRUPAMENTOS

FONTE: <https://goo.gl/euMSiZ>. Acesso em: 25 nov. 2018.

Atividade de estudos:
Exercício: Sobre os conceitos iniciais da análise multivariada
podemos afirmar:
a) ( ) Ela é usada apenas para dados bivariados.
b) ( ) Classifica objetos de maneira que cada objeto seja semelhante
aos outros no agrupamento.
c) ( ) O principal propósito é fazer previsões sobre seus objetos no
mesmo grupo.
d) ( ) O principal propósito é fazer previsões sobre seus objetos em
grupos diferentes.

109
Análise Estatística de Dados

A variável estatística em análise de agrupamentos é


determinada de maneira muito diferente do que ocorre em outras
técnicas multivariadas, pois somente na análise por agrupamento
não se estima a variável estatística empiricamente, em vez disso,
usa a variável estatística especificada pelo pesquisador.

O foco da análise de agrupamentos é a comparação de objetos


com base na variável estatística, não na estimação da variável
estatística em si. Isso torna a definição da variável estatística feita
pelo pesquisador um passo crítico na análise.

Em quais circunstâncias podemos usar a análise por agrupamento?

A Análise de Cluster pode ser usada em todos os tipos de pesquisas em que


se deseja agrupar objetos semelhantes (HAIR, 2009). Por exemplo:

● Na biologia ela agrega os organismos vivos nos seus respectivos grupos.


● Na psicologia ela forma conjuntos de pessoas com base nos seus traços de
personalidade.

Para o mercado ela tem grande potencial para agrupar indivíduos, podendo
ser frequentemente usada para:

● Classificar a estrutura de mercado.


● Analisar as semelhanças e diferenças entre novos produtos.
● Avaliações de desempenho das empresas para identificar agrupamentos com
base nas estratégias ou orientações estratégicas da empresa.

Frequentemente podemos usar a análise de agrupamento nos seguintes


momentos (HAIR, 2009):

1. Redução de dados: em uma pesquisa é coletado um grande número de


dados que somente possuirão significado se forem agrupados. A análise de
agrupamentos pode reduzir os dados para reduzir as informações de uma
população inteira ou de uma amostra, para a informação sobre subgrupos
específicos e menores.

110
Capítulo 3 Modelagem Multivariada

Por exemplo: se é possível compreender o comportamento de


uma população pela identificação dos principais grupos dentro dela,
então reduzimos os dados para a população inteira em perfis de vários
grupos. Desse modo, o pesquisador tem uma descrição mais concreta
e compreensível das observações, sem perder muitas informações.

2. Geração de hipóteses: a análise de agrupamentos é útil quando na pesquisa


é preciso desenvolver hipóteses ou examinar hipóteses previamente
estabelecidas.

Por exemplo: em uma pesquisa deseja-se estudar as atitudes em


relação ao consumo de refrigerantes diet versus comuns, para que
possam ser usadas para separar os consumidores de refrigerantes
em segmentos ou grupos semelhantes. A análise de agrupamentos
pode classificar os consumidores de refrigerantes por suas atitudes
em relação a refrigerantes normais versus diet, e os agrupamentos
resultantes, se existirem, podem ser caracterizados por similaridades
e diferenças demográficas.

As técnicas de agrupamento têm sido usadas em diversas áreas, como:

● Marketing: ajuda a identificar grupos distintos em seu conjunto de clientes, e


assim pode-se desenvolver programas de marketing direcionados para cada
grupo diferente (CHIANG, 2003).
● Uso de terras: identificar as alocações para o uso da terra, com fins agrários
e/ou urbanos em uma base de dados de observação via satélite (LEVIA, 2000).
● Seguro: reconhecer grupos de pessoas que tenham seguro de carro com um
alto custo de risco (YEOH, 2002).
● World Wide Web: agrupa os documentos de acordo com as semelhanças
semânticas, de maneira a melhorar os resultados oferecidos por sites de busca
(HAMMOUDA, 2002).
● Estudos do terremoto: análise de dados reais e sintéticos de terremotos para
extrair atributos que permitam a previsão de eventos precursores de abalos
sísmicos (DZWINNEL, 2005).

111
Análise Estatística de Dados

Alguns pontos importantes sobre a Análise de Agrupamentos

A análise de agrupamentos é descritiva e não inferencial. Ela não


tem base estatística para fazer inferências de uma amostra para uma
população. Portanto, a análise de agrupamentos deve ser aplicada de
um modo confirmatório, usado para identificar grupos que já têm uma
fundamentação estatística descritiva.

A análise de agrupamentos sempre gera agrupamentos,


independentemente da existência real de alguma estrutura nos dados.
Quando o pesquisador usa a análise de agrupamentos, ele está fazendo
uma suposição sobre alguma estrutura entre os objetos. Porém,
encontrar grupos não valida a existência dos mesmos. Somente com forte
suporte conceitual, seguido de validação, é que os agrupamentos são
potencialmente significativos e relevantes.

FONTE: HAIR, 2009, p. 431.

Como podemos aplicar a Análise por Agrupamentos?

Para começar a análise, precisamos medir o grau de relação entre as


variáveis. E como vamos fazer essa medição? Através da medida de similaridade.

3.1 Medição de Similaridade


Essa medida é usada para determinar o grau de semelhança entre os objetos
e realiza o agrupamento de acordo com a sua homogeneidade.

Segundo Witten e Frank (2005), a medição ocorre da seguinte


forma: cada elemento é comparado com os existentes usando uma
métrica de distância, e a instância existente mais próxima é usada
para atribuir a classe à nova. Isso é chamado de método de
classificação de vizinho mais próximo.

112
Capítulo 3 Modelagem Multivariada

As distâncias de similaridade mais comuns são: Distância Euclidiana,


Distância Manhattan, Distância de Mahalanobis (D2) e as Medidas de
Associação.

a) Distância Euclidiana: Ela é definida como a soma da raiz quadrada da


diferença entre x e y em suas respectivas dimensões. Vamos supor que temos
dois pontos em duas dimensões que tenham coordenadas (X1 Y1) e (X2 Y2),
respectivamente. A distância euclidiana entre os pontos é o comprimento
da hipotenusa de um triângulo retângulo, conforme se calcula pela fórmula
apresentada na Figura 3, que mostra um exemplo de distância euclidiana.

FIGURA 3 - EXEMPLO DE DISTÂNCIA EUCLIDIANA

FONTE: Hair (2009, p. 442).

A Distância Euclidiana é dada pela seguinte fórmula:

( X 2 − X 1 ) + (Y2 − Y1 )
2 2
Distância =

b) Distância Manhattan: É definida pela soma das diferenças entre x e y em


cada dimensão. Sua fórmula é dada por:

|x1 - x2| + |y1 - y2|

c) Distância de Mahalanobis (D2): Podemos definir a Distância de Mahalanobis


como a medida generalizada de distância que explica as correlações entre
variáveis de modo que se pondera da mesma forma todas as variáveis. Porém,
para que possamos usar a distância é necessário que as variáveis sejam
padronizadas.

113
Análise Estatística de Dados

Atividade de estudos:
Pergunta: Para as alternativas abaixo, responda F para falso e V
para verdadeiro.
a) ( ) A análise multivariada usa a similaridade para determinar o
grau de semelhança entre os objetos dos grupos.
b) ( ) A análise multivariada usa a similaridade para determinar a
previsão de um elemento em comparação a outro elemento no
mesmo grupo.
c) ( ) A distância Euclidiana é definida pela soma das diferenças
entre x e y em cada dimensão.
d) ( ) A distância de Mahalanobis é definida como a soma da
raiz quadrada da diferença entre x e y em suas respectivas
dimensões.

Qual é a melhor medida de distância?

Para selecionar uma medida de distância é preciso avaliar alguns


pontos:

● Diferentes medidas de distância ou uma mudança nas escalas das


variáveis podem conduzir a diferentes soluções de agrupamentos. Logo,
é aconselhável usar diversas medidas e comparar os resultados com
padrões teóricos ou conhecidos.
● Quando as variáveis estão correlacionadas (positiva ou negativamente),
a medida de distância de Mahalanobis provavelmente é a mais
adequada, pois ajusta correlações e pondera todas as variáveis
igualmente.

FONTE: HAIR (2009, p. 443).

d) Medidas de associação: Essas medidas são usadas para comparar objetos


cujas características foram medidas em valores não métricos (medida nominal
ou ordinal) (FERRER, 2004). Elas avaliam o grau de relação entre os pares
correspondentes. A forma mais simples de medida de associação seria o
percentual de vezes em que ocorre concordância (ambos os respondentes
dizem sim ou ambos dizem não a uma pergunta) no conjunto de questões
(HAIR, 2009).

114
Capítulo 3 Modelagem Multivariada

Como podemos selecionar a medida de similaridade?

As três maneiras de medir a similaridade são bastantes úteis,


mas a mais usada é a medida Euclidiana, pois ela representa melhor
o conceito de proximidade, que é importante para a análise de
agrupamentos. A análise de agrupamentos é tipicamente associada
com características medidas por variáveis métricas. Em algumas
aplicações, características não métricas são usadas, mas é mais usual
que as características sejam representadas por medidas métricas,
tornando novamente a distância a medida preferida. Logo, pode-se
aplicar medidas de similaridade que representam a proximidade de
objetos em um conjunto de variáveis métricas ou não métricas.

3.2 Agrupamento Hierárquico


Os métodos hierárquicos criam uma hierarquia de relacionamentos entre os
elementos, eles são técnicas nas quais os dados são particionados várias vezes,
para produzir uma representação hierárquica dos agrupamentos (EVERITT,
2001), com o propósito de melhorar a visualização sobre a formação dos
agrupamentos em cada estágio onde ele ocorreu e com o grau de semelhança
entre os agrupamentos.

O algoritmo aglomerativo funciona da seguinte forma (LINDEN, 2009):

1. Gerar um cluster para cada elemento.


2. Identificar os pares de clusters mais similares, conforme a medida de distância
escolhida.
3. Unir em um cluster maior e recalcular a distância deste cluster para todas as
outras variáveis.
4. Repita os passos 2 e 3 até sobrar um único cluster.

Esse método não requer que seja definido um número a priori de


agrupamentos. Para visualizar a relação entre os agrupamentos é usado um
gráfico chamado dendograma. A Figura 4 apresenta um exemplo do gráfico
dendograma.

115
Análise Estatística de Dados

FIGURA 4 - DENDOGRAMA

FONTE: Vieira (2007).

Métodos hierárquicos precisam de uma matriz que contenha as métricas de


distância entre os agrupamentos em cada estágio do algoritmo. Essa matriz é
conhecida como matriz de similaridades entre agrupamentos (BARROSO, 2003).

Podemos imaginar um estágio do algoritmo no qual o número de


agrupamentos é três: A1, A2 e A3. Então, pode-se montar a matriz de similaridade
da seguinte forma:

TABELA 1 - MATRIZ DE SIMILARIDADE

A1 A2 A3
A1 0 0,2 0,4
A2 0,2 0 0,3
A3 0,4 0,5 0
FONTE: O autor.

Na Tabela 1 podemos observar que A1 e A2 são agrupamentos similares,


pois eles possuem as menores distâncias, em relação a A2 e A3, que são
menos similares.

Podemos dividir os métodos hierárquicos em: Métodos Aglomerativos e


Métodos Divisivos.

116
Capítulo 3 Modelagem Multivariada

Atividade de estudos:
Pergunta: Conforme a tabela a seguir, quais são as variáveis que
têm agrupamento similar?
Y1 Y2 Y3
Y1 0 0,2 0,1
Y2 0,5 0 0,6
Y3 0,1 0,5 0

3.2.1 Métodos aglomerativos


O Método Aglomerativo é iniciado com cada padrão formando seu próprio
agrupamento, e gradativamente os grupos são formados até que um único
conjunto contendo todos os dados seja gerado. Ao iniciar o processo, os
grupos são pequenos e os elementos de cada grupo possuem um alto grau de
similaridade. Mas, ao final do processo, poucos agrupamentos são gerados, e
cada um pode conter vários elementos e menos similares entre eles.

Lembre-se: Para iniciar o processo é preciso criar uma matriz de


similaridades entre os agrupamentos, e no início do algoritmo, cada
padrão é um agrupamento.

Quais são os passos do procedimento?

1) Deve-se colocar um único padrão para cada agrupamento.


2) Logo após é calculada a matriz de similaridades.
3) Ao finalizar os passos 1 e 2, um novo agrupamento é formado pela união dos
agrupamentos com maior grau de similaridade.
4) Os passos 2 e 3 são executados diversas vezes, até que todos os objetos
estejam em um único agrupamento.

Agora, como podemos medir a qualidade do agrupamento formado?

117
Análise Estatística de Dados

Bom, para medir o grau da qualidade dos agrupamentos formados utilizamos


o coeficiente aglomerativo.

O coeficiente aglomerativo mede a qualidade de um agrupamento


aglomerativo, em que, para cada objeto i, d(i) tem a sua dissimilaridade em
relação ao primeiro agrupamento em que foi inserido dividido pela dissimilaridade
na etapa final do algoritmo, segundo Palm (2005). Podemos definir o coeficiente
da seguinte forma:

Em que, n é dado pelo número total de objetos do conjunto de dados.

1 n
CA
= ∑1 − d (i)
n i

Os valores do coeficiente variam entre 0 e 1.

● Para um coeficiente baixo, igual ou próximo de 0, corresponde a estruturas


ruins, em que nenhum agrupamento foi encontrado.
● Para um coeficiente alto, igual ou próximo de 1, representa que estruturas
boas foram identificadas.

3.2.2 Métodos divisivos


Métodos Divisivos são menos comuns entre os métodos hierárquicos, pois sua
ineficiência exige um esforço computacional maior que os métodos hierárquicos
aglomerativos (COSTA, 1999). O método inicia com um único agrupamento
formado por todos os padrões e gradativamente divide os agrupamentos em
agrupamentos menores até que termine com um agrupamento por padrão. O
objetivo é encontrar a partição que minimiza a matriz de similaridades.

O processo pode ser descrito nos seguintes passos:

1) Um único agrupamento contendo todos os padrões.


2) Calcula-se a matriz de similaridades entre todos os possíveis pares de
agrupamentos.
3) Forma-se um novo agrupamento pela divisão dos pares de agrupamentos com
menor grau de similaridade.
4) Os passos 2 e 3 são executados até que se tenha um agrupamento por padrão.

O dendograma para os Métodos Divisivos apresenta a ordem em que os


agrupamentos foram divididos. A Figura 5 apresenta o exemplo de dendograma
para o Método Divisivo.

118
Capítulo 3 Modelagem Multivariada 39

FIGURA 5 - DENDOGRAMA PARA O MÉTODO DIVISIVO




 



 


 

 

 



     

    


    

FONTE:Hierárquico
Figura 7: Método < https://www.maxwell.vrac.puc-rio.br/7975/7975_4.
Divisivo - Dendograma
PDF > Acesso em: 27 nov. 2018.

Analisando o gráfico existe inicialmente um único agrupamento D. Esse

3.4 Métodos de Distância Entre


agrupamento é dividido em dois agrupamentos A e C. A medida de similaridade

Grupos
dessa divisão é expressa por h1. Nesse momento existem 2 agrupamentos (C,A).
No passo seguinte, o agrupamento C é dividido em dois agrupamentos c e B. A
medidaOdeMétodo de Distância
similaridade dessa édivisão
aplicado para medir
é expressa o grau
por de similaridade
h2. Nesse momentoentre os
existem
agrupamentos, isto é, o grau de similaridades entre os objetos (HAIR, 2009). Os
3 agrupamentos (A, B, c). O agrupamento B é então dividido entre os
métodos mais conhecidos são: ligação individual, ligação completa, ligação
agrupamentos d e centroide
média, método e. A medida de similaridade
e método de Ward. dessa divisão é expressa por h3.
Nesse momento existem 4 agrupamentos (A, c, d, e). No último passo, o
a) Ligação individual (simples): Essa ligação é definida pela semelhança
agrupamento A é dividido entre
entre agrupamentos, comoosa agrupamentos a edeb.qualquer
menor distância A medidaelemento
de similaridade
de um
dessa agrupamento a qualquer
divisão é expressa elemento
por h4. em outro grupo
Nesse momento (HAIR,
existem 2009).
5 agrupamentos (a, b, c,
d, e).

Para aplicar a ligação basta encontrar todas as distâncias entre


observações nos agrupamentos e escolher a menor como medida de
3.1.2.2.
similaridade
Coeficiente entre
Divisivo os grupos.
(CD)

Mede a qualidade de um agrupamento divisivo de dados (Kauffman, 1990).


Para cada objeto i, d(i) é o diâmetro do último agrupamento ao qual o objeto
pertenceu (antes de ser dividido em um agrupamento de um único objeto), 119
dividido pelo diâmetro de todo o conjunto de dados. O coeficiente é então
Análise Estatística de Dados

Esse algoritmo aglomerativo é o mais simples, pois podemos definir vários


padrões de aglomeração. Porém, esta flexibilidade pode criar erros, em que os
agrupamentos são mal delineados (KETCHEN, 1996).

A Figura 6 apresenta um exemplo de ligação individual.

FIGURA 6 - EXEMPLO DE LIGAÇÃO INDIVIDUAL

FONTE: Hair (2009, p. 450).

b) Ligação completa: Na ligação completa a similaridade de agrupamento se


baseia na distância máxima entre as observações nos agrupamentos formados
(HAIR, 2009). A técnica exclui o problema de encadeamento identificado na
ligação simples, e ao final ela gera soluções mais compactas (BAEZA, 1992).

De acordo com Jain (1988), a ligação completa representa


apenas o aspecto da maior distância entre os dados, muitos
pesquisadores a consideram a mais apropriada para inúmeras
aplicações.

A Figura 7 apresenta um exemplo da diferença entre a ligação simples e a


completa.

120
Capítulo 3 Modelagem Multivariada

FIGURA 7 - DIFERENÇA ENTRE A LIGAÇÃO SIMPLES E A COMPLETA

FONTE: Hair (2009, p. 451).

c) Ligação média: O método é diferente dos métodos citados anteriormente,


pois a similaridade de dois agrupamentos é a similaridade média de todos os
indivíduos em um agrupamento com todos os indivíduos em outro (HAIR, 2009).
O algoritmo não depende de valores extremos (pares mais semelhantes ou
mais distantes), como o que acontece com as ligações simples ou completas,
pois a similaridade tem como base todos os elementos dos agregados.

Ela é como um meio-termo entre os métodos de ligação simples


e completa, e tende a gerar agregados com pequena variação interna
(HAIR, 2009). Elas produzem agregados com a mesma variância interna.

Atividade de estudos:

Pergunta: Marque a opção correta.


a) ( ) A Ligação individual é definida pela semelhança entre agru-
pamentos, como a menor distância de qualquer elemento de um
agrupamento a qualquer elemento em outro grupo, porém ela não é
muito utilizada devido ao seu alto grau de não correlação dos dados.

121
Análise Estatística de Dados

b) ( ) Na Ligação completa a similaridade tem como base a dis-


tância mínima entre as observações dos grupos formados.
c) ( ) A Ligação média tem como base a distância máxima entre
os elementos dos agrupamentos.
d) ( ) Nenhuma das anteriores

d) Método centroide: Bom, mas, o que são centroides? Centroides são os


valores médios das observações de agrupamento (HAIR, 2009), isto é, os
pontos centrais do grupo. Para este método, sempre que os indivíduos são
reunidos é calculado um novo centroide. Uma grande vantagem na utilização
desse método é a sua pouca afetação por outlier.

Outliers
Outliers são dados que se diferenciam drasticamente de todos os
outros, são pontos fora da curva. Em outras palavras, um outlier é um
valor que foge da normalidade e que pode (e provavelmente irá) causar
anomalias nos resultados obtidos por meio de algoritmos e sistemas de
análise.
Algumas observações sobre outliers:
● Os outliers podem viesar negativamente todo o resultado de uma
análise.
● O comportamento dos outliers pode ser justamente o que está sendo
procurado.
● Os outliers possuem diversos outros nomes, como: dados discrepantes,
pontos fora da curva, observações fora do comum, anomalias, valores
atípicos, entre outros.

FONTE: <https://www.aquare.la/o-que-sao-outliers-e-como-trata-
los-em-uma-analise-de-dados/> Acesso em: 22 nov. 2018.

Portanto, no método centroide (ROCHA, 2005), a similaridade entre dois


agrupamentos é a distância entre seus centroides.

e) Método de Ward: No método Ward as partições minimizam as perdas


associadas a cada agrupamento (WARD, 1963). A perda é dada pela diferença
entre a soma dos erros quadráticos de cada padrão e a média da partição
em que está contido. O método combina agrupamentos com um pequeno
número de valores, pois a soma de quadrados é diretamente relacionada com

122
Capítulo 3 Modelagem Multivariada

o número de observações envolvidas (MILLIGAN, 1980). Uma observação do


método é o fato de ele produzir agregados com aproximadamente o mesmo
número de observações (HAIR, 2009).

Como são formados os agrupamentos hierárquicos?

Os agrupamentos hierárquicos são formados por processos repetitivos


para agregar, junto com um algoritmo de agrupamento, a similaridade entre
agregados com múltiplos membros. O processo de criação de agrupamentos
gera um diagrama em árvore que representa as combinações/divisões de
agrupamentos para formar o intervalo completo de soluções. Devemos
observar que os procedimentos hierárquicos geram um conjunto completo de
soluções, variando de agregados em que todos são unitários até a solução de
um só agrupamento no qual todas as observações estão em um só conjunto.
Fazendo isso, o procedimento hierárquico fornece um excelente referencial
para se comparar qualquer conjunto de soluções de agrupamentos.

FONTE: Hair (2009, p. 452) e Linden (2009, p. 33-38).

QUADRO 1 - VANTAGENS E DESVANTAGENS DE USAR OS


MÉTODOS DE AGRUPAMENTOS HIERÁRQUICOS

VANTAGENS DESVANTAGENS
Métodos Simples: Como os Métodos
As combinações feitas inicialmente
Hierárquicos possuem desenvolvimento em
que são indesejáveis podem continuar
estruturas de árvore para retratar o processo
na análise e conduzir a observações
de agrupamento, isso faz com que eles
atípicas. Logo, esse problema pode causar
tenham descrições simples e abrangente dos
impactos negativos no resultado final.
intervalos de soluções do agrupamento.
Medidas de similaridade: Devido aos métodos
hierárquicos possuírem uma quantidade
Para solucionar o impacto que têm as
extensa de aplicações, isso faz com que
observações atípicas, o pesquisador
eles tenham um grande desenvolvimento de
pode analisar os dados várias vezes, e a
medidas de similaridade para praticamente
cada análise tentar eliminar observações
quaisquer tipos de variáveis de agrupamento.
que podem trazer problemas.
As técnicas hierárquicas podem ser aplicadas
a quase todo tipo de questão de pesquisa.

123
Análise Estatística de Dados

Rapidez: Eles têm a vantagem de gerar um O processo que envolve métodos hierárquicos
conjunto inteiro de soluções de agrupamento é consideravelmente rápido, porém eles não
de uma maneira rápida. Essa característica são tratáveis para amostras muito grandes.
faz com que o pesquisador examine várias No momento em que o tamanho amostral
soluções diferentes, em que pode variar aumenta, é preciso um bom armazenamento
as medidas de similaridade e métodos para comportar todos esses dados. Por
de ligação de uma maneira eficiente. conta dessa exigência, as aplicações em
alguns casos podem ficar limitadas.

FONTE: Hair (2009).

4. Agrupamento Não Hierárquico


Os métodos não hierárquicos não envolvem o processo de construção em
árvore, como o que acontece nos agrupamentos hierárquicos. Neste procedimento,
os objetos são inseridos em agrupamentos, no momento em que o número de
agregados a serem formados tenha sido especificado. Por exemplo, uma solução
de seis agrupamentos não é apenas uma combinação de dois agrupamentos a
partir da solução de sete agregados, mas baseia-se na descoberta da melhor
solução com seis agregados (HAIR, 2009). Ele produz uma partição num número
fixo de classes, e temos que escolher o número de clusters à partida.

Conforme Hair (2009) cita, o processo tem duas fases:

1. Especificar sementes de agrupamento: Inicialmente é preciso inferir o ponto


de partida, e para isso denominamos como sementes de agrupamento, para
cada agregado. A semente pode ser pré-especificada pelo pesquisador ou
observações podem ser escolhidas, geralmente em um processo aleatório.

2. Designação: Depois que acontece a definição das sementes, o passo seguinte


é designar as observações a uma das sementes de agrupamento com base
em similaridade. O propósito é designar cada observação à semente mais
parecida. Em algumas abordagens, observações podem ser resignadas a
agrupamentos que são mais semelhantes do que suas designações originais.

Como podemos selecionar os Pontos da Semente (ponto de partida)?

Podemos escolher selecionar os pontos da semente a partir de duas formas:

1) Definido pelo pesquisador: Para isso o pesquisador fornece os Pontos


Sementes com base em dados externos. O pesquisador pode ter como
base pesquisas anteriores ou dados de outra análise multivariada. Podemos
também usar outras técnicas multivariadas para gerar as sementes. Para o

124
Capítulo 3 Modelagem Multivariada

pesquisar definir as sementes, ele precisa saber a quantidade de agregados a


serem formados, e as informações sobre as características dos agrupamentos.

2) Gerada pela própria amostra: Nessa técnica as sementes são geradas de


maneira sistemática ou através da seleção ao acaso. Por exemplo, ao usar um
software qualquer que faça análises multivariadas, a primeira semente é a primeira
observação no conjunto de dados sem valores perdidos. A segunda semente é
a próxima observação completa, onde ela é separada da primeira semente por
uma distância mínima estipulada inicialmente. O ideal é que a distância mínima
seja nula. Após todas as sementes serem selecionadas, o programa designa cada
observação ao agrupamento com a semente mais próxima.

Seja qual for a abordagem escolhida, o pesquisador deve


conhecer o impacto do processo de escolha da semente sobre os
resultados finais do estudo. Os algoritmos de agrupamentos podem
gerar diferentes soluções, com base nas sementes iniciais. O ideal é
que as diferenças entre as soluções de agrupamento sejam mínimas
ao utilizar diferentes sementes, porém elas focam na importância da
seleção de sementes e seu impacto na solução final.

4.1 Algoritmos de Agrupamento Não


Hierárquico
Para agrupar os dados através dos métodos não hierárquicos existem três
algoritmos (GREEN, 1978). Esses algoritmos são frequentemente chamados de
agrupamentos de K-médias (HAIR, 2009). Eles são algoritmos populares devido à
sua simplicidade de implementação, escalabilidade, velocidade de convergência
e adaptabilidade aos dados escassos (OYELADE, 2010).

K-médias é um algoritmo não supervisionado, isto é, seus dados não


possuem rótulos. O principal propósito é identificar as similaridades entre os
dados e agrupá-los conforme o número de cluster. O algoritmo de K-médias é
interativo e poderoso para dividir um conjunto de dados em grupos separados.
Uma característica importante dessa técnica é o fato de que o k deve ser
predeterminado (KOERICH, 2003).

k = número de grupos.

125
Análise Estatística de Dados

A medida de dissimilaridade do algoritmo k-médias é dada através da


distância Euclidiana entre os vetores de atributos xi e os representantes dos
clusters Θi.

Atividade de estudos:

Pergunta: Para a próxima afirmativa, responda verdadeiro ou


falso:

O K-means é um algoritmo de agrupamento que possibilita dividir


um conjunto de dados em K clusters (grupos) disjuntos. Embora
os centros iniciais dos K clusters sejam escolhidos aleatoriamente,
eles apresentam bom desempenho.

O algoritmo de K-Means é composto por quatro etapas em seu processo:


Inicialização, Atribuição ao Cluster, Movimentação de Centroides e Otimização
dos K-médias.

1) Inicialização: Nesta fase o algoritmo gera de forma aleatória os k centroides.


2) Atribuição ao Cluster: Nesta etapa calcula-se a distância entre os pontos dos
dados e cada um dos centroides. Cada cálculo é atribuído ao centroide ou
cluster que possui a menor distância. E ao final os dados são particionados de
acordo com o número de centroides inferidos por k.
3) Movimentação de Centroides: Momento no qual calcula-se a média dos
valores dos pontos de dados de cada cluster, e o valor médio será o novo
centroide. A movimentação trata da alteração da localização do centroide
em um plano (gráfico). A Figura 8 apresenta a movimentação dos centroides
representados por x.
4) Otimização dos K-médias: Na última fase do processo, as etapas da
atribuição ao cluster e movimentação de centroides são repetidas até o cluster
se tornar estático ou algum critério de parada tenha sido atingido.

Atividade de estudos:

Pergunta: Sobre as etapas dos processos de K-Means, marque V


para verdadeiro e F para falso:

126
Capítulo 3 Modelagem Multivariada

a) ( ) Inicialização: nesta etapa acontece a atribuição ao cluster e


a movimentação de centroides é repetida até o cluster se tornar
estático.
b) ( ) Atribuição ao Cluster: Nesta etapa calcula-se a distância
entre os pontos dos dados de cada um dos centroides.
c) ( ) Movimentação de Centroides: nesta etapa é modificada a
localização do centroide.
d) ( ) Otimização: nesta etapa calcula-se a média dos valores dos
pontos de dados de cada cluster, e o valor médio será o novo
centroide.

O algoritmo finaliza sua execução ao dividir os dados no número de


Clusters especificado pelo argumento k.

O Cluster se torna estático quando nenhum dos pontos de dados


possa alterar o Cluster. Podemos definir como critério de parada o
número de iterações máximas que o algoritmo faz durante a fase de
otimização.

FIGURA 8 - MOVIMENTAÇÃO DOS CENTROIDES

FONTE: <https://goo.gl/UaYabF> Acesso em: 29 nov. 2018.

127
Análise Estatística de Dados

Método de Agrupamento Elbow

O Método de Elbow, também conhecido como Método do Cotovelo,


ajuda a escolher o valor do argumento k. O algoritmo testa a variância dos
dados em relação ao número de clusters, até que conforme o número de
clusters aumenta não representa um valor significativo de ganho.

O valor indicado pelo “cotovelo” no gráfico quer dizer que a partir


dele não existe um ganho grande se for aumentado o número de clusters,
isto é, o método encontrou o número ideal para o argumento k. A Figura 9
apresenta o gráfico do método.

FIGURA 9 - AGRUPAMENTO ELBOW

FONTE: <https://goo.gl/VEyUUn> Acesso em: 29 nov. 2018.

FONTE: <http://www.siqueiracampos.com/_downloads/cluster_
analysis_TDC2017.pdf> Acesso em: 29 nov. 2018.

Obtenção de agrupamentos

Como foi visto, existem várias formas de obter agrupamentos por meio
dos algoritmos hierárquicos, cada uma com vantagens e desvantagens:

1) Ligação simples: o algoritmo é bem simples e usual, porém as


estruturas de agrupamento malformadas dentro dos dados produzem
cadeias sinuosas de agrupamentos inaceitáveis.

128
Capítulo 3 Modelagem Multivariada

2) Ligação completa: elimina o problema das cadeias sinuosas, entretanto


considera somente as observações mais extremas de um agrupamento,
e assim pode ser afetada por observações atípicas.
3) Ligação média: tem como base a similaridade da média de todos os
indivíduos em um agrupamento, e tende a gerar agregados com pouca
variação interna e é menos afetada por observações atípicas.
4) Ligação centroide: mede distância entre os centroides dos
agrupamentos e, como a ligação média, é menos afetada por
observações atípicas.
5) Método de Ward: tem como base a soma total de quadrados dentro
de agrupamentos e é mais apropriado quando o pesquisador espera
agrupamentos de algum modo parecidos em tamanho, mas é facilmente
distorcido por observações atípicas.

Os métodos não hierárquicos requerem que o número de agrupamentos


seja especificado antes de se designar observações:

6) Método da referência sequencial: designa as observações para


o agrupamento mais próximo, mas uma observação não pode ser
resignada a outro agrupamento seguindo sua designação original.
7) Procedimentos de otimização: permitem a resignação de observações
com base na proximidade sequencial de observações com agrupamentos
formados durante o processo.

Para escolher entre métodos hierárquicos e não hierárquicos podemos


observar os seguintes raciocínios. Escolhemos métodos hierárquicos
quando:

8) Muitas ou todas as soluções alternativas devem ser examinadas.


9) O tamanho da amostra é moderado (abaixo de 300-400, não excedendo
1.000) ou uma amostra de um conjunto maior de dados é aceitável.

Métodos não hierárquicos são adequados quando:

10) O número de agrupamentos é conhecido e pontos sementes iniciais


podem ser especificados de acordo com alguma base prática, objetiva
ou teórica.
11) Observações atípicas provocam preocupação, pois métodos não
hierárquicos são geralmente menos suscetíveis a observações
atípicas.

129
Análise Estatística de Dados

12) Uma combinação usando a abordagem hierárquica seguida de um


método não hierárquico é frequentemente aconselhável.
13) Um método não hierárquico é utilizado para selecionar o número de
agrupamentos e para caracterizar os centros de agrupamento que
servem como sementes iniciais no procedimento não hierárquico.
14) Um método não hierárquico então agrega todas as observações
usando os pontos sementes para fornecer alocações mais precisas.

FONTE: Hair (2009, p. 455).

5. K-Ésimo Vizinho Mais Próximo


(K-Nearest Neighbor - Knn)
O KNN é um algoritmo supervisionado que tem por objetivo classificar objetos
(WEBB, 2002). O algoritmo de Machine Learning tem como propósito classificar
o elemento xt e atribuir a ele o rótulo que representa a maior frequência dentre as
k amostras mais próximas, através do esquema de votação. A proximidade entre
vizinhos é calculada através das medidas de distância Euclidiana e a distância
Manhattan.

O que podemos fazer com essas distâncias?

● Podemos usar para encontrar as empresas mais semelhantes aos melhores


clientes do negócio.
● Também é possível usar para encontrar consumidores on-line mais
semelhantes aos melhores clientes do negócio.

Para clientes corporativos, a IBM faz isso para ajudar a


direcionar sua força de vendas. Os anunciantes on-line fazem isso
para segmentar anúncios. Essas instâncias mais semelhantes são
chamadas de vizinhos mais próximos (PROVOST, 2013).

Para encontrar a classe de um elemento que ainda não pertença a algum


conjunto formado, o classificador KNN busca os K elementos do conjunto de

130
Capítulo 3 Modelagem Multivariada

treinamento que tenham a menor distância do elemento desconhecido. Esses K


elementos podemos chamar de K-vizinhos mais próximos.

Para estimar a classe a que o elemento K pertença, o algoritmo KNN calcula


os K-vizinhos mais próximos a K e classifica-o como sendo da classe que aparece
com maior frequência dentre os seus K-vizinhos.

Entretanto, na fase de classificação, em alguns momentos pode ocorrer


um problema, no qual, dado um elemento de teste K, os seus K-vizinhos mais
próximos são de uma mesma classe, e então o algoritmo não consegue decidir
qual a classe a que esse elemento K pertença.

FIGURA 10 - K=1

FONTE: <https://kevinzakka.github.io/assets/1nearestneigh.png> Acesso em: 30 nov. 2018.

131
Análise Estatística de Dados

FIGURA 11 - K =20

FONTE: <https://kevinzakka.github.io/assets/20nearestneigh.
png> Acesso em: 30 nov. 2018.

Para solucionar o problema, o padrão deve ser rodado de forma recursiva


pelo algoritmo, o qual agora usará apenas (K-1) vizinhos para o cálculo, até que
uma das classes dos K-vizinhos apareça com maior frequência em relação às
demais (BEZERRA, 2006). E assim classificar o elemento K.

No KNN o número de K-vizinhos é controlado pelo usuário, em que o objetivo


é obter uma melhor classificação dos dados. O parâmetro K indica o número de
vizinhos que serão usados pelo algoritmo durante os testes. Ele faz com que o
algoritmo consiga uma classificação mais refinada. Entretanto, para encontrar o
valor ótimo de K é preciso que para cada base de dados sejam testados vários
valores diferentes, de forma a descobrir qual o melhor valor de K para determinado
problema (BEZERRA, 2006).

O que é o conjunto de treinamento e teste?

A separação de dados em conjuntos de teste e treinamento é


uma parte importante da avaliação de modelos de mineração de dados.
Normalmente, quando você separa um conjunto de dados em um conjunto

132
Capítulo 3 Modelagem Multivariada

de treinamentos e um conjunto de testes, a maior parte dos dados é usada


para treinamento e uma parte menor dos dados é usada para teste. Usando
dados semelhantes para treinamento e teste, você pode minimizar os
efeitos das discrepâncias de dados e entender melhor as características do
modelo.

Depois que um modelo for processado usando o conjunto de


treinamentos, você testa o modelo fazendo previsões contra o conjunto de
testes. Como os dados no conjunto de teste já contêm valores conhecidos
para o atributo que você deseja prever, é fácil determinar se a precisão das
previsões do modelo está correta.

Normalmente esses dados são divididos em dois conjuntos: um com


70% dos dados de origem, para treinar o modelo, e um com 30% para
testar o modelo. Porém, podemos dividir dependendo da quantidade de
dados que possui e dos requisitos de negócio.

Uma forma de dividir os dados é através da função train_test_split.


Ela leva em consideração as diferentes características dos dados, tentando
não os dividir randomicamente, mas de forma igualitária levando em
consideração suas características.

FONTE: <https://goo.gl/MPkuEr> Acesso em: 30 nov. 2018.


<https://goo.gl/dZnuwQ> Acesso em: 30 nov. 2018.
<https://goo.gl/3gLAf9> Acesso em: 30 nov. 2018.

5.1 Exemplo Prático


Para entender como funciona o algoritmo de KNN, vamos estudar um dataset
muito conhecido na literatura, chamado IRIS.

Veja o exemplo completo sobre IRIS no site a seguir:


<https://www.monolitonimbus.com.br/classificacao-usando-knn>

133
Análise Estatística de Dados

O banco de dados IRIS é um dos mais acessados do Center for Machine


Learning and Intelligent Systems da Universidade da Califórnia (CML-UCI).

Para acessar o Dataset IRIS e outros Dataset entre no link a


seguir:
<http://archive.ics.uci.edu/ml/datasets.html>

O Dataset IRIS data set contém as dimensões de:

● Pétalas (protegem partes reprodutivas da planta e atraem polinizadores).


● Sépalas (partes semelhantes a folhas que envolvem o botão da flor) de
exemplares de três espécies de flores íris.

Ele também contém três classes com 50 instâncias cada:

● Iris Setosa.
● Iris Versicolour.
● Iris Virginica.

Um detalhe importante que deve ser levado em consideração é o fato de


uma classe ser linearmente separável das outras duas, e as últimas não são
separáveis linearmente entre si.

O propósito é classificar a planta conforme quatro características físicas (em


cm):

● Comprimento da sépala.
● Largura da sépala.
● Comprimento da pétala.
● Largura da pétala.

Então, como faríamos essa classificação?

O algoritmo vai tentar classificar os elementos com base nas características


do conjunto. Quanto mais o elemento se aproxima da característica do conjunto,
mais ele será classificado neste conjunto.

134
Capítulo 3 Modelagem Multivariada

FIGURA 12 - CLASSIFICAÇÃO DO DATASET - SÉPALAS

FONTE:<https://rpubs.com/Hgoswami/368890> Acesso em: 30 nov. 2018.

FIGURA 13 - CLASSIFICAÇÃO DO DATASET IRIS - PÉTALAS

FONTE: <https://rpubs.com/Hgoswami/368890> Acesso em: 30 nov. 2018.

135
Análise Estatística de Dados

A Figura 12 apresenta os Dataset classificados, em que os pontos são o


comprimento e largura da sépala.

Algumas Considerações
Neste capítulo abordamos sobre os conceitos de análise multivariada, a
qual é bastante utilizada para analisar dados. Estas técnicas têm a finalidade
de auxiliar na tomada de decisões quando tratamos de dados múltiplos. Com
a grande quantidade de informações geradas a todo o momento, é cada vez
maior a necessidade de fazer uso desse tipo de abordagem.

A primeira técnica multivariada descrita foi a regressão logística,


que usamos para situações em que a variável dependente é de natureza
dicotômica (0, 1), por exemplo, caso queiramos avaliar se um cliente gostou
(1) ou não do produto (0). Essas variáveis são denominadas de Dummys, pois
elas podem receber apenas dois valores, “sim” ou “não”. E os resultados finais
das análises ficam contidos no intervalo de zero a um.

No tópico seguinte abordamos os conceitos de Análise de Cluster, onde o


objetivo é classificar os valores de uma matriz com dados discretos. A Análise
de Cluster classifica objetos de forma que cada objeto seja similar aos outros
no grupo com base em um conjunto de atributos escolhidos. Para medir o grau
de relação entre as variáveis, podemos usar as medidas de similaridade. As
distâncias de similaridade mais comuns são: Distância Euclidiana, Distância
Manhattan, Distância de Mahalanobis e as Medidas de Associação.
Também podemos medir o grau de distância entre os grupos pelos métodos:
ligação individual, ligação completa, ligação média, método centroide e
método de Ward.

Outro assunto muito importante neste contexto são os Agrupamentos Não


hierárquicos. Esse tipo de agrupamento não envolve o processo de construção
em árvore, neste caso os objetos são inseridos em agrupamentos, no momento
em que o número de agregados a serem formados é especificado. Dentro
desse conceito estudamos o algoritmo não supervisionado de K-médias.
O principal propósito deste algoritmo é identificar as similaridades entre os
dados e agrupá-los conforme o número de cluster. O algoritmo de K-médias é
interativo e poderoso para dividir um conjunto de dados em grupos separados,
sua característica importante é o fato de que o k deve ser predeterminado.

136
Capítulo 3 Modelagem Multivariada

Para finalizar nosso estudo, abordamos na parte final do capítulo o


algoritmo supervisionado K-ésimo vizinho mais próximo (KNN). Este tem a
finalidade de classificar o elemento e atribuir a ele o rótulo que representa a
maior frequência dentre as k amostras mais próximas, através do esquema
de votação. A proximidade entre vizinhos é calculada através das medidas de
distância Euclidiana e a distância Manhattan.

137
Análise Estatística de Dados

Referências
BAEZA-YATES, R. A. Introduction to Data Structures and Algorithms
Related to Information-Retrieval. In Information Retrieval: Data Structures and
Algorithms, W. B. Frakes and-R. Baeza-Yates (eds.). Upper Saddle River, NJ:
Prentice Hall, p. 13–27. 1992.

BARROSO, Lúcia P.; ARTES, Rinaldo. Análise multivariada. Lavras: Ufla, 2003.

BEZERRA, M. E. R. Métodos baseados na regra do vizinho mais próximo


para reconhecimento de imagens. Monografia de Conclusão de Curso,
Departamento de Sistemas Computacionais da Escola Politécnica de
Pernambuco, Pernambuco, BRA, p. 90, 2006.

CABRAL, Cleidy Isolete Silva. Aplicação do modelo de regressão logística


num estudo de mercado. 2013. Tese de Doutorado.

CHIANG, I.W-Y.; LIANG, G-S.; YAHALOM, S. Z. The fuzzy clustering method:


Applications in the air transport market in Taiwan, The Journal of Database
Marketing & Customer Strategy Management, v 11, n 2, pp. 149-158. 2003.

COSTA, José Alfredo Ferreira; DE ANDRADE NETTO, Marcio L. Cluster


analysis using self-organizing maps and image processing techniques. In:
Systems, Man, and Cybernetics, 1999. IEEE SMC'99 Conference Proceedings.
1999 IEEE International Conference on. IEEE, 1999. p. 367-372.

DIAS FILHO, José Maria. Gestão tributária na era da responsabilidade fiscal:


proposta para otimizar a curva da receita utilizando conceitos da semiótica e
regressão logística. 2003. Tese de Doutorado.

DZWINNEL, W., YUEN, D. A., BORYCZKO, K., et al. “Nonlinear


multidimensional scaling and visualization of earthquake clusters over
space, time and feature space”, Nonlinear Processes in Geophysics n. 12 pp.
117–128. 2005.

EVERITT, Brian S. et al. Applied multivariate data analysis. London: Arnold,


2001.

FERRER, E., F. HAMAGAMI, and J. J. MCARDLE. Modeling Latent Growth


Curves with Incomplete Data Using Different Types of SEM and Multi-Level
Software. Structural Equation Modeling 11(3): 452–83. 2004

138
Capítulo 3 Modelagem Multivariada

GREEN, P. E. Analyzing Multivariate Data. Hinsdale, IL: Holt, Rinehart and


Winston. 1978.

HAIR, Joseph F. et al. Análise multivariada de dados. São Paulo. Bookman


Editora, 2009.

HAMMOUDA, K. M. Web Mining: Identifying Document Structure for Web


Document Clustering, Tese de Mestrado, Department of Systems Design
Engineering, University of Waterloo, Canada. 2002.

JAIN, A. K.; R. C. Dubes. Algorithms for Clustering Data. Upper Saddle River,
NJ: Prentice Hall. 1988.

KETCHEN, D. J.; C. L. SHOOOK. The Application of Cluster Analysis


in Strategic Management Research: An Analysis and Critique. Strategic
Management Journal 17: 441–58. 1996.

KOERICH, Alessandro L. Aprendizagem de máquina. Pontifícia Universidade


Católica do Rio de Janeiro. Plano de Aula. Disponível em: http://www. ppgia.
pucpr. br/~ alekoe/AM/2005/6-AprendizagemNaoSupervisionada-ApreMaq. pdf.
Acesso em: 29 nov. 2018, v. 13, 2003.

LEVIA JR D. F., PAGE D. R. The Use of Cluster Analysis in Distinguishing


Farmland Prone to Residential Development: A Case Study of Sterling,
Massachusetts, Environ Manage. V. 25 n. 5, pp. 541-548. 2000

LINDEN, Ricardo. Técnicas de agrupamento. Revista de Sistemas de


Informação da FSMA, v. 4, p. 18-36, 2009.

MORETTIN, Pedro Alberto; BUSSAB, WILTON OLIVEIRA. Estatística básica.


São Paulo. Editora Saraiva, 2017.

MILLIGAN, G. An Examination of the Effect of-Six Types of Error


Perturbation on Fifteen Clustering Algorithms. Psychometrika 45
(September): 325–42. 1980.

OYELADE, O. J.; OLADIPUPO, O. O.; OBAGBUWA, I. C. Application of


k Means Clustering algorithm for prediction of Students Academic
Performance. arXiv preprint arXiv:1002.2425, 2010.

PALM, William John. Introduction to MATLAB 7 for Engineers. 2005.

139
Análise Estatística de Dados

PROVOST, Foster; FAWCETT, Tom. Data Science for Business: What you need
to know about data mining and data-analytic thinking. " O'Reilly Media, Inc.",
2013.

ROCHA, Rodrigo Barros et al. Avaliação do método centroide para estudo de


adaptabilidade ao ambiente de clones de Eucalyptus grandis. Ciência Florestal,
v. 15, n. 3, p. 255-266, 2005.

SILVA, L.; GOMIDE, Fernando; YAGER, R. Participatory learning in fuzzy


clustering. In: Fuzzy Systems, 2005. FUZZ'05. The 14th IEEE International
Conference on. IEEE, 2005. p. 857-861.

VIEIRA, Renato Luis; NODARI, Rubens Onofre. Diversidade genética de


cultivares de alho avaliada por marcadores RAPD. Cienc. Rural, Santa Maria,
v. 37, n. 1, p. 51-57, Feb. 2007. Available from <http://www.scielo.br/scielo.
php?script=sci_arttext&pid=S0103-84782007000100009&lng=en&nrm=iso>.
Acesso em: 27 nov. 2018. http://dx.doi.org/10.1590/S0103-84782007000100009.

YEOH, E., ROSS, M. E., SHURTLEFF, S. A. et al., 2002. Classification, subtype


discovery, and prediction of outcome in pediatric acute lymphoblastic
leukemia by gene expression profiling, Cancer Cell, v. 1, n. 1, pp. 133-143.

WARD JR, Joe H. Hierarchical grouping to optimize an objective function.


Journal of the American statistical association, v. 58, n. 301, p. 236-244, 1963.

WEBB, A. R. Statistical Pattern Recognition. 2. ed. Chichester: John Wiley &


Sons, 2002.

WITTEN, Ian H., FRANK, Eibe. Data Mining: practical machine learning
tools and techniques. 2ª edição – (2005). Morgan Kaufmann series in data
management systems. ISBN: 0-12-0884.

140

Você também pode gostar