Você está na página 1de 72

Business Analytics

Seja bem-vindo!
Business Analytics

As aplicações
estatísticas atuais
envolvem enormes
conjuntos de dados

Casos – linhas de uma planilha


Variáveis – colunas de uma planilha
Business Analytics

É importante
encontrar as A maioria das variáveis ​coletadas pode ser
variáveis ​que irrelevante e representar apenas ruído

importam e as
que não
Business Analytics

É importante
Enquanto as aplicações estatísticas tradicionais se
concentram
encontrarem as conjuntos de dados relativamente pequenos,
avariáveis
Ciência de Dados
​que envolve quantidades muito grandes de
dados,
importam e as normalmente referido como Big Data.
que não
Business Analytics

A mineração de dados explora e analisa


grandes quantidades de dados para
descobrir padrões significativos. A escala de
uma aplicação típica de mineração de dados,
com seu grande número de casos e muitas
variáveis, excede a de uma investigação
estatística padrão
Business Analytics

A mineração de dados tem ampla


aplicabilidade, com aplicações em
inteligência e análise de segurança, genética,
ciências sociais e naturais e negócios
Business Analytics

A mineração de dados tem ampla


aplicabilidade, com aplicações em
inteligência e análise de segurança, genética,
ciências sociais e naturais e negócios
Business Analytics

Business Analytics deve ser


visto como um processo
Business Analytics

O processo de Business Analytics envolve


várias etapas inter-relacionadas:

Definição clara do
problema de negócio
a ser resolvido
Business Analytics

O processo de Business Analytics envolve


várias etapas inter-relacionadas:

1. O armazenamento de dados eficiente e os passos de pré-


processamento de dados são muito críticos para o sucesso da análise.
Business Analytics

O processo de Business Analytics envolve


várias etapas inter-relacionadas:

2. É preciso selecionar as variáveis ​de resposta apropriadas e decidir


sobre o número de variáveis ​que devem ser investigadas
Business Analytics

O processo de Business Analytics envolve


várias etapas inter-relacionadas:

3. Os dados precisam ser rastreados em busca de outliers e os valores


faltantes (missing) precisam ser endereçados (com valores ausentes
omitidos ou apropriadamente imputados através de um dos vários
métodos disponíveis).
Business Analytics

O processo de Business Analytics envolve


várias etapas inter-relacionadas:

4. Antes de aplicar modelos preditivos e métodos sofisticados, os dados


precisam ser visualizados e resumidos. Costuma-se dizer que uma
imagem vale mais que 1000 palavras.
Business Analytics

O processo de Business Analytics envolve


várias etapas inter-relacionadas:

5. Resumo dos dados envolve estatísticas típicas de resumo como média,


percentis e mediana, desvio padrão e correlação, bem como resumos
mais avançados, tais como componentes principais.
Business Analytics

O processo de Business Analytics envolve


várias etapas inter-relacionadas:

6. Métodos apropriados de modelagem preditiva precisam ser aplicados.


Dependendo do problema, isso pode envolver regressão linear, regressão
logística, árvores de regressão / classificação, métodos de vizinho mais
próximo, clustering, entre outros.
Business Analytics

O processo de Business Analytics envolve


várias etapas inter-relacionadas:

7. Finalmente, os insights da análise precisam ser implementados. É


preciso agir sobre os resultados. Isto é o que W.E. Deming tinha em
mente quando falou sobre melhoria de processo:
"planejar, fazer, verificar e agir"
Análise Descritiva
Análise Descritiva 17

A Análise
Descritiva retrata
eventos do
passado.
Análise Descritiva
É o tipo de análise mais antiga e comumente utilizada na área
de Business Intelligence.
Análise Descritiva 18
Análise Descritiva 19
Como Podemos Usar a Análise Descritiva? 20
Como Podemos Usar a Análise Descritiva? 21
Valor na Análise Descritiva 22
Análise Descritiva
X
Análise Diagnóstica
Análise Descritiva x Análise Diagnóstica 24

Análise Descritiva Análise Diagnóstica


Análise Descritiva x Análise Diagnóstica 25

Análise Diagnóstica
Análise Preditiva
x
Análise Prescritiva
Análise Preditiva x Análise Prescritiva 27

Análise Preditiva Análise Prescritiva


Análise Preditiva
Análise Preditiva 29

A análise preditiva não prevê o que vai acontecer exatamente no futuro.


Ela prevê o que pode acontecer no futuro com um nível aceitável de
confiabilidade e inclui cenários hipotéticos e avaliação de riscos.
Análise Preditiva 30

Não é Magia!
É Tecnologia!
Análise Preditiva 31
Análise Preditiva 32

Prever Tendências do
Mercado
Análise Preditiva 33
Análise Preditiva 34

Análise Preditiva é um facilitador


do Big Data e a essência do
Business Analytics
Análise Preditiva 35

Somente com soluções inteligentes e


com alta capacidade de processamento,
é possível traduzir séries históricas de
dados em insights valiosos para o futuro
do seu mercado.
Análise Preditiva 36

Soluções para construção de modelos de análise preditiva (Gratuitas):

• R – sem dúvida uma das mais utilizadas atualmente e a base para muitas outras soluções
(inclusive as proprietárias)
• NumPy e SciPy – pacotes de computação científica em Python.
• Scikit-Learn – conjunto de pacotes para Machine Learning.
• Orange – ferramenta de visualização e análise. O data mining pode ser feito utilizando
scripts em Python.
• Weka – conjunto de algoritmos para Machine learning e data mining.
• Octave – o Octave é muito parecido com o Matlab.
• Data Science Studio (DSS Community Edition) – plataforma com todas as ferramentas
necessárias para análise de Big Data e geração rápida de resultados de análise.
• Apache Spark MLlib – engine para processamento em larga escala, com diversos algoritmos
poderosos para análise de regressão, classificação, naive bayes e muito mais.
Análise Preditiva 37

Soluções para construção de modelos de análise preditiva (Proprietárias):

• Oracle Data Miner (ODM)


• SAS Predictive Analytics
• IBM Predictive Analytics
• SAP Predictive Analytics
• STATISTICA
• MATLAB
• Minitab
• RapidMiner
• GraphLab Create
• TIBCO Analytics
• Data Science Studio
Teste de Hipóteses
Teste de Hipóteses
Business Analytics

Ração A
500 g/dia/animal ( = 25 g)

Ração B
510 g/dia/animal ( = 25 g)
Business Analytics

Hipóteses Estatísticas
Business Analytics
Teste de Hipóteses 43
Teste de Hipóteses 44
Teste de Hipóteses 45

A Hipótese Nula é A Hipótese Nula é


Condição Verdadeira Falsa

Erro Tipo I
Decidimos rejeitar a
D (Rejeição de uma hipótese Decisão correta
hipótese nula.
E nula verdadeira)
C
I
S
à Erro Tipo II
Não rejeitamos a hipótese
O Decisão correta (Não rejeição de uma
nula.
hipótese nula falsa)
Teste de Hipótese 46

Probabilidade de significância (valor-p)

Comparar o valor da estatística teste com o valor obtido a partir da distribuição


(α )
teórica, específica para o teste, para um valor pré-fixado do nível de significância
Teste de Hipótese 47

Probabilidade de significância (valor-p)

Quantificar a chance do que foi observado ou resultados mais extremos, sob a hipótese nula
(H0) ser verdadeira. Essa opção baseia-se na probabilidade de ocorrência de valores iguais ou
superiores ao assumido pela estatística teste, dado que a hipótese H0 é verdadeira.

Este número é chamado de probabilidade de significância ou valor-p


Teste de Hipótese 48

Valor-p e nível de significância não são sinônimos. O valor-p é sempre obtido de


uma amostra, enquanto o nível de significância é geralmente fixado antes da
coleta dos dados.
Teste de Hipótese 49

Probabilidade de significância (valor-p)

Em outras palavras, o valor-p corresponde ao menor nível de


significância que pode ser assumido para rejeitar a hipótese nula.
Teste de Hipótese 50

Se o valor
calculado da Se o valor
Escolher um
Coletar uma Traçar a Calcular a estatística calculado da
nível de
Formular as amostra de média da estatística, NÃO estatística
significância
hipóteses tamanho n e amostra no os valores pertencer à prtencer à
 com base
nula e calcular a eixo x da críticos e a região crítica região crítica
na gravidade
alternativa. média da distribuição região NÃO rejeitamos a
do erro tipo
amostra. da amostra. crítica. rejeitamos a hipótese
I.
hipótese nula.
nula.
Teste de Hipótese – Exemplo 51

Para o nosso exemplo os níveis de


glicose têm uma média de 100 com
um desvio padrão de 15
Teste de Hipótese - Exemplo 52

H0: μ = 100
H1: μ > 100

Nível de significância = 0,05 = 5%


Teste de Hipótese - Exemplo 53

108-100
15/√36

3,20
Teste de Hipótese - Exemplo 54

108-100
15/√36

3,20

0,9993
Teste de Hipótese - Exemplo 55

Portanto, nós chegamos a conclusão que existe sim um


efeito na dieta quando as pessoas fazem uso de amido
de milho.

1 - 0,9993 = 0,0007

108-100
15/√36
0,0007 < 0,05
3,20
Rejeitar a hipótese nula H0

0,9993 H0: μ = 100


Teste de Hipótese – Direcional e Não Direcional 56

H0: μ = 100
H1: μ > 100

Nível de significância = 0,05 = 5%

Qual hipótese alternativa é a


H0: μ > 100
mais adequada?
H1: μ = 100
Teste de Hipótese – Direcional e Não Direcional 57

Uma cauda – região crítica

duas caudas – regiões críticas


Teste de Hipótese – Exemplo 3 58

H0: μ > 558


H1: μ = 558 (teste de duas caudas)

Nível de significância = 0,05 = 5%


Teste de Hipótese – Exemplo 3 59

Nível de significância = 0,05 = 5%


α / 2 = 0,025

1-0,025 = 0,975

1,96
Teste de Hipótese – Exemplo 3 60

1 - 0,9738 = 0,03

585-558
139/√100
1,94 < 1,96 (valor crítico)
1,94

Aceitar a hipótese nula H0

0,9738 H0: μ > 558


Teste de Hipótese – Exemplo 3 61

H0: μ > 558


H1: μ = 558 (teste de duas caudas)

O valor obtido é 1,94.


O qual não atinge o ponto de corte
para a região de rejeição. Manter a
Hipótese Nula.

Região de rejeição Região de rejeição

Manter a
Hipótese Nula

Nulo
Simulação de Monte Carlo
Simulação de Monte Carlo

A simulação de Monte
Carlo é uma técnica
matemática que
possibilita levar em
conta o risco em
análises quantitativas,
para facilitar a tomada
de decisão
SMC
Essa técnica é usada por profissionais de uma grande variedade de
campos, tais como: finanças, gerenciamento de projetos, energia,
indústrias, engenharia, pesquisa e desenvolvimento, seguros, petróleo
e gás, transportes e meio ambiente.
Simulação de Monte Carlo
Simulação de Monte Carlo

A simulação de Monte Carlo consiste


em um método que utiliza a geração
de números aleatórios para atribuir
valores às variáveis do sistema que
se deseja investigar.
Como Operacionalizar uma Simulação de Monte Carlo

1 Definir as variáveis

2 Construir as Distribuições de Frequência

3 Definir os intervalos de classes dos números aleatórios

4 Gerar os números aleatórios

5 Incidir os números gerados nos intervalos

6 Simular os experimentos
Simulação de Monte Carlo

O Método de Monte Carlo (MMC) é um método estatístico que


se baseia em grandes quantidades de amostragens aleatórias
para obter resultados númericos mais próximos de soluções
reais repetindo sucessivas simulações várias vezes.
Simulação de Monte Carlo

A simulação de Monte Carlo fornece ao


tomador de decisão uma gama de
resultados possíveis e as probabilidades de
ocorrências desses resultados de acordo
com a ação escolhida como decisão.
Onde aplicamos a Simulação de Monte Carlo? 69

Estudo de Análise de Risco Análise de Ações


Viabilidade
Economica

Análises Geologia Computação


Petrolíferas Gráfica
Vantagens da Simulação de Monte Carlo? 70

RESULTADOS PROBABILÍSTICOS ANÁLISE DE CENÁRIO

RESULTADOS GRÁFICOS CORRELAÇÃO DE INPUTS

ANÁLISE DE SENSIBILIDADE NÍVEL DE APRIMORAMENTO


Muito obrigado!