Você está na página 1de 27

O Que É Data Science?

10 Razões Pelas Quais


Você Deve Aprender
https://portaldatascience.com/

Sabe o que é data science? Veja 10 motivos pelos quais você deve aprender!

Dizemos que estamos vivendo na era da informação. A internet tornou fácil para qualquer um reunir
qualquer informação que eles precisem para alcançar qualquer finalidade que desejarem.

Você sabia que você poderia até aprender a construir seu próprio carro online?

Você sabia que poderia aprender a administrar sua própria empresa?

Sim, o que estava disponível apenas para aqueles que podiam pagar pela educação de uma universidade
de renome, agora está disponível para qualquer pessoa que tenha uma conexão com a Internet.

A questão é: Como você usará esses dados em seu benefício?

Por que o big data é a nova fronteira?

Se você quiser ter sucesso neste mundo, você deve estudar tendências. Ao analisar os dados analíticos
disponíveis para o seu nicho, você pode determinar maneiras diferentes pelas quais você pode dar bons
passos para alcançar resultados positivos.

Tudo depende de dados; de grandes multinacionais para pequenas empresas. Todas as grandes mentes
usam esses dados para formular estratégias melhores para o futuro de suas empresas. Agora imagine
estar no centro de todo esse frenesi.

Imagine ser a pessoa a quem recorrem antes de tomar qualquer decisão comercial importante? Isso é
exatamente quem você será quando aprender ciência de dados e análise de big data .

Motivo pelo qual você deve aprender a análise de dados

1. A análise de dados é agora uma prioridade para as principais organizações

Com o endurecimento da concorrência no mercado, as principais organizações estão recorrendo à


análise de dados para identificar novas oportunidades de mercado para seus serviços e produtos. Do
jeito que as coisas estão hoje, 77% das principais organizações consideram a análise de dados um
componente crítico do desempenho dos negócios. O que isso significa é que os profissionais de big data
têm uma enorme influência nas políticas e estratégias de marketing da empresa.

2. Aumentar as oportunidades de emprego

À medida que as empresas começam a perceber que não têm capacidade de coletar, interpretar e usar
dados de forma abrangente, estão começando a procurar especialistas que possam fazê-lo. Se você
observar todas as principais plataformas de oportunidades de emprego, como o Indeed e o Dice, verá
que há um número cada vez maior de postagens de procura de analistas de dados e consultores. A
demanda por profissionais com esse conjunto específico de habilidades está aumentando, enquanto a
oferta permanece baixa. Isso cria ótimas oportunidades de emprego para os indivíduos nesse campo.

3. Aumentando o pagamento para profissionais de análise de dados

À medida que a demanda aumenta constantemente e a oferta permanece baixa, os profissionais de


análise de dados estão sendo pagos cada vez mais. Na Índia, como está hoje, os profissionais de análise
de dados são pagos em média 50% mais do que seus colegas em outras profissões baseadas em TI. Essa
tendência é evidente em todo o mundo à medida que mais e mais empresas percebem o quão
importante esses profissionais são para a organização.

4. A análise de big data está em toda a parte

Assim como se tornou imperativo usar computadores no local de trabalho de hoje, os profissionais de
análise de dados de uso para promover o crescimento estão lentamente se recuperando. Não há
praticamente nenhum setor que permaneça intocado do alcance do Data Analytics.

5. Você terá vários cargos para escolher

Um profissional de análise de dados tem uma ampla variedade de cargos e campos para escolher. Como
big data é usado em quase todos os lugares hoje, você pode optar por ser:

 – Especialista em métricas e análises


 – Analista de dados
 – Engenheiro de Big Data – Consultor de análise de dados

Estes são apenas alguns dos títulos que você pode ter em grandes organizações como IBM, ITrend,
Opera, Oracle, etc e as possibilidades são imensas.

6. Você estará no centro da tomada de decisões na empresa

Uma das principais causas de insatisfação no local de trabalho é que a maioria dos funcionários se sente
como se não tivesse qualquer poder de decisão. Eles muitas vezes se sentem apenas mais uma
engrenagem na grande roda corporativa. Como profissional de análise de dados, você estará no centro
da tomada de decisões em sua empresa escolhida. Na verdade, você será parte integrante das decisões
de negócios e estratégias futuras, dando a você um papel e um propósito importante dentro da
organização.

7. A taxa de adoção da análise de big data é alta

Assim como as empresas começaram a usar as mídias sociais para publicidade de marca e engajamento
de clientes, elas também começaram a recorrer à análise de dados. Hoje, é quase impossível encontrar
qualquer marca que não tenha presença na mídia social. O mesmo será verdade no que diz respeito à
adaptação de dados analíticos. Em um futuro muito próximo, todas as empresas precisarão
de profissionais de análise de dados. Isso faz com que seja um movimento de carreira inteligente que
realmente tenha um futuro nos negócios.
8. Análise de dados está assumindo mais rápido do que o esperado

Uma pesquisa conduzida pela Nimbus Ninety mostra que a análise de dados está assumindo muito mais
rápido do que o projetado. A pesquisa descobriu que a análise de dados está no topo da lista de
tecnologias a serem observadas nos próximos 3 anos.

9. Representa oportunidades perfeitas de freelancing

No futuro próximo, a grande maioria da força de trabalho não vai querer estar ligada a apenas um
empregador. As pessoas estão constantemente procurando maneiras de diversificar suas fontes de
renda e métodos através dos quais podem encontrar o equilíbrio perfeito entre vida profissional e
pessoal. A análise de dados, sendo uma questão de estudo de números, tendências e dados em geral,
oferece a oportunidade perfeita para se tornar um freelancer ou consultor bem remunerado para
algumas das maiores empresas do mundo. Basicamente baseado em TI, esse tipo de trabalho pode ser
feito em qualquer lugar do mundo a qualquer momento. Portanto, você não precisa estar amarrado a
uma mesa.

10. Desenvolver novos fluxos de receita

Com sua capacidade de analisar e colocar em dia boas informações de dados, você pode identificar
facilmente novos e inexplorados fluxos de geração de receita. Essa é uma das melhores maneiras de
enriquecer sua vida aumentando seus ganhos.

Conclusão

Dizem que os números não mentem. A demanda por análise de dados está em ascensão e, em breve,
será parte integrante de toda organização e de tudo o que fazemos. Essas razões devem lhe dar uma
ideia de quão importante este campo está pronto para ser no futuro.

Importância Da Estatística Na Guerra


Durante a segunda guerra mundial, foram feitos vários estudos, por meio da geometria e da estatística,
para entender a configuração ideal de lançamentos de bombas pelos aviões aliados. Dessa forma, se
resolve o problema do ataque, mas não o da defesa, a questão é: como se prevenir que os aviões sejam
abatidos?
Um dos responsáveis por responder essa pergunta foi Abraham Wald, um matemático judeu de origem
romena, que emigrou que emigrou para os EUA com a família para escapar da perseguição nazista. Em
suas visitas a campo, Wald observou os aviões que voltavam de combate, para ver o tipo de estrago
causado durante as missões.
Por meio de análises dos padrões dos danos, Wald percebeu que a maioria deles se localizava nas asas,
na cauda e no centro da fuselagem. Sabendo-se disso ele precisava determinar, posteriormente, onde a
blindagem deveria ser reforçada, de modo a proteger a aeronave sem comprometer sua performance e
estabilidade.
A maioria dos oficiais presentes, sugeriram revestir as áreas afetadas com chapas de aço, de modo a
resistir melhor aos ataques inimigos. Porém Abraham Wald foi contra a ideia, porque percebeu uma
importante falha no julgamento de seus colegas.
Para Wald, a conclusão estava incorreta porque aqueles aviões haviam retornado à base, apesar de
terem sido atingidos nos locais identificados. Isto significava que aquelas partes – asas, cauda e centro
da fuselagem – resistiram aos tiros e, portanto, não precisavam ser reforçadas.
Se a observação não era capaz de identificar quais as áreas que não resistiram aos danos, causando a
queda do avião, era porque aqueles aviões que sofriam tais danos caíam. Dito de outra forma: você não
precisa consertar o sobrevivente (porque ele sobreviveu!), mas ele dá poucas pistas sobre os reais
motivos de os outros não terem sobrevivido.
Como Lidar Com Valores Faltantes (Missing)?
Um dos problemas mais comuns que podemos enfrentar na limpeza e exploração de dados é lidar com
os valores ausentes.
Em primeiro lugar, entenda que NÃO há uma boa maneira de lidar com dados faltantes. Eu encontrei
diferentes soluções para imputação de dados dependendo do tipo de problema – Análise de séries
temporais, ML, Regressão etc. e é difícil fornecer uma solução geral.
Vamos aqui então resumir os métodos mais usados e tentar encontrar uma solução estrutural.
Imputação vs Remoção de Dados
Antes de saltar para os métodos de imputação de dados, temos que entender o motivo pelo qual os
dados desaparecem.
1. Missing at Random (MAR): Faltar dados aleatoriamente significa que a propensão
para um ponto de dados estar ausente não está relacionada aos dados ausentes, mas
está relacionada a alguns dos dados observados.
2. Missing Completely at Random (MCAR): O fato de que um certo valor está faltando
não tem nada a ver com seu valor hipotético e com os valores de outras variáveis.
3. Missing not at Random (MNAR): Duas razões possíveis são que o valor ausente
depende do valor hipotético (por exemplo, pessoas com salários altos geralmente não
querem revelar suas rendas em pesquisas) ou o valor ausente depende do valor de
alguma outra variável (por exemplo Vamos supor que as mulheres geralmente não
querem revelar suas idades! Aqui, o valor em falta na variável age é impactado pela
variável gender)
Nos dois primeiros casos, é seguro remover os dados com valores ausentes dependendo de suas
ocorrências, enquanto no terceiro caso, remover observações com valores ausentes pode produzir um
viés no modelo.
Portanto, temos que ter muito cuidado antes de remover as observações. Observe que a imputação não
fornece necessariamente melhores resultados.
Eliminação
 Listwise
Listwise deletion (análise de caso completo) remove todos os dados de uma
observação que tenha um ou mais valores ausentes. Particularmente, se os dados
faltantes forem limitados a um pequeno número de observações, você pode optar por
eliminar esses casos da análise. No entanto, na maioria dos casos, muitas vezes é
desvantajoso usar a exclusão Listwise. Isso ocorre porque as suposições do MCAR
(Missing Completely at Random) são geralmente raras de serem suportadas. Como
resultado, os métodos de exclusão de lista produzem parâmetros e estimativas com
viés.

# No R

novos_dados <- na.omit(dados)

# No python

dados.dropna(inplace=True)
 Pairwise
A exclusão por pares (Pairwise deletion) analisa todos os casos em que as variáveis de
interesse estão presentes e, assim, maximiza todos os dados disponíveis por uma base
de análise. Uma força para essa técnica é que ela aumenta o poder em sua análise,
mas tem muitas desvantagens. Ele assume que os dados ausentes são MCAR. Se você
excluir pairwise, você acabará com um número diferente de observações contribuindo
para diferentes partes do seu modelo, o que pode dificultar a interpretação.

#Pairwise Deletion
ncovMatrix <- cov(mydata, use="pairwise.complete.obs")
#Listwise Deletion
ncovMatrix <- cov(mydata, use="complete.obs")

 Variáveis Descartáveis
Na minha opinião, é sempre melhor manter os dados do que descartá-los. Às vezes,
você pode eliminar variáveis se os dados estiverem faltando para mais de 60% de
observações, mas apenas se essa variável for insignificante. Dito isto, a imputação é
sempre uma escolha preferida em vez de descartar variáveis.

df <- subconjunto (mydata, select = -c (x, z))


df <- mydata [-c (1,3: 4)]
Em python
del mydata.column_name
mydata.drop('column_name', axis=1, inplace=True)

Métodos Específicos de Séries Temporais


 Última observação realizada (LOCF) e próxima observação levada para trás (NOCB)
Esta é uma abordagem estatística comum para a análise de dados longitudinais de
medidas repetidas, onde algumas observações de acompanhamento podem estar
faltando. Dados longitudinais rastreiam a mesma amostra em diferentes pontos no
tempo. Ambos os métodos podem introduzir um viés na análise e um desempenho
ruim quando os dados têm uma tendência visível
 Interpolação linear
Esse método funciona bem para uma série temporal com alguma tendência, mas não
é adequado para dados sazonais
 Ajuste Sazonal + Interpolação Linear
Esse método funciona bem para dados com tendência e sazonalidade

library(imputeTS)

na.random(mydata) # Random Imputation

na.locf(mydata, option = "locf") # Last Obs. Carried Forward

na.locf(mydata, option = "nocb") # Next Obs. Carried Backward

na.interpolation(mydata) # Linear Interpolation

na.seadec(mydata, algorithm = "interpolation") # Seasonal Adjustment


then Linear Interpolation
Média, Mediana e Moda
O cálculo da média geral, mediana ou moda é um método de imputação muito básico, é a única função
testada que não aproveita as características da série temporal ou a relação entre as variáveis. É muito
rápido, mas tem desvantagens claras. Uma desvantagem é que a imputação média reduz a variação no
conjunto de dados.

library(imputeTS)

na.mean(mydata, option = "mean") # Mean Imputation

na.mean(mydata, option = "median") # Median Imputation

na.mean(mydata, option = "mode") # Mode Imputation

In Python

from sklearn.preprocessing import Imputer

values = mydata.values

imputer = Imputer(missing_values=’NaN’, strategy=’mean’)

transformed_values = imputer.fit_transform(values)

# strategy can be changed to "median" and “most_frequent”

Regressão linear
Para começar, vários preditores da variável com valores omissos são identificados usando uma matriz de
correlação. Os melhores preditores são selecionados e utilizados como variáveis independentes em uma
equação de regressão. A variável com dados perdidos é usada como a variável dependente. Casos com
dados completos para as variáveis preditoras são usados para gerar a equação de regressão; a equação
é então usada para prever valores ausentes para casos incompletos. Em um processo iterativo, os
valores da variável ausente são inseridos e, em seguida, todos os casos são usados para prever a variável
dependente. Essas etapas são repetidas até que haja pouca diferença entre os valores previstos de um
passo para o próximo, ou seja, eles convergem.
Ele “teoricamente” fornece boas estimativas para valores ausentes. No entanto, existem várias
desvantagens desse modelo que tendem a superar as vantagens. Primeiro, porque os valores
substituídos foram preditos a partir de outras variáveis, eles tendem a se encaixar “muito bem” e,
portanto, o erro padrão é esvaziado. Deve-se também assumir que existe uma relação linear entre as
variáveis usadas na equação de regressão quando pode não haver uma.
Imputação Múltipla
1. Imputação : Impute as entradas ausentes dos conjuntos de dados
incompletos m vezes ( m = 3 na figura). Observe que os valores imputados são
extraídos de uma distribuição. A simulação de sorteios aleatórios não inclui a incerteza
nos parâmetros do modelo. Melhor abordagem é usar a simulação de Markov Chain
Monte Carlo (MCMC). Esta etapa resulta em conjuntos de dados completos.
2. Análise : Analise cada um dos conjuntos de dados completos.
3. Pooling : Integre os resultados da análise m em um resultado final
# We will be using mice library in r

library(mice)

# Deterministic regression imputation via mice


imp <- mice(mydata, method = "norm.predict", m = 1)

# Store data
data_imp <- complete(imp)
# Multiple Imputation

imp <- mice(mydata, m = 5)

#build predictive model


fit <- with(data = imp, lm(y ~ x + z))
#combine results of all 5 models
combine <- pool(fit)

Este é, de longe, o método de imputação mais preferido pelas seguintes razões:


– Fácil de usar
– Sem preconceitos (se o modelo de imputação estiver correto)
Imputação de variáveis categóricas
1. A imputação de modo é um método, mas com certeza introduzirá viés
2. Os valores ausentes podem ser tratados como uma categoria separada por si
só. Podemos criar outra categoria para os valores ausentes e usá-los como um nível
diferente. Este é o método mais simples.
3. Modelos de previsão: aqui, criamos um modelo preditivo para estimar valores que
substituirão os dados ausentes. Nesse caso, dividimos nosso conjunto de dados em
dois conjuntos: um conjunto sem valores ausentes para a variável (treinamento) e
outro com valores omissos (teste).Podemos usar métodos como regressão logística e
ANOVA para previsão
4. Imputação Múltipla

KNN (K vizinhos mais próximos)


Existem outras técnicas de aprendizado de máquina como XGBoost e Random Forest para imputação de
dados, mas discutiremos a KNN como ela é amplamente usada. Neste método, k vizinhos são escolhidos
com base em alguma medida de distância e sua média é usada como uma estimativa de imputação. O
método requer a seleção do número de vizinhos mais próximos e uma métrica de distância. O KNN pode
prever tanto os atributos discretos (o valor mais frequente entre os k vizinhos mais próximos) quanto os
atributos contínuos (a média entre os k vizinhos mais próximos)
A métrica da distância varia de acordo com o tipo de dados:
1. Dados Contínuos: As métricas de distância comumente usadas para dados contínuos são Euclidean,
Manhattan e Cosine
2. Dados categóricos: a distância de Hamming é geralmente usada neste caso.Leva todos os atributos
categóricos e, para cada um, conta um se o valor não for o mesmo entre dois pontos. A distância de
Hamming é então igual ao número de atributos para os quais o valor foi diferente.
Uma das características mais atraentes do algoritmo KNN é que é simples de entender e fácil de
implementar. A natureza não-paramétrica do KNN confere-lhe uma vantagem em certas configurações
onde os dados podem ser altamente “incomuns”.
Uma das desvantagens óbvias do algoritmo KNN é que ele consome tempo ao analisar grandes
conjuntos de dados porque ele procura instâncias semelhantes em todo o conjunto de dados. Além
disso, a precisão do KNN pode ser severamente degradada com dados de alta dimensão, porque há
pouca diferença entre o vizinho mais próximo e o mais distante.

library(DMwR)
knnOutput <- knnImputation(mydata)
In python

from fancyimpute import KNN

# Use 5 nearest rows which have a feature to fill in each row's


missing features
knnOutput = KNN(k=5).complete(mydata)

Entre todos os métodos discutidos acima, a imputação múltipla e KNN são amplamente utilizados, e a
imputação múltipla sendo mais simples é geralmente preferida.

Sazonalidade: Qual O Significado E Como Usá-


La?
Entenda o significado de sazonalidade nesse artigo e porque ela é importante!
Quedas de vendas e picos são uma parte quase inevitável de fazer negócios. Mas se você está ignorando
quando e por que eles acontecem, você está perdendo oportunidades de mitigar ou alavancar seus
efeitos.
Há um termo para essas flutuações previsíveis: sazonalidade. A palavra “sazonalidade” é realmente um
equívoco: isso implica que esses padrões estão relacionados às estações do ano ou ao clima, quando, na
verdade, podem ser o resultado de vários fatores. Por exemplo, uma empresa pública que vê uma
queda no valor de suas ações após a divulgação dos relatórios de lucros a cada trimestre está
experimentando sazonalidade. E a sazonalidade também pode ocorrer em qualquer intervalo de tempo,
seja anual ou diário.

Portanto, a sazonalidade é diferente para todos os negócios. A chave para entender os padrões de suas
experiências particulares de negócios é usar seus dados para prever quando essas flutuações ocorrerão
e, em seguida, criar estratégias de acordo.

O que a sazonalidade pode dizer


Então, onde você começa? Bem, uma análise de séries de tempo – que examina os pontos de dados em
um determinado intervalo de tempo, como dados históricos de vendas no último ano – ajudará você a
reconhecer padrões em seus dados e a extrair informações significativas. A análise revelará picos ou
quedas recorrentes, como o aumento quase inevitável das vendas do quarto trimestre para as empresas
de varejo, devido à atividade de compras de fim de ano.

Mas, como a sazonalidade vai muito além das compras de presentes de Natal, você pode usar sua
análise de séries temporais para detalhar períodos de tempo específicos ou para identificar produtos
que possam ser afetados. Por exemplo, a análise sazonal de uma empresa em movimento pode mostrar
que poucos movimentos ocorrem no inverno, o que pode levar a empresa a emprestar seus caminhões
e funcionários para serviços de entrega durante esse período para manter a receita alta. Ou, um
varejista pode determinar a sazonalidade de categorias de produtos específicas que vende (por
exemplo, roupas esportivas, bolsas e roupas de baixo) e aumentar seus esforços de marketing
imediatamente antes da alta temporada desses itens – e minimizar o gasto com publicidade quando a
demanda é baixa.

Mesmo as flutuações diárias caem sob a sazonalidade. Um produtor de podcast, por exemplo, pode ver
quando os episódios estão sendo baixados. Se os ouvintes estiverem baixando episódios principalmente
às 8h e 20h, o produtor pode presumir que a sazonalidade dos downloads é relacionada ao trajeto e
comercializar de acordo.
Olhando para tendências versus sazonalidade
Sua análise de séries temporais não leva em conta apenas a sazonalidade. Também pode mostrar as
tendências gerais da sua empresa.

É importante notar, no entanto, que a sazonalidade pode obscurecer essas tendências. Por exemplo, em
uma visão não ajustada de seus dados de vendas, você pode ver uma tendência de alta acentuada
durante a temporada de férias – mas essa tendência se acelerou a partir da temporada de festas
anterior ou permaneceu a mesma?

Você não saberá essa resposta até que você ajuste sazonalmente seus dados, o que significa que você
remove os picos e vales regulares da sequência de pontos de dados. Depois de remover esse
componente, você deixa para trás os dados que não são alterados com base na estação, no clima ou em
outro fator recorrente.

Por que isso é importante? Tendências, não analisadas, vão te enganar e interpretar mal seus dados e
tomar decisões erradas. Vamos dizer que você está vendendo um produto e os negócios estão em
baixa. Você está pensando em retrabalhar seu produto até novembro chegar e, surpreendentemente,
suas vendas começarão a subir novamente. Embora você possa ficar tentado a manter sua oferta atual
de produtos – talvez esteja de volta em grande estilo – seus dados ajustados sazonalmente contam uma
história diferente.

Na verdade, o que parecia ser uma tendência ascendente era apenas um efeito sazonal. Seus dados
ajustados sazonalmente indicam que a tendência de queda do seu negócio continua inalterada. Você
decide de forma inteligente retrabalhar sua oferta de produtos.

Aproveitando ao máximo a sazonalidade


Como sua análise de séries de tempo pode ter mostrado, acompanhar a sazonalidade é um negócio
complicado. Ele engloba padrões climáticos, práticas de negócios, feriados e muito mais. Descobrir
como alavancar isso exige uma compreensão profunda de seus efeitos, bem como o conhecimento da
sua empresa e dos mercados que você atende.

Felizmente, se você tiver os dados certos, a capacidade de identificar padrões estará bem ao alcance. É
como você aborda essas flutuações previsíveis – seja por meio de campanhas de marketing ou
mudanças administrativas – que podem fazer ou quebrar seus negócios.
Como Identificar Outlier Nos Seus Dados ?
Como identificar um outlier? Você sabe? Primeiro vamos entender o significado de outlier na estatística
e logo após como fazer a identificação e detecção:

Definição
Um outlier é uma observação que se encontra a uma distância anormal de outros valores em uma
amostra aleatória de uma população.
Outliers
Muitos algoritmos de aprendizado de máquina são sensíveis ao intervalo e à distribuição de valores de
atributos nos dados de entrada. Os valores discrepantes nos dados de entrada podem distorcer e
enganar o processo de treinamento dos algoritmos de aprendizado de máquina, resultando em tempos
de treinamento mais longos, modelos menos precisos e, em última análise, resultados mais pobres.
Mesmo antes de os modelos preditivos serem preparados nos dados de treinamento, os outliers podem
resultar em representações enganosas e, por sua vez, em interpretações enganosas dos dados
coletados. Outliers podem distorcer a distribuição sumária de valores de atributos em estatísticas
descritivas como média e desvio padrão e em gráficos como histogramas e gráficos de dispersão,
comprimindo o corpo dos dados.

Por fim, os outliers podem representar exemplos de instâncias de dados relevantes para o problema,
como anomalias no caso de detecção de fraudes e segurança de computadores.

Modelagem Outlier
Outliers são valores extremos que ficam muito além das outras observações. Por exemplo, em uma
distribuição normal, os outliers podem ser valores nas caudas da distribuição.

O processo de identificação de outliers tem muitos nomes em mineração de dados e aprendizado de


máquina, como mineração outliers, modelagem outlier e detecção de novidade e detecção de
anomalias.
Em seu livro Outlier Analysis, Aggarwal fornece uma taxonomia útil de métodos de detecção de outliers,
como segue:

 Análise de valor extremo : Determine as caudas estatísticas da distribuição subjacente


dos dados. Por exemplo, métodos estatísticos, como os escores z, em dados
univariados.
 Modelos probabilísticos e estatísticos : Determine instâncias improváveis de um
modelo probabilístico dos dados. Por exemplo, modelos de mistura gaussiana
otimizados usando a maximização de expectativa.
 Modelos Lineares : Métodos de projeção que modelam os dados em dimensões
inferiores usando correlações lineares. Por exemplo, análise de componentes
principais e dados com grandes erros residuais podem ser outliers.
 Modelos baseados em proximidade : instâncias de dados que são isolados da massa
dos dados, conforme determinado pela análise de cluster, densidade ou vizinho mais
próximo.
 Modelos teóricos de informações : os outliers são detectados como instâncias de
dados que aumentam a complexidade (tamanho mínimo do código) do conjunto de
dados.
 Detecção de valores discrepantes de alta dimensão : os métodos que pesquisam
subespaços para valores discrepantes fornecem a divisão de medidas baseadas em
distância em dimensões mais altas (maldição de dimensionalidade).
Aggarwal comenta que a interpretabilidade de um modelo outlier é criticamente importante. Contexto
ou lógica é necessário em torno das decisões por que uma instância de dados específica é ou não é um
outlier.

Em seu capítulo contribuinte para o Data Mining e o Knowledge Discovery Handbook, Irad Ben-Gal
propõe uma taxonomia de modelos outliers como univariados ou multivariados e paramétricos e não-
paramétricos. Essa é uma maneira útil de estruturar métodos com base no que é conhecido sobre os
dados. Por exemplo:

 Você é considerado com outliers em um ou mais de um atributo (métodos univariados


ou multivariados)?
 Você pode assumir uma distribuição estatística a partir da qual as observações foram
amostradas ou não (paramétricas ou não-paramétricas)?

Inicio
Existem muitos métodos e muitas pesquisas colocadas na detecção de outliers. Comece fazendo
algumas suposições e experimentos de design onde você pode observar claramente os efeitos dessas
suposições em relação a alguma medida de desempenho ou precisão.

Eu recomendo trabalhar através de um processo escalonado de análise de valor extremo, métodos de


proximidade e métodos de projeção.

Análise Extrema de Valor


Você não precisa conhecer métodos estatísticos avançados para procurar, analisar e filtrar outliers de
seus dados. Comece de maneira simples com uma análise de valor extremo.
 Concentre-se em métodos univariados
 Visualize os dados usando gráficos de dispersão, histogramas e gráficos de caixa e
bigodes e procure valores extremos
 Assumir uma distribuição (gaussiana) e procurar valores maiores que 2 ou 3 desvios
padrão da média ou 1,5 vezes do primeiro ou terceiro quartil
 Filtrar outliers candidatos do conjunto de dados de treinamento e avaliar o
desempenho de seus modelos
Métodos de proximidade
Depois de explorar métodos mais simples de valores extremos, considere migrar para métodos
baseados em proximidade.

 Use métodos de agrupamento para identificar os clusters naturais nos dados (como o
algoritmo k-means)
 Identifique e marque os centróides de cluster
 Identificar instâncias de dados que são uma distância fixa ou uma distância percentual
dos centróides de cluster
 Filtrar outliers candidatos do conjunto de dados de treinamento e avaliar o
desempenho de seus modelos
Métodos de Projeção
Os métodos de projeção são relativamente simples de aplicar e destacam rapidamente os valores
externos.

 Use métodos de projeção para resumir seus dados em duas dimensões (como
mapeamento de PCA, SOM ou Sammon)
 Visualize o mapeamento e identifique os outliers manualmente
 Use medidas de proximidade de valores projetados ou vetores codebook para
identificar outliers
 Filtrar outliers candidatos do conjunto de dados de treinamento e avaliar o
desempenho de seus modelos
Métodos robustos para outliers
Uma estratégia alternativa é mudar para modelos robustos a outliers. Existem formas robustas de
regressão que minimizam os erros medianos de mínimos quadrados em vez da média (chamada de
regressão robusta), mas são mais computacionalmente intensivos. Existem também métodos como
árvores de decisão que são robustos para outliers.

Você pode verificar alguns métodos que são robustos para outliers. Se houver benefícios significativos
de precisão do modelo, pode haver uma oportunidade de modelar e filtrar outliers de seus dados de
treinamento.

Recursos
Há muitas páginas que discutem a detecção de exceções, mas recomendo ler um bom livro sobre o
assunto, algo mais autoritário. Mesmo olhando através de livros introdutórios sobre aprendizado de
máquina e mineração de dados não será tão útil para você. Para um tratamento clássico de outliers por
estatísticos, confira:

 Regressão Robusta e Detecção de Outlier por Rousseeuw e Leroy publicados em 2003


 Outliers in Statistical Data por Barnett e Lewis, publicado em 1994
 Identificação de Outliers uma monografia de Hawkins publicada em 1980
Para um tratamento moderno de outliers pela comunidade de mineração de dados, consulte:

 Análise Outlier por Aggarwal, publicado em 2013


 Capítulo 7 de Irad Ben-Gal no Data Mining e no Knowledge Discovery
Handbook editado por Maimon e Rokach, publicado em 2010,

Tutorial De Modelagem De Dados Para Iniciantes


O que é modelagem de dados?
Modelagem de dados é um processo de formulação de dados em um sistema de informação em uma
estrutura particular, para que possa ajudar no relato fácil no futuro. Ele ajuda na análise de dados que
ajudarão ainda mais a atender aos requisitos de negócios. O processo de modelagem de dados requer
modeladores de dados que trabalham meticulosamente com as partes interessadas e os possíveis
usuários de um sistema de informações. O processo de modelagem de dados termina com a criação de
um modelo de dados que suporta a infra-estrutura do sistema de informações comerciais. A
modelagem de dados é um conjunto de atividades e técnicas envolvidas na compreensão da estrutura
de uma organização e também propõe soluções que permitam à organização atingir seus
objetivos. Ela preenche as lacunas entre as áreas técnicas e funcionais.

Importância da modelagem de dados


 O modelo de dados retrata um melhor entendimento dos requisitos de negócios.
 Ajuda na criação de um design robusto e fácil de retrabalhar.
 Um modelo de dados qualificado ajuda a fornecer melhor consistência em todos os
projetos de uma empresa.
 Melhora a qualidade dos dados.
 Menos movimentos / distribuição de dados.
 Menos movimento implica menos manutenção.
 A reutilização do modelo de dados salva todos os esforços feitos para projetar um
modelo existente.
 Melhora o desempenho para um núcleo.
 Ajuda os gerentes de projeto com melhor escopo e gerenciamento de qualidade.
Três perspectivas do modelo de dados
 Modelo Conceitual: – Orientado ao Negócio (Entradas, Atributos e Relação)
 Modelo Lógico: – Elabora o ideal de todos os tipos de dados que estamos prestes a
capturar. (Tabelas, colunas, etc.)
 Modelo Físico: -Como implementar um modelo de dados? (Tabelas, operações CRUD,
índices, particionamento)
Tipo de modelagem de dados
 Modelo plano
 Modelo Hierárquico
 Modelo de rede
 Modelo Dimensional
 Modelo Relacional
 Modelo Relacional de Objeto
 Esquema em Estrela
Para aprender Modelagem de Dados, é preciso realmente entender Fatos e Dimensões .
Tabela de fatos: – É uma tabela contendo medições e granularidade de cada medição é definida por
dimensão relacionada. Os fatos podem ser aditivos ou semi-aditivos. Por exemplo, vendas.
Dimensão: – Uma tabela que coleta campos contendo descrição para elementos de negócios e é
referida por várias tabelas de fatos.
Modelagem Dimensional
Modelagem dimensional é uma técnica de design de data warehouse. Ele usa dimensões e fatos
confirmados e ajuda na fácil navegação. O design de modelagem dimensional ajuda na consulta de
desempenho rápido. Modelos dimensionais são casualmente conhecidos como esquemas em estrela.

Chaves relacionadas à modelagem dimensional


As chaves são importantes para entender enquanto aprendemos Modelagem de dados .
As chaves da modelagem dimensional são divididas em cinco categorias.
 Business ou Natural Keys: – é o campo que identifica exclusivamente uma
entidade. Por exemplo, ID do cliente, número do empregado.
 Chaves Primárias ou Alternativas: -Qualquer campo contendo um registro único pode
ser chamado como chave primária. O usuário precisa selecionar uma das chaves
primárias disponíveis, o restante se torna chaves alternativas.
 Chaves Compostas ou Compostas: -Uso de mais de um campo para representar uma
chave.
 Chaves substitutas: – Campo sem significado comercial e geralmente são geradas
automaticamente.
 Chaves Estrangeiras: – Campo é uma chave que aponta para chave em alguma outra
tabela.
O processo de modelagem de dados envolve projetar e produzir todos os tipos de modelos de dados,
conforme descrito anteriormente. Esses modelos de dados são então convertidos por meio da
linguagem de definição de dados. A linguagem de definição de dados é usada para gerar um banco de
dados. Este banco de dados será então denominado como um modelo de dados totalmente atribuído.

O Que É Data Mining? Como Analistas


Descobrem Insights
Data Mining é o processo automatizado de classificação de grandes conjuntos de dados para identificar
tendências e padrões e estabelecer relações.

As organizações hoje estão reunindo volumes cada vez maiores de informações de todos os tipos de
fontes, incluindo sites, aplicativos corporativos, mídias sociais, dispositivos móveis e, cada vez mais, a
Internet das coisas (IoT).

A grande questão é: como você pode derivar o valor comercial real dessas informações? É aí que a
mineração de dados pode contribuir de maneira significativa.

Mas o que é data mining?


A mineração de dados é o processo automatizado de classificação de grandes conjuntos de dados para
identificar tendências e padrões e estabelecer relacionamentos, para resolver problemas de negócios ou
gerar novas oportunidades por meio da análise dos dados
Não é apenas uma questão de analisar os dados para ver o que aconteceu no passado para poder agir
de forma inteligente no presente. As ferramentas e técnicas de mineração de dados permitem prever o
que vai acontecer no futuro e agir de acordo para aproveitar as tendências futuras.
O termo “mineração de dados” é usado de forma bastante ampla no setor de TI. Geralmente, aplica-se a
uma variedade de atividades de processamento de dados em grande escala, como coleta, extração,
armazenamento e análise de dados. Ele também pode abranger aplicativos e tecnologias de apoio à
decisão, como inteligência artificial , aprendizado de máquina e business intelligence.
Onde podemos aplicar Data Mining?
A mineração de dados é usada em muitas áreas de negócios e pesquisa, incluindo desenvolvimento de
produtos, vendas e marketing, genética e cibernética – para citar alguns. Se for usado da maneira
correta, a mineração de dados combinada com a análise preditiva pode dar uma grande vantagem sobre
os concorrentes que não estão usando essas ferramentas.
Derivando o valor comercial da mineração de dados
O valor real da mineração de dados vem da descoberta de gemas ocultas na forma de padrões e
relacionamentos nos dados, que podem ser usados para fazer previsões que podem ter um impacto
significativo nos negócios.

Por exemplo, se uma empresa determina que uma determinada campanha de marketing resultou em
vendas extremamente altas de um modelo específico de um produto em certas partes do país, mas não
em outras, ele pode reorientar a campanha no futuro para obter o máximo retorno.

Os benefícios da tecnologia podem variar dependendo do tipo de negócio e seus objetivos. Por exemplo,
os gerentes de vendas e marketing no varejo podem coletar informações de clientes de maneiras
diferentes para melhorar as taxas de conversão do que as da indústria de serviços financeiros ou de
companhias aéreas.
Independentemente do setor, a mineração de dados aplicada aos padrões de vendas e ao
comportamento do cliente no passado pode ser usada para criar modelos que prevejam vendas e
comportamento futuros.

Há também o potencial de mineração de dados para ajudar a eliminar atividades que podem prejudicar
as empresas. Por exemplo, você pode usar a mineração de dados para aprimorar a segurança do
produto ou detectar atividades fraudulentas em transações de serviços financeiros e de seguros.

As aplicações da mineração de dados


A mineração de dados pode ser aplicada a uma variedade de aplicativos em praticamente todos os
setores.

 Os varejistas podem implementar a mineração de dados para identificar melhor quais


produtos as pessoas provavelmente comprarão com base em seus hábitos de compra
anteriores ou quais produtos provavelmente venderão em determinadas épocas do
ano. Isso pode ajudar os comerciantes a planejar inventários e armazenar layouts.
 Os bancos e outros provedores de serviços financeiros podem extrair dados
relacionados às contas, transações e preferências de canal de seus clientes para
melhor atender às suas necessidades. Eles também podem coletar dados analisados a
partir de seus sites e interações de mídia social para ajudar a aumentar a fidelidade
dos clientes existentes e atrair novos.
 As empresas de manufatura podem usar a mineração de dados para procurar padrões
no processo de produção, para que possam identificar precisamente os gargalos e os
métodos defeituosos e encontrar maneiras de aumentar a eficiência. Eles também
podem aplicar o conhecimento da mineração de dados ao design de produtos e fazer
ajustes com base no feedback das experiências do cliente.
 As instituições de ensino podem se beneficiar da mineração de dados, como a análise
de conjuntos de dados para prever os futuros comportamentos de aprendizagem e o
desempenho dos alunos, e depois usar esse conhecimento para melhorar os métodos
de ensino ou os currículos.
 Os prestadores de cuidados de saúde podem extrair e analisar dados para determinar
as melhores formas de prestar cuidados aos pacientes e reduzir custos. Com a ajuda da
mineração de dados, eles podem prever quantos pacientes precisarão cuidar e que
tipo de serviços esses pacientes precisarão. Nas ciências da vida, a mineração pode ser
usada para coletar insights de dados biológicos massivos, para ajudar a desenvolver
novos medicamentos e outros tratamentos.
 Em vários setores , incluindo assistência médica e varejo, você pode usar a mineração
de dados para detectar fraudes e outros abusos – muito mais rapidamente do que com
os métodos tradicionais para identificar essas atividades.
Os principais componentes da mineração de dados
O processo de mineração de dados inclui vários componentes distintos que atendem a diferentes
necessidades:

 Pré-processando. Antes de poder aplicar algoritmos de mineração de dados, você


precisa criar um conjunto de dados de destino. Uma fonte comum de dados é um data
mart ou warehouse. Você precisa executar o pré-processamento para poder analisar os
conjuntos de dados.
 Limpeza e preparação de dados. O conjunto de dados de destino deve ser limpo e
preparado para remover “ruído”, endereçar valores ausentes, filtrar pontos de dados
(para detecção de anomalias) para remover erros ou explorar mais, criar regras de
segmentação e executar outras funções relacionadas à preparação de dados. .
 Aprendizagem de regras de associação (também conhecida como análise de cesta de
mercado ). Essas ferramentas buscam relacionamentos entre variáveis em um
conjunto de dados, como determinar quais produtos em uma loja são frequentemente
comprados juntos.
 Clustering Esse recurso de mineração de dados é usado para descobrir grupos e
estruturas em conjuntos de dados que são, de alguma forma, semelhantes entre si,
sem usar estruturas conhecidas nos dados.
 Classificação. As ferramentas que executam a classificação generalizam estruturas
conhecidas para aplicar a novos pontos de dados, como quando um aplicativo de email
tenta classificar uma mensagem como email legítimo ou spam.
 Regressão. Essa técnica de mineração de dados é usada para prever um intervalo de
valores numéricos, como vendas, valores de habitação, temperaturas ou preços,
quando determinado um conjunto de dados específico.
 Summarização. Essa técnica fornece uma representação compacta de um conjunto de
dados, incluindo visualização e geração de relatórios.
Dezenas de fornecedores fornecem ferramentas de software de mineração de dados, algumas
oferecendo software proprietário e outras fornecendo produtos através de esforços de código aberto.

Entre os principais fornecedores que oferecem aplicativos proprietários de mineração de dados estão
Angoss, Clarabridge, IBM, Microsoft, Open Text, Oracle, RapidMiner, SAS Institute e SAP.

As organizações que fornecem softwares e aplicativos de mineração de dados de código aberto incluem
a Carrot2, a Knime, a Massive Online Analysis, a ML-Flex, a Orange, a UIMA e a Weka.

Os riscos e desafios da mineração de dados


A mineração de dados vem com sua parcela de riscos e desafios. Como acontece com qualquer
tecnologia que envolva o uso de informações potencialmente confidenciais ou identificáveis
pessoalmente, segurança e privacidade estão entre as maiores preocupações.
Em um nível fundamental, os dados que estão sendo extraídos precisam ser completos, precisos e
confiáveis; afinal de contas, você está usando isso para tomar decisões de negócios significativas e,
muitas vezes, para interagir com o público, reguladores, investidores e parceiros de negócios. Formas
modernas de dados também requerem novos tipos de tecnologias, como reunir conjuntos de dados de
uma variedade de ambientes de computação distribuída (também conhecido como big data
integration ) e dados mais complexos, como imagens e vídeo, dados temporais e dados espaciais.

Obter os dados certos e juntá-los para que possam ser extraídos não é o fim do desafio para a TI. Os
sistemas de nuvem, armazenamento e rede precisam ativar o alto desempenho das ferramentas de
mineração de dados. E as informações resultantes da mineração de dados precisam ser apresentadas
claramente à ampla gama de usuários esperados para agir e interpretá-la. Você precisará de pessoas
com habilidades em ciência de dados e áreas relacionadas.
Do ponto de vista da privacidade , a ideia de informações sobre mineração que se relaciona com o modo
como as pessoas se comportam, o que compram, os sites que visitam e assim por diante pode
desencadear preocupações sobre empresas que coletam muita informação. Isso afeta não apenas sua
implementação tecnológica, mas sua estratégia de negócios e perfil de risco.

Além da ética de rastrear indivíduos tão detalhadamente, há também requisitos legais sobre como os
dados podem ser coletados, identificados para uma pessoa e compartilhados. A Lei de Portabilidade e
Responsabilidade em Seguros de Saúde dos Estados Unidos (HIPAA) e a Diretiva Geral de Proteção de
Dados da União Europeia (GDPR) estão entre as mais conhecidas.
Na mineração de dados, o próprio ato inicial de preparação, como agregar e depois racionalizar os
dados, pode revelar informações ou padrões que possam comprometer a confidencialidade dos
dados. Assim, é possível inadvertidamente entrar em conflito com preocupações éticas ou requisitos
legais.

A mineração de dados também exige proteção de dados em todas as etapas, para garantir que os dados
não sejam roubados, alterados ou acessados secretamente. As ferramentas de segurança incluem
criptografia, controles de acesso e mecanismos de segurança de rede.

Mineração de dados é um diferenciador chave


Apesar desses desafios, a mineração de dados tornou-se um componente vital das estratégias de TI em
muitas organizações que buscam obter valor de todas as informações que estão reunindo ou podem
acessar. Essa unidade sem dúvida acelerará com os avanços contínuos em análise preditiva, inteligência
artificial, aprendizado de máquina e outras tecnologias relacionadas.

7 Meios Para Migrar De Machine Learning Para


Previsão De Séries Temporais
Introdução A Séries Temporais

O objetivo de um modelo preditivo é estimar o valor de uma variável desconhecida. Uma série temporal
tem tempo (t) como uma variável independente (em qualquer unidade que você possa imaginar) e uma
variável dependente de destino. A saída do modelo é o valor previsto para y no tempo t.
Na maioria dos casos, uma previsão é um valor específico, por exemplo, o tipo de objeto em uma
imagem, o valor de uma casa, se um email é spam ou não, etc. No entanto, uma previsão é uma
previsão (representando a média ou média ) que inclui um intervalo de confiança que expressa o nível
de certeza. Normalmente, os níveis de confiança de 80% e 95% são fornecidos.

Sempre que os dados são registrados em intervalos regulares de tempo, eles são chamados de séries
temporais. Você pode pensar nesse tipo de variável de duas maneiras:

1.Os dados são univariados, mas possuem um índice (tempo) que cria uma ordem
implícita; ou
2. O conjunto de dados tem duas dimensões: o tempo (variável independente) e a
própria variável como variável dependente.
Se você tiver experiência trabalhando em aprendizado de máquina, precisará fazer
alguns ajustes ao trabalhar com séries temporais. Abaixo estão sete principais
diferenças a ter em mente ao fazer a transição.
Componentes da série temporal
 Tendência: Existe uma tendência quando uma série aumenta, diminui ou permanece
em um nível constante em relação ao tempo. Portanto, o tempo é tomado como um
recurso.

 Sazonalidade : refere-se à propriedade de uma série temporal que exibe padrões


periódicos que se repetem em uma frequência constante ( m ). No exemplo a seguir,
você pode observar um componente sazonal com m = 12, o que significa que o padrão
periódico se repete a cada doze meses. (Geralmente, para lidar com a sazonalidade, os
modelos de séries temporais incluem variáveis sazonais como recursos fictícios,
usando variáveis binárias m – 1 para evitar a correlação entre os recursos).

 Ciclos: os ciclos são temporadas que não ocorrem a uma taxa fixa. Por exemplo, nas
séries cronológicas abaixo, as armadilhas anuais da Canadian Lynx exibem padrões
sazonais e cíclicos. Estes não se repetem em intervalos de tempo regulares e podem
ocorrer mesmo se a frequência for 1 ( m = 1).
Preditores da série temporal
 Variáveis dummy: Similar a como a sazonalidade pode ser adicionada como um
recurso binário, outros recursos podem ser adicionados em formato binário ao
modelo. Você pode adicionar feriados, eventos especiais, campanhas de marketing, se
um valor é outlier ou não, etc. No entanto, você deve lembrar que essas variáveis
precisam ter padrões definidos.
 Número de dias: podem ser facilmente calculados mesmo para os próximos meses /
trimestres e podem afetar as previsões, especialmente para dados financeiros. Aqui
você pode incluir:
 Número de dias
 Número de dias de negociação
 Número de dias de fim de semana
 …e assim por diante
 Valores com atraso: você pode incluir valores defasados da variável como
preditores. Alguns modelos como ARIMA, Autoregressão Vetorial (VAR) ou Redes
Neurais Autorregressivas (NNAR) funcionam dessa maneira.
Os componentes da série temporal são altamente importantes para analisar a variável de interesse, a
fim de entender seu comportamento, os padrões que ela possui e para poder escolher e ajustar um
modelo de série temporal apropriado. Preditores de séries temporais, por outro lado, podem ajudar
alguns modelos a reconhecer padrões adicionais e melhorar a qualidade das previsões. Os componentes
e recursos da série temporal são fundamentais para interpretar o comportamento da série temporal,
analisar suas propriedades, identificar possíveis causas e muito mais.

2. Pode haver conjuntos de dados menores.


Você pode estar acostumado a alimentar milhares, milhões ou bilhões de pontos de dados em um
modelo de aprendizado de máquina, mas isso nem sempre é o caso das séries temporais. Na verdade,
você pode estar trabalhando com séries temporais de tamanho pequeno a médio, dependendo da
frequência e do tipo de variável.

À primeira vista, você pode pensar que isso é uma desvantagem. Mas, na realidade, há alguns benefícios
em ter séries temporais de tamanho pequeno a médio:

1. Os conjuntos de dados se encaixam na memória do seu computador.


2. Em alguns casos, você pode analisar todo o conjunto de dados e não apenas uma
amostra.
3. A duração da série temporal é conveniente para criar gráficos que possam ser
analisados graficamente. Este é um ponto muito importante, porque nos baseamos
fortemente em análises de plotagem na etapa de análise de séries temporais.
Isso não significa que você não estará trabalhando com grandes séries temporais, mas também deve
estar preparado e ser capaz de lidar com séries temporais menores.

Qualquer conjunto de dados que inclua um campo relacionado ao tempo pode se beneficiar da análise e
previsão de séries temporais. No entanto, se você tiver um conjunto de dados maior, um Banco de
Dados de Séries Temporais (TSDB) poderá ser mais apropriado. Alguns desses conjuntos de dados vêm
de eventos registrados com timestamp, logs de sistemas, dados financeiros, dados obtidos de sensores
( IoT ), etc. Como o TSDB trabalha nativamente com séries temporais, é uma ótima oportunidade para
aplicar a técnica de séries temporais em larga escala. conjuntos de dados
3. Uma abordagem algorítmica diferente é necessária.
Uma das propriedades mais importantes que um algoritmo precisa para ser considerado um algoritmo
de série temporal é a capacidade de extrapolar padrões fora do domínio de dados de
treinamento. Muitos algoritmos de aprendizado de máquina não possuem esse recurso, pois tendem a
estar restritos a um domínio definido por dados de treinamento. Portanto, eles não são adequados para
séries temporais, pois o objetivo das séries temporais é projetar no futuro.

Outra propriedade importante de um algoritmo de série temporal é a capacidade de derivar intervalos


de confiança. Embora essa seja uma propriedade padrão dos modelos de séries temporais, a maioria
dos modelos de aprendizado de máquina não possui essa capacidade, pois nem todos são baseados em
distribuições estatísticas. Intervalos de confiança podem ser estimados, mas podem não ser tão
precisos. Isso será expandido em mais detalhes na Seção 6.

Você pode pensar que apenas modelos estatísticos simples são usados para previsão de séries
temporais. Isso não é totalmente verdadeiro. Existem muitos modelos ou abordagens complexas que
podem ser muito úteis em alguns casos. Heteroskedasticity condicional autorregressiva generalizada
(GARCH), modelos baseados em Bayesian e VAR são apenas alguns. Há também modelos de rede
neural que podem ser aplicados a séries temporais que usam preditores defasados e podem manipular
recursos, como a regressão automática de redes neurais (NNAR) . Existem ainda modelos de séries
temporais emprestados de deep learning , especificamente na família RNN (Rede Neural Recorrente),
como redes LSTM (Long Short-Term Memory) e GRU (Gated Recurrent Unit).
No entanto, todos esses modelos carecem de interpretabilidade , o que é crucial para os líderes de
negócios que desejam tomar decisões baseadas em dados. A propriedade desejada do modelo deve
estar alinhada com os objetivos de negócios para que o projeto seja bem-sucedido.

Estes são alguns dos algoritmos comuns usados para previsão de séries temporais:

1. Regressão Linear
2. Suavização Exponencial
3. ARIMA
4. Modelos lineares dinamicos
5. Modelos de redes neurais
4. As métricas de avaliação e os diagnósticos residuais são usados.
As métricas de avaliação mais comuns para previsão são o RMSE, que você pode ter usado em
problemas de regressão; MAPE, como é independente de escala e representa a proporção de erro para
valores reais como um percentual; e MASE, que indica o desempenho da previsão em comparação com
uma previsão média ingênua.
Depois que um modelo de previsão é adequado, é importante avaliar o quão bem ele é capaz de
capturar padrões. Embora as métricas de avaliação ajudem a determinar a proximidade dos valores
ajustados aos reais, eles não avaliam se o modelo se ajusta adequadamente à série temporal. Em vez
disso, os resíduos são uma boa maneira de avaliar isso. Como você está tentando capturar os padrões
de uma série temporal, você esperaria que os erros se comportassem como ruído branco, pois eles
representam o que não pode ser capturado pelo modelo. O ruído branco deve ter as seguintes
propriedades:

1. Os resíduos são não correlacionados ( Acf = 0)


2. Os resíduos seguem uma distribuição normal, com média zero (sem viés) e variância

constante
Se uma das duas propriedades não estiver presente, isso significa que há espaço para melhorias no
modelo.

A propriedade de média zero pode ser facilmente verificada com um teste-T para a média. As
propriedades de normalidade e variância constante podem ser verificadas visualmente com um
histograma dos resíduos ou com um teste de normalidade univariada apropriado. E a primeira
propriedade pode ser verificada de duas maneiras:

1. Aplique um teste portmanteau para verificar a hipótese de que os resíduos não são
correlacionados.
2. Plote a função de Autocorrelação (ACF) e avalie que pelo menos 95% dos picos estão

no intervalo , onde T é o tamanho da série temporal.


A seguir, um exemplo de resíduos que se comportam como ruído branco. Os resíduos têm média zero e
variância constante e parecem ser normalmente distribuídos. Todos os picos do ACF estão dentro do
intervalo
desejado.
5. A resolução correta deve ser escolhida.
Ao trabalhar com séries temporais, você deve ter uma compreensão clara do objetivo de sua
análise. Suponha que o objetivo do negócio seja prever em um nível anual. Existem duas maneiras
técnicas para você abordar isso:

 Use os totais anuais e ajuste um modelo para prever o número necessário de anos.
 No caso de você ter os valores disponíveis no nível trimestral ou mensal, crie um
modelo de série temporal para prever os meses ou trimestres necessários e agregue
para encontrar o total por ano.
Apontar para o nível mais granular possível. Ao usar agregados, o modelo está aprendendo padrões em
um nível macro. Isso não é uma má escolha, mas pode haver alguns padrões no nível granular aos quais
o modelo não está prestando atenção. Como no nosso exemplo, usar dados mensais ou trimestrais pode
render melhores resultados do que uma previsão anual.

Há outro benefício de fazer isso também. Você pode pensar que, após adicionar as previsões, o erro
pode se propagar para o total. No entanto, é o caso oposto. Se o modelo que você construiu é imparcial,
a média dos residuais será zero ou próxima de zero e, portanto, a soma dos residuais será próxima de
zero:

Portanto, nós temos:


Isso significa que, se os resíduos se comportarem como ruído branco, você poderá obter um erro muito
baixo no total agregado.

Lembre-se também de que trabalhar em um nível que é muito granular pode apresentar dados ruidosos
que são difíceis de modelar. No nosso exemplo, onde previmos em um nível anual, usar o nível
trimestral, mensal ou até semanal pode ser apropriado. Mas um nível diário, horário ou inferior pode
ser muito granular e barulhento para o problema. Portanto, tente trabalhar em um nível apropriado de
resolução.

6. Forneça intervalos de confiança além das previsões.


Como dito anteriormente, as previsões são previsões que sempre incluem intervalos de
confiança, geralmente 80% e 95% . Alternativamente, você pode escolher usar o desvio padrão dos
resíduos como o desvio padrão da amostra, permitindo que os intervalos de confiança sejam calculados
usando uma distribuição apropriada, como a normal ou exponencial.
Para alguns modelos, por exemplo, redes neurais, que não são baseadas em distribuições de
probabilidade, você pode executar simulações das previsões e calcular intervalos de confiança a partir
da distribuição das simulações.

7. Alguns modelos terão alta precisão ou alto erro.


Em comparação com outros modelos, o desempenho da previsão de séries temporais pode ser
diferente. Lembre-se de que você está assumindo que padrões passados são indicadores do que pode
ocorrer no futuro e, portanto, eles são replicados ou projetados. Isso significa que, se os padrões
continuarem como estão, suas previsões serão altamente precisas.

No entanto, se os padrões mudam, gradual ou abruptamente, as previsões podem divergir muito dos
resultados reais. Há uma chance de que eventos de “cisne negro” ou “cisne cinza” possam ocorrer. De
acordo com a Investopedia:

 Cisne negro: um evento ou ocorrência que se desvia além do que é normalmente


esperado de uma situação e é extremamente difícil de prever.
 Cisne cinza: Um evento que pode ser antecipado até certo ponto, mas é considerado
improvável de ocorrer e pode ter um impacto considerável se ocorrer.
Isso ocorre freqüentemente em séries temporais econômicas.Quando isso ocorre, é preferível avaliar
primeiro o impacto e, se necessário, atualizar as previsões usando dados recentes após o evento ter
passado.
Conclusão
Espero que este guia ajude você a ter uma transição mais fácil e menos dolorosa do aprendizado de
máquina para a previsão de séries temporais. Como você deve ter observado, há muitos conceitos que
se sobrepõem, enquanto outros são completamente diferentes ou precisam ser adaptados.

Quer aprender sobre series temporais? Conheça nossos cursos e tenha a formação completa no
assunto!
Referências
Dunning, T., & Friedman, E. (2015). Bancos de Dados de Séries Temporais (1ª ed.). Califórnia: O’Reilly
Media. Obtido em http://shop.oreilly.com/product/0636920035435.do
Hyndman, R. e Athanasopoulos, G. (2017). Previsão: Princípios e Prática (2ª ed.). Obtido
de https://www.otexts.org/fpp2/
Hyndman, R., & Khandakar, Y. (2008). Previsão automática de séries temporais: o pacote de previsão
para {R}. Journal of Statistical Software, 26 (3), 1-22. Obtido
de http://www.jstatsoft.org/article/view/v027i03

Você também pode gostar