Escolar Documentos
Profissional Documentos
Cultura Documentos
Sabe o que é data science? Veja 10 motivos pelos quais você deve aprender!
Dizemos que estamos vivendo na era da informação. A internet tornou fácil para qualquer um reunir
qualquer informação que eles precisem para alcançar qualquer finalidade que desejarem.
Você sabia que você poderia até aprender a construir seu próprio carro online?
Sim, o que estava disponível apenas para aqueles que podiam pagar pela educação de uma universidade
de renome, agora está disponível para qualquer pessoa que tenha uma conexão com a Internet.
Se você quiser ter sucesso neste mundo, você deve estudar tendências. Ao analisar os dados analíticos
disponíveis para o seu nicho, você pode determinar maneiras diferentes pelas quais você pode dar bons
passos para alcançar resultados positivos.
Tudo depende de dados; de grandes multinacionais para pequenas empresas. Todas as grandes mentes
usam esses dados para formular estratégias melhores para o futuro de suas empresas. Agora imagine
estar no centro de todo esse frenesi.
Imagine ser a pessoa a quem recorrem antes de tomar qualquer decisão comercial importante? Isso é
exatamente quem você será quando aprender ciência de dados e análise de big data .
À medida que as empresas começam a perceber que não têm capacidade de coletar, interpretar e usar
dados de forma abrangente, estão começando a procurar especialistas que possam fazê-lo. Se você
observar todas as principais plataformas de oportunidades de emprego, como o Indeed e o Dice, verá
que há um número cada vez maior de postagens de procura de analistas de dados e consultores. A
demanda por profissionais com esse conjunto específico de habilidades está aumentando, enquanto a
oferta permanece baixa. Isso cria ótimas oportunidades de emprego para os indivíduos nesse campo.
Assim como se tornou imperativo usar computadores no local de trabalho de hoje, os profissionais de
análise de dados de uso para promover o crescimento estão lentamente se recuperando. Não há
praticamente nenhum setor que permaneça intocado do alcance do Data Analytics.
Um profissional de análise de dados tem uma ampla variedade de cargos e campos para escolher. Como
big data é usado em quase todos os lugares hoje, você pode optar por ser:
Estes são apenas alguns dos títulos que você pode ter em grandes organizações como IBM, ITrend,
Opera, Oracle, etc e as possibilidades são imensas.
Uma das principais causas de insatisfação no local de trabalho é que a maioria dos funcionários se sente
como se não tivesse qualquer poder de decisão. Eles muitas vezes se sentem apenas mais uma
engrenagem na grande roda corporativa. Como profissional de análise de dados, você estará no centro
da tomada de decisões em sua empresa escolhida. Na verdade, você será parte integrante das decisões
de negócios e estratégias futuras, dando a você um papel e um propósito importante dentro da
organização.
Assim como as empresas começaram a usar as mídias sociais para publicidade de marca e engajamento
de clientes, elas também começaram a recorrer à análise de dados. Hoje, é quase impossível encontrar
qualquer marca que não tenha presença na mídia social. O mesmo será verdade no que diz respeito à
adaptação de dados analíticos. Em um futuro muito próximo, todas as empresas precisarão
de profissionais de análise de dados. Isso faz com que seja um movimento de carreira inteligente que
realmente tenha um futuro nos negócios.
8. Análise de dados está assumindo mais rápido do que o esperado
Uma pesquisa conduzida pela Nimbus Ninety mostra que a análise de dados está assumindo muito mais
rápido do que o projetado. A pesquisa descobriu que a análise de dados está no topo da lista de
tecnologias a serem observadas nos próximos 3 anos.
No futuro próximo, a grande maioria da força de trabalho não vai querer estar ligada a apenas um
empregador. As pessoas estão constantemente procurando maneiras de diversificar suas fontes de
renda e métodos através dos quais podem encontrar o equilíbrio perfeito entre vida profissional e
pessoal. A análise de dados, sendo uma questão de estudo de números, tendências e dados em geral,
oferece a oportunidade perfeita para se tornar um freelancer ou consultor bem remunerado para
algumas das maiores empresas do mundo. Basicamente baseado em TI, esse tipo de trabalho pode ser
feito em qualquer lugar do mundo a qualquer momento. Portanto, você não precisa estar amarrado a
uma mesa.
Com sua capacidade de analisar e colocar em dia boas informações de dados, você pode identificar
facilmente novos e inexplorados fluxos de geração de receita. Essa é uma das melhores maneiras de
enriquecer sua vida aumentando seus ganhos.
Conclusão
Dizem que os números não mentem. A demanda por análise de dados está em ascensão e, em breve,
será parte integrante de toda organização e de tudo o que fazemos. Essas razões devem lhe dar uma
ideia de quão importante este campo está pronto para ser no futuro.
# No R
# No python
dados.dropna(inplace=True)
Pairwise
A exclusão por pares (Pairwise deletion) analisa todos os casos em que as variáveis de
interesse estão presentes e, assim, maximiza todos os dados disponíveis por uma base
de análise. Uma força para essa técnica é que ela aumenta o poder em sua análise,
mas tem muitas desvantagens. Ele assume que os dados ausentes são MCAR. Se você
excluir pairwise, você acabará com um número diferente de observações contribuindo
para diferentes partes do seu modelo, o que pode dificultar a interpretação.
#Pairwise Deletion
ncovMatrix <- cov(mydata, use="pairwise.complete.obs")
#Listwise Deletion
ncovMatrix <- cov(mydata, use="complete.obs")
Variáveis Descartáveis
Na minha opinião, é sempre melhor manter os dados do que descartá-los. Às vezes,
você pode eliminar variáveis se os dados estiverem faltando para mais de 60% de
observações, mas apenas se essa variável for insignificante. Dito isto, a imputação é
sempre uma escolha preferida em vez de descartar variáveis.
library(imputeTS)
library(imputeTS)
In Python
values = mydata.values
transformed_values = imputer.fit_transform(values)
Regressão linear
Para começar, vários preditores da variável com valores omissos são identificados usando uma matriz de
correlação. Os melhores preditores são selecionados e utilizados como variáveis independentes em uma
equação de regressão. A variável com dados perdidos é usada como a variável dependente. Casos com
dados completos para as variáveis preditoras são usados para gerar a equação de regressão; a equação
é então usada para prever valores ausentes para casos incompletos. Em um processo iterativo, os
valores da variável ausente são inseridos e, em seguida, todos os casos são usados para prever a variável
dependente. Essas etapas são repetidas até que haja pouca diferença entre os valores previstos de um
passo para o próximo, ou seja, eles convergem.
Ele “teoricamente” fornece boas estimativas para valores ausentes. No entanto, existem várias
desvantagens desse modelo que tendem a superar as vantagens. Primeiro, porque os valores
substituídos foram preditos a partir de outras variáveis, eles tendem a se encaixar “muito bem” e,
portanto, o erro padrão é esvaziado. Deve-se também assumir que existe uma relação linear entre as
variáveis usadas na equação de regressão quando pode não haver uma.
Imputação Múltipla
1. Imputação : Impute as entradas ausentes dos conjuntos de dados
incompletos m vezes ( m = 3 na figura). Observe que os valores imputados são
extraídos de uma distribuição. A simulação de sorteios aleatórios não inclui a incerteza
nos parâmetros do modelo. Melhor abordagem é usar a simulação de Markov Chain
Monte Carlo (MCMC). Esta etapa resulta em conjuntos de dados completos.
2. Análise : Analise cada um dos conjuntos de dados completos.
3. Pooling : Integre os resultados da análise m em um resultado final
# We will be using mice library in r
library(mice)
# Store data
data_imp <- complete(imp)
# Multiple Imputation
library(DMwR)
knnOutput <- knnImputation(mydata)
In python
Entre todos os métodos discutidos acima, a imputação múltipla e KNN são amplamente utilizados, e a
imputação múltipla sendo mais simples é geralmente preferida.
Portanto, a sazonalidade é diferente para todos os negócios. A chave para entender os padrões de suas
experiências particulares de negócios é usar seus dados para prever quando essas flutuações ocorrerão
e, em seguida, criar estratégias de acordo.
Mas, como a sazonalidade vai muito além das compras de presentes de Natal, você pode usar sua
análise de séries temporais para detalhar períodos de tempo específicos ou para identificar produtos
que possam ser afetados. Por exemplo, a análise sazonal de uma empresa em movimento pode mostrar
que poucos movimentos ocorrem no inverno, o que pode levar a empresa a emprestar seus caminhões
e funcionários para serviços de entrega durante esse período para manter a receita alta. Ou, um
varejista pode determinar a sazonalidade de categorias de produtos específicas que vende (por
exemplo, roupas esportivas, bolsas e roupas de baixo) e aumentar seus esforços de marketing
imediatamente antes da alta temporada desses itens – e minimizar o gasto com publicidade quando a
demanda é baixa.
Mesmo as flutuações diárias caem sob a sazonalidade. Um produtor de podcast, por exemplo, pode ver
quando os episódios estão sendo baixados. Se os ouvintes estiverem baixando episódios principalmente
às 8h e 20h, o produtor pode presumir que a sazonalidade dos downloads é relacionada ao trajeto e
comercializar de acordo.
Olhando para tendências versus sazonalidade
Sua análise de séries temporais não leva em conta apenas a sazonalidade. Também pode mostrar as
tendências gerais da sua empresa.
É importante notar, no entanto, que a sazonalidade pode obscurecer essas tendências. Por exemplo, em
uma visão não ajustada de seus dados de vendas, você pode ver uma tendência de alta acentuada
durante a temporada de férias – mas essa tendência se acelerou a partir da temporada de festas
anterior ou permaneceu a mesma?
Você não saberá essa resposta até que você ajuste sazonalmente seus dados, o que significa que você
remove os picos e vales regulares da sequência de pontos de dados. Depois de remover esse
componente, você deixa para trás os dados que não são alterados com base na estação, no clima ou em
outro fator recorrente.
Por que isso é importante? Tendências, não analisadas, vão te enganar e interpretar mal seus dados e
tomar decisões erradas. Vamos dizer que você está vendendo um produto e os negócios estão em
baixa. Você está pensando em retrabalhar seu produto até novembro chegar e, surpreendentemente,
suas vendas começarão a subir novamente. Embora você possa ficar tentado a manter sua oferta atual
de produtos – talvez esteja de volta em grande estilo – seus dados ajustados sazonalmente contam uma
história diferente.
Na verdade, o que parecia ser uma tendência ascendente era apenas um efeito sazonal. Seus dados
ajustados sazonalmente indicam que a tendência de queda do seu negócio continua inalterada. Você
decide de forma inteligente retrabalhar sua oferta de produtos.
Felizmente, se você tiver os dados certos, a capacidade de identificar padrões estará bem ao alcance. É
como você aborda essas flutuações previsíveis – seja por meio de campanhas de marketing ou
mudanças administrativas – que podem fazer ou quebrar seus negócios.
Como Identificar Outlier Nos Seus Dados ?
Como identificar um outlier? Você sabe? Primeiro vamos entender o significado de outlier na estatística
e logo após como fazer a identificação e detecção:
Definição
Um outlier é uma observação que se encontra a uma distância anormal de outros valores em uma
amostra aleatória de uma população.
Outliers
Muitos algoritmos de aprendizado de máquina são sensíveis ao intervalo e à distribuição de valores de
atributos nos dados de entrada. Os valores discrepantes nos dados de entrada podem distorcer e
enganar o processo de treinamento dos algoritmos de aprendizado de máquina, resultando em tempos
de treinamento mais longos, modelos menos precisos e, em última análise, resultados mais pobres.
Mesmo antes de os modelos preditivos serem preparados nos dados de treinamento, os outliers podem
resultar em representações enganosas e, por sua vez, em interpretações enganosas dos dados
coletados. Outliers podem distorcer a distribuição sumária de valores de atributos em estatísticas
descritivas como média e desvio padrão e em gráficos como histogramas e gráficos de dispersão,
comprimindo o corpo dos dados.
Por fim, os outliers podem representar exemplos de instâncias de dados relevantes para o problema,
como anomalias no caso de detecção de fraudes e segurança de computadores.
Modelagem Outlier
Outliers são valores extremos que ficam muito além das outras observações. Por exemplo, em uma
distribuição normal, os outliers podem ser valores nas caudas da distribuição.
Em seu capítulo contribuinte para o Data Mining e o Knowledge Discovery Handbook, Irad Ben-Gal
propõe uma taxonomia de modelos outliers como univariados ou multivariados e paramétricos e não-
paramétricos. Essa é uma maneira útil de estruturar métodos com base no que é conhecido sobre os
dados. Por exemplo:
Inicio
Existem muitos métodos e muitas pesquisas colocadas na detecção de outliers. Comece fazendo
algumas suposições e experimentos de design onde você pode observar claramente os efeitos dessas
suposições em relação a alguma medida de desempenho ou precisão.
Use métodos de agrupamento para identificar os clusters naturais nos dados (como o
algoritmo k-means)
Identifique e marque os centróides de cluster
Identificar instâncias de dados que são uma distância fixa ou uma distância percentual
dos centróides de cluster
Filtrar outliers candidatos do conjunto de dados de treinamento e avaliar o
desempenho de seus modelos
Métodos de Projeção
Os métodos de projeção são relativamente simples de aplicar e destacam rapidamente os valores
externos.
Use métodos de projeção para resumir seus dados em duas dimensões (como
mapeamento de PCA, SOM ou Sammon)
Visualize o mapeamento e identifique os outliers manualmente
Use medidas de proximidade de valores projetados ou vetores codebook para
identificar outliers
Filtrar outliers candidatos do conjunto de dados de treinamento e avaliar o
desempenho de seus modelos
Métodos robustos para outliers
Uma estratégia alternativa é mudar para modelos robustos a outliers. Existem formas robustas de
regressão que minimizam os erros medianos de mínimos quadrados em vez da média (chamada de
regressão robusta), mas são mais computacionalmente intensivos. Existem também métodos como
árvores de decisão que são robustos para outliers.
Você pode verificar alguns métodos que são robustos para outliers. Se houver benefícios significativos
de precisão do modelo, pode haver uma oportunidade de modelar e filtrar outliers de seus dados de
treinamento.
Recursos
Há muitas páginas que discutem a detecção de exceções, mas recomendo ler um bom livro sobre o
assunto, algo mais autoritário. Mesmo olhando através de livros introdutórios sobre aprendizado de
máquina e mineração de dados não será tão útil para você. Para um tratamento clássico de outliers por
estatísticos, confira:
As organizações hoje estão reunindo volumes cada vez maiores de informações de todos os tipos de
fontes, incluindo sites, aplicativos corporativos, mídias sociais, dispositivos móveis e, cada vez mais, a
Internet das coisas (IoT).
A grande questão é: como você pode derivar o valor comercial real dessas informações? É aí que a
mineração de dados pode contribuir de maneira significativa.
Por exemplo, se uma empresa determina que uma determinada campanha de marketing resultou em
vendas extremamente altas de um modelo específico de um produto em certas partes do país, mas não
em outras, ele pode reorientar a campanha no futuro para obter o máximo retorno.
Os benefícios da tecnologia podem variar dependendo do tipo de negócio e seus objetivos. Por exemplo,
os gerentes de vendas e marketing no varejo podem coletar informações de clientes de maneiras
diferentes para melhorar as taxas de conversão do que as da indústria de serviços financeiros ou de
companhias aéreas.
Independentemente do setor, a mineração de dados aplicada aos padrões de vendas e ao
comportamento do cliente no passado pode ser usada para criar modelos que prevejam vendas e
comportamento futuros.
Há também o potencial de mineração de dados para ajudar a eliminar atividades que podem prejudicar
as empresas. Por exemplo, você pode usar a mineração de dados para aprimorar a segurança do
produto ou detectar atividades fraudulentas em transações de serviços financeiros e de seguros.
Entre os principais fornecedores que oferecem aplicativos proprietários de mineração de dados estão
Angoss, Clarabridge, IBM, Microsoft, Open Text, Oracle, RapidMiner, SAS Institute e SAP.
As organizações que fornecem softwares e aplicativos de mineração de dados de código aberto incluem
a Carrot2, a Knime, a Massive Online Analysis, a ML-Flex, a Orange, a UIMA e a Weka.
Obter os dados certos e juntá-los para que possam ser extraídos não é o fim do desafio para a TI. Os
sistemas de nuvem, armazenamento e rede precisam ativar o alto desempenho das ferramentas de
mineração de dados. E as informações resultantes da mineração de dados precisam ser apresentadas
claramente à ampla gama de usuários esperados para agir e interpretá-la. Você precisará de pessoas
com habilidades em ciência de dados e áreas relacionadas.
Do ponto de vista da privacidade , a ideia de informações sobre mineração que se relaciona com o modo
como as pessoas se comportam, o que compram, os sites que visitam e assim por diante pode
desencadear preocupações sobre empresas que coletam muita informação. Isso afeta não apenas sua
implementação tecnológica, mas sua estratégia de negócios e perfil de risco.
Além da ética de rastrear indivíduos tão detalhadamente, há também requisitos legais sobre como os
dados podem ser coletados, identificados para uma pessoa e compartilhados. A Lei de Portabilidade e
Responsabilidade em Seguros de Saúde dos Estados Unidos (HIPAA) e a Diretiva Geral de Proteção de
Dados da União Europeia (GDPR) estão entre as mais conhecidas.
Na mineração de dados, o próprio ato inicial de preparação, como agregar e depois racionalizar os
dados, pode revelar informações ou padrões que possam comprometer a confidencialidade dos
dados. Assim, é possível inadvertidamente entrar em conflito com preocupações éticas ou requisitos
legais.
A mineração de dados também exige proteção de dados em todas as etapas, para garantir que os dados
não sejam roubados, alterados ou acessados secretamente. As ferramentas de segurança incluem
criptografia, controles de acesso e mecanismos de segurança de rede.
O objetivo de um modelo preditivo é estimar o valor de uma variável desconhecida. Uma série temporal
tem tempo (t) como uma variável independente (em qualquer unidade que você possa imaginar) e uma
variável dependente de destino. A saída do modelo é o valor previsto para y no tempo t.
Na maioria dos casos, uma previsão é um valor específico, por exemplo, o tipo de objeto em uma
imagem, o valor de uma casa, se um email é spam ou não, etc. No entanto, uma previsão é uma
previsão (representando a média ou média ) que inclui um intervalo de confiança que expressa o nível
de certeza. Normalmente, os níveis de confiança de 80% e 95% são fornecidos.
Sempre que os dados são registrados em intervalos regulares de tempo, eles são chamados de séries
temporais. Você pode pensar nesse tipo de variável de duas maneiras:
1.Os dados são univariados, mas possuem um índice (tempo) que cria uma ordem
implícita; ou
2. O conjunto de dados tem duas dimensões: o tempo (variável independente) e a
própria variável como variável dependente.
Se você tiver experiência trabalhando em aprendizado de máquina, precisará fazer
alguns ajustes ao trabalhar com séries temporais. Abaixo estão sete principais
diferenças a ter em mente ao fazer a transição.
Componentes da série temporal
Tendência: Existe uma tendência quando uma série aumenta, diminui ou permanece
em um nível constante em relação ao tempo. Portanto, o tempo é tomado como um
recurso.
Ciclos: os ciclos são temporadas que não ocorrem a uma taxa fixa. Por exemplo, nas
séries cronológicas abaixo, as armadilhas anuais da Canadian Lynx exibem padrões
sazonais e cíclicos. Estes não se repetem em intervalos de tempo regulares e podem
ocorrer mesmo se a frequência for 1 ( m = 1).
Preditores da série temporal
Variáveis dummy: Similar a como a sazonalidade pode ser adicionada como um
recurso binário, outros recursos podem ser adicionados em formato binário ao
modelo. Você pode adicionar feriados, eventos especiais, campanhas de marketing, se
um valor é outlier ou não, etc. No entanto, você deve lembrar que essas variáveis
precisam ter padrões definidos.
Número de dias: podem ser facilmente calculados mesmo para os próximos meses /
trimestres e podem afetar as previsões, especialmente para dados financeiros. Aqui
você pode incluir:
Número de dias
Número de dias de negociação
Número de dias de fim de semana
…e assim por diante
Valores com atraso: você pode incluir valores defasados da variável como
preditores. Alguns modelos como ARIMA, Autoregressão Vetorial (VAR) ou Redes
Neurais Autorregressivas (NNAR) funcionam dessa maneira.
Os componentes da série temporal são altamente importantes para analisar a variável de interesse, a
fim de entender seu comportamento, os padrões que ela possui e para poder escolher e ajustar um
modelo de série temporal apropriado. Preditores de séries temporais, por outro lado, podem ajudar
alguns modelos a reconhecer padrões adicionais e melhorar a qualidade das previsões. Os componentes
e recursos da série temporal são fundamentais para interpretar o comportamento da série temporal,
analisar suas propriedades, identificar possíveis causas e muito mais.
À primeira vista, você pode pensar que isso é uma desvantagem. Mas, na realidade, há alguns benefícios
em ter séries temporais de tamanho pequeno a médio:
Qualquer conjunto de dados que inclua um campo relacionado ao tempo pode se beneficiar da análise e
previsão de séries temporais. No entanto, se você tiver um conjunto de dados maior, um Banco de
Dados de Séries Temporais (TSDB) poderá ser mais apropriado. Alguns desses conjuntos de dados vêm
de eventos registrados com timestamp, logs de sistemas, dados financeiros, dados obtidos de sensores
( IoT ), etc. Como o TSDB trabalha nativamente com séries temporais, é uma ótima oportunidade para
aplicar a técnica de séries temporais em larga escala. conjuntos de dados
3. Uma abordagem algorítmica diferente é necessária.
Uma das propriedades mais importantes que um algoritmo precisa para ser considerado um algoritmo
de série temporal é a capacidade de extrapolar padrões fora do domínio de dados de
treinamento. Muitos algoritmos de aprendizado de máquina não possuem esse recurso, pois tendem a
estar restritos a um domínio definido por dados de treinamento. Portanto, eles não são adequados para
séries temporais, pois o objetivo das séries temporais é projetar no futuro.
Você pode pensar que apenas modelos estatísticos simples são usados para previsão de séries
temporais. Isso não é totalmente verdadeiro. Existem muitos modelos ou abordagens complexas que
podem ser muito úteis em alguns casos. Heteroskedasticity condicional autorregressiva generalizada
(GARCH), modelos baseados em Bayesian e VAR são apenas alguns. Há também modelos de rede
neural que podem ser aplicados a séries temporais que usam preditores defasados e podem manipular
recursos, como a regressão automática de redes neurais (NNAR) . Existem ainda modelos de séries
temporais emprestados de deep learning , especificamente na família RNN (Rede Neural Recorrente),
como redes LSTM (Long Short-Term Memory) e GRU (Gated Recurrent Unit).
No entanto, todos esses modelos carecem de interpretabilidade , o que é crucial para os líderes de
negócios que desejam tomar decisões baseadas em dados. A propriedade desejada do modelo deve
estar alinhada com os objetivos de negócios para que o projeto seja bem-sucedido.
Estes são alguns dos algoritmos comuns usados para previsão de séries temporais:
1. Regressão Linear
2. Suavização Exponencial
3. ARIMA
4. Modelos lineares dinamicos
5. Modelos de redes neurais
4. As métricas de avaliação e os diagnósticos residuais são usados.
As métricas de avaliação mais comuns para previsão são o RMSE, que você pode ter usado em
problemas de regressão; MAPE, como é independente de escala e representa a proporção de erro para
valores reais como um percentual; e MASE, que indica o desempenho da previsão em comparação com
uma previsão média ingênua.
Depois que um modelo de previsão é adequado, é importante avaliar o quão bem ele é capaz de
capturar padrões. Embora as métricas de avaliação ajudem a determinar a proximidade dos valores
ajustados aos reais, eles não avaliam se o modelo se ajusta adequadamente à série temporal. Em vez
disso, os resíduos são uma boa maneira de avaliar isso. Como você está tentando capturar os padrões
de uma série temporal, você esperaria que os erros se comportassem como ruído branco, pois eles
representam o que não pode ser capturado pelo modelo. O ruído branco deve ter as seguintes
propriedades:
constante
Se uma das duas propriedades não estiver presente, isso significa que há espaço para melhorias no
modelo.
A propriedade de média zero pode ser facilmente verificada com um teste-T para a média. As
propriedades de normalidade e variância constante podem ser verificadas visualmente com um
histograma dos resíduos ou com um teste de normalidade univariada apropriado. E a primeira
propriedade pode ser verificada de duas maneiras:
1. Aplique um teste portmanteau para verificar a hipótese de que os resíduos não são
correlacionados.
2. Plote a função de Autocorrelação (ACF) e avalie que pelo menos 95% dos picos estão
Use os totais anuais e ajuste um modelo para prever o número necessário de anos.
No caso de você ter os valores disponíveis no nível trimestral ou mensal, crie um
modelo de série temporal para prever os meses ou trimestres necessários e agregue
para encontrar o total por ano.
Apontar para o nível mais granular possível. Ao usar agregados, o modelo está aprendendo padrões em
um nível macro. Isso não é uma má escolha, mas pode haver alguns padrões no nível granular aos quais
o modelo não está prestando atenção. Como no nosso exemplo, usar dados mensais ou trimestrais pode
render melhores resultados do que uma previsão anual.
Há outro benefício de fazer isso também. Você pode pensar que, após adicionar as previsões, o erro
pode se propagar para o total. No entanto, é o caso oposto. Se o modelo que você construiu é imparcial,
a média dos residuais será zero ou próxima de zero e, portanto, a soma dos residuais será próxima de
zero:
Lembre-se também de que trabalhar em um nível que é muito granular pode apresentar dados ruidosos
que são difíceis de modelar. No nosso exemplo, onde previmos em um nível anual, usar o nível
trimestral, mensal ou até semanal pode ser apropriado. Mas um nível diário, horário ou inferior pode
ser muito granular e barulhento para o problema. Portanto, tente trabalhar em um nível apropriado de
resolução.
No entanto, se os padrões mudam, gradual ou abruptamente, as previsões podem divergir muito dos
resultados reais. Há uma chance de que eventos de “cisne negro” ou “cisne cinza” possam ocorrer. De
acordo com a Investopedia:
Quer aprender sobre series temporais? Conheça nossos cursos e tenha a formação completa no
assunto!
Referências
Dunning, T., & Friedman, E. (2015). Bancos de Dados de Séries Temporais (1ª ed.). Califórnia: O’Reilly
Media. Obtido em http://shop.oreilly.com/product/0636920035435.do
Hyndman, R. e Athanasopoulos, G. (2017). Previsão: Princípios e Prática (2ª ed.). Obtido
de https://www.otexts.org/fpp2/
Hyndman, R., & Khandakar, Y. (2008). Previsão automática de séries temporais: o pacote de previsão
para {R}. Journal of Statistical Software, 26 (3), 1-22. Obtido
de http://www.jstatsoft.org/article/view/v027i03