Escolar Documentos
Profissional Documentos
Cultura Documentos
Relatório Final
PIBIC, PIBIC-AF, PIBITI e PIBIC-MS
<Observação: Favor não alterar o layout desta página de rosto. Apenas preencha os dados nos campos
solicitados. A partir da segunda página estão os demais itens do modelo a serem preenchidos.>
EDITAL / PROGRAMA
[Digitar o nome e número do edital – Programa (ver Edital)]
EDITAL PROPCI/UFBA 01/2019 – PIBIC
ESTUDANTE IC
(Digitar nome completo, sem abreviações).
ORIENTADOR (A)
(Digitar nome completo, sem abreviações).
Salvador,Bahia
Agosto /2020
INTRODUÇÃO
O conhecimento sobre os níveis de irradiação em uma superfície é importante no planejamento de uma
instalação fotovoltaica. Inúmeras técnicas são utilizadas para tal avaliação, sendo as mais tradicionais os
modelos empíricos, que utilizam outros parâmetros climáticos como duração da luz solar, nebulosidade e
temperatura para estimar a média global mensal da radiação em dado local. Ao utilizar um instrumento de
medição da irradiação, o piranômetro, pode-se formar um banco de dados histórico da irradiação do local e
utilizá-los para caracterizar o fenômeno e até estimar valores futuros.
Este trabalho tem como objetivo utilizar dados provenientes de uma estação solarimétrica localizada na cidade
de irecê equivalentes a um ano de medições e realizar o monitoramento da irradiação solar. A primeira etapa é
realizar uma análise exploratória descritiva e testes de aderência à distribuição normal, a fim de obter uma
descrição estatística do fenômeno.
Em sequência, são desenvolvidas duas modelagens por séries temporais, a ARIMA (AutoRegressive Integrated
Moving Average) e um modelo com a ferramenta Prophet by Facebook. Será feita a previsão com base em cada
modelo, utilizando um horizonte de 5 dias, cuja acurácia será estimada através dos erros de previsão ME (Mean
Error), MAE (Mean Absolute Error) e RMSE (Root Mean Square Error).
O método comumente usado para avaliar o desempenho de um modelo é a análise de resíduos, em se examina
manualmente os gráficos de autocorrelação e histogramas para verificar se o modelo capturou toda a
informação da série. O trabalho propõe o uso da teoria de Controle Estatístico de Processos (CEP), mais
especificamente, da carta de controle de Shewhart e os padrões de descontrole para realizar este
monitoramento de forma automatizada. Tal proposta se baseia no conhecimento de que uma boa modelagem
gera resíduos com distribuição normal e a carta de controle escolhida é utilizada para monitorar a estabilidade
de um processo gaussiano, indicando pontos fora dos limites de controle e sequências não-aleatórias. Ao
utilizar os resíduos como variável de entrada numa carta de controle, os marcadores de descontrole sugerem
uma modelagem de baixo desempenho
MATERIAIS E MÉTODOS
O desenvolvimento do trabalho se deu através de uma revisão bibliográfica dos tópicos teóricos essenciais para
o projeto e a implementação de modelos de previsão por séries temporais e cartas de controle utilizando o
software livre R e os pacotes tidyverse, stats, nortest, forecast e prophet d
o mesmo.
Os dados utilizados para a modelagem são de irradiação solar provenientes de uma estação solarimétrica,
obtidos através de um equipamento chamado de Piranômetro. O banco de dados corresponde a integração
da irradiância em intervalos de 10 min (dez minutos) durante um ano. Foi efetuada a média a cada seis
medidas de irradiação solar, obtendo-as em intervalos de 1h (uma hora) para que fosse possível fazer uma
análise horária. Assim, obteve-se um banco de dados de 24 colunas, referentes às horas, e 365 linhas,
referentes aos dias.
RESULTADOS
Inicialmente foi realizada a análise exploratória dos dados. Buscou-se avaliar medidas de tendência central e
variabilidade, assim como testar a hipótese da distribuição normal no dados. Primeiramente, foi feito um
gráfico de boxplot anual e sazonal, o que permite visualizar intuitivamente as medidas citadas previamente.
Os boxplots, e m sua maioria, apresentam a linha da mediana deslocada do centro geométrico da caixa, e a
mesma deslocada do centro dos limites mínimos e máximos. Tais assimetrias são indícios de que os dados não
estão distribuıdos de maneira uniforme em torno da média por hora.
Em seguida foram calculadas estatísticas descritivas, sumarizadas na primeira seção da tabela 1. Pode-se
perceber que existe uma grande variação de amplitude nos horários centrais e de maior irradiação, sendo o
horário das 11h o que contém o pico de irradiação, assim como a maior média e mediana. É possível observar
de forma quantitativa o deslocamento da mediana em relação à média. A diferença entre valores de ambas
medidas de tendência central deve-se ao fato que a média é influencia por extremos, enquanto a mediana
representa valores centrais.
Para confirmar a hipótese de não normalidade dos dados anuais organizados por hora, foram feitos dois testes
paramétricos de aderência à distribuição citada: Shapiro-Wilk e Anderson-Darling. Os testes presumem a
normalidade dos dados como a hipótese H0, e um p-valor > 0,05 caso os resultados confirmem a distribuição
normal da amostra. As estatísticas dos testes e os p-valores foram agrupados na segunda seção da tabela 1.
Com exceção dos dados referentes às 16h, todos os horários rejeitaram a hipótese de distribuição normal. Não
se sabe o porquê da normalidade dos dados das 16 horas.
Apesar da não aderência à normalidade provada pelos testes dos dados anuais, o comportamento da
distribuição da irradiação comporta-se de maneira diferente nos gráficos boxplots de cada estação , conforme
observado na figura 1. Percebe-se que no outono há uma maior simetria geométrica, enquanto na primavera
uma maior assimetria. A diferença na distribuição entre estações mostrada no boxplot fica mais evidente nos
histogramas abaixo da figura 2, referente ao horário das 13h no Outono e na Primavera.
Nota-se que o histograma do outono tem o formato aproximado de uma distribuição normal, o que é
confirmado através do teste de Shapiro Wilk. (SW. Test= 0.985 ep.value= 0.395502). Não foi investigado o tipo
de distribuição dos horários cujos testes rejeitaram a hipótese da normalidade.
Após a conclusão da análise estatística, foram separados os últimos 5 dias do banco de dados como amostras
de teste e então prosseguiu-se para a modelagem e previsão.
1) Auto-Arima
O pacote Forecast by Rob Hyndman possui uma função chamada auto.arima que retorna o melhor modelo
ARIMA de acordo com os critérios de Akaike (AIC) e Bayesiano (BIC). Um modelo ARIMA foi gerado para cada
uma das 24 séries temporais correspondentes às horas do dia. Usando a função checkresiduals, do mesmo
pacote, foi feita a verificação dos resíduos de cada modelagem. A função retorna o gráfico temporal dos
resíduos, a função de autocorrelação (ACF) e gráfico histograma. Segue abaixo o retorno da função para o
horário das 14 horas.
Figura 3. Retorno da função checkresiduals, com um gráfico temporal, o gráfico de autocorrelação e um
histograma.
Pode-se notar uma alta autocorrelação no gráfico ACF no lag 2. Isso indica que o ajuste não é o ideal e que há
informação não captada do fenômeno nos resíduos. Esse avaliação de lags no gráfico no ACF foi feita
manualmente para todos os horários e foi feito um ajuste manual para as séries com alta autocorrelação até
lag-10, em que a ordem do lag corresponde à ordem do ajuste Auto-regressivo (AR). Houve uma significativa
melhora nos resíduos da modelagem,conforme observado na figura 4 abaixo, novamente para as 14 horas.
Entretanto, a previsão gerada pelo modelo manual foi parecida com a gerada pelo modelo automático.
Figura 4. Retorno do checkresiduals para o ajuste manual do horário das 14h.
Uma vez que não houve diferença significativa na previsão utilizando a modelagem manual, as previsões foram
feitas utilizando apenas os modelos automáticos fornecidos pelo auto.arima.
Foi realizada a previsão de cada série com horizonte de 5 passos a frente (equivalente a 5 dias), novamente
utilizando uma função do pacote forecast c ujo nome é o mesmo que o do pacote. A função retorna 5
previsões: Uma série temporal de mínimos e uma de máximos utilizando um intervalo de confiança de 80%,
uma série de mínimos e uma de máximos com intervalo de 90% e uma série com as médias.As previsões por
hora foram recombinadas de volta para uma única série temporal, equivalente a 5 dias, para então avaliarmos
a sua eficácia.
Para evitar a poluição visual, as previsões foram dividas em dois gráficos, um para cada intervalo de confiança,
sendo que a previsão média e os dados observados estão presentes em ambos.
Figura 5. Gráfico com as previsões mínimas, médias e máximas com 80% de significância e os valores reais para
comparação.
Figura 6. Gráfico com as previsões mínimas, médias e máximas com 95% de significância e os valores reais para
comparação.
Pode-se notar que as previsões conseguem capturar o formato da curva original, porém diferem em amplitude
dos dados originais, sendo a previsão mínima de 80% a que tem o melhor desempenho.
Além dos gráficos, o desempenho de uma previsão podem ser medidos com os erros ME, RMSE e MAE , sendo
menor o erro, melhor o modelo.
Os resultados das métricas foram agrupados na tabela 2 abaixo, o que reforça a percepção inicial que a
previsão mínima com significância de 80% obtém o melhor desempenho.
Tabela 2. Tabela com os erros de cada previsão fornecida pelo modelo ARIMA
2) Prophet
Prophet é uma ferramenta de previsão de séries temporais desenvolvida pelo Facebook em 2017 e está
disponível na forma de pacote no R. A função prophet testa o melhor modelo de séries temporais para o banco
de dados em questão. O procedimento pode ser utilizado de forma automática ou alguns argumentos podem
ser inseridos, como sazonalidade diária, semanal e anual, assim como o tipo de sazonalidade, que pode ser
aditiva ou multiplicativa.
Foram feitos 3 modelos, um com todos argumentos no automático , um com sazonalidade multiplicativa e um
com sazonalidade anual multiplicativa. Com os modelos prontos, pôde-se verificar que todos modelos
ajustados foram do tipo PAR (Periodic Auto-Regressive) . Entretanto, a falta de familiaridade com o pacote
dificulta a identificação de detalhes do modelo, o que impossibilitou a análise dos resíduos .
Então, com a função predict do próprio pacote, foi feita a previsão para cada modelo gerado. A previsão
retorna 3 séries de previsão: mínima, média e máxima. O nível de significância não é especificado.
Foram feitos gráficos semelhantes aos do modelo ARIMA, com as 3 previsões e os valores originais para a
avaliação de desempenho a previsão.
Figura 7. Gráfico com as previsões geradas sem nenhuma adição de argumentos, com o tipo de sazonalidade
default aditiva.
Figura 8. Gráfico com o tipo de sazonalidade definida pelo usuário, sendo esta multiplicativa.
As métricas de desempenho para cada previsão do prophet estão nas tabelas abaixo. Pode-se notar que a
modelagem com sazonalidade multiplicativa obtém uma diferença ínfima com a modelagem automática (que
supõe sazonalidade aditiva). Ao adicionar a sazonalidade anual no modelo multiplicativo, o desempenho da
previsão se mostrou pior, conforme a tabela 5.
Tabela 4.
Tabela 5.
3) Cartas de Controle
As cartas de controle de Shewhart fazem parte do escopo da área de Controle estatístico de processo, muito
usadas em ambientes industriais para monitorar a qualidade de processos de manufatura. O objetivo neste
trabalho é utilizar as cartas de controle como monitoramento do desempenho das modelagens de previsão e
avaliá-las segundo os padrões de descontrole de Montgomery (2004).
Para tal, foi utilizado o pacote qcc para o R, o qual produz o gráfico de Shewhart assumindo a distribuição
normal. O pacote indica nos gráficos os pontos fora dos limites de controle (em vermelho) e os padrões de
descontrole de Montgomery (em amarelo).O monitoramento será feito em cima dos resíduos, uma vez que
estes apresentam distribuição normal em modelagens que capturaram adequadamente a informação dos
dados.
Foram escolhidos os horários de 11 horas, o horário com maior irradiação média, e 16 horas, o horário que
apresentou distribuição normal nos testes paramétricos citados anteriormente, para avaliar os resíduos da
modelagem ARIMA, visto que a falta de familiaridade com o prophet d ificultou a obtenção dos resíduos do
modelo.
Figura 10. Carta de controle referente à modelagem ARIMA dos dados anuais das 11h.
Figura 11. Carta de controle referente à modelagem ARIMA dos dados anuais das 16h.
Todos os gráficos apresentam pontos fora dos limites e padrões de descontrole, o que indica que os resíduos
que não seguem uma distribuição aleatória (normal) e que ainda há informações relevantes não capturadas
pelo modelo, ambos sintomas de uma modelagem com baixo desempenho.
DISCUSSÃO
O conhecimento das características, comportamento e valores futuros da irradiação solar são fundamentais no
estudo da implementação de uma usina fotovoltaica. Ao abordar a irradiação de forma horária, a variabilidade
inerente do fenômeno é contornada e a diferença de amplitude passa apenas a ser causadas pelas estações do
ano e por fenômenos climáticos. O gráfico de boxplot anual e sazonal permite visualizar o comportamento
distinto da irradiação em cada período, sendo o primeiro indicativo de uma possível não-normalidade dos
dados se forem observados anualmente e como as estações do ano alteram a distribuição dos mesmo.
Observa-se pelas estatísticas de tendência central, testes de normalidade, gráficos de boxplot e histograma
que a irradiação solar anual de fato não segue a distribuição normal na maioria das horas. Não foi investigado o
tipo de distribuição dos dados anuais, sendo este tema para trabalhos futuros. Os modelos de séries temporais
propostos neste trabalho retornam previsões com valores mínimos, médios e máximos para cada significância.
Em todas as previsões, os valores mínimos foram os que melhor se aproximaram aos valores medidos, com o
modelo prophet de sazonalidade multiplicativa o que obteve uma ligeira superioridade na acurácia, apesar de
erros de previsão ainda altos. A carta de controle mostrou-se adequada em monitorar o desempenho do
modelo ARIMA, ao identificar padrões de descontrole nos resíduos com uma otimização em comparação com a
análise manual tradicional.
MONTGOMERY, Douglas C., RUNGER,George C., HUNBELE,, Norma F. Estatística aplicada à engenharia. LTC,
2004.
BESHARAT, F., DEHGHAN, A.A., and FAGHIH, A.R. Empirical models for estimating global solar radiation:A
review and case study.Renewable and SustainableEnergy Reviews, 21, 798–821, 2013.
PASHIARDIS, S., KALOGIROU, S.A., and PELENGARIS, A. Statistical analysis for the characterization of solar
energy utilization and inter-comparison of solar radia-tion at two sites in cyprus.Applied energy, 190,
1138–1158, 2017.
TIBA, C., FRAIDENRAICH, N., LYRA, F., and NOGUEIRA, A. Atlas solarimétrico do brasil: banco de dados
terrestres.Recife: Editora Universitária da UFPE, 32, 2000.
BALBINOT, E.J., SCOTTON, J.W., CEREZER, S.M., and MARTI-NAZZO, C.A. Modelos de series temporais aplicados
a previsão de radiação solar, 2017.
SCRUCCA, Luca.. Qcc: An R package for quality control charting and statistical process control. R News. 4, 2003.
MORETTIN, Pedro Alberto, and WILTON OLIVEIRA BUSSAB. Estatística básica. Saraiva Educação SA, 2017.
BROCKWELL, Peter J., RICHARD A. Davis. Introduction to time series and forecasting. Springer, 2016.