Você está na página 1de 4

Análise do uso de regressão linear simples para geração de um modelo

capaz de imputar valores para correção de dados pluviométricos


mensais
Araújo, Diego Teixeira de1; Oliveira, Vládia Pinto Vidal
de2; Oliveira Neto, Tasso Ivo de3; Araújo, Patrícia
Andrade de4; Medeiros, Pedro Paulo5; Bastos, Frederico
de Holanda6
1
Universidade Estadual do Ceará, Centro de Ciências e Tecnologia,
email: diegogeoufc@gmail.com;
2
Universidade Federal do Ceará, Centro de Ciências,
email: vladia.ufc@gmail.com;
3
Universidade Federal do Ceará, Centro de Ciências, email:
tassoivo@hotmail.com
4
Universidade Estadual do Ceará, Centro de Ciências e tecnologia,
email: araujogeografia@gmail.com
5
Universidade Federal do Ceará, Centro de Ciências, email:
pedropmed1@gmail.com
6
Universidade Estadual do Ceará, Centro de Ciências e tecnologia,
email: fred.holanda@uece.br

RESUMO. Em função do grande número de falhas nos postos pluviométricos, os métodos


de correção de falhas possuem uma singular importância para os trabalhos voltados à análise
climática. Em função da carência de trabalhos voltados à avaliação dos métodos de correção
de falha pluviométrica de falhas de postos situados no semiárido brasileiro, partindo do
intuito de preencher parcialmente essa lacuna, o presente trabalho tem como objetivo
verificar a adequação do método da regressão linear simples para preenchimento de médias
mensais em postos situados em clima semiárido. Além da realização da regressão, foram
utilizados como parâmetros para avaliar a efetividade do modelo o diagrama de dispersão, o
coeficiente de correlação (r), o coeficiente de determinação (r²) e a anova da regressão. A
análise dos parâmetros escolhidos aponta para efetividade do modelo em regiões semiáridas

1. INTRODUÇÃO
Um dos maiores desafios para trabalhar com clima do Brasil é que apesar de haver
diversos postos pluviométricos espalhados pelos estados, a maioria deles apresenta um grande
número de falhas, chegando a comprometer totalmente ou parcialmente os registros coletados.
Nos postos em que há menor número de falhas existe a possibilidade de imputação de valores
através de métodos estatísticos apropriados.
Na bibliografia brasileira existem vários trabalhos destinados à avaliação dos métodos
de correção de falha pluviométrica como Soares e Silva (2017) e Meireles et al. (2016), mas
existe uma lacuna de análises de métodos de correção de falhas de postos pluviométricos
situados no semiárido brasileiro, a qual deve ser preenchida em função do caráter atípico desse
clima. Partindo do intuito de preencher parcialmente essa lacuna, o presente trabalho tem como
objetivo verificar a adequação do método da regressão linear simples para preenchimento de
médias mensais em postos situados em clima semiárido. Esta técnica foi selecionada para a
análise por ser de uma execução razoavelmente fácil, e com maior viabilidade prática, por
necessitar apenas de um posto (que não possua as mesmas falhas) para realização do cálculo.
Parte-se da hipótese de que uma regressão feita com postos a uma distância pequena e
inseridos em um mesmo ambiente é capaz de gerar um eficiente modelo, capaz de imputar os
valores faltosos. Para a realização da análise foram utilizados dois postos pluviométricos
situados no município de Crateús-CE.
2. METODOLOGIA
Para a realização desta pesquisa foram utilizados os postos pluviométricos: Aeroporto e
Crateús, disponibilizados pela fundação Cearense de Meteorologia (FUNCEME), estando
ambos situados na região semiárida do estado do Ceará, especificamente no município de
Crateús, possuindo uma distância de 4,95 quilômetros entre os dois. Foram utilizadas as médias
mensais com o recorte temporal de 25 anos e sete meses (janeiro de 1993 a julho de 2019).
Basicamente, a correção é feita estimando um modelo que explique a relação entre dois
postos através de regressão. De acordo com Ribeiro júnior (2008), O estudo de regressão
consiste em verificar a existência de uma relação funcional entre duas variáveis por meio de
um modelo linear com base nas observações. Sendo “x” a variável independente, “y” a variável
dependente ou explicada, “a” a constante de regressão (intercepto da equação de regressão com
o eixo y) e “b” o coeficiente de regressão (variação de y em função da variável x), o modelo
estatístico será expresso por:

Y=a+b*X

O posto com falha é considerado a variável dependente e o posto sem falha é


considerado a variável independente, de modo que os valores faltosos podem ser imputados
através do modelo descrito acima.
Para avaliar a efetividade do modelo, serão analisados o diagrama de dispersão, o
coeficiente de correlação (r), o coeficiente de determinação (r²) e a anova da regressão. O
coeficiente de correlação, como o próprio nome sugere, mede a correlação entre as duas
variáveis. De acordo com Triola (2008), se o valor estiver muito próximo de zero, conclui-se
que não há correlação linear entre x e y, quanto mais próximo estivermos de -1 ou 1,
concluímos que há uma correlação significativa.
De acordo com Martins (2008), o coeficiente de determinação (r²) expressa a proporção
da variação total que é explicada à reta de regressão da variável independente sobre a variável
dependente. A anova da regressão é o teste mais importante para uma efetiva avaliação do
modelo gerado pela regressão, uma vez que este é o teste de hipóteses que determina a validade
do modelo gerado.
Foi utilizado o software SPSS versão 20 para gerar o cálculo de regressão linear
simples, o coeficiente de correlação, o coeficiente de determinação, e a anova da regressão; e
foi utilizado o software Excel 2016 para a geração do diagrama de dispersão.

3. RESULTADOS E DISCUSSÃO
O coeficiente de correlação foi de 0,95 o que aponta uma correlação positiva muito
forte entre as duas variáveis. O coeficiente de determinação (r²) foi de 0,90 o que implica dizer
que a variável independente (posto usado para estivar os valores) possui o poder de explicar
90% do comportamento da variável dependente (posto que possui falhas a serem corrigidas).
Deste modo houve uma baixa variabilidade entre os valores estimados e os valores reais.
Figura 1: Diagrama de dispersão

Plotagem de ajuste de linha


total aeroporto Previsto(a) total aeroporto

800
700
posto aeroporto

600
500
400
300
200
100
0
0 100 200 300 400 500 600 700 800

posto crateus

fonte: Elaboração dos autores

A análise do diagrama de dispersão reforça o que foi verificado no coeficiente de


correlação. Os pontos azuis do gráfico apresentam uma distribuição concentrada, que se
aproxima de uma reta, o que indica uma correlação bastante forte, e é inclinada para cima, o
que indica uma correlação positiva.
Pode observar também os pontos vermelhos (reta gerada pela regressão) se apresentam
bastante próximos aos valores reais encontrados nos postos, o que indica um bom ajuste do
modelo gerado. O resultado da anova da regressão apresentou um sig de 0,00 de modo a se
rejeitar a hipótese nula do teste. O modelo pode então ser considerado estatisticamente válido a
um nível de significância de 5%.
Apesar de ter ocorrido um bom ajuste do modelo, uma análise prática da comparação
dos valores reais com os valores gerados através de regressão, aponta uma tendência de erro
para cima nos meses da estação seca. Enquanto na estação chuvosa os erros se alternam para
menos ou para mais, na estação seca os valores estimados tendem quase sempre para mais em
função da grande repetição de valores 0 na variável preditiva, fazendo com que o modelo
preencha sempre esses valores para cima repetindo a constante da regressão (6,89).

4. CONSIDERAÇÕES FINAIS
O presente trabalho demonstra que a regressão linear simples se mostra como um
método que pode ser perfeitamente utilizado para geração de modelos para imputação de
valores faltosos em postos pluviométricos sitiados em regiões semiáridas trazendo excelentes
resultados. No entanto, considera-se que a pouca distância entre os dois postos pode ter
influenciado para que houvesse um bom ajuste do modelo, caso estivesse próximo da distância
máxima indicada (200 km) os resultados poderiam ser diferenciados.
Apesar da adequação do modelo, o estudo aponta para uma maior fragilidade no
modelo para correção de dados do período seco. Sugere-se para trabalhos futuros uma análise
comparativa entre uma correção por regressão feita no modelo convencional e uma correção
usando duas regressões diferentes, sendo uma para a estação chuvosa e uma para a estação
seca.

5. REFERÊNCIAS

MARTINS, Gilberto de Andrade. Estatística Geral e Aplicada. 3ª ed. São Paulo, Editora
Atlas, 2008.
DEVORE, Jay L. Probabilidade e Estatística para Engenharia e Ciências. 6. ed. SãoPaulo,
EditoraCengage Learning, 2011.
RIBEIRO JÚNIOR, José Ivo. Análises Estatísticas no Excel: guia prático. Viçosa: UFV,
2004, 251p.
SOARES, Nathália Karoline de Carvalho. SILVA, Charlei Aparecido da. Comparação de
metodologias para preenchimento de falhas em banco de dados pluviométricos: média
aritmética x ponderação regional com base em regressão linear. XVII Simpósio Brasileiro de
Geografia Física Aplicada – I Congresso Nacional de Geografia Física. Campinas – São
Paulo, 2017.
TRIOLA, Mario F. Introdução a Estatística. Tradução: Vera Regina Lima de Farias e Flores,
revisão técnica Ana Maria Lima de Farias. 10ª ed. Rio de Janeiro: LTC, 2008.
VENTURA, Thiago Meirelles. SANTANA, Luy Lucas Ribeiro. MARTINS, Claudia
Aparecida. FIGUEIREDO, JosielMaimone de. Análise da aplicabilidade de métodos estatísticos para
preenchimento de falhas em dados meteorológicos. Revista Brasileira de Climatologia. Ano 12 – Vol.
19 – JUL/DEZ 2016.

Você também pode gostar