Você está na página 1de 29

MAT02263 - Anlise De Sries Temporais A - Turma U (2013/1)

Total de dispensa de empregados, sob o regime da Consolidao das Leis do Trabalho - CLT

Professor: Marcio Valk Alunos: Douglas Roberto Mesquita Azevedo e Tiago Henrique Lenhard

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

INTRODUO

O presente trabalho tem por objetivo realizar modelagem e previso para um conjunto de dados observados ao longo de 14 anos. Dividiremos o trabalho em duas etapas: Etapa 1: Realizar a modelagem da srie de dados (Modelo I) e tambm do

logaritmo desta srie (Modelo II) para fins de comparao entre os resultados obtidos. Etapa 2: Utilizar a metodologia de previso adequada para o conjunto de

dados e comparar os resultados obtidos com os resultados reais. Todas as anlises foram feitas atravs do software R Verso 2.12.2.

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

Dados Os dados aqui trabalhados referem-se ao total de dispensa de empregados, sob o regime da Consolidao das Leis do Trabalho - CLT. Nesta srie os dados so observados mensalmente desde maio de 1999 e a ltima atualizao foi em 23 de maio de 2013, o que totaliza 168 observaes da varivel que chamaremos de Demisses. Destas 168 observaes retiramos as 14 observaes finais para que aps a modelagem da srie faamos previses e possamos comparar os resultados estimados com os resultados observados.

1. Modelagem

a. Observando os dados originais Primeiramente observaremos os dados originais da srie para que possamos fazer uma anlise visual dos dados que estamos trabalhando. Grfico das demisses no Brasil ao longo do tempo:
Srie histrica de demisses no Brasil (Modelo I)

Nmero de demisses no Brasil

600000
0

800000

1000000

1200000 1400000 1600000

50 Ms

100

150

Figura 1 Srie histrica de demisses no Brasil (Modelo I).

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

Podemos observar atravs do grfico que existe uma tendncia de crescimento no nmero de demisses ao longo do tempo, alm disso, aparentemente no temos volatilidade nesta srie. Grfico do logaritmo natural das demisses no Brasil ao longo do tempo:

Srie histrica do logaritmo natural das demisses no Brasil (Modelo II)

Logaritmo natural do nmero de demisses no Brasil

13.4
0

13.6

13.8

14.0

14.2

50 Ms

100

150

Figura 2 Srie histrica do logaritmo de demisses no Brasil (Modelo II).

Podemos observar atravs do grfico que existe uma tendncia de crescimento no logaritmo natural do nmero de demisses ao longo do tempo. Alm disso, aparentemente no temos volatilidade nesta srie.

b. Tendncia e estacionariedade Para ambos os conjuntos de dados foi aplicado o teste aumentado de Dickey-Fuller com a finalidade de encontrar evidncias de no estacionariedade nos dados.

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

Nos dados originais, adotando um nvel de significncia de 5%, no h evidncias estatsticas significativas (p-valor = 0.5134), de que os dados sejam estacionrios, ou seja, no rejeitamos a hiptese de que os dados sejam no estacionrios. No logaritmo dos dados tambm no encontramos evidncias estatsticas significativas (p-valor = 0.3659) de que os dados sejam estacionrios. Com base nestas duas informaes (no estacionariedade e tendncia), aplicamos em ambas as sries uma diferena simples, a fim de eliminar tendncia e torna-las estacionrias. Abaixo podemos ver o grfico das duas sries diferenciadas.

Grfico do das demisses no Brasil ao longo do tempo com uma diferena Simples.

Modelo I (Aps uma diferena)

Nmero de demisses no Brasil (Aps uma diferena)

-3e+05
0

-2e+05

-1e+05

0e+00

1e+05

2e+05

3e+05

50 Ms

100

150

Figura 3 Modelo I aps uma diferena simples.

Aparentemente uma primeira diferena j tornou a srie estacionria e sem nenhuma tendncia. De qualquer forma foi novamente aplicado o teste da raiz unitria de Dickey-Fuller

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

onde foi constatado que a 5% de significncia h evidncias estatsticas significativas (p-valor < 0.01) de que a srie no possui mais razes unitrias. Grfico do logaritmo das demisses no Brasil ao longo do tempo com uma diferena Simples.

Modelo II (Aps uma diferena)

Logaritmo do nmero de demisses no Brasil (Aps uma diferena)

-0.3
0

-0.2

-0.1

0.0

0.1

0.2

0.3

50 Ms

100

150

Figura 4 Modelo II aps uma diferena simples.

Aparentemente uma primeira diferena j tornou a srie estacionria e sem nenhuma tendncia. De qualquer forma foi novamente aplicado o teste da raiz unitria de Dickey-Fuller onde foi constatado que a 5% de significncia h evidncias estatsticas significativas (p-valor < 0.01) de que a srie no possui mais razes unitrias.

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

c. Sazonalidade Com o objetivo de verificar se existe sazonalidade nos dados foi gerado o grfico das autocorrelaes de ambas as sries.

Grfico das autocorrelaes das demisses no Brasil ao longo do tempo com uma diferena Simples.

Grfico das autocorrelaes do Modelo I

Autocorrelaes

-1.0
0

-0.5

0.0

0.5

1.0

20

40 Lag

60

80

100

Figura 5 Grfico das autocorrelaes do Modelo I.

possvel observar que as autocorrelaes nos lags mltiplos de 12 so os que possuem maiores valores, o que nos mostra um indcio de sazonalidade de perodo 12. Alm disso, vemos que a maioria das autocorrelaes esto fora da linha pontilhada, ou seja, a maioria das autocorrelaes so significativamente diferentes de zero.

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

Grfico das autocorrelaes do logaritmo das demisses no Brasil ao longo do tempo com uma diferena Simples.

Grfico das autocorrelaes do Modelo II

Autocorrelaes

-1.0
0

-0.5

0.0

0.5

1.0

20

40 Lag

60

80

100

Figura 6 Grfico das autocorrelaes do Modelo II.

Tambm observamos que as autocorrelaes nos lags mltiplos de 12 so os que possuem maiores valores, o que nos mostra um indcio de sazonalidade de perodo 12. Alm disso, tambm vemos que a maioria das autocorrelaes esto fora da linha pontilhada, ou seja, a maioria das autocorrelaes so significativamente diferentes de zero.

Como em ambas as sries observamos autocorrelaes altas nos perodos mltiplos de 12, foi ento realizada uma diferena de lag 12 para ambas as sries com o proposito de extrair esta sazonalidade.

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

Grfico das demisses com uma diferena Simples e uma Sazonal.

Nmero de demisses (Aps uma diferena simples e uma diferena sazonal de periodo 12)

Modelo I (Aps uma diferena simples e uma diferena sazonal)

-150000
0

-50000

50000

100000 150000

20

40

60 Ms

80

100

120

140

Figura 7 Modelo I aps uma diferena simples e uma diferena sazonal.

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

Grfico do logaritmo das demisses com uma diferena Simples e uma Sazonal.

Logaritmo do nmero de demisses (Aps uma diferena simples e uma diferena sazonal de periodo 12)

Modelo II (Aps uma diferena simples e uma diferena sazonal)

-0.2
0

-0.1

0.0

0.1

0.2

20

40

60 Ms

80

100

120

140

Figura 8 Modelo II aps uma diferena simples e uma diferena sazonal.

Aps tomarmos a diferena de lag 12 nas sries, fizemos novamente os grficos da autocorrelao e tambm da autocorrelao parcial.

10

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

Grfico das autocorrelaes e das autocorrelaes parciais das demisses no Brasil ao longo do tempo com uma diferena Simples e uma diferena Sazonal.

Figura 8 Grfico das autocorrelaes e das autocorrelaes parciais do Modelo I aps uma diferena simples e uma diferena sazonal.

Grfico das autocorrelaes Do Modelo I (Aps uma diferena simples e uma sazonal)
1.0 Autocorrelaes -1.0 -0.5 0.0 0.5

20

40 Lag

60

80

100

Grfico das autocorrelaes parciais Do Modelo I (Aps uma diferena simples e uma sazonal)
1.0 Autocorrelaes parciais -1.0 -0.5 0.0 0.5

20

40 Lag

60

80

100

11

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

Grfico das autocorrelaes e das autocorrelaes parciais do logaritmo das demisses no Brasil ao longo do tempo com uma diferena Simples e uma diferena Sazonal.

Grfico das autocorrelaes do Modelo II (Aps uma diferena simples e uma sazonal)
1.0 Autocorrelaes -1.0 -0.5 0.0 0.5

20

40 Lag

60

80

100

Grfico das autocorrelaes parciais do Modelo II (Aps uma diferena simples e uma sazonal)
1.0 Autocorrelaes parciais -1.0 -0.5 0.0 0.5

20

40 Lag

60

80

100

Figura 9 Grfico das autocorrelaes e das autocorrelaes parciais do Modelo II aps uma diferena simples e uma diferena sazonal.

Em ambos os casos vemos que para alguns lags ainda temos autocorrelaes altas, o que nos d indcios de sazonalidade estocstica. Desta forma partiremos para uma modelagem SARIMA.

12

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

d. Ajuste do modelo. Vrios modelos SARIMA foram testados, sempre observando os critrios de adequao do modelo (AIC, AIC corrigido e BIC) conjuntamente com a anlise dos resduos.

e. Ajuste do Modelo I Vrios modelos foram testados e o que nos trouxe um melhor resultado geral (critrios de adequao e anlise dos resduos) foi o modelo SARIMA(3,1,3)(3,1,3). Este modelo nos trouxe os seguintes resultados para os critrios de adequao do modelo: AIC = 3463.06 ; AICc = 3465.93 ; BIC = 3501.39 Quanto aos resduos comeamos primeiramente testando a hiptese de normalidade atravs do teste de Shapiro-Wilk. De acordo com o teste, no h evidncias estatsticas significativas (p-valor = 0.2491) de que os resduos no tenham distribuio normal. Em seguida foi testado se as autocorrelaes dos resduos eram significativamente diferentes de zero at o lag 15 (escolhido arbitrariamente), foi observado o resultado do teste Box-Pierce e tambm o resultado do teste Ljung-Box. (Na tabela abaixo os p-valores de cada um dos testes).

LjungLag Box-Pierce Box 1 0.95959 0.95919 2 0.96168 0.96070 3 0.99322 0.99295 4 0.90447 0.89821 5 0.95958 0.95615 6 0.97416 0.97135 7 0.98957 0.98821 8 0.99469 0.99385 9 0.99801 0.99765 10 0.99750 0.99688 11 0.99567 0.99430 12 0.99790 0.99714 13 0.99526 0.99318 14 0.99751 0.99628 15 0.99797 0.99683 Para todos os lags testados no foi rejeitada a hiptese de que as autocorrelaes entre os resduos so iguais a zero.

13

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

Para termos uma viso grfica dos resduos, foi plotado o histograma sobreposto pela curva normal terica.

Histograma dos resduos do Modelo I

Densidade

0e+00
-2e+05

2e-06

4e-06

6e-06

8e-06

1e-05

-1e+05

0e+00 Resduos

1e+05

2e+05

Figura 10 Histograma dos resduos do Modelo I.

Vemos que apesar do histograma no estar perfeitamente similar ao histograma de dados com distribuio normal, esse desvio no foi suficiente para rejeitarmos a hiptese de normalidade para os dados. Esses mesmo desvios na normalidade no so to evidentes no grfico de probabilidade normal.

14

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

Grfico de probabilidade normal do Modelo I


2e+05 Quantis observados -2e+05 -1e+05 0e+00 1e+05

-2

-1

0 Quantis teoricos

Figura 11 Grfico de probabilidade normal dos resduos do Modelo I.

Para nos certificarmos de que o modelo ajustado no possua volatilidade foi feito o grfico das autocorrelaes do quadrado dos resduos. Caso para algum lag houvesse valores fora dos intervalos de confiana teramos que pensar em uma modelagem diferente, levando em conta essa volatilidade.

15

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

Grfico das autocorrelaes dodo quadrado dos resduos (Modelo I)

Autocorrelaes do quadrado dos resduos

-1.0
0

-0.5

0.0

0.5

1.0

20

40 Lag

60

80

100

Figura 12 Grfico das autocorrelaes do quadrado dos resduos do Modelo I.

Observamos que no existe para nenhum lag autocorrelaes fora do intervalo de confiana. Por ltimo fizemos o grfico acumulado do periodograma dos resduos com a finalidade de nos certificarmos que os resduos do nosso modelo seguem uma distribuio Rudo Branco.

16

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

Periodograma acumulado dos resduos (Modelo I)


1.0 0.0
0.0

0.2

0.4

0.6

0.8

0.1

0.2 frequency

0.3

0.4

0.5

Figura 13 Grfico do periodograma acumulado dos resduos do Modelo I.

Vemos que em nenhum momento a acumulada sai do intervalo de confiana, dessa forma no rejeitamos a hiptese de que os resduos tenham distribuio Rudo Branco. Ento assumimos que os resduos esto atendendo todas as especificidades do modelo, desta forma este modelo ser utilizado para gerar previses para essa srie.

17

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

f.

Ajuste do Modelo II

Vrios modelos foram testados e o que nos trouxe um melhor resultado geral (critrios de adequao e anlise dos resduos) foi o modelo SARIMA(0,1,1)(4,1,0). Este modelo nos trouxe os seguintes resultados para os critrios de adequao do modelo: AIC = -422.08 ; AICc = -421.45 ; BIC = -404.39 Quanto aos resduos comeamos primeiramente testando a hiptese de normalidade atravs do teste de Shapiro-Wilk. De acordo com o teste, no h evidncias estatsticas significativas (p-valor = 0.3397) de que os resduos no tenham distribuio normal. Em seguida foi testado se as autocorrelaes dos resduos eram significativamente diferentes de zero at o lag 15 (escolhido arbitrariamente), foi observado o resultado do teste Box-Pierce e tambm o resultado do teste Ljung-Box. (Na tabela abaixo os p-valores de cada um dos testes).

LjungLag Box-Pierce Box 1 0.92876 0.92807 2 0.82524 0.82110 3 0.12272 0.11305 4 0.21482 0.20016 5 0.32260 0.30368 6 0.29881 0.27607 7 0.28086 0.25447 8 0.37498 0.34431 9 0.40997 0.37496 10 0.22782 0.19047 11 0.29476 0.25073 12 0.34952 0.29994 13 0.34138 0.28661 14 0.40161 0.34157 15 0.47494 0.41140 Para todos os lags testados no foi rejeitada a hiptese de que as autocorrelaes entre os resduos so iguais a zero. Para termos uma viso grfica dos dados, foi plotado o histograma sobreposto pela curva normal terica.

18

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

Histograma dos resduos do do Modelo II

Densidade

0
-0.15

-0.10

-0.05

0.00 Resduos

0.05

0.10

0.15

Figura 14 Histograma dos resduos do Modelo II.

Vemos que apesar do histograma no estar perfeitamente similar ao histograma de dados com distribuio normal, esse desvio no foi suficiente para rejeitarmos a hiptese de normalidade para os resduos. Esses mesmo desvios na normalidade no so to evidentes no grfico de probabilidade normal.

19

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

Grfico de probabilidade normal do Modelo II

Quantis observados

-0.10

-0.05

0.00

0.05

0.10

0.15

-2

-1

0 Quantis teoricos

Figura 15 Grfico de probabilidade normal dos resduos do Modelo II.

Por ltimo, para nos certificarmos de que o modelo ajustado no possua volatilidade foi feito o grfico das autocorrelaes do quadrado dos resduos. Caso para algum lag houvesse valores fora dos intervalos de confiana teramos que pensar em uma modelagem diferente, levando em conta essa volatilidade.

20

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

Grfico das autocorrelaes dodo quadrado dos resduos (Modelo II)

Autocorrelaes do quadrado dos resduos

-1.0
0

-0.5

0.0

0.5

1.0

20

40 Lag

60

80

100

Figura 16 Grfico das autocorrelaes do quadrado dos resduos do Modelo II.

Observamos que no existe para nenhum lag autocorrelaes fora do intervalo de confiana. Por ltimo fizemos o grfico acumulado do periodograma dos resduos com a finalidade de nos certificarmos que os resduos do nosso modelo seguem uma distribuio Rudo Branco.

21

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

Periodograma acumulado dos resduos (Modelo II)

0.0
0.0

0.2

0.4

0.6

0.8

1.0

0.1

0.2 frequency

0.3

0.4

0.5

Figura 17 Grfico do periodograma acumulado dos resduos do Modelo II.

Vemos que em nenhum momento a acumulada sai do intervalo de confiana, dessa forma no rejeitamos a hiptese de que os resduos tenham distribuio Rudo Branco. Ento assumimos que os resduos esto atendendo todas as especificidades do modelo, desta forma este modelo ser utilizado para gerar previses para essa srie.

22

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

2. Previso

Depois de termos encontrado um modelo apropriado para modelagem da srie, vamos agora fazer previses e comparar com os valores observados na srie.

a. Modelo I Usaremos o modelo encontrado na primeira parte do trabalho - SARIMA(3,1,3)(3,1,3) e faremos previses para os 14 meses seguintes (amostra definida para teste). Essas previses foram plotadas juntamente com o intervalo de confiana e com os valores reais observados.

Previso Modelo I

Nmero de demisses no Brasil

600000 800000
0

1200000

1600000

50 Ms

100

150

Figura 18 Grfico do Modelo I com suas previses e intervalos de confiana.

23

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

Aparentemente as previses esto coerentes com os valores observados na srie original, para termos uma viso mais clara plotamos o mesmo grfico observando apenas as ltimas 30 observaes.

Previso Modelo I

Nmero de demisses no Brasil

1500000
0

1600000

1700000

1800000

1900000

10

15 Ms

20

25

30

Figura 19 Grfico do Modelo I com suas previses e intervalos de confiana (Apenas as ltimas 30 observaes).

Vemos que as primeiras 6 previses so muito prximas dos verdadeiros valores da srie e a medida que tentamos realizar previses para tempos distantes as previses ficam menos precisas.

24

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

b. Modelo II

Usaremos o modelo encontrado na primeira parte do trabalho - SARIMA(0,1,1)(4,1,0) e faremos previses para os 14 meses seguintes (amostra definida para teste). Essas previses foram plotadas juntamente com o intervalo de confiana e com os valores reais observados para o logaritmo da srie.

Previso Modelo II

Logaritmo natural do nmero de demisses no Brasil

13.0
0

13.5

14.0

14.5

50 Ms

100

150

Figura 20 Grfico do Modelo II com suas previses e intervalos de confiana.

Aparentemente as previses esto coerentes com os valores observados na srie original, para termos uma viso mais clara plotamos o mesmo grfico observando apenas as ltimas 30 observaes.

25

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

Previso Modelo II

Log do Nmero de demisses no Brasil

14.15
0

14.20

14.25

14.30

14.35

14.40

14.45

10

15 Ms

20

25

30

Figura 21 Grfico do Modelo II com suas previses e intervalos de confiana (Apenas as ltimas 30 observaes).

Vemos que as primeiras 2 previses so muito prximas dos verdadeiros valores da srie e a medida que tentamos realizar previses para tempos distantes as previses ficam menos precisas. Porm essas previses so para o logaritmo da srie, devemos ento tomar a exponencial das provises obtidas para ento ter a previso do Modelo II para a srie original. Abaixo temos em um mesmo grfico as previses do Modelo I (Azul), as previses do Modelo II (Vermelho), e os valores reais (Preto).

26

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

Srie histrica de demisses no Brasil

Nmero de demisses no Brasil

600000 800000
0

1200000

1600000

50 Ms

100

150

Figura 22 Grfico da srie histrica de demisses no Brasil e as previses do Modelo I e do Modelo II.

Para uma melhor visualizao tambm foi plotado o mesmo grfico acima, porm, mostrando apenas as ltimas 30 observaes.

27

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

Previso Modelo I e II
1900000 Nmero de demisses no Brasil 1500000 0 1600000 1700000 1800000

10

15 Ms

20

25

30

Figura 23 Grfico da srie histrica de demisses no Brasil e as previses do Modelo I e do Modelo II (Apenas as ltimas 30 observaes).

Vemos que o comportamento das previses dos dois modelos testados so similares. O Modelo II melhor para previses curtas j o Modelo I erra aparentemente menos para perodos mais distantes.

Para deciso de qual modelo foi mais preciso utilizamos as seguintes medidas de acurcia: ME (Mean Error), RMSE (Root Mean Square Error), MAE (Mean Absolut Error), MPE (Mean Percentage Error), MAPE (Mean Absolute Percentage Error). Em todas as medidas o esperado (caso a previso seja boa) termos valores prximos de zero.

28

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

Medidas de acurcia Modelo I ME RMSE MAE MPE MAPE -29059.71429 60888.75949 50506.14286 -1.832832 3.057312 Modelo II ME RMSE MAE MPE MAPE -83679.95289 105873.9401 84344.9522 -5.036654 5.078713

Vemos que em todos os critrios observados o Modelo I se sobressai no sentido de ter previses mais precisas para a srie, mesmo considerando o fato de o Modelo II ter tido uma maior preciso nas primeiras duas observaes. Portanto com base nos resultados obtidos o modelo que melhor se ajustou aos dados foi o modelo SARIMA(3,1,3)(3,1,3) para a srie original de dados, pois esse modelo nos d previses mais precisas dos futuros valores da srie.

29