Você está na página 1de 15

Ajuste de seis distribuições densidade de probabilidade à series

históricas de acidentes de trânsito, média mensal, nas Rodovias Federais


em Pernambuco (2007 – 2017).

Daniel Bruno Pinto da silva


dbps@poli.br

RESUMO
O estado de Pernambuco é considerado um dos piores do Brasil em relação a acidentes de trânsito e a estimativa da
probabilidade dessas ocorrências é uma ferramenta importante para a gestão pública. Esse estudo teve como
objetivo avaliar a distribuição de probabilidade que melhor se ajusta a série média mensal de acidentes de trânsito
nas Rodovias Federais em Pernambuco. Foram utilizadas as funções distribuição de probabilidade Beta, Exponencial,
Gama, Log-normal, Normal e Weibull. A série estudada abrangeu um período de 11 anos (2007 a 2017), obtidos no
banco de Dados Abertos da Polícia Rodoviária Federal (PRF). O ajuste das distribuições à série de dados foi realizado
através dos testes de aderência Qui-quadrado, Kolmogorov-Smirnov e Anderson-Darling, ao nível de significância d
5%. Por meio da análise gráfica as distribuições Log-normal, Gama, Normal e Weibull apresentam as melhores
representações aos dados. A distribuição que apresentou melhor ajuste à série de dados de média mensal de
acidentes de trânsito nas Rodovias Federais de Pernambuco, através de critérios estatísticos, foi a Log-normal. A
distribuição Exponencial não apresentou ajustes aos dados.

PALAVRAS-CHAVE: Teste de aderência. Acidentes de trânsito. Funções de probabilidade.

1
1 INTRODUÇÃO

Uma das principais preocupações da administração pública das grandes cidades brasileiras está
na utilização com segurança da sua malha rodoviária. O monitoramento da segurança que
envolve o fluxo de veículos e pessoas é fator relevante para a gestão municipal, estadual ou
federal (DE ANDRADE et al., 2011).
Segundo Rocha e Nassi (2012), o mercado automotivo brasileiro configura-se como um dos
maiores do mundo e, anualmente, a produção de automóveis bate recordes. Devido a
quantidade e a gravidade dos acidentes de trânsito, os prejuízos materiais e sociais no Brasil tem
alcançado grandes proporções.
O Brasil é considerado com um dos países com o trânsito mais violento do mundo e que tem
tentado conter o alto número de acidentes. No entanto, os mecanismos de controle e melhoria
da segurança dos veículos não tem conseguido diminuir significativamente os acidentes
(BACCHIERI; BARROS, 2011).
A grande utilização da malha rodoviária brasileira tem influenciado negativamente a qualidade
de vida, principalmente nas grandes cidades. De acordo com De Andrade et al. (2011), os
acidentes de trânsito podem ser considerados como uma grave epidemia do século XXI,
principalmente pela quantidade de vítimas fatais.
Pernambuco é considerado um dos estados mais violentos do país no quesito de acidentes de
trânsito. Em relação ao número de óbitos a cada 100 mil habitantes, o Estado é o 9º colocado
com taxa ligeiramente inferior à nacional (DIÁRIO DE PERNAMBUCO IMPRESSO, 2017).
A estimativa dos acidentes de trânsito com determinado nível de probabilidade é de suma
importância para o planejamento da administração pública, possibilitando a previsão da melhor
época de ações de fiscalização e controle do tráfego nas Rodovias Federais do Estado de
Pernambuco. O estudo das distribuições de variáveis é utilizado para determinar seus padrões
de ocorrência e permitir uma previsibilidade razoável do comportamento de um fenômeno de
uma região, auxiliando no planejamento e gestão de inúmeras atividades (MARTINS ARAÚJO et
al., 2010).

2 OBJETIVOS

Diante do exposto, este trabalho teve como objetivo analisar qual modelo, entre seis
distribuições de probabilidade, melhor se ajusta a uma série histórica de dados, média mensal,
de acidentes de trânsito nas Rodovias Federais em Pernambuco. De maneira específica, este
estudo realizou o ajuste das distribuições de probabilidade aos dados de acidentes de trânsito,
analisou a confiabilidade dos ajustes por meio de testes de aderência e fez a análise gráfica das
distribuições estimadas.

3 METODOLOGIA

Foram utilizados dados diários de acidentes de trânsito nas Rodovias Federais em Pernambuco,
obtidos juntos à Polícia Rodoviária Federal (PRF), na seção de Dados Abertos que são publicados
online. O banco de dados está agrupado por pessoa com informações referentes ao período de

2
1º de janeiro de 2007 a 31 de dezembro de 2017, compreendendo uma série de 11 anos (PRF,
2018).
As Rodovias Federais em Pernambuco que foram utilizadas nesta pesquisa são: BR 101, BR 104,
BR 110, BR 116, BR 232, BR 235, BR 316, BR 407, BR 408, BR 423, BR 424 e BR 428.
Esta pesquisa avaliou o comportamento dos acidentes de trânsito através da média mensal da
série histórica analisada, conforme o Gráfico 1.

Gráfico 1: Médias mensais dos acidentes de trânsito nas Rodovias Federais em Pernambuco (2007 – 2017)
1300
Médias mensais de acidesntes

1250
1200
1150
1100
1050
1000
JAN.

ABR.

SET.
MAR.

JUN.

AGO.

NOV.
MAI.

OUT.

DEZ.
FEV.

JUL.

Fonte: Auto, 2018.

Os dados diários foram separados por mês e foi calculada a média mensal para a série história.
Em seguida, os dados foram agrupados em classes conforme a regra de Sturges e demonstrado
pela Equação 1:

𝐾 = 1 + 3,322 ∗ log(𝑛) (1)

Onde,
K – Número de intervalos ou classes;
n – Número de observações.

3.1 Distribuições de probabilidade

Após a obtenção das classes, os elementos foram organizados procurando uma simetria da
frequência observada. Nesta pesquisa foram utilizadas as distribuições de probabilidade Beta,
Exponencial, Gama, Log-normal, Normal e Weibull.

3.1.1 Distribuição Beta

É uma distribuição definida no intervalo (0,1) com a densidade de probabilidade conforme


Equação 2 (FALLS, 1973 apud DE LEITE; SOUSA DAS VIRGENS FILHO, 2011):

1 Γ (𝛼+ 𝛽) 𝑥−𝑎 𝛼−1 𝑥−𝑎 𝛽−1


𝐹(𝑥) = (𝑏−𝑎)
∗ Γ(𝛼) Γ(𝛽)
∗ (𝑏−𝑎) ∗ (1 − 𝑏−𝑎
) (2)

3
Onde,
a e b – Correspondem ao menor e maior valor da série de dados, respectivamente;
Г – Função Gama das respectivas variáveis;
α e β – São parâmetros da distribuição Beta;
X – Valor qualquer da variável em análise.

3.1.2 Distribuição Exponencial

A distribuição Exponencial é, geralmente, aplicada a dados com forte assimetria (forma de “J”
invertido). Sua função densidade de probabilidade é descrita conforme a Equação 3 (KITE, 1978
apud NETO et al., 2005).

𝐹(𝑥) = 𝜆𝑒−𝜆𝑋 ; (𝑋 > 0) (3)


𝐹(𝑥) = 0 ; (𝑋 ≤ 0)

Onde,
λ – Parâmetro da distribuição Exponencial que pode ser estimado pelo inverso da média;
X – Variável aleatória.

3.1.3 Distribuição Gama

A distribuição Gama pode ser utilizada se x for uma variável aleatória contínua, tal que (0 < x <
ꚙ), com parâmetros α > 0 e β > 0, então a sua função densidade de probabilidade definida
conforme a Equação 4 (JUNQUEIRA JÚNIOR et al., 2007 apud SILVA et al., 2015).

1 𝑋
𝐹(𝑥) = 𝛽 𝛼 Γ(α)
𝑋 𝛼−1 𝑒𝑥𝑝 (𝛽) (4)

Onde,
α e β – São parâmetros da distribuição Gama;
Г – Função Gama das respectivas variáveis;
X – Variável aleatória.

3.1.4 Distribuição Log-normal

A distribuição Log-normal, segundo Ribeiro et al. (2007), possui função densidade de


probabilidade a dois e a três parâmetros conforme a Equação (5).

1 [ln(𝑥−𝑎)−𝜇]²
𝐹(𝑥) = (𝑥−𝑎)𝜎 √2𝜋
exp (− 2𝜎²
) (5)

Onde,
µ - Média dos logaritmos da variável X;

4
σ – Desvio-padrão dos logaritmos da variável X;
a – Limite inferior da amostra. Quando a distribuição é a dois parâmetros, o valor de “a” pode
ser zero;
X – Variável aleatória.

3.1.5 Distribuição Normal

A distribuição Normal tem sua função densidade de probabilidade de acordo com a Equação 6
(NETO et al., 2005).

1 1 𝑥−𝜇 2
𝐹(𝑥) = exp [− 2 ( ) ] (6)
√2𝜋 𝜎 𝜎

Onde,
µ - Média das observações na série de dados;
σ – Desvio-padrão das observações na série de dados;
X – Variável aleatória.

3.1.6 Distribuição de Weibull

A função densidade de probabilidade para a distribuição de Weibull pode ser definida conforme
a Equação 7.

𝛼 𝛼−1 𝑥 𝛼
𝐹(𝑥) = 𝛽𝛼
𝑥 exp [− (𝛽) ] (7)

Onde,
α e β – São parâmetros da distribuição Weibull;
X – Variável aleatória.

3.2 Estimativa de parâmetros

No item anterior foram estabelecidas as bases de cálculo de probabilidade para variáveis


aleatórias das distribuições utilizadas neste estudo. Após conhecer o modelo de distribuição e
determinados os valores numéricos dos parâmetros que definem os modelos, é possível calcular
as probabilidades associadas.
Nesta pesquisa, a estimativa dos parâmetros das distribuições foi realizada por meio do software
específico de matemática e estatística, EasyFit 5.6 Professional. Para cada distribuição, o
programa utiliza um dos métodos de estimativa de parâmetros, como: método dos momentos
(MOM), estimativas de máxima verossimilhança (MLE), estimativa por mínimos quadrados (LSE)
e método de momentos – L. O EasyFit 5.6 Professional utiliza os métodos menos
computacionalmente intensos, de acordo com a distribuição (MATHWAVE, 2018).

5
3.3 Testes de aderência

No ajuste de uma série de dados a uma distribuição de probabilidade, considera-se a hipótese


de que a distribuição pode representar adequadamente o conjunto de dados. Para verificar essa
hipótese, são utilizados teste de aderência que comparam o valor obtido com o valor crítico ou
tabelado de acordo com o nível de significância descrito por tabela própria (NETO et al., 2005).
Para verificar o grau de aderência das distribuições empíricas aos dados de média mensal, foram
utilizados os testes Qui-Quadrado (X²), Kolmogorov-Smirnov (KS) e Anderson-Darling (AD). De
acordo com Fernandes (2013), esses são os testes mais relevantes, juntamente com Cramer-
Von Mises, para validar o ajustamento de distribuições estatísticas.

3.3.1 Teste do Qui-Quadrado (X²)

Esse teste se baseia no somatório do quadrado dos desvios das frequências, favorecendo o
aspecto cumulativo dos erros. Esse teste consiste na comparação da densidade com a função
distribuição de probabilidade (FINKLER et al., 2015). O valor observado X² (Qui-Quadrado) é
obtido por meio da Equação 8.

(𝐹𝑜𝑖−𝐹𝑒𝑖)2
𝑋 2 = ∑𝑘𝑖=1 ( 𝐹𝑒𝑖
) (8)

Onde,
K – Número de classes;
Foi – Frequência observada;
Fei – Frequência estimada (ou esperada).

O valor observado X² será comparado a um valor crítico X²cri (Qui-Quadrado crítico) que é obtido
a partir da tabela de valores críticos de Qui-Quadrado. Através desta comparação, será possível
aceitar ou rejeitar a hipótese que a distribuição a ser testada se ajusta aos dados da amostra,
com um determinado nível de confiança (FERNANDES, 2013).

3.3.2 Teste de Kolmogorov-Smirnov (KS)

Esse teste consiste em encontrar a distância máxima entre a função distribuição acumulada
estimada e a observada. Para isso, é utilizada a Equação 9.

𝐷𝑚𝑎𝑥 = 𝑀𝑎𝑥 |𝐹𝑜(𝑥) − 𝐹𝑒(𝑥)| (9)

Onde,
Fo(x) – Distribuição observada (ou empírica);
Fe(x) – Distribuição estimada (ou teórica).

6
Após a determinação do Dmax, seu valor é comparado com o valor Dcr obtido através da tabela
K-S. Se o valor Dmax for inferior ao valor Dcr, diz-se que segundo o teste de ajuste K-S não é
rejeitada a hipótese que a distribuição testada se adequa ao conjunto de dados.

3.3.3 Teste de Anderson-Darling (AD)

Esse teste também se baseia na diferença entre as funções de probabilidades acumuladas


observadas (ou empíricas). Sua estatística A² é descrita conforme a Equação 10.

(2𝑖−1){𝑙𝑛𝐹𝑥(𝑥(𝑖))+ln[1−𝐹𝑥(𝑥(𝑁−𝑖+1)]}
𝐴2 = −𝑁 − ∑𝑁
𝑖=1 𝑁
(10)

Onde,
{x(1), x(2), ..., x(m), ... x(n)} – Representam as observações ordenadas em modo crescente;
FN(x) – Distribuição observada (ou empírica);
FX(x) – Distribuição estimada (ou teórica).

Após a determinação de A², seu valor é comparado com o valor A²crit obtido através da tabela
AD, de acordo com o nível de significância (α). Assim, como nos demais testes de aderência,
através desta comparação, será possível aceitar ou rejeitar a hipótese que a distribuição a ser
testada se ajusta aos dados da amostra.
Neste trabalho adotou-se o nível de significância de 5% (α = 0,05) e assumiu-se a hipótese nula
(H0) como sendo a afirmação de que a distribuição obtida pela função densidade de
probabilidade avaliada não é diferente da distribuição observada.
Nesse estudo, os resultados dos testes de aderência do X² e de KS também foram expressos a
nível descritivo p-valor. Já o teste de AD foi apresentado em função da estatística A². Foi utilizado
o software Microsoft Excel® para o auxílio nas análises estatísticas.

4 RESULTADOS

Através da análise referente à estatística descritiva efetuada nos dados da série histórica de
acidentes de trânsito nas Rodovias Federais em Pernambuco, verificou-se que a maior
ocorrência média de acidentes se deu nos meses de dezembro e junho (Tabela 1), com valores
de 1.271,27 e 1.201,36, respectivamente. Já os maiores e o menores valores acumulados
mensais aconteceram, respectivamente, nos meses de abril e novembro.

Tabela 1: Média mensal, desvio padrão, máximo e mínimo dos acidentes de trânsito na Rodovias Federais em
Pernambuco (2007 – 2017)
Mês Máximo Mínimo Média Desvio Padrão
Janeiro 1540,00 695,00 1139,00 302,50
Fevereiro 1399,00 584,00 1020,27 300,70
Março 1672,00 635,00 1107,55 348,97
Abril 1727,00 642,00 1146,09 338,91
Maio 1523,00 692,00 1156,82 292,18
Junho 1676,00 722,00 1201,36 331,40
Julho 1577,00 582,00 1080,73 351,52

7
(Continuação)
Mês Máximo Mínimo Média Desvio Padrão
Agosto 1456,00 570,00 1027,45 329,17
Setembro 1455,00 617,00 1072,64 344,30
Outubro 1432,00 618,00 1064,82 333,52
Novembro 1530,00 501,00 1098,73 349,12
Dezembro 1718,00 726,00 1271,27 377,47
Fonte: Autor, 2018

No Gráfico 2, estão apresentadas as classes de frequências observadas da média mensal de


acidentes. Verifica-se que os acidentes nas Rodovias Federais em Pernambuco têm sua maior
frequência no intervalo entre 1.080 e 1.140 acidentes.

Gráfico 2: Classes de frequências observada de acidentes de trânsito nas Rodovias Federais em Pernambuco
4,0
4,0
3,0 3,0
3,0
Frequência

2,0
1,0 1,0
1,0

0,0
(1000, 1025] (1025, 1080] (1080, 1140] (1140, 1210] (1210, 1280]
Classes de acidentes
Fonte: Autor, 2018

Foram ajustados seis modelos de distribuição de probabilidade, a saber: Beta, Exponencial,


Gama, Log-normal, Normal e Weibull. Os parâmetros encontrados nos ajustes destas
distribuições podem ser observados na Tabela 2.

Tabela 2: Parâmetros das Distribuições Beta, Exponencial, Gama, Log-normal, Normal e Weibull
Parâmetros Parâmetros Parâmetros Parâmetros Parâmetros Parâmetros
Beta Exponencial Gama Log-normal Normal Weibull
α 0,7511 λ 0,000896410 α 237,6100 µ 7,0152 µ 1115,5600 α 19,5690
β 1,2744 - β 4,6949 σ 0,0611 σ 72,3700 β 1128,6000
Fonte: Autor, 2018

A Tabela 3 apresenta os critérios de qualidade dos ajustes das distribuições analisadas neste
estudo para os testes de aderência Qui-Quadrado (X²), Kolmogorov-Smirnov (K-S) e Anderson-
Darling (A-D). Para que a hipótese nula (H0) que diz, a distribuição obtida pela função densidade
de probabilidade avaliada não é diferente da distribuição observada, seja rejeitada os valores da
estatística devem ser menores que o valor crítico obtido por meio de tabelas em função do nível
de significância (α), nesse estudo igual a 0,05. Ou seja, o ajuste de uma distribuição teórica a
uma distribuição empírica de probabilidade consiste em verificar se a primeira é capaz de
representar, da forma mais idêntica possível, a segunda e a qualidade desse ajuste pode ser
verificada pelos testes de aderência (DE LIMA LEITE; SOUSA DAS VIRGENS FILHO, 2011).

8
De acordo com Martins Araújo et al. (2010), o teste Qui-quadrado (X²) é tido como de grande
rigorosidade, mas apresenta sensibilidade à presença de classes com pequenos valores das
frequências esperadas. Esse teste não é fiável para amostras inferiores a 25 pois irá resultar em
perda de informações. O teste de Kolmogorov-Smirnov (K-S) pode ser utilizado para qualquer
volume amostral (mesmo inferior a 25 amostras) e as suas tabelas conseguem ser muito precisas
para determinar a validade de uma distribuição. De acordo com Fernandes (2013), o texto de
Kolmogorov-Smirnov (K-S) é mais eficaz que o teste Qui-Quadrado (X²).
O teste de Anderson-Darling (A-D) também é mais eficaz que o Qui-Quadrado e também não é
influenciado negativamente por amostras reduzidas. Assim, os modelos de distribuição podem
ser selecionados pela maior quantidade de ajustes aos testes de aderências, e os melhores
modelos ajustados podem ser selecionados pelos valores das estatísticas e pelo indicador p-
valor.
Em relação aos valores das estatísticas, quanto menor o valor do X² (Qui-Quadrado), do Dmax
(Kolmogorov-Smirnov) e do A²corr (Anderson-Darling), menor será a diferença e mais a
distribuição escolhida se adequa à amostra. Caso sejam nulos, significa que existe um ajuste
perfeito (FERNANDES, 2013).
Outra forma útil na escolha do melhor modelo de distribuição é através do indicador p-valor.
Este indicador é a probabilidade de a hipótese nula ser verdadeira. Desta forma, quanto maior
o p-valor, maior é a evidência para a não rejeição da distribuição assumida como verdadeira
(FERNANDES, 2013).
Dentre as seis distribuições estudadas, a Log-normal, Gama e Normal apresentam maior
confiança e podem ser utilizados para representar as frequências observadas devido ao ajuste
aos três testes de aderência (valor do critério < valor do critério crítico). Entre essas
distribuições, a escolha do melhor modelo será por meio dos menores valores das estatísticas e
dos maiores valores do p-valor.
Os valores que estão assinalados na Tabela 3 representam a distribuição que apresentou melhor
ajuste em cada teste dentre as que tiveram aderência em todos os testes. No Qui-quadrado a
distribuição Gama apresentou melhor ajuste. Já no Kolmogorov-Smirnov e Anderson-Darling a
distribuição Log-normal apresentou melhor resultado.
O fato da distribuição Log-normal não ter apresentado o melhor ajuste no teste Qui-Quadrado
deve-se à sensibilidade do método (X²) com amostras inferiores a 25. Como nos teste K-S e A-d
o tamanho da amostra não interfere no resultado, considera-se que são mais eficazes para
determinar o melhor modelo ajustado.
Através dos critérios de qualidade explicados e apresentados na Tabela 3, a distribuição Log-
normal é indicada como o modelo de melhor ajuste aos dados desta pesquisa. A distribuição
Gama e a Normal possuem os segundo e terceiros melhores resultados, respectivamente, entre
os modelos de melhor ajuste.

9
Tabela 3: Critérios da qualidade do ajuste de séries históricas de Acidentes de Trânsito em Rodovias Federais em
Pernambuco, no período de 2007 a 2017

Qui-Quadrado (X²) Kolmogorov-Smirnov (K-S) Anderson-Darling (A-D)


Função
Distribuição de Valor Valor Valor
Critério Critério
Probabilidade Critério (X²) Crítico p-valor Crítico p-valor Crítico A²
(Dmax) (A²corr)
(X²cri) (Dcr) (A²crit)
Log-normal 0,3673 5,99 0,7143 0,1179 0,3750 0,9889 0,2263 0,7570 0,2099
Gama 0,3135 5,99 0,7431 0,1189 0,3750 0,9880 0,2292 0,7570 0,2126
Normal 0,4005 5,99 0,4559 0,1274 0,3750 0,9762 0,2600 0,7570 0,2412
Weibull 2,8038 5,99 0,8970 0,0840 0,3750 0,9647 0,9604 0,7570 0,8908
Beta 0,9025 5,99 1,0000 0,1191 0,3750 0,8762 1,2409 0,7570 1,1510
Exponencial 130,7369 7,81 0,6843 0,5160 0,3750 0,0000 5,2568 0,7570 4,8758
Fonte: Autor, 2018

A Tabela 4 mostra as aderências para as funções distribuição de probabilidade consideradas


neste estudo. Os testes de aderência indicaram um excelente ajuste às distribuições Log-normal
(3 ajustes), Gama (3 ajustes) e Normal (3 ajustes), ou seja, 100% de aderência. As distribuições
de Weibull e Beta tiveram, cada uma, 2 ajustes indicando 33,33% de aderência. Já a distribuição
Exponencial não obteve ajuste a nenhum teste de aderência, apontando que essa distribuição
não se aplica aos dados estudados.
As distribuições Log-normal, Gama e Normal são as que melhor podem representar o
comportamento dos acidentes de trânsito nas Rodovias Federais em Pernambuco por terem
sido ajustadas nos três testes de aderência (100% de aderência). No entanto, de acordo com os
critérios de qualidade apresentados anteriormente, a distribuição Log-normal é o modelo que
representa o melhor ajuste aos dados desta pesquisa.
Mesmo que as distribuições Log-normal, Gama e Normal possam ser utilizadas para representar
os dados estudados, a obtenção da estimativa dos parâmetros poderá ser critério de seleção do
melhor modelo. Isso se deve ao fato de que a obtenção da estimativa dos parâmetros e a
estimativa das probabilidades diferem quanto ao grau de dificuldade (ASSIS et al., 2010). Desta
forma, através do critério da parcimônia, o pesquisador poderá escolher, dentre os modelos
ajustados, aquele que seja mais simples, versátil e flexível (NETO et al., 2005).
De acordo com De Lima Leite e Sousa das Virgens Filho (2011), a maioria dos trabalhos
apresentam apenas o melhor modelo ajustado, sendo que, em muitos casos, os demais modelos
ajustados apresentam diferenças muito pequenas entre si. Assim, distribuições mais simples,
menos trabalhosas e, por vezes, igualmente eficientes, são deixadas de fora. Torna-se
recomendável, então, verificar qual das funções estudadas tem o melhor ajuste, se a mesma
coincide com uma distribuição que apresente menor dificuldade de obtenção dos parâmetros
e, ainda, facilidade nas estimativas de probabilidades.
Entre os três melhores modelos determinados neste estudo, a distribuição Gama pode
apresentar maior dificuldade devido a estimação dos parâmetros α e β, devido à complexidade
e extensão dos cálculos envolvidos, configurando-se como o terceiro melhor modelo de ajuste
aos dados de acidentes de trânsito. No entanto, devido esse estudo ter utilizado o software
EasyFit 5.6 Professional na estimação dos parâmetros, o critério dificuldade na obtenção dos
parâmetros e da probabilidade das funções não foi considerado na escolha do melhor modelo
de ajuste.

10
Ressalta-se ainda que, independentemente do critério de classificação do melhor modelo, a
distribuição Log-normal apresenta-se como a melhor opção, quer seja pelos valores estatísticos
obtidos ou pela dificuldade de estimativa dos parâmetros, devendo apenas obter a média (µ) e
o desvio padrão (σ) do logaritmo natural dos valores observados.

Tabela 4: Aderência das funções de distribuição de probabilidade para os testes de Qui-quadrado (X²),
Kolmogorov-Simov (K-S) e Anderson-Darling (A-D)
Aderência para Aderência para Aderência para
Função Distribuição Número de
Qui-Quadrado Kolmogorov- Anderson-Darling Ranking
de Probabilidade aderências
(X²) Smirnov (K-S) (A-D)
Log-normal * * * (3)100% 1º
Gama * * * (3)100% 2º
Normal * * * (3)100% 3º
Weibull * * - (2)33,33% 4º
Beta * * - (2)33,33% 5º
Não se
Exponencial - - - (0)0%
aplica
* = Distribuição Ajustada; - = Distribuição não ajustada; (nível de significância de 5%)
Fonte: Autor, 2018

Outro método de seleção de modelos de distribuição é através da adequação gráfica dos


histogramas das observações reais e das curvas das distribuições teóricas, conforme utilizado
por Martins Araújo et al. (2010), Stepka, Dos Santos Lisboa e Kurchaidt (2011) e Lima, Kwon e
Kim (2016). Fernandes (2013), indica que, dificilmente, as observações reais e teóricas irão se
coincidir, mas que a inspeção gráfica dos dados pode orientar, em primeira análise, na escolha
dos potenciais modelos teóricos. De acordo com De Lima Leite e Sousa das Virgens Filho (2011),
ter o conhecimento detalhado do próprio fenômeno em análise, também permite definir a
escolha do modelo.
Após a primeira seleção dos modelos de distribuição que mais se adequam à curva de frequência
observada (ou real) dos dados, é essencial que seja feita a análise estatística por meio dos testes
de aderência para atribuir confiança aos resultados. As curvas das frequências observadas e
estimadas das distribuições analisadas neste estudo podem ser visualizadas no Gráfico 3, onde
é possível observar de forma mais clara o comportamento dos ajustes.
Observa-se que as distribuições Log-normal, Gama, Normal e Weibull apresentam curvas
estimadas próximas da observada. A distribuição Beta apresenta comportamento que não se
ajusta adequadamente aos dados e a distribuição Exponencial não se ajusta à distribuição
observada apresentando grande diferença entre as curvas reais e estimadas.
Por meio da inspeção gráfica dos dados apenas as primeiras distribuições poderiam ser
utilizadas na análise estatística, descartando as distribuições Beta e Exponencial para
representar o comportamento dos acidentes de trânsito nas Rodovias Federais em Pernambuco.
Isso se deve ao fato de que os dados têm características que fogem aos modelos idealizados nas
distribuições e acabam não se ajustando, como neste caso as distribuições Beta e Exponencial
(STEPKA; DOS SANTOS LISBOA; KURCHAIDT, 2011).

11
Gráfico 3: Frequências observada e estimadas pelas distribuições Log-normal, Gama, Normal, Weibull, Beta e
Exponencial
4,5
fo - frequência observada
4,0
3,5 fe - frequência estimada
3,0 Log-normal
Frequência

2,5 fe - frequência estimada


Gama
2,0 fe - frequência estimada
1,5 Normal
1,0 fe - frequência estimada
Weibull
0,5
fe - frequência estimada
0,0 Beta
(1000, (1025, (1080, (1140, (1210, fe - frequência estimada
1025] 1080] 1140] 1210] 1280] Exponencial
Classes de Acidentes
Fonte: Autor, 2018

No Gráfico 4, podem ser observadas as frequências reais (ou observadas) e a estimada pela
distribuição Log-normal, indicada neste estudo como o modelo de melhor ajuste aos dados.
Verifica-se que a curva estimada fica próxima da observada com pequenas diferenças nas
estimativas e com uma boa sobreposição, indicando o bom ajuste do modelo aos dados reais.

Gráfico 4: Frequências observada e estimada pela distribuição Log-normal indicando o melhor modelo ajustado
4,5
4,0
3,5
3,0
Frequência

fo - frequência observada
2,5
2,0
fe - frequência estimada
1,5 Log-normal
1,0
0,5
0,0
Acidentes

Fonte: Autor, 2018

Na Figura 1 estão apresentadas, para cada modelo, as curvas de distribuição de probabilidade


reais e estimadas acumuladas. Verifica-se que as distribuições Log-normal, Gama, Normal e
Weibull apresentam boa aproximação à probabilidade real com nível de significância de 5%. A
distribuição Beta não apresenta bom ajuste aos dados e a distribuição Exponencial mostrou ser
completamente inadequada para estimar a probabilidade dos dados de acidentes de trânsito
nas Rodovias Federais em Pernambuco.

12
A análise da Figura 1 ainda indica que, devido à semelhança dos comportamentos das curvas de
distribuição Log-normal, Gama, Normal e Weibull, é essencial que sejam utilizados os critérios
de qualidade utilizados neste trabalho na escolha do melhor modelo de distribuição de maneira
a garantir a maior confiabilidade dos resultados.

Figura 1: Distribuições de probabilidades acumuladas real e estimadas pelas distribuições Log-normal, Gama,
Normal, Weibull, Beta e Exponencial

1,00 1,00
Probabilidades

Probabilidades
0,80 0,80
0,60 0,60
0,40 0,40
0,20 0,20
0,00 0,00
1000 1100 1200 1300 1000 1100 1200 1300
Acidentes de trânsito Acidentes de trânsito

Probabilidade real Probabilidade real


Probabilidade estimada Log-normal Probabilidade estimada Gama

1,00 1,00
Probabilidades

Probabilidades

0,80 0,80
0,60 0,60
0,40 0,40
0,20 0,20
0,00 0,00
1000 1100 1200 1300 1000 1100 1200 1300
Acidentes de trânsito Acidentes de trânsito

Probabilidade real Probabilidade real


Probabilidade estimada Normal Probabilidade estimada Weibull

1,00 1,00
Probabilidades

Probabilidades

0,80 0,80
0,60 0,60
0,40 0,40
0,20 0,20
0,00 0,00
1000 1100 1200 1300 1000 1100 1200 1300
Acidentes de trânsito Acidentes de trânsito

Probabilidade real Probabilidade real


Probabilidade estimada Beta Probabilidade estimada Exponencial

Fonte: Autor, 2018

13
5 CONCLUSÃO

Conforme os resultados obtidos, concluiu-se, para as condições estudadas, que:


 Para as análises de probabilidade de acidentes de trânsito nas Rodovias Federais em
Pernambuco, a função que apresentou melhor ajuste aos dados de média mensal da
série histórica foi a distribuição Log-normal. Entretanto, as distribuições Gama e Normal
também podem ser utilizas;
 A função densidade de probabilidade que apresentou menor ajuste aos dados foi a
função Beta;
 Dentre as distribuições utilizadas nesta pesquisa, a Exponencial não obteve aderência
às observações e, desta forma, não pode ser utilizada para representar os dados;
 Os três testes de aderência mostraram resultados satisfatórios e coerentes. No entanto,
é válido notar que os testes K-S e A-D apresentaram uma maior rigorosidade na
interpretação de resultados devido à alta sensibilidade do X² ao pequeno número de
observações;
 A análise gráfica das curvas de frequência e de probabilidade das distribuições pode ser
utilizada, em primeira análise, para a seleção dos modelos. No entanto, a confirmação
do melhor modelo ajustado deverá ser pela análise dos parâmetros estatísticos com
determinado nível de confiança;
 O conhecimento da função distribuição de probabilidade melhor ajustada, Log-normal,
permite a melhor estimativa dos acidentes de trânsito nas Rodovias Federais em
Pernambuco, auxiliando no planejamento e na gestão das ações da Polícia Rodoviária
Federal ou demais órgãos federais, estaduais e municipais.

REFERÊNCIAS

BACCHIERI, G.; BARROS, A. J. D. Acidentes de trânsito no Brasil de 1998 a 2010: muitas mudanças e poucos
resultados. Revista de Saúde Pública, v. 45, n. 5, p. 949-963, 2011.

DE ANDRADE, E. M. et al. Abordagem estatística dos acidentes de trânsito fatais ocorridos em rodovia federal do
Estado do Pará. SEGURANÇA PÚBLICA, p. 134, 2011.

DE LIMA LEITE, M.; SOUSA DAS VIRGENS FILHO, J. Ajuste de modelos de distribuição de probabilidade a séries horárias
de velocidade do vento para o município de Ponta Grossa, Estado do Paraná. Acta Scientiarum. Technology, v. 33, n.
4, 2011.

DIÁRIO DE PERNAMBUCO IMPRESSO. Entre os 10 mais perigosos no trânsito, Recife, 13 jan. 2017. Disponível em: <
http://www.impresso.diariodepernambuco.com.br/app/noticia/cadernos/vida-
urbana/2017/01/13/interna_vidaurbana,161397/entre-os-10-mais-perigosos-no-transito.shtml>. Acesso em: 05
mai. 2018.

FERNANDES, F. S. Testes de ajuste a distribuições estatísticas e métodos para estimação dos parâmetros em
análises de fiabilidade. 2013. Tese de Doutorado. Instituto Superior de Engenharia de Lisboa.

FINKLER, N. R. et al. Comparação de funções de distribuição de probabilidades na determinação de vazão mínima


anual e sazonal. Scientia cum Industria, v. 3, n. 2, p. 42-49, 2015.

LIMA, Carlos HR; KWON, Hyun-Han; KIM, Jin-Young. A Bayesian beta distribution model for estimating rainfall IDF
curves in a changing climate. Journal of Hydrology, v. 540, p. 744-756, 2016.

14
MARTINS ARAÚJO, Eliakim et al. Aplicação de seis distribuições de probabilidade a séries de temperatura máxima em
Iguatu-CE. Revista Ciência Agronômica, v. 41, n. 1, 2010.

MATHWAVE. Parameter Estimation Methods. 2018. Disponível em: <


http://www.mathwave.com/help/easyfit/html/analyses/distributions/_heading.html>. Acesso em: 05 mai. 2018.

NETO, D. D. et al. Ajuste de modelos de distribuição de probabilidade a séries históricas de precipitação pluvial diária
em Piracicaba–SP. Rev. Bras. Agrometeorologia, v. 13, n. 2, p. 273-283, 2005.

PRF – Polícia Rodoviária Federal. Dados abertos. 2018. Disponível em: < https://www.prf.gov.br/portal/dados-
abertos/>. Acesso em: 25 abr. 2018.

RIBEIRO, B. T. et al. Comparação de distribuições de probabilidade e estimativa da precipitação provável para região
de Barbacena, MG. Ciência e Agrotecnologia, v. 31, n. 05, p. 1297-1302, 2007.

ROCHA, M. M; NASSI, C. D. Modelagem estatística dos acidentes de trânsito na cidade do rio de janeiro com emprego
de sistema de informações geográficas. Programa de Engenharia de Transportes. UFRJ. 2012

SILVA, I. N. et al. Precipitação Provável Para A Região Centro-Sul Do Ceará, Brasil (Rainfall Probable In The Region Of
Central South Ceará, Brazil). Revista Brasileira de Geografia Física, v. 8, n. 3, p. 751-758, 2015.

STEPKA, T. F; DOS SANTOS LISBOA, G; KURCHAIDT, S. M. Funções densidade de probabilidade para a estimativa da
distribuição diamétrica em povoamento de Eucalyptus sp na região centro-sul do Paraná Probability density functions
for estimating the diameter distribution in Eucalyptus sp stand.. Ambiência, v. 7, n. 3, p. 429-439, 2011.

15

Você também pode gostar