Diss Luiz

Fundação Getulio Vargas
Escola de Matemática Aplicada
Modelos in-play para partidas do Campeonato

Brasileiro de Futebol
Luiz Fernando Guilhem Nassif Maia
Rio de Janeiro, Brasil

2021
Luiz Fernando Guilhem Nassif Maia
Modelos in-play para partidas do Campeonato Brasileiro

de Futebol
Dissertação submetida à Escola de Matemá-

tica Aplicada como requisito parcial para ob-
tenção do grau de Mestre em Modelagem
Matemática da Informação.
Orientador: Rodrigo dos Santos Targino

Coorientador: Moacyr Alvim Horta Barbosa da Silva
Rio de Janeiro, Brasil

2021
Dados Internacionais de Catalogação na Publicação (CIP)
Ficha catalográfica elaborada pelo Sistema de Bibliotecas/FGV
Maia, Luiz Fernando Guilhem Nassif

Modelos in-play para partidas do Campeonato Brasileiro de Futebol / Luiz
Fernando Guilhem Nassif Maia. - 2020.
54 f.
Dissertação (mestrado) -Fundação Getulio Vargas, Escola de Matemática

Aplicada.
Orientador: Rodrigo dos Santos Targino.
Coorientador: Moacyr Alvim Horta Barbosa da Silva.
Inclui bibliografia.
1. Processo de Poisson. 2. Futebol – Modelos matemáticos. 3. Futebol –

Previsão – Métodos estatísticos. I. Targino, Rodrigo dos Santos. II. Silva,
Moacyr Alvim Horta Barbosa da. III. Fundação Getulio Vargas. Escola de
Matemática Aplicada. IV. Título.
CDD – 519.23
Elaborada por Márcia Nunes Bacha – CRB-7/4403

Dedico este trabalho ao meu pai Celso (in memoriam), por todo o apoio, todos os
ensinamentos e todo o amor.
Agradecimentos
Ao Targino, Moacyr e Teemu pela orientação, pelos ensinamentos e por toda aten-
ção durante todo o trabalho.
À minha mãe Cláudia e minha avó Regina, por todo o apoio e carinho.
Ao Kaizô e Henrique pelo apoio para ingressar no mestrado e por tudo que aprendi
com eles nos últimos anos.
Ao Flávio, à Maria e a todo o pessoal do Esporte em Números por todas as
conversas e por todo o aprendizado.
A todo corpo docente da EMAp pela excelência de ensino.
Ao Bruno, Thiago, Letícia e todos amigos da EMAp por alegrarem todos meus
dias pré-pandemia.
Ao meu primo Pedro e ao Vinicius pelas discussões aleatórias sobre futebol.
E a todos meus amigos que me ajudaram a superar esse tempo difícil.
Resumo
Futebol é o esporte mais popular do mundo e há um grande interesse na
previsão de resultados das partidas que acontecem ao redor do mundo. O intuito
deste trabalho é desenvolver e avaliar modelos in-play de processos de Poisson para
para a Série A do Campeonato Brasileiro de Futebol. O principal objetivo é apresen-
tar modelos para os gols e para isso, também são descritos modelos para os cartões
vermelhos e acréscimos. São utilizados dados de gols, cartões vermelhos, acréscimos
e valor de mercado dos jogadores das temporadas de 2015 até 2020. Por fim, esses
modelos são comparados com um modelo pre-game de Poissons independentes que
é bastante utilizado na literatura.
Palavras-chaves: processos de Poisson; modelos in-play; previsão; futebol.

Lista de ilustrações
Figura 1 – Exemplo de página de partida no site da CBF . . . . . . . . . . . . . . 14

Figura 2 – Exemplo de partes da súmula no site da CBF . . . . . . . . . . . . . . 15
Figura 3 – Placares mais comuns . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Figura 4 – Frequência de gols marcados por mandantes e visitantes . . . . . . . . 16
Figura 5 – Acréscimos do primeiro tempo . . . . . . . . . . . . . . . . . . . . . . . 17
Figura 6 – Acréscimos do segundo tempo . . . . . . . . . . . . . . . . . . . . . . . 17
Figura 7 – Acréscimo médio ao longo das temporadas . . . . . . . . . . . . . . . . 18
Figura 8 – Taxa de gols . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Figura 9 – Taxa de cartões vermelhos . . . . . . . . . . . . . . . . . . . . . . . . . 20
Figura 10 – Diferença entre os logaritmos dos valores dos times e gols marcados
pelo time mandante . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Figura 11 – Diferença entre os logaritmos dos valores dos times e gols marcados
pelo time visitante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Figura 12 – Exemplo de eventos considerados para o modelo de gols . . . . . . . . 32

Figura 13 – Exemplo de eventos considerados para o modelo de cartões vermelhos . 32
Figura 14 – Taxa de cartões vermelhos da equipe mandante por minuto observada
e estimada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Figura 15 – Taxa de cartões vermelhos da equipe visitante por minuto observada e
estimada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Figura 16 – Médias geométricas para as previsões de resultado do Modelo 0 no

início das partidas vs 𝜉 . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Figura 17 – Médias geométricas das previsões para resultados em comparação com
o Modelo 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Figura 18 – Médias geométricas das previsões para resultados em comparação com
o Modelo 0 (apenas partidas com cartões vermelhos no primeiro tempo) 48
Figura 19 – Médias geométricas das previsões para placares em comparação com o
Modelo 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Figura 20 – Estimativa do parâmetro 𝛾 do Modelo 4 ao longo do tempo . . . . . . 49
Figura 21 – Exemplo de previsão minuto a minuto com o Modelo 4 . . . . . . . . . 50
Lista de quadros
Quadro 1 – Variáveis da base Resultados . . . . . . . . . . . . . . . . . . . . . . . 15

Quadro 2 – Variáveis da base Gols . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Quadro 3 – Variáveis da base Cartões Vermelhos . . . . . . . . . . . . . . . . . . . 20
Quadro 4 – Variáveis utilizadas nos modelos das taxas de gols . . . . . . . . . . . 36
Lista de tabelas
Tabela 1 – Valor de mercado médio dos 11 titulares por equipe em milhões de euros 21
Tabela 2 – Modelos para 𝜋 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

Tabela 3 – Estimativas dos parâmetros dos modelos de acréscimos . . . . . . . . . 32
Tabela 4 – Modelos para a taxa de gols da equipe mandante . . . . . . . . . . . . 36
Tabela 5 – Modelos para a taxa de gols da equipe visitante . . . . . . . . . . . . . 37
Tabela 6 – AIC e BIC para os modelos das taxas de gols . . . . . . . . . . . . . . 37
Tabela 7 – Estimativas dos parâmetros dos modelos de gols . . . . . . . . . . . . . 37
Tabela 8 – Estimativas para os parâmetros 𝛼 e 𝛽 do Modelo 3 . . . . . . . . . . . 38
Tabela 9 – Estimativas para os parâmetros 𝛼 e 𝛽 do Modelo 4 . . . . . . . . . . . 39
Tabela 10 – Comparação entre as probabilidades para resultados estimadas pelos

modelos e a frequência relativa observada nas partidas . . . . . . . . . 44
Tabela 11 – Comparação entre as probabilidades para quantidade de gols marcados
pelo time mandante estimadas pelos modelos e a frequência relativa
observada nas partidas . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Tabela 12 – Comparação entre as probabilidades para quantidade de gols marcados
pelo time visitante estimadas pelos modelos e a frequência relativa
observada nas partidas . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Tabela 13 – Médias geométricas das previsões para resultado . . . . . . . . . . . . . 47
Tabela 14 – Médias geométricas das previsões para resultado (apenas partidas com
cartões vermelhos no primeiro tempo) . . . . . . . . . . . . . . . . . . 47
Tabela 15 – Médias geométricas das previsões para placares . . . . . . . . . . . . . 48
9
Sumário
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 REVISÃO BIBLIOGRÁFICA . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3 BASES DE DADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.1 Súmulas da CBF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.1.1 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.1.2 Gols . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1.3 Cartões Vermelhos . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 Transfermarkt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4 REFERENCIAL TEÓRICO . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1 Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.2 Processo de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.3 AIC e BIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.4 Medida de Ignorância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5 MODELAGEM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.1 Modelo para resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.2 Modelo para acréscimos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.3 Introdução aos modelos de cartões vermelhos e gols . . . . . . . . . . . . . 31
5.4 Modelo para cartões vermelhos . . . . . . . . . . . . . . . . . . . . . . . . 33
5.5 Modelo para gols . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
6 PREVISÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.1 Função de ponderação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.2 Estratégia para previsões . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.3 Avaliação das previsões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.4 Parâmetro 𝛾 ao longo do tempo . . . . . . . . . . . . . . . . . . . . . . . . 49
6.5 Previsão minuto a minuto . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
7 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
10
1 INTRODUÇÃO
Futebol é o esporte mais popular do planeta, com cerca de 4 bilhões de fãs. Ele é
praticado ao redor de todo o mundo mas é particularmente popular na América Latina,
Europa e África (SHVILI, 2020). Devido à essa popularidade, previsões sobre as partidas
de futebol despertam grande interesse de torcedores, jornalistas e das próprias equipes
ao avaliar quem são os favoritos de cada partida e as probabilidades de título, vaga em
competições internacionais e rebaixamento de cada time.
Além de ser o esporte mais popular do mundo, futebol é o esporte em que mais
apostas são realizadas (VAN LIER, 2018). Graças a avanços tecnológicos, a indústria de
apostas esportivas online demonstrou um rápido crescimento nos últimos anos e uma das
novas formas de apostas são as apostas in-play ou in-game em que é possível apostar em
um evento esportivo em tempo real. Por exemplo, é possível apostar no resultado de uma
partida durante o andamento da mesma.
Os modelos de previsão de partidas de futebol podem ser divididos em modelos
pre-match, onde o objetivo é prever o vencedor e/ou o placar de uma partida apenas
com dados disponíveis até o início do jogo, e modelos in-game em que essas previsões são
atualizadas durante a partida. São essenciais para os modelos in-game informações sobre
o estado da partida.
De acordo com Robberechts, Haaren e Davis (2019), modelos de previsão in-game
tornaram-se cada vez mais populares em uma variedade de esportes como basquete, base-
bol e hóquei na última década. Esses modelos ajudam a contar a história de uma partida
encontrando momentos-chave, auxiliam equipes na tomada de decisão durante o jogo e
são relevantes para apostas in-play. Embora esses modelos sejam utilizados com frequên-
cia em outros esportes, eles são relativamente novos para o futebol, sendo popularizados
durante a Copa do Mundo de 2018 quando FiveThirtyEight (BOICE, 2018) e Google
publicaram suas previsões em tempo real.
Esta dissertação visa desenvolver e avaliar modelos in-game para a primeira divisão
do Campeonato Brasileiro de Futebol utilizando informações de gols, cartões vermelhos,
acréscimos e valor de mercado das equipes de todas as partidas realizadas nesse campe-
onato de 2015 até 2020. O principal objetivo é desenvolver modelos para os gols e para
isso, também são apresentados modelos para os acréscimos e cartões vermelhos.
Durante toda a a dissertação, incluindo a coleta de dados, modelagem e análise
dos resultados, foi utilizado o software R (R Core Team, 2021) e todo o código encontra-se
no repositório https://github.com/luizfgnmaia/soccer-live-predictions.
Capítulo 1. INTRODUÇÃO 11
Incluindo a Introdução, esta dissertação é composta de 7 capítulos. No Capítulo 2

é apresentada a revisão bibliográfica em que são exibidos diversos trabalhos sobre previ-
sões pre-game e in-game de partidas de futebol. O Capítulo 3 descreve as bases de dados
utilizadas nesta dissertação e apresenta uma análise exploratória dos dados. No Capítulo
4 são discutidas medidas de avaliação de modelos e de previsões além de conceitos im-
portantes para a construção dos modelos que são discutidos no Capítulo 5. Por sua vez,
o Capítulo 6 descreve como as previsões para as partidas foram realizadas e avalia essas
previsões. Por fim, as considerações finais são apresentadas no Capítulo 7.
12
2 REVISÃO BIBLIOGRÁFICA
A partir de Maher (1982), a modelagem pre-game dos gols de uma partida de

futebol através de distribuições de Poisson é bastante adotada. Usualmente, utilizam-se
parâmetros de ataque e defesa das equipes mandante e visitante para gerar as médias des-
sas distribuições. Anteriormente, a distribuição Binomial Negativa era empregada para
este tipo de modelagem (REEP; POLLARD; BENJAMIN, 1971). Dixon e Coles (1997)
modificaram esse modelo para levar em conta a tendência à ocorrência de placares baixos
(0-0, 1-0, 0-1 e 1-1) e introduziram um parâmetro de ponderação na função de verossi-
milhança que dá peso maior para as partidas mais recentes. Karlis e Ntzoufras (2000)
também examinaram a plausabilidade de modelos de Poisson.
Ainda sobre previsões pre-game, Suzuki et al. (2010) propuseram um modelo baye-
siano para a Copa do Mundo de 2006 que utiliza a opinião de especialistas e o ranking da
FIFA como prioris. Por sua vez, Godin et al. (2014) investigaram a viabilidade de utilizar
tweets para a predição de resultado das partidas da Premier League. Kharrat (2016) suge-
riu modelos que utilizam a distribuição de contagem Weibull e a estimação de parâmetros
de ataque e defesa para os jogadores ao invés das equipes.
Em relação à previsão in-play, Dixon e Robinson (1998) utilizaram processos in-
dependentes de Poisson para modelagem de gols que consideram as forças de ataque e
defesa das equipes, a vantagem do mando de campo, o placar atual da partida e quanto
tempo resta para o fim da partida. Zou et al. (2018) propuseram um modelo de cadeias
de Markov em tempo discreto baseado nesses processos de Poisson e apresentaram um
algoritmo para o cálculo das previsões com este modelo. Estes dois artigos não buscaram
prever os acréscimos das partidas mas modificaram a taxa de gols no último minuto de
cada tempo de jogo.
Boice (2018) descreve como foram realizadas as previsões da FiveThirtyEight para
a Copa do Mundo de 2018. Para a previsão pre-game, foram utilizadas Poissons indepen-
dentes para a quantidade de gols de cada equipe e a chance de empate foi aumentada.
Sobre a previsão in-play, calculou-se o número esperado de gols de cada equipe conside-
rando o tempo restante de jogo e combinou-se com o placar atual do jogo. Foi considerado
que a taxa de gols aumenta ao decorrer da partida e que equipes mais fortes tendem a
marcar gols em uma taxa maior quando estão atrás do placar. Finalmente, os acréscimos
foram estimados com o número de cartões e se a partida está acirrada ou não.
Robberechts, Haaren e Davis (2019) propuseram um modelo bayesiano que divide
o jogo em 100 unidades de tempo e os acréscimos podem ser estimados com random forest.
As variáveis utilizadas foram tempo restante para o fim do jogo, rating Elo (ELO, 1978)
Capítulo 2. REVISÃO BIBLIOGRÁFICA 13
das equipes, gols, cartões, média do número de passes certos no terceiro terço de campo
nas últimas 10 unidades de tempo e média do percentual de duelos vencidos nas últimas
10 unidades de tempo.
No que concerne a métodos de deep learning, Pettersson e Nyquist (2017) avaliaram
diferentes configurações de redes neurais recorrentes (RNN) com o objetivo de prever
resultados das partidas. Foram considerados os jogadores titulares e técnicos de cada
equipe assim como gols, assistências, cartões, substituições e pênaltis. Haugård e Vu
(2019) utilizaram redes feedforward e RNNs com o intuito de prever a próxima equipe a
marcar um gol. Além das line ups das equipes e eventos das partidas, foi empregada a
métrica Expected Goals (xG) do Understat1 , essa métrica dá uma indicação de o quão boa
é uma tentativa de gol e revela se uma equipe deveria ter marcado mais ou menos gols de
acordo com suas chances criadas durante uma partida ou temporada.
1
Endereço: https://understat.com/. Acesso em 15 de maio de 2021.
14
3 BASES DE DADOS
Neste capítulo são apresentadas as bases de dados utilizadas nessa dissertação e a

análise exploratória de dados.
3.1 Súmulas da CBF

Dados sobre os gols, cartões vermelhos e acréscimos de todas as partidas da Série
A do Campeonato Brasileiro das temporadas de 2015 até 2020 foram coletadas, via web
scraping através do pacote rvest (WICKHAM, 2020), nas páginas de Internet e súmulas
presentes no site da Confederação Brasileira de Futebol1 . Essas informações foram dividas
em três bases de dados: Resultados, Gols e Cartões Vermelhos.
As informações do placar das partidas e dos minutos dos gols foram coletas di-
retamente nas páginas das partidas enquanto que para os dados de acréscimos e cartões
vermelhos foi necessário baixar as súmulas em formato pdf e extrair essas informações
utilizando os pacotes pdftools (OOMS, 2020) e tabulizer (LEEPER, 2018). A Figuras 1 e
2 apresentam, respectivamente, exemplos das páginas das partidas e das súmulas.
Figura 1 – Exemplo de página de partida no site da CBF
Fonte: https://www.cbf.com.br/futebol-brasileiro/competicoes/campeonato-brasileiro-serie-a/2015/1.
Acesso em 24 de julho de 2021.
3.1.1 Resultados
Os resultados das partidas foram organizados em um data frame que possui 2.279
2
linhas , uma para cada partida, e as variáveis presentes no Quadro 1.
1
Endereço: https://www.cbf.com.br/. Acesso em 24 de julho de 2021.
2
A quantidade de partidas não é 2.280 pois o jogo entre Chapecoense e Atlético-MG da ultima rodada
de 2016 foi cancelada devido à tragédia do voo da Chapecoense.
Capítulo 3. BASES DE DADOS 15
Figura 2 – Exemplo de partes da súmula no site da CBF
Fonte: Adaptado de https://conteudo.cbf.com.br/sumulas/2015/142378se.pdf. Acesso em 15 de maio de

2021.
Quadro 1 – Variáveis da base Resultados
Variável Descrição
Season Temporada da partida
Match Indicador da partida na temporada, varia de 1 a 380
Date Data de realização da partida
Home Team Time mandante
Score Home Número de gols marcados pelo time mandante
Score Away Número de gols marcados pelo time visitante
Away Team Time visitante
Stoppage Time 1 Minutos de acréscimos do primeiro tempo
Stoppage Time 2 Minutos de acréscimos do segundo tempo
Fonte: Elaboração própria.
Considerando todas essas partidas, as equipes mandantes venceram 49,41% dos

confrontos, os times visitantes saíram vitoriosos em 24,09% dos jogos e 26,5% das partidas
terminaram empatadas.
Os dez placares mais comuns são exibidos na Figura 3. Observa-se que a vitória de 1
a 0 para o time mandante é o resultado mais comum, acontecendo em 14,9% das partidas,
no entanto, há uma grande variabilidade nos placares dado que a categoria “Outros”
possui 17,3% da frequência relativa. Por sua vez, a Figura 4 apresenta a frequência de
gols marcados pelas equipes, chama atenção que em menos de 25% das partidas o time
visitante marcou mais de 1 gol enquanto a equipe mandante não marcou gol em apenas
22,9% das partidas.
Figura 3 – Placares mais comuns
Fonte: Elaboração própria
Figura 4 – Frequência de gols marcados por mandantes e visitantes
O estudo dos acréscimos de uma partida de futebol é importante para a previsão in-
play pois, para esse tipo de previsão, é essencial o conhecimento do tempo de jogo restante
da partida. As Figuras 5 e 6 apresentam o comportamento dos acréscimos no primeiro e
no segundo tempo, respectivamente, considerando todas as partidas das seis temporadas
utilizadas. Percebe-se que os acréscimos do segundo tempo, em geral, são maiores do
que os acréscimos do primeiro tempo, possivelmente, pelo maior número de interrupções
no segundo tempo causadas, principalmente, pelas substituições de jogadores. Contudo,

verifica-se na Figura 7 que os minutos de acréscimos vêm aumentando ao decorrer dos anos.
A presença do árbitro de vídeo a partir da temporada de 2019 provavelmente impactou
em boa parte desse aumento do tempo de acréscimos ao causar mais pausas nas partidas.
Figura 5 – Acréscimos do primeiro tempo
Figura 6 – Acréscimos do segundo tempo

Figura 7 – Acréscimo médio ao longo das temporadas
3.1.2 Gols
Para estruturar os 5.379 gols coletados nas súmulas, as informações destes gols
foram colocados em um data frame em que cada linha se refere a um gol e as colunas são
descritas no Quadro 2.
Quadro 2 – Variáveis da base Gols
Score Home Número de gols marcados pelo time mandante
Score Away Número de gols marcados pelo time visitante
Team 1 se o gol foi marcado pelo time mandante; 2 caso contrário
Minute Minuto do gol (0 até 45)
Stoppage Time Minutos de acréscimos do gol (se o gol foi marcado após o tempo
regulamentar)
Half 1 se o gol foi marcado no 1º tempo; 2 caso contrário
A taxa de gols minuto a minuto é apresentada na Figura 8. É visível que essa taxa
é maior no segundo tempo do que no primeiro tempo. O aumento dessa taxa nos acrés-
cimos também chama atenção, no entanto, são poucas as partidas com tantos minutos
de acréscimo, principalmente no primeiro tempo. Por exemplo, apenas 75 das 2.279 par-
tidas possuíram um primeiro tempo com duração de 50 minutos ou mais. Considerando

estas 75 partidas, 137 minutos foram jogados após os 50 minutos do primeiro tempo e
10 gols foram marcados neste período. Alberti et al. (2013) também encontraram esse
comportamento nas principais ligas europeias nas temporadas de 2008-09 até 2010-11 e
sugerem que o cansaço dos jogadores e a redução do tempo disponível para marcar um
gol contribuem para o aumento da taxa de gols na parte final da partida.
Figura 8 – Taxa de gols
3.1.3 Cartões Vermelhos

Similarmente ao que foi feito com os gols, os cartões vermelhos foram estrutura-
dos em uma tabela com um cartão vermelho por linha. O Quadro 3 exibe a descrição
das colunas desta base de dados. Cartões vermelhos para membros da comissão técnica e
jogadores do banco de reservas foram removidos manualmente e cartões vermelhos rece-
bidos no intervalo do primeiro para o segundo tempo foram considerados como recebidos
no primeiro minuto do segundo tempo. O número de cartões vermelhos presentes na base
de dados foi 540.
Observa-se na Figura 9 que a taxa de cartões vermelhos é crescente ao longo da
partida. Uma possível explicação para esse fenômeno é que uma forma para um jogador
ser expulso é recebendo dois cartões amarelos, o que usualmente leva um certo tempo para
acontecer. Além disso, constata-se um grande aumento desta taxa nos últimos minutos
da partida de forma semelhante a taxa gols. Outro fato interessante é que as equipes
visitantes possuem uma média de 0,1461 jogador expulso por partida enquanto os times
mandantes possuem apenas 0,0908.
Quadro 3 – Variáveis da base Cartões Vermelhos
Score Home Número de gols marcados pela Time mandante
Score Away Número de gols marcados pela Time visitante
Team 1 se o cartão vermelho foi recebido por um jogador do time mandante;
2 caso contrário
Minute Minuto do cartão vermelho (0 até 45)
Stoppage Time Minutos de acréscimos do cartão vermelho (se o cartão foi recebido
após o tempo regulamentar)
Half 1 se o cartão vermelho foi recebido no 1º tempo; 2 caso contrário
Figura 9 – Taxa de cartões vermelhos
3.2 Transfermarkt
O website Transfermarkt3 disponibiliza, entre outras informações associadas ao
futebol, estimativas do valor de mercado dos jogadores em euros, inclusive de clubes
brasileiros. Por sua vez, a basedosdados.org oferece para download gratuito uma base de
dados4 do Campeonato Brasileiro que possui, entre outras variáveis, a soma dos valores
3
Endereço: https://www.transfermarkt.com/. Acesso em 15 de maio de 2021.
4
Endereço: https://basedosdados.org/dataset/mundo-transfermarkt-competicoes/resource/23e8dde9-
ffb8-4e7c-a92b-83d4ef9d2c79. Acesso em 15 de maio de 2021.
de mercado estimados pelo Transfermarkt dos 11 jogadores titulares de cada equipe em

cada jogo do Campeonato Brasileiro. Essas variáveis (valor do time mandante e valor do
time visitante) foram adicionadas à base Resultados.
Aproximadamente 4,6% dos valores de mercado de 2015 até 2020 possuíam valores
faltantes na base de dados e foram substituídos pela média da equipe na temporada do jogo
do dado faltante. A Tabela 1 apresenta as médias dos valores de mercado dos jogadores
titulares considerando as 6 temporadas. A equipe do Flamengo chama atenção por possuir
uma média de 43,4 milhões de euros nesse período, cerca de 20% maior do que o segundo
colocado.
Tabela 1 – Valor de mercado médio dos 11 titulares por equipe em milhões de euros
Time Valor de mercado médio Temporadas

1 Flamengo 43,44 6
2 Palmeiras 35,39 6
3 Grêmio 34,05 6
4 São Paulo 32,81 6
5 Corinthians 31,05 6
6 Atlético-MG 27,86 6
7 Santos 27,63 6
8 Cruzeiro 26,71 5
9 Internacional 24,59 5
10 Fluminense 21,33 6
11 Red Bull Bragantino 17,20 1
12 Athletico-PR 16,60 6
13 Sport 14,67 5
14 Vasco da Gama 13,82 5
15 Bahia 11,96 4
16 Figueirense 11,60 2
17 Ponte Preta 11,60 3
18 Botafogo 11,56 5
19 Chapecoense 11,21 5
20 Vitória 11,09 3
21 Coritiba 9,72 4
22 Goiás 9,09 3
23 CSA 8,07 1
24 Fortaleza 7,99 2
25 América-MG 7,66 2
26 Ceará 7,54 3
27 Joinville 7,51 1
28 Atlético-GO 7,23 2
29 Santa Cruz 7,19 1
30 Avaí 6,69 3
31 Paraná 5,08 1
Levando em conta as partidas das temporadas de 2015 até 2020, o maior valor de
uma equipe titular foi de 90,9 milhões de euros do Flamengo na última rodada de 2019
enquanto o menor valor foi do Grêmio, que jogou com um time reserva avaliado em 600
mil euros na última rodada do campeonato de 2017. A maior diferença absoluta entre
os valores das equipes ocorreu na partida entre Grêmio e Bahia em 2019 e foi de 76,85
milhões de euros a favor do Grêmio.
A Figura 10 exibe boxplots para a diferença entre os logaritmos dos valores de
mercado dos times e os gols marcados pelo time mandante. Observa-se que conforme a
diferença entre os valores de mercado aumenta, a equipe mandante tende a fazer mais
gols. Por sua vez, boxplots para a diferença entre os logaritmos dos valores de mercado
dos times e os gols marcados pelo time visitante são apresentados na Figura 11, nesse
caso, nota-se uma correlação negativa entre a diferença dos logaritmos dos valores das
equipes e os gols marcados pelo time visitante.
Figura 10 – Diferença entre os logaritmos dos valores dos times e gols marcados pelo time mandante

Figura 11 – Diferença entre os logaritmos dos valores dos times e gols marcados pelo time visitante

24
4 REFERENCIAL TEÓRICO
Neste capítulo são descritos conceitos essenciais para a construção dos modelos
estatísticos presentes no Capítulo 5 como processos de Poisson e são apresentadas métricas
para avaliação de modelos e de previsões que são empregadas no Capítulos 5 e 6.
4.1 Distribuição de Poisson

Uma variável aleatória, 𝑋, possui distribuição de Poisson se seus possíveis valores
são inteiros positivos e se
P{𝑋 = 𝑛} = 𝜆𝑛 𝑒−𝜆 /𝑛!
em que 𝜆 é um parâmetro que representa a média e a variância desta distribuição (KING-
MAN, 1992).
Esta distribuição pode ser empregada para modelar uma série de eventos aleató-
rios em um intervalo de tempo. Como exemplos, a quantidade de chamadas telefônicas
recebidas em um dia, o número de pacientes que chegam em um hospital em uma hora e
a quantidade de gols marcados por uma equipe de futebol em uma partida.
Além disso, na distribuição de Poisson, o tempo entre os eventos tem distribuição
exponencial com a mesma taxa 𝜆, ou seja, se 𝑌 é o tempo de espera entre esses eventos,
tem-se que
𝑓𝑌 (𝑦) = 𝜆 exp(−𝜆𝑦), para 𝑦 ≥ 0.
4.2 Processo de Poisson

Um processo aleatório {𝑁 (𝑡), 𝑡 ∈ [0, ∞)} é chamado de processo de contagem se
𝑁 (𝑡) é o número de eventos ocorridos do instante de tempo 0 até, e incluindo, o instante
de tempo 𝑡. Para um processo de contagem, tem-se que
1. 𝑁 (0) = 0;
2. 𝑁 (𝑡) ∈ {0, 1, 2, ...}, para todo 𝑡 ∈ [0, ∞);
3. Para 0 ≤ 𝑠 < 𝑡, 𝑁 (𝑡) − 𝑁 (𝑠) é o número de eventos ocorridos no intervalo (𝑠, 𝑡].
Um processo de contagem possui incrementos independentes se o número de even-

tos em intervalos disjuntos são independentes e possui incrementos estacionários se para
todo 𝑡2 > 𝑡1 ≥ 0, 𝑁 (𝑡2 ) − 𝑁 (𝑡1 ) tem a mesma distribuição de 𝑁 (𝑡2 − 𝑡1 ). O processo de
contagem {𝑁 (𝑡), 𝑡 ∈ [0, ∞)} é chamado de processo de Poisson com taxa fixa 𝜆 > 0, se
Capítulo 4. REFERENCIAL TEÓRICO 25
1. 𝑁 (𝑡) tem incrementos independentes;
2. O número de eventos ocorridos em qualquer intervalo de tamanho 𝜏 > 0 tem distri-

buição Poisson(𝜆𝜏 ).
Por esta definição, conclui-se que a distribuição do número de eventos em qualquer

intervalo depende apenas do comprimento do intervalo e não de sua localização. Portanto,
um processo de Poisson possui incrementos estacionários.
Suponha que 𝑁 (𝑡) é o número de clientes que chegam em um restaurante até o
tempo 𝑡 e que acredita-se que eles cheguem de maneira aleatória, então podemos pensar
em modelar 𝑁 (𝑡) como um processo de Poisson. No entanto, percebemos que esse processo
não possui incrementos estacionários, por exemplo, verificamos que a taxa de chegada é
maior no horário do almoço do que na parte da tarde. Em um cenário como esse, podemos
modelar 𝑁 (𝑡) como um processo de Poisson não-homogêneo. Este processo tem todas as
outras propriedades de um processo de Poisson exceto pelo fato de sua taxa ser uma
função do tempo, ou seja, 𝜆 = 𝜆(𝑡).
Para um processo de Poisson não-homogêneo com taxa 𝜆(𝑡) em que 𝜆(𝑡) : [0, ∞) ↦→
[0, ∞) é uma função integrável, o número de eventos em qualquer intervalo é uma variável
aleatória com distribuição de Poisson, no entanto, seu parâmetro depende da localização
do intervalo, ou seja,
(︂ ∫︁ 𝑡+𝑠 )︂
𝑁 (𝑡 + 𝑠) − 𝑁 (𝑡) ∼ Poisson 𝜆(𝑥)𝑑𝑥
𝑡
(PISHRO-NIK, 2016).
Exemplificando: seja 𝑁 (𝑡) um processo de Poisson não homogêneo com taxa 𝜆(𝑡).
Então a probabilidade de que não aconteça nenhum evento em um intervalo (𝑠, 𝑡] é
⎛ ⎞⎛ ⎞0 ⎛ ⎞
∫︁ 𝑡 ∫︁ 𝑡 ∫︁ 𝑡
exp ⎝ − 𝜆(𝑥)𝑑𝑥⎠⎝ 𝜆(𝑥)𝑑𝑥⎠ /0! = exp ⎝ − 𝜆(𝑥)𝑑𝑥⎠
𝑠 𝑠 𝑠
e a probabilidade de que aconteça exatamente um evento é

⎛ ⎞⎛ ⎞1 ⎛ ⎞⎛ ⎞
∫︁ 𝑡 ∫︁ 𝑡 ∫︁ 𝑡 ∫︁ 𝑡
exp ⎝ − 𝜆(𝑥)𝑑𝑥⎠⎝ 𝜆(𝑥)𝑑𝑥⎠ /1! = exp ⎝ − 𝜆(𝑥)𝑑𝑥⎠⎝ 𝜆(𝑥)𝑑𝑥⎠.
𝑠 𝑠 𝑠 𝑠
Por fim, Pasupathy (2010) apresenta diversos métodos para geração de processos
de Poisson não-homogêneos. O método utilizado nesta dissertação foi o método da inversão
proposto por Çinlar (1975).
4.3 AIC e BIC

O Critério de Informação de Akaike (AIC) (AKAIKE, 1974) é uma métrica utili-
zada para avaliar a qualidade relativa de modelos estatísticos de acordo com o ajuste aos
dados e a parcimônia. Seja 𝑘 o número de parâmetros estimados em um modelo e 𝐿 ^ o

valor máximo da verossimilhança deste modelo, então define-se o AIC para esse modelo
como
^
AIC = 2𝑘 − 2 ln(𝐿).
Dada uma coleção de modelos para um conjunto de dados, é escolhido o modelo

com o menor AIC. Esse critério de escolha beneficia modelos com uma qualidade boa
de ajuste de acordo com a função verossimilhança e penaliza modelos que possuem uma
grande quantidade de parâmetros.
Suponha que um conjunto de dados é gerado por um processo desconhecido 𝑓 .
A ideia do AIC é encontrar dentre uma coleção de modelos 𝑚 = {𝑚1 , 𝑚2 , ..., 𝑚𝑙 }, o
modelo que minimiza a divergência de Kullback-Leibler entre 𝑓 e 𝑚𝑖 , 𝑖 = 1, ..., 𝑙, ou seja,
o modelo que possui a menor perda de informação para representar 𝑓 . No entanto, como
𝑓 é desconhecido, não podemos calcular essas quantidades diretamente. Todavia, através
do AIC é possível estimar essas perdas de informação assintoticamente.
Além do AIC só ser válido assintoticamente, ele é apenas uma medida relativa, o
que significa que se todos os modelos candidatos se ajustarem mal aos dados, ao escolher
o modelo com menor AIC, estaríamos apenas optando pelo modelo “menos pior”.
Por outro lado, o Critério de Informação Bayesiano (BIC) (SCHWARZ, 1978),
outra ferramenta para seleção de modelos, é definido como
^
BIC = 𝑘 ln(𝑛) − 2 ln(𝐿)
em que 𝑛 é o número de observações do conjunto de dados. O termo de penalização da

quantidade de parâmetros no BIC é maior do que o do AIC. Ademais, o BIC não depende
da priori especificada e sua interpretação é similar á do AIC.
O BIC é derivado para servir como uma aproximação da distribuição de probabi-
lidade a posteriori de um modelo candidato. Com uma amostra suficientemente grande,
o modelo escolhido pelo BIC idealmente corresponde ao modelo candidato cuja posteriori
é mais provável (NEATH; CAVANAUGH, 2012).
4.4 Medida de Ignorância

A medida de ignorância foi proposta por Roulston e Smith (2002) e é uma versão
modificada da entropia relativa, ela pode ser calculada para previsões probabilísticas e
eventos realizados. Se 𝑒1 , ..., 𝑒𝑁 são eventos realizados e 𝑝1 , ..., 𝑝𝑁 são as probabilidades
atribuídas à esses eventos, a medida de ignorância pode ser definida como
𝑁
1 ∑︁
IGN(𝑝1 , ..., 𝑝𝑁 ) = − log 𝑝𝑘 .
𝑁 𝑘=1 2
Por exemplo, considere as seguintes previsões para duas partidas de futebol; par-
tida 1: (H; D; A) = (0,5; 0,3; 0,2) e partida 2: (H; D; A) = (0,7; 0,2; 0,1) em que H, D
e A são respectivamente, a probabilidade estimada de vitória do time mandante, a pro-
babilidade estimada de empate e a probabilidade estimada de vitória do time visitante.
Considere, também, que as equipes mandantes venceram as duas partidas. Neste caso,
valor dessa medida seria:
1
IGN(𝑝1 , 𝑝2 ) = − [log2 (0,5) + log2 (0,7)] ≈ 0,7573.
2
Para uma previsão particular, considere duas funções de densidade de probabili-

dade (PDF), definidas pelos vetores 𝑟 (PDF verdadeira) e 𝑓 (PDF do modelo). A 𝑖-ésima
componente destes vetores corresponde à probabilidade de ocorrência do 𝑖-ésimo resultado,
𝑖 = 1, .., 𝑛, assim, 𝑛𝑖=1 𝑟 𝑖 = 𝑛𝑖=1 𝑓 𝑖 = 1. Note que para esta previsão, 𝑝 é o componente
∑︀ ∑︀
𝑓𝑖 correspondente ao evento realizado. O valor esperado da Medida de Ignorância para

esta previsão é
𝑛
∑︁
E[IGN] = − log2 𝑓𝑖 .
𝑖=𝑖
Desse modo, a entropia relativa entre 𝑟 e 𝑓 é

𝑛
∑︁
𝐷(𝑟|𝑓 ) = (𝑟𝑖 log2 𝑟𝑖 − 𝑟𝑖 log2 𝑓𝑖 )
𝑖=𝑖
𝑛
∑︁
= (𝑟𝑖 log2 𝑟𝑖 ) + E[IGN]
𝑖=𝑖
= E[IGN] − H(𝑟)
em que H(𝑟) é a entropia da PDF verdadeira, H(𝑟) = − 𝑛𝑖=𝑖 (𝑟𝑖 log2 𝑟𝑖 ). Como a PDF
∑︀
verdadeira é desconhecida, H(𝑟) não pode ser calculada. Portanto, não há como saber
quando um modelo perfeito (𝐷(𝑟|𝑓 ) = 0) foi obtido. Porém, como 𝐷(𝑟|𝑓 ) não pode
ser negativa, nenhum modelo terá valor menor de E[IGN] do que um modelo perfeito
(ROULSTON; SMITH, 2002).
A Medida de Ignorância só leva em consideração a probabilidade prevista para o
evento que realmente ocorreu e possui uma relação com a média geométrica das probabi-
lidades dadas para os eventos ocorridos

⎛ ⎞1
𝑁 𝑁 ∏︀𝑁 1
𝑝𝑘 ) 𝑁
= 2log2 (
∏︁
Média Geométrica(𝑝1 , ..., 𝑝𝑁 ) = ⎝ 𝑝𝑘 ⎠ 𝑘=1
𝑘=1
∑︀𝑁
= 21/𝑁 𝑘=1
log2 (𝑝𝑘 )
= 2−IGN(𝑝1 ,...,𝑝𝑘 )
(FONTANELLA, 2021).
Outro aspecto importante é que para a medida de ignorância, quanto maior o seu
valor, menor a qualidade das previsões enquanto que para a média geométrica, quanto
maior o valor, melhor são as previsões. Para um conjunto de modelos de previsão, o
ranqueamento baseado na média geométrica das probabilidades dos eventos ocorridos
será o mesmo ranqueamento encontrado com a medida de ignorância, levando em conta
a orientação dessas duas medidas.
29
5 MODELAGEM
Neste capítulo são apresentados os modelos cujas previsões são avaliadas no pró-
ximo capítulo. Inicialmente, um modelo para resultados pre-game de Dixon e Coles (1997)
e Maher (1982) é introduzido. Posteriormente são retratados modelos para acréscimos e
cartões vermelhos. Esses dois modelos são necessários para reproduzir o estado do jogo
para que seja possível simular as partidas para obter as previsões. Por fim, são exibidos
os modelos para gols.
Todas as funções de verossimilhança dos modelos apresentados são convexas, ga-
rantindo existência e unicidade de seus máximos. Os parâmetros destas funções foram
estimados pela maximização da função de verossimilhança. Para a maximização destas
funções foi empregado o software de otimização Mosek (APS, 2019) através do pacote de
otimização convexa CVXR (FU; NARASIMHAN; BOYD, 2020). Optou-se por usar este
pacote por sua eficiência e facilidade de uso.
5.1 Modelo para resultados

O pressuposto deste modelo é que o número de gols feitos pelos times mandante
e visitante em uma partida são variáveis aleatórias independentes com distribuição de
Poisson que possuem médias determinadas por parâmetros de ataque e defesa desses times
e por um parâmetro de mando de campo. Em uma partida 𝑘 entre a equipe mandante 𝑖
e a equipe visitante 𝑗, sejam 𝑋𝑘 e 𝑌𝑘 as quantidades de gols feitos pelos times mandante
e visitante, respectivamente, então
𝑋𝑘 ∼ Poisson(𝛼𝑖 𝛽𝑗 𝛾)
𝑌𝑘 ∼ Poisson(𝛼𝑗 𝛽𝑖 )
em que os parâmetros 𝛼 se referem ao poder de ataque das equipes, os parâmetros 𝛽

medem as defesas1 e o parâmetro 𝛾 está relacionado ao mando de campo da partida.
Com 𝑛 equipes, esse modelo possui 2𝑛 + 1 parâmetros e sua otimização possui
infinitas soluções pois é possível multiplicar todos os parâmetros 𝛼 por uma constante 𝑐
e todos os parâmetros 𝛽 por 1/𝑐 e encontrar outra solução ótima. Portanto, foi escolhida
a seguinte restrição para os parâmetros, com o objetivo de que os parâmetros estimados
estejam em escalas parecidas além da solução ser única. Esta restrição também foi adotada
1
Quanto maior o parâmetro 𝛽 de um time, maior é o número esperado de gols que esse time irá sofrer
em uma partida.
Capítulo 5. MODELAGEM 30
nos outros modelos de gols

𝑛
∑︁ 𝑛
∑︁
ln 𝛼𝑘 = ln 𝛽𝑘 .
𝑘=1 𝑘=1
Sendo 𝑁 o número de partidas, a função de log-verossimilhança desse modelo é

𝑁
∑︁
𝑙(𝛼, 𝛽, 𝛾) ∝ −𝜆𝑘 + 𝑥𝑘 log(𝜆𝑘 ) − 𝜇𝑘 + 𝑦𝑘 log(𝜇𝑘 )
𝑘=1
em que
𝜆𝑘 = 𝛼𝑖(𝑘) 𝛽𝑗(𝑘) 𝛾
𝜇𝑘 = 𝛼𝑗(𝑘) 𝛽𝑖(𝑘)
e 𝑖(𝑘) e 𝑗(𝑘) são os índices dos times mandante e visitante, respectivamente, da 𝑘-ésima
partida.
5.2 Modelo para acréscimos

Para uma partida 𝑘, os acréscimos do primeiro tempo, 𝑈𝑘1 , e do segundo tempo,
𝑈𝑘2 , são modelados da seguinte forma:
𝑈𝑘1 ∼ Poisson(𝜋𝑘1 )
𝑈𝑘2 ∼ Poisson(𝜋𝑘2 )
e sua função de log-verossimilhança é

𝑁
𝑙(𝜋 1 , 𝜋 2 ) ∝ −𝜋𝑘1 + 𝑢1𝑘 log(𝜋𝑘1 ) − 𝜋𝑘2 + 𝑢2𝑘 log(𝜋𝑘2 ).
∑︁
𝑘=1
Para a 𝑘-ésima partida, consideramos as seguintes covariáveis para a modelagem

das taxas 𝜋𝑘1 e 𝜋𝑘2 :
• 𝑔𝑘𝑞 : quantidade de gols marcados no tempo regulamentar do 𝑞-ésimo tempo;
• 𝑟𝑘𝑞 : quantidade de jogadores expulsos do campo de jogo durante o tempo regulamen-

tar do 𝑞-ésimo tempo;
• 𝑐𝑘 : dummy que recebe o valor 1 se a partida está empatada ou se apenas um gol

separa as equipes aos 45 minutos do segundo tempo e 0, caso contrário.
Como verificado na Figura 7, há um certo aumento do acréscimo médio das par-

tidas ao longo dos anos. Desse modo, para avaliar os modelos para acréscimos, apenas
as partidas da temporada de 2020 foram utilizadas. A Tabela 2 apresenta modelos com
diferentes expressões para as médias 𝜋 1 e 𝜋 2 e seus critérios AIC e BIC. Segundo esses
Tabela 2 – Modelos para 𝜋
Modelo 𝜋1 𝜋2 AIC BIC

0 𝜂1 𝜂2 2956,45 2964,33
1 𝜂 1 + 𝜑𝑔 1 𝜂 2 + 𝜑𝑔 2 2958,45 2970,27
2 𝜂 1 + 𝜑1 𝑔 1 𝜂 2 + 𝜑2 𝑔 2 2959,33 2975,09
3 𝜂 1 + 𝜌𝑟1 𝜂 2 + 𝜌𝑟2 2948,42 2960,24
4 𝜂 1 + 𝜌1 𝑟 1 𝜂 2 + 𝜌2 𝑟 2 2940,81 2956,57
5 𝜂 1 + 𝜌1 𝑟 1 𝜂 2 + 𝜌2 𝑟2 + 𝜅𝑐 2922,49 2942,19
critérios, o melhor modelo é o 5 que possui parâmetros de intercepto 𝜂, parâmetros de

cartões vermelhos 𝜌 e o parâmetro 𝜅.
Para o Modelo 5, as estimativas pontuais dos interceptos foram em, minutos,
2,9223 e 4,7355 para o primeiro e segundo tempo, respectivamente, o que corrobora os
gráficos vistos no Capítulo 3. Por sua vez, as estimativas para os parâmetros 𝜌 foram
1,8709 min/expulsão e 0,1346 min/expulsão, o que sugere que uma expulsão no primeiro
tempo tem um impacto maior nos acréscimos do primeiro tempo do que uma expulsão
no segundo tempo tem nos acréscimos do segundo tempo. Vale a pena adicionar que
os cartões vermelhos podem ser recebidos em consequência de faltas graves que causam
interrupções na partida para atendimento médico dos jogadores.
Quando uma das equipes possui uma larga vantagem no placar é comum que
os árbitros optem por acréscimos menores. Assim sendo, incluiu-se o parâmetro 𝜅 para
medir o aumento dos acréscimos no segundo tempo quando a partida está acirrada e sua
estimativa pontual foi 1,1878 minuto, o que indica que uma partida apertada tem, em
média, cerca de 71 segundos a mais de acréscimo.
Outro aspecto interessante do Modelo 5 é que ele não considera a quantidade de
gols marcados. No Modelo 2, por exemplo, as estimativas para os parâmetros 𝜑 foram
0,0556 minuto/gol e −0,0968 minuto/gol, valores muito baixos que confirmam as con-
clusões dos critérios de seleção de modelos adotados. Por fim, a Tabela 3 apresenta as
estimativas de todos os parâmetros dos modelos de acréscimos. Além dos fatos supraci-
tados, chama atenção que a inclusão do parâmetro 𝜅 diminui levemente a estimativa do
parâmetro de intercepto do segundo tempo.
5.3 Introdução aos modelos de cartões vermelhos e gols

Antes da descrição do modelo para cartões vermelhos, é introduzida a notação a
seguir. Seja 𝑡𝑞𝑘,𝑙 o tempo, em minutos, do 𝑙-ésimo evento do 𝑞-ésimo tempo da 𝑘-ésima
partida. Um evento de partida (não confundir com a definição de evento em teoria das
probabilidades) pode ser o início do tempo (minuto 0), o fim do tempo (minuto 45 +
Tabela 3 – Estimativas dos parâmetros dos modelos de acréscimos
Modelo 𝜂1 𝜂2 𝜑1 𝜑2 𝜌1 𝜌2 𝜅
0 3,0158 5,5974 - - - - -
1 3,0197 5,6014 −0,0036 - - -
2 2,9580 5,7077 0,0556 −0,0968 - - -
3 2,9651 5,5024 - - 0,7797 -
4 2,9223 5,5805 - - 1,8709 0,1234 -
5 2,9223 4,7355 - - 1,8709 0,1346 1,1878
acréscimos), o minuto de um gol ou de um cartão vermelho. Por exemplo, a Figura 12

demonstra os eventos de uma partida em que aconteceram dois gols no primeiro tempo e
uma expulsão e um gol no segundo tempo. Por sua vez, seja 𝑡𝑞*𝑘,𝑙 o tempo, em minutos, do
𝑙-ésimo evento do 𝑞-ésimo tempo da 𝑘-ésima partida considerando que os eventos podem
ser apenas cartões vermelhos, início e fim do tempo conforme apresentado na Figura
13. Os tempos 𝑡𝑞𝑘,𝑙 são utilizados nos modelos para os gols enquanto os tempos 𝑡𝑞*𝑘,𝑙 são
empregados nos modelos de cartões vermelhos.
Figura 12 – Exemplo de eventos considerados para o modelo de gols
Figura 13 – Exemplo de eventos considerados para o modelo de cartões vermelhos
Além disso, define-se as seguintes variáveis dummies para os intervalos (𝑡𝑞𝑘,𝑙 , 𝑡𝑞𝑘,𝑙+1 ]
ou (𝑡𝑞* 𝑞*
𝑘,𝑙 , 𝑡𝑘,𝑙+1 ] do 𝑞-ésimo tempo de uma partida 𝑘
⎧
𝑞
⎨1,
⎪
se a equipe mandante marcou um gol no intervalo (𝑡𝑞𝑘,𝑙 , 𝑡𝑞𝑘,𝑙+1 ];
𝐻𝑘,𝑙 =⎪
⎩0, caso contrário.
⎧
⎨1,
⎪
se a equipe visitante marcou um gol no intervalo (𝑡𝑞𝑘,𝑙 , 𝑡𝑞𝑘,𝑙+1 ];
𝐴𝑞𝑘,𝑙 =
⎩0,
⎪
caso contrário.
⎧
𝑞* se a equipe mandante teve um jogador expulso no intervalo (𝑡𝑞*
⎨1,
⎪ 𝑞*
𝑘,𝑙 , 𝑡𝑘,𝑙+1 ];
𝐻𝑘,𝑙 =⎪
⎩0, caso contrário.
⎧
⎨1,
⎪
se a equipe visitante teve um jogador expulso no intervalo (𝑡𝑞* 𝑞*
𝑘,𝑙 , 𝑡𝑘,𝑙+1 ];
𝐴𝑞*
𝑘,𝑙 =
⎩0,
⎪
caso contrário.
Continuando, condicional ao estado atual de uma partida 𝑘, modela-se as quanti-
dades de gols da equipe mandante, gols da equipe visitante, cartões vermelhos da equipe
mandante e cartões vermelhos da equipe visitante como processos de Poisson com taxas
𝜆𝑘 (𝑡), 𝜇𝑘 (𝑡), 𝜆*𝑘 (𝑡) e 𝜇*𝑘 (𝑡), respectivamente. Ademais, são definidas as seguintes funções
∫︁ 𝑡2
Λ(𝑡1 , 𝑡2 ) = 𝜆𝑘 (𝑡) 𝑑𝑡
𝑡1
∫︁ 𝑡2
M(𝑡1 , 𝑡2 ) = 𝜇𝑘 (𝑡) 𝑑𝑡
𝑡1
∫︁ 𝑡2
Λ* (𝑡1 , 𝑡2 ) = 𝜆*𝑘 (𝑡) 𝑑𝑡
𝑡1
∫︁ 𝑡2
M* (𝑡1 , 𝑡2 ) = 𝜇*𝑘 (𝑡) 𝑑𝑡
𝑡1
Finalmente, é necessário modelar as taxas 𝜆𝑘 (𝑡), 𝜇𝑘 (𝑡), 𝜆*𝑘 (𝑡) e 𝜇*𝑘 (𝑡) para obter os
modelos para gols e cartões vermelhos.
5.4 Modelo para cartões vermelhos

De acordo com o que foi explorado na Seção 4.2, a probabilidade de ambas as
equipes não terem jogadores expulsos em um intervalo de tempo (𝑟, 𝑠] é
(︂ )︂ (︂ )︂
exp − Λ* (𝑟, 𝑠) exp − M* (𝑟, 𝑠)
por outro lado, a probabilidade da equipe visitante ter um jogador expulso e a mandante
nenhum é (︂ )︂ (︂ )︂(︂ )︂
exp − Λ* (𝑟, 𝑠) exp − M* (𝑟, 𝑠) M* (𝑟, 𝑠) .
Desse modo, obtém-se a log-verossimilhança para o modelo de cartões vermelhos

de uma partida 𝑘 tomando o somatório de todos os intervalos de ambos os tempos dessa
partida
𝑙𝑘 (𝜆*𝑘 , 𝜇*𝑘 ) =
ℓ1*
𝑘 −1
[︃
(︁ )︁ (︁ )︁
]︃
∑︁
* * * *
= −Λ (𝑡1* 1*
𝑘,𝑙 , 𝑡𝑘,𝑙+1 ) −M (𝑡1* 1*
𝑘,𝑙 , 𝑡𝑘,𝑙+1 ) + 1*
𝐻𝑘,𝑙 log Λ (𝑡1* 1*
𝑘,𝑙 , 𝑡𝑘,𝑙+1 ) + 𝐴1*
𝑘,𝑙 log M (𝑡1* 1*
𝑘,𝑙 , 𝑡𝑘,𝑙+1 )
𝑙=0
ℓ2*
𝑘 −1
[︃
(︁ )︁ (︁ )︁
]︃
∑︁
* * * *
+ −Λ (𝑡2* 2*
𝑘,𝑙 , 𝑡𝑘,𝑙+1 ) −M (𝑡2* 2*
𝑘,𝑙 , 𝑡𝑘,𝑙+1 ) + 2*
𝐻𝑘,𝑙 log Λ (𝑡2* 2*
𝑘,𝑙 , 𝑡𝑘,𝑙+1 ) + 𝐴2*
𝑘,𝑙 log M (𝑡2* 2*
𝑘,𝑙 , 𝑡𝑘,𝑙+1 )
𝑙=0
em que ℓ𝑞*
𝑘 é a quantidade de eventos (cartões vermelhos, início e fim dos tempos) do 𝑞-
ésimo tempo da 𝑘-ésima partida. A função de log-verossimilhança de todas as partidas é
obtida realizando o somatório das verossimilhanças das partidas. É importante frisar que
esta função de verossimilhança assume que não é possível que dois jogadores da mesma
equipe sejam expulsos no mesmo minuto. Isso é um evento extremamente raro e, caso
aconteça, pode-se considerar que um jogador foi expulso no minuto 𝑡 e o outro no minuto
𝑡 + 1.
Optou-se pelas seguintes expressões para as taxas dos processos dos cartões ver-
melhos (︂ )︂
𝜆*𝑘 (𝑡) = 𝐴𝜆 𝑡 + 45 I{tempo = 2}
(︂ )︂
𝜇*𝑘 (𝑡) = 𝐴𝜇 𝑡 + 45I{tempo = 2}
em que tempo = 1 para o primeiro tempo e tempo = 2 para o segundo tempo. Ou seja,
para essa expressão está sendo considerado o tempo regulamentar agregado ao invés de
reiniciar o relógio ao início do segundo tempo. Dessa forma, a taxa de cartões vermelhos
dos acréscimos do primeiro tempo é similar à taxa dos primeiros minutos do segundo
tempo.
Utilizando os dados de todas as partidas de 2015 até 2020, os parâmetros que
maximizam a função de verossimilhança são 𝐴𝜆 = 1,973 × 10−5 e 𝐴𝜇 = 3,19 × 10−5 , o que
sugere que as equipes visitantes possuem uma maior chance de ter um jogador expulso.
As Figuras 14 e 15 comparam as taxas observadas para os cartões vermelhos com o valor
encontrado com a expressão escolhida para 𝜆*𝑘 (𝑡) e 𝜇*𝑘 (𝑡) com os parâmetros ótimos, o
ajuste é satisfatório considerando a simplicidade da expressão escolhida.
5.5 Modelo para gols

A função de verossimilhança do modelo para gols é obtida de forma similar a do
modelo de cartões vermelhos e também utilizou-se dados das temporadas de 2015 até
2020 para avaliá-lo. A log-verossimilhança do modelo de gols para uma partida 𝑘 é
𝑙𝑘 (𝜆𝑘 , 𝜇𝑘 ) =
ℓ1𝑘 −1 [︃ (︁ )︁ (︁ )︁
]︃
∑︁
= − Λ(𝑡1𝑘,𝑙 , 𝑡1𝑘,𝑙+1 ) − M(𝑡1𝑘,𝑙 , 𝑡1𝑘,𝑙+1 ) + 1
𝐻𝑘,𝑙 log Λ(𝑡1𝑘,𝑙 , 𝑡1𝑘,𝑙+1 ) + 𝐴1𝑘,𝑙 log M(𝑡1𝑘,𝑙 , 𝑡1𝑘,𝑙+1 )
𝑙=0
ℓ2𝑘 −1 [︃ (︁ )︁ )︁
]︃
(︁
∑︁
+ − Λ(𝑡2𝑘,𝑙 , 𝑡2𝑘,𝑙+1 ) − M(𝑡2𝑘,𝑙 , 𝑡2𝑘,𝑙+1 ) + 𝐻𝑘,𝑙
2
log Λ(𝑡2𝑘,𝑙 , 𝑡2𝑘,𝑙+1 ) + 𝐴2𝑘,𝑙 log M(𝑡2𝑘,𝑙 , 𝑡2𝑘,𝑙+1 ) .
𝑙=0
em que ℓ𝑞𝑘 é a quantidade de eventos (gols, cartões vermelhos, início e fim dos tempos) do
𝑞-ésimo tempo da 𝑘-ésima partida.
Figura 14 – Taxa de cartões vermelhos da equipe mandante por minuto observada e estimada
Figura 15 – Taxa de cartões vermelhos da equipe visitante por minuto observada e estimada
Para modelar as taxas de gols empregou-se tanto variáveis relacionadas às equipes

quanto variáveis do momento da partida. Iniciou-se com um modelo simples em que as
taxas de gols das equipes são semelhantes às do modelo apresentado na Subseção 5.1 e, a
partir desse modelo, outros parâmetros e variáveis foram adicionados. Este modelo inicial,
Modelo 0, é estático, ou seja, neste modelo as taxas de gols das equipes não variam ao
longo da partida. Os demais modelos são dinâmicos, eles consideram que as taxas de gols
dos times variam de acordo com o estado da partida. O Quadro 4 introduz as variáveis
levadas em conta nos modelos das taxas de gols.
Quadro 4 – Variáveis utilizadas nos modelos das taxas de gols
tempo 1 para o primeiro tempo; 2 para o segundo tempo
𝑥(𝑡) Quantidade de gols marcados pela equipe mandante até o minuto 𝑡
𝑦(𝑡) Quantidade de gols marcados pela equipe visitante até o minuto 𝑡
𝑥* (𝑡) Quantidade de jogadores da equipe mandante expulsos até o minuto 𝑡
𝑦 * (𝑡) Quantidade de jogadores da equipe visitante expulsos até o minuto 𝑡
𝑣𝑖 Logaritmo do valor de mercado dos 11 titulares da equipe mandante
𝑣𝑗 Logaritmo do valor de mercado dos 11 titulares da equipe visitante
Além dos parâmetros de força de ataque 𝛼, de defesa 𝛽 e de mando de campo

𝛾 que são fixos durante a partida, avaliou-se os parâmetros 𝜏 , que mensura a diferença
entre as taxas de gols do primeiro para o segundo tempo; Δgol , que mede o impacto da
diferença de gols marcados pelas equipes na taxa de gols; Δjogador , que avalia o efeito da
diferença da quantidade de jogadores nas equipes e Δvalor , que afere o impacto causado
pela disparidade no valor das equipes nas taxas de gols.
A Tabela 4 apresenta as diferentes expressões experimentadas para a taxa de gols
do time mandante enquanto a Tabela 5 descreve as respectivas expressões para as equipes
visitantes. Note que o Modelo 0 foi o único que não utilizou informações de acréscimos,
este modelo considera que todos os tempos de todas as partidas têm 45 minutos e que as
taxas de gols de ambos os times são constantes. O valor dos critérios AIC e BIC para os
modelos são exibidos na Tabela 6, verifica-se nessa tabela que há uma melhora, tanto no
AIC quanto no BIC, quando os parâmetros 𝜏 , Δgol , Δjogador e Δvalor são adicionados.
Tabela 4 – Modelos para a taxa de gols da equipe mandante
Modelo ln 𝜆𝑘 (𝑡)
0 ln 𝛼𝑖 + ln 𝛽𝑗 + ln 𝛾
1 ln 𝛼𝑖 + ln 𝛽𝑗 + ln 𝛾 + I{tempo = 2} ln 𝜏
2 ln 𝛼𝑖 + ln 𝛽𝑗 + ln 𝛾 + I{tempo = 2} ln 𝜏 + ln Δgol (𝑥(𝑡) − 𝑦(𝑡))
3 ln 𝛼𝑖 + ln 𝛽𝑗 + ln 𝛾 + I{tempo = 2} ln 𝜏 + ln Δgol (𝑥(𝑡) − 𝑦(𝑡)) + ln Δjogador (𝑦 * (𝑡) − 𝑥* (𝑡))
4 ln 𝛼𝑖 + ln 𝛽𝑗 + ln 𝛾 + I{tempo = 2} ln 𝜏 + ln Δgol (𝑥(𝑡) − 𝑦(𝑡)) + ln Δjogador (𝑦 * (𝑡) − 𝑥* (𝑡))
+ ln Δvalor (𝑣𝑖 − 𝑣𝑗 )
As estimativas pontuais dos parâmetros que não são dependentes dos times são
exibidos na Tabela 7, observa-se que a inclusão de novos parâmetros não proporciona uma
mudança considerável nas estimativas dos parâmetros anteriores.
Os parâmetros 𝛼 e 𝛽 dos Modelos 3, que não utiliza informações do valor de
mercado das equipes, e 4, que utiliza essas informações, são apresentados nas Tabelas 8 e
9, respectivamente. Nota-se um impacto da adição dos valores de mercado nos parâmetros
Tabela 5 – Modelos para a taxa de gols da equipe visitante
Modelo ln 𝜇𝑘 (𝑡)
0 ln 𝛼𝑗 + ln 𝛽𝑖
1 ln 𝛼𝑗 + ln 𝛽𝑖 + I{tempo = 2} ln 𝜏
2 ln 𝛼𝑗 + ln 𝛽𝑖 + I{tempo = 2} ln 𝜏 + ln Δgol (𝑦(𝑡) − 𝑥(𝑡))
3 ln 𝛼𝑗 + ln 𝛽𝑖 + I{tempo = 2} ln 𝜏 + ln Δgol (𝑦(𝑡) − 𝑥(𝑡)) + ln Δjogador (𝑥* (𝑡) − 𝑦 * (𝑡))
4 ln 𝛼𝑗 + ln 𝛽𝑖 + I{tempo = 2} ln 𝜏 + ln Δgol (𝑦(𝑡) − 𝑥(𝑡)) + ln Δjogador (𝑥* (𝑡) − 𝑦 * (𝑡))
+ ln Δvalor (𝑣𝑗 − 𝑣𝑖 )
Tabela 6 – AIC e BIC para os modelos das taxas de gols
Modelo Log-verossimilhança Parâmetros AIC BIC

0 -15254,00 63 30634,01 31090,62
1 -15226,76 64 30581,53 31045,39
2 -15206,75 65 30543,50 31014,61
3 -15188,09 66 30508,18 30986,54
4 -15175,80 67 30485,61 30971,21
Tabela 7 – Estimativas dos parâmetros dos modelos de gols
Modelo 𝛾 𝜏 Δgol Δjogador Δvalor

0 1,5039 - - - -
1 1,5047 1,2240 - - -
2 1,5656 1,2306 0,9183 - -
3 1,5554 1,2243 0,9107 1,3823 -
4 1,5425 1,2248 0,9063 1,3932 1,1745
𝛼 e 𝛽 das equipes e, sumarizando a força das equipes por 𝛼/𝛽, observa-se que os times
que, geralmente, possuem equipes de maior valor de mercado como Cruzeiro, Flamengo,
São Paulo e Corinthians perderam algumas posições enquanto times de menor potencial
financeiro como Ceará, Fortaleza, Goiás, Atlético-GO e Red Bull Bragantino subiram
algumas colocações.
No Modelo 4, a estimativa pontual do parâmetro 𝛾 é 1,5425, o que significa que o
time mandante possui, em média, uma taxa de gols 54% maior do que a do time visitante.
Por sua vez, a estimativa do parâmetro referente ao segundo tempo, 𝜏 , é 1,2248, ou seja,
a taxa de gols é 22,48% maior na segunda metade da partida para ambas as equipes.
A estimativa para o parâmetro Δgol é 0,9063, ou seja, quando uma equipe possui
uma vantagem de um gol no placar, sua taxa de gols é multiplicada por 0,9063 e quando
um time vence por dois gols, sua taxa de gols é multiplicada por 0,90632 = 0,8294. Em
contrapartida, um time que está perdendo por um gol tem sua taxa de gols multiplicada
Tabela 8 – Estimativas para os parâmetros 𝛼 e 𝛽 do Modelo 3
Time 𝛼 𝛽 𝛼/𝛽
1 Palmeiras 0,1350 0,0705 1,9161
2 Flamengo 0,1345 0,0758 1,7742
3 Grêmio 0,1162 0,0692 1,6810
4 Santos 0,1196 0,0730 1,6386
5 Red Bull Bragantino 0,1148 0,0713 1,6098
6 Corinthians 0,1082 0,0684 1,5820
7 Internacional 0,1024 0,0682 1,5029
8 São Paulo 0,1079 0,0749 1,4410
9 Atlético-MG 0,1294 0,0905 1,4301
10 Athletico-PR 0,0993 0,0724 1,3712
11 Cruzeiro 0,0886 0,0779 1,1365
12 Ceará 0,0893 0,0816 1,0942
13 Fortaleza 0,0944 0,0869 1,0863
14 Bahia 0,0998 0,0919 1,0851
15 Fluminense 0,0962 0,0891 1,0793
16 Ponte Preta 0,0933 0,0928 1,0061
17 Sport 0,0950 0,0993 0,9574
18 Botafogo 0,0833 0,0885 0,9409
19 Atlético-GO 0,0865 0,0948 0,9117
20 Coritiba 0,0797 0,0901 0,8841
21 Chapecoense 0,0854 0,0973 0,8777
22 Vitória 0,0992 0,1140 0,8703
23 Vasco da Gama 0,0815 0,0953 0,8546
24 Goiás 0,0918 0,1128 0,8137
25 Figueirense 0,0728 0,0962 0,7576
26 Santa Cruz 0,0983 0,1399 0,7021
27 Joinville 0,0578 0,0935 0,6184
28 América-MG 0,0576 0,1033 0,5578
29 Avaí 0,0619 0,1111 0,5566
30 CSA 0,0513 0,1145 0,4478
31 Paraná 0,0393 0,1117 0,3518
por 1/0,9063 = 1,1033 e uma equipe tem sua taxa de gols multiplicada por 1,10332 =
1,2173 quando está atrás no placar por dois gols. O valor menor do que 1 do parâmetro
Δgol indica que, normalmente, as equipes com vantagem no placar diminuem a intensidade
dos seus ataques enquanto as equipes que estão atrás no placar vão em busca do gol com
mais ímpeto.
Para o parâmetro Δjogador a estimativa pontual é 1,3932, ou seja, uma equipe com
um jogador a mais tem sua taxa de gols aumentada em 39,32% enquanto um time com
um jogador a menos possui sua taxa de gols multiplicada por 1/1,3932 = 0,7178. Por fim,
a estimativa para o parâmetro Δvalor é 1,1745, o que significa que um time que possui o
Tabela 9 – Estimativas para os parâmetros 𝛼 e 𝛽 do Modelo 4
Time 𝛼 𝛽 𝛼/𝛽
1 Red Bull Bragantino 0,1117 0,0734 1,5229
2 Palmeiras 0,1169 0,0814 1,4363
3 Ceará 0,0980 0,0743 1,3199
4 Grêmio 0,1025 0,0778 1,3172
5 Santos 0,1069 0,0812 1,3164
6 Fortaleza 0,1029 0,0797 1,2915
7 Athletico-PR 0,0965 0,0748 1,2901
8 Flamengo 0,1137 0,0898 1,2662
9 Internacional 0,0937 0,0747 1,2543
10 Corinthians 0,0960 0,0774 1,2403
11 Atlético-MG 0,1154 0,1015 1,1364
12 Bahia 0,1019 0,0900 1,1316
13 São Paulo 0,0941 0,0862 1,0919
14 Atlético-GO 0,0948 0,0871 1,0882
15 Ponte Preta 0,0961 0,0905 1,0613
16 Botafogo 0,0861 0,0861 0,9999
17 Coritiba 0,0844 0,0851 0,9920
18 Fluminense 0,0905 0,0946 0,9573
19 Goiás 0,0992 0,1045 0,9486
20 Sport 0,0944 0,1003 0,9404
21 Cruzeiro 0,0804 0,0861 0,9346
22 Chapecoense 0,0883 0,0947 0,9334
23 Vitória 0,1018 0,1117 0,9114
24 Vasco da Gama 0,0820 0,0951 0,8622
25 Santa Cruz 0,1083 0,1275 0,8495
26 Figueirense 0,0751 0,0938 0,8008
27 Joinville 0,0650 0,0838 0,7754
28 Avaí 0,0700 0,0983 0,7123
29 América-MG 0,0629 0,0949 0,6630
30 CSA 0,0565 0,1029 0,5496
31 Paraná 0,0456 0,0967 0,4719
valor de mercado duas vezes o do seu oponente tem sua taxa de gols multiplicada por
1,1745log(2) = 1,1179 (e a do adversário multiplicada por 1/1,1179 = 0,8945) e, para uma
diferença de dez vezes, a taxa de gols da equipe favorecida é multiplicada por 1,4481.
Uma vantagem da inclusão do parâmetro Δvalor é que ele possibilita captar desfalques de
jogadores-chave nas equipes.
É importante ressaltar que outras formas de inserir o impacto de gols e cartões
vermelhos foram avaliadas, como utilizar parâmetros distintos para as equipes e considerar
que o impacto do placar não depende da quantidade de gols e apenas de quem está
liderando a partida, mas a forma apresentada foi a que apresentou os melhores resultados,
além de possuir a menor quantidade de parâmetros.

41
6 PREVISÕES
O intuito deste capítulo é avaliar as previsões para resultado e placar das partidas
selecionadas além de descrever como estas previsões foram realizadas e que modelos foram
utilizados. No fim do capítulo também é apresentado um exemplo de previsão minuto a
minuto para uma partida específica.
6.1 Função de ponderação

Os parâmetros estimados nos modelos descritos no Capítulo 5 são fixos durante
os jogos e anos porém, na realidade, a performance de um time de futebol pode variar
bastante de uma temporada para outra e até mesmo dentro de uma mesma temporada.
Outro aspecto negativo da estimação descrita no Capítulo 5 é que todas as partidas têm
o mesmo peso, ou seja, uma partida realizada há 5 anos tem a mesma contribuição para
a estimação da força atual de uma equipe do que o último jogo deste time. Além disso,
para avaliar a previsão para uma partida, é essencial que o modelo utilizado para previsão
só faça uso de dados disponíveis até o dia em que tal partida ocorreu.
Com isso em mente, Dixon e Coles (1997) propuseram uma função de “pseudo-
verossimilhança”
𝐿𝑘 (𝜃)exp(−𝜉(𝑑−𝑑𝑘 ))
∏︁
𝐿𝑡 (𝜃) =
𝑘∈𝑆𝑡
em que 𝑑𝑘 é o dia em que a 𝑘-ésima partida foi realizada, 𝐿𝑘 é a função de verossimilhança

da 𝑘-ésima partida, 𝑆𝑡 = {𝑘 : 𝑑𝑘 < 𝑑}, 𝜃 é o vetor paramétrico e 𝜉 é o parâmetro
de ponderação que precisa ser estimado. Essa formulação permite que as partidas mais
recentes tenham uma maior contribuição para estimação. No entanto, quando vista como
função de (𝜃, 𝜉), essa “pseudo-verossimilhança” não é convexa e, portanto, não podemos
utilizar os pacotes de otimização convexa. Esses autores encontraram o valor 𝜉 = 0,0065
como valor ótimo, porém eles mediram o tempo em meias semanas ao invés de dias, desse
modo, transformando para dias, o valor ótimo deles seria 𝜉𝐷𝐶 = 0,001857.
6.2 Estratégia para previsões

Para que os modelos para as partidas mais antigas tenham uma quantidade ra-
zoável de observações, as quatro primeiras partidas de cada time, assim como toda a
temporada de 2015 foram ignoradas para as previsões, totalizando 1.858 partidas cujas
previsões foram computadas com os diversos modelos. Com exceção do Modelo 0, que não
considera os acréscimos e em que as taxas de gols de ambas equipes são constantes ao
Capítulo 6. PREVISÕES 42
longo da partida, cada um dos modelos para gols foi combinado com o modelo de cartões
vermelhos e com o Modelo 5 de acréscimos para realização das previsões.
Para cada partida, estimou-se os parâmetros desses cinco modelos utilizando a
função de ponderação de Dixon e Coles (1997) e, simulou-se o restante da partida a partir
dos minutos 0, 15 e 30 de cada tempo levando em conta o estado atual do jogo. Foram rea-
lizadas 100.000 simulações para cada instante de tempo considerado, totalizando 600.000
simulações para cada partida por modelo. A partir das simulações, é possível construir
as previsões para placar e resultado. Por exemplo, a probabilidade de uma determinada
partida terminar em 2-1 dado que estava 1-0 aos 30 minutos do primeiro tempo é estimada
pela proporção das simulações dessa partida, iniciadas no minuto 30, que terminaram em
2-1. Similarmente, a probabilidade dessa mesma partida terminar em empate é dada pela
proporção das simulações que terminaram empatadas. Essas simulações são necessárias
apenas para os modelos dinâmicos. Para o modelo estático é possível calcular diretamente
as probabilidades dos gols das equipes a partir das taxas das distribuições de Poisson, do
placar atual da partida e do tempo restante de jogo.
A princípio, optou-se por utilizar 𝜉𝐷𝐶 e, posteriormente, estimar um valor para 𝜉
específico para o Campeonato Brasileiro. A estratégia seria avaliar a média geométrica
para as previsões pre-game de resultados do Modelo 0 com diferentes valores para 𝜉 e
utilizar o valor que maximizasse esta medida. Decidiu-se pelo Modelo 0 pois ele é o mais
simples e menos custoso computacionalmente. Entretanto, ao avaliar as médias geométri-
cas, encontrou-se um valor ótimo para 𝜉 muito próximo de 𝜉𝐷𝐶 e decidiu-se por manter
𝜉𝐷𝐶 . A Figura 16 apresenta as médias geométricas para os diferentes valores de 𝜉 com
𝜉𝐷𝐶 destacado em vermelho.
Figura 16 – Médias geométricas para as previsões de resultado do Modelo 0 no início das partidas vs 𝜉

Para as simulações de cada partida realizadas com os modelos dinâmicos, computou-

se os tempos para expulsões de ambas as equipes até o minuto 45 do primeiro tempo de
jogo. Posteriormente, simulou-se os tempos dos gols das equipes mandantes e visitante
até o minuto 45 do primeiro tempo, atualizando as taxas de gols de acordo com o placar
atual e quantidade de jogadores em campo. Posteriormente, os acréscimos para o primeiro
tempo de jogo foram simulados e computou-se as quantidades de cartões vermelhos e gols
no período de acréscimo. Estes mesmos procedimentos foram realizados para o tempo
regulamentar do segundo tempo de jogo e para os acréscimos do segundo tempo.
6.3 Avaliação das previsões

Considerando os resultados das 1.858 partidas previstas e o agregado de todas
as previsões realizadas, a Tabela 10 exibe a diferença entre as probabilidades estimadas
pelos modelos para vitória da equipe mandante, empate ou vitória da equipe visitante nos
diferentes instantes de tempo e o que, de fato, ocorreu nestas partidas. Em geral, não há
diferenças exorbitantes, a maior delas é de 2,11% para as previsões do Modelo 0 aos 30
minutos. Sobre a previsão pre-game, chama atenção que os Modelos 0 e 1 subestimam a
probabilidade de empate enquanto que os outros modelos a superestimam, isso acontece
devido à inclusão, no Modelo 2, do parâmetro Δgol que aumenta a taxa de gols de
equipes que estão atrás no placar e diminui a intensidade de gols dos times que estão
vencendo a partida, o que proporciona um aumento na probabilidade de empates. Em
relação a previsão in-game, nota-se que todos os modelos apresentam uma probabilidade
estimada de vitória da equipe mandante ligeiramente menor do que a observada, a maior
diferença ocorre consistentemente para as previsões do Modelo 0 enquanto que o Modelo
4 demonstra valores mais próximos aos observados.
As probabilidades estimadas para as quantidades de gols marcados pelo time man-
dante, também levando em conta todas as simulações feitas, estão na Tabela 11. Em com-
paração com a frequência relativa observadas nestas partidas, todos os Modelos exibiram
uma probabilidade alta da equipe mandante fazer 0 gol, esta superestimação ocorre com
maior intensidade no Modelo 0 (com valor máximo de 5,37% para as previsões no Minuto
30) e é bem próxima de zero nos Modelos 2, 3 e 4. Na maior parte dos casos, também
percebe-se uma pequena subestimação da probabilidade do time mandante marcar exa-
tamente 1 gol e uma modesta superestimação da probabilidade da equipe mandante fazer
4 ou mais gols.
Por sua vez, a Tabela 12 apresenta as probabilidades estimadas para o número de
gols feitos pelo time visitante. Observa-se uma subestimação da probabilidade das equi-
pes visitantes marcarem 4 ou mais gols em praticamente todos os modelos e instantes
de tempo. Além disso, nas previsões feitas até o primeiro terço da partida, há uma su-
Tabela 10 – Comparação entre as probabilidades para resultados estimadas pelos modelos e a frequência
relativa observada nas partidas
Minuto Mandante Empate Visitante

Observado 0,4882 0,2686 0,2433
Modelo 0 −0,0055 −0,0078 +0,0132
Modelo 1 −0,0037 −0,0059 +0,0095
0 Modelo 2 +0,0013 +0,0063 −0,0078
Modelo 3 −0,0036 +0,0102 −0,0067
Modelo 4 +0,0032 +0,0048 −0,0081
Modelo 0 −0,0123 −0,0015 +0,0137
Modelo 1 −0,0070 −0,0048 +0,0117
15 Modelo 2 −0,0029 +0,0076 −0,0048
Modelo 3 −0,0071 +0,0113 −0,0042
Modelo 4 −0,0010 +0,0060 −0,0051
Modelo 0 −0,0211 +0,0078 +0,0132
Modelo 1 −0,0123 −0,0009 +0,0131
30 Modelo 2 −0,0090 +0,0110 −0,0021
Modelo 3 −0,0127 +0,0145 −0,0019
Modelo 4 −0,0073 +0,0097 −0,0025
Modelo 0 −0,0140 +0,0082 +0,0057
Modelo 1 −0,0023 −0,0027 +0,0050
45 Modelo 2 −0,0029 +0,0092 −0,0064
Modelo 3 −0,0056 +0,0120 −0,0065
Modelo 4 −0,0010 +0,0076 −0,0067
Modelo 0 −0,0117 +0,0114 +0,0002
Modelo 1 −0,0021 +0,0014 +0,0005
60 Modelo 2 −0,0032 +0,0110 −0,0079
Modelo 3 −0,0050 +0,0129 −0,0080
Modelo 4 −0,0019 +0,0097 −0,0080
Modelo 0 −0,0092 +0,0114 −0,0023
Modelo 1 −0,0018 +0,0032 −0,0015
75 Modelo 2 −0,0029 +0,0095 −0,0067
Modelo 3 −0,0036 +0,0104 −0,0069
Modelo 4 −0,0019 +0,0086 −0,0067
perestimação na probabilidade dessas equipes não marcarem gols em todos os modelos.

No caso dos gols marcados pelo time visitante, o maior desvio em relação às frequências
observadas é de 3,52% que ocorre nas previsões do Modelo 0 realizadas no Minuto 30.
As médias geométricas, descritas na Seção 4.4, para as previsões de resultados e
placares constam nas Tabelas 13 e 15, respectivamente. Nota-se que estes valores são muito
próximos. Desse modo, para uma melhor visualização, as diferenças entre os logaritmos
das médias geométricas das previsões dos modelos e os logaritmos das médias geométricas
das previsões do Modelo 0 são exibidas nas Figuras 17 e 19. De acordo com as médias
geométricas das previsões, percebe-se que as previsões vão melhorando em qualidade
Tabela 11 – Comparação entre as probabilidades para quantidade de gols marcados pelo time mandante
estimadas pelos modelos e a frequência relativa observada nas partidas
Minuto 0 1 2 3 4 5+
Observado 0,2282 0,3617 0,2465 0,1173 0,0350 0,0113
Modelo 0 +0,0289 −0,0319 −0,0163 −0,0023 +0,0110 +0,0107
Modelo 1 +0,0286 −0,0301 −0,0153 −0,0028 +0,0100 +0,0095
0 Modelo 2 +0,0092 −0,0215 −0,0001 +0,0012 +0,0073 +0,0040
Modelo 3 +0,0105 −0,0191 +0,0001 −0,0004 +0,0059 +0,0030
Modelo 4 +0,0079 −0,0227 +0,0001 +0,0021 +0,0080 +0,0046
Modelo 0 +0,0409 −0,0259 −0,0198 −0,0085 +0,0065 +0,0069
Modelo 1 +0,0316 −0,0276 −0,0156 −0,0046 +0,0084 +0,0078
15 Modelo 2 +0,0126 −0,0186 −0,0007 −0,0011 +0,0054 +0,0025
Modelo 3 +0,0137 −0,0164 −0,0005 −0,0025 +0,0041 +0,0016
Modelo 4 +0,0116 −0,0200 −0,0007 −0,0002 +0,0062 +0,0031
Modelo 0 +0,0537 −0,0190 −0,0236 −0,0156 +0,0013 +0,0032
Modelo 1 +0,0348 −0,0241 −0,0156 −0,0071 +0,0060 +0,0059
30 Modelo 2 +0,0165 −0,0151 −0,0015 −0,0042 +0,0030 +0,0013
Modelo 3 +0,0174 −0,0130 −0,0012 −0,0054 +0,0018 +0,0004
Modelo 4 +0,0159 −0,0165 −0,0013 −0,0034 +0,0036 +0,0016
Modelo 0 +0,0373 −0,0131 −0,0169 −0,0129 +0,0023 +0,0034
Modelo 1 +0,0152 −0,0214 −0,0077 −0,0019 +0,0087 +0,0071
45 Modelo 2 +0,0022 −0,0131 +0,0038 −0,0005 +0,0053 +0,0022
Modelo 3 +0,0032 −0,0112 +0,0040 −0,0017 +0,0042 +0,0014
Modelo 4 +0,0020 −0,0144 +0,0037 +0,0001 +0,0058 +0,0028
Modelo 0 +0,0296 −0,0068 −0,0122 −0,0114 +0,0005 +0,0003
Modelo 1 +0,0110 −0,0156 −0,0041 −0,0014 +0,0065 +0,0036
60 Modelo 2 +0,0014 −0,0088 +0,0043 −0,0002 +0,0034 −0,0001
Modelo 3 +0,0016 −0,0072 +0,0044 −0,0007 +0,0025 −0,0006
Modelo 4 +0,0015 −0,0100 +0,0040 +0,0003 +0,0038 +0,0004
Modelo 0 +0,0226 +0,0062 −0,0135 −0,0106 −0,0028 −0,0019
Modelo 1 +0,0068 −0,0025 −0,0056 −0,0023 +0,0029 +0,0007
75 Modelo 2 +0,0009 +0,0020 −0,0006 −0,0018 +0,0009 −0,0013
Modelo 3 +0,0004 +0,0029 −0,0005 −0,0017 +0,0004 −0,0016
Modelo 4 +0,0009 +0,0011 −0,0006 −0,0015 +0,0012 −0,0011
conforme o tempo restante de jogo diminui.

Em relação às previsões de resultado, observa-se que o Modelo 0 é o que apresenta
as maiores médias geométricas pre-game mas é superado pelos demais modelos conforme
os minutos passam, possivelmente por não considerar o estado do jogo e os acréscimos.
Além disso, nota-se um salto das médias geométricas das previsões do Modelo 2 para o
Modelo 3, que inclui o parâmetro de cartões vermelhos. Esse aumento preditivo é ainda
mais significante quando atentamos apenas para as 82 partidas que possuíram um jogador
expulso no primeiro tempo conforme exibem a Tabela 14 e a Figura 18. Também, chama
atenção que os Modelos 3 e 4 apresentam os valores mais altos para essa medida e estes
Tabela 12 – Comparação entre as probabilidades para quantidade de gols marcados pelo time visitante
estimadas pelos modelos e a frequência relativa observada nas partidas
Minuto 0 1 2 3 4 5+
Observado 0,3870 0,3671 0,1792 0,0474 0,0151 0,0043
Modelo 0 +0,0186 −0,0144 −0,0130 +0,0087 +0,0000 +0,0000
Modelo 1 +0,0224 −0,0131 −0,0148 +0,0068 −0,0009 −0,0004
0 Modelo 2 +0,0095 −0,0005 −0,0091 +0,0049 −0,0032 −0,0018
Modelo 3 +0,0062 +0,0006 −0,0075 +0,0055 −0,0031 −0,0018
Modelo 4 +0,0096 −0,0009 −0,0091 +0,0051 −0,0031 −0,0017
Modelo 0 +0,0286 −0,0131 −0,0177 +0,0047 −0,0018 −0,0008
Modelo 1 +0,0220 −0,0112 −0,0146 +0,0059 −0,0015 −0,0008
15 Modelo 2 +0,0086 +0,0016 −0,0087 +0,0041 −0,0037 −0,0020
Modelo 3 +0,0055 +0,0028 −0,0074 +0,0045 −0,0036 −0,0020
Modelo 4 +0,0089 +0,0012 −0,0088 +0,0042 −0,0036 −0,0020
Modelo 0 +0,0352 −0,0108 −0,0204 +0,0011 −0,0036 −0,0016
Modelo 1 +0,0181 −0,0084 −0,0122 +0,0057 −0,0021 −0,0011
30 Modelo 2 +0,0052 +0,0034 −0,0063 +0,0040 −0,0042 −0,0022
Modelo 3 +0,0023 +0,0046 −0,0049 +0,0043 −0,0042 −0,0023
Modelo 4 +0,0055 +0,0030 −0,0064 +0,0041 −0,0040 −0,0022
Modelo 0 +0,0302 −0,0053 −0,0172 −0,0011 −0,0047 −0,0020
Modelo 1 +0,0103 −0,0032 −0,0078 +0,0048 −0,0028 −0,0014
45 Modelo 2 −0,0024 +0,0075 −0,0018 +0,0034 −0,0045 −0,0023
Modelo 3 −0,0044 +0,0088 −0,0008 +0,0032 −0,0046 −0,0023
Modelo 4 −0,0018 +0,0071 −0,0021 +0,0034 −0,0044 −0,0023
Modelo 0 +0,0244 +0,0044 −0,0211 −0,0012 −0,0048 −0,0018
Modelo 1 +0,0065 +0,0054 −0,0118 +0,0041 −0,0031 −0,0012
60 Modelo 2 −0,0035 +0,0138 −0,0072 +0,0031 −0,0044 −0,0019
Modelo 3 −0,0051 +0,0148 −0,0063 +0,0030 −0,0045 −0,0020
Modelo 4 −0,0027 +0,0132 −0,0074 +0,0031 −0,0044 −0,0019
Modelo 0 +0,0201 +0,0101 −0,0201 −0,0043 −0,0042 −0,0017
Modelo 1 +0,0041 +0,0105 −0,0115 +0,0007 −0,0027 −0,0012
75 Modelo 2 −0,0021 +0,0158 −0,0088 +0,0001 −0,0034 −0,0016
Modelo 3 −0,0032 +0,0162 −0,0081 +0,0001 −0,0035 −0,0017
Modelo 4 −0,0015 +0,0151 −0,0087 +0,0000 −0,0034 −0,0016
valores são muito próximos entre si. Por fim, é importante comentar que se todas as pre-
visões fossem realizadas seguindo as proporções observadas de vitória do time mandante,
empate ou vitória do time visitante presentes na Tabela 10, a média geométrica seria
0,351, valor inferior aos dos modelos analisados.
Considerando a previsão para placares, constata-se que as previsões do Modelo 0,
incluindo as previsões pre-game, não estão em um nível tão bom quanto o nível das pre-
visões para resultado, novamente, isso ocorre pois neste modelo, a taxa de gols independe
do estado atual do jogo. Esta ineficiência do Modelo 0 em prever o placar das partidas
está alinhada com o que as Tabelas 11 e 12 demonstram. Ademais, nota-se um maior salto
Tabela 13 – Médias geométricas das previsões para resultado
Modelo Minuto 0 Minuto 15 Minuto 30 Minuto 45 Minuto 60 Minuto 75

0 0,3616 0,3729 0,3914 0,4295 0,4836 0,5762
1 0,3597 0,3712 0,3907 0,4298 0,4846 0,5801
2 0,3590 0,3711 0,3910 0,4297 0,4841 0,5800
3 0,3608 0,3730 0,3939 0,4319 0,4853 0,5816
4 0,3608 0,3727 0,3937 0,4319 0,4854 0,5817
Figura 17 – Médias geométricas das previsões para resultados em comparação com o Modelo 0
Tabela 14 – Médias geométricas das previsões para resultado (apenas partidas com cartões vermelhos no
primeiro tempo)

0 0,3484 0,3456 0,3696 0,4143 0,4851 0,5772
1 0,3522 0,3502 0,3765 0,4218 0,4881 0,5800
2 0,3501 0,3505 0,3752 0,4211 0,4873 0,5792
3 0,3436 0,3427 0,3939 0,4397 0,4989 0,5850
4 0,3431 0,3453 0,3996 0,4446 0,5013 0,5877
nas médias geométricas das previsões com a inclusão do parâmetro Δgol em comparação
com as previsões de resultado e, mais uma vez, os Modelos 3 e 4 apresentam as maiores
médias geométricas e estas médias são muito próximas.
Figura 18 – Médias geométricas das previsões para resultados em comparação com o Modelo 0 (apenas
partidas com cartões vermelhos no primeiro tempo)
Tabela 15 – Médias geométricas das previsões para placares

0 0,0655 0,0754 0,0894 0,1203 0,1725 0,2752
1 0,0651 0,0753 0,0896 0,1205 0,1736 0,2804
2 0,0655 0,0757 0,0901 0,1211 0,1739 0,2806
3 0,0659 0,0759 0,0907 0,1218 0,1744 0,2819
4 0,0658 0,0761 0,0907 0,1216 0,1742 0,2816
Figura 19 – Médias geométricas das previsões para placares em comparação com o Modelo 0

6.4 Parâmetro 𝛾 ao longo do tempo

Com a utilização da função de ponderação descrita na Seção 6.1, é possível avaliar
como as estimativas dos parâmetros se comportam ao longo do tempo. Como exemplo,
a Figura 20 apresenta as estimativas pontuais do parâmetro de mando de campo, 𝛾,
que variam de 1,5337 até 1,7066 entre as temporadas de 2016 e 2020. Destacam-se duas
temporadas em que esse parâmetro possuiu valores relativamente baixos: 2017 e 2020. Em
2017, as equipes mandantes venceram 43,95% de suas partidas e em 2020 esse número foi
de 45%. Considerando todas as partidas da base de dados, os times mandantes venceram
49,41% dos jogos, ou seja, estas temporadas foram atípicas. Vale a pena adicionar que
parte deste declínio do impacto do mando de campo na temporada de 2020 pode ser
atribuído a ausência de público nos estádios devido à pandemia da Covid-19.
Figura 20 – Estimativa do parâmetro 𝛾 do Modelo 4 ao longo do tempo

6.5 Previsão minuto a minuto

Os modelos de previsão in-play também podem ser empregados para contar a
história de uma partida de futebol. Como exemplo disso e para avaliar como os eventos
de um jogo afetam as previsões do Modelo 4, a Figura 21 apresenta previsões realizadas,
minuto a minuto, para a partida entre Flamengo e Internacional válida pela 37ª rodada
do Campeonato Brasileiro de 2020 que foi essencial para a disputa do campeonato. As
linhas tracejadas representam os minutos de gols (linhas pretas) e cartão vermelho (linha
vermelha).
O Internacional começa a partida com uma baixa probabilidade de vitória que
cresce bastante após seu primeiro gol. Com o empate do Flamengo, ocorre um salto em sua
probabilidade de vitória que decai enquanto a probabilidade de empate cresce conforme
o tempo restante de jogo diminui. No início do segundo tempo, o Internacional tem um
jogador expulso e, com isso, a probabilidade de vitória do Flamengo exibe outro salto.
Ainda com o placar empatado, a probabilidade de empate aumenta até que o Flamengo
marca outro gol e sua probabilidade de vitória dispara e cresce até o fim do jogo.
Figura 21 – Exemplo de previsão minuto a minuto com o Modelo 4

51
7 CONSIDERAÇÕES FINAIS
Nesta dissertação, foram apresentados modelos in-play de gols, cartões vermelhos e

acréscimos para a primeira divisão do Campeonato Brasileiro de Futebol. Em relação aos
acréscimos, a quantidade de cartões vermelhos e o placar ao fim do tempo regulamentar
se mostraram bons preditores. Em contrapartida, a quantidade de gols marcados pelas
equipes não apresentou impacto na predição dos acréscimos. Considerando as taxas de
cartões vermelhos, observou-se que as taxas crescem conforme o andamento da partida e
a taxa da equipe visitante é superior à taxa da equipe mandante.
Para o modelo de gols, a adição de variáveis que levam em conta o tempo de jogo,
a diferença de gols e a diferença de jogadores em campo exibiu melhorias nos critério
AIC e BIC. A diferença de valor das equipes também incrementou o modelo considerando
esses critérios mas não apresentou mudanças relevantes nas previsões das partidas. Sobre
as previsões realizadas, o modelo estático demonstrou um bom desempenho nas previ-
sões pre-game para resultados mas a qualidade das previsões decai conforme o tempo de
jogo diminui relativamente aos outros modelos. Em geral, os modelos dinâmicos exibiram
previsões in-play melhores, principalmente quando o interesse é o placar final da partida,
pois suas taxas de gol mudam conforme o estado da partida diferentemente do modelo
estático.
Para trabalhos futuros, seria interessante a avaliação do impacto da inclusão de
outras variáveis como cartões amarelos, escanteios, posse de bola, divididas ou até mesmo
das line ups das equipes. Outro aspecto importante é o estudo de outras formas de ex-
pressar as taxas de gols e o estado da partida.
52
Referências
AKAIKE, H. A new look at the statistical model identification. IEEE transactions on

automatic control, Ieee, v. 19, n. 6, p. 716–723, 1974. Citado na página 25.
ALBERTI, G. et al. Goal scoring patterns in major european soccer leagues. Sport
Sciences for Health, Springer, v. 9, n. 3, p. 151–153, 2013. Citado na página 19.
APS, M. The MOSEK optimization toolbox for MATLAB manual. Version 9.0. [S.l.],
2019. Disponível em: <http://docs.mosek.com/9.0/toolbox/index.html>. Citado na
página 29.
BOICE, J. How Our 2018 World Cup Predictions Work. FiveThirtyEight, 2018. Disponível
em: <https://fivethirtyeight.com/features/how-our-2018-world-cup-predictions-work>.
Citado 2 vezes nas páginas 10 e 12.
DIXON, M.; ROBINSON, M. A birth process model for association football matches.
Journal of the Royal Statistical Society: Series D (The Statistician), Wiley Online
Library, v. 47, n. 3, p. 523–538, 1998. Citado na página 12.
DIXON, M. J.; COLES, S. G. Modelling association football scores and inefficiencies in

the football betting market. Journal of the Royal Statistical Society: Series C (Applied
Statistics), Wiley Online Library, v. 46, n. 2, p. 265–280, 1997. Citado 4 vezes nas
páginas 12, 29, 41 e 42.
ELO, A. E. The rating of chessplayers, past and present. [S.l.]: Arco Pub., 1978. Citado
na página 12.
FONTANELLA, F. Métodos de Avaliação de Modelos de Previsão de Resultados de

Futebol. Dissertação (Mestrado) — Escola de Matemática Aplicada - Fundação Getulio
Vargas, 2021. Citado na página 28.
FU, A.; NARASIMHAN, B.; BOYD, S. CVXR: An R package for disciplined convex
optimization. Journal of Statistical Software, v. 94, n. 14, p. 1–34, 2020. Citado na
página 29.
GODIN, F. et al. Beating the bookmakers: leveraging statistics and twitter microposts
for predicting soccer results. In: KDD Workshop on Large-Scale Sports Analytics. [S.l.:
s.n.], 2014. p. 2–14. Citado na página 12.
HAUGÅRD, M. E. S.; VU, K. L. Predicting live matches. Dissertação (Mestrado) —

NTNU, 2019. Citado na página 13.
KARLIS, D.; NTZOUFRAS, I. On modelling soccer data. Student, v. 3, n. 4, p. 229–244,

2000. Citado na página 12.
KHARRAT, T. A journey across football modelling with application to algorithmic

trading. [S.l.]: The University of Manchester (United Kingdom), 2016. Citado na página
12.
Referências 53
KINGMAN, J. F. C. Poisson processes. [S.l.]: Clarendon Press, 1992. Citado na página

24.
LEEPER, T. J. tabulizer: Bindings for Tabula PDF Table Extractor Library. [S.l.], 2018.
R package version 0.2.2. Citado na página 14.
MAHER, M. J. Modelling association football scores. Statistica Neerlandica, Wiley

Online Library, v. 36, n. 3, p. 109–118, 1982. Citado 2 vezes nas páginas 12 e 29.
NEATH, A. A.; CAVANAUGH, J. E. The bayesian information criterion: background,

derivation, and applications. Wiley Interdisciplinary Reviews: Computational Statistics,
Wiley Online Library, v. 4, n. 2, p. 199–203, 2012. Citado na página 26.
OOMS, J. pdftools: Text Extraction, Rendering and Converting of PDF Documents.

[S.l.], 2020. R package version 2.3.1. Disponível em: <https://CRAN.R-project.org-
/package=pdftools>. Citado na página 14.
PASUPATHY, R. Generating homogeneous poisson processes. Wiley encyclopedia of

operations research and management science, Wiley Online Library, 2010. Citado na
página 25.
PETTERSSON, D.; NYQUIST, R. Football match prediction using deep learning.

Dissertação (Mestrado) — Department of Electrical Engineering - Chalmers University
of Technology, 2017. Citado na página 13.
PISHRO-NIK, H. Introduction to probability, statistics, and random processes. [s.n.],

2016. Disponível em: <https://www.probabilitycourse.com/>. Citado na página 25.
R Core Team. R: A Language and Environment for Statistical Computing. Vienna,

Austria, 2021. Disponível em: <https://www.R-project.org/>. Citado na página 10.
REEP, C.; POLLARD, R.; BENJAMIN, B. Skill and chance in ball games. Journal of
the Royal Statistical Society: Series A (General), Wiley Online Library, v. 134, n. 4, p.
623–629, 1971. Citado na página 12.
ROBBERECHTS, P.; HAAREN, J. V.; DAVIS, J. Who will win it? an in-game win
probability model for football. arXiv preprint arXiv:1906.05029, 2019. Citado 2 vezes
nas páginas 10 e 12.
ROULSTON, M. S.; SMITH, L. A. Evaluating probabilistic forecasts using information

theory. Monthly Weather Review, v. 130, n. 6, p. 1653–1660, 2002. Citado na página 27.
SCHWARZ, G. Estimating the dimension of a model. The annals of statistics, JSTOR,

p. 461–464, 1978. Citado na página 26.
SHVILI, J. The Most Popular Sports In The World. WorldAtlas, 2020. Disponível em:
<https://www.worldatlas.com/articles/what-are-the-most-popular-sports-in-the-world-
.html>. Citado na página 10.
SUZUKI, A. K. et al. A bayesian approach for predicting match outcomes: the 2006
(association) football world cup. Journal of the Operational Research Society, Taylor &
Francis, v. 61, n. 10, p. 1530–1539, 2010. Citado na página 12.
Referências 54
VAN LIER, J. The Most Popular Sports to Bet on Today. 2018. Disponível em:
<https://bitcoinchaser.com/bitcoin-sportsbook/most-popular-sports-to-bet-on-today>.
Citado na página 10.
WICKHAM, H. rvest: Easily Harvest (Scrape) Web Pages. [S.l.], 2020. R package version
0.3.6. Disponível em: <https://CRAN.R-project.org/package=rvest>. Citado na página
14.
ZOU, Q. et al. A discrete-time and finite-state markov chain model for association
football matches. Communications in Statistics-Simulation and Computation, Taylor &
Francis, v. 47, n. 8, p. 2476–2485, 2018. Citado na página 12.
ÇINLAR, E. Introduction to Stochastic Processes. [S.l.]: Prentice-Hall, 1975. Citado na

página 25.

Diss Luiz

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Diss Luiz

Enviado por

Direitos autorais:

Formatos disponíveis

Fundação Getulio Vargas

Escola de Matemática Aplicada

Modelos in-play para partidas do Campeonato

Luiz Fernando Guilhem Nassif Maia

Rio de Janeiro, Brasil

Modelos in-play para partidas do Campeonato Brasileiro

Dissertação submetida à Escola de Matemá-

Orientador: Rodrigo dos Santos Targino

Rio de Janeiro, Brasil

Maia, Luiz Fernando Guilhem Nassif

Dissertação (mestrado) -Fundação Getulio Vargas, Escola de Matemática

1. Processo de Poisson. 2. Futebol – Modelos matemáticos. 3. Futebol –

Elaborada por Márcia Nunes Bacha – CRB-7/4403

Palavras-chaves: processos de Poisson; modelos in-play; previsão; futebol.

Figura 1 – Exemplo de página de partida no site da CBF . . . . . . . . . . . . . . 14

Figura 12 – Exemplo de eventos considerados para o modelo de gols . . . . . . . . 32

Figura 16 – Médias geométricas para as previsões de resultado do Modelo 0 no

Quadro 1 – Variáveis da base Resultados . . . . . . . . . . . . . . . . . . . . . . . 15

Tabela 2 – Modelos para 𝜋 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

Tabela 10 – Comparação entre as probabilidades para resultados estimadas pelos

Incluindo a Introdução, esta dissertação é composta de 7 capítulos. No Capítulo 2

A partir de Maher (1982), a modelagem pre-game dos gols de uma partida de

Neste capítulo são apresentadas as bases de dados utilizadas nessa dissertação e a

3.1 Súmulas da CBF

Figura 1 – Exemplo de página de partida no site da CBF

Figura 2 – Exemplo de partes da súmula no site da CBF

Fonte: Adaptado de https://conteudo.cbf.com.br/sumulas/2015/142378se.pdf. Acesso em 15 de maio de

Quadro 1 – Variáveis da base Resultados

Considerando todas essas partidas, as equipes mandantes venceram 49,41% dos

22,9% das partidas.

Figura 3 – Placares mais comuns

Fonte: Elaboração própria

Figura 4 – Frequência de gols marcados por mandantes e visitantes

Fonte: Elaboração própria

no segundo tempo causadas, principalmente, pelas substituições de jogadores. Contudo,

Figura 5 – Acréscimos do primeiro tempo

Fonte: Elaboração própria

Figura 6 – Acréscimos do segundo tempo

Fonte: Elaboração própria

Figura 7 – Acréscimo médio ao longo das temporadas

Fonte: Elaboração própria

Quadro 2 – Variáveis da base Gols

tidas possuíram um primeiro tempo com duração de 50 minutos ou mais. Considerando

Figura 8 – Taxa de gols

Fonte: Elaboração própria

3.1.3 Cartões Vermelhos

Quadro 3 – Variáveis da base Cartões Vermelhos

Figura 9 – Taxa de cartões vermelhos

Fonte: Elaboração própria

de mercado estimados pelo Transfermarkt dos 11 jogadores titulares de cada equipe em

Time Valor de mercado médio Temporadas

Fonte: Elaboração própria

Fonte: Elaboração própria

4.1 Distribuição de Poisson

4.2 Processo de Poisson

2. 𝑁 (𝑡) ∈ {0, 1, 2, ...}, para todo 𝑡 ∈ [0, ∞);

Um processo de contagem possui incrementos independentes se o número de even-

1. 𝑁 (𝑡) tem incrementos independentes;

2. O número de eventos ocorridos em qualquer intervalo de tamanho 𝜏 > 0 tem distri-

Por esta definição, conclui-se que a distribuição do número de eventos em qualquer

e a probabilidade de que aconteça exatamente um evento é

4.3 AIC e BIC

dados e a parcimônia. Seja 𝑘 o número de parâmetros estimados em um modelo e 𝐿 ^ o