Você está na página 1de 6

Um modelo de regresso por vetores de suporte para previso da diferena de gols em partidas de futebol

Mateus Ferreira, Eduardo Feitosa, Marco Cristo, Eulanda Santos


Instituto de Computao Universidade Federal do Amazonas Manaus, rasil !mateus, efeitosa, marco"cristo, emsantos#$icomp"ufam"edu"br
AbstractPredict the difference of goals in football matches is a problem of great interest to the sports punters of the handicap mode. This predictive capability is also important in preparing teams for the second round of a confrontation in knockout tournaments. Furthermore, it has been demonstrated that statistical information about the past performance of football teams correlate better with the goal difference than with the score. This paper employs a machine learning model to predict the goal difference in the outcome of football matches. It was attained a R !" of #.$%&'$$ using the support vector regression techni(ue. For comparison with a reference model, it was also computed the (uality of the predictions of the winners of matches. In this case, the obtained accuracy of %).*+, was higher than the **.$%, accuracy achieved by the reference model. Keywordsmachine learning; support vector regression; football; goal difference.

c.ances de vitFria" Um time considerado mais fraco pode, por e,emplo, receber dois gols de vantagem" Se essa e0uipe for derrotada por apenas um gol de diferena, os apostadores 0ue investiram nesse competidor so premiados" %ormalmente, os gan.os obtidos com a modalidade handicap de apostas so maiores, GB 0ue ? mais dif-cil prever com e,atido a diferena de gols entre dois oponentes do 0ue o vencedor do confronto" 1rever a diferena de gols ? /til tamb?m para as prFprias e0uipes, em campeonatos do tipo mata2mata" %esses torneios, no intervalo entre a primeira e a segunda partida, os adversBrios GB con.ecem a diferena de gols 0ue precisam alcanar para se classificarem H prF,ima fase da competio" Assim, a previso correta da diferena de gols esperada para a segunda partida pode alertar os competidores para a necessidade de estabelecer medidas imediatas e aplicBveis em um curto espao de tempo, com o intuito de aumentar a fora da e0uipe e a conse0uente probabilidade de alcanar a diferena de gols necessBria" &ais medidas podem incluir a escalao de um atleta importante I mesmo 0ue fora de suas condi<es f-sicas ideais I, o treinamento de um es0uema tBtico inesperado ou at? mesmo a preparao das condi<es do gramado de forma a dificultar o estilo de Gogo do adversBrio" &anto para a realizao de apostas do tipo handicap 0uanto para a preparao das e0uipes em confrontos mata2mata, a capacidade de prever a diferena de gols no resultado de uma partida de futebol representa uma vantagem significativa" &rabal.os 0ue visam prever o placar e,ato das partidas podem ser usados para inferir a diferena de gols" %o entanto, como GB foi demonstrado, ao analisar dados do passado, previs<es de diferenas no placar so mais precisas do 0ue previs<es de placares e,atos 38IJ5" )iante desse cenBrio, este trabal.o utiliza um modelo baseado em aprendizagem de mB0uina para a previso da diferena de gols em partidas de futebol" Especificamente, serB mostrado 0ue a t?cnica de regresso num?rica por vetores de suporte permite alcanar um 'MSE 9Root Mean Square Error: de 4,68;J66 para a previso de diferena de gols e uma acurBcia de 87,E=C para a previso de vencedores" Apesar de, at? onde se tem con.ecimento, no e,istirem outros modelos de aprendizagem de mB0uina dedicados a prever a diferena de gols em partidas de futebol, a acurBcia alcanada na previso de vencedores ? ligeiramente superior H ta,a de EE,68C obtida pelas previs<es indicadas no modelo de referDncia" Inicialmente, na Seo II deste artigo so discutidos os trabal.os relacionados" Em seguida, a Seo III apresenta o estudo de caso utilizado durante a elaborao do modelo" (s

I"

I%&'()U*+(

Esportes e,ercem grande fasc-nio sobre a .umanidade devido ao entretenimento e aos benef-cios para a sa/de 0ue proporcionam" 1articularmente, o futebol destaca2se atualmente como o esporte mais popular do mundo 345" Segundo estudo realizado em 6778 pela FIFA 9Fdration Internationale de Football Association:, e,istem apro,imadamente 6;7 mil.<es de praticantes de futebol nos 67; pa-ses associados a essa entidade 365" %o rasil, pa-s tradicionalmente recon.ecido por sua pai,o por esse esporte, cresce ainda mais o interesse pelo futebol, tendo em vista 0ue o pa-s se prepara para sediar a Copa das Confedera<es, em 674=, e a Copa do Mundo, em 674>, duas das principais competi<es dessa modalidade esportiva" Al?m do grande n/mero de praticantes ao redor do mundo, o futebol impacta significativamente a economia mundial" Segundo Sz@mansAi 3=5, no ano de 6777, o futebol foi responsBvel por =C de todo o com?rcio mundial" 1arte dessa fatia estB ligada ao mercado de apostas, 0ue vem crescendo consideravelmente em decorrDncia do advento e legalizao de sistemas internacionais de apostas online 3>5" )entre os diversos tipos de apostas relacionadas ao resultado de partidas de futebol, a modalidade denominada handicap desperta especial interesse dos apostadores, por0ue possibilita ampliar os gan.os dos acertadores 3E5" %essa modalidade, as casas de aposta assinalam uma vantagem para uma das e0uipes, atrav?s de uma compensao no placar, como forma de e0uilibrar as

detal.es do modelo proposto so apresentados na Seo IK" ( m?todo de aprendizagem de mB0uina empregado, detal.ado na Subseo A, baseia2se na t?cnica de regresso por vetores de suporte" Cada partida ? representada por um conGunto de atributos, descritos na Subseo " A Seo IK ? encerrada com a apresentao, na Subseo C, da estrat?gia de otimizao de parLmetros empregada durante a definio do modelo" Este trabal.o apresenta ainda, na Seo K, a indicao dos resultados obtidos e, na Seo KI, uma breve concluso" II" &'A
AMN(S

IK"

1'(&(C(M( ET1E'IME%&AM

'EMACI(%A)(S

( problema de previso da diferena de gols em uma partida de futebol pode ser interpretado como uma tarefa de regresso temporal" %esse caso, busca2se encontrar um conGunto de caracter-sticas 9atributos: 0ue representem bem a 0ualificao das e0uipes envolvidas" 1ara isso, devem ser selecionados dados .istFricos relevantes 0ue indi0uem o desempen.o dessas e0uipes no passado" Com base nesses dados, aplica2se ento algum m?todo matemBtico de regresso 0ue irB estimar a diferena de gols para uma determinada partida" %esta seo so descritos o m?todo de regresso aplicado aos dados de treinamento, os atributos selecionados para compor o modelo proposto e o processo de otimizao de parLmetros adotado" A. Mtodo A capacidade de prever uma diferena de gols no inteira possibilita a percepo do grau de pro,imidade entre o valor estimado e uma diferena de gols prBtica 9valor inteiro:" 1ara os cenBrios 0ue motivaram este estudo, essa percepo pode ser mais importante do 0ue a previso de um valor perfeitamente compat-vel com o atributo alvo" 1or essa razo, uma abordagem de regresso num?rica apresenta previs<es mel.ores do 0ue as estrat?gias de classificao e0uivalentes, 0ue fi,am os resultados em valores discretos 9e,O 24, 7, 4:" )iante dessa constatao, optou2se por utilizar um m?todo de regresso num?rica" E,istem diversas t?cnicas de aprendizagem de mB0uina para soluo de problemas de regresso num?rica" Ao serem empregadas para solucionar o mesmo problema, essas estrat?gias podem alcanar resultados distintos" %este trabal.o, optou2se por utilizar um m?todo de regresso por vetores de suporte 9Support Vector Regression 2 SK':, tendo em vista 0ue esse m?todo tem apresentado bons resultados em estudos comparativos de t?cnicas de previso de s?ries temporais, aplicados a diferentes Breas do con.ecimento 34;5" 1ara isso, utilizou2se a implementao do classificador funcional SM(reg, implementado na ferramenta UeAa 34J5" A abordagem SK' ? uma e,tenso do m?todo SKM 9Support Vector Machines: I originalmente desenvolvido para previso de classes I para agregar2l.e a funcionalidade de regresso num?rica 34;5" Esse m?todo determina o .iperplano Ftimo 0ue separa as instLncias do atributo2alvo de um problema, por meio da anBlise da distLncia entre as instLncias posicionadas na fronteira das classes" A fam-lia de m?todos derivados do SKM utiliza fun<es de kernel para produzir transforma<es matemBticas nos dados, ampliando a dimensionalidade da representao de forma a tornB2los linearmente separBveis" )iversos m?todos de kernel foram propostos na literatura" %este trabal.o, optou2se por utilizar o kernel de fun<es de base radial 9Radial Basis Function I ' F:, uma vez 0ue, 0uando os dados esto arbitrariamente posicionados 9sem uma estrutura regular:, ele apresenta boas propriedades de apro,imao e ? independente da dimenso onde os dados esto inseridos 34P5"

A tarefa 0ue se procurou resolver neste trabal.o estB diretamente relacionada com a previso do placar em Gogos de futebol" NB uma vasta literatura 0ue cobre esse problema" A maior parte das estrat?gias se baseia em modelos de regresso 0ue consideram diferentes atributos, tais comoO os resultados no passado 3P5, o impacto de se Gogar em casa ou fora 3475 e os aspectos particulares de torneios mata2mata 3445 ou de campeonatos com muitos Gogos 3J5, 3465" Modelos mais recentes tamb?m tDm aplicado redes neurais e redes ba@esianas nas previs<es 3;5, 34=5" (utros trabal.os tDm investigado a relao dos resultados com sistemas de apostas 9de placar:, avaliando a sua eficiDncia 3>5, 34>5" %o entanto, nen.um dos trabal.os citados foca o problema da previso da diferena de gols usando aprendizagem de mB0uina" 1or outro lado, pelo menos trDs deles 38IJ5 observam 0ue .B maior correlao dos modelos estudados com as diferenas de gols do 0ue com o placar e,ato, o 0ue refora a necessidade de um estudo para previso da diferena de gols" III" ES&U)( )E CAS(

1ara construir o modelo de regresso capaz de prever a diferena de gols em partidas de futebol foi necessBrio estabelecer um estudo de caso, 0ue guiou as etapas de desenvolvimento do modelo" ( estudo de caso escol.ido consistiu em prever a diferena de gols em partidas da s?rie A do campeonato brasileiro de futebol realizadas entre os anos de 6776 e 6744" %aturalmente, as estrat?gias empregadas no modelo utilizam somente dados 0ue estavam dispon-veis antes da realizao das partidas cuGa diferena de gols ? estimada" (s dados brutos foram col.idos dos sites QC.ance de RolS 34E5 e Q'SSSF rasilS 3485, especializados em estat-sticas relacionadas ao futebol" %o primeiro, esto registrados os resultados de todas as partidas da s?rie A do campeonato brasileiro de futebol, desde 4PPJ" Al?m do placar, so indicados o nome da e0uipe mandante e da e0uipe visitante, a data do confronto, a c.ance de vitFria do time da casa, a c.ance de empate e a c.ance de vitFria do visitante I calculados segundo crit?rios estabelecidos pelo estat-stico 0ue administra o site QC.ance de RolS" %o segundo site, foram col.idas informa<es indicativas dos times 0ue disputaram a Copa Mibertadores da Am?rica, dos clubes 0ue venceram a Copa do rasil e das e0uipes oriundas da s?rie do campeonato brasileiro de futebol, tudo para o per-odo compreendido entre os anos de 6776 e 6744" Al?m disso, nesse site foram verificadas tamb?m as cidades de origem de cada e0uipe"

B. Atributos A 0ualidade de uma e0uipe pode ser aferida por seus resultados no longo, m?dio e curto prazos" 1ensando nisso, optou2se por representar as partidas com dados relativos ao desempen.o das e0uipes ao longo de trDs per-odosO nos /ltimos > Gogos, no campeonato corrente e em todo o per-odo .istFrico analisado 96776 a 6744:" Al?m disso, foi discriminado o desempen.o das e0uipes en0uanto mandantes, ou seGa, Gogando em casa, da performance obtida como visitantes" 1 !e"ini#$o e %era#$o A escol.a inicial dos atributos foi baseada em um processo emp-rico, onde procurou2se ampliar ao mB,imo a 0uantidade de variBveis no modelo" %essa fase, a /nica limitao residiu na capacidade de obteno dos dados" Vuando a disponibilidade de um determinado tipo de informao era incerta, essa caracter-stica era descartada, ainda 0ue pudesse contribuir para uma mel.ora nas previs<es" Um e,emplo de atributo dispensado foi a classificao de cada e0uipe nos respectivos campeonatos estaduais, visto 0ue a coleta desses dados demandaria a pes0uisa em diversas fontes, com formata<es distintas e possibilidade de ausDncia de dados" Inicialmente, no foram descartados atributos 0ue pudessem apresentar um elevado n-vel de correlao com outra caracter-stica, visto 0ue a etapa seguinte do modelo consistiu em selecionar o conGunto de atributos com mel.or desempen.o nas previs<es" Assim, a lista inicial de caracter-sticas contemplava os seguintes aspectosO Saldo de gols 9num?rico:" Rols marcados 9num?rico:" Rols sofridos 9num?rico:" 1ontos gan.os 9num?rico:" %/mero de vitFrias, empates e derrotas 9num?rico:" 1robabilidades de vitFria, empate e derrota calculadas pelo site QC.ancedegolS 9num?rico:" &otal de Gogos realizados em todos os campeonatos anteriores 9num?rico:" Confronto regional 9binBrioO S,%:" E0uipe oriunda da s?rie 9binBrioO S,%:"

)eve2se destacar a importLncia da incluso de informa<es relacionadas ao saldo de gols e Hs contagens de gols marcados e sofridos I al?m do retrospecto de pontos gan.os, vitFrias, empates e derrotas I, visto 0ue o obGetivo final da previso ? estimar a diferena de gols nas partidas e no apenas indicar o vencedor 9ou empate:" Isso Gustifica a escol.a de todos os atributos num?ricos listados, com e,ceo do campo destinado a representar o n/mero total de Gogos realizados por cada e0uipe" %esse caso, a inteno ? diferenciar as e0uipes com maior -ndice de participao .istFrica no campeonato, por no terem sido rebai,adas, da0uelas 0ue figuram recorrentemente na disputa da s?rie " 1or sua vez, a Gustificativa para a incluso do campo QConfronto regionalS no modelo reside na observao de 0ue a maior parte dos confrontos entre e0uipes de uma mesma cidade so e0uilibrados, acarretando em um elevado -ndice de empates 9diferena de gols igual a 7:, mesmo 0uando o retrospecto das e0uipes indica uma diferena acentuada de desempen.o entre elas" As e0uipes oriundas da s?rie so destacadas por0ue ? poss-vel perceber 0ue, ressalvadas algumas e,ce<es, esses times costumam apresentar um desempen.o ruim ao longo do campeonato e, muitas vezes, voltam a ser rebai,ados logo no ano seguinte" ( racioc-nio inverso aplica2se ao atributo destinado a destacar as e0uipes 0ue disputam a Copa Mibertadores da Am?rica no ano corrente, uma vez 0ue esses clubes tendem a se reforar para obter um bom resultado nessa competio, o 0ue acaba refletindo em um bom desempen.o no campeonato brasileiro I novamente e,cluindo2se algumas e,ce<es" )a mesma forma, a indicao do time campeo da Copa do rasil em um determinado ano parece ser um bom indicativo de 0ue essa e0uipe apresentarB um bom desempen.o no campeonato brasileiro do mesmo ano" )eve2se destacar 0ue a informao do clube campeo da Copa do rasil somente foi anotada na base de dados para as instLncias referentes a partidas realizadas apFs a data do Gogo final da Copa do rasil do respectivo ano" At? essa data, a e0uipe campe do torneio no ano anterior permaneceu com o marcador correspondente ativo" Em outras palavras, para efeito da base de dados gerada, o campeo da Copa do rasil permaneceu com esse status at? a definio do novo campeo, no ano seguinte" )urante os primeiros testes para seleo de atributos, surgiu a ideia de adaptar os atributos para 0ue eles possibilitassem medir a diferena de desempen.o entre as e0uipes, GB 0ue o atributo alvo corresponde H diferena de gols marcados" Essa .ipFtese levou H alterao da base inicial para 0ue ela passasse a refletir a diferena entre as e0uipes para cada uma das m?tricas estabelecidas" Assim, os atributos Qm?dia do saldo de gols do time da casa nos /ltimos > GogosS e Qm?dia do saldo de gols do time visitante nos /ltimos > GogosS, por e,emplo, foram transformados no atributo Qdiferena da m?dia do saldo de gols nos /ltimos > Gogos entre o time da casa e o time visitanteS" Essa transformao foi aplicada a todas as caracter-sticas num?ricas, reduzindo a dimenso dos dados para J4 atributos 9incluindo o atributo alvo e os campos de marcao:" & Sele#$o Como o m?todo SK' demanda um tempo de e,ecuo longo para treinamento, a seleo dos atributos foi efetuada utilizando2se o m?todo funcional de regresso linear,

E0uipe disputou a Copa Mibertadores no ano corrente 9binBrioO S,%:" E0uipe venceu a Copa do 9binBrioO S,%:" rasil no ano corrente

1ara cada um dos campos num?ricos elencados acima 9com e,ceo do Qtotal de GogosS e das Qprobabilidades de vitFria, empate e derrotaS:, foram calculados os valores considerando2 se os fatores de tempo 9/ltimos > Gogos, campeonato corrente ou todos os campeonatos:, de local 9Gogo em casa ou como visitante: e de forma de cBlculo 9m?dia ou soma dos valores considerados:" %o total, inicialmente foram gerados 4E7 atributos 9incluindo o atributo alvo e os campos de marcaoO data, nome da e0uipe mandante e nome do time visitante:"

implementado no UeAa 34J5 com o nome QMinear'egressionS" 1ortanto, foi utilizado um m?todo de seleo de atributos do tipo 'rapper, 0ue permite a escol.a do mel.or conGunto de atributos baseando2se na anBlise dos resultados gerados pela e,ecuo de um m?todo de classificao I nesse caso, a regresso linear" Al?m disso, uma .eur-stica gulosa, implementada no UeAa com o nome QRreed@StepWiseS, foi utilizada para busca das poss-veis combina<es de atributos, visto 0ue a e,ecuo dos testes para todas as combina<es de atributos demandaria um tempo impraticBvel 3675" Assim, o conGunto de atributos 0ue apresentou o menor 'MSE 0uando aplicado ao m?todo de regresso linear e 0ue, por isso, foi utilizado no modelo proposto, foi constitu-do pelos seguintes camposO diferena das c.ances de vitFria entre o time da casa e a e0uipe visitante, registradas no site QC.ance de RolS" diferena entre a m?dia do saldo de gols do time mandante em casa e a m?dia do saldo de gols da e0uipe visitante fora de casa, nos /ltimos > Gogos" diferena entre o saldo de gols total do time mandante em casa e o saldo de gols total da e0uipe visitante fora de casa, nos /ltimos > Gogos" diferena entre o saldo de gols total do time mandante e o saldo de gols total da e0uipe visitante no campeonato corrente, independente do Qfator casaS" diferena entre a m?dia do saldo de gols do time mandante em casa e a m?dia do saldo de gols da e0uipe visitante fora de casa, em todos os Gogos" diferena entre o total de gols marcados pelo time mandante em casa e o total de gols marcados pela e0uipe visitante fora de casa, nos /ltimos > Gogos" diferena entre a m?dia de gols marcados pelo time mandante e a m?dia de gols marcados pela e0uipe visitante no campeonato corrente, independente do Qfator casaS" diferena entre o total de gols marcados pelo time mandante e o total de gols marcados pela e0uipe visitante no campeonato corrente, independente do Qfator casaS" diferena entre o total de gols marcados pelo time mandante em casa e o total de gols marcados pela e0uipe visitante fora de casa, no campeonato corrente" diferena entre o total de gols marcados pelo time mandante em casa e o total de gols marcados pela e0uipe visitante fora de casa, em todos os Gogos" diferena entre a m?dia de pontos gan.os pelo time mandante em casa e a m?dia de pontos gan.os pela e0uipe visitante fora de casa, nos /ltimos > Gogos" diferena entre o total de pontos gan.os pelo time mandante em casa e o total de pontos gan.os pela e0uipe visitante fora de casa, nos /ltimos > Gogos" diferena entre o total de pontos gan.os pelo time mandante e o total de pontos gan.os pela e0uipe

visitante em todos os Gogos realizados pelas e0uipes, independente do Qfator casaS" diferena entre a m?dia de pontos gan.os pelo time mandante em casa e a m?dia de pontos gan.os pela e0uipe visitante fora de casa, em todos os Gogos" diferena entre o n/mero de vitFrias do time mandante em casa e o n/mero de vitFrias da e0uipe visitante fora de casa, nos /ltimos > Gogos" diferena entre o n/mero de empates do time mandante em casa e o n/mero de empates da e0uipe visitante fora de casa, nos /ltimos > Gogos" diferena entre o total de derrotas do time mandante e o total de derrotas da e0uipe visitante no campeonato corrente, independente do Qfator casaS" diferena entre o total de vitFrias do time mandante e o total de vitFrias da e0uipe visitante em todos os Gogos realizados pelas e0uipes, independente do Qfator casaS" diferena entre o n/mero de empates do time mandante em casa e o n/mero de empates da e0uipe visitante fora de casa, em todos os Gogos" indicao se o time visitante foi campeo da Copa do rasil no ano corrente"

(s valores calculados para cada atributo foram normalizados, a fim de evitar distor<es na importLncia 0ue o m?todo atribui Hs caracter-sticas 0uando a fai,a de valores de um atributo ? maior do 0ue a de outro" ( Ru)dos 1or constatar 0ue algumas e0uipes 0ue disputaram a Copa Mibertadores da Am?rica no apresentaram um bom desempen.o no Campeonato rasileiro do mesmo ano, distanciando2se do padro esperado, foram removidas as indica<es dessas e0uipes na base de dados, com o intuito de eliminar ru-dos e mel.orar o desempen.o das previs<es" %o entanto, os e,perimentos comprovaram 0ue a eliminao dessas referDncias no acarretou em mel.oras nos resultados e, por isso, as indica<es foram mantidas no modelo proposto" )a mesma forma, a eliminao dos registros relacionados a clubes 0ue venceram a Copa do rasil e apresentaram um desempen.o ruim no Campeonato rasileiro do mesmo ano no resultaram em benef-cios concretos para os resultados e,perimentais" )e fato, como os m?todos baseados em vetores de suporte trabal.am com uma pe0uena frao das instLncias, correspondentes Hs ocorrDncias 0ue se situam na fai,a de fronteira entre as classes alvo, a eliminao de ru-dos tem pouca influDncia no resultado alcanado por esses m?todos" Al?m disso, os parLmetros de custo e margem de erro, descritos na seo C, GB apresentam mecanismos para contornar os problemas decorrentes da e,istDncia de ru-dos entre os dados de treinamento" *. +ar,-etros A preciso de um modelo SK' ? largamente dependente da seleo dos parLmetros do processo" Com o kernel ' F, SK' re0uer a otimizao de = parLmetros 34;5O

C X custo" Controla a margem para dados no separBveis linearmente, uma vez 0ue nem sempre o kernel consegue separar linearmente todos os dados" Essa estrat?gia permite tolerar ru-dos, pois considera mais pontos de treinamento I al?m dos 0ue esto na fronteira I, e permite a ocorrDncia de erros de classificao" )iminuindo2se o valor de C, aumenta2se o custo para pontos muito distantes do padro da classe, forando a criao de um modelo mais aGustado Hs amostras e, portanto, menos generalista" Aceita valores entre 7 e Y, usualmente potDncias de 47 entre 7 e 4777Z E X margem de erro" Corresponde a uma margem dentro da 0ual os dados so ignorados durante o processo de regresso" Aceita valores entre 7 e Y, usualmente muito pe0uenos" R X gama" 1arLmetro usado pelo kernel ' F para aGustar a forma da funo interpolada, controlando o seu Qac.atamentoS" Aceita valores entre 7 e Y, usualmente Q4[dimenso dos dadosS"

Como as instLncias de teste podem pertencer a partidas ocorridas desde 6776 at? 6744, o montante de dados dispon-vel para treinamento ? maior para os testes relativos a partidas ocorridas nos /ltimos anos 9prF,imos a 6744: do 0ue a0uelas 0ue aconteceram no in-cio do per-odo trabal.ado 9anos prF,imos de 6776:" Al?m disso, as caracter-sticas de perfil dos campeonatos, como m?dia de gols marcados ou percentual de empates, podem variar ao longo do tempo" 1or tudo isso, a abordagem de otimizar os parLmetros do m?todo SK' separadamente para cada ano estudado garantiu um resultado mel.or do 0ue se fossem definidos parLmetros /nicos para todo o per-odo trabal.ado" K" 'ESUM&A)(S

A estrat?gia utilizada para otimizar esses parLmetros foi baseada no modelo de pes0uisa em grade 9grid search: proposto por Nsu, C.ang e Min 3645" %a abordagem utilizada, para cada valor de C pertencente H fai,a de valores entre 6 28 e 647, saltando em intervalos de 6 6, percorreu2se o valor de R em uma fai,a de valores entre 6 248 e 6=, saltando tamb?m em intervalos de 66" ApFs definir o mel.or valor de C e R dentro dessas fai,as, refinou2se a busca em torno do valor inicialmente encontrado, com incrementos de 67"6 para ambos os parLmetros" Esse processo de refinamento sucessivo foi repetido at? 0ue os resultados no apresentassem mel.orias" Somente apFs otimizar os valores de C e R, passou2se H otimizao do parLmetro E" Apesar de essa no ser a estrat?gia mais confiBvel, ela foi adotada em funo das limita<es de tempo para e,ecutar2se, por e,emplo, a busca pelo mel.or valor para o parLmetro E dentro dos laos iterativos 0ue percorreram as fai,as de valores de C e R" ( parLmetro E foi otimizado em uma fai,a de valores compreendidos entre 6 267 e 6J, saltando em intervalos de 6 6" )e maneira anBloga, a busca foi refinada em torno do valor inicialmente encontrado at? 0ue os resultados no apresentassem mel.orias" Em funo da reduzida 0uantidade de dados dispon-veis para algumas classes alvo e do elevado tempo para a e,ecuo das otimiza<es com o SK', optou2se por adaptar a estrat?gia clBssica de validao cruzada 3665" Ao inv?s de utilizar 47 conGuntos de teste estratificados, foram empregados 47 conGuntos de teste escol.idos aleatoriamente, sem estratificao" Apesar dos benef-cios garantidos pela separao estratificada dos dados, essa abordagem se tornou inviBvel em decorrDncia da pe0uena 0uantidade de e,emplares pertencentes a algumas classes alvo 9como as diferenas de gols maiores do 0ue > ou menores 0ue 2>:" Esse problema ? agravado ao considerar2se a necessidade de prever os resultados de partidas realizadas no in-cio do per-odo trabal.ado 9anos de 6776 e 677=:, GB 0ue os dados referentes a partidas posteriores no podem ser utilizados no conGunto de treinamento do modelo" Al?m disso, a amostragem sem estratificao permitiu diferenciar os parLmetros para cada ano a ser trabal.ado pelo modelo"

Foram utilizadas duas m?tricas para avaliar a 0ualidade das previs<es realizadas pelo modelo proposto" 1ara comparar a diferena de gols prevista com a diferena real, foi escol.ida a m?trica da raiz 0uadrada do erro 0uadrBtico m?dio 9'MSE:" Essa m?trica de desempen.o ? mais ade0uada para avaliar os resultados de ponto flutuante e,pressos pelo modelo, usados para indicar a pro,imidade entre a diferena de gols esperada e uma diferena de gols real 9valor inteiro:" Como, at? onde se tem con.ecimento, no e,istem modelos de aprendizagem de mB0uina 0ue preveGam especificamente a diferena de gols em partidas de futebol, optou2se por medir tamb?m a acurBcia do modelo ao prever a e0uipe vitoriosa, ou o empate" )essa forma, foi poss-vel comparar o resultado obtido com as previs<es estabelecidas pelo estat-stico 0ue administra o site QC.ance de RolS 34E5" 1ara o modelo proposto, a acurBcia ? calculada considerando2se corretas as previs<es 9sem arredondamentos: se a diferena de gols prevista 9dp: forO 9a: dp \ 7, em Gogos com vitFria do time da casaZ 9b: dp X 7, em Gogos empatadosZ e 9c: dp ] 7 em Gogos com derrota do time da casa" Em relao Hs previs<es indicadas pelo site QC.ance de RolS, o autor e,prime as previs<es na forma de probabilidades de vitFria do mandante, empate ou vitFria do visitante" 1or isso, nesse caso, a acurBcia ? calculada considerando2se 0ue o site escol.e como resultado previsto a opo com maior probabilidade" 1elos motivos GB discutidos na anBlise do processo de otimizao dos parLmetros do SK', a capacidade de generalizao do modelo foi avaliada utilizando2se uma t?cnica de validao cruzada no estratificada" A coleo de teste foi constru-da sorteando2se 47 datas nas 0uais ocorreram rodadas do campeonato brasileiro de futebol, uma data para cada ano do per-odo trabal.ado 96776 a 6744:" 'epresentando a diferena de gols prevista para o resultado de uma partida i realizada no dia G por 1 i e o valor real dessa diferena por ' i, o erro de previso EG para todas as % partidas realizadas no dia G foi definido pela seguinte e,pressoO

4 E .= /

( +i R i ) 6
i0 4

94:

)essa forma, o erro para a coleo de teste C& pode ser e,presso porO

E *1 =

4 47

47

E.
.0 4

96:

( modelo apresentado neste trabal.o alcanou um EC& de 4,68;J66 para os 47 conGuntos de partidas sorteados" Esse resultado pode ser interpretado, por e,emplo, assumindo2se 0ue, em m?dia, o modelo erra a diferena de gols de cada partida por pouco mais do 0ue um gol" A t-tulo de e,emplo, ao utilizar o modelo proposto na escol.a de apostas, poderiam ser considerados vantaGosos os cenBrios em 0ue a disparidade entre a diferena de fora dos times indicada pela casa de apostas e a diferena de gols prevista pelo modelo for maior do 0ue 4,68;J66" 1ara o mesmo conGunto de teste, a acurBcia alcanada pelo modelo na previso do vencedor 9ou empate: das partidas foi de 87,E=C, GB 0ue o modelo acertou >8 das ;8 partidas sorteadas" As previs<es indicadas no site especializado QC.ance de RolS atingiram uma acurBcia de EE,68C, ao acertar o resultado de >6 confrontos" )eve2se destacar 0ue o modelo utilizado como referDncia ? fruto de um proGeto de mestrado 0ue vem sendo aperfeioado e amplamente testado desde 4PP8 36=5, o 0ue l.e confere um certo grau de maturidade" Mevando em considerao a comparao do resultado alcanado com o modelo maduro utilizado no site QC.ance de RolS, acredita2se 0ue o modelo proposto neste trabal.o aponta para a viabilidade do emprego de t?cnicas de aprendizagem de mB0uina, especialmente a regresso por vetores de suporte, para a previso da diferena de gols no resultado de partidas de futebol" Essa constatao ? reforada ao levar2se em conta 0ue o modelo foi desenvolvido para realizar uma tarefa mais espec-fica do 0ue a previso da e0uipe vitoriosa 9ou empate: em um confronto" A tarefa de prever a diferena de gols e,ige uma maior especializao do modelo nos 0uesitos relacionados a gols marcados e sofridos, o 0ue pode influenciar o desempen.o do m?todo em relao H previso de vitFrias, empates ou derrotas, em detrimento de um resultado mais apurado para a diferena de gols" Al?m disso, os resultados alcanados pelo m?todo empregado podem ser otimizados, especialmente atrav?s da incluso de outros atributos no considerados no modelo" Um e,emplo de atributo utilizado no site QC.ance de RolS 0ue no foi empregado e 0ue parece ser um bom indicativo de fora das e0uipes, especialmente para a previso das primeiras rodadas do campeonato brasileiro, ? o desempen.o das e0uipes nos campeonatos estaduais" (utra possibilidade ? estudar o efeito da combinao de m/ltiplos m?todos de aprendizagem de mB0uina na tentativa de reduzir o erro registrado pelas instLncias mais dif-ceis de prever" KI" C(%CMUS+(

'EFE'^%CIAS
345 365 3=5 3>5 FIFA, QActivit@ 'eport 677J [ 677P,S 677P" FIFA, Q ig Count"S 3(nline5" AvailableO .ttpO[[WWW"fifa"com[Worldfootball[bigcount[inde,".tml" S" Sz@mansAi, QEconomics of sportO Introduction,S 1he Econo-ic 2ournal, vol" 444, no" >8P, pp" 4I=, 6774" %" KlastaAis, R" )otsis, and '" %" MarAellos, QNoW efficient is t.e European football betting marAet_ Evidence from arbitrage and trading strategies,S 2ournal o" Forecasting, vol" 6J, no" E, pp" >68I>>>, 677P" (nline etting, QNandicap etting"S 3(nline5" AvailableO .ttpO[[WWW"online2betting"me"uA[articles[.andicap2betting".tml" '" &" Stefani, Q1redicting score difference versus score total in rugb@ and soccer,S IMA 2ournal o" Manage-ent Mathe-atics, vol" 67, no" 6, pp" 4>;I4EJ, 677P" )" `arlis and I" %tzoufras, Q a@esian modelling of football outcomesO using t.e SAellamas distribution for t.e goal difference,S IMA 2ournal o" Manage-ent Mathe-atics, vol" 67, no" 6, pp" 4==I4>E, 677P" A" Neuer and (" 'ubner, Q&oWards t.e perfect prediction of soccer matc.es,S Ar3i4 e5prints, bul" 6746" M" b" Ma.er, QModelling association football scores,S Statistica /eerlandica, vol" =8, no" =, pp" 47PI44J, 4PJ6" `" Courne@a and A" Carron, Q&.e Nome Advantage in Sport CompetitionsO A Miterature 'evieW,S 2ournal o" Sport 6 E7ercise +s8cholog8, vol" 4>, no" 4, pp" 4=I6;, 4PP6" )" `uonen, QStatistical models for AnocA2out soccer tournaments,S 1echnical R eport9 !epart-ent o" Mathe-atics9 *hair o" Applied Statistics9 Ecole + ol8techniq ue Federale !e :ausanne" 4PP8" A" b" Mee, QModeling scores in t.e 1remier MeagueO is Manc.ester United reall@ t.e best_,S *hance, vol" 47, no" 4, pp" 4EI4P, 4PP;" A" bosep., %" E" Fenton, and M" %eil, Q1redicting football results using a@esian nets and ot.er mac.ine learning tec.ni0ues,S ;no'ledge5 Based S8ste-s, vol" 4P, no" ;, pp" E>>IEE=, 6778" M" b" )i,on and S" R" Coles, QModelling association football scores and inefficiencies in t.e football betting marAet,S 2ournal o" the Ro8al Statistical Societ8< Series * =Applied Statistics , vol" >8, no" 6, pp" 68EI 6J7, 4PP;" M" M" de Arruda, QC.ance de Rol"S 3(nline5" AvailableO .ttpO[[c.ancedegol"uol"com"br" 'SSSF, Q'SSSF rasil"S 3(nline5" AvailableO .ttpO[[WWW"rsssfbrasil"com" `"2'" Mcller, A" b" Smola, R" 'dtsc., " Sc.elAopf, b" `o.lmorgen, and K" KapniA, Q1redicting time series Wit. support vector mac.ines,S in Arti"icial /eural /et'orks>I*A//?@A, Springer, 4PP;, pp" PPPI477>" &.e Universit@ of UaiAato, QUeAa =O )ata Mining SoftWare in bava"S 3(nline5" AvailableO .ttpO[[WWW"cs"WaiAato"ac"nz[ml[WeAa[" C" M" M" Mima, QUm estudo sobre o m?todo M-nimos Vuadrados MFveis por Apro,ima<es Iteradas,S 1ontif-cia Universidade CatFlica do 'io de baneiro, 677P" UeAa, QRreed@StepWise"S 3(nline5" AvailableO .ttpO[[WeAa"sourceforge"net[doc"dev[WeAa[attributeSelection[Rreed@Step Wise".tml" C"2U" Nsu, C"2C" C.ang, C"2b" Min, and ot.ers, QA practical guide to support vector classification"S 6747" 1"2%" &an, M" Steinbac., and K" `umar, Introduction to !ata Mining" ostonO 1earson Addison Uesle@, 677E" M" M" de Arruda, Q1oisson, a@es, Futebol e )eFinetti,S Universidade de So 1aulo, 6777"

3E5 385

3;5

3J5 3P5 3475

3445

3465 34=5

34>5

34E5 3485 34;5

34J5 34P5

3675

%este artigo foi apresentado um modelo de aprendizagem de mB0uina baseado em regresso por vetores de suporte para a previso da diferena de gols em partidas de futebol" Um estudo de caso criado para prever a diferena de gols de ;8 partidas do campeonato brasileiro de futebol obteve um 'MSE de 4,68;J66" A previso do vencedor 9ou empate: desses mesmos confrontos apresentou uma acurBcia de 87,E=C, resultado ligeiramente superior ao valor obtido pelo modelo de referDncia" Esses resultados apontam para a viabilidade de se empregar t?cnicas de aprendizagem de mB0uina no au,-lio a es0uemas de apostas esportivas do tipo handicap ou na preparao de e0uipes para confrontos eliminatFrios"

3645 3665 36=5

Você também pode gostar