Escolar Documentos
Profissional Documentos
Cultura Documentos
https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2010_-_S
%C3%A9rie_A
https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2011_-_S
%C3%A9rie_A
https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2012_-_S
%C3%A9rie_A
https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2013_-_S
%C3%A9rie_A
https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2014_-_S
%C3%A9rie_A
https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2015_-_S
%C3%A9rie_A
https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2016_-_S
%C3%A9rie_A
https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2017_-_S
%C3%A9rie_A
https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2018_-_S
%C3%A9rie_A
https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2019_-_S
%C3%A9rie_A
https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2020_-_S
%C3%A9rie_A
Os links informados serão as fontes de dados para se trabalhar com os times brasileiros
rebaixados e também para a coleta do primeiro time fora da zona de rebaixamento do
campeonato brasileiro.
As pontuações finais, número de gols marcados, número de gols sofridos foi utilizado os
sites da Wikipédia com as tabelas dos respectivos campeonatos de 2010 a 2020. A coluna
de Rebaixamento foi preenchida manualmente de acordo com a situação do time no
campeonato.
2) Apresentação do modelo, não foi excluído nenhuma variável porque pela matriz de
correlação, conforme mostrado na imagem abaixo é possível observar que há uma
forte interação das variáveis auxiliares da base de dados que está sendo tratada.
Com a matriz de correlação também podemos observar que quanto maior a
pontuação final maior será o número de gols marcados ou seja, são diretamente
proporcionais. Já a pontuação final do campeonato e os gols sofridos são inversamente
proporcionais.
Os gols marcados e gols sofridos tem uma relação fraca.
Através da coluna z value, podemos fazer uma análise que há um impacto das colunas
no modelo, quanto mais afastados de zero os números tiverem, seja para o positivo ou
negativo, maior será o impacto na variável de resposta.
A coluna dos valores estimados são os coeficientes que são usados na fórmula para se
chegar no modelo da regressão logística. É mostrado o quanto cada variável impacta,
para cada unidade de acordo com a coluna que for analisada.
3)
Na tabela é mostrado a matriz de confusão que através desse modelo, a coluna nos representa
o que é verdadeiramente os dados e a linha nos representam o que o modelo nos diz. O limiar
usado para análise foi de 0.5 conforme é mostrado também na imagem, caso este valor for
alterado, o nosso modelo nos trará respostas diferentes de acordo com o limiar que
colocarmos.
Quando o time do brasileirão não foi rebaixado, ele acertou a maioria das vezes. E podemos
observar que ele disse “Não” para 5 times que foram rebaixados. No caso do “Sim” ele disse
que 39 times foram rebaixados para a série B do campeonato e ele acertou também a maioria
das vezes. Observa-se também que ele disse “Sim” para 5 times que não foram rebaixados,
acertou em sua maioria das vezes no modelo.
Neste modelo pode-se observar que existe valores “viciados”, ou seja, a quantidade de valores
“Sim” é muito superior que a quantidade de valores “Não”.
Acima é apresentado o gráfico com a curva ROC, inicialmente podemos observar que a
conforme a taxa de acerto cresce, a taxa de erros continua em zero. Porém conforme a taxa de
acertos cresce acima de 60% já se começa a observar erros no modelo. É calculado todos os
limiares para se chegar no resultado. A média dos valores ficaram entre 90% observando-se
toda a análise do gráfico.
Descrevendo a imagem acima, obtemos o valor de 90% da AUC, que é o cálculo da área do
gráfico que foi apresentado sobre o ROC. Apesar de termos obtido o valor de 90% da AUC,
este modelo estudado, pode-se concluir que faltam maior quantidade de dados para se
realizar uma análise do modelo de regressão logística. Com uma maior quantidade de dados,
poderiam ser obtidos melhores informações sobre como este modelo iria se comportar no seu
funcionamento.