Você está na página 1de 4

Nomes:

Matheus de Carvalho Fantoni - RA: 118120005

Daniel Carneiro dos Santos Vial – RA: 11815876

Prática 08 - Análise de Dados e Big Data

1) A fontes dos dados foram os seguintes sites:

 https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2010_-_S
%C3%A9rie_A
 https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2011_-_S
%C3%A9rie_A
 https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2012_-_S
%C3%A9rie_A
 https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2013_-_S
%C3%A9rie_A
 https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2014_-_S
%C3%A9rie_A
 https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2015_-_S
%C3%A9rie_A
 https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2016_-_S
%C3%A9rie_A
 https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2017_-_S
%C3%A9rie_A
 https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2018_-_S
%C3%A9rie_A
 https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2019_-_S
%C3%A9rie_A
 https://pt.wikipedia.org/wiki/Campeonato_Brasileiro_de_Futebol_de_2020_-_S
%C3%A9rie_A

Os links informados serão as fontes de dados para se trabalhar com os times brasileiros
rebaixados e também para a coleta do primeiro time fora da zona de rebaixamento do
campeonato brasileiro.

As pontuações finais, número de gols marcados, número de gols sofridos foi utilizado os
sites da Wikipédia com as tabelas dos respectivos campeonatos de 2010 a 2020. A coluna
de Rebaixamento foi preenchida manualmente de acordo com a situação do time no
campeonato.

2) Apresentação do modelo, não foi excluído nenhuma variável porque pela matriz de
correlação, conforme mostrado na imagem abaixo é possível observar que há uma
forte interação das variáveis auxiliares da base de dados que está sendo tratada.
Com a matriz de correlação também podemos observar que quanto maior a
pontuação final maior será o número de gols marcados ou seja, são diretamente
proporcionais. Já a pontuação final do campeonato e os gols sofridos são inversamente
proporcionais.
Os gols marcados e gols sofridos tem uma relação fraca.

O erro padrão observado no modelo os valores de todas as colunas estão bem


próximos de zero, sendo assim conclui-se que os dados estão bem-comportados e sem
valores muito dispersos podendo se confiar nas análises que estão sendo feitas do
modelo.

Através da coluna z value, podemos fazer uma análise que há um impacto das colunas
no modelo, quanto mais afastados de zero os números tiverem, seja para o positivo ou
negativo, maior será o impacto na variável de resposta.
A coluna dos valores estimados são os coeficientes que são usados na fórmula para se
chegar no modelo da regressão logística. É mostrado o quanto cada variável impacta,
para cada unidade de acordo com a coluna que for analisada.

3)

Acima é mostrado a probabilidade de o time do brasileirão ser rebaixado, mas há uma


observação que gostaríamos de dizer que o nosso modelo está “viciado” em dizer “Sim”.

Na tabela é mostrado a matriz de confusão que através desse modelo, a coluna nos representa
o que é verdadeiramente os dados e a linha nos representam o que o modelo nos diz. O limiar
usado para análise foi de 0.5 conforme é mostrado também na imagem, caso este valor for
alterado, o nosso modelo nos trará respostas diferentes de acordo com o limiar que
colocarmos.

Contagem de times que não foram rebaixados: 11

Contagem de times que foram rebaixados: 44

Quando o time do brasileirão não foi rebaixado, ele acertou a maioria das vezes. E podemos
observar que ele disse “Não” para 5 times que foram rebaixados. No caso do “Sim” ele disse
que 39 times foram rebaixados para a série B do campeonato e ele acertou também a maioria
das vezes. Observa-se também que ele disse “Sim” para 5 times que não foram rebaixados,
acertou em sua maioria das vezes no modelo.

Neste modelo pode-se observar que existe valores “viciados”, ou seja, a quantidade de valores
“Sim” é muito superior que a quantidade de valores “Não”.
Acima é apresentado o gráfico com a curva ROC, inicialmente podemos observar que a
conforme a taxa de acerto cresce, a taxa de erros continua em zero. Porém conforme a taxa de
acertos cresce acima de 60% já se começa a observar erros no modelo. É calculado todos os
limiares para se chegar no resultado. A média dos valores ficaram entre 90% observando-se
toda a análise do gráfico.

Descrevendo a imagem acima, obtemos o valor de 90% da AUC, que é o cálculo da área do
gráfico que foi apresentado sobre o ROC. Apesar de termos obtido o valor de 90% da AUC,
este modelo estudado, pode-se concluir que faltam maior quantidade de dados para se
realizar uma análise do modelo de regressão logística. Com uma maior quantidade de dados,
poderiam ser obtidos melhores informações sobre como este modelo iria se comportar no seu
funcionamento.

Você também pode gostar