Escolar Documentos
Profissional Documentos
Cultura Documentos
1
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
Resumo
A cada ciclo de eleições federais no Brasil frequentemente vem à tona discussões e críticas
direcionadas ao povo brasileiro como “o brasileiro tem memória curta”, criticas corroboradas
por pesquisas publicadas como a da Datafolha veiculada em agosto de 2022 indicando que
64% dos eleitores não se recordavam do nome do candidato em que votaram para câmara
dos deputados nas eleições de 2018. Afinal, qual é o perfil dos candidatos eleitos para os
cargos de deputado federal, deputado estadual e senador? Este trabalho visa identificar o
perfil mais recorrente de tais políticos através do uso de técnicas de clusterização e árvore
de classificação aplicadas em um banco de dados histórico publicado pelo TSE (Tribunal
Superior Eleitoral). Os resultados obtidos neste trabalho indicam os perfis dos deputados
estaduais, deputados federais e senadores segundo os atributos de gênero, grau de
escolaridade, estado civil, faixa etária e espectro político.
Palavras-chave: Análise de Cluster; K-Means; Método de Elbow; Árvore de Classificação;
Política.
Introdução
2
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
Material e Métodos
Coleta de Dados
A autoria dos dados utilizados neste trabalho pertence ao TSE, base original que foi
tratada e disponibilizada em um arquivo de extensão “.csv” no portal Kaggle (Kaggle, 2021).
As variáveis deste banco de dados que foram consideradas relevantes para a definição do
perfil dos políticos estão listadas na (Tabela 1).
Clusterização
3
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
dos centroides para cada observação do conjunto de dados, (III) agrupamento das
observações aos clusters conforme a proximidade em relação ao centroide e (IV) recalcular
os centroides após cada etapa de agrupamento até que a variação na distância mínima
entre cada observação e os centroides deixe de ser significativa.
Neste trabalho foi utilizada a medida de Jaccard como referência para a medida de
similaridade de observações binárias visto que, segundo Fávero e Belfiore (2017), trata-se
de uma medida adequada para uso em circunstâncias em que variáveis binárias forem
empregadas em substituições de variáveis categóricas através de técnicas de dumização,
de forma a não resultar em problemas de ponderação arbitrária.
A forma adotada neste trabalho para se determinar o número de “clusters” a ser
utilizado no procedimento de K-means é através do método de “elbow”, onde é avaliada a
variância em função do número de “clusters” e define-se o número de grupos através de
uma avaliação visual do gráfico em busca da “curva de cotovelo”, ponto a partir do qual o
aumento o aumento do número de clusters não provoca uma discrepância significativa na
variância conforme exemplificado na (Figura 1).
Árvore de Classificação
4
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
5
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
Resultados e Discussão
Deputado Federal
6
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
7
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
Outro ponto relevante observado na árvore obtida é que o “cluster” 19, o qual possui
o maior percentual da amostra está fragmentado em quatro folhas distintas, o que indica
certa heterogeneidade neste “cluster” mesmo após o uso da técnica de clusterização.
Deputado Estadual
8
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
9
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
Senador
10
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
11
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
Considerações Finais
Neste trabalho, o objetivo central é a identificação do perfil mais comum dos políticos
com base em atributos públicos disponibilizados pelo TSE, base de dados a qual foram
adicionadas informações referentes ao espectro político tendo como referência o partido aos
quais os políticos representavam no ano em que foram eleitos (partidos de direita, partidos
de esquerda e partidos de centro).
12
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
Durante a etapa de “data cleaning” deste trabalho foi necessário realizar uma
avaliação referente as mudanças de nomenclaturas dos partidos, visto que ao decorrer dos
últimos anos houveram fusões de partidos assim como alterações de nomes e siglas.
O atributo de idade contido no “dataset”, o qual era originalmente uma variável
discreta, foi transformado em variável categórica com apenas três classes distintas (“18 a 30
anos”, “30 a 60 anos” e “acima de 60 anos”) de forma a simplificar a construção e
interpretação da árvore de decisão.
Dado que as variáveis de entrada utilizadas no trabalho eram de natureza categórica
e o método não hierárquico k-means necessita que as variáveis de entrada sejam
numéricas, o “dataset” foi transformado em variáveis binárias “dummies”, de forma a tornar
possível o calcula da distância entre as observações baseado nos valores das variáveis
“dummies”.
A variável alvo utilizada na árvore de classificação foi o resultado da etapa de
clusterização (atributo id cluster), onde o “dataset” foi reduzido aos cinco “clusters” com
maiores números de observações. A quantidade de “clusters” a ser utilizada foi avaliada de
forma empírica, visto que foram testadas quantidades inferiores e superiores a cinco
“clusters”, porém o resultado obtido na etapa de árvore de classificação para números
diferentes de cinco “clusters” se demostrou pouco representativo, em alguns casos
resultando em árvores com poucos atributos enquanto que outros casos as árvores obtidas
eram muito dispersas.
Este trabalho teve como resultado o perfil a nível nacional dos cargos de senadores,
deputados federais e deputados estaduais independentemente do estado de origem de cada
observação, como recomendação para futuras pesquisas existe a possibilidade de se
aprofundar em termos de comparação entre o perfil destes políticos a nível estadual com o
perfil a nível nacional obtido neste trabalho.
Referências
13
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
Fawcett, T.; Provost, F. 2016. Data Science para Negócios – O que você precisa saber
sobre mineração de dados e pensamento analítico de dados. 1ed. Alta Books, Rio de
Janeiro, RJ, Brasil.
Martins, T. C.; Kerbauy, M. T. M. 2017. O perfil da elite política local: Uma análise da
autopercepção dos vereadores sobre a representação. Revista Eletrônica de Ciência
Política 8: 136-159.
14