(TCC) - Joao Augusto Capella Salmaso

Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
Aplicação de técnicas de clusterização e árvores de classificação na identificação do

perfil dos políticos eleitos no Brasil
João Augusto Capella Salmaso¹*; Cleanderson Romualdo Fidelis2

1
Engenheiro químico. Rua 01-B, 154; 13506-813 Rio Claro, São Paulo, Brasil
2
Departamento de Ciências Exatas. Av. Pádua Dias, 11 – Agronomia; 13418-900 Piracicaba, São Paulo, Brasil
*autor correspondente: joaosalmazo@hotmail.com
1
Aplicação de técnicas de clusterização e árvores de classificação na identificação do

perfil dos políticos eleitos no Brasil
Resumo
A cada ciclo de eleições federais no Brasil frequentemente vem à tona discussões e críticas
direcionadas ao povo brasileiro como “o brasileiro tem memória curta”, criticas corroboradas
por pesquisas publicadas como a da Datafolha veiculada em agosto de 2022 indicando que
64% dos eleitores não se recordavam do nome do candidato em que votaram para câmara
dos deputados nas eleições de 2018. Afinal, qual é o perfil dos candidatos eleitos para os
cargos de deputado federal, deputado estadual e senador? Este trabalho visa identificar o
perfil mais recorrente de tais políticos através do uso de técnicas de clusterização e árvore
de classificação aplicadas em um banco de dados histórico publicado pelo TSE (Tribunal
Superior Eleitoral). Os resultados obtidos neste trabalho indicam os perfis dos deputados
estaduais, deputados federais e senadores segundo os atributos de gênero, grau de
escolaridade, estado civil, faixa etária e espectro político.
Palavras-chave: Análise de Cluster; K-Means; Método de Elbow; Árvore de Classificação;
Política.
Introdução
Segundo Bringhenti (2019), historicamente o processo de eleições no Brasil teve

início ainda no reinado de D. João VI, quando em 1821 foram convocadas as primeiras
eleições para o cargo de deputado federal com a finalidade de se representar o “o Reino do
Brasil nas Cortes Gerais Extraordinárias e Constituintes da Nação Portuguesa, convocadas
em Lisboa”.
A política é uma das áreas mais importantes da sociedade, uma vez que as decisões
tomadas pelos políticos têm o poder de afetar diretamente a vida da população. Atualmente
no Brasil, a escolha dos políticos é realizada através do voto popular em eleições realizadas
em ciclos de quatro anos.
De acordo com Martins e Kerbauy (2017), entender estas características dos
representantes da população é imprescindível para a compreensão do cenário político e sua
dinâmica de poder, desta forma o estudo do perfil dos políticos pode fornecer informações
valiosas sobre suas crenças, valores, prioridades e interesses podendo influenciar suas
ações e decisões enquanto representantes da população.
Dada a relevância da política na vida da população, este trabalho tem como objetivo
de identificar o perfil característico dos principais representantes do povo brasileiro no poder
legislativo.
2
Material e Métodos
Coleta de Dados
A autoria dos dados utilizados neste trabalho pertence ao TSE, base original que foi
tratada e disponibilizada em um arquivo de extensão “.csv” no portal Kaggle (Kaggle, 2021).
As variáveis deste banco de dados que foram consideradas relevantes para a definição do
perfil dos políticos estão listadas na (Tabela 1).
Tabela 1. Variáveis de entrada

Descrição Tipo de variável
Gênero Qualitativa - binária
Idade Quantitativa - discreta
Estado Civil Qualitativa - categórica
Escolaridade Qualitativa - categórica
Espectro político Qualitativa - categórica
Fonte: Dados originais da pesquisa
Clusterização
Segundo Fávero e Belfiore (2017), a clusterização ou análise de agrupamento é uma

técnica exploratória visto que não apresenta caráter preditivo e sua aplicação possui o
objetivo de verificar a existência de comportamentos semelhantes entre observações com
base em suas variáveis e posteriormente a criação de grupos ou “clusters” onde prevaleça a
homogeneidade interna. Linden (2009) aponta que as técnicas de agrupamento visam
formar grupos com alta homogeneidade interna e alta separação (heterogeneidade externa),
ou seja, as observações contidas dentro de um grupo devem apresentar uma alta
semelhança entre si ao mesmo tempo em que tais observações deverão apresentar grandes
diferenças dos demais agrupamentos.
Método não hierárquico K-means
O procedimento de K-means trabalha com centros de aglomeração pré-definidos a

partir dos quais são alocadas as observações pela proximidade a eles, ou seja, a
informação referente à quantidade de grupos ou “clusters” desejada deverá ser definida
antes de se iniciar o procedimento de K-means.
De acordo com Machado (2019), o funcionamento do método de k-means segue as
etapas (I) definição da quantidade de “clusters” ou partição inicial, (II) cálculo da distância
3
dos centroides para cada observação do conjunto de dados, (III) agrupamento das
observações aos clusters conforme a proximidade em relação ao centroide e (IV) recalcular
os centroides após cada etapa de agrupamento até que a variação na distância mínima
entre cada observação e os centroides deixe de ser significativa.
Neste trabalho foi utilizada a medida de Jaccard como referência para a medida de
similaridade de observações binárias visto que, segundo Fávero e Belfiore (2017), trata-se
de uma medida adequada para uso em circunstâncias em que variáveis binárias forem
empregadas em substituições de variáveis categóricas através de técnicas de dumização,
de forma a não resultar em problemas de ponderação arbitrária.
A forma adotada neste trabalho para se determinar o número de “clusters” a ser
utilizado no procedimento de K-means é através do método de “elbow”, onde é avaliada a
variância em função do número de “clusters” e define-se o número de grupos através de
uma avaliação visual do gráfico em busca da “curva de cotovelo”, ponto a partir do qual o
aumento o aumento do número de clusters não provoca uma discrepância significativa na
variância conforme exemplificado na (Figura 1).
Figura 1 Representação da definição de clusters pelo método de elbow

Fonte: Resultados originais da pesquisa
Árvore de Classificação
Segundo Coinhet e colaboradores (2021), o método de árvore de decisão pode ser

definido como um modelo preditivo baseado em um conjunto de regras e, a depender da
natureza da variável alvo utilizada, a árvore de decisão receberá outras denominações como
árvore de regressão, no caso do emprego de variável alvo quantitativa, e árvore de
classificação para os casos em que a variável alvo for categórica.
4
Conforme apresentado Fawcett e Provost (2016), a técnica de árvore de

classificação possui o objetivo de proporcionar uma segmentação supervisionada com base
nos atributos das observações visando a formação de subgrupos que possuam valores mais
semelhantes entre si em relação a variável alvo.
O funcionamento desta técnica baseia-se na criação de uma estrutura de árvores
composta por nós, onde cada nó representa uma decisão feita em relação às variáveis de
entrada do modelo. A construção da árvore é feita de forma iterativa com o objetivo de se
obter o máximo de pureza das amostras contidas em cada folha como pode ser observado
na (Figura 2).
Figura 2 Representação da árvore de classificação

De acordo com Barbosa e colaboradores (2012), o índice de Gini é frequentemente

utilizado na medição da impureza de um nó, onde é representado em uma escala variando
de zero a um, onde zero representa a situação de um nó puro enquanto resultados próximos
a um indicam impureza do nó. Neste trabalho o índice de Gini foi utilizado como
hiperparâmetro no algoritmo de árvore de classificação.
5
Resultados e Discussão
Deputado Federal
A análise visual da quantidade de “clusters” feita a partir do método de “elbow” para o

cargo de deputado federal indica o uso dezenove “clusters”, conforme pode ser observado
na (Figura 3). O valor resultante desta análise representa a quantidade de agrupamentos
com o menor valor da soma dos quadrados da distância de cada ponto no conjunto de
dados para a média geral do conjunto de dados (‘”Total within sum of squares”).
Figura 3 Método de elbow – Deputados Federais

O banco de dados referente ao cargo de deputado federal foi agrupado em dezenove

“clusters” através da técnica de k-means com medida de similaridade de Jaccard.
A tabela de clusters foi organizada de forma decrescente em termos de quantidade
de observações como pode ser observado na (Tabela 2).
6
Tabela 2. Clusterização das observações de Deputados Federais

Número do Cluster Quantidade de observações
19 931
1 821
2 239
14 186
6 118
9 87
8 65
18 59
7 55
11 50
13 50
17 50
4 37
12 29
15 29
5 26
10 20
3 12
16 9
A variável de saída utilizada na árvore de classificação foi a informação referente ao

número do “cluster” em função das variáveis de entrada como gênero, idade, estado civil,
escolaridade e espectro político.
Dado que um dos objetivos deste estudo é identificar o perfil mais comum de
deputado federal, a amostra utilizada na ferramenta de árvore de classificação continha
somente os cinco “clusters” com maiores números de observações (“cluster” 19, “cluster” 1,
“cluster” 2, “cluster” 14 e “cluster” 6), o que representa 80% do total de observações
referentes ao cargo de deputado federal.
A árvore de classificação resultante da análise do perfil de deputados federais
(Figura 4), indica que a folha com a maior representatividade é referente ao “cluster” 1, o
qual concentra 36% das observações e é composto por indivíduos de espectro político de
direita, faixa etária entre 30 a 60 anos, casados e com ensino superior completo.
7
Figura 4 Árvore de Classificação – Deputados Federais

Outro ponto relevante observado na árvore obtida é que o “cluster” 19, o qual possui
o maior percentual da amostra está fragmentado em quatro folhas distintas, o que indica
certa heterogeneidade neste “cluster” mesmo após o uso da técnica de clusterização.
Deputado Estadual

cargo de deputado estadual indica o uso de vinte e dois “clusters”, conforme pode ser
observado na (Figura 5). O valor resultante desta análise representa a quantidade de
agrupamentos com um dos menores valores referente a soma dos quadrados da distância
de cada ponto no conjunto de dados para a média geral do conjunto de dados (‘”Total within
sum of squares”).
Figura 5 Método de elbow – Deputados Estaduais

8
O banco de dados referente ao cargo de deputado estadual foi agrupado em vinte e

dois “clusters” através da técnica de k-means com medida de similaridade de Jaccard.
Tabela 3. Clusterização das observações de Deputados Estaduais

22 1830
16 1376
10 608
2 556
12 263
14 228
1 159
19 139
11 94
4 81
3 77
20 64
6 63
17 63
7 62
18 60
8 37
9 30
21 21
5 19
13 13
15 8

deputado estadual, a amostra utilizada na ferramenta de árvore de classificação continha
somente os cinco “clusters” com maiores números de observações (“cluster” 22, “cluster” 16,
“cluster” 10, “cluster” 2 e “cluster” 12), o que representa 79% do total de observações
referentes ao cargo de deputado estadual.
O perfil mais comum dentre as observações referentes ao cargo de deputado
estadual é representado pelo “cluster” 16 da (Figura 6), o qual concentra 30% das
9
observações e é composto por indivíduos de gênero masculino, casados, espectro político

de direita e faixa etária entre 30 a 60 anos.
Figura 6 Árvore de Classificação – Deputados Estaduais

Assim como observado na árvore de classificação obtida para o cargo de deputados

federais, a árvore resultante do cargo de deputados estaduais também apresenta a mesma
característica de o “cluster” 23, o qual concentra o maior percentual da amostra, encontra-se
difuso em sete folhas distintas, o que indica certa heterogeneidade dentro deste “cluster”
mesmo após o uso da técnica de clusterização.
Senador

cargo de senador indica o uso de vinte e dois “clusters”, conforme pode ser observado na
(Figura 7). O valor resultante desta análise representa a quantidade de agrupamentos com
um dos menores valores referente à soma dos quadrados da distância de cada ponto no
conjunto de dados para a média geral do conjunto de dados (‘”Total within sum of squares”).
10
Figura 7 Método de elbow – Senadores

O banco de dados referente ao cargo de senador foi agrupado em vinte e dois

“clusters” através da técnica de k-means com medida de similaridade de Jaccard.
Tabela 4. Clusterização das observações de Senadores
4 55
3 43
21 25
11 19
5 17
1 11
12 9
7 8
8 8
10 8
18 6
19 6
20 6
2 5
16 5
15 3
13 2
14 2
17 2
6 1
9 1
22 1
11

senador, a amostra utilizada na ferramenta de árvore de classificação continha somente os
cinco “clusters” com maiores números de observações (“cluster” 4, “cluster” 3, “cluster” 21,
“cluster” 11 e “cluster” 5), o que representa 65% do total de observações referentes ao cargo
de senador.
As características que descrevem o perfil mais comum dos senadores eleitos podem
ser descritas como pessoas com idade inferior a 60 anos, casados e com ensino superior
completo, atributos os quais estão representados pelo “cluster” 4 da (Figura 11), o qual
concentra 35% das observações associadas ao cargo de senador.
Figura 8 Árvore de Classificação – Senadores

Considerações Finais
Neste trabalho, o objetivo central é a identificação do perfil mais comum dos políticos
com base em atributos públicos disponibilizados pelo TSE, base de dados a qual foram
adicionadas informações referentes ao espectro político tendo como referência o partido aos
quais os políticos representavam no ano em que foram eleitos (partidos de direita, partidos
de esquerda e partidos de centro).
12
Durante a etapa de “data cleaning” deste trabalho foi necessário realizar uma
avaliação referente as mudanças de nomenclaturas dos partidos, visto que ao decorrer dos
últimos anos houveram fusões de partidos assim como alterações de nomes e siglas.
O atributo de idade contido no “dataset”, o qual era originalmente uma variável
discreta, foi transformado em variável categórica com apenas três classes distintas (“18 a 30
anos”, “30 a 60 anos” e “acima de 60 anos”) de forma a simplificar a construção e
interpretação da árvore de decisão.
Dado que as variáveis de entrada utilizadas no trabalho eram de natureza categórica
e o método não hierárquico k-means necessita que as variáveis de entrada sejam
numéricas, o “dataset” foi transformado em variáveis binárias “dummies”, de forma a tornar
possível o calcula da distância entre as observações baseado nos valores das variáveis
“dummies”.
A variável alvo utilizada na árvore de classificação foi o resultado da etapa de
clusterização (atributo id cluster), onde o “dataset” foi reduzido aos cinco “clusters” com
maiores números de observações. A quantidade de “clusters” a ser utilizada foi avaliada de
forma empírica, visto que foram testadas quantidades inferiores e superiores a cinco
“clusters”, porém o resultado obtido na etapa de árvore de classificação para números
diferentes de cinco “clusters” se demostrou pouco representativo, em alguns casos
resultando em árvores com poucos atributos enquanto que outros casos as árvores obtidas
eram muito dispersas.
Este trabalho teve como resultado o perfil a nível nacional dos cargos de senadores,
deputados federais e deputados estaduais independentemente do estado de origem de cada
observação, como recomendação para futuras pesquisas existe a possibilidade de se
aprofundar em termos de comparação entre o perfil destes políticos a nível estadual com o
perfil a nível nacional obtido neste trabalho.
Referências
Barbosa, M. J.; Carneiro, TGS; Tavares, A. I. 2012. Métodos de Classificação por

Árvores de Decisão Disciplina de Projeto e Análise de Algoritmos. UFOP–Universidade
Federal de Ouro Preto, Ouro Preto, Minas Gerais, Brasil. Disponível em:
<http://www.decom.ufop.br/menotti/paa111/files/PCC104-111-ars-11.1-
JulianaMoreiraBarbosa.pdf> Acesso em: 20 mar. 2023
13
Bringhenti, T. F. S. 2019. Profissionalização política e regime autoritário: Perfil social e

carreira dos Deputados Federais na Ditadura. Dissertação de Mestrado em Ciências
Socias. Escola de Humanidades da Pontifícia Universidade Católica do Rio Grande do
Sul, Porto Alegre, RS, Brasil.
Choinhet, R.; Schmidt, C. E.; Chies, L. 2021. Aplicação da árvore de classificação na

predição do movimento do índice Ibovespa. In: XV Simpósio Brasileiro de Automação
Inteligente, 2021, evento virtual. Anais p. 512-517.
Fávero, L. P.; Belfiore, P. 2017. Manual de Análise de dados: Estatística e Modelagem

Multivariada com Excel, SPSS e Stata. 1ed. Elsevier, Rio de Janeiro, RJ, Brasil.
Fawcett, T.; Provost, F. 2016. Data Science para Negócios – O que você precisa saber
sobre mineração de dados e pensamento analítico de dados. 1ed. Alta Books, Rio de
Janeiro, RJ, Brasil.
Kaggle. 2021. Eleições Brasil. Disponível em:

<https://www.kaggle.com/datasets/pauloigorms/eleicao-br?select=candidatura.csv>.
Acesso em: 18 fev. 2023
Linden, R. 2009. Técnicas de Agrupamento. Revista de Sistemas de Informação da

FSMA 4: 18-36.
Martins, T. C.; Kerbauy, M. T. M. 2017. O perfil da elite política local: Uma análise da
autopercepção dos vereadores sobre a representação. Revista Eletrônica de Ciência
Política 8: 136-159.
Machado, C. S. 2019. Técnicas de Clusterização para agrupamento de eventos de

incêndios. Revista Gestão Industrial 15: 76-99.
14

(TCC) - Joao Augusto Capella Salmaso

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

(TCC) - Joao Augusto Capella Salmaso

Enviado por

Direitos autorais:

Formatos disponíveis

Trabalho de Conclusão de Curso apresentado para obtenção do título

de especialista em Data Science e Analytics – 2023

Aplicação de técnicas de clusterização e árvores de classificação na identificação do

João Augusto Capella Salmaso¹*; Cleanderson Romualdo Fidelis2

Aplicação de técnicas de clusterização e árvores de classificação na identificação do

Segundo Bringhenti (2019), historicamente o processo de eleições no Brasil teve

Tabela 1. Variáveis de entrada

Segundo Fávero e Belfiore (2017), a clusterização ou análise de agrupamento é uma

Método não hierárquico K-means

O procedimento de K-means trabalha com centros de aglomeração pré-definidos a

Figura 1 Representação da definição de clusters pelo método de elbow

Segundo Coinhet e colaboradores (2021), o método de árvore de decisão pode ser

Conforme apresentado Fawcett e Provost (2016), a técnica de árvore de

Figura 2 Representação da árvore de classificação

De acordo com Barbosa e colaboradores (2012), o índice de Gini é frequentemente

A análise visual da quantidade de “clusters” feita a partir do método de “elbow” para o

Figura 3 Método de elbow – Deputados Federais

O banco de dados referente ao cargo de deputado federal foi agrupado em dezenove

Tabela 2. Clusterização das observações de Deputados Federais

A variável de saída utilizada na árvore de classificação foi a informação referente ao

Figura 4 Árvore de Classificação – Deputados Federais

A análise visual da quantidade de “clusters” feita a partir do método de “elbow” para o

Figura 5 Método de elbow – Deputados Estaduais

O banco de dados referente ao cargo de deputado estadual foi agrupado em vinte e

Tabela 3. Clusterização das observações de Deputados Estaduais

A variável de saída utilizada na árvore de classificação foi a informação referente ao

observações e é composto por indivíduos de gênero masculino, casados, espectro político

Figura 6 Árvore de Classificação – Deputados Estaduais

Assim como observado na árvore de classificação obtida para o cargo de deputados

A análise visual da quantidade de “clusters” feita a partir do método de “elbow” para o

Figura 7 Método de elbow – Senadores

O banco de dados referente ao cargo de senador foi agrupado em vinte e dois

A variável de saída utilizada na árvore de classificação foi a informação referente ao

Figura 8 Árvore de Classificação – Senadores

Barbosa, M. J.; Carneiro, TGS; Tavares, A. I. 2012. Métodos de Classificação por

Bringhenti, T. F. S. 2019. Profissionalização política e regime autoritário: Perfil social e

Choinhet, R.; Schmidt, C. E.; Chies, L. 2021. Aplicação da árvore de classificação na

Fávero, L. P.; Belfiore, P. 2017. Manual de Análise de dados: Estatística e Modelagem

Kaggle. 2021. Eleições Brasil. Disponível em:

Linden, R. 2009. Técnicas de Agrupamento. Revista de Sistemas de Informação da

Machado, C. S. 2019. Técnicas de Clusterização para agrupamento de eventos de

Você também pode gostar