Você está na página 1de 11

Trabalho final: Curso de pareamento de dados

Marcus Vinicius M. Fernandes


Vinicius Alexandre S. de Souza

Curso de Pareamento de Dados – 10/02/21


Base de dados utilizada

 Motivação: Pareamento de pessoas na PNAD Contínua.

• Criação de um id único para estudos longitudinais.

 Base de dados da PNAD Contínua com entrevistas realizadas em

dois trimestres consecutivos:

• Fevereiro de 2019: 140.974 registros

• Maio de 2019: 140.765 registros


Variáveis de pareamento e blocagem

 Variáveis de pareamento: nome completo, sexo, dia de nascimento,

mês de nascimento e idade;

 Variáveis de blocagem: Identificação do domicílio.

• 47.603 domicílios

• Combinações possíveis: 515.639


Etapa de limpeza de dados

 Variável Nome:

• Todos caracteres maiúsculos;

• Retirada de partes como: DE/DA/DO/DES/DAS/DOS

• Divisão do nome em 8 partes (máximo encontrado) e criação das

variáveis: nome e sobrenome, com o primeiro e último sobrenome

encontrado; ou

• Criação de uma string com o uso de algoritmo de fonemas

brasileiros.
Etapa de Comparação

Três conjuntos de comparação:

 Conjunto 1: Nome, sobrenome, sexo e idade;

 Conjunto 2: Nome, sobrenome, sexo, dia de nascimento, mês de

nascimento e idade;

 Conjunto 3: Nome (algoritmo de fonema), sexo, dia de nascimento,

mês de nascimento e idade;


Etapa de Comparação

Funções de comparação:

 Nome, sobrenome, sexo, dia de nascimento e mês de nascimento:

Jaro Winckler

 Idade: função específica que considera

1 Se diferença de idade = ±2 anos

0 Caso contrário
Etapa de Classificação

 Não determinística, não supervisionada:

• Fellegi-Sunter:

• K-médias:

• Híbrido B-clust:
Etapa de Classificação

 Não determinística supervisionada:

Dados com pares verdadeiros: março e junho de 2019.

• Bagging

• SVM
Resultados – Conjunto 1

Pareamento não determinístico


Não supervisionado Supervisionado
Fellegi-Sunter (0) Fellegi-Sunter (-15) K-médias B-Clust Bagging SVM
Pares 134.335 135.306 83.802 131.044 133.480 133.834

FP 82 534 5.505 981 40 80


VP 134.253 134.772 78.297 130.063 133.440 133.754
VN 380.607 380.155 375.184 379.708 380.649 380.609
FN 697 178 56.653 4.887 1.510 1.196

Precisão 0,99939 0,99605 0,93431 0,99251 0,99970 0,99940


Sensibilidade 0,99484 0,99868 0,58019 0,96379 0,98881 0,99114
Fstat 0,99711 0,99737 0,71585 0,97794 0,99423 0,99525

• Base 1 (fevereiro de 2019): 140.974 registros

• Base 2 (maio de 2019): 140.765 registros


Resultados – Conjunto 2

Pareamento não determinístico


Não supervisionado Supervisionado
Fellegi-Sunter (0) Fellegi-Sunter (-15) K-médias B-Clust Bagging SVM
Pares 132.474 134.750 128.069 130.944 131.420 131.882

FP 97 335 1.280 311 23 47


VP 132.377 134.415 126.789 130.633 131.397 131.835
VN 380.592 380.354 379.409 380.378 380.666 380.642
FN 2.573 535 8.161 4.317 3.553 3.115

Precisão 0,99927 0,99751 0,99001 0,99762 0,99982 0,99964


Sensibilidade 0,98093 0,99604 0,93953 0,96801 0,97367 0,97692
Fstat 0,99002 0,99677 0,96411 0,98259 0,98658 0,98815

• Base 1 (fevereiro de 2019): 140.974 registros

• Base 2 (maio de 2019): 140.765 registros


Resultados – Conjunto 3

Pareamento não determinístico


Não supervisionado Supervisionado
Fellegi-Sunter (0) Fellegi-Sunter (-15) K-médias B-Clust Bagging SVM
Pares 132.485 134.587 123.682 83.802 131.220 131.649

FP 88 318 1.902 5.505 14 27


VP 132.397 134.269 121.780 78.297 131.206 131.622
VN 380.601 380.371 378.787 175.184 380.675 380.662
FN 2.553 681 13.170 56.653 3.744 3.328

Precisão 0,99934 0,99764 0,98462 0,93431 0,99989 0,99979


Sensibilidade 0,98108 0,99495 0,90241 0,58019 0,97226 0,97534
Fstat 0,99012 0,99629 0,94172 0,71585 0,98588 0,98742

• Base 1 (fevereiro de 2019): 140.974 registros

• Base 2 (maio de 2019): 140.765 registros

Você também pode gostar