Você está na página 1de 2

COMPLEMENTO PARA EXCEL: BUSQUEDA FUZZY MICROSOFT

INTRODUCCIÓN:
Un problema importante en la gestión de datos es que una misma entidad puede ser
presentada en varias formas. Por ejemplo, el consumidor “Andy Hill” puede ser también
presentado como “Mr. Andrew Hill” o “Hill, Andrew R.”. Las variaciones pueden resultar
de la fusión de fuentes independientes de datos, errores de deletreo, inconstancia en
los nombramientos y abreviaciones o registros con información adicional o perdida.
La tecnología de Búsqueda Fuzzy Microsoft [Microsoft Fuzzy Lookup], desarrollada por
Microsoft Research, le permite identificar rápidamente registros de datos que son
textualmente similares. Usted puede identificar duplicados fuzzy en una única tabla o
ejecutar una unión fuzzy entre dos diferentes tablas. La configuración de antemano
trabaja bien para una amplia variedad de datos, sin embargo, el pareamiento debe ser
personalizado para dominios específicos.

PORTAFOLIO MUESTRA [PORTAFOLIO SAMPLE]


Esta sección describe cómo usar el complemento para Excel: Búsqueda Fuzzy Microsoft
para la Hoja de Cálculo Portafolio.xlsx, la cual se localiza en el folder de
instalación.

Ilustración 1.- Pantalla XYZ

Imagine que usted tiene un portafolio almacenado descrito por dos columnas: “Company”
y “Shares” y que está interesado en colocar la relación promedio precio/ganancias
[Price/earnings; P/E] de las compañías en el portafolio. Para hacer esto, usted
requiere unir la tabla de su portafolio con otra tabla que contenga la relación P/E.
La Hoja de Cálculo contiene una segunda tabla llamada SP500, la cual contiene datos de
la compañía importados de la página http://finviz.com. Al observar los datos, uno
puede ver que para “Company”, la unión de las columnas para las dos tablas no es
exacta dado que la representación textual de las compañías difiere (p.ej. “AMAZON COM
INC STK” y “Amazon.com Inc).
La unión fuzzy de ambas columnas puede ser llevada a cabo de la siguiente manera:
1.) Convierta el conjunto de datos en una tabla Excel seleccionando una región y
presionando CTRL+L. Usted puede asignar un nombre a la tabla dando click en el botón
“Diseño” en la cinta de Excel.
2.) Abra el Panel Búsqueda Fuzzy
3.) Escoja las tablas izquierda y derecha en el menú plegable. En la tabla de la
derecha se devolverá una fila de coincidencia por cada fila en la tabla izquierda.
4.) Seleccione las columnas para las cuales de hará la coincidencia. Se añadirá una
unión de antemano si las dos tablas comparten en común uno o más nombres de columnas.
Si usted desea hacer la coincidencia en diferentes columnas, primero borre la unión
existente presionando el botón “X” sobre la fila de uniones en la Tabla de Columnas de
Uniones. Para crear una nueva columna de unión, seleccione una o más columnas para
cada tabla (se pueden seleccionar múltiples columnas presionando SHIFT o CTRL y dando
click en los nombres de las columnas). Enseguida, presione el botón ubicado entre las
dos listas de columnas para añadir una fila a la Tabla de Columnas de Uniones.
5.) Seleccione una o más columnas de salida para las coincidencias.
6.) Seleccione el número máximo de coincidencias a ser devueltas para cada fila
izquierda.
7.) Fije el límite de similaridad. Todas las coincidencias devueltas deben tener una
similaridad igual o mayor a este valor.
8.) Mueva la celda seleccionada en la Hoja de Cálculo de Excel hacia una celda vacía,
la cuál deberá tener tanto un espacio vacío a la derecha como debajo. Las
coincidencias de la Busqueda Fuzzy comienzan en esta celda.
9.) Presione el botón “Go” para llevar a cabo las coincidencias.
Los resultados deben ser vistos como se indica en la pantalla anterior. Note que cada
coincidencia devuelta incluye una calificación de similaridad, indicando cuán cercanos
son dos registros. 1.0 indica una coincidencia exacta, mientras que calificaciones
inferiores indican una menor similaridad.

Você também pode gostar