Você está na página 1de 5

Desarrollo

Importancia de la etapa de limpieza de datos o data cleansing o data scrubbing:


- Asegurar los datos que se van a procesar.
- Evitar la información no veraz o errónea.
- Ahorrar costes de espacio en disco al eliminar información duplicada.
- Agilizar las consultas por ausencia de datos duplicados o inservibles.
Todo lo anterior va en ayuda a tomar decisiones estratégicas más acertadas.
* Ignorar la Tupla; ¿?

* Utilizar una constante global para rellenar el valor faltante; según materia entregada indica que se
puede rellenar con una etiqueta como Desconocido o #. Claro que esto resulta bastante
desalentador para el resultado ya que podemos tener datos como “dirección”, “forma de pago”, o
cualquier otro dato, como desconocido o #, y esto nos entregaría un resultado bastante alejado de
la realidad.
* Utilizar el atributo significa rellenar el valor faltante; esto podría resultar bajo ciertas condiciones
como se da en el ejemplo en la materia entregada reemplazando el valor faltante con $56.000. De
igual forma se podría dar para asignar a datos faltantes en la edad de los alumnos de una escuela.
Solo con saber el promedio de los datos existentes, se completan los datos con este resultado.
* Utilizar el atributo para todas las muestras que pertenecen a la misma clase que se encuentra en la
tupla; En este caso y siguiendo más o menos la tónica del ejemplo entregado en la materia.
Podemos catalogar a niños de una favela en Brasil, teniendo los datos que por mucho tiempo, la
mitad de los niños de estas zonas terminan en la cárcel o muertos, diremos que de los que vienen
a futuro, solo la mitad tienen algún grado de oportunidad de salir adelante.
* Utilizar el valor más probable para rellenar el valor faltante; A comienzos de la informática
cuando se eliminaban archivos, existió la opción de recuperarlos, pero del nombre del archivo
recuperado, había que intuir o saber la primera letra del archivo, era así como por ejemplo si
borrábamos el archivo roma.com dentro de una grupo de archivos y no recordábamos bien cual
era, seguro terminábamos con un archivo llamado coma.com

Actualmente la generación de bases de datos son bastante organizadas, una empresa que desee
integridad, seguridad y claridad con sus datos, debe pensar en tener al personal idóneo a cargo de
estas, un buen analista no dejara campos o etiquetas fuera o que signifiquen redundancia en los datos
a la hora de realizar una limpieza.

* No ser capaz de entender los datos a integrar; según blog.powerdata.es, la mayoría de los grandes
errores en la integración de datos tienen que ver con fallos de comprensión de los datos.
* No tener en cuenta el rendimiento; El problema es suponer que la tecnología de la integración de
datos no tiene latencias. Si el proceso es muy intensivo de entrada y salida o muy complejo, las
cosas irán lentas. Por otro lado, si hay poco procesamiento entonces las cosas funcionaran rápido.
* Olvidar la seguridad y la gobernabilidad; La seguridad no se debe dejar para último momento,
esta debe ser sistemática con la solución de integración.
* Suavizante; elimina el ruido de los datos, esto es un error aleatorio como letras o espacios de mas.
* Agregación; los datos son buscados, recopilados y presentados en un formato resumido.
* La generación de los datos; según entiendo de la materia entregada, serían como los campos que
definen una característica específica del dato ingresado, nombre, dirección, etc.
* La normalización; a grandes rasgos, normalizar datos es una técnica que se aplica a un conjunto
de datos para reducir su redundancia.
* Construcción característica; según materia entregada, se construyen y añaden nuevos atributos a
partir de un conjunto de datos con el fin de apoyar el proceso de minería.
Bibliografía

Link 1 – Limpieza de datos

Link 2 – Integración de datos 1

Link 3 – Integración de datos 2

Link 4 – Transformación de datos 1

Link 5 – Transformación de datos 2

Link 6 – Transformación de datos 3

Link 7 – Transformación de datos 4

Você também pode gostar