Escolar Documentos
Profissional Documentos
Cultura Documentos
Practica 2
JANES SAENZ PUERTA CC: 1.046.427.232
2013
TABLA DE CONTENIDO
DESCRIPCIN DE LA ACTIVIDAD .......................................................................................................... 4 PROPUESTA BODEGA DE DATOS PARA LA UNAD ............................................................................... 4 TABLA DE HECHOS OLAP CONCEPTOS ................................................................................................ 4 MODELO RELACIONAL GENERAL......................................................................................................... 5 MODELO RELACIONAL LOCAL ............................................................................................................. 6 MODELO RELACIONAL......................................................................................................................... 7 IMPLEMENTACIN DE LA BODEGA DE DATOS.................................................................................... 8 VENTAJAS DE NUESTRA BODEGA DE DATOS .................................................................................. 8 DISEO DE NUESTRA BODEGA DE DATOS .......................................................................................... 9 BENEFICIOS DE LA IMPLEMENTACION DE LA BODEGA DE DATOS ................................................... 10 PROCESO DE IMPLEMENTACIN ...................................................................................................... 11 SOFTWARE: ................................................................................................................................... 11 HARDWARE: .................................................................................................................................. 11 RIESGOS DEL SISTEMA OPERATIVO. .............................................................................................. 12 RIESGOS DE LA RED. ...................................................................................................................... 12 OTROS RIESGOS............................................................................................................................. 12 DATA MINING .................................................................................................................................... 13 APLICACIN DEL DATA MINING EN EL ANALISIS DE POBLACION UNAD .......................................... 14 TCNICAS DE MINERA DE DATOS ..................................................................................................... 15 ESTRUCTURA BSICA DE UN SISTEMA EXPERTO .............................................................................. 18 TIPOS DE SISTEMAS EXPERTOS ......................................................................................................... 18
INTRODUCCION
Con el presente trabajo colaborativo perteneciente a la UNIDAD No dos del mdulo de Bases de datos avanzadas, se espera lograr de parte de nosotros los estudiantes de este curso asimilar y comprender cada tema visto con anterioridad en la unidad correspondiente a esta tarea, as como tambin conocer y aplicar los concepto de bases de datos distribuidas y bodegas de datos por medio de la minera de datos. Los fundamentos tericos para esta prctica se presentan en el mdulo del curso, en la temtica correspondiente a Bodegas de datos y minera de datos. Una Bodega de Datos (Data Warehouse) es un repositorio integrados por datos que pueden ser generados internamente o recibidos de fuentes externas, organizados de tal manera que facilitan el proceso de toma de decisiones. La Minera de datos es el proceso analtico diseado para explorar grandes volmenes de datos con el objeto de descubrir patrones y modelos de comportamiento o relaciones entre diferentes variables. Es decir, descubrir conocimiento que ayuda a mejorar la toma de decisiones en las organizaciones.
OBJETIVOS
Utilizar los temas abordados en la segunda unidad del curso y complemente su aprendizaje mediante lecturas de los textos de referencia. De igual manera, mejorar la comprensin y el aprendizaje mediante socializacin y discusin de los temas con el grupo colaborativo. Poner en prctica la unidad 2 del mdulo bases de datos avanzada. Aplicar bodegas de datos sobre un ejemplo real y crear una minera de datos
DESCRIPCIN DE LA ACTIVIDAD
En la prctica 1 se dise la base de datos distribuida para la Unad, ahora continuando con este ejercicio, se solicita que se ponga en prctica los conocimientos adquiridos en la unidad dos y se prepare una propuesta detallada de implementacin de una bodega de datos en la que se aplicar minera de datos para extraer informacin importante para la toma de decisiones. La propuesta debe presentar informacin suficiente sobre la bodega de datos, como: ventajas para la organizacin, proceso de implementacin, costos, riesgos; de igual manera una descripcin detallada de la aplicacin de algoritmos de minera de datos en dnde se resalte qu informacin especfica se podra obtener mediante esta tcnica que no podra obtenerse de manera convencional.
PROGRAMAS
(Id_programa , nombre, titulo, modalidad, T_informacio n, N_educativo, crditos)
CURSOS
Id_curso, tutor, mediacin, coordinador, nombre
TUTORES
Id_tutor, correo, telfono, nombre, apellido, direccin, N_formacio n
ESTUDIANTES
Id_estudia nte, nombre, apellido, direccin, telefono
MODELO RELACIONAL
Para la implementacin de nuestra bodega de datos les planteamos algunas ventajas que tendramos con la anterior.
PROCESO DE IMPLEMENTACIN
SOFTWARE:
Herramientas de Almacenamiento: corresponde a la herramienta en la cual se irn a almacenar los datos. Existen muchas opciones dependiendo del volumen de los datos, presupuesto y capacidad de su sistema. Cada uno de los sistemas de administracin de bases de datos, como Oracle, DB2, Informix, Tera Data?, Sybase, etc, tienen una facilidad de Data Warehouse. Herramientas de Extraccin y Coleccin: Ayudan a definir, acumular, totalizar y filtrar los datos de sus sistemas transaccionales en el Data Warehouse. La mayora de esas herramientas son desarrolladas por el personal interno de la compaa dado el gran conocimiento que tienen de los sistemas transaccionales. Herramientas para Elaboracin de Reportes a Usuarios Finales: Es la interface vista por el usuario. Al usuario se le debe proveer un mecanismo para que vea los datos a un alto nivel y que entonces obtenga con ello la solucin a preguntas especficas. Existen muchas herramientas, incluyendo Cognos Powerplay, Business Objects, SAS, Show Case? Strategy etc.
HARDWARE:
Se requiere de un servidor para el almacenamiento y manejo de la base de datos corporativa; este servidor se recomienda que sea altamente escalable, pues algunas veces el proyecto de construccin de la bodega presenta redimensionamiento a medida que se avanza en la implementacin. La capacidad inicial de almacenamiento estar determinada por los requerimientos de informacin histrica presentados por la empresa y por la perspectiva de crecimiento que se tenga.
Debemos considerar que en todo proyecto de bases de datos e implementacin de una bodega de datos tendremos y existen algunos riesgos para el sistema, presentamos alguno de esos riesgos ms significativos.
RIESGOS DE LA RED.
Es la infraestructura de comunicacin que permite que los diferentes componentes intercambien informacin. La cantidad de datos contenidos en la bodega de datos incrementa su importancia. Acceso al sistema desde elementos externos sin autorizacin (aplicaciones, personas, etc.) La red se convierta en un cuello de botella para lo operacin del sistema. La inexistencia de elementos que respalden un componente que falle
OTROS RIESGOS
- Des actualizacin de esquemas a nuevas necesidades del negocio. - Acceso no restringido a objetos de la bodega de datos. - Respaldo de los datos almacenados.
DATA MINING
El data mining es una tecnologa compuesta por etapas que integra varias reas y que no se debe confundir con un gran software. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadsticas, de visualizacin de datos o de inteligencia artificial, principalmente. Actualmente existen aplicaciones o herramientas comerciales de data mining muy poderosas que contienen un sinfn de utileras que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementndose con otra herramienta. Podemos decir que "en data mining cada caso es un caso". Sin embargo, en trminos generales, el proceso se compone de cuatro etapas principales: 1. Determinacin de los objetivos. Trata de la delimitacin de los objetivos que el cliente desea bajo la orientacin del especialista en data mining. 2. Preprocesamiento de los datos. Se refiere a la seleccin, la limpieza, el enriquecimiento, la reduccin y la transformacin de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining. 3. Determinacin del modelo. Se comienza realizando unos anlisis estadsticos de los datos, y despus se lleva a cabo una visualizacin grfica de los mismos para tener una primera aproximacin. Segn los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes reas de la Inteligencia Artificial. 4. Anlisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los anlisis estadsticos y de visualizacin grfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.
Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automtico inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexin de neuronas en una red que colabora para producir un estmulo de salida. Algunos ejemplos de red neuronal son: o El Perceptrn. o El Perceptrn multicapa. o Los Mapas Auto organizados, tambin conocidos como redes de Kohonen. rboles de decisin.- Un rbol de decisin es un modelo de prediccin utilizado en el mbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lgicas, muy similares a los sistemas de prediccin basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolucin de un problema. Ejemplos: o Algoritmo ID3. o Algoritmo C4.5. Modelos estadsticos.- Es una expresin simblica en forma de igualdad o ecuacin que se emplea en todos los diseos experimentales y en la regresin para indicar los diferentes factores que modifican la variable de respuesta. Agrupamiento o Clustering.- Es un procedimiento de agrupacin de una serie de vectores segn criterios habitualmente de distancia; se tratar de disponer los vectores de entrada de forma que estn ms cercanos aquellos que tengan caractersticas comunes. Ejemplos: o Algoritmo K-means. o Algoritmo K-medoids.
Segn el objetivo del anlisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998):
Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos) desconocido a priori, a partir de otros conocidos. Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren patrones y tendencias en los datos.
El hecho es, que en la prctica la totalidad de los modelos y algoritmos de uso general en minera de datos, como redes neuronales, rboles de regresin y clasificacin, modelos logsticos, anlisis de componentes principales, entre otros, gozan de una tradicin relativamente larga en otros campos. La minera de datos bebe de la estadstica, de la que toma las siguientes tcnicas: Anlisis de varianza, mediante el cual se evala la existencia de diferencias significativas entre las medias de una o ms variables continas en poblaciones distintas. Regresin: define la relacin entre una o ms variables y un conjunto de variables predictoras de las primeras. Prueba chi-cuadrado: por medio de la cual se realiza el contraste la hiptesis de dependencia entre variables. Anlisis de agrupamiento o clustering: permite la clasificacin de una poblacin de individuos caracterizados por mltiples atributos (binarios, cualitativos o cuantitativos) en un nmero determinado de grupos, con base en las semejanzas o diferencias de los individuos. Anlisis discriminante: permite la clasificacin de individuos en grupos que previamente se han establecido, permite encontrar la regla de clasificacin de los elementos de estos grupos, y por tanto una mejor identificacin de cules son las variables que definan la pertenencia al grupo. Series de tiempo: permite el estudio de la evolucin de una variable a travs del tiempo para poder realizar predicciones, a partir de ese conocimiento y bajo el supuesto de que no van a producirse cambios estructurales. Y como la informtica toma las siguientes tcnicas: Algoritmos genticos: Son mtodos numricos de optimizacin, en los que aquella variable o variables que se pretenden optimizar junto con las variables de estudio constituyen un segmento de informacin. Aquellas configuraciones de las variables de anlisis que obtengan mejores valores para la variable de respuesta, correspondern a segmentos con mayor capacidad reproductiva. A travs de la reproduccin, los mejores segmentos perduran y su proporcin crece de generacin en generacin. Se puede adems introducir elementos aleatorios para la modificacin de las variables (mutaciones). Al cabo de cierto nmero de iteraciones, la poblacin estar constituida por buenas soluciones al problema de optimizacin, pues las malas soluciones han ido descartndose, iteracin tras iteracin. Inteligencia Artificial: Mediante un sistema informtico que simula un sistema inteligente, se procede al anlisis de los datos disponibles. Entre los sistemas de Inteligencia Artificial se encuadraran los Sistemas Expertos y las Redes Neuronales.
Sistemas Expertos: Son sistemas que han sido creados a partir de reglas prcticas extradas del conocimiento de expertos. Principalmente a base de inferencias o de causa-efecto. Sistemas Inteligentes: Son similares a los sistemas expertos, pero con mayor ventaja ante nuevas situaciones desconocidas para el experto. Redes neuronales: Genricamente, son mtodos de proceso numrico en paralelo, en el que las variables interactan mediante transformaciones lineales o no lineales, hasta obtener unas salidas. Estas salidas se contrastan con los que tenan que haber salido, basndose en unos datos de prueba, dando lugar a un proceso de retroalimentacin mediante el cual la red se reconfigura, hasta obtener un modelo adecuado. Se busca una mejor calidad y rapidez en las respuestas dando as lugar a una mejora de la productividad del experto. Se puede considerar como una rama de la inteligencia artificial. Estos sistemas copian las actividades de un humano para resolver problemas de distinta ndole (no necesariamente tiene que ser de inteligencia artificial). Tambin se dice que un Sistema experto se basa en el conocimiento declarativo (hechos sobre objetos, situaciones) y el conocimiento de control (informacin sobre el seguimiento de una accin). Un sistema experto para que sea una herramienta efectiva, los usuarios deben interactuar de una forma fcil, reuniendo dos capacidades para poder cumplirlo como son: Expresar sus razonamientos o base del conocimiento: los sistemas expertos se deben realizar siguiendo ciertas reglas o pasos claros de manera que se pueda generar la explicacin para cada una de estas reglas, que a la vez se basan en hechos. Adquisicin de nuevos conocimientos o integrador del sistema: son mtodos de razonamiento que sirven para modificar los conocimientos anteriores. Sobre la base de lo anterior se puede decir que los sistemas expertos son el producto de investigaciones en el campo de la inteligencia artificial ya que esta no intenta sustituir a los expertos humanos, sino que se desea ayudarlos a realizar con ms rapidez y eficacia todas las tareas que realiza.
Debido a esto en la actualidad se estn mezclando diferentes tcnicas o aplicaciones aprovechando las ventajas que cada una de estas ofrece para poder tener empresas ms seguras. Un ejemplo de estas tcnicas sera los agentes que tienen la capacidad de negociar y navegar a travs de recursos en lnea; y es por eso que en la actualidad juega un papel preponderante en los sistemas expertos. Unos ejemplos claros de sistemas expertos son:
Base de conocimientos (BC): Contiene conocimiento modelado extrado del dilogo con el experto. Base de hechos (Memoria de trabajo): contiene los hechos sobre un problema que se ha descubierto durante el anlisis. Motor de inferencia: Modela el proceso de razonamiento humano. Mdulos de justificacin: Explica el razonamiento utilizado por el sistema para llegar a una determinada conclusin. Interfaz de usuario: es la interaccin entre el SE y el usuario, y se realiza mediante el lenguaje natural.
Basados en reglas. Basados en casos o CBR (Case Based Reasoning). Basados en redes bayesianas.
CONCLUSIONES
Esta minera de datos est dirigido a profesionales involucrados en el anlisis de los sistemas de informacin o en la toma de decisiones de su organizacin o de sus clientes, as como a estudiantes universitarios en titulaciones de ingeniera, informtica, empresariales o biomdicas, o bien que quieran complementar su formacin estadstica con la perspectiva del proceso de extraccin de conocimiento mediante la generacin de modelos a partir de bases de datos. Esta minera de datos es utilizada actualmente para deducir y encontrar perfiles de comportamiento de clientes, proveedores o ambientes, de acuerdo a los parmetros emitidos en los modelos matemticos que se extraen en el anlisis hecho para la implementacin de esta tecnologa.
REFERENCIAS BIBLIOGRAFICAS
Modulo de Bases de Datos Avanzadas (UNAD) Contenido en lnea: http://campus03.unadvirtual.org/moodle/file.php/160/moduloExe/index.html Documento sobre la Bodega de datos: http://ccp.ucr.ac.cr/bvp/pdf/desarrollohumano/bd_distribuidas-rca.pdf http://www.monografias.com/trabajos24/bodega-de-datos/bodega-dedatos.shtml Documentos sobre la Normalizacin de las BD: http://www.eet2mdp.edu.ar/alumnos/MATERIAL/MATERIAL/info/infonorma. pdf http://es.wikipedia.org/wiki/Normalizaci%C3%B3n_de_bases_de_datos