Você está na página 1de 54

Prof. Fernando A.

Crespo Romero
Acadmico e Investigador
Universidad Bernardo OHiggins

11 de Agosto de 2017
La teora moderna de la comunicacin
nace en 1948 con el paper A
Mathematical Theory of
Communication de Claude Shannon.
De la termodinmica toma prestado el
concepto de Entropa, y lo define para la
comunicacin.
En ese paper acu el termin bit para
unidad bsica de informacin.
Una vez desarrollados los computadores
de propsito general comienzan los
lenguajes de programacin.
Y con ello en los aos 1960 la
construccin de las primeras bases de
datos
1962 John Tukey el futuro del anlisis de
datos a partir de los programas
almacenados en computadores.
1974, Peter Naur publica Concise Survey
of Computer Methods. Hace un vistazo
de aplicaciones, a partir de los datos
definidos en International Federation for
Information Processing
(http://www.ifip.org/):
Dato es una representacin de hechos o ideas en una
forma formalizada capaz de ser comunicada o
manipulada por algn proceso-
Datalogy.
Data Science: Es la ciencia en relacin con los datos
para lo que ellos representan delegados a otros
campos o ciencias.
En 1977, se establece una seccin en el
International Statistical Institute para la
computacin estadstica (IASC): Con la misin de
unir las metodologas tradicionales estadsticas, los
computadores modernos, y el conocimiento de los
expertos para convertir los datos en informacin y
conocimiento.
En 1989, se organiza el primer workshop the
Descubrimiento de Conocimiento en Bases de datos
(KDD).
1994, Septiembre. Businesss Week, publica el Database
Marketing donde las bases de datos son utilizadas para
predecir cuan verosmil es comprar un producto.
En 1996 se incluye el trmino data science en el ttulo
de la conferencia de la International Federation of
Classification Societies (IFCS).
En 1996 Usama Fayyad, Gregory Piatetsky-Shapiro y
Padhraic Smyth publican Del Data Mining al
Descubrimiento de Conocimiento en Bases de Datos.
En 1989, se organiza el primer workshop the
Descubrimiento de Conocimiento en Bases de datos
(KDD).
1994, Septiembre. Businesss Week, publica el Database
Marketing donde las bases de datos son utilizadas para
predecir cuan verosmil es comprar un producto.
En 1996 se incluye el trmino data science en el ttulo
de la conferencia de la International Federation of
Classification Societies (IFCS).
En 1996 Usama Fayyad, Gregory Piatetsky-Shapiro y
Padhraic Smyth publican Del Data Mining al
Descubrimiento de Conocimiento en Bases de Datos.
Jeff Wu en 1997 invita a renombrar los estadsticos
como cientficos de datos.
1997 el Data Mining se vuelve popular como
extraer informacin de grandes bases de datos.
Jacob Zahavi llama en 1999 a buscar nuevos
mtodos para analizar grandes cantidades de datos
ya que los mtodos clsicos trabajan bien con
nmeros pequeos de datos.
El 2001 William Cleveland plantea que debe haber
un cambio en la ciencia de datos. Propone una
nueva disciplina en el contexto de las ciencias
informticas y los resultados del data mining: ya
que los resultados han sido limitados, porque:
Los conocimientos de los estadsticos es limitado en
ambientes computacionales,
Y los expertos en computacin piensan abordan el anlisis
de datos desde una forma limitada.
El 2001 Breiman, muestra que la comunidad estadstica
est restringida, haciendo cosas irrelevantes. El logro es
usar datos para resolver problemas complejos.
2002 se inicia en Data Science Journal.
http://www.codata.org/ .
2003 inicio de Journal of Data Science: Cada cosa con
datos: colectar, analizar, modelar, y desarrollar
cualquier tipo de aplicaciones.
2005 Thomas Davenport, Don Cohen y Al Jacobson
Competencias en Analtica.
2005 National Science Board: public Long-lived
Digital Data Collections: Enabling Research and
Education in the 21st Century. Con el fin de
incrementar cientficos de datos de alta calidad, con el
fin de usar las colecciones de datos digitales.
2007 Se inaugura: http://www.dataology.fudan.edu.cn/
2008: The Skills, Role & Career Structure of Data
Scientists & Curators: Assessment of Current Practice &
Future Needs,: los cientficos de datos son capaces de
agregar analisis y consultas creativas.
2009 Harnessing the Power of Digital Data for Science
and Society: La necesidad de especialistas en datos.
2009: Hal Varian: Los cientficos de datos sern el
trabajo ms sexy en los prximos 10 aos. La habilidad
para tomar datos: Entenderlos, procesarlos, extraerlos,
accesarlos, comunicar sus logros, es extremadamente
importante.
2010: Se publica que es la ciencia de los datos?
por Mike Loukides: Los cientficos de datos
combinan emprendimiento, capacidad de construir
productos incrementalmente, la habilidad para
explorar, e iterar sobre una solucin.
Interdisciplinario.
Y pensar fuera de la caja e ir a nuevas vas para ver el
problema.
2010: Hilary Mason y Chris Wiggins: Taxonoma de
Ciencia de los Datos:
2010: Drew Conway el Diagrama de Venn de
Ciencias de los Datos:
El trabajo ms sexy del s. XXI:
https://hbr.org/2012/10/data-scientist-the-
sexiest-job-of-the-21st-century/ar/pr
Dato: Representacin comunicable.
Cada representacin agrega o quita mayor
informacin, por lo tanto, la entropa que entrega
no es equivalente.
De la ciencia de los datos a la analtica.
Se reconoce a la analtica como:
Un proceso completo para toma de
decisiones y resolver problemas de
negocios (Ms all de la Inteligencia de
Negocios).
Un amplio conjunto de metodologas
analticas que permiten la creacin de
valor en negocios.
Esta definida por tres categoras:
Analtica descriptiva:
Prepara y analiza datos histricos.
Identifica patrones desde muestras para reportar
tendencias.
Analtica Predictiva:
Predice probabilidades y tendencias futuras.
Encuentra relaciones en los datos que no son
aparentemente ledas con el anlisis descriptivo.
Analtica Preceptiva:
Evala y determina nuevas vas para operar.
Coloca objetivos de negocio alcanzables.
Balancea las restricciones.
Porque el surgimiento de sta rea
requiere de nuevas habilidades
tcnicas:
No basta con conocer las herramientas o
tecnologas (eso podra hacerlo un informtico).
Ni en usar las herramientas (Podra hacerlo un
estadstico, vimos el tema deanaltica
descriptiva).
Se requiere la habilidad de integrar las
herramientas con resultados futuros y la
competitividad de la organizacin (Visin
sistmica).
Jeffrey L. Whitten y Lonnie D. Bentley:

Analista
De TI

Tecnologas
Negocios de la
informacin

Analista de Negocios para TI


El ao 2015 Gartner defini las siguientes
reas estratgicas en tecnologa:
1. Computacin Ubicua.
2. Internet de las Cosas.
3. Impresin en 3D.
4. Analtica Invisible, invasiva y avanzada.
5. Sistemas contexto enriquecido.
6. Mquinas inteligentes.
7. Cloud/Client Computing.
8. Aplicaciones definidas de software e infraestructura.
9. TI escalada desde la web.
10.Seguridad basada en riesgo y auto proteccin.
Conocimientos de Sistemas y
Tecnologas de Informacin.
Metodologas de desarrollo de sistemas de
informacin.
Conocimientos en herramientas de
administracin de base de datos.
Conocimientos de software para desarrollos.
Conocimientos en Modelos Matemticos,
Optimizacin en sentido amplio, Inteligencia
Artificial y Soft Computing.
1. Definiendo el Problema ( o la Pregunta de
Negocios.
2. Definiendo el problema de Analtica.
3. Datos.
4. Seleccin del Enfoque y/o Metodologa.
5. Construyendo el Modelo.
6. Despliegue.
7. Administracin del Ciclo de Vida del
Modelo.
1. Obteniendo o recibiendo el problema y
requerimientos de usabilidad.
2. Identificando los interesados en resolver el
problema.
3. Determinar cuando el problema es
compatible con una solucin analtica.
4. Refinar el problema y delinear las
restricciones.
5. Definir el conjunto de beneficios iniciales del
negocio.
6. Obtener el acuerdo con los interesados en el
las definiciones del problema.
1. Reformular el problema como un
problema analtico.
2. Desarrollo de un conjunto propuesto de
conduccin y relaciones para las salidas.
3. Establecer el conjunto de supuestos
relacionados al problema.
4. Definir las mtricas de xito.
5. Obtener la aprobacin de los interesados.
La habilidad para trabajar efectivamente los
datos ayuda a identificar las relaciones
potenciales que conducen a refinar el
problema de negocio y el problema analtico.
1. Identificar y priorizar necesidades de datos y
fuentes.
2. Obtencin de los datos.
3. Armonizar, reescalar, limpiar y dar forma a
los datos (Data Mining).
4. Identificar las relaciones en los datos.
5. Documentar y reportar lo encontrado.
6. Refinar el problema de negocios y el
problema analtico.
La habilidad para identificar y seleccionar
potenciales enfoques para resolver
problemas de negocios.
1. Identificar mtodos o enfoques factibles
para resolver el problema.
2. Seleccionar las herramientas de software.
3. Mtodos de testeo.
4. Seleccin de enfoques o mtodos.
La habilidad para identificar y construir
estructuras de modelos efectivas para ayudar
a resolver el problema de negocios.
1. Identificar estructuras de modelos.
2. Correr y evaluar los modelos.
3. Calibrar modelos y datos.
4. Integrar los modelos.
5. Documentar y comunicar lo encontrado
(Incluyendo supuestos, limitaciones y
restricciones).
Habilidad para desplegar el modelo
seleccionado que ayuda a resolver el
problema de negocios.
1. Realizar en el negocio la validacin del
modelo.
2. Entregar el informe con lo encontrado, o
3. Crear modelo, usabilidad y requerimientos
para produccin.
4. Despacho del modelo o sistema a produccin.
5. Dar soporte al despliegue de resultados.
Habilidad para manejar el ciclo de vida del
modelo para evaluar el beneficio de
negocios del modelos a travs del tiempo.
1. Documentar la estructura inicial.
2. Seguimiento a la calidad del modelo.
3. Recalibrar y mantener el modelo.
4. Dar soporte a las actividades de
entrenamiento.
5. Evaluar el beneficio del modelo en el
negocio a travs del tiempo.
Es un proceso, donde la decisin en cada
etapa depende de la experiencia y
destreza del analista ms que de una
pauta pre establecida.
Nada se ha dicho de la calidad de los
datos.
Nada se ha dicho del criterio de eleccin
de los modelos.
Y de cmo los datos efectivamente
soportan los modelos escogidos.
Una compaa de seguros solicit predecir
por parte de un cliente la compra de un
auto nuevo, para llamar proactivamente a
los clientes y adelantarse a la opcin de la
compra.
Analtica preceptiva: Adelantarse al patrn
de compra.
Las etapas de encontrar que el problema
del negocio era un problema de analtica
siempre fue claro para la compaa.
Extrajeron la base de datos.
No existe ningn campo que diga que un
auto es nuevo:
Se asumi que si es del mismo ao que la compra
de la pliza se asumi que era nuevo.
Problemas adicionales:
En Chile, la placa identifica de manera nica el
automvil.
Pero un seguro tiene tres personas: contratante,
usuario y beneficiario. No s explicita cual de los
tres es el dueo del auto.
No se poda suponer un seguimiento del patrn de
compra de un cliente.
La base de datos traa todas las
explicaciones en texto no venan
codificadas en nmero. Hubo que
recodificar toda la base de datos:
Por ejemplo los colores.
No se pudo comprobar si el vehculo era nuevo,
pero al fina qued un modelo que predice si el
automvil tiene el mismo ao que el perodo que
se compr a la compaa la pliza.
No sabemos si el auto es nuevo.
Despus de un trabajo tedioso de
reconfigurar la tabla de datos y recodificar las
variables, se obtuvo el archivo para poder
aplicar modelos.
Despus hubo que filtrar por tipo de vehculo.
La compaa tena una psima estimacin
donde iban de motocicletas a jeeps.
La estimacin inicial del personal de la
compaa principalmente informtico, era un
rbol de decisin con un 15% de efectividad.
Nosotros aplicamos una regresin
logstica.
Tabla de clasificacina
Observado Pronosticado
Porcent
AUTO_NUEVO
aje
0 1 correcto
AUTO_NUEV 0 120229 18858 86.4
O
1 1056 1891 64.2
Porcentaje global 86.0
Variables B E.T. Wald gl Sig. Exp(B)
EDAD .003 .000 44.299 1 .000 1.003

N_Patentes_Actuales -3.209 .054 3492.195 1 .000 .040

N_Patentes_Historicas .034 .004 81.737 1 .000 1.035

CASADO .066 .023 8.284 1 .004 1.069

SOLTERO .165 .025 43.453 1 .000 1.180

SEXO_BINARIO .518 .012 1718.331 1 .000 1.678

AMARILLO -.250 .072 12.184 1 .000 .779

AZUL .484 .039 151.583 1 .000 1.623

BEIGE .238 .045 28.358 1 .000 1.269

BLANCO .657 .036 326.866 1 .000 1.929

GRIS .873 .037 557.576 1 .000 2.395

NEGRO 1.425 .038 1370.841 1 .000 4.159

PLATEADO 1.453 .037 1542.956 1 .000 4.275

ROJO .407 .038 117.261 1 .000 1.502

VERDE -.189 .045 17.785 1 .000 .828

PATENTES_ACTIVAS 3.064 .054 3168.001 1 .000 21.419

NIVEL_SE .400 .007 3380.215 1 .000 1.492

FONO_PART_BIN .206 .012 279.871 1 .000 1.229

FONO_COMER_BIN .171 .016 107.629 1 .000 1.186

FONO_CEL_BIN -.094 .017 31.595 1 .000 .911

EMAIL_BIN .360 .013 769.338 1 .000 1.433


Cada variable hubo que transformarla a
Binaria
Carlo Morselli, Victor Hugo Masias,
Fernando Crespo, Sigifredo Laengle.
Predicting sentencing outcomes with
centrality measures. Security Informatics,
Vol. 2, N4 (2013), January 2013. ISSN:
2190-8532.
Informacin -> Datos -> Estadstica.
Hoy: Datos -> Codificacin de datos ->
Informacin que entregan -> Modelos de
Anlisis.
Open Data:
https://theconversation.com/how-open-data-can-
help-the-global-south-from-disaster-relief-to-
voter-turnout-
81159?utm_medium=email&utm_campaign=Best%2
0of%20Science%20%20Technology&utm_content=Be
st%20of%20Science%20%20Technology+CID_41945
e948af27229992dce3758d73fb8&utm_source=cam
paign_monitor_global&utm_term=How%20open%20
data%20can%20help%20the%20Global%20South%20f
rom%20disaster%20relief%20to%20voter%20turnout
Internet de las Cosas.
Desarrollo de experimentos con empresas.
Bioinformtica.
Modelos usando la metodologa EM para capturer SNPs que
permitan descubrir enfermedades.
Big Data:
Uso de datos masivos.
Uso de software libre, para desarrollo de
herramientas comerciales.
Desarrollo de herramientas que combinen Machine
Learning, Optimizacin y Riesgo.
Seguridad Pblica y Ciberseguridad.
Ajuste de herramientas multicriterio.
Text Mining.
Datos son una representacin comunicable.
La analtica es un proceso, tal como el de
desarrollo de sistemas de informacin.
En sus etapas incorpora el uso de Tecnologa de
Informacin.
Requiere de mltiples habilidades.
Procesos cuyos resultados an dependen de
la destreza del analista: arte.
Cada da su utilizacin va a ir en aumento.
Es un campo de ocupacin dinmico y
requerido.
Y una cantidad ilimitada de oportunidades,
sobre todo en el mundo multidisciplinario.
Fernando A. Crespo.
https://www.researchgate.net/profile/Fernan
do_Crespo
Email: facrespo@gmail.com.

Você também pode gostar