Escolar Documentos
Profissional Documentos
Cultura Documentos
1. DEFINICION
El Big Data o Datos masivos es un concepto que hace referencia a la acumulacin de
grandes cantidades de datos y a los procedimientos usados para encontrar patrones
repetitivos dentro de esos datos. El fenmeno del Big Data tambin es llamado datos a
gran escala. En los textos cientficos en espaol con frecuencia se usa directamente el
trmino en ingls Big Data, tal como aparece en el ensayo seminal de Viktor Schnberger
Big data: La revolucin de los datos masivos.
La disciplina dedicada a los datos masivos se enmarca en el sector de las tecnologas de
la informacin y la comunicacin. Esta disciplina se ocupa de todas las actividades
relacionadas con los sistemas que manipulan grandes conjuntos de datos. Las
dificultades ms habituales vinculadas a la gestin de estas cantidades de datos se
centran en la recoleccin y el almacenamiento, bsqueda, comparticin, anlisis, y
visualizacin. La tendencia a manipular enormes cantidades de datos se debe a la
necesidad en muchos casos de incluir dicha informacin para la creacin de informes
estadsticos y modelos predictivos utilizados en diversas materias, como los anlisis de
negocio, publicitarios, los datos de enfermedades infecciosas, el espionaje y seguimiento
a la poblacin o la lucha contra el crimen organizado.
El lmite superior de procesamiento ha ido creciendo a lo largo de los aos. De esta
forma, los lmites fijados en 2008 rondaban el orden de petabytes a zettabytes de datos.
Los cientficos con cierta regularidad encuentran limites en el anlisis debido a la gran
cantidad de datos en ciertas reas, tales como la meteorologa, la genmica, la
conectmica, las complejas simulaciones de procesos fsicos y las investigaciones
relacionadas con los procesos biolgicos y ambientales, Las limitaciones tambin afectan
a los motores de bsqueda en internet, a los sistemas finanzas y a la informtica de
negocios. Los data sets crecen en volumen debido en parte a la recoleccin masiva de
informacin procedente de los sensores inalmbricos y los dispositivos mviles (por
ejemplo las VANETs), del constante crecimiento de los histricos de aplicaciones (por
ejemplo de los logs), cmaras (sistemas de teledeteccin), micrfonos, lectores de radiofrequency identification. La capacidad tecnolgica per-cpita a nivel mundial para
almacenar datos se dobla aproximadamente cada cuarenta meses desde los aos
ochenta.11 Se estima que en 2012 cada da fueron creados cerca de 2,5 trillones de bytes
de datos (del ingls quintillion, 2.51018).
2. TECNOLOGIA
Existen muchsimas herramientas para tratar con Big Data. Nombres como Hadoop,
NoSQL, Cassandra, Business Intelligence, Machine Learning, MapReduce son slo
algunos de los ms conocidos. Ellos tratan con algunos de los tres tipos de Big Data:
Datos estructurados (Structured Data): Datos que tienen bien definidos su longitud y
su formato, como las fechas, los nmeros o las cadenas de caracteres. Se almacenan
en tablas. Un ejemplo son las bases de datos relacionales y las hojas de clculo.
3. CAPTURA
De dnde provienen todos estos datos? Los fabricamos directa e indirectamente
segundo tras segundo. Un iPhone hoy en da tiene ms capacidad de cmputo que la
NASA cuando el hombre lleg a la luna por lo que la cantidad de datos generados por
persona y en unidad de tiempo es muy grande. Catalogamos la procedencia de los datos
segn las siguientes categoras:
Generados por las personas: El hecho de enviar correos electrnicos por e-mail o
mensajes por WhatsApp, publicar un estado en Facebook, tuitear contenidos o
responder a una encuesta por la calle son cosas que hacemos a diario y que crean
nuevos datos y metadatos que pueden ser analizados. Se estima que cada minuto al
da se envan ms de 200 millones de e-mails, se comparten ms de 700.000 piezas
de contenido en Facebook, se realizan dos millones de bsquedas en Google o se
editan 48 horas de vdeo en YouTube.19 Por otro lado, las trazas de utilizacin en un
sistema ERP, incluir registros en una base de datos o introducir informacin en una
hoja de clculo son otras formas de generar estos datos.
Transacciones de datos: La facturacin, las llamadas o las transaccin entre cuentas
generan informacin que tratada pueden ser datos relevantes. Un ejemplo ms claro
lo encontraremos en las transacciones bancarias: lo que el usuario conoce como un
ingreso de X euros, la computacin lo interpretar como una accin llevada a cabo en
una fecha y momento determinado, en un lugar concreto, entre unos usuarios
registrados, y ms metadatos.
E-marketing y web: Generamos una gran cantidad de datos cuando navegamos por
internet. Con la web 2.0 se ha roto el paradigma webmaster-contenido-lector y los
mismos usuarios se convierten en creadores de contenido gracias a su interaccin con
el sitio. Existen muchas herramientas de tracking utilizadas en su mayora con fines de
marketing y anlisis de negocio. Los movimientos de ratn quedan grabados en
mapas de calor y queda registro de cunto pasamos en cada pgina y cundo las
visitamos.
Machine to Machine (M2M): Son las tecnologas que comparten datos con
dispositivos: medidores, sensores de temperatura, de luz, de altura, de presin, de
sonido que transforman las magnitudes fsicas o qumicas y las convierten en datos.
Existen desde hace dcadas, pero la llegada de las comunicaciones inalmbricas (Wi-
El trmino NoSQL se refiere a Not Only SQL y son sistemas de almacenamiento que no
cumplen con el esquema entidad-relacin. Proveen un sistema de almacenamiento
mucho ms flexible y concurrente y permiten manipular grandes cantidades de
informacin de manera mucho ms rpida que las bases de datos relacionales.
Distinguimos cuatro grandes grupos de bases de datos NoSQL:
Son tiles para operaciones simples basadas en las claves. Un ejemplo es el aumento de
velocidad de carga de un sitio web que pueden utilizar diferentes perfiles de usuario,
teniendo mapeados los archivos que hay que incluir segn el id de usuario y que han sido
calculados con anterioridad. Cassandra es la tecnologa de almacenamiento clave-valor
ms reconocida por los usuarios.
Todos los documentos tienen una clave nica con la que puede ser accedido e
identificado explcitamente. Estos documentos no son opacos al sistema, por lo que
pueden ser interpretados y lanzar queries sobre ellos. Un ejemplo que aclare cmo se usa
lo encontramos en un blog: se almacena el autor, la fecha, el ttulo, el resumen y el
contenido del post. CouchDB o MongoDB son quiz las ms conocidas. Hay que hacer
mencin especial a MapReduce, una tecnologa de Google inicialmente diseada para su
Almacenamiento en Grafo: Las bases de datos en grafo rompen con la idea de tablas
y se basan en la teora de grafos, donde se establece que la informacin son los
nodos y las relaciones entre la informacin son las aristas, algo similar en el modelo
relacional. Su mayor uso se contempla en casos de relacionar grandes cantidades de
datos que pueden ser muy variables. Por ejemplo, los nodos pueden contener objetos,
variables y atributos diferentes en unos y los otros. Las operaciones de join se
sustituyen por recorridos a travs del grafo, y se guarda una lista de adyacencias entre
los nodos. Encontramos un ejemplo en las redes sociales: en Facebook cada nodo se
considera un usuario, que puede tener aristas de amistad con otros usuarios, o aristas
de publicacin con nodos de contenidos. Soluciones como Neo4J y GraphDB25 son
las ms conocidas dentro de las bases de datos en grafo.
Almacenamiento Orientado a Columnas: Por ltimo, el almacenamiento ColumnOriented es parecido al Documental. Su modelo de datos es definido como un mapa
de datos multidimensional poco denso, distribuido y persistente. Se orienta a
almacenar datos con tendencia a escalar horizontalmente, por lo que permite guardar
diferentes atributos y objetos bajo una misma Clave. A diferencia del Documental y el
Key-Value, en este caso podremos almacenar varios atributos y objetos, pero no sern
interpretables directamente por el sistema. Permite agrupar columnas en famlias y
guardar la informacin cronolgicamente, mejorando el rendimiento. Esta tecnologa
se acostuma a usar en casos con 100 o ms atributos por clave.25 Su precursor es
BigTable de Google, pero han aparecido nuevas soluciones como HBase o
HyperTable.
5. ANALISIS DE DATOS
Redes Sociales: Cada vez ms tendemos a subir a las redes sociales toda nuestra
actividad y la de nuestros conocidos. Las empresas utilizan esta informacin para
cruzar los datos de los candidatos a un trabajo. Oracle ha desarrollado una
herramienta llamada Taleo Social Sourcing, la cual est integrada con las APIs de
Facebook, Twitter y LinkedIn. Gracias a su uso, los departamentos de recursos
humanos pueden ver, entrando la identidad del candidato, su perfil social y profesional
en cuestin de segundos. Por otro lado, les permite crear una lista de posibles
candidatos segn el perfil profesional necesario, y as pasar a ofrecer el puesto de
trabajo a un pblico mucho ms objetivo. Por otro lado, Gate Gourmet una compaa
de catering de aerolneas,- experimentaba una tasa de abandono del 50% de sus
trabajadores asignados al aeropuerto de Chicago, y sospecharon que el problema
exista en el tiempo dedicado al viaje. Para demostrarlo, hicieron anlisis juntando
varios data sets de sus sistemas internos y de otros externos como datos
demogrficos, datos de trfico y datos de uso de redes sociales. Los resultados que
obtuvieron fueron patrones que relacionaban muy consistentemente la alta tasa de
abandono con la distancia del lugar de trabajo a casa y la accesibilidad al transporte
pblico.
Deportes
Profesional: En un mbito donde se mueve tanto dinero, suelen utilizar las nuevas
tecnologas antes que los usuarios de base. Nos encontramos por ejemplo que el
anlisis de los partidos constituye una parte fundamental en el entrenamiento de los
profesionales, y la toma de decisiones de los entrenadores. Amisco es un sistema
aplicado por los ms importantes equipos de las ligas Espaola, Francesa, Alemana e
Inglesa des del 2001. Consta de 8 cmaras y diversos ordenadores instalados en los
estadios, que registran los movimientos de los jugadores a razn de 25 registros por
segundo, y luego envan los datos a una central donde hacen un anlisis masivo de
los datos. La informacin que se devuelve como resultado incluye una reproduccin
del partido en dos dimensiones, los datos tcnicos y estadsticas, y un resumen de los
datos fsicos de cada jugador, permitiendo seleccionar varias dimensiones y
visualizaciones diferentes de datos.
Aficionado: Aplicaciones como Runtastic, Garmin o Nike+ proveen de resultados Big
Data al usuario. Este ltimo Nike+- va un paso ms all a nivel de organizacin, ya
que fabrican un producto bsico para sus usuarios: las zapatillas. Los 7 millones de
usuarios generan una gran cantidad de datos para medir el rendimiento y su mejora,
por lo que la empresa genera unos clsteres con los patrones de comportamiento de
sus usuarios. Uno de sus objetivos pues, es controlar el tiempo de vida de sus
zapatillas encontrando frmulas para mejorar la calidad. Por ltimo, hace picar a sus
usuarios con el uso de la gamificacin: establece que comunidades de usuarios
lleguen a metas y consigan objetivos conjuntamente con el uso de la aplicacin,
motivando e inspirando a los corredores para usar su aplicacin y a ms largo plazo,
sus productos deportivos.
Investigacin
predecirla gracias a los resultados de las bsquedas. Flu Trends usa los datos de las
bsquedas de los usuarios que contienen Influenza-Like Illness Symptoms (Sntomas
parecidos a la enfermedad de la gripe) y los agrega segn ubicacin y fecha, y es
capaz de predecir la actividad de la gripe hasta con dos semanas de antelacin ms
que los sistemas tradicionales. Ms concretamente en Nueva Zelanda cruzaron los
datos de Google Flu Trends con datos existentes de los sistemas de salud nacionales,
y comprobaron que estaban alineados. Los grficos mostraron una correlacin con las
bsquedas de ILI Symptoms y la extensin de la pandemia en el pas. Los pases con
sistemas de prediccin poco desarrollados pueden beneficiarse de una prediccin
fiable y pblica para abastecer a su poblacin de las medidas de seguridad oportunas.
Defensa y seguridad: Para incrementar la seguridad frente a los ataques de las
propias organizaciones, ya sean empresas en el entorno econmico o los propios
ministerios de defensa en el entorno de ciberataques, se contempla la utilidad de la
tecnologa Big Data en escenarios como la vigilancia y seguridad de fronteras, lucha
contra el terrorismo y crimen organizado, contra el fraude, planes de seguridad
ciudadana o planeamiento tctico de misiones e inteligencia militar.