Você está na página 1de 12

De los datos sobre patentes de Business Intelligence

Caso de Estudio Salmo



Zeljko Tekica*, Miroslava Drazicb, Dragan Kukolja, Milana Vitasb
aUniversity of Novi Sad, Faculty of Technical Sciences, Trg Dositeja Obradovica 6, Novi Sad, Serbia
bRT-RK Institute for Computer Based Systems, Narodnog fronta 23a, Novi Sad, Serbia

Resumen
En este trabajo se describe SALMO , una herramienta de software desarrollada
recientemente para la inteligencia de negocios y su funcionalidad a travs de varios
estudios de caso. Bsqueda de Patentes y Anlisis para Gestin (Salmo). La
herramienta rene los datos de patentes a partir de bases de datos a disposicin del
pblico, recoge y analiza los parmetros bibliogrficas de las patentes, pero tambin lo
hace la minera de texto. Los datos de alta dimensin que figuran en los documentos
de patentes se transforman en mucho menor espacio de dimensionalidad (2D o 3D),
agrupan y se visualizan.
La funcionalidad y la usabilidad SALMO se demuestra a travs de tres estudios de caso
de anlisis, comparacin y evaluacin de las fortalezas y debilidades de las diferentes
carteras de patentes.
1. Introduccin
Hace aproximadamente 600 aos primeras patentes, en forma de cartas abiertas con
sello real, se emitieron a vidrieros de Venecia. Hoy en da, el sistema de patentes
promete su titular el derecho a un monopolio temporal sobre una invencin tcnica, a
cambio de la publicacin de esa invencin. A pesar de que no estaba del todo claro
desde el principio, el sistema de patentes surgido como una herramienta para facilitar
la difusin de informacin y acceso al conocimiento. Por ejemplo, a cambio de una
patente concedida, y el monopolio de veinte aos sobre el proceso hasta ahora
desconocido en Inglaterra la fabricacin de vidrio, Juan de Utynam (el destinatario de
la patente Ingls primero conocido en 1449), tena la obligacin de ensear a su
proceso a los ingleses nativos [1]. Esa misma funcin de transmisin de informacin y
conocimiento avanzado, es muy importante que el sistema de patentes.
Arraigado en caracterstica inherente de patentes - a revelar todos los detalles sobre
los productos y procesos protegidos, las patentes ofrecen informacin tcnica
extremadamente valiosa. Algunos autores estiman que aproximadamente el 80% de
toda la informacin cientfica y tcnica se puede encontrar slo en los documentos de
patentes [2]. Adems de los datos tcnicos, el documento de patente proporciona
jurdica, as como las empresas y las polticas pblicas la informacin pertinente. La
disponibilidad de toda esta informacin dentro de patentes ofrece un espectro
completo de posibilidades para su uso en reas clave de la gestin de la tecnologa,
incluyendo [3, 4]: monitoreo competidores, la evaluacin de la tecnologa, la
identificacin y evaluacin de las fuentes potenciales para la generacin externa de
conocimiento tecnolgico y la investigacin y gestin de la cartera D.

Sin embargo, no es fcil de extraer informacin til de las patentes ni para rastrear
evidencia sobre todas las patentes que pueden ser relevantes. Indicadores mundiales
de propiedad intelectual para el ao 2012 [5] muestran que a pesar de la recesin
econmica, alrededor de 2,14 millones de aplicaciones fueron presentadas y casi un
milln de patentes fueron emitidas en todo el mundo en 2011. Con ms de 65 millones
de solicitudes de patentes desde que se estableci el sistema de patentes, han sido
publicado; 7880000 patentes en vigor en 2011 y el nmero de patentes concedidas
duplicado durante los ltimos 15 aos [5] es posible imaginar lo duro que puede ser
para hacer un seguimiento de todas las patentes interesantes o potencialmente
dainos. Otras barreras importantes para el uso ms eficiente de la informacin sobre
patentes son: aumento del nmero de pginas por patente, difcil idioma utilizado en
las patentes y la falta de capacidad para entender las relaciones entre las patentes.
En consecuencia, las principales partes interesadas en el proceso de I + D -
profesionales de las patentes, los investigadores y los inventores, emprendedores,
pymes y empresas comerciales necesitan ayuda de herramientas de software que
permitan la transformacin de los datos de patentes en bruto en informacin
significativa y til para la toma de decisiones empresariales. Varias herramientas de
software se han desarrollado en este campo [2, 6]. Analizan las patentes individuales,
as como carteras de patentes; recuperar patentes y hacer estadsticas bsicas, as
como visualizar, mapa y paisajsticos de los mismos datos. La mayora de estas
herramientas utilizan mtodos estadsticos para analizar los datos de patentes en un
perodo determinado, y representan las tendencias de patentes por diversos grficos y
tablas. En este artculo presentamos SALMO [7, 8], herramienta de software
desarrollada recientemente y demostrar su funcionalidad a travs de varios estudios
de caso.

El resto del trabajo se organiza de la siguiente manera. En la Seccin 2 se describen los
mdulos funcionales del Salmo y la interfaz de usuario, mientras que en la Seccin 3
funcionalidad SALMO se demuestra a travs de tres estudios de caso. Por ltimo, en la
Seccin 4 se resume la conclusin con un resumen de los resultados y una mayor
investigacin.
2. SALMO
Toda la informacin que se encuentra en un documento de patente se recoge y se
verifica de conformidad con las normas acordadas internacionalmente. Se presenta en
forma sistemtica, como una combinacin de los datos estructurados y no
estructurados. Informacin tcnica se deriva de la descripcin y los dibujos de la
invencin que describen los detalles tcnicos de la invencin, ilustran ejemplos de
trabajo y mostrar cmo llevar a cabo la invencin a la prctica. Informacin legal tiene
su origen en las reivindicaciones, que definen el alcance de la proteccin para la
invencin y de algunos de los datos bibliogrficos (fecha de prioridad, fecha de
presentacin, los documentos de patentes relacionadas, etc.) Por ltimo, las empresas
y policyrelevant pblica informacin se deriva de los datos de identificacin del
inventor, fecha de presentacin, el pas de origen, etc; y de un anlisis de las
tendencias de presentacin. La mayora de la informacin en el documento de patente
se da en la forma de texto estructurado. Slo los datos bibliogrficos estn
estructurados. Se encuentran en la primera pgina y proporcionan informacin
bibliogrfica sobre la patente o solicitud de patente concedida, que incluye el nmero
de documento, la presentacin y publicacin fechas, nombre de los inventores, los
cesionarios y direcciones, etc
SALMO (Bsqueda de Patentes y Anlisis para Landscaping y Gestin) [7, 8] es una
herramienta de software diseada para analizar los datos de patentes tanto,
estructurados y no estructurados. Se compone de los siguientes mdulos funcionales
(Fig. 1): robot web, clustering texto, escalamiento multidimensional, visualizacin,
anlisis de los cdigos IPC, extraccin y visualizacin de citando y cit patentes,
mdulo de informe de progreso, mdulo para el registro de datos en el archivo CSV, y
la evaluacin de una patente. Los mdulos se desarrollan en los lenguajes de
programacin Java y PHP, mientras que la base de datos se desarrolla en MySQL.
Software front-end (robot web) recoge datos sobre patentes de bases de datos a
disposicin del pblico (USPTO y EPO), los anlisis de sus parmetros bibliogrficos
(como: ttulo, inventor (s), solicitante, fecha de solicitud, fecha de prioridad, pas de
publicacin, nmero de prioridad, pas prioritario, las referencias citadas por la
patente, las patentes que citan la patente, abstracto, la clasificacin internacional de
patentes) y traducir los datos no estructurados (texto libre en el documento de
patente) de forma estructurada [7, 9]. La informacin recogida se archiva en la base de
datos para su uso futuro. El segundo mdulo es el procesamiento de textos. Su
principal objetivo es extraer los atributos importantes y palabras clave de una
estructura de datos de patentes.

Anlisis de texto incluye anlisis del texto de la patente (resumen, descripcin, las
reivindicaciones o de otros datos) utilizando frecuencia de los trminos - frecuencia
inversa de documento (tf-idf) como un sistema de ponderacin para la extraccin de
palabras clave, aunque otros mtodos pueden ser utilizados para la clasificacin de
flujos de texto por palabra clave [10]. Los resultados han demostrado que el anlisis de
las alegaciones ofrece los resultados ms precisos y pertinentes [11]. Sobre la base de
palabras clave extrados del conjunto de datos determinado (coleccin de documentos
de patente) se forma la matriz dimensional de alta. Se transforma en mucho menor
espacio de dimensionalidad (2D o 3D), el mantenimiento de la estructura ms similar a
la original, utilizando el escalamiento multidimensional (MDS) esquema. La salida del
MDS es una matriz de 2 dimensiones que se utiliza como insumo para el tercer mdulo
- la agrupacin. El espacio de datos de patentes reducida est agrupado utilizando la
tcnica de la agrupacin sin supervisin con el fin de agrupar la coleccin sin etiquetar
dado de patentes en grupos significativos. Este enfoque permite extraer informacin
til de las patentes a travs de la identificacin y exploracin de palabras clave y frases
clave de los datos textuales en las patentes. Ha habido muchos enfoques diferentes de
agrupamiento. La comparacin de las actuaciones de cuatro tcnicas de agrupamiento
(es decir, k-medias, las de gas neural, c-means borroso y ronn), se demostr que todos
tienen actuaciones similares de agrupamiento y clasificacin de la precisin y as
cualquier podra ser utilizado en realizaciones prcticas de patentes herramientas de
anlisis de datos [12]. SALMO est basada en fuzzy c-means clustering algoritmo [12],
donde cada patente tiene un grado de pertenencia a grupos, ms que pertenecer a un
solo clster. Por ltimo, el Salmo permite visualizaciones de datos de baja
dimensionalidad de alta, as como. Los datos de alta-dimensionales se visualizan
mediante la asignacin de los documentos y las agrupaciones en proporcin el uno al
otro, es decir, la creacin de mapas de patentes.
Los documentos con temas similares aparecen cerca uno del otro en mapas. Esto hace
que sea muy fcil de localizar el ms reas desarrolladas en la tecnologa. Tambin
muestra los valores atpicos en los datos, las patentes que no tienen mucho que el
tema, pero se encuentran en los datos por accidente. Datos de baja dimensin
(estructurados) se presentan como grficos de barras y grficos circulares de datos
bibliogrficos y tambin podra ayudar a una mejor comprensin de las reas de
tecnologa, cambios en la tecnologa el desarrollo, la competitividad de la compaa etc
SALMO recoge y almacena los datos de patentes (el acceso a la pgina web y la
descarga de una pgina web con los datos de la patente; analizar la pgina web;
Almacenar datos en la base de datos) dentro de 2s (velocidad de descarga / carga 26/1
Mb / s). Tiempo de procesamiento de TF-IDF para un grupo de 1.800 patentes es de
unos 15 minutos, mientras que el MDS y la visualizacin se realizan dentro de 3s [7].

2.1. interfaz de usuario
Salmo es una herramienta de software desarrollado para analizar un mayor nmero de
patentes y para servir a mltiples usuarios en red al mismo tiempo en el servidor -
Forma cliente. Todo el sistema est basado en casos, donde se realiza cada caso del
grupo de patentes seleccionadas en base a criterios definidos de los usuarios. Criterios
para la creacin de un nuevo caso se pueden basar en: cesionario, Cdigos IPC y citado
y citando las patentes. Adems de estos criterios, el usuario puede crear un nmero
ilimitado de criterios para la seleccin de las patentes basadas en palabras clave y
atributos bibliogrficas. Cada caso es inalterable despus de la creacin.
Sin embargo, es posible crear un nuevo caso con un conjunto diferente de patentes
que combinan los casos existentes. Las patentes deben introducir directamente el
nmero por nmero (PID) o como lista en. Forma csv.

La interfaz de usuario (Fig. 2) se construye usando PHP, HTML y lenguajes de
programacin de JavaScript, as como la biblioteca jQuery JavaScript DataTables y
Highcharts biblioteca para la visualizacin de los resultados del procesamiento de
datos.

3. Estudios de caso
En esta seccin se demuestra la funcionalidad salmo. Anlisis y evaluacin de la fuerza
la cartera de patentes de la compaa son las tareas que re-producen en un trabajo
diario de un analista de patentes. Por lo tanto, se seleccionan estos casos de uso para
ilustrar la funcionalidad salmo.

3.1. Caso # 1

En el primer caso se seleccionaron 147 patentes en Estados Unidos que pertenecen a
MPEG-2 la cartera de patentes esencial. Una patente es esencial para un estndar, si
hacer un producto o el uso de un mtodo, el cumplimiento de la norma, requiere el
uso de la patente. La tarea consista en indicar la intensidad de algunas empresas en
MPEG-2 campo que comparan las patentes esenciales y patentes que citan ellos. Higo.
La figura 3 muestra las reas especficas en las que dos empresas seleccionadas: LG
(tringulos verdes) y Toshiba (cuadrados rojos) tienen ventajas o desventajas que
comparan con el conjunto de las patentes esenciales (azul de tecnologa
rombos). De la figura. 3, es posible concluir que LG tiene una fuerte posicin en la
codificacin de audio y la transmisin de vdeo, mientras que Toshiba est en mejor
posicin en la codificacin / decodificacin de seales digitales. Por otra parte, ambas
compaas estn en buenas situacin en las zonas de codificacin / decodificacin de
vdeo y de compresin de vdeo. Al mismo tiempo. Fig. 3 verifica el salmo de capacidad
de reunir a las patentes en grupos significativos de tecnologa. Es decir, estas patentes
se analizaron por primera vez por los expertos y agrupado. Los puntos suspensivos en
la fig. 3 se colocan, adems, con el propsito de ilustracin solamente, para mostrar
satisfactoria concordancia entre los resultados de las herramientas y de derechos
humanos de los expertos.


3.2. Caso # 2
El conjunto de datos que fue seleccionado en el segundo caso se compone de 19
patentes (adicionales: patentes originales) que pertenece en su mayora al campo de la
tecnologa de distribucin de contenidos multimedia y representan la cartera de una
PYME. La tarea consista en encontrar empresas y evaluar la fuerza de sus carteras en
relacin con la cartera de este PYME.


Con la herramienta SALMO se encontr que Microsoft tiene el mayor nmero de
patentes entre las 115 patentes que fueron citando patentes originales (citas a plazo) y
que fueron citados por ellos (citas atrasadas) indicando que era la empresa ms activa
en el campo. Por lo tanto, Microsoft fue elegido como un objetivo principal para el
control.
El anlisis de las patentes originales utilizando clustering basado en los cdigos de la
CIP, se detectaron dos cdigos IPC ms comunes (G06F21/00 y H04l9/00). Entonces se
recuperaron todas las patentes de Microsoft que contienen ambos de estos dos
cdigos (19 patentes en total), as como todas las patentes de Microsoft que contienen
al menos uno de estos dos cdigos (726 patentes en total). Higo.
La figura 4 muestra cmo 19 patentes originales coincidan con 726 patentes de
Microsoft, mientras que la fig. La figura 5 muestra cmo 19 patentes originales
coincidan con 19 patentes de Microsoft.
Se puede observar a partir de las figuras 4 y 5 que, aunque el Microsoft tiene un gran
nmero de patentes en la misma rea tecnolgica como el SME, estas patentes no se
superponen en el espacio 2D, lo que significa que no estn estrechamente
relacionados entre s. A saber, las patentes de Microsoft se concentran en una parte
del espacio 2D, mientras que las 19 patentes originales se encuentran en la otra parte.
Patente original que es el ms cercano a las patentes de Microsoft en caso de dos (el
nico cuadrado verde entre los tringulos en. Fig. 5), es la patente original ms cercana
a las patentes de Microsoft en caso de que uno as (diamante rojo entre los cuadrados
densamente espaciados en la figura. 4 ). Adicional experiencia (humano) demostr que
las patentes de Microsoft ms cercanas estn relacionados con algunos esquemas de
cifrado para contenidos multimedia por streaming que est protegido por la gestin de
derechos y no especialmente relacionados con la mejora de los ingresos de derechos
de autor, como las patentes de las PYMES. Esta era una manera de verificar la
exactitud de la herramienta.
3.3. Caso # 3
En el tercer caso, las patentes que estn relacionadas con el sistema operativo Android
estn en foco. La tarea fue analizar los litigios de patentes relacionadas con el sistema
operativo Android y desde esa perspectiva se reflejan en la decisin de Google para
comprar Motorola Mobility. Buscando a travs de litigios relacionados con el sistema
operativo Android, entre 2009 y 2012, se detectaron 55 patentes [13]. Los anlisis
realizados por la herramienta indican que estas 55 patentes objeto de litigio citados 22
patentes de Motorola Mobility. Higo. La figura 6 muestra cmo 55 patentes objeto de
litigio coinciden con 22 patentes de Motorola Mobility.
Los anlisis de las patentes detectados y litigado revelaron que las patentes de
Motorola estn relativamente bien distribuidas y relacionados con las patentes que
pueden daar a Google. A partir de ese momento, muchos de los que sostuvo que la
decisin de Google para comprar Motorola Mobility est parcialmente arraigada en su
cartera de patentes estaban en lo cierto. Por otro lado, Motorola no tiene suficientes
patentes prximas a las patentes en virtud litigios, por lo que parece que Google va a
tener que hacer varios ms compras en el mercado para estar en la posicin ms
segura.


4. Conclusin
En este trabajo presentamos SALMO - una herramienta para el anlisis de datos de
patentes y visualizacin desarrollado por acadmicos de la Universidad de Novi Sad y
profesionales de RT-RK Computer Based Systems LLC. Su verdadero poder est en el
anlisis de las carteras con un mayor nmero de patentes. Esto queda demostrado en
tres estudios de caso de anlisis, comparacin y evaluacin de las fortalezas y
debilidades de las carteras de patentes de las empresas.
Anlisis de datos de patentes seguirn siendo difcil, el tiempo y la mano de obra que
consume el trabajo de los expertos, pero SALMO podran ayudar a los profesionales
involucrados en la gestin IP a centrar su tiempo y esfuerzos en las patentes ms
interesantes y prometedores, sino tambin para ahorrar tiempo en preliminares
agruparlos. Por ejemplo, con base en SALMO resulta que es ms fcil apuntar
tecnologa reas dbiles o para seleccionar con mayores patentes de probabilidad
interesantes por infraccin demanda a. Sabiendo que las patentes son interesantes y
por qu son interesantes es importante, especialmente para los que toman decisiones
sobre el uso y la gestin de las patentes.
Los resultados presentados en este documento son el resultado de la versin actual
del Salmo y se espera seguir mejorando en el prximo perodo. La herramienta se
puede utilizar para extraer la representacin de datos ms significativo desde el gran
conjunto de patentes. La investigacin adicional se destinar a la mejora de
herramientas de procesamiento de texto, usando WordNet para comparar palabras
en el texto y las estructuras de SAO para el anlisis de textos. Adems, el trabajo futuro
se concentrar en ampliar los datos de prueba establecidos con el fin de comprobar la
veracidad de los resultados y mejorar las tcnicas de minera de datos, clustering y
mdulos de visualizacin.