Você está na página 1de 33

El lgebra Lineal detrs de Google

Carlos DAndrea

I Congreso Nacional de Estudiantes de Matemtica


Corrientes, Julio 2012

Carlos DAndrea
El lgebra Lineal detrs de Google

Facultad de Matemticas
Universidad de Barcelona
Licenciatura en Matemtica
Master en Matemtica Avanzada
Doctorado en Matemtica
Otros masters y doctorados
Ingenieria Informtica

Carlos DAndrea
El lgebra Lineal detrs de Google

Programa de lgebra Lineal


(Ingeniera Informtica)
Polinomios
Nmeros complejos
Sistemas lineales de ecuaciones
Matrices
Espacios vectoriales
Subespacios, transformaciones lineales, etc, etc, etc.
Valores y vectores propios Diagonalizacin

Carlos DAndrea
El lgebra Lineal detrs de Google

Para qu nos hacen estudiar todo esto???

Carlos DAndrea
El lgebra Lineal detrs de Google

lgebra Lineal en la Informtica


Programacin grfica
Teora de grafos (redes sociales,...)
Elaboracin eficiente de filtros
Inteligencia artificial
Visin por ordenador
...

Carlos DAndrea
El lgebra Lineal detrs de Google

Todo esto lo vern despus!

Carlos DAndrea
El lgebra Lineal detrs de Google

El lgebra lineal detrs de

Google es una variacin de la palabra googol, que es el


nmero 10100
Es un buscador de internet
Fue diseado en 1998 por dos alumnos de doctorado en
informtica en Stanford: Sergei Brin y Lawrence Page
Atiende alrededor de 200.000.000 de consultas diarias, tiene
ms de 54.000 empleados en todo el mundo

Carlos DAndrea
El lgebra Lineal detrs de Google

Una gran familia


El campus de Google (Googleplex) se encuentra en Menlo
Park, Sillicon Valley, California
Ocupa casi 50.000 metros cuadrados
Reclutamento constante de jvenes talentos en todo el mundo

Carlos DAndrea
El lgebra Lineal detrs de Google

Googles got Talent

Carlos DAndrea
El lgebra Lineal detrs de Google

Cmo se disea un buscador de internet?


Es un problema de ingeniera matemtica:
1

un buen conocimiento del contexto

un modelo matemtico que lo explique

una cuidadosa y eficiente implementacin

Carlos DAndrea
El lgebra Lineal detrs de Google

Trabajo bsico de un buscador de internet


Censar las pginas de internet de acceso pblico
Indexar los datos censados de acuerdo a su importancia con
respecto a las palabras claves
Ordenar estos datos de acuerdo a su importancia con
respecto a las palabras claves

Carlos DAndrea
El lgebra Lineal detrs de Google

Tambin se requiere resistencia a la


manipulacin!

Carlos DAndrea
El lgebra Lineal detrs de Google

El algoritmo PageRank
Califica pginas indexadas de acuerdo a su importancia
dentro de la red
Marca registrada de Google
Lleva su nombre debido a su inventor Larry Page

Carlos DAndrea
El lgebra Lineal detrs de Google

El modelo PageRank
El universo de pginas de internet pblicas es un gran grafo
dirigido donde
cada pgina web es un nodo
hay una arista orientada entre pginas que citan a otras
pginas

Carlos DAndrea
El lgebra Lineal detrs de Google

La importancia de una pgina web


Es alta si
la citan muchas pginas
La citan pginas importantes

Carlos DAndrea
El lgebra Lineal detrs de Google

Postulado PageRank
La importancia xj de la pgina Pj es proporcional a la suma
de las importancias de las pginas que enlazan con Pj

Carlos DAndrea
El lgebra Lineal detrs de Google

El lgebra lineal entra en accin


M es la matriz de adyacencia del grafo de las pginas de
internet

El postulado Pagerank implica


Mt x = x
Carlos DAndrea
El lgebra Lineal detrs de Google

Vectores y valores propios!

Mt x = x
es la constante de proporcionalidad un valor propio de
Mt
x = (x1 , x2 , . . . , xN ) es el vector de importancias de las
pginas censadas un vector propio de Mt (asociado a )

Carlos DAndrea
El lgebra Lineal detrs de Google

Todo muy bonito, pero...


Por qu debera tener valores propios reales Mt ?
Cual de ellos elijo?
Por qu habra de haber vectores propios todos positivos?
Algn tipo de unicidad???

Carlos DAndrea
El lgebra Lineal detrs de Google

Teorema 1 (Perron, 1907)


Si M tiene todas sus coeficientes positivos, entonces
existe un valor propio simple > 0 tal que Mt x = x, con
x > 0;
este valor propio es mayor, en mdulo, que todos los dems
valores propios de la matriz;
cualquier otro vector propio positivo de Mt es un mltiplo
escalar de x

Carlos DAndrea
El lgebra Lineal detrs de Google

Pero...
Nuestra matriz M est MUY lejos de ser positiva

Qu hacemos?

Carlos DAndrea
El lgebra Lineal detrs de Google

Teorema 2 (Frobenius, 1908192)


Supongamos que M tiene entradas no negativas y adems es
irreducible. Entonces
existe un valor propio simple > 0 tal que Mt x = x, con
x > 0;
este valor propio es mayor o igual, en mdulo, que todos los
dems valores propios de la matriz;
cualquier otro vector propio positivo de Mt es un mltiplo
escalar de x

Carlos DAndrea
El lgebra Lineal detrs de Google

Matrices irreducibles

Una matriz cuadrada se dice irreducible si no existe ninguna


permutacin de sus filas y columnas que la transforme en


M11
A12
,
0
M22
con M11 y M22 matrices cuadradas

Carlos DAndrea
El lgebra Lineal detrs de Google

Matrices irreducibles = grafos fuertemente


conexos
Si se trata de la matriz de incidencia de un grafo dirigido, ser
irreducible significa que puedo ir desde cualquier nodo a otro por un
camino (dirigido)

Carlos DAndrea
El lgebra Lineal detrs de Google

Es el grafo de internet fuertemente conexo?

Ni siquiera es conexo!
Carlos DAndrea
El lgebra Lineal detrs de Google

Solucin a la Google Matemtica aplicada!

Perturbamos la matriz M

c M + (1 c)U 7 M
donde
c es un parmetro entre 0 y 1 (cgoogle 0, 85)
1 1

1
N
N ... N

..
..
U = ... ...
.
.
1
N

1
N

Carlos DAndrea
El lgebra Lineal detrs de Google

...

1
N

Del existencialismo al Clculo


No se necesitan
Polinomios caractersticos
Clculos de races
Descomposicin en subespacios invariantes
lgebra Lineal Numrica!

Carlos DAndrea
El lgebra Lineal detrs de Google

Mtodo de las potencias (usado por Google)

Si hay un nico valor propio de mdulo mximo entonces,


consideremos la siguiente sucesin
x0 = cualquier vector de RN
xn+1 =

Mt xn
kMt xn k

Entonces
limn xn
t
nk
limn kMkxx
nk
con probabilidad 1

Carlos DAndrea
El lgebra Lineal detrs de Google

= x
=

La misma idea para otros problemas


Clasificacin para las eliminatorias de la NBA
Modelos de evolucin probabilstica
Dinmica de poblaciones
Modelos econmicos

Carlos DAndrea
El lgebra Lineal detrs de Google

Googlelogo
El objetivo de Brin y Page era que al menos una de las diez
primeras pginas que se muestren contenga informacin til
para el que consulta Tuvieron exito?
En 2004 el valor de Google en el mercado era de alrededor de
25.000.000.000 U$D
El algoritmo PageRank fue patentado por la Universidad de
Stanford, y Google tiene derechos exclusivos sobre esa patente.
Stanford recibi acciones por esa patente que fueron vendidos
en 2005 por 336.000.000 U$D
Desde febrero de 2011 Google utiliza combinadamente los
algoritmos PageRank y Google Panda
Carlos DAndrea
El lgebra Lineal detrs de Google

Qu hemos aprendido hoy?


Grafos y sus propiedades Teora de Grafos
Matrices con entradas positivas Matrices estocsticas
Clculo computacional de vectores y valores propios
lgebra Lineal Numrica
Teoremas de Perron y Frobenius Anlisis funcional
PageRank y Panda Algoritmos de bsqueda

Carlos DAndrea
El lgebra Lineal detrs de Google

Para saber ms

El secreto de Google y el lgebra Lineal, P.


Fernndez, Bol. Soc. Esp. Mat. Apl. 30 (2004), 115141
The $25, 000, 000, 000 Eigenvector: The Linear
Algebra behind Google, Kurt Bryan & Tanya Leise, Siam
Review 48 (3), 569581, 2006
Les Matemtiques de Google: lalgorisme
PageRank, Joan Gimbert, Butllet de la Societat Catalana de
Matemtiques, Vol 26, 1, 211, 2955

Carlos DAndrea
El lgebra Lineal detrs de Google

Muchas gracias
http://atlas.mat.ub.es/personals/dandrea

Carlos DAndrea
El lgebra Lineal detrs de Google