Escolar Documentos
Profissional Documentos
Cultura Documentos
Michael Mitzenmacher
Hoy...
Cdigos de borrado
Fuente digital
Filtros Bloom
Cach de resumen, filtros Bloom comprimidos
Otrosstrabajos recientes
2
Cdigos de borrado
n Mensaje Algoritmo de codificacin cn Codificacin Transmisin n Recibido Algoritmo de decodificacin n Mensaje
4
Desventajas:
Alta carga del servidor. Alta carga de la Red. No se gradua bien (sin recursos adicionales).
6
Ventajas:
Baja carga del servidor. Baja carga de la Red. Se gradua bien.
7
Solucin de codificacin
5 horas
1 hora
Transmisin
0 horas
La prdida moderada de paquetes no es un problema. Baja carga del servidor - protocolo simple. Se gradua bien. Baja carga de Red.
10
11
Medidas de actuacin
Tiempo de overhead
El tiempo que lleva codificar y decodificar, expresado
como mltiplo de la longitud de codificacin.
Eficiencia de recepcin
El ratio de los paquetes del mensaje y de los paquetes
para codificar. El ptimo es 1.
12
Recepcin eficiente
ptimo
Puede decodificar a partir de cualquier n palabras de codificacin. La eficiencia de recepcin es 1.
Relajacin
Decodificar a partir de cualquier (1+) n palabras de codificacin. La eficiencia de recepcin es 1/(1+).
13
Trabajo anterior
La eficiencia de recepcin es 1.
Reed-Solomon estndar
El tiempo de overhead es el nmero de paquetes redundantes. Utiliza operaciones de campo finitas.
16
17
Mejoras ms recientes
Problema prctico con el cdigo Tornado: longitud de codificacin
Se debe decidir a priori qu es correcto. El tiempo/la memoria de codificacin/decodificacin son proporcionales a la longitud codificada.
Transformada de Luby:
Codificacin producida instantneamente-sin longitud de codificacin. El tiempo/la memoria de codificacin/decodificacin son proporcionales a la longitud del mensaje. 18
Solucin de codificacin
5 horas
4 horas
3 horas Codificacin
Archivo
2 horas
1 hora
Transmisin
19
0 horas
Problema de bsqueda
Dado un conjunto S = {x1,x2,x3,xn} en un
universo U, se quiere responder a preguntas del tipo:
Is y S .
Ejemplo: un conjunto de URLs del universo de
todas las series de URL posibles.
21
Filtros Bloom
Comience con una serie de m bits ocupados por ceros.
B B B B
Para comprobar si y est en S, compruebe B en H i(y). Todos los valores k deben ser 1.
Es posible tener un falso positivo; todos los valores k son 1, pero y no est en S.
0
22
Errores
Hiptesis: tenemos buenas funciones hash que
parecen aleatorias.
Ejemplo
Tasa de falso positivo
0,1 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01 0 0 1 2 3 4 5 6 7 8 9 10
24
m/n = 8
Opt k = 8 ln 2 = 5,45...
Funciones hash
Cach web 4
Cach web 5
Cach web 6
Enviar filtros Bloom de las URL. Los falsos positivos no causan mucho problema.
De todas formas, reciben errores de los cambios de cach. 25
Compensaciones
Tres parmetros.
Tamao m/n : bits por elemento. Tiempo k : nmero de funciones hash. Error f : probabilidad de falso positivo.
26
Compresin
Compresin: el filtro Bloom no es slo una estructura
de datos, tambin es un mensaje.
Compensaciones
Con la compresin, cuatro parmetros.
Tamao comprimido (de transmisin) z/n : bits por elemento Tamao comprimido (de almacenamiento) m/n : bits por elemento
29
30
Optimizacin: dados z bits por filtro comprimido y n elementos, elija el tamao de la tabla m y el nmero de funciones hash k para minimizar f.
p e kn / m ; f (1 e kn / m ) k ; z mH ( p )
31
Ejemplo
0,1 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01 0 0 1 2 3 4 5 6 Funciones hash
32
Original Comprimido
z/n = 8
10
Resultados
En k = m (ln 2) /n, los falsos positivos se
maximizan con un filtro Bloom comprimido.
El mejor caso sin compresin es el peor caso con compresin; la compresin es siempre de ayuda.
33
m/n Bits de trans. por elemento z/n Funciones hash k Tasa de falso positivo f m/n Bits de trans. por elemento z/n Funciones hash k Tasa de falso positivo f
Bits de serie por elemento
8 8 6 0.0216
14 7.923 2 0.0177
92 7.923 1 0.0108
m/n Bits de trans. por elemento z/n Funciones hash k Tasa de falso positivo f
Bits de serie por elemento
8 8 6 0.0216
46 6.891 1 0.0215
m/n Bits de trans. por elemento z/n Funciones hash k Tasa de falso positivo f
Bits de serie por elemento
35
Resmenes de datos
IP Traceback
Mtodos de reconciliacin
En breve...
36
37
38
Gran archivo: para personas con una gran cantidad de ancho de banda. La gente comenzar a utilizar redes P2P.
39
Ejemplo de motivacin
40
Nuestro argumento
En las CDN/P2P con un amplio ancho de banda, las conexiones adicionales favorecern el rendimiento
Si son inteligentes para colaborar en cmo utilizar el ancho de banda Si suponemos que un par de sistemas finales no han recibido exactamente el mismo contenido, podran reconciliar las diferencias en el contenido recibido.
41
Superposiciones adaptativas
A la hora de reconfigurar topologas, hacer nfasis en algunos de los puntos anteriores
42
Problema de la reconciliacin
Con la ordenacin estndar de secuencias, la reconciliacin no es (necesariamente) un problema. El empleo de la codificacin, debe reconciliar ms de
un universo de smbolos desordenado y potencialmente amplio (empleando los cdigos mejorados de Luby). Cmo se pueden reconciliar pares con contenido parcial de manera informada?
45
Trabajo extra
Basta estimacin de una superposicin en un paquete.
Utilizacin de muestreo. Utilizacin de muestras independientes min-wise.
Recodificacin.
Combinacin de smbolos codificados.
47
Usos prcticos:
Bases de datos, equipos porttiles, etc.
48
Suponga que consigue "recordar" cul fue la mejor posibilidad del ltimo lanzamiento.
Una eleccin aleatoria, una memoria: log log n / 2 log Las variaciones en cola tambin se analizan.
50
Rendimiento: cdigos Reed-Solomon mejores que en el peor caso. Extendido para modelos de error adicionales 51 (aleatorizacin del cdigo).
Conclusiones
Estoy interesado en los problemas de la Red. Existen muchos problemas interesantes:
Tcnicas nuevas, algoritmos, estructuras de datos Nuevos anlisis Buscando la forma correcta de aplicar las ideas que se conocen