Você está na página 1de 12

Clase tutoría 3

Internet nación en los años 1960, con protocolos TCP e IP, los protocolos de la
internet están distribuidos, comunicación entre equipos, conectados entre sí.

La web, protocolo HTTP creado por Tim Berners-Lee (presidente de la W3C),


buscaba mecanismo idóneo para transmitir información, y creo un nuevo
modelo.

La web nació en 1993, conceptos que involucra: un modelo de documentos


nuevos basado en un modelo de hipertexto, no solo se habla de texto si no de
interacción con otros formatos y de contenido enriquecido.

El concepto de HTML, es aterrizar el concepto de hipertexto, “saltar de un lado


a otro”, concepto de la dirección de los documentos se invento la URL, este
concepto viene de la URI (Uniform Resourse Indentifiers) inventado para
identificar cada página y el contenido de la página y ahora para acceder a esa
información nació el Protocolo de transporte HTTP.

Este protocolo se basa en un servidor y un cliente, el cliente es un navegador


web y el servidor es un programa que está pendiente de la solicitud del cliente.

Todo lo anterior es lo que conforma la WWW

HTML: Hiper Text Markup language, ya se había aterrizado en SGML, estándar


generalizado de lenguaje de marcas, esto indica que yo puedo marcar los
contenidos, es resaltar una parte del texto con algunas características.

SGML dice que debe existir una forma posible de hacer esa marca, utilizando
el concepto de etiquetas, la etiqueta es un texto encerrado entre <> y para
terminar </>, dentro de los corchetes puede colocarse cualquier cosa.

30 etiquetas y esa 30 etiquetas se llamaran HTML 1.0, hipertexto significa


saltar y se invento una etiqueta para saltar, así se materializa el concepto de
hipertexto.

Conceptos

URL utiliza un protocolo, una dirección de un servidor y un camino para llegar


a la página.

Análisis de protocolo: trabajar y dividir el problema en dos, colocar texto y


transferir de un archivo a otro.

Mensajes de protocolo: es un servidor que conteste peticiones de HTTP es


un demonio WEB es decir el programa servidor web HTTPD demonio.

Cuando se conecta algún lado lo que hace es conectarse a un servidor.


Para crear un buscador de internet debe actuar como un cliente, debe actuar
como un navegador, se utilizan programas especializados para consultar y
solicita paginas para después hacer un análisis “Spider/Crawler” estos van se
conectan y descargan todo lo que se puede enlazar, cuando se concreta
solicita la pagina principal, este le devuelve un HTML, este Spider/Crawler le
pide la etiqueta A y los guarda los enlaces y los analiza, es decir es un
saltador.

El siguiente paso es indizar lo que el Spider/Crawler ha indizado (Robot,


Spider o Crawler: es programa informático el cual va accediendo a los
contenidos, busca y descarga enlaces saltando por todo el sitio)

En conclusión lo que hace es descargar, encontrar enlaces y saltar, estos


enlaces generan una colección de recursos en mi equipo, de forma análoga la
web es una gran colección distribuida.

A partir de estas colecciones se pueden hacer análisis, colección infinita de


documentos:

Hacer un análisis de cuantos documentos hay en la web, a medida que se


descargan se hacen unos análisis y se debe aclarar que es una palabra clave
“posible expresión de búsqueda definida por un usuario y lo que utilizaría un
usuario para buscar información”

Densidad del Keyworks: Cuantas veces aparece en la web y en las meta


-etiquetas, cuáles de esas Kyewords poseen un nivel de estructura en una
página Web, que involucra una etiqueta de metadatos.

Estas palabras estén metidas como una etiqueta, Formando una estructura,
las etiquetas dan un nivel de estructura.

¡Vamos a jugar HTTTEAC ese es nuestro ROBOT o nuestro


Spider/Crawler!
Este Software vampiro se conecta a una página Web y se chupa todo los
enlaces, este no indiza pero si genera una colección.

Vamos a elegir el sitio de una Unida de información que tenga dominio y


subdominio propio, eso indica que solo se digita URL para ingresar, que no se
tenga que digitar camino.
Instrucciones Generales de la tutoría 3

Se debe descargar todo el directorio de la Unidad de información, analizar


cuantas páginas, cuantas imágenes, palabras claves, frescura del contenido,
meta-etiquetas, calidad del contenido, cuantos enlaces, imágenes de la
biblioteca, enlaces entrantes, palabras claves y posición de la pagina de
Google, no solo el contenido si no que involucra el sitio, análisis de la
arquitectura de sitio,

Luego indizar Windows Destopk Search, Swish-e, Con Google Custome


Search (herramienta para que crear su propio buscador, que lo que se busque
se hace sobre un sitio) y por ultimo DIgidocindex (se le da la URL de la unidad
de información, descarga e indiza, este sitio genera su buscador local).

Por último hacer entre 3 y 5 búsquedas con cada uno de ellos y analizar,
documentado los resultados.

Você também pode gostar