Escolar Documentos
Profissional Documentos
Cultura Documentos
232
05_Rev_34_2_779.indd 232
06/05/11 10:44
algorithms. By using this guided search over a given space of possible solutions, genetic
algorithms can provide a subset of indicators able to optimize a fitness function. The
results categorize corporate websites in terms of their link structure and highlight the
possibilities for using genetic algorithms as a tool for knowledge discovery.
Keywords: Link analysis, Website structure, factor analysis, genetic algorithms.
1.
Introduccin
Rev. Esp. Doc. Cient., 34, 2, abril-junio, 232-252, 2011. ISSN: 0210-0614. doi:10.3989/redc.2011.2.779
05_Rev_34_2_779.indd 233
233
06/05/11 10:44
M.
DEL
234
05_Rev_34_2_779.indd 234
Rev. Esp. Doc. Cient., 34, 2, abril-junio, 232-252, 2011. ISSN: 0210-0614. doi:10.3989/redc.2011.2.779
06/05/11 10:44
2.
SNA
Una red social se puede representar como un grafo G = (V, E) donde V denota un conjunto finito de vrtices y E denota un conjunto de lneas de modo
que E V V. Matemticamente, los grafos se suelen conceptualizar como matrices (Nooy y otros, 2005), como se muestra en la Ecuacin (1).
M = (mi, j )n n
donde n = V ,
mi, j =
{0
1
si (v1, vj) E
en otro caso
(1)
{0
en otro caso
Rev. Esp. Doc. Cient., 34, 2, abril-junio, 232-252, 2011. ISSN: 0210-0614. doi:10.3989/redc.2011.2.779
05_Rev_34_2_779.indd 235
(2)
235
06/05/11 10:44
M.
DEL
236
05_Rev_34_2_779.indd 236
Rev. Esp. Doc. Cient., 34, 2, abril-junio, 232-252, 2011. ISSN: 0210-0614. doi:10.3989/redc.2011.2.779
06/05/11 10:44
tructuras conectadas dentro del portal web. La figura 1.c) detalla el componente formado por los vrtices v3, v4 y v5.
K-Ncleos (k-cores): un k-ncleo es una subred en la que cada nodo tiene
k grados dentro de esa subred. El ncleo con mayor grado representa el ncleo central de la red. Los k-ncleos han sido utilizados en trabajos previos
para detectar subredes entre portales web acadmicos de pases nrdicos
(Ortega y Aguillo, 2008). La figura 1.d) detalla un k-ncleo, con k = 3.
Distancia: se define como el nmero de pasos en el camino ms corto entre dos nodos de la red. En el caso de los portales web, existe un claro
nodo principal definido por el dominio raz. Consecuentemente tiene sentido medir la distancia del resto de pginas respecto a ese nodo.
Centralidad cercana (Closeness centralization): es un ndice de centralidad
basado en el concepto de distancia. La centralidad cercana de un nodo se
calcula considerando el total de distancias entre un nodo y todos los dems
nodos, donde la distancia ms larga ofrece una menor puntuacin de centralidad cercana. La centralidad cercana es un ndice definido para toda la
red y se calcula como la variacin en la centralidad cercana de los vrtices
dividida por la variacin mxima posible en la puntuacin de centralidad
cercana en una red del mismo tamao (Toral y otros, 2009b).
Grado de Intermediacin (Betweenness): es una medida de la centralidad
que reside en la idea de que un nodo es ms central en la medida en que
acte como intermediario en una red de comunicacin (Nooy y otros, 2005).
Es decir, la centralidad de un nodo depende de la medida en la que es
necesario como enlace para facilitar la conexin de otros nodos dentro de
la red. Si se define una geodsica como el camino ms corto entre dos
nodos, la centralidad de intermediacin de un vrtice es la proporcin de
todas las geodsicas entre pares de nodos que incluyen este nodo, y la
centralidad en la intermediacin de una red es la variacin en la centralidad
de intermediacin de los nodos dividida por la mxima variacin posible
en la centralidad de intermediacin en una red del mismo tamao. Desde
la perspectiva del anlisis de enlaces esta medida permite detectar pasarelas que conectan a redes separadas (Faba-Prez y otros, 2005).
Correlacin entre particiones: una particin de una red es una clasificacin
o clustering de los nodos en una red, de modo que cada nodo se asigna
nicamente a una clase o cluster (Toral y otros, 2010). Existen dos particiones significativas que pueden extraerse a partir de la red de pginas. La
primera es la particin de los k-vecinos a partir del dominio raz, en la cual
los nodos son clasificados usando la distancia al nodo raz. La segunda es
la particin del grado de salida en la cual los nodos son clasificados atendiendo a su valor de grado de salida. La correlacin entre ambas particiones
es definida como la medida en la cual el sitio web sigue una estructura en
forma de rbol desde el dominio raz. Se evaluarn dos tipos de ndices de
asociacin referenciados en la literatura: la V de Cramer y el ndice de informacin de Rajski (Nooy y otros, 2005). La V de Cramer mide la depen-
Rev. Esp. Doc. Cient., 34, 2, abril-junio, 232-252, 2011. ISSN: 0210-0614. doi:10.3989/redc.2011.2.779
05_Rev_34_2_779.indd 237
237
06/05/11 10:44
M.
DEL
dencia estadstica entre dos clasificaciones. El ndice de Rajski mide el grado por el cual la informacin de una clasificacin se preserva en la otra
clasificacin. Slo se considerar la versin simtrica del ndice de Rajski.
FIGURA 1
Representacin grfica de algunas caractersticas medibles en redes sociales
V3
V1
V4
V8
V7
V9
V10
V5
c) Componentes
2.2.
d) K-ncleos
Anlisis factorial
El anlisis factorial es una manera de ajustarse a un modelo de datos multivariados, estimando su interdependencia. Esto aborda el problema de analizar la
estructura de interrelaciones entre un nmero de variables usando un conjunto
de dimensiones subyacentes comunes, los factores, los cuales no son directamente observables, segmentando una muestra en segmentos relativamente homogneos
(Rencher, 2002). Ya que cada factor puede afectar a varias variables en comn,
estos son conocidos como factores comunes. Se asume que cada variable es
dependiente en una combinacin lineal de factores comunes y los coeficientes
son conocidos como loadings o cargas factoriales (Martnez-Torres y Toral, 2010a).
El anlisis del factor puede ser usado tanto para exploracin como para propsitos confirmatorios: A diferencia de los anlisis confirmatorios, los anlisis
exploratorios no establecen ninguna constante a priori en la estimacin de fac-
238
05_Rev_34_2_779.indd 238
Rev. Esp. Doc. Cient., 34, 2, abril-junio, 232-252, 2011. ISSN: 0210-0614. doi:10.3989/redc.2011.2.779
06/05/11 10:44
tores o del nmero de factores a ser extrados (Toral y otros, 2009c). La naturaleza exploratoria de este estudio tiene varias implicaciones:
El elevado nmero de indicadores relacionados con SNA que pueden extraerse de las dos redes consideradas. Los antecedentes tericos existentes
no permiten descartar previamente indicadores antes de comenzar el anlisis factorial.
El nmero de factores latentes es desconocido. De nuevo, la falta de antecedentes tericos suficientes significa que los factores deberan ser seleccionados atendiendo a la homogeneidad de sus indicadores.
En la siguiente seccin se propone el uso de algoritmos genticos para buscar una solucin ptima y resolver esos problemas.
3.
Un Algoritmo Gentico (AG) es una abstraccin computacional de una evolucin biolgica que puede utilizarse para resolver algunos problemas de optimizacin. La tcnica fue primeramente introducida por Holland (1975) para su
uso en sistemas adaptativos, y se basan en los principios de la evolucin natural
y la supervivencia de los ms fuertes. Por imitacin de este proceso, los Algoritmos Genticos son capaces de ir creando soluciones para problemas del mundo
real. Trabajan con una poblacin de individuos, cada uno de los cuales representa una solucin factible a un problema dado. A cada individuo se le asigna
un valor o puntuacin, relacionado con la bondad de dicha solucin (es el valor
de fitness, que cuantifica su valor como solucin al problema). En la naturaleza
esto equivaldra al grado de efectividad de un organismo para competir por unos
determinados recursos. El algoritmo comienza con una poblacin inicial que se
selecciona al azar desde el espacio de posibles soluciones. A partir de ella, las
siguientes operaciones combinan la informacin gentica de los elementos que
la componen para formar nuevas generaciones.
En la operacin de reproduccin, los individuos compiten por reproducirse basndose en sus valores de fitness, de modo que aquellos individuos
que representen mejores soluciones tienen mayores probabilidades de supervivencia.
La operacin de recombinacin implica a dos individuos que intercambian
parte de su informacin gentica. La seleccin de los individuos padre tambin se realiza acorde a sus valores de fitness y, como resultado, proporcionan dos individuos hijos con parte de su informacin gentica intercambiada.
La operacin de recombinacin permite que trozos de la informacin gentica que contribuyan a buenas soluciones pervivan a lo largo de la evolucin.
Rev. Esp. Doc. Cient., 34, 2, abril-junio, 232-252, 2011. ISSN: 0210-0614. doi:10.3989/redc.2011.2.779
05_Rev_34_2_779.indd 239
239
06/05/11 10:44
M.
DEL
En general, cuanto mayor sea la adaptacin de un individuo al problema, mayor ser la probabilidad de que el mismo sea seleccionado para reproducirse y
recombinarse, cruzando su material gentico con otro individuo seleccionado de
igual forma. Este cruce producir nuevos individuos descendientes de los anteriores, los cuales comparten algunas de las caractersticas de sus padres. Cuanto
menor sea la adaptacin de un individuo, menor ser la probabilidad de que dicho
individuo sea seleccionado para la reproduccin y, por tanto, de que su material
gentico se propague en sucesivas generaciones. De esta manera se produce una
nueva poblacin de posibles soluciones, la cual reemplaza a la anterior y verifica
la interesante propiedad de que contiene una mayor proporcin de buenas caractersticas en comparacin con la poblacin anterior. As a lo largo de las generaciones las buenas caractersticas se propagan a travs de la poblacin. Favoreciendo el cruce de los individuos mejor adaptados, van siendo exploradas las reas
ms prometedoras del espacio de bsqueda. Si el Algoritmo Gentico ha sido bien
diseado, la poblacin converger hacia una solucin ptima del problema.
El AG usa una estrategia elitista que significa que el mejor individuo es siempre
reproducido a la generacin siguiente, de modo que siempre se conserva la mejor
solucin obtenida a lo largo de la evolucin. El algoritmo se detiene cuando se
satisface algn criterio de parada de su ejecucin (Martnez-Torres y Toral, 2010b).
Para una correcta aplicacin de los algoritmos genticos, es preciso tener en
cuenta varias cuestiones:
Codificacin de los individuos, es decir, cmo se van a codificar los individuos de una poblacin de modo que esta codificacin permita recoger
el conjunto de soluciones posibles al problema.
Seleccin de la funcin de fitness, de modo que represente la bondad de
las soluciones segn el problema planteado.
Seleccin de los valores de los parmetros (tamao de la poblacin, nmero de iteraciones, probabilidades, etc.).
En este estudio, el uso del AG est justificado debido a su naturaleza exploratoria. De acuerdo a las caractersticas medibles detalladas en el apartado 2.1 se han
obtenido un total de 64 indicadores. La eleccin de un subconjunto de indicadores
para la realizacin del estudio exploratorio resultara prohibitiva si se tratase de
explorar la totalidad de soluciones posibles. El espacio de posibles soluciones est
formado por 264 = 1,8447e + 019 posibilidades, que significan que deberamos ejecutar 264 anlisis factoriales diferentes para explorar completamente el espacio de
posibles soluciones. A diferencia de esta alternativa, AG permite llevar a cabo una
bsqueda guiada de la solucin ptima con un menor coste computacional.
La primera condicin para aplicar AG adecuadamente es una buena seleccin
de la codificacin de individuos, la cual debera ser vlida y completa. Nuestra
codificacin de los individuos est constituida por una secuencia binaria de 64
valores, en las que los unos representan las variables que van a ser usadas en
el anlisis factorial y los ceros representan variables que van a ser excluidas de
240
05_Rev_34_2_779.indd 240
Rev. Esp. Doc. Cient., 34, 2, abril-junio, 232-252, 2011. ISSN: 0210-0614. doi:10.3989/redc.2011.2.779
06/05/11 10:44
este anlisis. La figura 2 muestra un ejemplo de codificacin para el caso concreto de considerar las variables impares. Claramente, la representacin de codificacin es completa, pues las 264 posibilidades pueden ser representadas, y vlidas, ya que todas ellas pueden ser evaluadas. La figura 3 detalla la operacin
gentica de recombinacin para la codificacin utilizada. El punto de cruce se
elige aleatoriamente y, mediante un cruce, se generan los individuos hijos a partir de la codificacin de los individuos padres.
FIGURA 2
Codificacin binaria de las posibles soluciones
I1
I2
I3
I4
I5
I6
...
I63 I64
FIGURA 3
Operacin gentica de recombinacin
Punto de cruce
Punto de cruce
Individuos
padres
1 1 0 0 1 0
...
1 1 0 1
0 0 1 0 1 1
...
1 0 0 0
Individuos
hijos
1 1 0 0 1 1
...
1 0 0 0
0 0 1 0 1 0
...
1 1 0 1
El siguiente paso es la seleccin de la funcin de fitness, que cuantifica la idoneidad de cada individuo como solucin al problema. Los individuos con un alto
valor de fitness tienen ms posibilidad de ser seleccionados, pasando su material
gentico (va reproduccin o recombinacin) a la siguiente generacin. La funcin
de fitness es quien impulsa la evolucin de la poblacin hacia una nueva generacin de individuos con una mayor idoneidad que los de la generacin anterior.
El individuo que represente la solucin ptima debera tener el mximo valor de
fitness dentro del espacio de las soluciones y las soluciones ptimas cercanas deberan tener valores de fitness cercanos. En el contexto del anlisis factorial no es
posible construir una funcin de fitness simple. Por el contrario, es necesario construirla como una funcin multi-objetivo considerando varios parmetros, como la
varianza explicada, correlaciones e interpretacin de los factores latentes.
1 k
F = c1 Var + c2 n ri2 + c3 Interp
i=1
Rev. Esp. Doc. Cient., 34, 2, abril-junio, 232-252, 2011. ISSN: 0210-0614. doi:10.3989/redc.2011.2.779
05_Rev_34_2_779.indd 241
(7)
241
06/05/11 10:44
M.
DEL
Varianza explicada (Var). Los resultados del anlisis factorial muestran la varianza explicada por los factores considerados (normalmente, el nmero de
factores viene dado por el nmero de autovalores de la matriz de correlacin
mayores que 1). Aunque la varianza explicada por el nmero seleccionado
de indicadores debera ser maximizado, no es sin embargo el nico parmetro a tener en cuenta. Una funcin de fitness que nicamente considere la
varianza explicada tender a la solucin trivial de considerar slo un indicador. Esto se debe al hecho de que es ms fcil explicar la varianza de un
conjunto de datos cuando est integrado por un nmero pequeos de ellos.
1 k
Correlaciones entre variables n ri2 . La media de la suma de los coefii=1
cientes de correlacin al cuadrado de los indicadores se usar como la segunda parte de la funcin de fitness. Este trmino considerado por s slo tambin
tendera a la solucin trivial de considerar el conjunto completo de los datos
de partida. Es la fuerza inversa a la parte previa de la funcin de fitness.
Interpretacin de factores. La tercera parte de la funcin de fitness se utiliza para penalizar a los factores con menos de tres indicadores. La razn de
elegir el valor de tres es porque los factores explicados con menos de tres
indicadores no se consideran bien definidos en la literatura (Rencher, 2002).
Esta parte de la funcin de fitness es la ms importante ya que promueve
un nmero reducido de factores con ms indicadores, mejorando la interpretacin final de los factores latentes.
Los coeficientes C1, C2, y C3 se usan para ajustar la importancia relativa de las
tres partes de la funcin de fitness. Obviamente, su rango es [0,1] con la restriccin
de C1 + C2 + C3 = 1. La decisin final para la aplicacin del AG se refiere a determinados parmetros previos a la ejecucin del algoritmo. La representacin del AG
puede ser sensible a ciertos valores de estos parmetros, particularmente al tamao
de la poblacin, la frecuencia de seleccin de operador y el criterio de finalizacin.
Por lo general, un alto valor para el tamao de poblacin ayuda a reducir esta
sensibilidad a los parmetros del AG. En este trabajo, el tamao de la poblacin
es igual a 10.000, y durante la ejecucin de mantiene un 20 % de tasa de reproduccin y un 80 % de tasa de recombinacin. El valor de 10.000 se considera un
valor adecuado para obtener suficiente riqueza de informacin. Estos valores son
tpicos en la literatura sobre AG (Goldberg, 1989: Martnez-Torres y Toral, 2010b).
4.
Resultados
La bsqueda gentica de las dimensiones latentes de portales web se ha aplicado a 80 portales web corporativos pertenecientes a Universidades espaolas.
Todos ellos estn incluidos en el Ranking mundial de Universidades en la Web
(www.webometrics.info), donde ms de 6.000 Universidades de todo el mundo
estn ordenadas segn el tamao y la visibilidad. En la lista de la tabla I se enu-
242
05_Rev_34_2_779.indd 242
Rev. Esp. Doc. Cient., 34, 2, abril-junio, 232-252, 2011. ISSN: 0210-0614. doi:10.3989/redc.2011.2.779
06/05/11 10:44
meran los dominios raz de los portales web considerados. Prcticamente cubren
casi todo el rango del ranking mundial de Universidades en la web y muestran
diversidad de tamaos en trminos de dominios y pginas web. La tabla II resume algunas estadsticas descriptivas. La primera columna muestra que en la extraccin de datos han sido considerados ms de 718.000 pginas web y ms de
cuatro millones de enlaces de salida. A ttulo ilustrativo, la figura 4 y la figura 5
muestran, respectivamente, la red de dominios y la red de pginas correspondientes al caso particular de la Universidad de Sevilla. La red de dominios es una
red en forma de estrella, en cuyo centro se sita el dominio raz (www.us.es), y
el resto de nodos est formado por todos los subdominios y dominios externos
referenciados desde cualquier pgina que cuelgue del dominio raz. La red de
pginas est formada por todas las pginas accesibles desde el nodo raz de la
Universidad de Sevilla, que suman un total de 11.455 pginas. La figura 5 ilustra
la dificultad de representar de una manera legible una red con un nmero de
nodos tan elevado, por lo que es preciso caracterizarlas mediante las medidas
definidas en la seccin 2.1. Por cada portal web de la tabla I se han sido extrado estas dos mismas redes: la red de dominios y la red de pginas.
TABLA I
Lista de los portales web considerados
www.ucm.es
portal.uned.es
www.ual.es
www.cef.es
www.upc.edu
www.uva.es
www.udl.es
www.uch.ceu.es
www.upm.es
www.upf.edu
www.ujaen.es
www.nebrija.com
www.uab.es
www.unav.es
www.umh.es
www.uic.es
www.ehu.es
www.uc3m.es
www.deusto.es
www.url.es
www.ub.edu
www.uniovi.es
www.unavarra.es
www.esdi.es
www.us.es
www.uma.es
www.upct.es
www.uax.es
www.upv.es
www.uco.es
www.upo.es
www.vives.org
www.um.es
www.ull.es
www.ie.edu
www.uimp.es
www.ugr.es
www.udc.es
www.upcomillas.es
www.ucjc.edu
www.ua.es
www.unex.es
www.ceu.es
www.ucv.es
www.uvigo.es
www.uah.es
www.iese.edu
www.uspceu.com
www.uv.es
www.uoc.edu
www.ubu.es
www.cesdonbosco.com
www.uam.es
www.udg.edu
www.urv.net
www.ufv.es
www.usal.es
www.ulpgc.es
www.unirioja.es
www.esic.es
www.uji.es
www.unican.es
www.uem.es
www.cepade.es
www.unizar.es
www.unileon.es
www.esade.edu
www.eoi.es/portal
www.usc.es
www.urjc.es
www.ucam.edu
www.esmuc.net
www.uib.es/ca
www.uca.es
www.mondragon.edu
www.udima.es
www.uclm.es
www.uhu.es
www.uvic.es
www.eupmt.es
Rev. Esp. Doc. Cient., 34, 2, abril-junio, 232-252, 2011. ISSN: 0210-0614. doi:10.3989/redc.2011.2.779
05_Rev_34_2_779.indd 243
243
06/05/11 10:44
M.
DEL
TABLA II
Estadsticas descriptivas de los 80 portales web considerados
Total
Subdominios
Dominios ext.
Pginas
Enlaces de salida
2.438
Media
SD
30,47
38,10
Mnimo
Mximo
180
30.500
381,25
580,32
3.623
718.272
8.978,40
15.334,01
110
122.930
4.429.231
55.365,38
73.290,17
435
445.368
Las caractersticas de la red social de la seccin 2.1 se han medido considerando en algunos casos la totalidad de la red y en otros casos las subredes excluyendo nodos con grado de salida (Outdegree) cero o subredes con k > 1 ncleos
(cores). Como resultado, un total de 64 indicadores han sido obtenidos.
FIGURA 4
Red dominante de la Universidad de Sevilla
FIGURA 5
Red de pginas de la Universidad de Sevilla
244
05_Rev_34_2_779.indd 244
Rev. Esp. Doc. Cient., 34, 2, abril-junio, 232-252, 2011. ISSN: 0210-0614. doi:10.3989/redc.2011.2.779
06/05/11 10:44
4.1.
I1
I2
I3
I4
I5
I7
I8
I9
I10
I11
I12
Dominios externos.
Grado medio.
Densidad.
Nmero de pginas.
Nmero de pginas en el ultimo nivel (profundidad 7).
Nmero de pginas sin retorno (excluyendo el ltimo
nivel).
Desviacin tpica del grado de salida..
Nmero de componentes Fuertes (Strong Components).
% de pginas incluidas en los componentes fuertes.
K-cores que incluye el mximo nmero de pginas.
Valor Medio de centralidad cercana.
Desviacin tpica de centralidad cercana.
I13
Nmero de pginas.
I6
Red
Red
Red
Red
Red
Red
de
de
de
de
de
dominios.
dominios.
dominios.
pginas.
pginas.
Red de pginas.
Red de pginas.
Red de pginas.
Red de pginas.
Red de pginas.
Red de pginas.
Red de pginas.
Red de pginas excluyendo
grado de salida = 0.
Rev. Esp. Doc. Cient., 34, 2, abril-junio, 232-252, 2011. ISSN: 0210-0614. doi:10.3989/redc.2011.2.779
05_Rev_34_2_779.indd 245
245
06/05/11 10:44
M.
DEL
I14
I15
Red
Centralizacin de intermediacin.
Desviacin tpica de la densidad egocntrica.
Valor medio de la centralizacin de intermediacin de
los nodos.
Desviacin tpica de la centralizacin de intermediacin
de los nodos.
Valor medio de densidad egocntrica.
Valor medio de la centralizacin de intermediacin de
los nodos.
I16
I17
I18
I19
I20
I21
I22
I23
I24
I25
Red de pginas.
Red de pginas.
Red de pginas, k-core, k > 0.
Red de pginas, k-core, k > 0.
Red de pginas, k-core, k > 0.
Red de pginas excluyendo
grado de salida = 0.
Red de pginas excluyendo
grado de salida = 0.
Red de pginas excluyendo
grado de salida = 0.
Red de pginas excluyendo
grado de salida = 0.
Red de pginas.
Red de pginas.
Red de pginas excluyendo
grado de salida = 0.
1
2
3
4
5
6
7
...
25
246
05_Rev_34_2_779.indd 246
Valores propios
Valor
% varianza
% acumulativo
7,990
3,852
2,911
1,857
1,656
1,010
0,833
...
0,007
31,962
15,407
11,646
7,427
6,624
4,039
3,333
...
0,029
31,962
47,369
59,015
66,442
73,065
77,104
80,437
...
100,000
Rev. Esp. Doc. Cient., 34, 2, abril-junio, 232-252, 2011. ISSN: 0210-0614. doi:10.3989/redc.2011.2.779
06/05/11 10:44
Rev. Esp. Doc. Cient., 34, 2, abril-junio, 232-252, 2011. ISSN: 0210-0614. doi:10.3989/redc.2011.2.779
05_Rev_34_2_779.indd 247
247
06/05/11 10:44
M.
DEL
permite que los visitantes puedan navegar de una forma mucho ms libres, tambin
es a costa de una mayor complejidad para encontrar la informacin requerida.
El factor 5 representa los sitios web ms pequeos, donde una gran cantidad
de informacin se proporciona usando referencias externas a otros sitios web o
a subdominios. Esta idea se sustenta por el alto valor de pginas de no retorno,
excluyendo las pginas localizadas en el ltimo nivel, as como por el elevado
valor de dominios externos y subdominios. Las pginas que cuelgan del dominio
raz se encuentran altamente interconectadas, figura 6.e).
Finalmente, el factor 6 representa portales web con una estructura dominada
por una subred, que contiene la informacin ms relevante. El alto valor del indicador I10, relacionado con los k-ncleos, sugiere una estructura como la representada en la figura 6.f). Un k-ncleo se caracteriza por identificar una subred
en la que todo los nodos poseen al menos un grado k. Esta subred constituye
el ncleo base del portal.
FIGURA 6
Representacin simblica de los portales web identificados
A
A
B
B
a) Factor 1
b ) Factor 2
c) Factor 3
d) Factor 4
Dominant subnetwork
(k-core)
e) Factor 5
248
05_Rev_34_2_779.indd 248
f ) Factor 6
Rev. Esp. Doc. Cient., 34, 2, abril-junio, 232-252, 2011. ISSN: 0210-0614. doi:10.3989/redc.2011.2.779
06/05/11 10:44
TABLA V
Factores identificados
Descripcin
I2
F1
F3
F4
F5
F6
Loading
0,724
I16
0,903
I17
0,884
I19
0,839
I23
0,703
I25
0,746
I9
F2
Grado medio.
0,722
I11
0,924
I12
0,718
I14
Centralizacin de intermediacin.
0,826
I24
0,578
I15
0,763
I18
0,895
I20
0,875
I4
0,900
I5
0,928
I13
0,661
I21
0,510
I1
Dominios externos.
0,852
I6
0,647
I8
0,831
I7
0,786
I10
0,633
I22
0,635
Bsicamente, los perfiles identificados en las estructuras de portales web responden a dos estrategias bsicas a la hora de decidir su estructura final (Tan y
Wei, 2006). La primera estrategia consiste en ofrecer una estructura que tenga
sentido para el usuario final. En este sentido, los portales web sacrifican la accesibilidad de la informacin en busca de un esquema de navegacin ms es-
Rev. Esp. Doc. Cient., 34, 2, abril-junio, 232-252, 2011. ISSN: 0210-0614. doi:10.3989/redc.2011.2.779
05_Rev_34_2_779.indd 249
249
06/05/11 10:44
M.
DEL
5.
Conclusin
Este trabajo ha desarrollado un sistema experto para la seleccin de indicadores en la realizacin de anlisis factoriales exploratorios, que posteriormente
se ha aplicado a la identificacin de las estructuras de enlaces de portales web
considerando dichos portales como redes sociales. El uso de tcnicas de computacin evolutiva como los algoritmos genticos permite realizar una bsqueda
guiada sobre el espacio total de soluciones, simplificando extraordinariamente el
tiempo de computacin respecto a la alternativa de evaluar el conjunto de todas
las soluciones posibles (que en muchos casos, como en el descrito en el artculo,
resultara prohibitiva). El resultado de dicha bsqueda se caracteriza por proporcionar una solucin interpretable y capaz de explicar un valor elevado de la
varianza de los datos de partida. Su aplicacin a la identificacin de los patrones
estructurales de portales web corporativos universitarios proporciona resultados
no slo acordes con lo descrito en la literatura sino que amplan y detallan patrones no considerados previamente. Asimismo, se relacionan con los conceptos
de navegabilidad y accesibilidad, identificados como parmetros evaluables en
portales web. Aunque el estudio se limita a los portales web de Universidades
espaolas, constituyen una muestra lo bastante rica dentro del ranking mundial
de Universidades en la web. Este estudio podra extenderse a otros portales web
institucionales para validar los resultados obtenido
250
05_Rev_34_2_779.indd 250
Rev. Esp. Doc. Cient., 34, 2, abril-junio, 232-252, 2011. ISSN: 0210-0614. doi:10.3989/redc.2011.2.779
06/05/11 10:44
6.
Agradecimientos
7.
Bibliografa
Almind, T. C., y Ingwersen, P. (1997). Informetric analyses on the World Wide Web: Methodological approaches to Webometrics, Journal of Documentation, vol. 53 (4),
pp. 404-426.
Almpanidis, G.; Kotropoulo, C., y Pitas, I. (2007). Combining text and link analysis for
focused crawling. An application for vertical search engines, Information Systems, vol. 32,
pp. 886-908.
Baeza-Yates, R., y Castillo, C. (2007). Characterization of national web domains, ACM
Transactions on Internet Technology, vol. 7 (2), pp. 1-32.
Berlt, K.; Silva de Moura, E.; Carvalho, A.; Cristo, M.; Ziviani, N., y Couto, T. (2010). Modeling the web as a hypergraph to compute page reputation, Information Systems,
vol. 35 (5), pp. 530-543.
Bjrneborn, L., y Ingwersen, P. (2004). Toward a basic framework for webometrics, Journal of the American Society for Information Science and Technology, vol. 55 (14),
pp. 1216-27.
Faba-Prez, C.; Zapico-Alonso, F.; Guerrero-Bote, V. P., y de Moya-Anegn, F. (2005). Comparative analysis of webometric measurements in thematic environments, Journal of
the American Society for Information Science and Technology, vol. 56 (8), pp. 779-785.
Goldberg, D. A. (1989). Genetic Algorithm-in Search, Optimization and Machine Learning,
Addison-Wesley Publishing Company, Inc.
Goldfarb, A. (2006). The (teaching) role of universities in the diffusion of the Internet,
International Journal of Industrial Organization, vol. 24 (2), pp. 203-225.
Holland, J. (1975). Adaptation in Natural and Artificial Systems, University of Michigan
Press, Ann Arbor, MI.
Huizingh, E. K. (2000). The content and design of web sites: an empirical study, Information & Management, vol. 37 (3), pp. 123-134.
Iacobucci, D. (1994). Graphs and matrices. En: Wasserman, S. y Faust, K. (eds.), Social
network analysis-methods and applications. New York, NY: Cambridge University
Press, pp. 92-166.
Martnez Torres, M. R., y Toral, S. L. (2010a). International Comparison of R&D Investment
By European, US and Japanese Companies, International Journal of Technology Management, vol. 49 (1-2-3), pp. 107-122.
Martnez-Torres, M. R., y Toral, S. L. (2010b). Strategic group identification using evolutionary computation, Expert Systems with Applications, vol. 37 (7), pp. 4.948-4.954.
Martnez-Torres, M. R.; Toral, S. L.; Barrero, F., y Corts, F. (2010). The role of Internet in
the development of Future Software Projects, Internet Research, vol. 20 (1), pp. 72-86.
Rev. Esp. Doc. Cient., 34, 2, abril-junio, 232-252, 2011. ISSN: 0210-0614. doi:10.3989/redc.2011.2.779
05_Rev_34_2_779.indd 251
251
06/05/11 10:44
M.
DEL
252
05_Rev_34_2_779.indd 252
Rev. Esp. Doc. Cient., 34, 2, abril-junio, 232-252, 2011. ISSN: 0210-0614. doi:10.3989/redc.2011.2.779
06/05/11 10:44