Você está na página 1de 21

ANÁLISIS COMPARATIVO 

DEL USO DE MEMORIA EN 
LINUX Y WINDOWS

Miguel Sánchez de León Peque    07414
Antón Kalinov Iliev    07229
Estadística, ETSI Industriales, Universidad Politécnica de Madrid
Enero de 2009
ANÁLISIS COMPARATIVO DEL USO DE MEMORIA ENTRE LOS SISTEMAS
OPERATIVOS LINUX Y WINDOWS

1. LA IDEA 1

2. LOS DATOS 2

3. ANÁLISIS 5

3.1 Diagnosis 5
3.2 Modelo de estudio 8
3.3 Definición de un nuevo modelo; análisis de resultados 9

4. CONCLUSIÓN 15

5. AGRADECIMIENTOS 16

Anexo: Dónde encontrar el archivo de datos original y el utilizado en el estudio 17


1. LA IDEA

La nuestra, como muchas otras “grandes ideas”, comenzó en la servilleta de una cafetería.
Debíamos encontrar un tema para nuestro trabajo de estadística y pensábamos en algo actual,
interesante y nuevo. Seguro que a muchos usuarios de Linux la batalla entre el software libre y el
propietario no les parece nada nuevo, pero para aquellos que no sepan muy bien de qué va el asunto
y por qué hemos decidido tratar este tema, daremos una pequeña explicación de lo que es el
fantástico mundo del software libre.

Software libre es como denominamos a una clase de programas no sólo gratuitos, sino
abiertos al público para que éste los revise, modifique y distribuya libremente (eso sí, siempre
ajustándose a unas licencias del software libre que tienen sus características distintivas). De modo
más preciso, se refiere a cuatro libertades que se otorgan a los usuarios del software:

• la libertad de usar el programa, con cualquier propósito


• la libertad de estudiar el funcionamiento del programa y adaptarlo a las necesidades
• la libertad de distribuir copias
• la libertad de mejorar el programa y hacer públicas las mejoras, de modo que toda la
comunidad se beneficie.

Es todo un fenómeno cultural, pues cada vez más gente utiliza y/o elabora este tipo de
software, que muchas veces no es sólo igual sino mejor que sus alternativas comerciales.

Mucho se puede hablar de los orígenes del software libre, pero realmente la popularización
de esta ideología tuvo lugar a la par que la revolución de internet, lo cual tiene sentido, pues internet
lo que hizo y sigue haciendo es promover la libertad de expresión, algo muy relacionado con las
ideas detrás del software libre.

En los años 60 y 70 del siglo XX, antes del gran boom que experimentó la informática, en
ambientes universitarios y empresariales, que eran los que tenían acceso a las computadoras de la
época, era común que los programadores compartieran libremente sus programas. Sin embargo, con
la llegada de los años 80, la situación cambió radicalmente. Surgieron y crecieron empresas de
software que forzaron a los usuarios a aceptar condiciones restrictivas del uso de software. Se
negaban a proporcionar el código fuente (es decir, el archivo que contiene las instrucciones que
sigue un programa y que revela el funcionamiento del mismo), con lo cual nadie podía mejorar un
programa a pesar de estar capacitado y motivado para hacerlo. Así se inició el movimiento que
buscaba la creación de software libre para todos, una idea algo romántica, pero que ha ido cogiendo
fuerza y asentándose con el paso del tiempo.

Las motivaciones detrás del movimiento del software libre son:

• La motivación ética: que argumenta que el software es conocimiento y debe poderse


difundir sin trabas. Su ocultación es una actitud antisocial y la posibilidad de modificar
programas es una forma de libertad de expresión.
• La motivación pragmática, que argumenta ventajas técnicas y económicas.

No es oportuno hablar del software libre sin mencionar Linux, un sistema operativo creado
con esa mentalidad. Gente capaz e inconformista ha hecho posible que desde sus inicios cuando
Linus Torvalds, un estudiante de la universidad de Helsinki, empezó a promover un proyecto que
trataba de realizar una mejora sobre un sistema basado en Unix, se convirtiera en una fuerte

1
comunidad con millones de usuarios en todo el mundo. Se acabó por desarrollar un sistema
operativo completamente diferente, nuevo y de libre distribución que hiciera competencia a los
sistemas Windows.

Desde entonces no ha dejado de evolucionar y ahora Linux tiene un lugar clave en las filas
del software libre en su lucha contra el monopolio de Microsoft y, en menor proporción, el resto de
los sistemas operativos comerciales como Mac OSX.

En los últimos años, el uso de Linux ha incrementado en cifras importantes y la tendencia


es que siga siendo así. Muchos gobiernos, universidades y entornos empresariales han descubierto
las ventajas no sólo económicas sino de rendimiento que puede proporcionar Linux.

Hoy en día disponemos de una gran variedad de distribuciones de Linux, lideradas por
diferentes grupos de trabajo o asociaciones, pudiendo escoger de entre todas ellas la que mejor se
adapte a nuestras necesidades o gustos personales. Cada distribución sigue su propia filosofía, pero
compartiendo el mismo espíritu y los logros realizados.

Sabiendo ya qué estamos tratando y las diferencias entre el software libre y el propietario, la
pregunta que muchos nos hacemos es ¿qué es mejor?. Lo cierto es que es una pregunta complicada,
ya que para llegar a una respuesta habría que analizar muchos factores (algunos de ellos subjetivos),
por lo que no podríamos llegar a una solución que satisficiera a todos. Por eso en nuestro caso
hemos escogido analizar un aspecto comparable de forma objetiva entre los dos sistemas
operativos: el consumo de memoria “base”, es decir, excluyendo el consumo de memoria que hacen
las aplicaciones que no corren por defecto al arrancar el ordenador (procesos del sistema,
antivirus...). Con esto no nos referimos al consumo mínimo posible para que funcione nuestro
sistema operativo, sino al consumo permanente (al que hemos llamado “base”), que permanece
desde un principio y mientras realizamos cualquier actividad con nuestro ordenador.

Escogimos cuatro actores que consideramos podían ser influyentes en la variable respuesta
“consumo de memoria base”:

• Sistema operativo (Linux // Windows)


• Antigüedad del sistema operativo (2007 o posterior // anterior al 2007)
• Memoria RAM total
• Memoria virtual total

2. LOS DATOS

Una vez teníamos clara nuestra idea, debíamos pensar en cómo íbamos a recoger los datos.
Lo primero que pensamos fue hacerlo vía correo electrónico, con mensajes en cadena, pero era
complicado conseguir que la gente respondiera a estos correos y, sobre todo, era difícil la gestión de
todos los datos con este método. La solución fue realizar una encuesta en lenguaje HTML y
colgarla en los servidores de la escuela para que estuvieran accesibles y resultase más cómodo
responder a las preguntas que en ella se planteaban.

Realizamos un modelo de encuesta para cada sistema operativo:

http://wiki.dii.etsii.upm.es/etsii/windows.html (para usuarios de Windows)


http://wiki.dii.etsii.upm.es/etsii/linux.html (para usuarios de Linux)

2
Ambas tenían una estructura similar, en la que se pedía al usuario que introdujese los
siguientes datos:

⁻ Antigüedad de su sistema operativo


⁻ Tamaño de la memoria RAM del equipo
⁻ Tamaño del archivo de paginación / SWAP / memoria virtual
⁻ Consumo de memoria RAM (o disponible en el caso de Windows, por facilitar la tarea al
usuario)
⁻ Consumo de memoria virtual
⁻ Memoria usada por el navegador de internet
⁻ Memoria usada por la aplicación de monitorización de recursos del sistema

Además, y aunque no utilicemos estos datos en nuestro estudio, en la encuesta para usuarios
de Linux pedimos que se seleccione de una lista:

⁻ Distribución de Linux (Debian, Fedora, Mandriva, Suse, Ubuntu, otra)


⁻ Escritorio (GNOME, KDE, XFCE, otro)

De esta forma estos datos estarían disponibles para, por ejemplo, hacer un estudio del
consumo de memoria dentro de las diferentes distribuciones de Linux o los diferentes escritorios.

Con esta encuesta, podíamos disponer de todos los datos necesarios para realizar nuestro
estudio: los cuatro factores de forma directa (el sistema operativo, su antigüedad y la memoria
RAM y virtual totales) y la variable respuesta, calculada restando al consumo total de memoria
(consumo de la memoria RAM + consumo de la memoria virtual) la memoria consumida por las
dos aplicaciones abiertas (el navegador de internet y la aplicación de monitorización de recursos del
sistema). Por supuesto, la encuesta incluye comentarios con todas las instrucciones para rellenarla
de forma correcta y asegurarnos que el encuestado no se olvidaba de, por ejemplo, cerrar
aplicaciones que tuviese abiertas como el reproductor de música o el cliente de mensajería
instantánea.

Teniendo el diseño de la encuesta sólo faltaba encontrar el método para lograr almacenar y
organizar todos los datos de forma sencilla y compacta. Para ello, utilizamos en la encuesta un
script en PHP llamado “apgForm 1.7”, que traduce los resultados de una encuesta o formulario a un
formato de hoja de cálculo.

El día 19 de diciembre de 2008, colgamos en el servidor la primera versión de la encuesta y


lo anunciamos vía correo electrónico a personas cercanas. Con el paso de los días, vimos los errores
que tenía la encuesta (principalmente por falta de explicaciones para rellenarla correctamente), así
que realizamos un nuevo modelo que colgamos el día 29 (cuando habíamos recibido 75 datos). Tras
hacerlo, nos pusimos a publicitarla en diferentes sitios, como los foros de las principales
distribuciones de Linux, algunos de Windows y otros foros poco relacionados con la informática
pero con gran participación de personas.

A día 9 de enero de 2009 y tras sólo 11 días desde la publicación de la nueva encuesta,
comenzamos a purgar los 1573 datos que teníamos para comenzar el estudio con una muestra que
ya consideramos sería significativa.

3
Para “limpiar” estos datos debíamos, antes de nada, eliminar aquellas encuestas que
estuvieran incompletas, cosa que no fue difícil teniendo los datos en una hoja de cálculo. Lo
segundo que teníamos que hacer era procesar los datos numéricos. Estos datos tenían un formato
muy dispar: había quien respondía en MB y quien lo hacía en KB o GB (a pesar de nuestra expresa
petición de hacerlo en MB), había quien ponía puntos para indicar la separación entre las centenas y
los millares y quien lo hacía para indicar la separación entre las cifras enteras y los decimales, quien
utilizaba la coma para hacer esta separación y quien ponía alguna explicación o comentario en el
resultado. La idea de depurar los datos uno por uno fue descartada inmediatamente, así que
decidimos realizar un programa que lo hiciese lo mejor posible.

El programa fue escrito en Pascal (muy cómodo para manejar archivos y conjuntos) y
realizaba un proceso muy sencillo. En primer lugar, debíamos copiar las columnas de datos
numéricos a un archivo nuevo y guardarlo como tipo texto (.txt) para poder manejarlo con facilidad.
Puesto que esta tabla sólo debían aparecer datos numéricos, el algoritmo del programa era el
siguiente:

1. Realizaba una copia del archivo original exceptuando caracteres no numéricos, signos de
puntuación y los caracteres 'g' o 'G' (que permanecerían en los pocos datos que tuvieran la
indicación de GB tras la cifra numérica).
2. Realizaba otra copia de este archivo. En este caso realizaba la siguiente comprobación: si se
encontraba un signo de puntuación:
a) Si los tres caracteres siguientes son numéricos entonces no copia el signo de
puntuación (interpretamos que se trata de una separación entre las centenas y los
millares).
b) Si no ocurre esto, interpreta que se trata de un carácter de separación entre las cifras
enteras y decimales para programas configurados en castellano (escribe en el archivo
una coma ','). Debemos recordar que entre dato y dato existe un carácter de
tabulación o un salto de línea.

Con este sencillo algoritmo, conseguimos tener los datos casi a punto. Los copiamos de
nuevo a la tabla original y los ordenamos para que tengamos agrupados los datos que no sean de
tipo numérico en las columnas en las que debieran serlo. De esta forma, terminamos la limpieza
añadiendo tres ceros en los pocos datos que tenemos que tienen una G (de GB) al final, y borramos
la G.

Nos queda por hacer dos comprobaciones: unidades e incoherencias.

₋ Para la primera hemos supuesto que no puede haber diferencias de tres órdenes de magnitud
entre datos de la misma clase (ej.: un ordenador con 64MB de RAM y otro con 64GB), de
esta forma con la hoja de cálculo realizamos una sencilla operación lógica: si pasa de un un
límite que establezcamos, dividimos la cifra entre 1000 porque estará en KB, si no, dejamos
la cifra como está.
₋ La segunda comprobación también es sencilla manejando la hoja de cálculo: consiste en
comprobar incoherencias del tipo “el ordenador consume más memoria de la que dispone”
(aplicado a la RAM y la memoria virtual). Debemos tener en cuenta que los datos de
Windows representaban la memoria RAM disponible, luego tenemos que crear una columna
de datos resultante de la diferencia entre la memoria RAM total y la disponible para saber
cuánta memoria está consumiendo.

4
Ahora ya disponemos de una tabla de datos limpia y coherente, pero nos queda una cosa más
que hacer: eliminar las respuestas claramente incorrectas. Para eso ordenamos columna por
columna los datos y vemos qué valores extremos podemos considerar incorrectos, como quien dice
tener (respuesta textual) 545446465559999987777777888888888888888888888888899999999777777
de memoria RAM o quien responde a todo 0.

Tras realizar esta limpieza, descubrimos que nos quedaban de los 1573 datos originales,
1102. Lo cierto es que entraba dentro de nuestras previsiones, pues pensábamos analizar en torno a
1000 datos.

3. ANÁLISIS

Para realizar el estudio, utilizaremos el programa Statgraphics. Para comenzar, importamos


la tabla de datos. Una vez hecho esto, seleccionamos la opción de ANOVA factorial en la pestaña
de comparación, sección de análisis de la varianza. De esta forma realizaremos un análisis del
modelo para múltiples factores.

Puesto que no estamos realizando un estudio de regresión, clasificamos los factores “RAM”
y “memoria virtual” en distintos niveles (dos en nuestro caso):

• RAM: nivel 1, <= 1024 MB nivel 2, > 1024 MB


• Virtual: nivel 1, <= 1535 MB nivel 2, > 1535 MB

El no realizar más divisiones en cada factor es debido a la dificultad para encontrar datos
que correspondan, por ejemplo, al tratamiento de mucha memoria RAM y poca memoria virtual.
Seleccionamos entonces como variable dependiente o variable respuesta el consumo de memoria
base y como factores: el sistema operativo (Windows // Linux), la antigüedad (new: del 2007 o
posterior // med: anterior al año 2007), la RAM (1: <= 1024 MB // 2: > 1024 MB) y la memoria
virtual (1: <= 1535 MB // 2: > 1535 MB). Es importante tener claro estas clasificaciones para
comprender bien el análisis. La distinción en la antigüedad del sistema operativo supone, en el caso
de Windows, la división entre la versión Vista y XP.

Al disponer de cuatro factores, deberemos analizar la influencia de todos ellos como factores
principales y también la influencia de las interacciones: de segundo orden (combinaciones de dos
factores), de tercero (de tres) y de cuarto orden.

Teniendo un modelo desequilibrado como el nuestro (en el que no disponemos del mismo
número de réplicas por cada cruce) y además de más de tres factores, no mencionaremos gran parte
de la base matemática del estudio, por su carácter poco didáctico.

3.1 Diagnosis

Para poder realizar los contrastes necesarios, es preciso que nuestros datos cumplan ciertos
requisitos: han de ser normales (ajustados a una distribución normal), homocedásticos (han de tener
la misma varianza) e independientes. Para ello, realizaremos las pruebas con los residuos generados
a partir de los datos.

Como primer paso, analizaremos la homocedasticidad. Al generar el análisis factorial con


Statgraphics, obtenemos un gráfico que representa los residuos frente a predicho:

5
Gráfico de Residuos para Cons_mem
4800

2800

residuo 800

-1200

-3200
0 1 2 3 4 5 6
(X 1000)
Cons_mem predicho

Podemos observar una clara heterocedasticidad, que requerirá de una transformación de los
datos. Elegiremos la transformación logarítmica (logaritmo neperiano), con lo que obtenemos el
siguiente gráfico de residuos frente a predicho o valores previstos (que corresponden a la media del
tratamiento):

Gráfico de Residuos para log[cons]


2,4

1,4
residuo

0,4

-0,6

-1,6
4,4 5,4 6,4 7,4 8,4 9,4
log[cons] predicho

Vemos que los datos ahora pueden perfectamente considerarse homocedásticos. Además
debemos estudiar los gráficos de residuos por tratamientos, verificando que el ancho máximo entre
el mínimo sea menor que tres. En nuestro caso, se cumple perfectamente, por lo que no será
necesario realizar un contraste formal (como el contraste de Bartlett):

Gráfico de Residuos para log[cons] Gráfico de Residuos para log[cons]


2,4 2,4

1,4 1,4
residuo

residuo

0,4 0,4

-0,6 -0,6

-1,6
-1,6
med new
Linux Windows
Antiguedad
SO

6
Gráfico de Residuos para log[cons] Gráfico de Residuos para log[cons]
2,4 2,4

1,4 1,4

residuo
residuo

0,4 0,4

-0,6 -0,6

-1,6 -1,6
1 2 1 2

RAM SWAP

El gráfico de residuos frente a número de fila, debido al carácter completamente aleatorio de


recogida de datos en nuestra muestra, no es significativo en nuestro estudio y no presenta ningún
inconveniente (consideraremos independiente la muestra):

Gráfico de Residuos para log[cons]


2,4

1,4
residuo

0,4

-0,6

-1,6
0 200 400 600 800 1000 1200
número de fila

Debemos comprobar por último la normalidad de los residuos. Para ello, intentamos realizar
un ajuste de los residuos a una normal. El resultado gráfico que obtenemos es el siguiente:

Histograma para RESIDUALS


300
frecuencia

250
200
150
100
50
0
-2 -1 0 1 2
RESIDUALS

Aunque aparentemente se ajuste bastante bien a una distribución normal, nos vemos
obligados a escoger el contraste de Kolmogorov Smirnoff, con el que obtenemos un p_valor de
0'0514667 (mayor que los niveles de significación normales: α <= 0,05), lo que nos lleva a aceptar
la hipótesis nula de normalidad. El contraste de la chi-cuadrado (más “exigente” que el de

7
Kolmogorov) proporciona un p_valor más bajo debido al ajuste imperfecto de los residuos, como
podemos observar en el gráfico cuantil-cuantil:

Tras realizar esta diagnosis, llegamos a la conclusión de que podremos considerar nuestros
residuos como normales, independientes y homocedásticos, lo que nos lleva a dar el siguiente paso
en nuestro estudio.

3.2 Modelo de estudio

Con lo realizado hasta ahora, podemos comenzar a analizar nuestra muestra y someterla a
análisis de la varianza para ver qué factores podemos considerar significativos y, en su caso,
estudiar sus correspondientes intervalos de diferencia de medias, etc.

Statgraphics realiza los cálculos correspondientes y nos proporciona la siguiente salida para
el análisis de la varianza (recordamos que el análisis es sobre el logaritmo del consumo de memoria,
porque sin esta transformación, no se cumple la diagnosis).

Análisis de la Varianza paralog[cons] - Sumas de Cuadrados de Tipo III


--------------------------------------------------------------------------------
Fuente Suma de cuadrados GL Cuadrado Medio Cociente-F P-Valor
--------------------------------------------------------------------------------
EFECTOS PRINCIPALES
A:SO 83,3952 1 83,3952 556,22 0,0000
B:Antiguedad 10,444 1 10,444 69,66 0,0000
C:RAM 9,40861 1 9,40861 62,75 0,0000
D:SWAP 0,235689 1 0,235689 1,57 0,2099

INTERACCIONES
AB 9,46728 1 9,46728 63,14 0,0000
AC 2,28094 1 2,28094 15,21 0,0001
AD 0,532683 1 0,532683 3,55 0,0594
BC 1,24968 1 1,24968 8,34 0,0039
BD 0,533737 1 0,533737 3,56 0,0592
CD 0,432332 1 0,432332 2,88 0,0895
ABC 1,315 1 1,315 8,77 0,0031
ABD 0,000893377 1 0,000893377 0,01 0,9385
ACD 0,0455596 1 0,0455596 0,30 0,5815
BCD 0,0400639 1 0,0400639 0,27 0,6052
ABCD 0,0152064 1 0,0152064 0,10 0,7501

RESIDUOS 162,825 1086 0,149931


--------------------------------------------------------------------------------
TOTAL (CORREGIDO) 490,555 1101
--------------------------------------------------------------------------------

Vemos que todos los datos señalados en negrita poseen un p_valor mayor que los niveles de
significación usuales, lo que nos lleva a no poder rechazar la hipótesis nula de igualdad de medias.
Con esto podemos sacar una primera conclusión: la SWAP (o memoria virtual) no es significativa
ni como factor principal ni como interacción. Gracias a esto podemos eliminar este factor de nuestro
estudio, al no influir significativamente en los resultados.

8
3.3 Definición de un nuevo modelo; análisis de resultados

Con lo realizado hasta ahora, nos encontramos con que estamos estudiando un modelo con
tres factores (S.O., antigüedad y RAM) y que la variable respuesta es el logaritmo de la memoria
consumida por el ordenador. El resumen del procedimiento y la tabla de análisis de la varianza
quedan ahora de la siguiente forma:

Resumen del Procedimiento

Variable dependiente: log[cons]


Factores:
SO
Antiguedad
RAM
Número de casos completos: 1102

Análisis de la Varianza para log[cons] - Sumas de Cuadrados de Tipo III


--------------------------------------------------------------------------------
Fuente Suma de cuadrados GL Cuadrado Medio Cociente-F P-Valor
--------------------------------------------------------------------------------
EFECTOS PRINCIPALES
A:SO 114,705 1 114,705 750,46 0,0000
B:Antiguedad 14,7867 1 14,7867 96,74 0,0000
C:RAM 13,429 1 13,429 87,86 0,0000

INTERACCIONES
AB 12,1185 1 12,1185 79,29 0,0000
AC 2,06192 1 2,06192 13,49 0,0002
BC 0,872607 1 0,872607 5,71 0,0169
ABC 1,5139 1 1,5139 9,90 0,0016

RESIDUOS 167,213 1094 0,152846


--------------------------------------------------------------------------------
TOTAL (CORREGIDO) 490,555 1101
--------------------------------------------------------------------------------

Con esta nueva tabla, casi todos los factores son significativos para cualquiera de los niveles
de significación más utilizados. Nosotros consideraremos α = 0'05, así que tomaremos todos los
factores e interacciones como significativos.

La primera gráfica que nos llama la atención es la que representa el consumo de memoria
(aplicándole la transformación logarítmica) frente al sistema operativo:

9
Medias y 95,0 Porcentajes Intervalos LSD
7,4

7,1

log[cons]
6,8

6,5

6,2

5,9
Linux Windows
SO

con su correspondiente análisis formal:

Contraste Múltiple de Rangos para log[cons] según SO

--------------------------------------------------------------------------------
Método: 95,0 porcentaje LSD
SO Recuento Media LS Sigma LS Grupos Homogéneos
--------------------------------------------------------------------------------
Linux 670 5,96343 0,023359 X
Windows 432 7,19806 0,0385424 X
--------------------------------------------------------------------------------
Contraste Diferencias +/- Límites
--------------------------------------------------------------------------------
Linux - Windows *-1,23463 0,0883325
--------------------------------------------------------------------------------
• indica una diferencia significativa.

** De ahora en adelante entenderemos siempre (tanto en los gráficos como en los análisis
formales) que estamos tratando con intervalos LSD para un intervalo de confianza del 95%.

Con este gráfico podemos asegurar que el sistema operativo Windows consume más
memoria (con una diferencia más que significativa) que Linux. El recuento representa el número de
datos de que disponemos en cada factor. Debemos tener en cuenta que para calcular el consumo
medio real de memoria no podemos simplemente tomar la exponencial de las medias:

log y 1   ...  log y n 


= media logarítmica
n
1
log  y 1⋅... ⋅y n  n
Tomando exponenciales : e = e media logarítmica

De donde : n y 1⋅...⋅y n = e
media logarítmica
= media geométrica

Vemos que de esta forma obtenemos la media geométrica de los datos y no la aritmética,
que será siempre igual o superior (estaríamos calculando una media de consumo inferior a la real).
Para alcanzar el verdadero valor de la media, analizaremos la muestra sin transformaciones
(mostraremos la tabla de medias con los verdaderos valores más adelante).

10
Podemos ver también las diferencias de medias que existen para los otros dos factores. Los
interpretaremos sin recurrir a un análisis formal:

Medias y 95,0 Porcentajes Intervalos LSD Medias y 95,0 Porcentajes Intervalos LSD
6,9 6,9
6,8 6,8

log[cons]
log[cons]

6,7 6,7

6,6 6,6
6,5 6,5
6,4 6,4
6,3 6,3
med new 1 2
Antiguedad RAM

Vemos que un sistema operativo tiende a consumir más memoria si dispone de ella (gráfico
de la derecha) y que los nuevos sistemas operativos consumen más memoria que los antiguos
(gráfico de la izquierda). Sin embargo estas conclusiones son un tanto imprecisas y poco resolutivas
teniendo en cuenta el tema que nos atañe, que es la diferenciación de los dos sistemas operativos.
Por ello pasaremos a la interpretación de los gráficos de interacción (que representan los resultados
del análisis en función de dos de los factores). La siguiente imagen representa el consumo de
memoria en función de la antigüedad del sistema operativo y de la memoria RAM de la que
dispongamos:

Interacciones y 95,0 Porcentajes Intervalos LSD


7,3 RAM
1
7,1 2
log[cons]

6,9

6,7
6,5
6,3
6,1
med new
Antiguedad

Con este gráfico podemos sacar las siguientes conclusiones: un sistema operativo consume
menos memoria si es anterior al 2007 y dispone de menos de 1025 MB de RAM; en cambio, el
máximo consumo se alcanza para aquellos sistemas operativos más actuales y que dispongan de
más memoria. Observamos también que, por producirse un solapamiento en los intervalos LSD, no
podemos afirmar que exista una diferencia significativa entre el consumo de memoria de los
sistemas operativos con más memoria y más antiguos y los más modernos y con menos memoria
RAM.

A continuación analizaremos un gráfico que quizás resulte más representativo, pues en él ya


se ven reflejadas las diferencias entre los dos sistemas operativos que analizamos. Se trata de la

11
comparación del consumo de memoria en función del sistema operativo y la memoria RAM del
equipo:

Interacciones y 95,0 Porcentajes Intervalos LSD


7,7 RAM
1
7,3 2
log[cons]

6,9

6,5

6,1

5,7
Linux Windows
SO

Como se puede observar a primera vista, sea cual sea el tamaño de la memoria RAM, Linux
optimiza mejor los recursos del sistema. Aún así observamos una tendencia común a aumentar el
consumo de recursos al disponer de más memoria; eso sí, este aumento resulta ser más exagerado
para el caso del sistema operativo Windows (recordemos que estamos representando el logaritmo
del consumo de la memoria y, por tanto, las diferencias que observamos en el gráfico son más
notorias cuanto mayor sea el logaritmo del consumo). Es posible que veamos más clara esta
diferencia en el siguiente gráfico (que representa también el logaritmo de la variable respuesta):

Interacciones y 95,0 Porcentajes Intervalos LSD


7,7 SO
Linux
7,3 Windows
log[cons]

6,9

6,5

6,1

5,7
1 2
RAM

A continuación examinaremos el gráfico más relevante o llamativo, en el que se representa


el logaritmo del consumo en función del sistema operativo y su antigüedad:

12
Interacciones y 95,0 Porcentajes Intervalos LSD
7,8 Antiguedad
med
log[cons] 7,4 new

6,6

6,2

5,8
Linux Windows
SO

Vemos claramente como, de nuevo, Linux consume menos recursos, esta vez para cualquier
antigüedad del sistema operativo. Además, no existen diferencias significativas entre el consumo de
memoria de sistemas Linux para ambas clasificaciones de antigüedad, lo que nos muestra la
tendencia de estos sistemas operativos a ofrecer cada día más mejoras y prestaciones sin renunciar a
la eficiencia. En cambio para el sistema operativo Windows vemos un gran salto entre las versiones
anteriores al 2007 y su última versión (Vista), lo que nos indica una tendencia, como vemos muy
fuerte, a consumir más recursos del sistema en sus nuevos lanzamientos. Recordemos de nuevo que
la diferencia real entre los consumos de memoria en la gráfica se haría más aguda al eliminar la
transformación logarítmica.

A continuación mostramos el análisis formal: la tabla de medias por mínimos cuadrados


para el logaritmo del consumo de memoria y para cada nivel de factores. También representa el
error estándar de cada media (medida de su variabilidad en la muestra). Las dos columnas de la
derecha muestran los intervalos de confianza (del 95%) para cada una de las medias.

--------------------------------------------------------------------------------
Error Límite Límite
Nivel Frecuencia Media Estándar Inferior Superior
--------------------------------------------------------------------------------
Media Total 1102 6,58074
SO
Linux 670 5,96343 0,023359 5,91765 6,00921
Windows 432 7,19806 0,0385424 7,12251 7,2736
Antiguedad
med 455 6,3591 0,0242536 6,31156 6,40664
new 647 6,80238 0,0379858 6,72793 6,87684
RAM
1 574 6,36952 0,0382148 6,29462 6,44442
2 528 6,79196 0,0238911 6,74514 6,83879
SO según Antiguedad
Linux med 83 5,94244 0,0438423 5,85651 6,02837
Linux new 587 5,98442 0,0161376 5,95279 6,01605
Windows med 372 6,77576 0,0207557 6,73508 6,81644
Windows new 60 7,62035 0,0742379 7,47484 7,76585

13
SO según RAM
Linux 1 340 5,83497 0,0299331 5,77631 5,89364
Linux 2 330 6,09188 0,0358689 6,02158 6,16219
Windows 1 234 6,90407 0,0703243 6,76624 7,0419
Windows 2 198 7,49204 0,0315683 7,43017 7,55392
Antiguedad según RAM
med 1 276 6,20172 0,03055 6,14185 6,2616
med 2 179 6,51648 0,0376782 6,44263 6,59033
new 1 298 6,53732 0,0700585 6,40001 6,67463
new 2 349 7,06745 0,0293852 7,00985 7,12504
--------------------------------------------------------------------------------

Para interpretar mejor la tabla, mostramos a continuación la tabla de medias real:

--------------------------------------
Nivel Frecuencia Media
--------------------------------------
Media Total 1102 1045,02
SO
Linux 670 424,362
Windows 432 1665,67
Antiguedad
med 455 690,716
new 647 1399,32
RAM
1 574 733,174
2 528 1356,86
SO según Antiguedad
Linux med 83 417,959
Linux new 587 430,764
Windows med 372 963,472
Windows new 60 2367,87
SO según RAM
Linux 1 340 374,923
Linux 2 330 473,8
Windows 1 234 1091,42
Windows 2 198 2239,92
Antiguedad según RAM
med 1 276 576,185
med 2 179 805,246
new 1 298 890,163
new 2 349 1908,47
--------------------------------------

Debemos señalar, para aquellos que se extrañen por los resultados del estudio, que la
variable analizada es el consumo base de memoria del sistema, pero que las aplicaciones que corren
por defecto en el sistema (antivirus, firewall, algunos efectos de escritorio, etc...) no las hemos
tenido en cuenta y las hemos incluido dentro de este consumo base, suponiendo que el usuario
medio no cambia esta configuración para obtener un mayor rendimiento y que por tanto, forman
parte de ese consumo base o permanente de memoria. Por supuesto puede haber errores en los datos
achacables a la mala interpretación de las instrucciones de la encuesta o a errores cometidos por el
usuario al completarla, pero hemos supuesto que estos errores se habrán cometido de forma
parecida tanto para usuarios de Linux como de Windows.

14
Un dato curioso son las frecuencias que encontramos en “SO según antigüedad”: vemos que
sólo el 12'39 % de los usuarios de Linux mantiene sus versiones desactualizadas, mientras que este
porcentaje asciende al 86'11 % en el caso de Windows.

4. CONCLUSIÓN

El objetivo central de nuestro estudio era determinar qué sistema operativo optimiza mejor
el consumo de memoria del sistema. Después de hacer un análisis detallado de los datos, podemos
afirmar que Linux es claramente superior a Windows en ese aspecto, sin importar si se trata de
versiones actuales o antiguas. Además, podemos observar el gran aumento de consumo de memoria
que experimentó el sistema de Windows con la introducción de su última versión, algo que ha sido
objeto de muchas críticas.

Linux, en cambio, presenta una tendencia radicalmente diferente. No pudimos apreciar una
diferencia significativa en el uso de memoria entre las versiones más actuales y las versiones más
antiguas. Es un importante hecho que nos hace pensar que este sistema operativo puede ser el más
adecuado para entornos académicos, públicos o incluso empresariales, donde el coste de hardware
y software puede ser un factor determinante. Linux tiene grandes ventajas como su disponibilidad y
fácil acceso e instalación de software gratuito y su recién estudiado alto rendimiento en ordenadores
baratos o antiguos que tienen menos recursos disponibles. A esto, por supuesto, hay que añadir las
reivindicaciones del movimiento del software libre, que hemos explicado en la introducción de este
estudio.

Al analizar la importancia de los diferentes factores: sistema operativo, antigüedad, memoria


RAM total y SWAP, hemos determinado que el tamaño de la memoria virtual (SWAP o archivo
de paginación) no tiene una influencia significativa en el uso de memoria del sistema.

Es interesante observar en la gráfica de memoria RAM total frente a SO (sistema operativo)


cómo, si utilizamos Windows, el consumo aumenta considerablemente si incrementamos la
cantidad de memoria RAM. Esto nos hace pensar que la adaptación de Windows a una inferior
disponibilidad de recursos es mayor, aunque no por ello deja de ser el consumo muy superior al de
Linux.

Finalmente, remarcar que el software libre, como su propio nombre indica, está al alcance
de todos. Además podremos contar con el apoyo de gran cantidad de personas comprometidas, de
foros públicos y comunidades de usuarios que estarán encantados de ayudarnos.

15
5. AGRADECIMIENTOS

• Ángel García y Beltrán (profesor titular en la División de Informática Industrial de la ETSI


Industriales de la Universidad Politécnica de Madrid) por su ayuda en la creación de la
encuesta HTML, la automatización de la ordenación de los datos (script apgForm 1.7) y por
brindarnos la oportunidad de utilizar los servidores de la escuela.

• El equipo de http://www.ubuntu-es.org/, por acogernos con tanta amabilidad y en especial a


“slap” por poner nuestro anuncio en la página principal, haciendo que hayamos conseguido
una gran cantidad de datos de Linux.

• A todos los que habéis participado en la encuesta y los que habéis ayudado a promoverla o
difundirla por cualquier medio.

16
ANEXO (Dónde encontrar el archivo de datos original y el utilizado en el estudio):

En principio tanto las encuestas como el archivo en el que se almacenarán los datos estarán
disponibles por un tiempo indefinido. De esta forma estarán accesibles los datos para el que quiera
utilizarlos para repetir el estudio o realizar otro estudio cualquiera (recordamos que los datos de
Linux proporcionan información sobre el escritorio y la distribución, aunque no los hayamos
utilizado en nuestro estudio) Las direcciones de acceso son las siguientes:

http://wiki.dii.etsii.upm.es/etsii/windows.html (encuesta para usuarios de Windows)


http://wiki.dii.etsii.upm.es/etsii/linux.html (encuesta para usuarios de Linux)
http://wiki.dii.etsii.upm.es/etsii/form.xls (archivo de datos)

La estructura del archivo de datos es la siguiente:

• Linux: Distribución; escritorio; antigüedad; tamaño de la RAM; tamaño de la SWAP;


memoria RAM en uso; memoria de intercambio en uso; consumo de memoria por el
navegador; consumo de memoria por la aplicación de monitorización de recursos del
sistema; deseo de recibir los resultados del estudio.
• Windows: Antigüedad; tamaño de la RAM; tamaño del archivo de paginación; memoria
RAM disponible; uso del archivo de paginación; consumo de memoria por el navegador;
consumo de memoria por la aplicación de monitorización de recursos del sistema; deseo de
recibir los resultados del estudio.

Los primeros 74 datos corresponden a pruebas y respuestas al primer modelo de la encuesta,


por lo que es conveniente excluirlos; el 75 y 76 corresponden a las respectivas cabeceras de
Windows y Linux. Habría sido más correcto almacenar los datos en dos archivos, ya que los
resultados de cada encuesta no proporcionan la misma información; pero dado que se trata de una
hoja de cálculo no es difícil seleccionar los de un mismo tipo y extraerlos para realizar con ellos
cualquier estudio.

Además, estará disponible el archivo de datos limpio que utilizamos en nuestro estudio en la
dirección:

http://wiki.dii.etsii.upm.es/etsii/datosestudio.csv

Para cualquier comentario disponemos, en principio también por tiempo indefinido, de una
cuenta de correo electrónico que atenderemos: encuestamemoria@gmail.com. Debemos tener en
cuenta que éste es un trabajo realizado por dos estudiantes en su primera asignatura de estadística;
puede presentar imperfecciones, ambigüedades, etc.. Desconocemos las expectativas de éxito que
cada uno tuviera en nuestro análisis, para eso hemos facilitado el archivo de datos, quedando
accesible para todo aquel que no se sienta conforme con el estudio y prefiera comprobarlo, o
realizarlo de nuevo con el archivo de datos original.

17

Você também pode gostar