Você está na página 1de 45

CURSO DE CAPACITACIÓN:

INTRODUCCIÓN AL SPSS PARA WINDOWS (PAQUETE ESTADÍSTICO PARA LAS CIENCIAS SOCIALES)

SPSS PARA WINDOWS

(VERSIÓN 13.0)

MENDOZA, NOVIEMBRE DE 2006

Lic. Andrea Blazsek Ing. Augusto Norte

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

Indice

Indice

2

Introducción

3

1. Primera aproximación al SPSS

4

1.1. La ventana del editor de datos y sus componentes

4

1.2. La ventana de resultados

6

1.3. La ventana de resultados de borrador

7

1.4. La ventana de sintaxis

7

2. ¿Cómo acceder a una base de datos en SPSS?

8

2.1.

Importación de bases de datos a SPSS

8

3. ¿Cómo crear una matriz de datos nueva?

10

3.1. Adecuación de la matriz de datos a la estructura del formulario o

 

cuestionario

10

3.2. Definición de variables

15

3.3. Introducción de datos

21

4. Edición de los datos

23

5. Modificación de la base de datos

24

5.1. Selección de un subconjunto de casos

24

5.2. Segmentación de archivos

26

5.3. ¿Cómo ordenar la base de datos?

28

5.4. Ponderación de casos

28

6. Modificación de variables

29

6.1.

Recodificación de variables

29

7. Cálculo de nuevas variables

34

8. Fusión de matrices de datos

37

8.1. Añadir casos

37

8.2. Añadir variables

39

9. ¿Cómo obtener datos agregados?

42

Bibliografía

45

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

Introducción

El SPSS (Statistical Package for Social Sciences) es un programa desarrollado para el procesamiento de datos y análisis estadístico en las ciencias sociales. Es un programa ampliamente utilizado en el ámbito de las ciencias sociales dado que no requiere de un conocimiento especializado en computación. Desde los principios de los ´90 se han desarrollado versiones para Windows. El uso de estas versiones es relativamente fácil ya que funcionan bajo la modalidad interactiva, lo cual elimina la necesidad de conocer las normas de sintaxis y programación subyacentes al soft.

El presente documento ofrece una introducción al SPSS, encarada principalmente desde dos dimensiones de trabajo:

Preparación de la base de datos para el análisis estadístico

Análisis estadístico (univariado, bivariado y procedimientos básicos de estadística inferencial)

En el primer capítulo se describirá brevemente la estructura del programa y el funcionamiento del mismo.

En los capítulos 2 y 3 se presentarán las bases de datos en SPSS, su estructura, la construcción de una base de datos y la introducción de datos (data-entry).

En el capítulo 4 se resumirán brevemente las operaciones de edición de datos.

En los capítulos 5, 6 y 7 se describirán los principales procedimientos relacionados con la preparación de una base de datos para el análisis estadístico:

selección de subconjuntos (filtros), recodificación de variables y creación de nuevas variables.

En los capítulos 8 y 9 se aborda la fusión de los archivos y el trabajo con datos agregados.

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

1. Primera aproximación al SPSS

El programa se arranca desde el ícono ubicado en la interfase de inicio de Windows, o desde el menú Inicio ubicado en la barra de tareas. En este último caso se hace clic en la opción “SPSS 13.0 for Windows”, ubicado en Programas.

Al abrirse el programa se visualiza la ventana Editor de datos SPSS (SPSS Data Editor) que contiene una matriz de datos vacía, correspondiente a la solapa Vista de datos (Data View). En la otra solapa, Vista de variables (Variable View) se encuentran las definiciones de las variables (ver apartado 3.2.)

El programa SPSS presenta una particularidad que lo diferencia de otros soft que manejan bases de datos o procesan datos: el programa trabaja con varios archivos relacionados. Interactúa por un lado con la matriz de datos y por otro lado con las “salidas” o resultados (cuadros y gráficos).

1.1. La ventana del editor de datos y sus componentes

1.1. La ventana del editor de datos y sus componentes  La barra de título .

La barra de título. A la derecha de la misma se encuentran los íconos que controlan la ventana de la aplicación: la minimizan, le modifican el tamaño, la cierran.

La barra de menús contiene las instrucciones del programa relacionadas con el manejo de bases de datos y análisis estadístico.

A continuación se detallan los menús del SPSS, con las correspondientes instrucciones:

Archivo (File): Este menú permite abrir, crear, grabar los archivos que se generan en SPSS. También controla las tareas de impresión.

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

Edición (Edit): Contiene las tareas relacionadas con la edición de datos: borrar, copiar, pegar, seleccionar, etc. También permite la búsqueda de datos en una matriz.

Ver (View): Permite, entre otras opciones, visualizar las distintas barras de herramientas y el tipo de fuente que se usa en la matriz de datos.

Datos (Data): Permite realizar distintas operaciones con la matriz de datos: definir variables, insertar variables, seleccionar casos, ordenar casos, ponderar casos, así como unir diferentes matrices de datos

Transformar (Transform): En este menú se encuentran las opciones relacionadas con la modificación y creación de nuevas variables. También permite crear series temporales y reemplazar los llamados “valores perdidos”.

Analizar (Analyze): Contiene los procedimientos estadísticos que se pueden efectuar a partir de los datos disponibles. Esta versión permite efectuar análisis univariado (distribuciones de frecuencias, medidas de tendencia central y dispersión), análisis bivariado (asociaciones, correlaciones, regresiones), pruebas estadísticas inferenciales no paramétricas y paramétricas y distintos procedimientos del análisis multivariado (análisis de la varianza, análisis factorial, regresión múltiple en todas sus variantes, análisis de conglomerados, etc.) También tiene una opción para calcular coeficientes de confiabilidad de escalas.

Gráficos (Graphs): Permite la creación de gráficos, tanto usuales (de barra, de línea, de sectores, etc.) como especiales (histogramas, gráfico de dispersión, diagramas de caja, etc.).

Utilidades (Utilites): Visualiza el listado de variables presentes en la matriz de datos y permite trabajar con conjuntos de variables.

Ventana (Window): Contiene las funciones habituales en Windows para controlar las ventanas del programa.

Ayuda (Help): Es el menú de ayuda temática. También permite ingresar preguntas o buscar palabras o frases específicas. Contiene un “asesor estadístico” que guía al usuario en la elección de los distintos procedimientos estadísticos.

La barra de herramientas. Contiene los botones correspondientes a las opciones presentes en los menús. Es personalizable (se pueden agregar o quitar botones según los requerimientos del usuario).

La barra de estado, ubicada en la parte inferior de la ventana de la aplicación. Contiene información específica, relacionada con las tareas que se efectúan. Cuando no se realiza ninguna operación, aparece el mensaje “Procesador SPSS para Windows preparado (SPSS processor is ready)” En caso contrario, aparece el nombre de la instrucción que se está ejecutando y la cantidad de casos procesados.

La matriz de datos Recuérdese que la matriz de datos es una estructura en la cual se vuelcan los datos obtenidos en la etapa de recolección de los datos. La matriz de datos permite visualizar los elementos de la estructura tripartita de los datos

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

científicos: la unidad de análisis, la variable y el valor o respuesta. La matriz tiene la forma de una tabla de dos entradas, en donde verticalmente, por columna, se ubican las variables; horizontalmente, por fila, se ubican las unidades de análisis y en la intersección de las variables con las unidades de análisis se sitúan los valores o respuestas (es decir, los valores que alcanzan las variables en las distintas unidades de análisis).

 

Var 1

Var 2

Var 3

Var m

UA 1

R

11

R

12

R 13

R 1m

UA 2

R

21

R

22

R 23

R 2m

UA 3

R

31

R

32

R 33

R 3m

UA n

R

n1

R

n2

R n3

R nm

El cuadro representa una matriz de datos. Las variables (Var) se ubican por columna, m indicando la cantidad de variables que contiene el instrumento de recolección. Las unidades de análisis (UA) se encuentran por fila, n indicando la cantidad de unidades de análisis presentes en la población o la muestra que se utilizó en la investigación. En las celdas de la tabla se ubican los valores o las respuestas (R).

La matriz de datos que se genera al abrirse el programa es una matriz vacía. En el margen horizontal superior (la fila gris) de la matriz aparece la palabra Var encabezando cada columna. Esto significa, que al estar la matriz vacía, todas las variables son variables potenciales. En el margen izquierdo de la matriz se puede notar una numeración correlativa. Esta numeración indica las unidades de análisis potenciales. Esta configuración se puede adaptar a cualquier tipo de formulario o cuestionario, mientras se respete la correspondencia entre las preguntas (ítems) y las variables de la matriz (veáse la sección 3.1.)

Los datos que se quieren procesar y analizar se introducen en esta ventana. En la sección 3.4. se analizará el procedimiento de llenar la matriz (introducir o cargar datos).

En SPSS (versiones para Windows) los datos de la base (matriz) se guardan en un archivo que tiene la extensión .sav. En el caso de la base de datos, los archivos creados en versiones más nuevas son compatibles con versiones anteriores para Windows.

1.2. La ventana de resultados

En esta ventana se visualizan los resultados del análisis estadístico (visor SPSS para Windows – Output – SPSS Viewer). Los resultados se guardan en el archivo de resultados (distinto del archivo de la matriz de datos) que lleva la extensión .spo. Este archivo tiene una estructura especial que permite organizar y modificar los distintos cuadros estadísticos.

En este archivo se crean también los gráficos, aunque éstos se pueden editar, haciendo doble clic sobre el gráfico, en una ventana llamada Editor de gráficos SPSS para Windows (Chart Editor).

El manejo de las salidas del SPSS se retoma en el capítulo destinado al análisis estadístico (segunda parte del documento).

Este archivo de resultados es incompatible con versiones anteriores al SPSS

10.0.

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

1.3. La ventana de resultados de borrador

Esta ventana (Draft Output) permite visualizar los resultados del análisis estadístico en forma de borrador, sin los formatos especiales disponibles en la ventana de resultados. Los resultados se guardan en un archivo formato texto (extensión .rtf) que se puede abrir en el procesador de textos Word.

1.4. La ventana de sintaxis

En esta ventana se pueden visualizar las distintas sintaxis de comandos. Se trata de una opción avanzada que permite personalizar el procesamiento de datos y darle mayor rapidez, al no tener que recurrir a las opciones de los menús.

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

2. ¿Cómo acceder a una base de datos en SPSS?

Para abrir una base de datos ya existente se elige en el menú Archivo (File) la opción Abrir (Open)

Seguidamente se visualiza un cuadro de diálogo que permite localizar el archivo de base de datos en las unidades y carpetas de la computadora. Si el archivo se encuentra en la unidad predeterminada (generalmente es C: ), se busca (en el cuadro correspondiente a las carpetas) la carpeta en la cual se ubica el archivo que se desea abrir. Luego, se selecciona el archivo y se hace click en Abrir. En el caso en que el archivo se encuentra en un disquette, se busca Disco de 3 ½ (A:) y se cambia la unidad predeterminada por la del disquette. Si se trata de un CD, se busca la unidad correspondiente: Unidad CD-RW (E:).

El SPSS permite abrir un solo archivo de datos a la vez. Esto significa, que al abrir un nuevo archivo, hay que guardar y cerrar el anterior.

un nuevo archivo, hay que guardar y cerrar el anterior. 2.1. Importación de bases de datos

2.1. Importación de bases de datos a SPSS

2.1.1. Abrir una base de datos desde la opción Abrir (Open)

En el caso en que el archivo no es un archivo SPSS (no lleva la extensión .sav), el programa convierte automáticamente determinados tipos de bases de datos en una matriz SPSS. En el cuadro que lleva el nombre Tipo se elige el tipo de archivo en que se guardó la base de datos que se quiere importar. Seguidamente se visualiza el nombre del archivo en el cuadro Nombre. Se selecciona el archivo y se hace click en Abrir.

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

Las bases de datos creadas en dBASE (dbf) y FoxPro son compatibles con el SPSS. La conversión del archivo tipo dbf en archivo SPSS no modifica los nombres de los campos importados

Si el archivo se creó en Excel, antes de que se abra el archivo aparece un cuadro de diálogo Abrir datos de Excel (Opening Excel Data Source). En este cuadro hay que activar la opción Leer los nombres de variable (Read variables names from the first row of data). Al activar la opción Leer los nombres de variables, la primera fila de la hoja de cálculo (que generalmente contiene los nombres de las variables) se convierte automáticamente en el encabezado de la matriz de SPSS. Si no se activa esta opción, la primera fila de la hoja de cálculo se transforma en la primera fila de la matriz de datos, es decir en un caso (registro) más. Si no se quiere importar la planilla en toda su extensión, se puede efectuar un recorte especificando en la casilla Rango (Range) el rango de la hoja de cálculo. Por ejemplo, al tipear A2:D6 en la casilla, en el SPSS la matriz contendrá los datos ubicados entre la segunda y sexta fila y las columnas A-D de la hoja de cálculo.

2.1.2. Abrir una base de datos desde la opción Abrir bases de datos (Open

Database)

Esta opción permite capturar una base de datos diferente a la matriz de datos SPSS con la ayuda de un “asistente” que ofrece una guía paso a paso en el proceso de importación. La versión 13 ofrece la posibilidad de importar bases de datos provenientes de dBase, Foxpro, MS Access y planilla de cálculo de Excel.

Para comenzar con el proceso, se debe hacer clic en la opción Nueva consulta (New Query). Luego en el cuadro de diálogo que se abre se selecciona el tipo de base de datos que se va a importar (dBase, Excel o Access) y seguidamente se debe indicar la localización del archivo en cuestión. El próximo paso consiste en seleccionar los campos que se quieren importar, arrastrando al cuadro ubicado en la derecha, ya sea la totalidad de los campos o alguna selección de los mismos. Luego, se puede agregar, mediante diferentes operaciones lógicas, aritméticas o el uso de funciones, algún tipo de restricciones a los casos que se desee importar, limitando mediante la especificación de criterios el número de casos.

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

3. ¿Cómo crear una matriz de datos nueva?

Al abrir el programa automáticamente se genera una matriz vacía, con el nombre Sin título (Untitled), hasta que se guarde el archivo y se le designe un nombre.

Si se tiene abierta una matriz llena, para volver a generar una matriz vacía se elige en el menú Archivo (File), la opción Nuevo (New) y luego Datos (Data).

, la opción Nuevo ( New ) y luego Datos ( Data ) . 3.1. Adecuación

3.1. Adecuación de la matriz de datos a la estructura del formulario o cuestionario

Antes de empezar la carga de los datos se debe examinar el cuestionario o formulario para identificar los distintos tipos de preguntas y establecer la correspondencia entre preguntas y variables.

Las preguntas con una única respuesta se corresponden a una sola variable y se cargan en una sola columna de la matriz de datos.

Las preguntas de respuesta múltiple, las preguntas presentadas en forma de tabla o grilla y las preguntas filtro son situaciones especiales que se tratarán a continuación.

3.1.1. Preguntas de respuesta múltiple

Recuérdese que el sistema de categorías de cada variable debe ser exhaustivo y excluyente. Ante el requerimiento de que el sistema de categorías fuera excluyente, las preguntas de respuesta múltiple no se pueden cargar en un solo campo.

Ejemplo de pregunta de respuesta múltiple:

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

Desocupados Las razones por las que no encuentra trabajo son: (Mencione tres razones).

Por la edad

1

Por el nivel educativo requerido

2

Por la experiencia laboral requerida

3

Porque no hay trabajo en su especialidad

4

Porque no hay trabajo en general

5

Porque le faltan vinculaciones para conseguir empleo

6

Porque los trabajos que hay están mal pagos

7

Se presenta en pocos lugares porque no le alcanza para viajar

8

Otros (especifique)

9

Ns/Nc

10

Al pedir a los encuestados que elijan tres razones, la pregunta se transforma en una de respuesta múltiple y por lo tanto no se puede cargar como si fuese una sola variable. Hay que construir tres variables, es decir, las tres respuestas dan lugar a tres variables. Luego, en el análisis estadístico se obtendrán tres distribuciones de frecuencias (una distribución para la primera opción, otra para la segunda opción y otra para la tercera opción). Estas distribuciones se deberán unificar para analizar el conjunto de respuestas a la pregunta. A continuación se presenta la distribución de frecuencias para las tres variables 1 .

Cuadro Nº 1

Razones por las que no encuentra trabajo - Respuesta nº 1

 
 

Frecuencia

Porcentaje

Por la edad Por el niv. educativo requerido Por la exp. laboral requerida Porque no hay trabajo en su especialidad Porque no hay trabajo en gral Porque le faltan vinculaciones Porque los trabajos que hay están mal pagos Porque no le alcanza para viajar Ns/Nc Total

10

5,8

8

4,7

15

8,8

39

22,8

78

45,6

11

6,4

3

1,8

3

1,8

4

2,3

171

100,0

Cuadro Nº 2

1 El ejemplo proviene de la Encuesta Permanente de Hogares (onda octubre de 2002, Gran Mendoza) y los resultados han sido modificados para adaptarlos al ejercicio presentado.

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

Razones por las que no encuentra trabajo - Respuesta Nº 2

 

Frecuencia

Porcentaje

Por la edad Por el niv. educativo requerido Por la exp. laboral requerida Porque no hay trabajo en su especialidad Porque no hay trabajo en gral Porque le faltan vinculaciones Porque los trabajos que hay están mal pagos Porque no le alcanza para viajar Otras Ns/Nc Total

11

6,4

6

3,5

10

5,8

31

18,1

54

31,6

29

17,0

5

2,9

5

2,9

4

2,3

16

9,4

171

100,0

Cuadro Nº 3

Razones por las que no encuentra trabajo - Respuesta Nº 3

 

Frecuencia

Porcentaje

Por la edad Por el niv. educativo requerido Por la exp. laboral requerida Porque no hay trabajo en su especialidad Porque no hay trabajo en gral Porque le faltan vinculaciones Porque los trabajos que hay están mal pagos Porque no le alcanza para viajar Otras Ns/Nc Total

18

10,5

6

3,5

9

5,3

8

4,7

11

6,4

34

19,9

14

8,2

15

8,8

8

4,7

48

28,1

171

100,0

Para presentar los resultados, dado que en realidad se trata de una sola pregunta, los porcentajes obtenidos por cada categoría en las tres respuestas se deben sumar. Por ejemplo, la categoría “Por la edad” ha sido elegida por 39 personas, lo cual representa el 22,8% (5,8% + 6,4% + 10,5%) de la muestra. También hay que recalcar que los porcentajes superan el 100% ya que cada persona puede contestar más de una respuesta y los porcentajes se deben calcular sobre la base de la cantidad de personas y no del total de las respuestas. Esta situación se tiene que aclarar al pie del cuadro.

La opción Ns/Nc se debe tratar con cuidado para no producir duplicaciones de la misma. En el caso de la segunda variable, se puede observar que el porcentaje de la categoría Ns/Nc aumentó en comparación con la primera variable (de 2,3% a 9,4%), alcanzando un 28,1% en el caso de la tercera variable. Esto ocurre por el hecho de que hay encuestados que eligieron solamente una o dos respuestas en vez de las tres que hubieran podido contestar. Sin embargo, esto no significa que estas personas no hayan contestado la pregunta. Por esta razón, para evitar la duplicación de la categoría Ns/Nc, se debe considerar solamente el porcentaje de Ns/Nc de la primera variable, sin sumar las respuestas Ns/Nc de la segunda y tercera variable.

Cuadro Nº 4

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

Razones por las que no encuentra trabajo

 

Recuento

% columna

Por la edad Por el niv. educativo requerido Por la exp. laboral requerida Porque no hay trabajo en su especialidad Porque no hay trabajo en gral Porque le faltan vinculaciones Porque los trabajos que hay están mal pagos Porque no le alcanza para viajar Otras Ns/Nc

39

22,8

20

11,7

34

19,9

78

45,6

143

83,6

74

43,3

22

12,9

23

13,5

12

7,0

4

2,3

Los porcentajes no suman 100%, debido a que se trata de una pregunta de respuesta mùltiple

Otra modalidad de solucionar la carga de este tipo de preguntas es transformar cada una de las categorías de respuesta en variables dicotómicas, con dos categorías de respuesta: Sí / No. En el caso del ejemplo presentado, se obtienen diez variables:

Nombre de la variable

Códigos

1 - Por la edad

1

0

2 - Por el nivel educativo requerido

1

0

3 - Por la exp. laboral requerida

1

0

4 - Porque no hay trabajo en su especialidad

1

0

5 - Porque no hay trabajo en general

1

0

6 - Porque le faltan vinculaciones

1

0

7 - Porque los trabajos que hay están mal pagos

1

0

8 - Porque no le alcanza para viajar

1

0

9 - Otros

1

0

10 - Ns/Nc

1

0

El código 1 indica que el encuestado eligió la categoría indicada, y el 0 que no la eligió. Para presentar los resultados, se indican solamente las respuestas que llevan el código 1. A continuación se presentan los cuadros correspondientes a cada

variable dicotómica, y el cuadro resumen que coincide con el cuadro Nº 4 obtenido en la modalidad anterior.

Cuadro Nº 5

Razones por las cuales no encuentra trabajo

   

No encuentra trabajo por el niv. educativo requerido

No encuentra trabajo por la exp. laboral requerida

No encuentra trabajo porque no hay en su espec.

 

No encuentra

No encuentra porque los trabajos que hay están mal pagos

No encuentra porque no le alcanza para viajar

     

No encuentra trabajo por la edad

No encuentra porque no hay trabajo en gral

trabajo porque

No encuentra

le faltan

por otras

vinculaciones

razones

Ns/Nc

 

%

 

%

 

%

 

%

 

%

     

%

 

%

 

%

   

%

No

132

77,2%

151

88,3%

137

80,1%

93

54,4%

28

16,4%

97

56,7%

149

87,1%

148

86,5%

159

93,0%

167

 

97,7%

39

22,8%

20

11,7%

34

19,9%

78

45,6%

143

83,6%

74

43,3%

22

12,9%

23

13,5%

12

7,0%

4

2,3%

Cuadro Nº 6

13

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

Razones por las que no encuentra trabajo

 

Recuento

% columna

No encuentra trabajo por la edad No encuentra trabajo por el niv. educativo requerido No encuentra trabajo por la exp. laboral requerida No encuentra trabajo porque no hay en su espec. No encuentra porque no hay trabajo en gral No encuentra trabajo porque le faltan vinculaciones No encuentra porque los trabajos que hay están mal pagos No encuentra porque no le alcanza para viajar No encuentra por otras razones Ns/Nc

39

22,8

20

11,7

34

19,9

78

45,6

143

83,6

74

43,3

22

12,9

23

13,5

12

7,0

4

2,3

Los porcentajes no suman 100%, debido a que se trata de una pregunta de respuesta mùltiple

3.1.2. Preguntas presentadas en forma de tabla o grilla

Las preguntas en forma de tabla o grilla son una modalidad especial de presentar aquellas preguntas de un cuestionario que tienen el mismo sistema de categorías y hacen referencia a una temática común. Se recurre a dicha presentación para agilizar la aplicación del cuestionario y en última instancia ahorrar espacio en el formulario.

Ejemplo de pregunta presentada en forma de tabla

¿Cómo evalúa el accionar de la Municipalidad en cada uno de los siguientes aspectos?

 

Muy

Bueno

Regular

Malo

Muy

NS/NC

bueno

malo

1. Recolección de basura

 

1 2

3

4

5

9

2. Barrido y limpieza

 

1 2

3

4

5

9

3. Alumbrado público

 

1 2

3

4

5

9

4. Regado de calles

 

1 2

3

4

5

9

5. Poda de árboles

 

1 2

3

4

5

9

6. Pavimentación de calles

 

1 2

3

4

5

9

7. Programas de urbanización

 

1 2

3

4

5

9

En este caso, cada una de las filas de la tabla se debe considerar como una variable. Las respuestas se cargarán empleando 7 variables: “recolección de basura”, “barrido y limpieza”, “alumbrado público”, “regado de calles”, “poda de árboles”, “pavimentación de calles”, “programas de urbanización”.

3.1.3 Preguntas “filtro”

La pregunta filtro es aquella que dirige a un subconjunto de encuestados a contestar una serie de preguntas específicas según su respuesta a la pregunta filtro.

Ejemplo de pregunta filtro

P1. ¿Me podría decir si en los últimos 6 meses Ud. o algún familiar ha sido víctima de algún delito?

1. Sí

si en los últimos 6 meses Ud. o algún familiar ha sido víctima de algún delito?

Pasar a la pregunta 2

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

2. No

3. Ns/Nc

Lic. Andrea Blazsek – Ing. Augusto Norte 2. No 3. Ns/Nc Pasar a la pregunta 5

Pasar a la pregunta 5

P2 ¿Me podría decir qué tipo de delitos ha sufrido?

1. Robo domiciliario

2. Robo en la calle

3. Agresión física o asalto

4. Robo de automotor

5. Otros

6. Ns/Nc

En este caso se puede observar que solamente aquellos que han contestado afirmativamente a la pregunta 1, tienen que contestar la pregunta 2. En los otros casos se debe saltear la pregunta 2 (y las siguientes preguntas, hasta la 5), cargándose en la matriz de datos en el campo correspondiente a la pregunta 2 (y las demás preguntas, hasta la 4) el código 0 (no corresponde).

3.2. Definición de variables

Antes de empezar la introducción de los datos en la computadora, hay que efectuar la definición de las variables 2 . La definición de las variables permite introducir en la computadora el nombre de cada variable, una descripción de la misma, el significado de los códigos; el formato de la variable, etc.

Para realizar la definición de las variables se hace doble clic con el botón izquierdo del mouse en la palabra “Var” situada en el encabezamiento de cada columna de la matriz. Seguidamente se activa la hoja llamada Vista de variables (Variable Views). Esta hoja representa un listado de todas las variables que contiene la matriz, con las siguientes especificaciones:

Nombre (Name)

Tipo (Type)Ancho (Width)

Decimales (Decimals)

Etiquetas (Label)

Valores (Value)

Valores perdidos (Missing)

Columnas (Columns)

Alineación (Align)

Medida (Measure)

El listado tiene la forma de un cuadro de doble entrada, en donde por fila se ubican las variables y por columna las especificaciones arriba mencionadas.

2 Cabe aclarar que para las versiones anteriores a la versión 10, el procedimiento de definición de variables difiere de la modalidad aquí presentada.

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte  El nombre de la variable .

El nombre de la variable. En el casillero correspondiente se debe introducir un nombre de identificación de la variable. El nombre no puede tener más de 64 caracteres. Sin embargo, se recomienda utilizar nombres cortos a efectos de facilita la visualización. El primer carácter del nombre debe ser una letra. Los restantes pueden ser letras, números y otros signos; excepto ciertos signos especiales (puntos al final de la palabra, comas, signos de admiración, de pregunta, +, =, -, paréntesis etc.). El nombre no puede contener espacios blancos. Cada variable debe llevar un nombre único, es decir, no se puede asignar el mismo nombre a dos variables en la misma matriz. En el caso en que no se introduce ningún nombre de identificación, la computadora asigna por omisión el nombre var00001 a la primera variable de la matriz, numerando correlativamente todas las variables que se introducen.

El orden de las variables en la matriz debe corresponder con el orden de las variables en el instrumento de recolección de datos. Generalmente la primera variable que se carga es el número del cuestionario. Dicha variable sirve como enlace entre el registro y el formulario correspondiente al registro.

El nombre de la variable se utiliza en todos los procedimientos de transformación de la misma y en el análisis estadístico.

Tipo de variable. El tipo de variable se refiere al formato de las mismas. El programa SPSS diferencia entre variables numéricas y alfanuméricas. Esta clasificación tiene que ver con la naturaleza del código que se asigna al sistema de categorías de la variable. Si los códigos son números, la variable será numérica. No hay que confundir el término numérico utilizado en este contexto con el término cuantitativo. El término numérico se refiere al tipo de código empleado, y no a la naturaleza cuantitativa de la variable. Los

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

códigos no deben ser necesariamente números, pueden contener otros signos o letras. En este caso las variables se llaman alfanuméricas. En esta categoría, se destacan las variables cadena. Los códigos de estas variables son letras o palabras. Esto significa que en la matriz se pueden cargar letras o palabras (por ejemplo, en el caso de una variable dicotómica, que tiene dos categorías Sí / No, es posible cargar las dos categorías usando las palabras SÍ / NO).

El SPSS diferencia entre variables de cadena corta (hasta 8 caracteres alfanuméricas) y variables de cadena larga. En la mayoría de los casos no es conveniente cargar letras o palabras, dado que para todo tipo de análisis estadístico es imprescindible la conversión de las variables de cadena larga en números. Las variables de cadena corta pueden ser procesadas por el SPSS, pero hay que tener en cuenta que la carga de letras o palabras siempre requiere más tiempo que la carga de números. No obstante, variables como el nombre o el domicilio se deben cargar como variable cadena.

Para introducir el tipo de variable, se debe hacer clic en el casillero correspondiente. Seguidamente aparece un cuadro llamado Tipo de variable (Variable Type) en donde se pueden definir los siguientes tipos de variables:

numéricas, numéricas en notación científica, tipo fecha, con formato de dólar o moneda personalizada y variables alfanuméricas (Cadena / String). El mismo cuadro, en la parte derecha, contiene dos opciones que permiten manejar el ancho de la columna en cantidad de caracteres (Ancho / Width) y la cantidad de decimales (Decimales /Decimal Places).

) y la cantidad de decimales ( Decimales / Decimal Places ). Tanto el ancho de

Tanto el ancho de la columna como la cantidad de decimales se pueden modificar, asimismo, desde el listado de variables haciendo clic en las pequeñas flechas de los casilleros correspondientes a las columnas denominadas Width y Decimals.

Por omisión, la computadora utiliza la siguiente tipología predeterminada:

variable numérica con 2 decimales. El ancho predeterminado de la columna es de 8 caracteres.

Dado que en la mayoría de los casos los códigos empleados en la codificación del sistema de categorías de las variables son numéricos, no hace falta modificar los parámetros de esta tipología.

Las etiquetas de las variables. En la columna denominada Label, se puede ingresar una descripción de la variable. Esto puede ser cualquier texto con una extensión máxima de 256 caracteres. Este procedimiento es opcional y se

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

requiere solamente en el caso en que el nombre de la variable no ofrece suficientes indicios acerca del significado de la misma.

Valores de la variable. Para poder interpretar los códigos de la matriz, se debe conocer su significado. El SPSS ofrece la posibilidad de asignar etiquetas o denominaciones a los códigos de cada variable. Si se hace clic en el casillero correspondiente a la columna Values, se genera un cuadro de diálogo denominado Etiqueta de valor (Value labels).

de diálogo denominado Etiqueta de valor ( Value labels ). Para etiquetar los códigos se debe

Para etiquetar los códigos se debe proceder de la siguiente manera: primero se hace clic con el mouse en el interior de la casilla que lleva el nombre Valor (Value). En esta casilla se introduce el código numérico. Abajo, en la casilla correspondiente a Etiqueta de valor (Value label), haciendo clic con el mouse en su interior, se introduce la categoría que corresponde al código asignado anteriormente. La categoría puede ser cualquier texto con una extensión máxima de 60 caracteres. Una vez terminada la operación, se hace clic en el botón Añadir (Add). Seguidamente el código y la categoría aparecerán incorporados en la parte inferior del cuadro de diálogo, que contendrá un listado de las categorías de la variable, con sus respectivos códigos. Esta lista permite visualizar la correspondencia entre código y categoría.

Para seguir introduciendo los códigos y las categorías, después de haber pulsado el botón Añadir (Add), se teclea el siguiente código en la casilla Valor (Value) y la categoría correspondiente en la casilla Etiqueta de valor (Value label). Esta operación se repite hasta haber introducido todos los códigos de la variable.

Para borrar un ítem del listado, se lo selecciona y posteriormente se elige la opción Borrar (Remove). Para modificar algún ítem del listado, se lo selecciona, se efectúan las modificaciones pertinentes en las casillas correspondientes al valor y/o a la etiqueta del valor, y posteriormente se elige la opción Cambiar (Change).

Una vez etiquetados todos los códigos de la variable, se acciona el botón OK.

Ejemplo: ¿Cómo crear etiquetas para una variable y sus códigos?

Indique el máximo nivel de estudios alcanzado por el jefe de hogar

1. Analfabeto

2. Primario incompleto

3. Primario completo

4. Secundaria incompleto

5. Secundario completo

6. Terciario incompleto 7. Terciario completo 8. Universitario incompleto 9. Universitario completo

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte En el caso de variables cuantitativas no

En el caso de variables cuantitativas no hace falta establecer la correspondencia código – categoría, dado que el número cargado tiene un significado que no es arbitrario, y por ende no hace falta explicitarlo. En el caso de este tipo de variables, es suficiente asignarles un nombre y una etiqueta (la descripción de la variable). Sin embargo, si la variable cuantitativa se expresa en intervalos, hay que establecer un código para cada intervalo.

Los valores perdidos o ausentes. Una de las exigencias en la construcción de la matriz de datos es no dejar ninguna celda vacía, es decir llenar toda la matriz. Sin embargo, esta exigencia es difícil de cumplir en la práctica y generalmente en la creación de la matriz de datos surge el problema de ausencia de información.

El programa SPSS diferencia entre dos tipos de valores perdidos, o “celdas vacías”. En el primer caso se trata de situaciones en las cuales en el formulario no se cuenta con ninguna respuesta, debido a la omisión del encuestador u otras fallas en la recolección de datos. En esta situación, al efectuar la carga no se puede introducir ningún valor en la celda correspondiente y la computadora asignará automáticamente una coma a las celdas vacías en el caso de las variables numéricas. En el caso de las variables “cadena” las celdas vacías quedan en blanco. Estos valores perdidos se llaman “valores perdidos por el sistema” (System- missing).

Existe la posibilidad de designar ciertos valores del sistema de categorías de una variable como perdidos. Este tipo de valor perdido se llama “valor perdido definido por el usuario” (User-missing). Se recurre a este procedimiento para imputar 3 generalmente las respuestas Ns/Nc según la distribución de frecuencias de los casos válidos. Hay que remarcar que al definir determinadas categorías como “valores perdidos”, los códigos numéricos correspondientes se mantendrán en la matriz (no se sustituirán por comas), pero internamente el programa los tratará como valores perdidos.

Para definir los valores perdidos, se hace clic en el casillero correspondiente a la columna Missing. Seguidamente se generará un cuadro denominado Missing Values que permite definir dichos valores.

3 Al encontrarse con información que falta, existen dos posibilidades: no se corrige la falta de información o se utiliza algún procedimiento de IMPUTACION para rellenar la información que falta. Existen varios procedimientos de imputación, en este caso se tratará el más sencillo:

imputación de los valores ausentes según la distribución de frecuencias de los casos que tienen información.

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte La primera opción Sin valores perdidos (

La primera opción Sin valores perdidos (No missing values), predeterminada por el programa, indica la ausencia de valores perdidos. En las casillas correspondientes a Valores perdidos discretos (Discrete missing values) se pueden introducir hasta 3 códigos diferentes para una sola variable. Estos códigos serán considerados valores perdidos. También existe la opción de definir como “valor perdido” un rango de códigos que, opcionalmente, se puede combinar con un solo valor (discreto) perdido en las casillas correspondientes a Rango de valores perdidos (Range plus one optional discrete missing value). En este caso, en la primera casilla se indica el valor más bajo y en la segunda casilla, el valor más alto del rango. Todos los valores pertenecientes al rango se considerarán valores perdidos. De requerirse, en el casillero Discrete value se coloca el valor puntual.

Después de haber definido los valores perdidos, se acciona el botón OK.

El formato de la columna. En la columna denominada Columns se puede modificar el ancho visualizado de la columna de cada variable. Este ancho, por defecto, coincide con la cantidad de caracteres que lleva el nombre de la variable. Hay que recalcar que esta opción modifica solamente el ancho que se visualiza en la matriz de datos, no así el ancho real, en cantidad de caracteres, de la variable. La columna Align indica la alineación del valor en las celdas de cada columna. La alineación predeterminada es a la derecha en el caso de las variables numéricas, y a la izquierda en el caso de las variables alfanuméricas (de texto).

El nivel de medición de las variables. En la columna Measure se puede establecer el nivel de medición correspondiente a cada variable. El SPSS distingue entre los siguientes niveles de medición: nominal, ordinal y escalar.

La versión 13 de SPSS ofrece un “atajo” para copiar definiciones de variables a otras variables del mismo archivo. Esta opción se encuentra en el menú Data:

Copiar propiedades de datos (Copy Data Properties). Esta opción es particularmente útil en el caso de las preguntas presentadas en forma de grilla o tabla (ver apartado 3.1.2). Al hacer clic en esta opción se activa un “asistente” para guiar el proceso. En el primer paso se establece si la definición de las variables proviene del archivo de trabajo (The working data file) o de algún archivo externo (an external SPSS data file). En el siguiente paso se deben especificar, en el cuadro denominado Variables fuente (Source File Variables), las variables cuya definición se

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

copiará. Estas variables se deben seleccionar, marcándolas, en la columna que se ubica en el lado izquierdo del cuadro de diálogo. En la columna ubicada a la derecha, denominada Variables del archivo de trabajo (Working File Variables), se visualizan las variables a las que se aplicará la definición copiada. Para que aparezca este listado de variables se debe hacer clic primero en alguna variable del cuadro izquierdo. También se marcarán todas aquellas variables, en el cuadro derecho, a las que se aplicará la definición de variables que se quiere replicar. En el siguiente paso se puede seleccionar las especificaciones de las variables que se desean replicar, tildando las opciones disponibles (etiquetas de códigos, valores perdidos, tipo de variable, formato de la columna).

3.3. Introducción de datos

Una vez definidas las variables, se generarán los nombres de las mismas en el encabezado de las columnas de la matriz de datos. Los otros elementos de la definición de la variable no aparecerán en la matriz (Data View), sin embargo, serán utilizados internamente por el programa y se visualizarán durante el análisis estadístico.

La introducción de datos se realiza por fila (unidad de análisis). Esto significa que la carga se empieza con el primer cuestionario y se introducen sucesivamente todos los valores correspondientes a las variables del instrumento de recolección (prestando suma atención a la correspondencia variable – pregunta, en el caso de las preguntas con respuesta múltiple).

La carga de los datos se empieza en la celda izquierda superior de la matriz. Se selecciona con el mouse dicha celda (al seleccionarla, la celda tendrá un contorno marcado) y se introduce el valor que toma la primera unidad de análisis en la primera variable. El valor aparecerá en el cuadro del editor de celdas (ubicado debajo de la barra de títulos de la ventana de la matriz de datos), pero todavía no aparece en la primera celda. Para introducirlo se aprieta la flecha derecha (o el tabulador) del teclado. Seguidamente el valor aparecerá en la primera celda y se obtendrá un desplazamiento a la segunda celda de la primera fila. Allí se introducirá el valor correspondiente a la segunda variable de la primera unidad de análisis. Se sigue con el mismo procedimiento hasta llenar la primera fila, es decir, hasta completar todas las respuestas del primer sujeto o unidad de análisis. Luego se selecciona la primera celda de la segunda fila y se procede con el llenado de las respuestas de la siguiente unidad de análisis.

Si se acciona la tecla Enter en vez de la flecha derecha del teclado, el desplazamiento se hace por columna, verticalmente. Dado que cargar por variable (por columna) es un procedimiento que requiere más trabajo, y también puede generar equivocaciones, se recomienda cargar siempre por unidad de análisis o por fila.

no

corresponde a ninguna variable definida (es decir se excede el límite de la matriz que se ha creado mediante la definición de las variables), se genera automáticamente una variable nueva que llevará el nombre Var00001.

Advertencia:

en

el

caso

de

cargar

por

equivocación

un

valor

que

Para guardar la matriz, se elige en el menú Archivo (File) la opción Guardar

(Save As….). Esta opción permite asignar un nombre al archivo de la

Como

matriz y ubicarlo en alguna carpeta del disco duro, o copiarlo directamente a un

disquette. Esta versión del SPSS ofrece, asimismo, la opción de guardar una determinada selección de variables, haciendo clic en el botón Variables.

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

Seguidamente se despliega un cuadro con el listado de variables de la matriz de datos donde se pueden tildar las variables que al final se guardarán.

En

el

caso en

que

el archivo

ya lleva un nombre,

se guardan los

cambios

realizados utilizando la opción Guardar (Save).

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

4. Edición de los datos

En este capítulo se repasarán brevemente algunas de las opciones que ofrece el SPSS para la edición de los datos, es decir las tareas relacionadas con la modificación de los datos de una matriz llena.

Cambiar valores. Para reemplazar un valor erróneo por el valor correcto se procede de la siguiente manera: se selecciona con el mouse la celda que contiene el valor erróneo y se teclea directamente el valor correcto, apretando luego la tecla Enter o las flechas del teclado. Se notará que el valor correcto aparecerá en la celda. De la misma manera se puede reemplazar una coma (un valor perdido) por un valor numérico.

Insertar variables. En el caso en que se quiere insertar una variable entre las ya existentes, se ubica el cursor del mouse en el lugar donde se quiere insertar la nueva variable (seleccionando dicha ubicación) y se elige la opción Insertar Variable (Insert Variable) del menú Datos (Data). Seguidamente se generará una nueva variable, con el nombre asignado automáticamente por el programa (var00001), y con valores perdidos definidos por el sistema.

Cambiar de lugar la variable en la matriz de datos. La versión 13 del SPSS ofrece la posibilidad de cambiar de lugar la variable en la matriz de datos. Primero se selecciona la columna correspondiente que se desea mover y luego se arrastra con el mouse a la ubicación elegida.

Insertar casos (registros). El procedimiento es similar a la inserción de variables. Se ubica el cursor del mouse en el lugar donde se quiere insertar el nuevo caso (entre los casos ya existentes) y se elige la opción Insertar Caso (Insert Cases) del menú Datos (Data). Se generará un nuevo registro con valores perdidos definidos por el sistema.

Eliminar casos (registros) o variables. Se selecciona el caso o la variable que se quiere eliminar y luego se aprieta la tecla Suprimir (Delete).

Buscar casos (registros). Se activa la opción Ir a caso (Go to case) del menú Data. En el cuadro de diálogo generado se indica el número del registro buscado y se acciona el botón OK. Esta opción se utiliza en el caso en que la cantidad de registros es muy grande y la localización manual de registros lleva mucho tiempo.

Buscar valores. En el caso en que se quiere localizar un valor concreto de una determinada variable, se procede de la siguiente manera: se selecciona la variable (se hace un solo clic con el botón izquierdo del mouse en el nombre de la variable) y se elige la opción Buscar (Find) del Menú Edit. En la casilla del cuadro de diálogo se teclea el valor buscado y luego se acciona el botón Buscar siguiente (Find next).

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

5. Modificación de la base de datos

5.1. Selección de un subconjunto de casos

El SPSS ofrece la posibilidad de seleccionar subconjuntos de casos. Este procedimiento se utiliza en el caso en que el análisis estadístico se quiere efectuar solamente para aquellos casos que han sido previamente seleccionados y cumplen con las condiciones que se han especificado en el proceso de selección. Comúnmente, este procedimiento se llama “filtrar casos”. Hay que resaltar que una vez seleccionados los casos, el análisis estadístico se efectuará sólo para dichos casos. Esto significa que los casos que no han sido seleccionados no estarán disponibles, a no ser que se anule la selección efectuada.

Para efectuar el procedimiento de selección, primero se debe definir el subconjunto de casos que se seleccionará, es decir, qué características tendrá dicho subconjunto.

es decir, qué características tendrá dicho subconjunto. Las instrucciones de selección se activan desde el menú

Las instrucciones de selección se activan desde el menú Datos (Data), en donde se elige la opción Seleccionar casos (Select cases…). El cuadro de diálogo correspondiente contiene varias opciones de selección. La primera opción Todos los casos (All cases) significa que la selección no se encuentra activada, es decir, en el análisis estadístico se utilizan todos los casos de la base de datos.

Si se satisface la condición (If condition is satisfied) permite seleccionar los casos en base a la especificación de ciertas condiciones. Para activar esta opción, se hace clic con el mouse en el botón Si (If…). Seguidamente se genera un nuevo cuadro de diálogo que contiene los siguientes elementos: el listado de variables de la matriz, un cuadro de textos vacío donde se podrán especificar las condiciones que deben cumplir los casos para ser seleccionados, una calculadora y un listado de funciones (matemáticas y estadísticas).

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

Las condiciones en el cuadro se pueden introducir directamente desde el teclado, una vez que se haya posicionado el cursor del mouse en el interior del cuadro (simplemente se hace clic con el botón izquierdo del mouse en el interior del cuadro). Una manera alternativa de introducir las condiciones en el cuadro de textos es recurriendo a los elementos del cuadro de diálogo. Primero se debe seleccionar la variable del listado, y después se la debe pasar al cuadro haciendo clic en la flecha negra. Luego se especificará la condición que deben cumplir los casos.

Ejemplo

En la base “EPH2002” se seleccionan las personas pobres por ingreso mayores de 65 años. Esto significa que se deben especificar dos condiciones que funcionan concomitantemente: la persona debe ser pobre (LIN_POB = 1) y debe tener más de 65 años (EDAD > 65).

(LIN_POB = 1) y debe tener más de 65 años (EDAD > 65). En el ejemplo

En el ejemplo presentado se debe pasar la variable LIN_POB al cuadro de textos, y después se debe especificar la condición: LIN_POB = 1. Esto permitirá seleccionar a las personas pobres. Dado que en el ejercicio se incluyó otra condición: mayores de 65 años, la expresión se debe completar de la siguiente manera:

LIN_POB = 1 & EDAD > 65

El

operador

&

(Y)

significa

que

los

casos

seleccionados

deben

cumplir

simultáneamente con las dos condiciones especificadas.

También se pueden emplear otros operadores lógicos:

| (O): los casos seleccionados deben cumplir con, al menos, una de las condiciones especificadas. ~=(NO): negación. Los casos no deben cumplir con la condición especificada.

El empleo de paréntesis permite fijar el orden de las condiciones, en el caso en que se especifiquen condiciones múltiples.

Una vez introducida la expresión condicional en el cuadro de texto, se hace clic en el botón Continuar (Continue) y se vuelve al cuadro inicial. Antes de aceptar la instrucción, hay que elegir entre la opción Filtrados (Filtered) o Eliminados

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

(Deleted) en la parte inferior del cuadro. Estas opciones ofrecen dos posibilidades de tratamiento de los casos no seleccionados. La primera es filtrar dichos casos, y la segunda es directamente eliminarlas de la matriz de datos. Generalmente se recomienda filtrar los casos no seleccionados y no eliminarlos. La instrucción se acepta haciendo clic en el botón OK.

El botón Restablecer (Reset) borra todas las instrucciones que se han especificado en el cuadro de diálogo.

Una vez aceptada la instrucción, se notarán dos modificaciones en la matriz de datos. Primero, los casos no seleccionados aparecen “tachados” (en la columna gris a la izquierda de la matriz). Segundo, se genera automáticamente una variable filtro con el nombre filter_$. Dicha variable asigna el código 0 a los casos no seleccionados y 1 a los casos seleccionados.

Al pedir una distribución de frecuencias de la variable filter_$ (activando la opción Todos los casos) se obtiene el siguiente cuadro:

Cuadro Nº 7

lin_pob = 1 & edad > 65 (FILTER)

 

Frecuencia

Porcentaje

Válidos

No seleccionado

3691

96,6

Seleccionado

107

2,8

Total

3798

99,4

Perdidos

Sistema

23

,6

Total

3821

100,0

Es decir, del total de casos (3821) se han seleccionado 107 personas. Las personas que integran este subconjunto cumplen simultáneamente con las dos condiciones: son pobres y mayores de 65 años.

Para anular la selección, se puede borrar la variable filtro de la matriz de datos, o en el cuadro de diálogo correspondiente a Seleccionar Casos (Select cases…), se activa la opción Todos los casos (All cases).

5.2. Segmentación de archivos

En el caso de la selección de un subconjunto de casos (“filtro”) el análisis estadístico está limitado a los casos seleccionados. Por ejemplo, si se seleccionan los varones, todos los análisis estadísticos se efectuarán solamente para esta categoría. En el caso en que se quiere analizar el subgrupo de las mujeres, hay que repetir el procedimiento de selección. Obviamente, en esta nueva selección los análisis se podrán hacer solamente para el subgrupo de las mujeres. Esto presenta cierto inconveniente en el caso en que se desea comparar varios subgrupos.

El procedimiento mediante el cual se pueden seleccionar varios subgrupos de una población y se pueden efectuar los análisis estadísticos simultáneamente para los subgrupos elegidos se llama segmentación de archivos.

Para acceder a esta instrucción se elige el menú Datos (Data) y la opción Segmentar archivo (Split file).

En el cuadro de diálogo correspondiente a esta instrucción aparece un listado de todas las variables de la base de datos. De este listado se debe elegir la variable que será el criterio de segmentación. Se puede elegir más de una variable. Por

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

ejemplo, si se eligen las variables SEXO (masculino, femenino) Y LIN_POB (pobre, no pobre) como criterios de segmentación, se obtendrán los siguientes subgrupos:

Masculino, pobre Masculino, no pobre Femenino, pobre Femenino, no pobre

Para cada uno de estos subgrupos, el SPSS efectuará el análisis estadístico requerido.

Antes de elegir las variables del listado, hay que seleccionar Comparar los grupos (Compare groups). Por defecto, la opción activada es Analizar todos los casos (Analyze all cases…). Para poder efectuar la segmentación del archivo, hay que hacer clic con el mouse en la opción Comparar los grupos (Compare groups). Las variables se seleccionan y se pasan al cuadro Grupos basados en (Groups based on…) haciendo clic en la flecha que separa los dos cuadros.

Se puede optar por ordenar los casos según los valores de la variable de segmentación: Ordenar archivo según variables de agrupación (Sort the file by the grouping variables). Esta opción es la predeterminada. En el caso en que no se desea ordenar los casos, se puede elegir la otra opción El archivo ya está ordenado (File is already sorted).

Una vez completadas las instrucciones, se las acepta. Para cancelarlas, se usa el botón Cancelar (Cancel), y para borrarlas, el botón Reestablecer (Reset).

Al ejecutar la instrucción, a la derecha de la barra de estado aparece la palabra Segmentado (Split File On), lo cual significa que la segmentación del archivo está activada.

Ejemplo

Se segmenta el archivo “EPH2002.sav” utilizando como criterio de segmentación la variable SEXO, generando dos grupos: varones y mujeres. Para cada subgrupo de la variable SEXO se obtiene la distribución de frecuencias de la variable “LIN_POB”. De esta manera se puede apreciar la incidencia de la pobreza en los dos grupos obtenidos en base a la segmentación de la variable SEXO.

Cuadro Nº 8

SEXO

Frecuencia

Porcentaje

Varón

Pobre

1012

58,1

No pobre

641

36,8

Ns/Nc

89

5,1

Total

1742

100,0

Mujer

Pobre

1133

54,5

No pobre

839

40,4

Ns/Nc

107

5,1

Total

2079

100,0

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

5.3. ¿Cómo ordenar la base de datos?

El SPSS, al igual que otros programas que manejan bases de datos, permite ordenar los casos de forma ascendente o descendente. Para esta instrucción, se debe activar en el menú Datos (Data) la opción Ordenar casos (Sort cases ) De nuevo, en el cuadro de diálogo se puede observar el listado de variables. De este listado se seleccionan las variables que se utilizarán como criterio de ordenación de los casos. Las variables se pasan al cuadro Ordenar por (Sort by), haciendo click en la flecha.

En el cuadro Orden de clasificación (Sort Order) se puede optar por un orden ascendente o descendente.

La instrucción se acepta haciendo click en el botón OK.

5.4. Ponderación de casos

El SPSS permite asignar ponderaciones a los casos a través de la instrucción

Ponderar casos (Weight cases

suele utilizar el coeficiente de extensión o elevación calculada para la muestra con la cual se trabaja. Este procedimiento permite trabajar en el análisis estadístico con los casos ponderados, es decir, en el caso de la muestra, con los valores estimados de la población.

Comúnmente, para ponderar los casos, se

).

Para acceder a esta instrucción, se debe activar el menú Datos (Data), y posteriormente, la opción Ponderar casos (Weight cases). La variable de ponderación se selecciona del listado de variables y se pasa al cuadro Variable de frecuencia (Frequency variable), activando la opción Ponderar casos mediante (Weight cases by…) y haciendo clic con el mouse en la flecha.

Al aceptar la instrucción, en la barra de estado aparece la indicación Ponderado (Weighted).

Ejemplo:

Distribución de frecuencias de la variable ESTADO – Condición de actividad - de la EPH (onda octubre de 2002), utilizando la variable de ponderación (PONDERA). Se puede notar que los casos absolutos representan la población en estudio.

Cuadro Nº 9

CONDICION DE ACTIVIDAD

 

Frecuencia

Porcentaje

Ocupado

336355

34,5

Desocupado

43614

4,5

Inactivo

594931

61,0

Total

974900

100,0

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

6. Modificación de variables

6.1. Recodificación de variables

Esta opción permite modificar el sistema de códigos de las variables, es decir cambiar la asignación de códigos correspondientes a las distintas categorías de las variables. También permite cambiar la asignación de valores perdidos. Asimismo, permite agrupar una variable cuantitativa en intervalos de clase. A partir de este procedimiento se pueden obtener también variables dicotómicas.

El SPSS ofrece dos opciones para recodificar las variables. Una opción consiste

en efectuar la recodificación en la misma variable. Esto significa perder la variable original, ya que los nuevos códigos designados sustituyen definitivamente a los códigos viejos. La otra opción es generar una nueva variable recodificada, manteniendo en la matriz la variable original. Este último procedimiento es más seguro, por ende se recomienda su utilización. A continuación se detallan los procedimientos a emplear. Para activar la instrucción que permite recodificar las variables, generando nuevas variables, cuyos valores son recodificaciones de los valores de las variables ya existentes, se elige en el menú Transformar

(Transform) la opción Recodificar en distintas variables different variables)

(Recode into

en distintas variables different variables) ( Recode into El cuadro de diálogo que se genera contiene

El cuadro de diálogo que se genera contiene los siguientes elementos:

En la parte izquierda del mismo se visualiza el listado de variables de la matriz. Para efectuar la recodificación de alguna variable, hay que seleccionarla de este listado y pasarla al cuadro (haciendo clic con el mouse en la flechita negra) llamado Var. de entrada Var. de resultado (Input Variable Output Variable). La variable a recodificar será la variable de entrada.

Variable de resultado (Output variable). Se sitúa en la parte derecha del cuadro de diálogo y permite asignar un nombre y una etiqueta a la nueva variable cuyos valores serán los valores recodificados de la variable original (la variable de entrada).

Si (If

decir, las recodificaciones se efectuarán solamente para aquellos casos

El botón SI permite realizar recodificaciones condicionales, es

)

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

que cumplen con las condiciones determinadas en el cuadro correspondiente a esta instrucción.

Valores antiguos y nuevos (Old and new values

Al activar este

botón, se podrá modificar el sistema de códigos de la variable original, estableciendo las correspondencias entre los códigos de la variable original y el nuevo sistema de códigos de la variable que se genera en el proceso de recodificación.

).

Los botones OK, Reset, Cancel, Pegar (Paste) (permite visualizar la sintaxis de comando de la instrucción) y Help.

6.1.1. Cambio de los códigos de las categorías de una variable

A continuación, se describirán los procedimientos a efectuar en el caso en que se quiere cambiar el sistema de códigos de una variable. Este procedimiento se suele utilizar al detectar algún error sistemático en la introducción de datos (por ejemplo, en vez de teclear 1, se tecleó equivocadamente 11 en muchos casos) o en el caso en que se quieren combinar distintas categorías de la variable en una sola.

Ejemplo:

Recurriendo a la base de datos EPH2002.sav se recodifica la variable TAMANO (tamaño del establecimiento) estableciendo el siguiente sistema de categorías para la nueva variable:

TAMAÑO DEL ESTABLECIMIENTO – VARIABLE ORIGINAL

 

TAMAÑO DEL ESTABLECIMIENTO – NUEVA VARIABLE RECODIFICADA

1

1

persona

1 1 1 persona   1 a 15 personas

 

1 a 15 personas

2

2

a 5 personas

3

6

a 15 personas

4

16

a 25 personas

a 50 personas 4 16 a 25 personas 2 16

2

16

5

26

a 50 personas

6

51

a 100 personas

 

3

51

a 100 personas

7

101

a 500 personas

 

4

101

a 500 personas

8

501

o más

 

5

501

o más

9

No sabe

 

6

No sabe

En el primer cuadro de diálogo se elige la variable que se quiere recodificar y se la pasa al cuadro Var. de entrada Var. de salida (Input Variable Output Variable), en donde aparecerá: tamano ? . Dado que la recodificación se hace en una nueva variable, hay que especificar el nombre de la misma. En el cuadro correspondiente a Nombre (Name) se introduce el nombre de la variable (Por ejemplo: Tam_rec). Debajo, en la casilla Etiqueta (Label) se puede especificar la descripción de la nueva variable. Después de haber especificado el nombre y la etiqueta, se acciona el botón Cambiar (Change). Seguidamente el nombre aparecerá en el cuadro Var. de entrada Var. de resultado (Input Variable Output Variable): tamano tam_rec.

Después se hace clic en el botón Valores antiguos y valores nuevos (Old

and new values formato:

).

El cuadro de diálogo correspondiente tiene el siguiente

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte En el caso del ejemplo, primero se

En el caso del ejemplo, primero se introduce en el cuadro Valor antiguo (Old value), en la casilla Valor (Value), el código de la primera categoría de la variable “tamano”, es decir, 1.

Esta categoría no se cambia, por ende en la parte derecha del cuadro de diálogo (Valor nuevo – New value), en la casilla Valor (Value), se introduce también 1. Después, se hace clic en el botón Añadir (Add), y en la casilla Antiguo Nuevo (Old New) aparece la correspondencia establecida entre el código de la variable vieja y la nueva. Este procedimiento se repite para los otros códigos. Dado que algunos códigos se combinan, los códigos 2 y 3 de la vieja variable corresponden al código 1 de la nueva variable. Los códigos 4 y 5 de la vieja variable se transforman en el código 2 de la nueva variable, etc.

se transforman en el código 2 de la nueva variable, etc. En el caso en que

En el caso en que la mayoría de los códigos de la nueva variable coinciden con los códigos viejos (no es el caso del ejemplo presentado arriba), se puede recurrir a la opción Todos los demás valores (All other values) situado abajo en la parte izquierda del cuadro de diálogo. Una vez activada esta opción, en la parte derecha del cuadro se debe elegir la opción Copiar valores antiguos (Copy old values). Esto significa que se copiarán automáticamente los códigos de la vieja variable, sin ningún tipo de modificación, excepto aquellos que hayan sido explícitamente modificados.

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

Ejemplo:

Códigos de la variable original

 

Códigos

de

la

nueva

variable

1

1   1
 

1

2

2   2
 

2

3

3   3
 

3

4

   

5

5   4
 

4

En este caso hipotético, los únicos códigos que se modifican son el 4 y el 5, que se combinan en el código 4 en la nueva variable. En este caso, una vez que se ha especificado la modificación de los códigos 4 y 5, para los demás se puede utilizar la opción Todos los demás valores ------ Copiar valores antiguos.

Todos los demás valores ------ Copiar valores antiguos. En el caso en que la variable antigua

En el caso en que la variable antigua contiene valores perdidos por el sistema, dichos valores se pueden recodificar, asignándoles valores numéricos. En este caso se elige la opción Perdido por el sistema (System-missing), en la parte izquierda del cuadro, y en la parte derecha se teclea el código que se quiere asignar a los valores perdidos (comas).

6.1.2. Obtención de variables con intervalos de clase

En el caso en que se quiere transformar una variable cuantitativa discreta o continua en una variable con intervalos de clase, se procede de la siguiente manera:

Se examina la distribución de frecuencias y luego se establece la cantidad de intervalos que se construirán y la amplitud de los mismos. Más allá de recurrir a fórmulas estadísticas en la construcción de los intervalos, es importante tener en cuenta la naturaleza de la variable, su distribución de frecuencias y el tipo de análisis que se realizará.

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

En la parte izquierda del cuadro se elige la opción Rango (Range). En la primera casilla se teclea el límite inferior del intervalo y en la segunda, el límite superior. En la parte derecha del cuadro se asigna el código a este intervalo.

Se pueden utilizar también las opciones: Del menor hasta (Lowest

el mayor (through highest). En el primer

caso, se debe especificar el límite superior del intervalo. Todos los valores iguales o menores al límite superior formarán parte del intervalo. En el segundo caso, se debe especificar el límite inferior. El intervalo contendrá todos los valores iguales o mayores al límite inferior.

through

)

y

hasta

Observación: en la recodificación se debe trabajar con los llamados intervalos de trabajo.

6.1.3. Recodificación automática de las variables “cadena”

Los procedimientos presentados anteriormente se pueden aplicar a las variables numéricas y de cadena corta (hasta 8 caracteres). Para las variables de cadena larga que exceden 8 caracteres, hay que recurrir a la opción Recodificación automática (Automatic Recode). Esta opción se encuentra en el menú Transform.

Primero se elige la variable cadena a recodificar y se la pasa a la casilla Variable Nuevo Nombre (Variable New Name). Después se debe especificar el nombre de la nueva variable en la casilla Nombre Nuevo (New Name). Al aceptarse la instrucción, se genera una nueva variable en la matriz de datos. En el archivo de resultados se podrán ver los códigos asignados a las palabras de la variable “cadena”.

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

7. Cálculo de nuevas variables

Mediante este procedimiento se pueden efectuar transformaciones numéricas (aritméticas o de mayor complejidad) sobre las variables ya existentes en la matriz, generando de esta forma nuevas variables. Este procedimiento es particularmente útil en el caso de la creación de índices sumatorios simples e índices ponderados.

Primero, se elige en el menú Transform la opción Calcular (Compute).

en el menú Transform la opción Calcular ( Compute ) . Se genera un cuadro de

Se genera un cuadro de diálogo que contiene los siguientes elementos:

En la parte izquierda superior del cuadro se observa una casilla que lleva el nombre Variable de destino (Target Variable). En esta casilla hay que introducir el nombre de la nueva variable que se quiere generar.

El botón Tipo y etiqueta (Type & Label). Permite definir el tipo y la etiqueta de la nueva variable generada.

También en la parte izquierda se nota un listado de todas las variables de la matriz de datos. Para poder calcular la nueva variable, hay que seleccionar las variables que se utilizarán en su construcción.

Un cuadro que lleva el título Expresión numérica (Numeric Expression), en donde se define la expresión numérica utilizada en la construcción de la nueva variable. Esta expresión numérica contiene

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

los siguientes elementos: nombres de variables de la matriz, operadores y funciones.

Una calculadora. Contiene números, operadores aritméticos, relacionales y lógicos.

Una lista de funciones (aritméticas, estadísticas, funciones lógicas, etc.)

El botón Si (If

Permite aplicar la generación condicional de una

nueva variable, es decir, crea la nueva variable solamente para aquellos casos que cumplen con las condiciones establecidas en el cuadro correspondiente a esta instrucción.

).

Los botones OK, Pegar (Paste), Reset, Cancel y Help.

Para proceder a la construcción de la nueva variable, primero se teclea el nombre en el cuadro Variable de destino (Target variable). Después se hace clic con el mouse en el cuadro de la expresión numérica, en donde hay que especificar la expresión numérica o fórmula que se emplea en la construcción de la nueva variable. Para escribirla, se puede optar entre teclearla directamente, o recurrir a los componentes del cuadro de diálogo descritos anteriormente: el listado de variables, la calculadora y el listado de funciones. Para elegir los elementos requeridos, solamente hay que seleccionarlos con el mouse (en el caso del listado de variables y funciones) y hacer clic en las pequeñas flechas negras del cuadro de diálogo, que permiten pasar los elementos seleccionados al cuadro de la expresión numérica. En el caso de la calculadora, se apunta con la flecha del mouse al número u operador necesitado, se aprieta el botón izquierdo del mouse, y el elemento pasará automáticamente al cuadro que contiene la expresión numérica.

Ejemplo Cálculo de la variable “Hacinamiento”, utilizando los datos de la base “EPH2002.sav”. La variable hacinamiento se calcula dividiendo la cantidad de miembros en el hogar (POB_TOT) a la cantidad de habitaciones de uso exclusivo del hogar (HABITACI).

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

versión 13.0 Lic. Andrea Blazsek – Ing. Augusto Norte En el caso en que se desea

En el caso en que se desea obtener directamente una variable dicotómica que marque un corte en la variable continua “Hacinamiento” en un punto especificado (por ejemplo, se quiere calcular el indicador de hacinamiento utilizado en la construcción del índice de Necesidades Básicas Insatisfechas: se consideran hacinados los hogares con más de 3 personas por cuarto), se puede especificar dicho punto de corte directamente en la fórmula de cálculo. Para el ejemplo del indicador de hacinamiento, se puede escribir:

POB_TOT / HABITACI 3

Este procedimiento permite obtener directamente una variable dicotómica, en donde el código 0 significa hasta 3 personas por cuarto, y el código 1, más de 3 personas por cuarto.

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

8. Fusión de matrices de datos

La fusión de archivos o matrices de datos es una función importante del SPSS que permite combinar datos de matrices diferentes en una nueva matriz, mediante dos opciones:

Añadir casos

Añadir variables

Para acceder a este procedimiento, se debe elegir en el menú Datos (Data) la opción Fundir archivos (Merge Files).

( Data ) la opción Fundir archivos ( Merge Files ) . 8.1. Añadir casos La

8.1. Añadir casos

La opción “Añadir casos (Add cases)” es muy útil cuando se trabaja la misma matriz de datos (con una estructura de variables idéntica) en más de una computadora. Por ejemplo, para acelerar la carga de datos, se utilizan varias computadoras, pero luego las matrices generadas en cada computadora se unen en una sola base de datos. También se pueden unir matrices de poblaciones diferentes para conseguir un universo mayor (por ejemplo, los diferentes aglomerados en las que se realiza la EPH se consolidan en una sola base de datos).

Para poder realizar este procedimiento correctamente, las “sub-matrices” deben tener, convenientemente, la misma estructura de variables, en donde es necesario que tanto los nombres de las variables como sus valores o categorías sean idénticos. No obstante, en el caso de no ser idénticos podrán hacerse las adaptaciones pertinentes al caso. Además, todas las “sub-matrices” deben tener formato de SPSS. Si las matrices o tablas se han generado en otros programas, primero se deben convertir a archivos de SPSS (extensión .sav)

Nota: Para ilustrar este procedimiento hemos partido en dos el archivo EPH 2002.sav. Los primeros 2000 casos los hemos guardado en el archivo EPH 2002 (1-

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

2000).sav ; y los casos restantes los hemos guardado en el archivo EPH 2002 (2001-3821).sav. Además, la variable civil mantiene el nombre en el archivo EPH 2002 (1-2000).sav pero ha cambiado a est_civil en el archivo EPH 2002 (2001- 3821).sav. Así pues, aunque ambos archivos contienen las mismas variables (si bien una de ellas con nombre diferente), contienen casos distintos.

Para este ejemplo entonces abra el archivo EPH 2002 (1-2000).sav. Luego acceda a la opción:

DataMerge Files Add cases

A continuación aparece un cuadro de diálogo donde se muestran los archivos que potencialmente se pueden unir. En este cuadro se debe señalar el archivo que aportará casos al archivo SPSS ya abierto, o sea el archivo EPH 2002 (2000- 3821).sav. Luego se hace clic en la opción Abrir. Si hubiese más de un archivo que se quisiera fusiona con el archivo ya abierto, habría que repetir el procedimiento por cada archivo. Luego de haber seleccionado el archivo, aparece otro cuadro de diálogo, con los siguientes elementos:

un listado en la parte derecha que indica las variables del nuevo archivo ya fusionado (Variables in new working data file)

un listado a la izquierda que muestra las variables desemparejadas (Unpaired variables)

muestra las variables desemparejadas ( Unpaired variables ) Si la estructura de las matrices es idéntica

Si la estructura de las matrices es idéntica (principalmente en cuanto a los nombres de las variables), el listado de las variables desemparejadas se encuentra vacío. Cuando hay variables que no coinciden en las dos matrices, el programa señala dichas variables asignando un signo (*) o un signo (+) según la procedencia. Para incluirlas en la matriz fusionada, deben seleccionarse y luego pasarse al cuadro de la derecha haciendo clic en el botón que tiene una flechita.

Ahora bien, estas variables desemparejadas traerán los valores de su matriz de origen, mientras que para los casos de la otra matriz tendrán “valores perdidos por el sistema”. En el caso de que la misma información se encuentre expresada bajo variables de distinto nombre (por ejemplo, civil y est_civil) deben “casarse” seleccionándose ambas (para seleccionar dos variables no contiguas mantenga oprimida la tecla –Ctrl-) y luego pulsando el botón “Casar (Pair)”, las variables serán agregadas como una sola en el archivo de datos de trabajo.

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

Si se quiere distinguir el origen de los casos (de qué matriz provienen), se debe tildar la opción “Indicar origen del caso en la variable (Indicate case source as variable)”. En la matriz unificada se generará una variable llamada “source01”, en donde los casos tendrán valores 0 si provienen del archivo de trabajo o 1 si provienen del otro archivo que se pretende fusionar con el archivo de trabajo.

Al aceptar este cuadro de diálogo, seguidamente se genera el nuevo archivo, es decir, la matriz de datos fusionada. Esta matriz debe contener la sumatoria de los casos de los dos archivos fusionados, y no lleva nombre, por lo tanto el nuevo archivo se debe guardar (conviene darle un nombre que no coincida con los nombres de las “sub-matrices” fusionadas).

8.2. Añadir variables

La opción “Añadir variables (Add variables)” es un procedimiento de mayor complejidad que el anteriormente descrito, sobre todo, debido a que se pueden plantear algunas dificultades metodológicas en cuanto a la combinación de matrices con unidades de análisis diferentes.

pueden

procedimiento:

Se

presentar

las

siguientes

situaciones

que

requieran

de

este

Matrices con la misma cantidad de casos, pero con variables diferentes Por ejemplo, una matriz contiene las variables demográficas de una población, mientras que otra matriz trae las variables ocupacionales de la misma población. Para poder realizar cruzamientos entre los dos grupos de variables, se debe trabajar sobre una sola matriz unificada. Otro ejemplo es un relevamiento realizado en dos momentos temporales diferentes sobre los mismos casos, en donde se quieren relacionar los resultados previos con los posteriores.

Matrices que traen cantidades diferentes de casos, y variables diferentes. En este caso, es muy importante que las unidades de análisis se relacionen: por ejemplo, una matriz debe contener unidades de análisis que incluyan las unidades de la otra matriz (hogar – individuos; barrios – viviendas; empresas – personal de las empresas; escuelas - alumnos)

Para aplicar este procedimiento es necesario contar con la “variable clave (key variables)” en las matrices que se quieren unificar. La variable clave es un campo que designa con un código único los casos en ambos archivos, es decir, los casos idénticos en las dos matrices deben llevar el mismo código único. Esta variable debe tener el mismo nombre en ambas matrices y además, los archivos se deben ordenar de manera ascendente según la variable clave. Si los archivos no están ordenados, el programa va a señalar esta situación y no va a realizar la fusión.

En el caso de matrices con la misma cantidad de casos, pero variables diferentes, se debe proceder de la siguiente forma:

DataMerge Files Add variables

Seguidamente aparece un cuadro de diálogo que indica las matrices que se quieren fusionar con el archivo abierto. Una vez seleccionado el archivo (si se quieren fusionar más de dos archivos, el procedimiento se debe repetir por cada

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

nuevo archivo), se puede observar un nuevo cuadro de diálogo que contiene los siguientes elementos:

cuadro de diálogo que contiene los siguientes elementos:  En la parte izquierda aparece el listado

En la parte izquierda aparece el listado de las variables excluidas (Excluded variables). Por defecto, estas son las variables duplicadas en ambas matrices. Las variables del archivo de trabajo se identifican mediante un asterisco (*); las del archivo externo presentan un signo más (+). Si se desea incluir en el archivo fusionado una variable excluida con un nombre duplicado, se debe cambiar su nombre y luego añadirla a la lista de las variables del archivo de trabajo.

A la derecha se observa el listado de variables del nuevo archivo que resulta de la fusión de las dos matrices (New working data file). Por defecto, se incluyen en la lista todos los nombres de variable únicos que existan en ambos archivos de datos.

El cuadro correspondiente a la variable clave (Key variable).

Opciones para indicar alguna de las situaciones señaladas anteriormente (matrices con la misma cantidad de casos, matrices cuyas unidades de análisis se relacionan de alguna forma). Entonces, si algunos casos de un archivo no se emparejan con los del otro archivo (es decir, si faltan casos en un archivo), se deben utilizar las variables clave para identificar y emparejar correctamente los casos de ambos archivos. También se pueden utilizar las variables clave según “tablas de claves”.

Las variables clave deben tener los mismos nombres en ambos archivos.

Ambos archivos deben estar ordenados según el orden ascendente de las variables clave, y el orden de las variables de la lista Variables clave debe ser igual a su secuencia de ordenación.

Los casos que no se emparejan con las variables clave se incluyen en el archivo fusionado, pero no se funden con los casos del otro archivo. Los casos no emparejados sólo contienen

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

valores para las variables del archivo de procedencia; las variables del otro archivo contienen el valor perdido por el sistema.

En el caso en que las dos matrices tienen los mismos casos, primero se debe llevar la variable clave al cuadro señalado como “Variables clave (Key variable)”. Luego se tilda la opción “Emparejar los casos para las variables clave en los archivos ordenados (Match cases on key variables in the sorted files)”. Inmediatamente se activan las tres opciones en la parte inferior del cuadro. En esta primera situación se debe elegir la opción “Ambos archivos facilitan casos (Both files provide cases)”. Esto significa que los casos son los mismos en los dos archivos, por lo tanto, lo único que se hace es adjuntar variables distintas sobre casos idénticos. Una vez generada la matriz nueva, se debe guardar con un nombre distinto a las matrices ya existentes.

Si las matrices contienen unidades de análisis relacionadas y traen casos diferentes, hay que observar cuál de las dos matrices es la llamada “tabla de claves (keyed table)”. Una tabla de claves es una matriz con un código único que se puede aplicar para más de un caso en la otra matriz, es decir, la tabla de claves es el archivo que contiene las variables de la “supraunidad”. Por ejemplo, si se quiere unir una matriz de hogares con la matriz que contiene los miembros de cada hogar, la tabla de claves es la matriz de hogares. Siempre el archivo identificado como tabla de claves contiene menos casos que el otro archivo que se fusiona, al basarse en una unidad de análisis de un nivel superior que se puede descomponer en sus miembros (hogares, escuelas, empresas, barrios, etc.).

La tabla de claves puede ser el archivo de trabajo (el archivo abierto en el momento de la fusión), o el archivo externo (el archivo que se eligió en el primer cuadro de diálogo, luego de haber iniciado el procedimiento). Según el caso, se debe tildar una de las siguientes opciones: “El archivo externo es una tabla de claves (External file is keyed table)” o “El archivo de trabajo es una tabla de claves (Working data file is keyed table)”. Una vez tildada la opción correspondiente, se acepta el cuadro de diálogo y seguidamente se genera un nuevo archivo, cuya unidad de análisis son los componentes de la “supraunidad” (si la tabla de claves es una matriz de hogares que se une con una matriz de miembros de estos hogares, la matriz fusionada va a tener como unidad de análisis los miembros de estos hogares). En cuanto a los valores de las variables que contenía la matriz de la supraunidad, éstos se replican para cada componente de la supraunidad. Por ejemplo, si en la matriz de hogares aparecen variables como ingreso total familiar, ocupación del jefe de hogar, cantidad de miembros del hogar, en la nueva matriz, para cada miembro del mismo hogar se van a replicar los valores correspondientes al ingreso total familiar, a la ocupación del jefe de hogar y a la cantidad de miembros del hogar.

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

9. ¿Cómo obtener datos agregados?

Este procedimiento permite agregar los datos que provienen de los componentes de una “supraunidad”, para generar variables de tipo global que caracterizan directamente a la “supraunidad”. Concretamente, si se trabaja con una matriz donde figuran todos los miembros de cada hogar relevado con sus diferentes ingresos, este procedimiento permite calcular para cada hogar el ingreso total familiar o el ingreso per cápita familiar, obteniendo una matriz cuya unidad de análisis es el hogar y las variables son el ingreso total o el ingreso per cápita familiar. Antes de comenzar con este procedimiento, nuevamente se debe acondicionar la base de datos. Cada miembro debe tener su código de hogar único, y además, en cada hogar los miembros deben tener una numeración correlativa, que constituye otra variable de identificación. Esta última variable tiene un rol importante en el proceso de agregación.

La opción Agregar (Agrégate…) se encuentra en el menú Data. El cuadro de diálogo de esta opción tiene el siguiente formato:

de diálogo de esta opción tiene el siguiente formato: Este cuadro de diálogo contiene los siguientes

Este cuadro de diálogo contiene los siguientes elementos:

En la parte izquierda aparece el listado de todas las variables de la matriz.

A la derecha se observa un cuadro que se llama “Variables de segmentación (Break Variable)”. En este cuadro se debe ubicar la

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

variable que identifica los miembros de la “supraunidad” o grupo. Por ejemplo, para el caso arriba señalado, esta variable es la que numera correlativamente los miembros de cada hogar. Cuando se genera la nueva matriz con las variables agregadas, por cada grupo identificado mediante la variable de segmentación se va a generar un solo caso.

El cuadro “Variables agregadas (Aggregated Variables)” contiene aquellas variables que se pretenden agregar, mediante alguna operación aritmética (sumatoria, media, número de casos, valor máximo, valor mínimo).

Al abrirse este cuadro de diálogo, primero se selecciona la variable de segmentación y luego las variables que se quieren agregar. Por defecto, la operación aritmética predeterminada es la media de los valores del grupo. Por ejemplo, si se quiere calcular el ingreso per cápita familiar, conociendo los ingresos individuales de cada miembro del hogar, basta con ubicar la variable correspondiente al ingreso total en el cuadro “Agregar variables (Summaries of Variable)”.

En el caso en que se quiere cambiar la función aritmética, se hace clic con el mouse en el botón “Función (Function).

con el mouse en el botón “ Función (Function) ” . En este nuevo cuadro de

En este nuevo cuadro de diálogo se puede optar por diferentes funciones de resumen, además de la media, como por ejemplo, el primer valor o el último valor del grupo, el número de casos, la desviación típica, el valor máximo o el valor mínimo, etc.

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

Si se acepta el cuadro de diálogo, por defecto las variables nuevas se agregan al archivo de trabajo. También existe la opción de generar un nuevo archivo que contendrá solamente las variables agregadas. Por defecto este archivo se llamará Aggr.sav. Para esto se debe tildar la opción “Crear nuevo archivo de trabajo que contiene sólo las variables agregadas (Create new working file containing aggregated variables only)”.

Este archivo contiene un caso por cada “supraunidad” que es resultado de la operación de agregación de datos. En el ejemplo señalado, el archivo Aggr.sav va a contener un valor por cada hogar que es el ingreso per cápita familiar. Si luego se desea conservar el nuevo archivo creado, se debe cambiar el nombre Aggr.sav, dado que el programa por defecto reemplaza este archivo con cada nueva agregación de datos.

Introducción a SPSS versión 13.0

Lic. Andrea Blazsek – Ing. Augusto Norte

Bibliografía

Briones, G. “Métodos y Técnicas de Investigación para las Ciencias Sociales”. México, Limusa, 1982.

Carrión Sánchez, Juan Javier “Manual de análisis de datos”. Madrid, Alianza Editorial, 1995.

Hernández Sampieri R., Fernández Collado C., Baptista Lucio P. “Metodología de la Investigación”. Colombia, McGrawHill, 1994.

Galtung J “Teoría y Métodos de Investigación Social”, tomo I y II. Buenos Aires, Eudeba, 1973.