Você está na página 1de 63

Servei dEstadstica Universitat Autnoma de Barcelona

Prcticas de estadstica y programacin en SAS

Director Tcnico del Servei dEstadstica Universidad Autnoma de Barcelona

Lloren Badiella Busquets

Anna Espinal Berenguer


Asesora estadstica del Servei dEstadstica Profesora asociada del departamento de Matemticas Universidad Autnoma de Barcelona Asesor estadstico del Servei dEstadstica Profesor asociado del departamento de Matemticas Universidad Autnoma de Barcelona

Joan Valls Marsal

Publicado por el Servei dEstadstica de la UAB, mayo 2003. Este documento puede ser copiado y libremente distribuido, siempre y cuando sea preservada su integridad y referenciado su origen. No est permitido aadir, borrar o cambiar ninguna de sus partes, o extraer pginas para su uso en otros documentos.

1.
1. 2. 3.
3.1. 3.1.1. 3.2. 3.2.1. 3.3. 3.3.1. 3.4. 3.4.1. 3.5. 3.5.1. 3.6. 3.6.1.

ndice
ndice.................................................................................................................3 Presentacin .....................................................................................................4 Manipulacin de datos....................................................................................5
Ejemplo bsico. Ejemplo 1 ...................................................................................... 5 Fichero SAS de Sintaxis: Ejemplo 1.Datos......................................................... 7 Homicidios en California 1850-1900...................................................................... 9 Fichero SAS de Sintaxis: Homicidios.Datos ..................................................... 13 Gastos de publicidad a Europa ............................................................................ 14 Fichero SAS de Sintaxis: Publicidad.Datos....................................................... 15 Peso de bebs ...................................................................................................... 16 Fichero SAS de Sintaxis: Bebes.Datos.............................................................. 17 Caparazn Palletoida ........................................................................................... 18 Fichero SAS de Sintaxis: Caparazon.Datos ...................................................... 19 Factores experimentales en la fabricacin del plstico .......................................... 20 Fichero SAS de Sintaxis: Plastico.Datos ........................................................... 21

4.
4.1. 4.2. 4.3. 4.4. 4.5. 4.6.

Estadstica descriptiva...................................................................................22
Ejemplo bsico. Ejemplo1 .................................................................................... 22 Homicidios en California 1850-1900.................................................................... 26 Gastos de publicidad a Europa ............................................................................ 29 Peso de bebs ...................................................................................................... 33 Caparazn Palletoida ........................................................................................... 36 Factores experimentales en la fabricacin de plstico ........................................... 38

5.
5.1. 5.2. 5.3. 5.4. 5.5. 5.6. 5.7. 5.8.

Inferencia estadstica bsica .........................................................................44


Ejemplo bsico. Ejemplo1 .................................................................................... 44 Homicidios en California 1850-1900.................................................................... 45 Gastos de publicidad a Europa ............................................................................ 46 Peso de bebs ...................................................................................................... 47 Caparazn Palletoida ........................................................................................... 48 Factores experimentales en la fabricacin de plstico ........................................... 49 Capacidad de deteccin de los murcilagos .......................................................... 50 Velocidad de reaccin .......................................................................................... 53

6.
6.1.

Modelizacin estadstica ...............................................................................55


Crecimiento del ficus ........................................................................................... 55

7.
7.1. 7.2.

Programacin en lenguaje macro................................................................60


Validacin de una matriz de datos........................................................................ 60 Exportacin de SPSS a SAS. ................................................................................ 61

8. 9.

Los datos.........................................................................................................62 Bibliografa .....................................................................................................63


3

2.

Presentacin

En este documento se proponen un conjunto de problemas para poder introducirse en la prctica del paquete estadstico SAS. Estn diseados los en cuatro mdulos siguientes: Manipulacin de datos: SAS/BASE(I) Estadstica descriptiva: SAS/BASE(II), SAS/STAT(I), SAS/GRAPHS Inferencia estadstica bsica: SAS/STAT(II), SAS/GRAPHS Modelizacin estadstica: SAS/STAT(III) Macros

Los ficheros de datos as como los ficheros con las sintaxis pueden encontrarse en la pgina web del Servei dEstadstica de la Universidad Autnoma de Barcelona, en la seccin de Materiales.

3.
3.1.
1.

Manipulacin de datos
Ejemplo bsico. Ejemplo 1
Introducir la siguiente tabla en un archivo de SAS llamado salario: Id 1 2 3 4 5 6 7 8 9 10 2. 3. Etiqueta Joan Slvia Josep Pere Anna David Cristina Marta Magda Carles Sexo Hombre Mujer Hombre Hombre Mujer Hombre Mujer Mujer Mujer Hombre Salario anual (en ) 18.000 15.000 25.000 17.000 19.000 30.000 22.000 10.000 13.000 21.000

Crear una variable nueva que contenga el salario anual en pesetas y otra variable categrica para el salario con 4 categoras. Aadir los datos para 3 individuos ms contenidos en la siguiente tabla: Id 11 12 13 Etiqueta Oriol Ester Rosa Sexo Hombre Mujer Mujer Salario anual (en ) 23.000 17.000 35.000

4.

Crear otro archivo SAS (socecon) con las caractersticas edad, nivel de estudios, tipo de transporte para llegar al trabajo y tiempo de recorrido desde la vivienda habitual hasta el trabajo (en minutos) que aparecen en la siguiente tabla: Id 1 2 3 4 5 6 7 8 9 10 11 12 13 Edad 27 20 35 30 25 37 35 23 21 28 29 32 40 Nivel estudios Transporte Est. superiores Bus FP II o equiv. Metro FP II o equiv. Coche part. Est. Superiores Coche part. Est. Medios Moto Est. Medios Bus Est. Superiores Bus Est. medios. Moto FP II o equiv. Moto Est. medios Metro Est. Medios Coche part. FP II o equiv. Metro Est. superiores Bus Tiempo 15 20 55 45 30 35 15 10 7 25 50 35 35

5. 6.

Fusionar los dos archivos anteriores y crear un archivo de SAS llamado ejemplo1 Asignar de forma aleatoria los individuos en dos grupos para poder realizar un experimento de comparacin de medios de transporte

3.1.1. Fichero SAS de Sintaxis: Ejemplo 1.Datos


DATA ejemplo1; INPUT id etiqueta $ sexo $ salario; CARDS; 1 Joan Hombre 18000 2 Silvia Mujer 15000 3 Josep Hombre 25000 4 Pere Hombre 17000 5 Anna Mujer 19000 6 David Hombre 30000 7 Cristina Mujer 22000 8 Marta Mujer 10000 9 Magda Mujer 13000 10 Carles Hombre 21000 ; RUN; PROC PRINT DATA=ejemplo1; RUN; * crear una variable categorica para el salario; DATA ej1salca; SET ejemplo1; salpts=salario*166.386; IF salario <= 15000 THEN salca=1; IF salario > 15000 AND salario <= 21000 THEN salca=2; IF salario > 21000 AND salario <= 25000 THEN salca=3; IF salario >25000 THEN salca=4; RUN; * aadimos 3 casos a los datos; DATA ej11; INPUT id etiqueta $ sexo $ salario; CARDS; 11 Oriol Hombre 23000 12 Ester Mujer 17000 13 Rosa Mujer 35000 ; RUN; DATA ej11salc; SET ej11; salpts=salario*166.386; IF salario <= 15000 THEN salca=1; IF salario > 15000 AND salario <= 21000 THEN salca=2; IF salario > 21000 AND salario <= 25000 THEN salca=3; IF salario >25000 THEN salca=4; RUN; PROC APPEND BASE=ej1salca DATA=ej11salc; RUN; * aadimos 4 variables; DATA socecon; INPUT id edad nivest $ transp $ tiempo; CARDS; 1 27 Est_sup Bus 15 2 20 FPII Metro 20 3 35 FPII Coche 55 4 30 Est_sup Coche 45 5 25 Gr_medio Moto 30 6 37 Gr_medio Bus 35 7 35 Est_sup Bus 15 8 23 Gr_medio Moto 10 9 21 FPII Moto 7

10 28 Gr_medio Metro 25 11 29 Gr_medio Coche 50 12 32 FPII Metro 35 13 40 Est_sup Bus 35 ; RUN; DATA ejemplo1; MERGE ej1salca socecon; BY id; RUN; * asignacion aleatoria en dos grupos; DATA ej12g; SET ejemplo1; grupo = RANBIN(0,1,0.5); RUN;

3.2.

Homicidios en California 1850-1900

El fichero homicide.sav (formato SPSS) contiene los datos analizados en el estudio: Ethnicity and homicide McKanna, C. (1995) in California, 1850-1900,

Los datos han sido obtenidos en la pgina web del National Archive of Criminal Justice Data de los EUA (http://www.icpsr.umich.edu/NACJD/). Se dispone de variables referentes a 1.317 homicidios producidos en California durante los aos 1850 hasta 1900. Se obtuvieron datos sobre el lugar, causa del crimen y arma utilizada as como la relacin entre raza, sexo, edad y ocupacin de la vctima y el acusado.
Nombre de la vctima (VICTIM) Cadena de caracteres Nombre del acusado (KILLER) Cadena de caracteres Ao (YEAR) Variable cuantitativa (50-99) Mes (MONTH) Variable cuantitativa (1-12) Da dentro del mes (DAY) Variable cuantitativa(1-31) Hora (HOUR) Variable categrica 1 12 NOON-3 PM 2 3 PM-6PM 3 6 PM-9 PM 4 9 PM-12 MIDNIGHT 5 12 MIDNIGHT-3 AM 6 3 AM-6 AM 7 6 AM-9 AM 8 9 AM-12 NOON 9 UNKNOWN Da de la semana (WEEKDAY) Variable categrica 1 MONDAY 2 TUESDAY 3 WEDNESDAY 4 THURSDAY 5 FRIDAY 6 SATURDAY 7 SUNDAY 9 UNKNOWN Condado de California (COUNTY) Variable categrica 1 SAN DIEGO 3 SANTA BARBARA 4 SAN LUIS OBISPO 11 SACRAMENTO 12 SAN JOAQUIN 21 CALAVERAS 22 TUOLUMNE 99 UNKNOWN Raza de la vctima (VICRACE) Variable categrica 1 WHITE 2 HISPANIC 3 NATIVE AMERICAN 4 ORIENTAL 5 AFRICAN-AMERICAN 9 UNKNOWN Sexo de la vctima (VICSEX) Variable categrica 1 MALE 2 FEMALE 9 UNKNOWN Edad de la vctima (VICAGE) Variable cuantitativa Ocupacin de la vctima (VICOCCUP) Variable categrica 1 LABORER 2 FARMER 3 RANCHER 4 MERCHANT 5 COWBOY 6 SHEEP HERDER 7 SOLDIER 8 SAILOR 9 BARTENDER 10 LAWMAN 12 HOUSEWIFE 13 PROSTITUTE 14 LAWYER 15 COOK 16 BUTCHER 17 TEAMSTER 18 RR WORKER 19 MINER 20 HOTEL KEEPER 21 BAR OWNER 22 CLERICAL 23 TEACHER 24 TRANSIENT 25 FISHERMAN 26 NURSE 27 STUDENT 28 DOMESTIC 29 DRUGGIST 30 DOCTOR 31 STORE CLERK 32 BAKER

33 BARBER 34 WAITER 35 LAUNDRY 36 MUSICIAN 37 DENTIST 38 SHOEMAKER 39 MECHANIC 40 BLACKSMITH 41 CARPENTER 42 PREACHER 44 HARNESS MAKER 45 GARDENER 46 SALESMAN 47 TAILOR 48 STEAMBOAT RUNNER 49 DISHWASHER 50 PORTER 51 LEGISLATOR 52 RANCH/FARM HAND 53 OTHER TRADESMAN 54 BOAT HAND 55 GAMBLER 56 PIMP 57 MINISTER 58 EDITOR/PUBLISHER 59 PEDDLER 60 PRISON INMATE 61 WATCHMAN 62 BOOKKEEPER 63 WELLS FARGO GRD 64 ASYLUM INMATE 65 JUDGE/JUSTICE 66 SEAMSTRESS 99 UNKNOWN Estado de la vctima (VICCOND) Variable categrica 1 DRINKING 2 OTHER DRUGS 3 CALM 4 AGITATED 5 OTHER 9 UNKNOWN Raza del acusado (ACCURACE) Variable categrica 1 WHITE 2 HISPANIC 3 NATIVE AMERICAN 4 ORIENTAL 5 AFRICAN-AMERICAN 9 UNKNOWN Sexo del acusado (ACCUSEX) Variable categrica 1 MALE 2 FEMALE 9 UNKNOWN Edad del acusado (ACCUAGE) Variable cuantitativa Ocupacin del acusado (ACCUOCCU) Variable categrica 1 LABORER 2 FARMER

3 4 5 6 7 8 9 10 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66

RANCHER MERCHANT COWBOY SHEEP HERDER SOLDIER SAILOR BARTENDER LAWMAN HOUSEWIFE PROSTITUTE LAWYER COOK BUTCHER TEAMSTER RR WORKER MINER HOTEL KEEPER BAR OWNER CLERICAL TEACHER TRANSIENT FISHERMAN NURSE STUDENT DOMESTIC DRUGGIST DOCTOR STORE CLERK BAKER BARBER WAITER LAUNDRY MUSICIAN DENTIST SHOEMAKER MECHANIC BLACKSMITH CARPENTER PREACHER HARNESS MAKER GARDENER SALESMAN TAILOR STEAMBOAT RUNNER DISHWASHER PORTER LEGISLATOR RANCH/FARM HAND OTHER TRADESMAN BOAT HAND GAMBLER PIMP MINISTER EDITOR/PUBLISHER PEDDLER PRISON INMATE WATCHMAN BOOKKEEPER WELLS FARGO GRD ASYLUM INMATE JUDGE/JUSTICE SEAMSTRESS

10

99 UNKNOWN Estado del acusado (ACCUCOND) Variable categrica 1 DRINKING 2 OTHER DRUGS 3 CALM 4 AGITATED 5 OTHER 9 UNKNOWN Relacin vctima-acusado (RELATION) Variable categrica 1 MARRIED 2 IN-LAWS 3 FRIENDS 4 STRANGERS 5 ROOMMATES 8 OTHER 9 UNKNOWN Causa del homicidio (CAUSE) Variable categrica 1 DOMESTIC DISPUTE 2 QUARREL 3 BRAWL 4 LYNCH MOB 5 KILLED BY POLICE 6 KILLED POLICE 7 ROBBERY 8 OTHER 9 UNKNOWN Arma utilizada (WEAPON) Variable categrica 1 HAND GUN 2 RIFLE 3 SHOTGUN 4 GUN UNKNOWN 5 KNIFE 6 AXE 7 HANGING 8 FIRE 9 FALL 10 STRANGLED 11 FISTS 12 BLUNT INSTRUMENT 13 POISON 14 THROWN DOWN 15 SHARP INSTRUMENT 16 DRUGS 17 KICKED 18 DROWNED 99 UNKNOWN Lugar del homicidio (LOCATION) Variable categrica 1 VICTIM'S HOME 2 STREET 3 SALOON 4 WORK 5 RANCH 6 FARM 7 COUNTRY ROAD 8 DESERT 9 JAIL

10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 99

WOODS HOTEL WHARF SHIP RAILROAD BEACH MOUNTAINS RIVER OCEAN INDIAN RESERVE ACCUSED HOME CEMETARY CHURCH MISSION COURTHOUSE HOSPITAL MILITARY FORT BANK SAW MILL STORE LAKE HOSPITAL MINE BRIDGE BROTHEL CEMETARY RESTAURANT PRISON ROOMING HOUSE PARK OTHER HOUSE STATE BUILDING BLACKSMITH SHOP OTHER BUSINESS STABLE OR CORRAL STAGE/RR STATION DANCE HALL OTHER BUILDING CABIN (RURAL) ASYLUM UNKNOWN

11

1. Importar la base de datos al sistema SAS. 2. Asignar las etiquetas a las variables categricas.

12

3.2.1. Fichero SAS de Sintaxis: Homicidios.Datos


LIBNAME HOMI SPSS 'HOMICIDE.por'; DATA HOMICIDE; SET HOMI._FIRST_; RUN; PROC FORMAT; VALUE RACE 1='1-WHITE' 2='2-HISPANIC' 3='3-NATIVE AMERICAN' 4='4-ORIENTAL' 5='5-AFRICAN-AMERICAN' 9='6-UNKNOWN' ; VALUE COND 1='1-DRINKING' 2='2-OTHER DRUGS' 3='3-CALM' 4='4-AGITATED' 5='5-OTHER' 9='6-UNKNOWN' ; VALUE SEX 1='1-MALE' 2='2-FEMALE' 9='3-UNKNOWN' ; VALUE RELATION 1='1-MARRIED' 2='2-IN-LAWS' 3='3-FRIENDS' 4='4-STRANGERS' 5='5-ROOMMATES' 8='6-OTHER' 9='7-UNKNOWN' ; VALUE CAUSE 1='1-DOMESTIC DISPUTE' 2='2-QUARREL' 3='3-BRAWL' 4='4-LYNCH MOB' 5='5-KILLED BY POLICE' 6='6-KILLED POLICE' 7='7-ROBBERY' 8='8-OTHER' 9='9-UNKNOWN' ; RUN; DATA HOMICIDE; SET HOMICIDE; FORMAT VICRACE RACE. ACCURACE RACE. VICCOND COND. ACCUCOND COND.VICSEX SEX. ACCUSEX SEX. RELATION RELATION. CAUSE CAUSE.; RUN;

* Para comprobar el formato miramos las 10 primeras observaciones; PROC PRINT DATA=HOMICIDE(OBS=10); RUN;
PROC CONTENTS DATA=HOMICIDE POSTITION; RUN;

13

3.3.

Gastos de publicidad a Europa

En la siguiente tabla se muestra la reparticin (en porcentajes) de los gastos publicitarios segn el medio de comunicacin de 16 pases de Europa. Los datos corresponden al ao 1990 y se extrajeron de la revista Press Landscape update & Eur. Direct Marketing NTC, 1991. Newspapers Belgium Denmark France Germany Greece Ireland Italy Netherlands Portugal Spain U.K. Austria Finland Norway Sweden Switzerland 35.3 76.1 28.6 46.0 26.0 63.7 27.8 50.4 25.1 37.6 44.1 51.6 67.2 77.2 78.6 61.1 Magazines 20.5 11.8 27.5 27.9 28.2 5.4 24.0 27.8 21.7 15.4 19.3 18.0 13.5 15.8 14.3 16.8 TV 27.5 9.6 24.8 15.8 35.3 19.6 43.02 9.0 37.1 31.3 30.5 17.7 12.9 2.5 2.2 6.7 Radio 1.2 0.8 6.6 5.1 5.7 6.2 1.4 2.2 6.7 10.3 2.2 8.0 4.0 1.0 0.0 1.7 Cinema 1.4 0.4 0.8 1.2 0.0 0.0 0.0 0.3 0.0 0.8 0.5 0.4 0.1 1.2 0.6 0.9 Outdoor/Transport 14.2 1.3 11.7 3.9 4.8 5.1 3.6 10.4 9.5 4.7 3.4 4.4 2.3 2.2 4.3 12.7

Los datos se encuentran en el archivo PublicidadEuropa.dat. 1. Abrir el archivo de texto con el editor de texto. Observar su formato. 2. Exportar los datos a un archivo de datos editable con SAS. 3. Revisar /modificar las etiquetas de las variables.

14

3.3.1. Fichero SAS de Sintaxis: Publicidad.Datos


/* el fichero est separado por tabuladores utilizaremos DLM='09'X*/
DATA PUB; INFILE 'PublicidadEuropa.dat' DLM='09'x FIRSTOBS=2; INPUT PAIS $ DIARIOS REVISTAS TV RADIO CINE EXTERIOR; RUN; PROC PRINT DATA=PUB; RUN; PROC CONTENTS DATA=PUB; RUN;

15

3.4.

Peso de bebs

El archivo PesoBebes.sav contiene informacin de 189 nacimientos, siendo el peso del beb al nacer la variable principal. 1. Abrir el archivo con SPSS y exportarlo a SAS. 2. Editar las etiquetas de las variables y sus valores. 3. Se considera que un peso inferior a 2500 gramos es demasiado pequeo, pudiendo afectar problemas en el recin nacido. Crear la variable binaria que discrimine a los bebs segn este factor de riesgo.

16

3.4.1. Fichero SAS de Sintaxis: Bebes.Datos


LIBNAME EXP SPSS 'PesoBebes.por'; DATA BEBES; SET EXP._FIRST_; RUN; PROC CONTENTS DATA=BEBES; RUN; PROC FORMAT; VALUE RAZA 1='1-BLANCA' 2='2-NEGRA' 3='3-OTRAS' ; VALUE BINARIA 0='0-NO' 1='1-SI' ; RUN; DATA BEBES; SET BEBES; LABEL V1='Cdigo ID'; LABEL V3='Edad madre'; LABEL V4='Peso de la madre en la ultima menstruacion'; LABEL V5='Raza madre'; LABEL V6='Fumar durante el embarazo'; LABEL V7='Embarazo prematuro'; LABEL V8='Hipertensin'; LABEL V9='Irritabilidad uterina'; LABEL V10='Numero de visitas al medico'; LABEL V11='Peso del beb en gramos'; FORMAT V5 RAZA. V6 BINARIA. V7 BINARIA. V8 BINARIA. V9 BINARIA.; RUN; PROC CONTENTS DATA=BEBES POSITION; RUN; DATA BEBES; SET BEBES; IF V11<= 2500 THEN POCOPESO=1; IF V11> 2500 THEN POCOPESO=0; RUN; PROC FORMAT; VALUE POCOPESO 0='SUPERIOR A 2500 G' 1='INFERIOR A 2500 G'; RUN; DATA BEBES; SET BEBES; FORMAT POCOPESO POCOPESO.; RUN; PROC PRINT LABEL DATA=BEBES; RUN; PROC CONTENTS DATA=BEBES POSITION; RUN;

17

3.5.

Caparazn Palletoida

El archivo CaparazonPalletoida.sav contiene la longitud y la altura medidas en 28 caparazones de la especie Palletoida de moluscos. 1. Importar los datos a un archivo editable con SAS. 2. Editar las etiquetas de las variables. Imprimir el archivo con las etiquetas longitud y altura de las variables X e Y. 3. Crear la variable que contenga el logaritmo de la longitud.

18

3.5.1. Fichero SAS de Sintaxis: Caparazon.Datos


LIBNAME PALLET SPSS 'caparazonpalletoide.por'; DATA caparaz; SET PALLET._FIRST_; RUN; PROC PRINT data=caparaz; RUN; * INFORMACIN CONTENIDA EN EL FICHERO; PROC CONTENTS DATA=caparaz; RUN; PROC PRINT DATA=caparaz LABEL; LABEL X='altura' Y='longitud'; RUN; * LOGARITMO DE LA ALTURA; DATA caparaz; SET caparaz; loglongi = LOG(Y); RUN;

19

3.6.

Factores experimentales en la fabricacin del plstico

Una determinada fbrica desea conocer la mejor manera de producir un tipo de plstico. Para ello, realizan un experimento controlado, tomando como variables experimentales: Nivel de extrusin. 2 niveles (bajo o alto). Cantidad de aditivo. 2 niveles (bajo o alto). Creen que una variacin en los niveles de estos factores afecta a las caractersticas del plstico finalmente fabricado. Concretamente, estn interesados en estudiar la resistencia a la ruptura, el brillo y la opacidad de los plsticos generados (valorados en una escala de 0 a 10). Su objetivo es fabricar un tipo de plstico con los mximos valores de estos parmetros. Para resolver esta cuestin, realizan un experimento factorial 22, con cuatro rplicas para cada condicin experimental. Los datos recogidos son los siguientes: Nivel de extrusin 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 Cantidad de aditivo 1 1 1 1 1 2 2 2 2 2 1 1 1 1 1 2 2 2 2 2 Resistencia a la ruptura 6.5 6.2 5.8 6.5 6.5 6.9 7.2 6.9 6.1 6.3 6.7 6.6 7.2 7.1 6.8 7.1 7.0 7.2 7.5 7.6 Brillo 9.5 9.9 9.6 9.6 9.2 9.1 10.0 9.9 9.5 9.4 9.1 9.3 8.3 8.4 8.5 9.2 8.8 9.7 10.1 9.2 Opacidad 4.4 6.4 3.0 4.1 .8 5.7 2.0 3.9 1.9 5.7 2.8 4.1 3.8 1.6 3.4 8.4 5.2 6.9 2.7 1.9

1. Importar los datos del archivo ExperimentoPlastico.sav a un archivo editable con SAS. 2. Revisar la importacin de etiquetas.

20

3.6.1. Fichero SAS de Sintaxis: Plastico.Datos


LIBNAME PLAST SPSS 'ExperimentoPlastico.por'; DATA EXP; SET PLAST._FIRST_; RUN; PROC CONTENTS DATA=EXP; RUN; PROC FORMAT; VALUE EXTRUS 1='1-EXTRUSIN BAJA' 2='2-EXTRUSIN ALTA' ; VALUE ADITIVO 1='1-ADITIVO BAJO' 2='2-ADITIVO ALTO' ; RUN; DATA EXP; SET EXP; FORMAT EXTRUS EXTRUS. ADITIVO ADITIVO.; RUN; PROC CONTENTS DATA=EXP POSTITION; RUN;

21

4.
4.1.
1.

Estadstica descriptiva
Ejemplo bsico. Ejemplo1
Resumir la variable salario y calcular las medidas de posicin y variabilidad para el salario.
PROC UNIVARIATE DATA=ej12g; VAR salario; RUN;

2.

Comparar la variable salario para las dos submuestras que define la variable sexo

Antes de realizar un PROC UNIVARIATE para distintas submuestras los datos deben estar ordenados segn la variable que define las submuestras
PROC SORT DATA=ej12g; BY sexo; RUN; PROC UNIVARIATE DATA=ej12g; CLASS sexo; VAR salario; RUN;

22

23

3.

Dibujar un histograma del salario para cada submuestra


PROC UNIVARIATE DATA=ej12g; CLASS SEXO; VAR salario; HISTOGRAM; RUN;

4.

Resumir mediante una tabla de dos entradas las variables nivel de estudios y sexo
PROC FREQ DATA=ej12g; TABLES nivest*sexo; RUN;

5.

Dibujar un grfico de dispersin para las variables salario y edad


PROC GPLOT DATA=ej12g; PLOT salario*edad; RUN; *para editar el grafico como deseamos; AXIS2 LABEL=('SALARIO' justify=right '(en pts)'); AXIS1 LABEL=('EDAD (en aos)') ORDER=(20 TO 40 BY 5); PROC GPLOT DATA=ej12g; PLOT salario*edad /haxis=axis1 hminor=1 vaxis=axis2; SYMBOL1 VALUE=DOT COLOR=BLUE ; RUN;

24

25

4.2.

Homicidios en California 1850-1900

1. Realizar un listado de las variables de la base de datos creada en el ejercicio 3.2


PROC CONTENTS DATA=HOMICIDE POSTITION; RUN;

2. Distinguir entre variables respuesta y variables explicativas. 3. Realizar tablas de contingencia para analizar bivariantemente pares de variables categricas.
DATA HOMICIDE; SET HOMICIDE; IF ACCUSEX=9 OR VICSEX=9 THEN DELETE; RUN; PROC FREQ DATA=HOMICIDE; TABLES ACCUSEX*VICSEX/OUT=M OUTPCT; RUN; /* SE PUEDE EMPLEAR LA MISMA SINTAXI PARA CREAR OTRAS TABLAS DE CONTINGENCIA */

26

4. Crear la tabla de perfiles filas e interpretar los resultados.


PROC PRINT DATA=M; RUN;

5. Realizar grficos de lnea para los perfiles fila.


AXIS1 ORDER=(1 TO 2 BY 1); PROC GPLOT DATA=M; PLOT PCT_ROW * VICSEX=ACCUSEX /HAXIS=AXIS1 hminor=0; SYMBOL1 I=J VALUE=DOT COLOR=BLUE; SYMBOL2 I=J; RUN;

27

28

4.3.

Gastos de publicidad a Europa

1. Resumir los datos del ejercicio 3.3.


PROC MEANS DATA=pub; RUN;

2. Determinar e interpretar la matriz de correlaciones entre las variables.


PROC CORR DATA=PUB; VAR CINE DIARIOS EXTERIOR RUN; RADIO REVISTAS TV;

29

4. Realizar grficos de dispersin y evaluar la linealidad de las relaciones.


PROC GPLOT DATA=pub; PLOT TV*DIARIOS; TITLE 'GASTOS EN TV RESPECTO A DIARIOS'; RUN;

30

5. Diferenciar entre los pases de la zona mediterrnea del resto. Repetir los anlisis
*CREAMOS UNA NUEVA VARIABLE PARA DIFERENCIA L0S PASES MEDITERRNEOS DEL RESTO; DATA PUB; SET PUB; IF PAIS='France' OR PAIS='Greece' OR PAIS='Italy' OR PAIS='Portugal' OR PAIS='Spain' THEN MEDIT=1; ELSE MEDIT=2; RUN; PROC FORMAT; VALUE MEDIT 1='Pases mediterrneos' 2='Pases no mediterrneos'; RUN; DATA PUB; SET PUB; FORMAT MEDIT MEDIT.; RUN; PROC PRINT LABEL DATA=PUB; RUN; PROC SORT DATA=PUB; BY MEDIT; RUN; PROC CORR DATA=PUB; VAR CINE DIARIOS EXTERIOR RADIO REVISTAS TV; BY MEDIT; RUN;

31

32

4.4.

Peso de bebs

1. Analizar las tablas de contingencia cruzando la variable peso del beb (superior o inferior a 2500 gramos) con el resto de variables categricas.
PROC FREQ DATA=BEBES; TABLES V5*POCOPESO; RUN; PROC FREQ DATA=BEBES; TABLES V6*POCOPESO; RUN; PROC FREQ DATA=BEBES; TABLES V7*POCOPESO; RUN; PROC FREQ DATA=BEBES; TABLES V8*POCOPESO; RUN; PROC FREQ DATA=BEBES; TABLES V9*POCOPESO; RUN; * TAMBIEN PODEM OBTENER LAS TABLAS DE CONTINGENCIA CON LA INSTRUCCION; PROC FREQ DATA=BEBES; TABLES (V5 V6 V7 V8 V9)*POCOPESO; RUN;

2. Crear una tabla con los estadsticos descriptivos y grficos adecuados para analizar la edad de la madre y el nmero de visitas al mdico.
PROC MEANS DATA=BEBES; VAR V3 V10; RUN; PROC UNIVARIATE DATA=BEBES; VAR V3; HISTOGRAM; RUN; PROC GCHART DATA=BEBES; VBAR V10 /MIDPOINTS=(1 TO 6 BY 1) vminor=0; RUN;

33

34

3. Crear las tablas anteriores separadamente distinguiendo si el beb ha presentado un peso menor o superior a 2500 gramos.
PROC SORT DATA=BEBES; BY POCOPESO; RUN; PROC MEANS DATA=BEBES; VAR V3 V10; BY POCOPESO; RUN;

35

4.5.

Caparazn Palletoida

1. Editar el grfico de dispersin de la longitud (Y) respecto de la altura.


AXIS2 LABEL=('LONGITUD'); AXIS1 LABEL=('ALTURA') ORDER=(0.9 TO 2.7 BY 0.3); PROC GPLOT DATA=caparaz; PLOT Y*X /haxis=axis1 hminor=0 vaxis=axis2; SYMBOL1 VALUE=DOT COLOR=BLUE ; RUN;

2. Calcular e interpretar el coeficiente de correlacin entre las dos variables.


PROC CORR DATA=caparaz; VAR Y X; RUN; *si ademas queremos la covarianza; PROC CORR DATA=caparaz COV OUTP=corcap; VAR Y X; RUN;

36

3. Repetir los apartados anteriores utilizando el logaritmo de la longitud.


PROC CORR DATA=caparaz COV OUTP=corcapl; VAR loglongi X; RUN; AXIS2 LABEL=('LOG-LONGITUD') ORDER=(1.1 TO 1.9 BY 0.1); AXIS1 LABEL=('ALTURA') ORDER=(0.9 TO 2.7 BY 0.3); PROC GPLOT DATA=caparaz; PLOT loglongi*X /haxis=axis1 hminor=0 vaxis=axis2 vminor=0; SYMBOL1 VALUE= COLOR=BLUE ; RUN;

37

4.6.

Factores experimentales en la fabricacin de plstico

1. Resolver el problema planteado por la industria, utilizando tcnicas de estadstica descriptiva.


* anlisis de los efectos principales*; PROC MEANS DATA=EXP; CLASS EXTRUS; VAR BRILLO; OUTPUT OUT=G1 MEAN(BRILLO)= M1; RUN; GOPTIONS RESET=ALL; AXIS1 ORDER=(1 TO 2 BY 1); AXIS2 ORDER=(9 TO 9.7 BY 0.1); PROC GPLOT DATA=G1; WHERE _TYPE_=1; PLOT M1*EXTRUS / HAXIS=AXIS1 VMINOR=0 VAXIS=AXIS2; SYMBOL1 I=JOIN VALUE=DOT COLOR=BLUE; RUN; PROC MEANS DATA=EXP; CLASS ADITIVO; VAR BRILLO; OUTPUT OUT=G1 MEAN(BRILLO)= M1; RUN; PROC GPLOT DATA=G1; WHERE _TYPE_=1; PLOT M1*ADITIVO / HAXIS=AXIS1 VMINOR=0 VAXIS=AXIS2; RUN; PROC MEANS DATA=EXP; CLASS EXTRUS; VAR OPACIDAD; OUTPUT OUT=G1 MEAN(OPACIDAD)= M1; RUN; AXIS2 ORDER=(3.4 TO 4.5 BY 0.1); PROC GPLOT DATA=G1; WHERE _TYPE_=1; PLOT M1*EXTRUS / HAXIS=AXIS1 VMINOR=0 VAXIS=AXIS2; RUN; PROC MEANS DATA=EXP; CLASS ADITIVO; VAR OPACIDAD; OUTPUT OUT=G1 MEAN(OPACIDAD)= M1; RUN; PROC GPLOT DATA=G1; WHERE _TYPE_=1; PLOT M1*ADITIVO / HAXIS=AXIS1 VMINOR=0 VAXIS=AXIS2; RUN; PROC MEANS DATA=EXP; CLASS EXTRUS; VAR RESIST; OUTPUT OUT=G1 MEAN(RESIST)= M1; RUN;

38

AXIS2 LABEL=('resistencia' justify=right 'a la ruptura') ORDER=(6.4 TO 7.1 BY 0.1); PROC GPLOT DATA=G1; WHERE _TYPE_=1; PLOT M1*EXTRUS / HAXIS=AXIS1 VMINOR=0 VAXIS=AXIS2; RUN; PROC MEANS DATA=EXP; CLASS ADITIVO; VAR RESIST; OUTPUT OUT=G1 MEAN(RESIST)= M1; RUN; PROC GPLOT DATA=G1; WHERE _TYPE_=1; PLOT M1*ADITIVO / HAXIS=AXIS1 VMINOR=0 VAXIS=AXIS2; RUN;

2. Qu caractersticas dependen del nivel de extrusin? Cmo?

39

40

3. Qu caractersticas dependen de la cantidad de aditivo? Cmo?

41

4. Existe interaccin entre el nivel de extrusin y la cantidad de aditivo?


*analisis de las interacciones ; PROC MEANS DATA=EXP; CLASS EXTRUS ADITIVO; VAR BRILLO; OUTPUT OUT=G4 MEAN(BRILLO)= M4; RUN; AXIS2 ORDER=(8.7 TO 9.7 BY 0.2); PROC GPLOT DATA=G4; WHERE _TYPE_=3; PLOT M4*EXTRUS=ADITIVO / HAXIS=AXIS1 VMINOR=0 VAXIS=AXIS2; SYMBOL2 I=JOIN VALUE='TRIANGLE'; RUN; PROC MEANS DATA=EXP; CLASS EXTRUS ADITIVO; VAR OPACIDAD; OUTPUT OUT=G4 MEAN(OPACIDAD)= M4; RUN; AXIS2 ORDER=(3 TO 5.3 BY 0.3); PROC GPLOT DATA=G4; WHERE _TYPE_=3; PLOT M4*EXTRUS=ADITIVO / HAXIS=AXIS1 VMINOR=0 VAXIS=AXIS2; RUN; PROC MEANS DATA=EXP; CLASS EXTRUS ADITIVO; VAR RESIST; OUTPUT OUT=G4 MEAN(RESIST)= M4; RUN;

42

AXIS2 LABEL=('resistencia' justify=right 'a la ruptura') ORDER=(6.2 TO 7.4 BY 0.3); PROC GPLOT DATA=G4; WHERE _TYPE_=3; PLOT M4*EXTRUS=ADITIVO / HAXIS=AXIS1 VMINOR=0 VAXIS=AXIS2; RUN;

5. Cul es el mejor prototipo por lo que se refiere a la resistencia a la ruptura? y respecto al brillo? y respecto la opacidad? Para la resistencia a la ruptura: un plstico con un nivel de extrusin y aditivo altos Para el brillo: un plstico con un nivel de extrusin bajo y aditivo alto Para la opacidad: un plstico con un nivel de extrusin y aditivo altos 6. Existe algn plstico ptimo? Es robusto? A la vista de los grficos el plstico ptimo tendra un nivel de extrusin y aditivo altos

43

5.
5.1.

Inferencia estadstica bsica


Ejemplo bsico. Ejemplo1

1. Realizar un intervalo de confianza al 90%, 95% y 99% para la media de la variable salario.
PROC TTEST DATA=EJ12G; VAR SALARIO; RUN; PROC TTEST DATA=EJ12G ALPHA=0.1; VAR SALARIO; RUN; PROC TTEST DATA=EJ12G ALPHA=0.01; VAR SALARIO; RUN;
The TTEST Procedure Statistics Lower CL Mean 16260 Upper CL Mean 24509 Lower CL Std Dev 4894.6 Upper CL Std Dev 11267

Variable salario

N 13

Mean 20385

Std Dev 6825.7

Std Err 1893.1

T-Tests Variable salario DF 12 t Value 10.77 Pr > |t| <.0001

2. Realizar los mismos intervalos distinguiendo para las dos submuestras que define la variable sexo. 3. Calcular el coeficiente de correlacin entre las variables salario y edad. Evaluar su significacin.
PROC CORR DATA=EJ12G; VAR SALARIO EDAD; RUN;
Pearson Correlation Coefficients, N = 13 Prob > |r| under H0: Rho=0 salario salario 1.00000 edad 0.86315 0.0001 1.00000

edad

0.86315 0.0001

44

5.2.

Homicidios en California 1850-1900

1. Analizar el grado de dependencia entre pares de variables categricas, representadas en una tabla de contingencia. 2. Resolver la prueba de independencia de ji-cuadrado.
PROC FREQ DATA=HOMICIDE; TABLES ACCUSEX*VICSEX/CHISQ; RUN;
The FREQ Procedure Table of ACCUSEX by VICSEX ACCUSEX(SEX OF ACCUSED) VICSEX(SEX OF VICTIM) Frequency Percent Row Pct Col Pct 1-MALE 2-FEMALE Total 1-MALE 1052 87 1139 90.38 7.47 97.85 92.36 7.64 98.23 93.55 2-FEMALE 19 6 25 1.63 0.52 2.15 76.00 24.00 1.77 6.45 Total 1071 93 1164 92.01 7.99 100.00

Statistics for Table of ACCUSEX by VICSEX Statistic DF Value Prob Chi-Square 1 8.9085 0.0028 Likelihood Ratio Chi-Square 1 6.1284 0.0133 Continuity Adj. Chi-Square 1 6.8218 0.0090 Mantel-Haenszel Chi-Square 1 8.9008 0.0029 Phi Coefficient 0.0875 Contingency Coefficient 0.0872 Cramer's V 0.0875 WARNING: 25% of the cells have expected counts less than 5. Chi-Square may not be a valid test.

45

5.3.

Gastos de publicidad a Europa

1. Determinar la matriz de correlaciones entre las variables e avaluar la significacin de los coeficientes de correlacin.
PROC CORR DATA=PUB; VAR CINE DIARIOS EXTERIOR RUN; RADIO REVISTAS TV;

The CORR Procedure 6 Variables: CINE DIARIOS EXTERIOR RADIO REVISTAS TV

Simple Statistics Variable CINE DIARIOS EXTERIOR RADIO REVISTAS TV N 16 16 16 16 16 16 Mean 0.53750 49.77500 6.15625 3.94375 19.24375 20.35625 Std Dev 0.47170 19.00023 4.10186 3.05766 6.66033 12.86489 Sum 8.60000 796.40000 98.50000 63.10000 307.90000 325.70000 Minimum 0 25.10000 1.30000 0 5.40000 2.20000 Maximum 1.40000 78.60000 14.20000 10.30000 28.20000 43.20000

Pearson Correlation Coefficients, N = 16 Prob > |r| under H0: Rho=0 CINE CINE 1.00000 DIARIOS 0.14338 0.5963 1.00000 EXTERIOR 0.30033 0.2584 -0.41420 0.1107 1.00000 RADIO -0.19350 0.4727 -0.46603 0.0688 0.00723 0.9788 1.00000 REVISTAS 0.10448 0.7002 -0.68887 0.0032 0.35120 0.1823 0.06992 0.7969 1.00000 TV -0.35390 0.1787 -0.88498 <.0001 0.09987 0.7129 0.42136 0.1041 0.36761 0.1613 1.00000

DIARIOS

0.14338 0.5963 0.30033 0.2584 -0.19350 0.4727 0.10448 0.7002 -0.35390 0.1787

EXTERIOR

-0.41420 0.1107 -0.46603 0.0688 -0.68887 0.0032 -0.88498 <.0001

RADIO

0.00723 0.9788 0.35120 0.1823 0.09987 0.7129

REVISTAS

0.06992 0.7969 0.42136 0.1041

TV

0.36761 0.1613

46

5.4.

Peso de bebs

1. Analizar las tablas de contingencia cruzando la variable peso del beb (superior o inferior a 2500 gramos) con el resto de variables categricas. Plantear y resolver la prueba de independencia de ji-cuadrado. 2. Comparar las medias de las edades de las madres y el nmero de visitas distinguiendo si el beb ha presentado un peso menor o mayor a 2500 gramos.

PROC FREQ DATA=BEBES; TABLES V5*POCOPESO/CHISQ; RUN; PROC FREQ DATA=BEBES; TABLES V6*POCOPESO/CHISQ; RUN; PROC FREQ DATA=BEBES; TABLES V7*POCOPESO/CHISQ; RUN; PROC FREQ DATA=BEBES; TABLES V8*POCOPESO/CHISQ; RUN; PROC FREQ DATA=BEBES; TABLES V9*POCOPESO/CHISQ; RUN; PROC TTEST DATA=BEBES; CLASS POCOPESO; VAR V4 V10; RUN;

47

5.5.

Caparazn Palletoida

1. Editar el grfico de dispersin de la longitud (Y) respecto la altura. 2. Calcular e interpretar el coeficiente de correlacin entre las dos variables. Evaluar el grado de significacin. 3. Repetir los apartados anteriores utilizando el logaritmo de la longitud.

48

5.6.

Factores experimentales en la fabricacin de plstico

1. Resolver el problema planteado en los ejercicios 3.6 y 4.6 mediante pruebas de hiptesis. Construir intervalos de confianza para los prototipos.

49

5.7.

Capacidad de deteccin de los murcilagos

Los murcilagos son capaces de detectar un objeto slido mediante un sofisticado sistema de localizacin. Se piensa que este sistema presenta un dimetro mximo de 6 metros. Para confirmar esta hiptesis se seleccion una muestra aleatoria simple de 16 murcilagos, cada uno de los cules fue liberado en una zona grande que presentaba un nico obstculo. Se observ la distancia a la que el murcilago era capaz de detectarlo. Los datos recogidos son los siguientes: 6.2 , 6.8, 6.1, 5.7, 6.1, 6.3, 5.8, 6.3, 5.9, 6.3, 6.4, 6.0, 6.3, 6.2, 5.9, 6.1 1. Describir la muestra mediante una tabla de estadsticos descriptivos y un diagrama de caja.
data MURC; input DISTANCIA; datalines; 6.2 6.8 6.1 5.7 6.1 6.3 5.8 6.3 5.9 6.3 6.4 6.0 6.3 6.2 5.9 6.1 ; RUN; PROC PRINT DATA=MURC; RUN; PROC UNIVARIATE DATA=MURC; RUN; DATA MURC; SET MURC; MUESTRA=1; RUN; PROC BOXPLOT DATA=MURC; PLOT DISTANCIA*MUESTRA; RUN;

50

2. Construir un intervalo de confianza al 95% para el dimetro medio poblacional de deteccin de los murcilagos.
DATA MURC; SET MURC; CDIST=DISTANCIA-6; RUN; PROC PRINT DATA=MURC; RUN; PROC TTEST DATA=MURC; VAR DISTANCIA; RUN;
The TTEST Procedure Statistics Lower CL Mean 6.0083 Upper CL Mean 6.2917 Lower CL Std Dev 0.1964 Upper CL Std Dev 0.4114

Variable DISTANCIA

N 16

Mean 6.15

Std Dev 0.2658

Std Err 0.0665

T-Tests Variable DISTANCIA DF 15 t Value 92.54 Pr > |t| <.0001

51

3. Plantear y resolver un contraste de hiptesis que permita analizar la plausibilidad de la hiptesis apuntada inicialmente por los investigadores.
PROC TTEST DATA=MURC; VAR CDIST; RUN;
The TTEST Procedure Statistics Lower CL Mean 0.0083 Upper CL Mean 0.2917 Lower CL Std Dev 0.1964 Upper CL Std Dev 0.4114

Variable CDIST

N 16

Mean 0.15

Std Dev 0.2658

Std Err 0.0665

T-Tests Variable CDIST DF 15 t Value 2.26 Pr > |t| 0.0394

52

5.8.

Velocidad de reaccin

Se desea analizar la velocidad de reaccin de unas partculas sometidas a una reaccin qumica. Para realizar este procedimiento se dispone de dos instrumentos de medida. Fruto de la experimentacin, se obtuvieron dos muestras, con los siguientes resultados: Instrumento A: 25.4, 27.8, 30.4, 15.2, 33.6, 30.2, 28.7, 40.7, 32.5, 36.8 Instrumento B: 35.6, 59.8, 43.2, 32.5, 26.7, 39.5, 63.4, 45.7, 56.8, 43.2
data REACCION; input VEL MAQ$; datalines; 25.4 A 27.8 A 30.4 A 15.2 A 33.6 A 30.2 A 28.7 A 40.7 A 32.5 A 36.8 A 35.6 B 59.8 B 43.2 B 32.5 B 26.7 B 39.5 B 63.4 B 45.7 B 56.8 B 43.2 B ; RUN; PROC PRINT DATA=REACCION; RUN; PROC SORT DATA=REACCION; BY MAQ; RUN; PROC BOXPLOT DATA=REACCION; PLOT VEL*MAQ; RUN;

1. Realizar grficos descriptivos que permitan comparar ambas muestras

53

PROC TTEST DATA=REACCION; CLASS MAQ; VAR VEL;


RUN;

2. Plantear un contraste de hiptesis para comparar las medias de velocidad de reaccin segn el instrumento. Construir un intervalo de confianza para la diferencia.

The TTEST Procedure Statistics Lower CL Mean 25.204 36.002 -23.74 Upper CL Mean 35.056 53.278 -5.275 Lower CL Std Dev 4.7361 8.3057 7.4269 Upper CL Std Dev 12.57 22.044 14.535

Variable VEL VEL VEL

Class A B Diff (1-2)

N 10 10

Mean 30.13 44.64 -14.51

Std Dev 6.8856 12.075 9.829

Std Err 2.1774 3.8185 4.3957

T-Tests Variable VEL VEL Method Pooled Satterthwaite Variances Equal Unequal DF 18 14.3 t Value -3.30 -3.30 Pr > |t| 0.0040 0.0051

Equality of Variances Variable VEL Method Folded F Num DF 9 Den DF 9 F Value 3.08 Pr > F 0.1096

54

6.
6.1.

Modelizacin estadstica
Crecimiento del ficus

Se desea estudiar el crecimiento de los ficus en funcin del tiempo. Para ello, se observa el crecimiento, en centmetros, de un conjunto de 30 plantas hasta los 126 das. Los datos se encuentran en el fichero FICUS.SAS7BDAT. 1. Plantear y ajustar modelos que expliquen el crecimiento a partir del tiempo.
libname datos 'N:\Material Cursos\Curs SAS - 2003\Fitxers dades'; goptions reset=all ftext=triplex2 fontres=presentation vsize=13cm hsize=16cm device=gif; options formdlim='_' nodate nonumber; axis label=(a=90 r=0); proc tabulate data=datos.ficus; class dias; var altura; table altura,dias,n mean std cv; title2 'Tabla'; run;
Tabla ALTURA N Mean Std CV DIAS 4 30.00 3.40 1.53 45.03 23 30.00 7.21 2.16 29.99 39 30.00 9.93 1.94 19.53 58 30.00 12.99 2.04 15.69 73 30.00 16.92 2.45 14.51 90 30.00 22.82 2.82 12.34 108 30.00 31.12 3.48 11.20 126 30.00 37.13 3.53 9.51

55

data ficus; set datos.ficus; laltura=log(altura); run; proc reg data=ficus; model laltura=dias/clb; output out=r student=st p=p; title2 'Regresin del logaritmo de la altura'; run;
Regresin del logaritmo de la altura The REG Procedure Model: MODEL1 Dependent Variable: laltura Analysis of Variance Sum of Squares 136.89863 16.97119 153.86982 Mean Square 136.89863 0.07131

Source Model Error Corrected Total

DF 1 238 239

F Value 1919.83

Pr > F <.0001

Root MSE Dependent Mean Coeff Var

0.26703 2.60930 10.23396

R-Square Adj R-Sq

0.8897 0.8892

Parameter Estimates Parameter Estimate 1.36343 0.01913 Standard Error 0.03325 0.00043661

Variable Intercept 1.42893 DIAS 0.01999

DF 1 1

t Value 41.00 43.82

Pr > |t| <.0001 <.0001

95% Confidence Limits 1.29792 0.01827

proc gplot data=r; plot laltura *dias=1 p*dias=2/overlay vaxis=axis name='m21'; plot st*p/vref=-2 0 2 vaxis=axis name='m22'; symbol1 v=plus i=none c=black; symbol2 v=none i=sm c=black; run; quit;

56

proc nlin data=datos.ficus; parameters alfa=3 beta=.02; model altura=alfa*exp(beta*dias); output out=r student=st p=p; title2 'Regresion no lineal'; run;
Regresion no lineal The NLIN Procedure Iterative Phase Dependent Variable ALTURA Method: Gauss-Newton Sum of Squares 4347.3 4205.2 1952.9 1927.1 1927.1 1927.1 1927.1

Iter 0 1 2 3 4 5 6

alfa 3.0000 5.1391 5.2025 5.2847 5.2759 5.2765 5.2765

beta 0.0200 0.0146 0.0161 0.0158 0.0158 0.0158 0.0158

NOTE: Convergence criterion met.

57

Estimation Summary Method Iterations R PPC(alfa) RPC(alfa) Object Objective Observations Read Observations Used Observations Missing Gauss-Newton 6 8.676E-7 4.496E-7 6.927E-6 1.67E-10 1927.064 240 240 0

NOTE: An intercept was not specified for this model. Sum of Squares 104172 1927.1 106099 30990.4 Mean Square 52085.8 8.0969 Approx Pr > F <.0001

Source Regression Residual Uncorrected Total Corrected Total

DF 2 238 240 239

F Value 6432.80

proc gplot data=r; plot altura *dias=1 p*dias=2/overlay name='m23'; plot st*p/vref=-2 0 2 name='m24'; symbol1 v=plus i=none c=black; symbol2 v=none i=sm c=black; run; quit;

58

59

7.
7.1.

Programacin en lenguaje macro


Validacin de una matriz de datos.

Antes de cualquier anlisis estadstico es necesario realizar una validacin de los datos disponibles. En este proceso es habitual detectar los valores faltantes y los valores fuera de rango. Los datos se encuentran en el fichero PESOBEBES.POR 1. Detectar todos los casos con valores faltantes y producir un nico listado. 2. Detectar todos los casos con valores fuera de rango y producir un nico listado. Se pueden tener en cuenta los siguientes rangos: Edad de la Madre: 18-40 Peso de la Madre (en Libras): 90-200 Peso del Beb (en gramos): 1500-4000 Variables categricas dentro de las posibles categoras. 3. Detectar todos los casos con posibles errores de inconsistencia y producir un nico listado. Se puede validar la siguiente condicin: Irritabilidad Uterina tendra que implicar al menos una visita al mdico en el primer trimestre. 4. Producir un informe conjunto de todas las incidencias detectadas para cada individuo.

60

7.2.

Exportacin de SPSS a SAS.

En este ejemplo se utilizar la macro spss2sas para exportar las etiquetas de valores de las variables categricas. Los datos se encuentran en el fichero PESOBEBES.SAV 1. Utilizar la macro spss2sas para exportar la base de datos PESOBEBES.SAV de SPSS a SAS.

61

8.

Los datos

En este apartado se enumeran, por orden de aparicin, los datos utilizados en estas prcticas as como su precedencia.
HOMICIDIOS EN CALIFORNIA. National Archive of Criminal Justice Data de los EUA

(http://www.icpsr.umich.edu/NACJD/).
GASTOS DE PUBLICIDAD EN EUROPA Press Landscape update & Eur. Direct Marketing NTC,

1991
PESO DE BEB. Hosmer & Lemeshow (2000) CAPARAZN PALLETOIDA Fichero base de SPSS. FACTORES EXPERIMENTALES EN LA FABRICACIN DEL PLSTICO Milton, J. Estadstica

para Biologa y Ciencias de la Salud. McGraw-Hill


CAPACIDAD DE DETECCIN DE MURCILAGOS Milton, J. Estadstica para Biologa y Ciencias de

la Salud. McGraw-Hill
VELOCIDAD DE REACCIN Milton, J. Estadstica para Biologa y Ciencias de la Salud. McGraw-

Hill
CRECIMIENTO DEL FICUS Utilizado con autorizacin de la Escola dEnginyeria Tcnica

Agrcola de la Universitat Politcnica de Catalunya.

62

9.

Bibliografa

Delwiche, L. D. & Slaughter, S. J. (2002). The Little SAS Book: A Primer. Second ed. SAS Institute Gilmore, J. (1999). Painless Windows: A Handbook for SAS users. Second ed. SAS Institute Hosmer, D.W. & Lemeshow, S. (2000). Applied Logistic Regression. Second ed. Willey & Sons

63

Você também pode gostar