Escolar Documentos
Profissional Documentos
Cultura Documentos
Spss Nº1
Spss Nº1
SPSS
ndice
NDICE
12-
2.1 -
3-
3.1 -
4-
GRFICOS ................................................................................................. 44
GRFICOS STANDARDIZADOS .................................................... 44
4.1.1 4.1.2 4.1.3 4.1.4 4.1.5 4.1.6 -
4.1 -
GRFICO DE BARRAS ........................................................................... 45 HISTOGRAMA ........................................................................................ 50 GRFICO DE EXTREMOS-E-QUARTIS ................................................. 52 GRFICO DE BARRA DE ERROS .......................................................... 54 GRFICOS DE PROBABILIDADES........................................................ 56 GRFICO DE DISPERSO ..................................................................... 59 4.2 EDIO DOS GRFICOS STANDARDIZADOS........................ 62 4.3 GRFICOS INTERACTIVOS ............................................................ 65 4.3.1 GRFICO DE BARRAS ........................................................................... 66 4.3.2 GRFICO DE DISPERSO ..................................................................... 70 4.4 EDIO DE GRFICOS INTERACTIVOS ................................... 75
ESACB
SPSS
ndice
TESTES T ......................................................................................................... 79 TESTE T PARA A MDIA DE UMA AMOSTRA...................................... 82 TESTE T PARA DUAS AMOSTRAS INDEPENDENTES ......................... 83 TESTE T PARA DUAS AMOSTRAS EMPARELHADAS ......................... 86 ANLISE DE VARINCIA ........................................................................... 90
6.1 - ENSAIOS UNI-FACTORIAIS ...................................................................... 90 6.1.1 - PROCEDIMENTO ONE-WAY ANOVA ................................................. 91 6.1.2 - PROCEDIMENTO MEANS.................................................................... 96 6.2 - ENSAIOS MULTI-FACTORIAIS................................................................. 99 77.1 7.2 7.3 7.4 8REGRESSO LINEAR ................................................................................. 111 INTRODUO............................................................................................ 111 REGRESSO LINEAR SIMPLES.............................................................. 115 REGRESSO LINEAR MLTIPLA .......................................................... 121 AJUSTAMENTO DE MODELOS PR-DEFINIDOS................................ 131 MANUSEAR OS RESULTADOS................................................................. 136
ESACB
ii
SPSS
1 - Introduo
1-
INTRODUO
O pakage estatstico SPSS para Windows um poderoso sistema de anlises estatsticas e manuseamento de dados, num ambiente grfico, em que a utilizao mais frequente, para a maioria das anlises a efectuar, se resume seleco das respectivas opes em menus e caixas de dilogo. Contudo, o sistema dispe de um editor de comandos, a que o utilizador mais avanado poder recorrer a fim de realizar determinado tipo de anlises mais complexas e elaboradas. De um modo muito sucinto, o sistema SPSS dispe de: Data Editor: Editor de Dados: uma verstil folha de clculo, que permite definir, introduzir, modificar, corrigir e visualizar a informao. O Data Editor abre automaticamente quando se entra no SPSS.
Viewer:
Janela de Resultados: Todos os resultados estatsticos, tabelas, grficos, so visualizados numa janela designada por Viewer. Uma janela Viewer abre automaticamente na primeira vez que o utilizador executar uma tarefa que gera output. Na figura seguinte apresenta-se o aspecto da janela de resultados referentes ao clculo das estatsticas elementares um conjunto de dados (varivel com o nome fosfo). O Viewer composto por duas janelas: esquerda est um organigrama do output; direita esto os resultados propriamente ditos. Neste exemplo, os resultados incluem as instrues necessrias execuo
ESACB
SPSS
1 - Introduo
da tarefa: o que se designa por Log1, e que composto pelas seguintes linhas de instrues:
DESCRIPTIVES VARIABLES=fosfo /STATISTICS=MEAN SUM STDDEV VARIANCE RANGE MIN MAX SEMEAN KURTOSIS SKEWNESS .
Estas instrues foram geradas, no caso, pela seleco de opes nos menus do programa; contudo, podem ser digitadas, como se de uma linguagem de programao se tratasse2.
Pivot Tables: Tabelas Dinmicas: O programa dispe de uma potente rotina de gerao de tabelas dinmicas (ou pivot tables), que permitem que o utilizador explore os dados, com o re-arranjo de colunas e linhas. Grficos: O SPSS permite realizar todos os tipos de grficos usuais em estatstica, a fim de realar as anlises efectuadas.
Acesso a Bases de Dados: O SPSS permite o acesso s bases de dados mais usuais, em formato SQL e ODBC, tais como ficheiros de dados criados em dBase, Access, Excel, Lotus, etc. A importao de ficheiros de texto, Access, Excel, feita atravs de um assistente de importao (wizard).
O Log pode no estar visvel; s aparece na janela Viewer se se tiver configurado o programa para mostrar este item. O utilizador pode escrever as suas prprias rotinas de anlise; para tal, deve abrir o SPSS Syntax Editor, janela de edio de comandos do SPSS.
ESACB
SPSS
2 - Edio de Dados
2-
EDITOR DE DADOS
O Data Editor do SPSS um programa do tipo de folha de clculo que permite facilmente criar ou editar ficheiros de dados. O Data Editor abre automaticamente quando se entra no SPSS. O aspecto inicial do editor o seguinte:
Muitas das caractersticas do data editor do SPSS so similares s de qualquer folha de clculo em ambiente Windows, tal como o Excel. As colunas correspondem s variveis. Inicialmente, todas as colunas, ou variveis, tem o mesmo nome genrico, var, tal como mostrado na imagem. O utilizador ir dar os nomes s variveis que definir. As linhas correspondem aos casos, ou indivduos. Cada clula contm um valor ou observao de um indivduo, em relao a uma determinada caracterstica ou varivel. As clulas podem apenas conter valores (numricos ou alfanumricos); no possvel, tal como se faz nas folhas de clculo, definir frmulas em clulas. O SPSS permite definir frmulas, mas que afectam integralmente toda uma varivel ou coluna. O ficheiro de dados rigorosamente rectangular, sendo o seu tamanho definido pelo nmero de casos e de variveis. O utilizador pode introduzir valores em clulas fora das
ESACB
SPSS
2 - Edio de Dados
fronteiras actuais da folha de clculo; contudo, o SPSS automaticamente acrescenta linhas e/colunas de modo a que essa nova observao fique includa dentro da estrutura rectangular. A fim de ilustrar este aspecto, considere a seguinte imagem referente a um folha de dados do SPSS, em que existem duas variveis (com os nomes x e y), com 6 casos ou observaes. Repare na posio da clula activa.
Se se introduzir um valor (por exemplo, 25) para esta clula, fora dos limites do ficheiro rectangular, o SPSS cria duas novas variveis numricas atribuindo-lhes automaticamente os nomes var00002 e var00003, e introduz valores em branco para as clulas, de modo a ficar um ficheiro rectangular, com 4 variveis e 7 casos (repare que estas clulas tm o ponto decimal):
Estas clulas, aparentemente vazias, so assumidas pelo SPSS como missing values, isto , observaes em falta para algumas variveis. Contudo, e para j, estas clulas no afectam os clculos estatsticos, caso se se trate de variveis numricas. Por exemplo, calculando a mdia da varivel x obter-se- o valor de 15, como lgico, para os valores apresentados.
ESACB
SPSS
2 - Edio de Dados
Variedade Azoto N0 N1 V1 N2 N3 N4 N0 N1 V2 N2 N3 N4 N0 N1 V3 N2 N3 N4
1 3852 4788 4576 6034 5874 2846 4956 5928 5664 5458 4192 5250 5822 5888 5864
Repetio 2 3 2606 3144 4936 4562 4454 4884 5276 5906 5916 5984 3794 4108 5128 4150 5698 5810 5362 6458 5546 5786 3754 3738 4582 4896 4848 5678 5524 6042 6264 6056
4 2894 4608 3924 5652 5518 3444 4990 4308 5474 5932 3428 4286 4932 4756 5362
Como se referiu atrs, os dados devero ser introduzidos para uma matriz rectangular, em que as colunas so as variveis e as linhas os casos. Neste caso, as variveis so a Variedade, o Azoto, a Repetio e a Produo. 2.1.1 - DEFINIO DE VARIVEIS Vamos comear por definir estas variveis no SPSS dando-lhes nomes vlidos; as regras para os nomes das variveis so: nome da varivel tem no mximo, 8 caracteres; nome da varivel deve comear por uma letra; os restantes caracteres podem ser letras (maisculas ou minsculas so iguais), algarismos, ou os smbolos @, #, _, $. No se podem usar espaos em branco, nem os seguintes caracteres: !, ?, , , *, +, -, %, vrgula, ponto e vrgula, \, /, >, < Os nomes no podem terminar com ponto; Evitar terminar o nome com o caracter _ (underscore); Evitar usar caracteres acentuados ou com til.
ESACB
SPSS
2 - Edio de Dados
No exemplo, vamos definir as seguintes variveis: variedad azoto repete producao Varivel numrica inteira, cujos valores so 1, 2, 3, com as seguintes correspondncias, a fim de facilitar a sua introduo: 1 : IR8; 2 : IR5; 3 : C4-64; Varivel inteira: 0: 0 kg/ha; 1: 60 kg/ha; ... ; 4: 150 kg/ha; Varivel inteira, com os valores 1, 2, 3, 4 Varivel real, com duas casas decimais (por defeito).
A fim de definir cada uma das variveis, fazer o seguinte procedimento: Duplo click na clula do nome da varivel (var) no topo da coluna, ou click em qualquer stio da coluna para a varivel e seleccionar no menu a opo Data, seleccionando depois a opo Define Variable...
Igualmente pode fazer click com o boto direito na clula do nome da varivel (var) no topo da coluna; aparece o menu:
onde se selecciona a opo Define Variable... Na sequncia de qualquer dos procedimentos anteriores aparece a seguinte caixa de dilogo de definio da varivel:
ESACB
SPSS
2 - Edio de Dados
No campo Variable Name escrever o nome da varivel; no caso, variedad Seleccionar a opo
No campo Decimal Places alterar o valor para 0 (casas decimais); e fazer Seleccionar a opo No campo Value escrever o valor 1; no campo Value Label: escever IR8; fazer
ESACB
SPSS
2 - Edio de Dados
Repetir o processo de definio de Value e Value Label para os valores 2 (IR5) e 3 (C463); para cada valor, fazer :
No final, fazer
A caixa serve para entrar uma breve descrio da varivel, mais elucidativa que apenas o nome; de preenchimento facultativo. Para aceitar estas alteraes, e terminar a definio da varivel variedad, na caixa de dilogo fazer OK:
ESACB
SPSS
2 - Edio de Dados
De modo idntico, definir as restantes variveis; note-se que a opo Labels serve para fazer as correspondncias, de modo que neste exemplo s usada para as variveis variedad e azoto; na definio da varivel producao, no necessrio ir opo Type porque, por defeito, as variveis so numricas reais (com duas casa decimais). Terminada a definio de variveis, o Data Editor ter o seguinte aspecto:
2.1.2 - INTRODUO DOS VALORES Definidas as variveis, introduzem-se os dados; o utilizador deve optar pela estratgia de introduzir os valores coluna a coluna, ou linha a linha, que lhe for mais favorvel e menos propensa a erros. Para apagar um valor, colocar o cursor na clula respectiva e carregar a tecla DEL. Para alterar ou corrigir um valor errado numa das clulas, activa-se essa clula (levando o cursor para l, ou simplesmente fazendo click) e digita-se o valor correcto, fazendo-o entrar com Enter ou deslocando para outra clula. O ficheiro ficar com o seguinte aspecto:
ESACB 9
SPSS
2 - Edio de Dados
Usou-se a codificao dos valores das variveis variedad e azoto, por um lado para facilitar a introduo dos valores, e por outro lado para ser menos propenso a erros. Contudo, podem visualizar-se o nome da variedade e o valor da adubao; para tal, no menu principal seleccionar a opo , e depois seleccionar a opo Value Labels:
O ficheiro de dados toma agora o aspecto mais elucidativo acerca dos dados a analisar:
ESACB
10
SPSS
2 - Edio de Dados
2.1.3 - GRAVAR O FICHEIRO DE DADOS Tendo introduzido e corrigido os dados, grava-se o ficheiro com um nome vlido (aplicamse as regras de nomes de ficheiros de MS-DOS). Para gravar, faz-se:
Na caixa escreve-se o nome a dar ao ficheiro, por exemplo arroz; automaticamente atribuda a extenso .sav tpica dos ficheiros de dados do SPSS:
Caso se pretenda guardar o ficheiro num disco ou directrio que no do directrio activo, abrir a caixa pretendido: e seleccionar o disco/directrio
ESACB
11
SPSS
2 - Edio de Dados
2.1.4 - ABRIR UM FICHEIRO DE DADOS EXISTENTE Se se pretende abrir um ficheiro de dados, para introduzir mais dados, para alterar ou corrigir valores, ou para efectuar a anlise desses dados, tem de se abrir o ficheiro. Para tal, efectua-se o seguinte procedimento:
Se o ficheiro pretendido aparece na listagem, faz-se click sobre o nome do ficheiro, ou escreve-se na caixa se . , e de seguida faz-
Caso o nome do ficheiro no conste na listagem, porque est guardado noutro directrio que no o especificado na janela. Nesta situao, ter-se- de encaminhar para a drive/directrio onde se encontra. Para tal, abre-se a o caixa disco ou o directrio pretendido: , e selecciona-se a o
Como o SPSS apenas admite um ficheiro de dados aberto, ao abrir um ficheiro o programa encerra o ficheiro actual. Caso este no esteja gravado, aps quaisquer alteraes, o programa apresenta uma mensagem de aviso:
ESACB
12
SPSS
2 - Edio de Dados
O utilizador dever responder Sim ou No, consoante queira guardar ou no as alteraes efectuadas no ficheiro aberto (no caso da imagem, tinha-se aberto o ficheiro lambs.sav, em que se tinham efectuado alteraes). 2.1.5 - ACESCENTAR NOVOS CASOS A UM FICHEIRO DE DADOS Para acrescentar um novo caso, aps os dados j introduzidos, basta digitar o valor pretendido para a varivel a acrescentar; automaticamente acrescentado um caso a todas as variveis. Se interessa introduzir um caso, no no final dos dados, mas entre duas observaes, ento ter-se- de introduzir uma linha (caso) entre essas duas observaes.
Admitamos que foi esquecido um caso referente a hora=Manh; este caso deveria ser introduzido imediatamente antes da primeira observao da Tarde; para tal, faz-se duplo click sobre o indicador da linha 5, ou um click em qualquer parte da linha 5 e de seguida selecciona-se a opo no menu. Aparece a janela:
Pode igualmente fazer click com o boto direito do rato sobre o indicador da linha, aparecendo o menu:
ESACB
13
SPSS
2 - Edio de Dados
. Automaticamente aberta uma No menu anterior deve seleccionar linha, onde se introduzem os valores respectivos das variveis:
2.1.6 - ACRESCENTAR NOVAS VARIVEIS Para acrescentar uma nova varivel ao ficheiro, basta colocar o cursor numa clula da primeira coluna no usada, e executar o procedimento de definio de variveis atrs descrito. O programa cria a nova varivel com tantas clulas (em branco ou missing values) quantos os casos das restantes variveis. Aps isto, s h que proceder introduo dos valores. Se, por algum motivo, h que introduzir uma nova varivel, no no final do ficheiro, mas entre duas variveis j definidas, colocar o cursor na varivel direita da qual se pretende a nova varivel, seleccionar a opo e de seguida fazer click com o boto direito do rato, aparecendo o menu: . Pode igualmente
e seleccionar a opo
ESACB
14
SPSS
2 - Edio de Dados
2.1.7 - DEFINIR UMA VARIVEL EM FUNO DE OUTRAS O programa SPSS permite criar novas variveis como resultado de funes ou operaes envolvendo as variveis j existentes. Por exemplo, determinadas metodologias estatsticas (anlise de varincia, regresso, etc) baseiam-se no pressuposto de que os dados a analisar seguem a funo de distribuio normal; ora, tal pressuposto, muitas vezes violado (e, infelizmente para a validade das concluses, no testado). Nas situaes em que se verificou a no normalidade, frequente proceder a determinadas transformaes dos dados (logaritmo, raz quadrada, arc-seno so transformaes usuais). Vamos ilustrar a criao de uma nova varivel no ficheiro arroz.sav, com o nome ln_prod, definida como sendo o logaritmo neperiano dos valores da varivel producao. Para tal, coloca-se o cursor na primeira clula da primeira coluna no ocupada, e faz-se:
Na caixa Target Variable escreve-se o nome da varivel a criar, ln_prod; transfere-se o cursor para a caixa Numeric Expression e na caixa das funes selecciona-se a funo LN(numexpr); de seguida, fazer click sobre a varivel argumento (producao). A janela fica com o seguinte aspecto:
ESACB
15
SPSS
2 - Edio de Dados
A varivel ln_prod visualizada com 2 casas decimais (por defeito), muito embora seja guardada com maior preciso. Caso haja interesse em visualizar mais casa decimais, proceder como descrito na definio de variveis. As transformaes de variveis podem ser mais complexas que uma simples funo; reparese que a caixa de definio das transformaes apresenta o que se parece a uma mquina de calcular cientfica, que permite definir transformaes vrias, incluindo seleco condicional de casos (if), funes lgicas (e &; ou |; negao ~) comparaes (<, <=, >, >=, =, ~=), etc. 2.1.8 - ELIMINAR LINHAS E VARIVEIS Para eliminar linhas de valores (casos) ou colunas (variveis), fazer click sobre o nmero da linha, esquerda do ecran, ou sobre o nome da varivel; a linha ou coluna, consoante o caso, ficam seleccionadas (sombreadas). Para a eliminar, seleccionar (ou carregar na tecla DEL). e de seguida
ESACB
16
SPSS
2 - Edio de Dados
Pode tambm fazer click com o boto direito do rato sobre a identificao da linha ou coluna a eliminar, e fazer Cut ou Clear.
Nesta janela deve especificar-se que o ficheiro do tipo Excel (*.xls) [se se tratar de um ficheiro Lotus, selecciona-se a opo Lotus(*.w*)]; para tal, abrir a caixa Ficheiro do tipo e especificar Excel (*.xls):
ESACB
17
SPSS
2 - Edio de Dados
Aparece de seguida a seguinte caixa de dilogo, onde se especifica se as primeiras clulas contm os nomes das variveis (se sim activar (rectangular) de clulas (no exemplo, A1:B11): ) e o intervalo
O SPSS cria um ficheiro, com tantas variveis quantas as colunas e tantos casos quantas as linhas do bloco especificado. 2.2.2 - IMPORTAO DE FICHEIROS DE DBASE Dada a relevncia da utilizao do gestor de bases de dados dBase III, natural que alguns utilizadores disponham de bases de dados organizadas neste programa, e que pretendam import-las para o SPSS a fim de executar algumas anlises estatsticas. Os ficheiros gerados pelo dBase III (*.dbf) obedecem tipicamente estrutura dos ficheiros SPSS, de modo que a sua importao extremamente fcil. Para tal, faz-se o seguinte procedimento: File Open... Na caixa de dilogo, deve definir-se o tipo de ficheiro [dBase (*.dbf)], o directrio onde est guardado e o nome do ficheiro a importar, tal como se mostra na figura:
ESACB
18
SPSS
2 - Edio de Dados
Ao fazer
2.2.3 - IMPORTAO DE FICHEIROS EXCEL Os ficheiros Excel 5.0 e Excel 97 so constitudos por diversas folhas de clculo; a rotina de importao ligeiramente diferente, e assegurada pelo protocolo Open Database Connectivity (ODBC), que um mtodo padro de partilha de dados entre bases de dados e outros programas. Os controladores ODBC utilizam a linguagem SQL (Structured Query Language) padro para aceder a dados de origens exteriores. Pretende-se importar a seguinte folha de clculo, criada em Excel 97:
ESACB
19
SPSS
2 - Edio de Dados
Para tal, executar o seguinte procedimento: File Database Capture New Query... Aparece o seguinte assistente de importao de ficheiros:
) e fazer Especificar qual a origem do ficheiro (no caso caixa de dilogo que se segue, especificar o disco, directrio e o ficheiro a abrir:
. Na
ESACB
20
SPSS
2 - Edio de Dados
Caso o ficheiro tenha diversas folhas de clculo, ser conveniente confirmar qual que se pretende importar; para visualizar as variveis de cada folha, click sobre o sinal + esquerda da identificao:
Tendo confirmado qual a folha a importar (neste caso, Folha1$), click sobre o nome da folha e arraste-o para campo Retrieve Fields :
ESACB
21
SPSS
2 - Edio de Dados
Para executar a importao, click em Terminar. 2.2.4 - IMPORTAO DE FICHEIROS ACCESS Os ficheiros de bases de dados criados em Microsoft Access so constitudos por diversas folhas ou tabelas (base de dados, consultas, formulrios); a rotina de pelo protocolo Open Database Connectivity (ODBC), que um mtodo padro de partilha de dados entre bases de dados e outros programas. Os controladores ODBC utilizam a linguagem SQL (Structured Query Language) padro para aceder a dados de origens exteriores, e processase em tudo de modo semelhante importao de ficheiros Excel, sendo guiada pelo mesmo assistente (wizard): File Database Capture New Query... Aparece o seguinte assistente de importao de ficheiros:
Especificar qual a origem do ficheiro (no caso Seguinte. Depois, prosseguir tal como descrito para o Excel. 2.2.5 - RECODIFICAO DE VALORES
) e fazer
ESACB
22
SPSS
2 - Edio de Dados
Ao fazer a importao de ficheiros externos, acontece que variveis alfanumricas so importadas como tal, causando posteriormente problemas em determinadas anlises. Isto acontece, por exemplo, quando se importam variveis de agrupamento ou definio de classes, ou variveis nominais, do gnero de varivel sexo, que agrupa os casos em masculino e feminino. Em situaes deste gnero, natural que posteriormente haja necessidade de agrupar os casos por sexo (genericamente por classes), nomeadamente para comparar mdias de sub-amostras. Para contornar esta questo, a fazer a importao destas variveis, h que recodific-las em variveis nominais, com cdigos numricos, por exemplo masculino=1, feminino=2, semelhana do que se fez na introduo das variveis variedad e azoto. Vamos ilustrar usando o ficheiro pulso.sav, que se criou pela importao do ficheiro pulso.dbf do dBase. Neste ficheiro, as variveis sexo (Homem, Mulher) e fuma (Fuma, No Fuma) so alfanumricas, mas nitidamente com uma conotao de agrupamento em classes. Vamos recodificar a varivel sexo (Homem=1, Mulher=2) e fuma (Fuma=1, No Fuma=2). Para tal, executar o seguinte procedimento (por varivel a recodificar): Transform Recode Into Same Variable Na caixa de dilogo seguinte, seleccionar a varivel a recodificar (sexo):
Seleccionar identificando em
. Na caixa de dilogo seguinte definir as recodificaes, o o novo valor a atribuir; fazer valor antigo . a recodificar, e em
ESACB
23
SPSS
2 - Edio de Dados
Repetir para o outro valor da varivel (Mulher=2). No final, a caixa de dilogo mostra as recodificaes a efectuar:
No final, fazer
Seguidamente, deve alterar-se o tipo de varivel para numrica, e definir as labels: 1=Homem; 2=Mulher, tal como j anteriormente explicado:
ESACB
24
SPSS
2 - Edio de Dados
Fazer o mesmo procedimento para a outra varivel a recodificar. No final, aparentemente no houve alteraes: a varivel sexo contm os valor Homem e Mulher, como anteriormente; s que, aps esta transformao, estas variveis tm a conotao de agrupamento de casos, coisa que no acontecia tal como resultaram da importao do ficheiro de dados externo ao SPSS. 2.2.6 - SELECO DE CASOS Por vezes, h necessidade de proceder a anlises sem a incluso de todos os casos contidos nas variveis em jogo. Uma situao tpica ter-se verificado que h valores outliers, isto , valores extremos muito elevados ou muito baixos, que provavelmente so registos mal efectuados, ou eventualmente observaes anmalas que, includas nas anlises estatsticas, vo distorcer a validade das concluses. Desta forma, poder ser prefervel exclu-las das anlises, mas sem as eliminar do ficheiro de dados. A deteco de outliers ser efectuada no procedimento EXPLORE (cap. 3). Vamos ilustrar com a excluso do caso n 6 do ficheiro pulso.sav, em que a observao correspondente varivel ritmod 265, valor impossvel para a caracterstica em anlise, sendo provvel que tenha acontecido um lapso no acto de registo dos valores. Pretende-se excluir todo este caso das anlises subsequentes, sem contudo o eliminar do ficheiro, pois poder haver necessidade de posteriormente efectuar anlises sobre as outras variveis (por exemplo, ritmoa), cujo valor (96) perfeitamente normal. Para tal, fazer: Data Select Cases...
ESACB
25
SPSS
2 - Edio de Dados
Pretende-se excluir o caso n 6 da anlise, isto , incluir na anlise todos os casos com excepo do caso n 6. Para tal, na caixa de dilogo seleccionar definir que se seleccionam para anlise todos os cados diferenntes do caso n 6: , e
A indicao caso ~= 6 significa todos os casos excepto o caso 6. O Data Editor do SPSS criou automaticamente uma varivel designada filter_$, em que indica quais os casos seleccionados e os no includos. Repare-se que a linha 6 est traada, indicando que este caso est excludo de futuras anlises:
ESACB
26
SPSS
2 - Edio de Dados
A varivel filter_$ uma varivel numrica, cujos valores so 0=Not Selected e 1=Selected. No ecran, aparecem visualizados as labels dos valores, caso se tenha optado por este modo de visualizao. A fim de incluir novamente o caso 6 nas anlises, fazer: Data Select Cases...
ou digitar o valor 1 na clula 6 da varivel filter_$. Por exemplo, querendo seleccionar os casos referentes aos homens (sexo=1) que fumam (fuma=1), dever-se- fazer o seguinte procedimento: Data Select Cases...
ESACB
27
SPSS
2 - Edio de Dados
Para definir a condio atrs referida, seleccionar a varivel sexo, defini-la como sendo igual a 1; o operador lgico e (AND) simbolizado pelo caracter &; seleccionar a varivel fuma e defini-la igual a 1:
Fazer
para avanar.
ESACB
28
SPSS
3 - Anlise de Dados
3-
ANLISE DE DADOS
Vamos iniciar a utilizao do SPSS a fim de efectuar diversas anlises estatsticas. Antes de iniciar um processo de anlise, os dados a analisar devem estar carregados na memria do computador. Vamos ilustrar utilizando o ficheiro arroz.sav que dever estar carregado na memria do computador.
Aparece a seguinte caixa de dilogo, onde se definem as variveis a analisar; no presente caso, ser apenas a varivel producao:
ESACB
29
SPSS
3 - Anlise de Dados
Para seleccionar as variveis a analisar, click sobre o nome da varivel na listagem que aparece na caixa esquerda, e de seguida click no boto . Ficar com o seguinte aspecto:
A fim de definir quais os parmetros estatsticos a estimar, seleccionar se a seguinte caixa de dilogo:
, obtendo-
Inicialmente, estariam seleccionadas apenas a Mean (mdia), Std. deviation (desvio padro), Minimum (mnimo) e Maximum (mximo); vamos seleccionar tambm a Sum
ESACB 30
SPSS
3 - Anlise de Dados
(soma de todas as observaes), Variance (varincia), Range (intervalo de variao), s S.E.mean (erro padro da mdia: s x = ), Kurtosis (curtose ou achatamento), Skewness N (enviesamento ou assimetria). As opes Display Order s tm significado nos casos em que se procede ao clculo de parmetros de mais do que uma varivel. No final, fazer e depois .
Na janela direita esto os resultados; como se pediu o clculo de muitos parmetros, o quadro de resultados demasiado largo para caber no ecran; use a barra de scroll para ler o quadro de resultados Caso tenha interesse em imprimir os resultados, o SPSS resolve o problema da largura, fraccionando o quadro em vrios. Repare que ficou no SPSS Viewer; para voltar ao Data Editor do SPSS, onde est aberto o ficheiro arroz.sav, restaure a janela na barra Iniciar do Windows:
O SPSS permite capturar os resultados visualizados no Viewer e col-los por exemplo, no relatrio que est a ser escrito no editor de texto Word; no processador de texto, pode seleccionar-se a tabela e fazer o ajuste automtico, de modo a que o quadro, demasiado largo, caiba na largura do texto. Contudo, resulta mais elegante se no for necessrio reduzir
ESACB
31
SPSS
3 - Anlise de Dados
muito a largura do quadro original. Para tal, a soluo obter menos parmetros estatsticos, de modo que o quadro de resultados seja menos largo. 3.1.2 - PROCEDIMENTO EXPLORE Em caso de necessidade de apresentar todos os parmetros estatsticos, estes podem ser obtidos noutra rotina do SPSS, cujo quadro de resultados se desenvolve na vertical, sendo mais fcil inclui-los no relatrio em Word. Vamos ilustrar esta opo. A opo EXPLORE calcula os parmetros estatsticos, e elabora o grfico caule-e-folhas (esquema de histograma) e o grfico de extremos-e-quartis, muito til para analisar a amostra em termos de concentrao ou disperso dos valores por intervalos quartlicos, bem como a sua simetria; alm disso, uma boa ferramenta de verificar se h observaes outliers, isto , observaes extremas que se afastam muito da gama mdia dos valores da amostra. Opcionalmente, podem obter-se outras anlises, como veremos.
Na caixa de dilogo que se segue, selecciona-se a varivel a analisar (producao) tal como descrito atrs. De seguida, seleccionar o boto
ESACB
32
SPSS
3 - Anlise de Dados
Seleccionando o boto , verifica-se que o clculo das estatsticas descritivas est activado; pode-se optar por verificar analiticamente a existncia de outliers, bem como calcular os percentis. A opo M-estimators destina-se ao clculo de parmetros estatsticos (mdia e varincia) ponderados; geralmente esta opo s interessa em utilizaes muito especficas. No final, fazer .
; seleccionar a opo
ESACB
33
SPSS
3 - Anlise de Dados
Note-se que os resultados vm na sequncia dos resultados obtidos anteriormente, de modo que durante a sesso de trabalho, os resultados vo-se acumulando, podendo o utilizador em qualquer momento seleccionar os que lhe interessam. Utilize a barra se scroll vertical para visualizar os resultados, ou na caixa do organigrama dos resultados, esquerda, seleccione os que lhe interessa visualizar. Por exemplo, para ver os parmetros estatsticos, click sobre :
Esta opo, alm dos parmetros estatsticos obtidos no procedimento DESCRIPTIVES, calcula o intervalo de confiana para a mdia, e a mdia aps eliminar as 5% observaes inferiores e as 5% observaes superiores (5% Trimmed Mean). De seguida apresentam-se o histograma, diagrama de caule-e-folhas (steam-and-leaf) e diagrama de extremos-e-quartis (Boxplot) referentes a esta anlise.
ESACB
34
SPSS
3 - Anlise de Dados
Histogram
10
Frequency
Producao
Producao Stem-and-Leaf Plot Frequency 3.00 3.00 5.00 6.00 13.00 7.00 18.00 5.00 Stem width: Each leaf: Stem & 2 3 3 4 4 5 5 6 . . . . . . . . Leaf 688 144 77789 111234 5556778889999 1223344 555666678888899999 00024
.0 00 6 5 0.0 5 6 2 0.0 0 6 0 0.0 5 5 7 0.0 0 5 5 0.0 5 5 2 0.0 0 5 0 0.0 5 4 7 0.0 0 4 5 0.0 5 4 2 0.0 0 4 0 0.0 5 3 7 0.0 0 3 5 0.0 5 3 2 0.0 0 3 0 0.0 5 2 7 0.0 0 25
1000.00 1 case(s)
ESACB
35
SPSS
3 - Anlise de Dados
7000
6000
5000
4000
3000
2000
N= 60
Producao
3.1.3 - PROCEDIMENTO EXPLORE COM FACTORES Os resultados anteriores referem-se globalidade das produes, e tm o interesse que o utilizador pretender retirar deles. Numa situao como a que estamos a analisar, teria igualmente interesse executar estas anlises, no para a globalidade das observaes, mas sim repartidas por um ou mais dos factores. Vamos executar o procedimento EXPLORE, obtendo os resultados para cada uma das trs variedades (poderia ser para os cinco nveis de azoto, ou para os dois factores em simultneo).
ESACB
36
SPSS
3 - Anlise de Dados
Na caixa de dilogo que se segue, selecciona-se a varivel a analisar (producao) tal como descrito atrs. Seleccionar a varivel variedad para o campo Factor List:
A partir deste ponto, o procedimento anlogo ao atrs descrito. Os resultados tm o seguinte aspecto:
ESACB
37
SPSS
3 - Anlise de Dados
Descriptives Variedade Producao IR8 Mean 95% Confidence Interval for Mean Lower Bound Upper Bound 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis IR5 Mean 95% Confidence Interval for Mean Lower Bound Upper Bound 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis C4-63 Mean 95% Confidence Interval for Mean Lower Bound Upper Bound 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis
Statistic 4769.4000 4275.7316 5263.0684 4819.3333 4836.0000 1112633.726 1054.8145 2606.00 6034.00 3428.00 1762.0000 -.651 -.441 5042.0000 4593.9109 5490.0891 5085.3333 5410.0000 916664.421 957.4259 2846.00 6458.00 3612.00 1574.5000 -.839 -.076 5058.1000 4657.4878 5458.7122 5081.6667 5091.0000 732706.305 855.9827 3428.00 6264.00 2836.00 1493.5000 -.419 -.921
.512 .992
O diagrama de extremos-e-quartis apresentado agora para cada uma das trs variedades:
ESACB
38
SPSS
3 - Anlise de Dados
7000
6000
5000
4000
Producao
3000
2000
N= 20 20 20
IR8
IR5
C4-63
Variedade
Estes resultados podem comear a fornecer pistas para a anlise dos dados, do gnero de que a variedade C4-63 apresenta uma produo mais homognea.
3.1.4 - PROCEDIMENTO FREQUENCIES O procedimento FREQUENCIES permite gerar tabelas de frequncias (contagem de casos quer de variveis alfanumricas, quer de variveis numricas. Adicionalmente, pode calcular os parmetros estatsticos calculados pelos procedimentos DESCRIPTIVES e EXPLORE, anteriormente vistos; pode igualmente gerar histogramas, com o ajustamento a uma funo de distribuio de probabilidades. No caso de variveis numricas, em que se admite que seguem uma lei de distribuio normal (pressuposto quase obrigatrio para a maioria das metodologias estatsticas usuais em cincias agrrias), a visualizao do ajustamento do respectivo histograma funo de distribuio normal pode ser uma valiosa ferramenta para anlises subsequentes. A fim de ilustrar, vamos executar dois procedimentos FREQUENCIES: gerar as tabelas de frequncia das variveis nominais azoto e variedad, e gerar a tabela de frequncias da varivel producao, neste caso com o respectivo histograma ajustado fdp normal. Seleccionar: Statistics Summarize Frequencies... Na caixa de dilogo, seleccionar as variveis variedad e azoto:
ESACB
39
SPSS
3 - Anlise de Dados
A opo permite seleccionar, facultativamente, quais os parmetros estatsticos a calcular. No caso de variveis nominais e alfanumricas no tm significado. Os resultados obtidos, que so acrescentados ao Viewer, tm o seguinte aspecto:
ESACB
40
SPSS
3 - Anlise de Dados
V opo
seleccionar para calcular os decis (com a seleco da opo ), a mdia, mediana e varincia. No final, fazer :
ESACB
41
SPSS
3 - Anlise de Dados
Fazer
Veja no Viewer os resultados. O histograma com o ajustamento f.d.p. normal tem o seguinte aspecto, onde sobressai o enviezamento da amostra para a direita em relao distribuio terica, bem como um achatamento um pouco maior que o que seria de esperar (isto , cerca de 75% da amostra est abaixo da curva, nomeadamente na zona central da distribuio):
Producao
10
Frequency
Producao
.0 00 6 5 0.0 5 6 2 0.0 0 6 0 0.0 5 5 7 0.0 0 5 5 0.0 5 5 2 0.0 0 5 0 0.0 5 4 7 0.0 0 4 5 0.0 5 4 2 0.0 0 4 0 0.0 5 3 7 0.0 0 3 5 0.0 5 3 2 0.0 0 3 0 0.0 5 2 7 0.0 0 25
ESACB
42
SPSS
4 - Grficos
4-
GRFICOS
A representao grfica dos dados geralmente uma boa abordagem para as anlises estatsticas a efectuar: a representao de variveis numricas em histograma permite inferir acerca da simetria, achatamento e normalidade da amostra em anlise; o grfico de barras representando contagens ou percentagens de valores de variveis permite comparar visualmente diversas caractersticas amostrais; a representao grfica de duas variveis que se julgam correlacionadas num grfico de pontos ou de disperso permite definir uma abordagem prvia metodologia de regresso; os grficos de extremos-e-quartis facilitam a deteco de outliers, alm de permitirem analisar a simetria e sub-intervalos de maior concentrao da amostra; etc. Muitos dos procedimentos estatsticos do SPSS incluem j a elaborao de grficos adequados s anlises respectivas. Nesta seco, vamos abordar a criao de grficos isolados de outros procedimentos. O programa SPSS permite definir os grficos por duas vias: grficos interactivos: disponveis a partir do sub-menu Interactive do menu Graphs; a caracterstica principal desta metodologia de gerar grficos a facilidade em intercambiar variveis entre os eixos do grfico, nomeadamente a partir da janela Viewer, aps ter gerado o grfico. A edio do grfico faz-se directamente na janela Viewer.
grficos standardizados: esta metodologia permite definir os grficos, a partir de submenus individualizados no menu Graphs; aps criados, estes grficos so menos dinmicos que os grficos interactivos. Para editar o grfico, selecciona-se este na janela Viewer e abre-se uma janela de edio do grfico.
De seguida vo-se apresentar a definio de alguns tipos de grficos, tendo como base de trabalho os dados do ficheiro pulso.sav (listagem em anexo). Vamos de seguida ilustrar a realizao de alguns grficos. No se pretende fazer uma apresentao exaustiva de todos os tipos de grficos; contudo, os procedimentos para qualquer outro tipo de grfico so genericamente semelhantes, de modo que os grficos descritos de seguida fornecem bases suficientes para que o utilizador explore e crie qualquer outro tipo de grficos.
ESACB
44
SPSS
4 - Grficos
4.1.1 - GRFICO DE BARRAS Vamos ilustrar criando um grfico com a contagem de casos de cada uma das idades do ficheiro pulso.sav. Para tal: Graphs Bar ... Aparece a seguinte caixa de dilogo, onde se selecciona o tipo de grfico de barras a executar (Simple: para representar uma nica srie de valores ou varivel; Clustered: permite representar vrias variveis agrupadas; para cada valor de uma das variveis so geradas barras para cada valor da outra varivel; Stacked: permite representar vrias variveis em barras sobrepostas). Vamos iniciar por criar o grfico de barras simples. Nesta caixa de dilogo selecciona-se tambm o tipo de dados (no caso, pretende-se representar a contagem das idades, isto , um sumrio contagem dos dados; para tal, selecciona-se a opo ).
Na janela seguinte, selecciona-se a varivel a representar no grfico para o campo Category Axis, e define-se que as barras representam a contagem de casos (N of cases):
ESACB
45
SPSS
4 - Grficos
Para definir os ttulos do grfico, seleccionar . Escrever o ttulo principal (Title Line 1 e Line 2), sub-ttulo (Subtitle) e notas de rodap (Footnote Line 1 e Line 2). Qualquer destes ttulos facultativo:
No final fazer
ESACB
46
SPSS
4 - Grficos
Count
2 0 19 21 23 25 27 29 31 33 35 38 42
IDADE
Fonte: Abcde, 1998.
Os grficos de linhas (Line) e rea (Area) do a mesma informao; em vez de barras ou colunas, desenhada uma linha unindo os pontos altura da contagem do nmero de casos em cada categoria ou valor do eixo dos xx; no caso do grfico de reas, a rea definida por essa linha e o eixo dos xx preenchida. A definio destes grficos tem os mesmos passos do grfico de barras. A ttulo de exemplo, apresenta-se de seguida o grfico de rea para a varivel idade (o grfico de linhas seria exactamente o mesmo, sem a rea sombreada):
Count
2 0 19
21
23
25
27
29
31
33
35
38
42
IDADE
Fonte: Abcde, 1998.
ESACB
47
SPSS
4 - Grficos
Poder ter interesse ver a distribuio de idades por sexo, isto , fazer a separao das idades por sexo; para tal, na janela Bars Chart selecciona-se a opo Clustered. Aparece a seguinte janela, onde se seleccionam a varivel a representar em barras (idade) e a varivel de agrupamento (sexo):
Distribuio das idades dos pacientes por sexo As idades so expressas em anos completos
5
SEXO Count
1 0 19 21 23 25 27 29 31 33 35 38 42 Homem Mulher
IDADE
Fonte: Abcde, 1998
O grfico de barras pode tambm usar-se para comparar visualmente a mdia (ou outro parmetro estatstico) de duas ou mais variveis da mesma natureza. Para exemplificar, vamos elaborar o grfico de barras referente s mdias das variveis ritmoa e ritmod. Para tal:
ESACB
48
SPSS
4 - Grficos
Graphs Bar ... Na janela de dilogo seguinte, seleccionar o tipo Simple (s uma srie de barras) e a opo (isto , cada barra representa um parmetro estatstico de uma varivel):
Veja-se que, por defeito, ser representada a mdia (mean) das variveis. Pretendendo representar outro parmetro, fazer (seleccionando individualmente cada uma das variveis, ou seleccionando todas as variveis em simultneo para tal, manter o boto esquerdo pressionado e arrastar sobre o nome das variveis a seleccionar). Aparece a seguinte caixa de dilogo, onde se define o parmetro a representar. Veja-se que pode seleccionar-se um parmetro estatstico (primeiro bloco da janela), ou ento o nmero (ou
ESACB
49
SPSS
4 - Grficos
percentagem) de casos acima ou abaixo de um valor a definir (bloco central), ou entre dois valores a definir (ltimo bloco)3:
140
120
100
80
Mean
4.1.2 - HISTOGRAMA
Os campos Value, Low, High s so activados aps seleccionar uma opo do respectivo bloco de
opes.
ESACB
50
SPSS
4 - Grficos
O histograma um grfico parecido ao de barras, s que o eixo dos xx escalar contnuo, representando classes de uma varivel numrica, e no categorias como no caso do grfico de barras. As barras representam as frequncias absolutas registadas no intervalo ou classe definido no eixo dos xx. O histograma traduz a distribuio de frequncias, sendo possvel analisar a simetria e o achatamento da amostra. Para ilustrar a elaborao do histograma, vamos usar a varivel ritmoa do ficheiro pulso.sav. Executar o seguinte procedimento: Graphs Histogram ... Aparece a seguinte caixa de dilogo, onde se selecciona a varivel numrica a representar no eixo dos xx do histograma:
ESACB
51
SPSS
4 - Grficos
RITMOA
Fonte: Abcde, 1998
4.1.3 - GRFICO DE EXTREMOS-E-QUARTIS O diagrama de extremos-e-quartis, ou caixa-com-bigodes, uma til representao grfica dos dados na deteco de outliers, e na anlise da simetria e de sub-intervalos de concentrao da amostra de valores. O grfico baseia-se na localizao dos quartis (1 quartil, 2 quartil ou mediana, 3 quartil), que definem assim 4 sub-intervalos, cada um com 25% das observaes: 1 intervalo quartlico, delimitado pelo xmin e quartil1; 2 intervalo quartlico, delimitado pelo quartil1 e quartil2; 3 intervalo quartlico, definido pelo quartil2 e quartil3; 4 intervalo quartlico, desde o quartil3 ao xmax. So considerados outliers as observaes que fiquem abaixo do limite definido pela expresso q1 1.5 (q3 q1 ) ou acima do limite q3 + 1.5 (q3 q1 ) ; caso existam outliers, o limite do bigode do diagrama passa a ser a observao extrema que se situe dentro dos limites dos outliers atrs definidos. Para criar o diagrama de extremos-e-quartis, executar o seguinte procedimento (vamos usar a varivel ritmoa do ficheiro pulso.sav): Graphs Boxplot ... Na caixa de dilogo seguinte seleccionar a opo Simple, j que se trata de uma nica varivel, e a opo para criar um diagrama de extremos-equartis da varivel ritmoa para cada categoria de uma outra varivel (vamos usar a varivel sexo para definir as categorias). Seleccionar a opo se se
ESACB
52
SPSS
4 - Grficos
pretender criar o grfico com todos os dados da varivel ritmoa, sem separar pelas categorias da varivel sexo:
Fazer para continuar. Na seguinte caixa de dilogo, seleccionar a varivel numrica a representar no grfico (ritmoa), e a varivel para definir as categorias (sexo):
O resultado o seguinte:
Case Processing Summary Cases Missing N Percent 0 .0% 0 .0%
ESACB
53
SPSS
4 - Grficos
100
15
90
10 38
80
70
RITMOA
60
50
N= 22 18
Homem
Mulher
SEXO
Repare-se que no caso dos homens, h duas observaes outliers, que so assinaladas fora dos bigodes do diagrama; o bigode chega, neste caso, at observao mais alta, mas que no seja outlier (valor 80). Repare-se que indicado o nmero de observaes para cada uma das categorias (N=22 para os homens; N=18 para as mulheres). 4.1.4 - GRFICO DE BARRA DE ERROS Um grfico de barra de erros representa um intervalo de confiana para a mdia de uma varivel numrica de uma amostra (ou sub-amostras definidas pelas categorias de uma varivel categrica). O intervalo de confiana definido por uma das seguintes expresses (entre parentesis so indicadas as respectivas opes a seleccionar durante a definio do grfico ver frente): , em que t ( a , N 1) o quantil da distribuio t-Student N Confidence interval for mean);
x t ( , N 1) .
(opo
x k .s x , em que s x =
error of mean);
s N
(opo
Standard
Vamos ilustrar a criao deste tipo de grfico usando a varivel ritmoa do ficheiro pulso.sav, sub-dividida pelas duas categorias (Homem, Mulher) da varivel sexo:
ESACB
54
SPSS
4 - Grficos
Graphs Error Bar ... Na caixa de dilogo seguinte seleccionar a opo Simple, j que se trata de uma nica varivel, e a opo para um grfico da varivel ritmoa para
cada categoria de uma outra varivel (sexo). Seleccionar a opo se se pretender criar o grfico com todos os dados da varivel ritmoa, sem separar pelas categorias da varivel sexo:
Fazer para continuar. Na seguinte caixa de dilogo, seleccionar a varivel numrica a representar no grfico (ritmoa), e a varivel para definir as categorias (sexo):
Na caixa Bars Represent deve seleccionar-se o tipo de intervalo de confiana que se pretende (definidos anteriormente). Para pequenas amostras, o mais usual o intervalo de confiana para a mdia (Confidence interval for mean). O nvel de confiana de 95% (o utilizador pode definir outro nvel de confiana).
ESACB
55
SPSS
4 - Grficos
Intervalo de confiana a 95% para a mdia do ritmo cardaco (por categoria sexo)
90
80
95% CI RITMOA
70
60
N= 22 18
Homem
Mulher
SEXO
Fonte: Abcde, 1998
4.1.5 - GRFICOS DE PROBABILIDADES Os grficos de probabilidades (P-P: Probability Plots) visualizam graficamente o ajustamento de uma varivel a uma funo de distribuio de probabilidades. Este tipo de grficos representa no eixo dos xx as frequncias relativas acumuladas observadas na amostra (observed cummulative probability) e no eixo dos yy a funo de distribuio de probabilidades esperada (expected cummulative probability). A diagonal do grfico (x=y) representa um ajustamento perfeito da amostra funo de distribuio de probabilidades. Quanto mais os pontos se afastam da diagonal, ou se se distribuem segundo um determinado padro, menor o ajustamento da amostra distribuio terica. O SPSS pode fazer o grfico P-P de ajustamento s seguintes distribuies: beta, chiquadrado, exponencial, gamma, Laplace, Logistic, Log-normal, normal, semi-normal, Pareto, t-Student, Weibull e uniforme. Vamos ilustrar ajustando a varivel ritmoa distribuio de probabilidades normal, com mdia x (parmetro de localizao) e varincia s 2 (parmetro de escala), estimados a partir da amostra: Graphs P-P ...
ESACB
56
SPSS
4 - Grficos
permite seleccionar a distribuio terica de probabilidades. As O campo frequncias acumuladas tericas ou esperadas so calculadas por expresses matematicamente definidas, e todas relacionadas com o ranking das observaes (isto , com a ordem desde 0 correspondente a xmin - a n correspondente a xmax), sendo o mtodo Blom o mais usual. Quando h observaes repetidas (ties), a sua ordem pode ser definida pela ordem da observao mdia ( ), ou pela ordem mais elevada (High) ou da observao mais baixa (Low) da observao repetida. O resultado o seguinte:
PPlot
MODEL: MOD_3. Blom's Expected Normal quantiles calculated using proportional estimation formula and assigning the mean to ties. For variable RITMOA... Normal distribution scale=9.5379135 parameters estimated: location=75.95
ESACB
57
SPSS
4 - Grficos
.75
.50
.25
O output inclui, alm do grfico de ajustamento normal (onde se observa um afastamento com comportamento cclico em relao diagonal), um grfico do ajustamento dos resduos (yobs-yest); se a amostra perfeitamente normal, os resduos distribuir-se-o segundo uma faixa horizontal em torno do zero, sem denotar qualquer padro de distribuio; no exemplo, ntido um comportamento cclico em torno do zero, denotando algum afastamento em relao normal.
ESACB
58
SPSS
4 - Grficos
4.1.6 - GRFICO DE DISPERSO O grfico de disperso (scatterplot) um grfico de pontos, representando num plano (x,y) N pares de valores numricos escalares, que permite analisar a distribuio conjunta das duas variveis. Este tipo de grficos muito til como metodologia prvia de anlise a problemas de regresso, quando se tenta ajustar uma funo y=f(x), que estabelece uma relao de dependncia entre as duas variveis. Permite igualmente detectar observaes outliers bi-variadas, isto , observaes que se afastam do contexto das restantes observaes, mesmo que, analisadas isoladamente em relao a cada varivel, no se suspeite desses outliers. No eixo dos xx representa-se a varivel independente ou causal, e no eixo dos yy a varivel dependente, resposta ou efeito. A fim de ilustrar, vamos usar as variveis ritmoa (x) e ritmod (y), pensando a priori que o ritmo cardaco aps exerccio fsico est relacionado com o ritmo cardaco em repouso do mesmo indivduo. Graphs Scatter ...
Nesta janela, deve seleccionar-se o tipo de grfico de disperso a executar: Simple quando se pretende representar num plano xy uma srie de observaes bivariadas (x,y); se nessa srie existem diferentes categorias, definidas por uma terceira varivel categrica, podem identificar-se os pontos correspondentes a cada categoria com marcas diferentes; quando se pretende representar num mesmo plano (x,y) duas ou mais sries de observaes bi-variadas (x,y) da mesma natureza; quando se pretendem representar os grficos xy de todas as combinaes possveis de duas ou mais variveis; isto , dispondo de 3 variveis genericamente identificadas por x,y,z, esta opo representa os seguintes grficos: (x,y), (x,z), (y,z), bem como a imagem simtrica destes grficos; este grfico til para uma anlise exploratria das associaes entre diversas variveis; representa o grfico espacial a 3 dimenses definido pelos eixos (x,y,z).
Overlay Matrix
3-D
O tipo de grfico mais usual o Simple. Tendo seleccionado a opo pretendida, fazer para prosseguir. Na janela seguinte, definir as variveis a usar em cada um dos
ESACB
59
SPSS
4 - Grficos
eixos (x: ritmoa; y: ritmod), bem como a varivel categrica (sexo) de agrupamento (opcional):
Definir os ttulos como previamente descrito. O grfico resultante tem o seguinte aspecto:
Ritmo aps exerccio versus ritmo cardaco em repouso Os casos so identificados por sexo
280 260 240 220 200 180 160
RITMOD
SEXO
140 120 100 60 70 80 90 100 Mulher Homem
RITMOA
Fonte: Abcde, 1998
Nota-se que, aparte da observao no canto superior direito do grfico, que um outlier bivariado, todas as outras observaes tm uma tendncia mais ou menos linear ligeiramente crescente. Para ilustrar a matriz de grficos, com as variveis idade, ritmoa, ritmod, executar o procedimento:
ESACB
60
SPSS
4 - Grficos
IDADE
RITMOA
SEXO
RITMOD Mulher Homem Fonte: Abcde, 1998
ESACB
61
SPSS
4 - Grficos
iii)
Seleccionar SPSS Chart Object Open Duplo click com o boto esquerdo do rato
Qualquer dos anteriores procedimentos abre o grfico numa nova janela, com a designao SPSS Chart Editor, sobreposta ao Viewer, tal como se ilustra; o grfico est sombreado na janela Viewer durante a edio; as alteraes efectuadas so reflectidas automaticamente neste grfico:
ESACB
62
SPSS
4 - Grficos
Para alterar um pormenor, por exemplo o padro de preenchimento das barras, fazer click sobre uma barra (no Chart Editor); repare-se que automaticamente todas as barras ficaram seleccionadas (muito embora as marcas sejam colocadas em apenas algumas barras, todas elas esto seleccionadas):
ESACB
63
SPSS
4 - Grficos
Neste menu, seleccionar uma das seguintes opes, conforme o objectivo; cada opo abre uma caixa de dilogo onde o utilizador selecciona a alterao a efectuar; para tomar efeito, fazer : Nota: A barra de ferramentas do SPSS Chart Editor tem os botes de atalho para as respectivas entradas no menu Format, tal como de seguida se apresentam:
Fill Patern... ou
Alterar a cor; Alterar o tipo de marca ou ponto (no scatterplot); Alterar o tipo (contnua, pontuada) e espessura de linhas; Alterar o tipo de barras:
ESACB
64
SPSS
4 - Grficos
Alterar as caractersticas (fonte e tamanho) do texto (s activo se se se Text... ou seleccionou previamente uma regio de texto, por exemplo os ttulos) Cada uma das caixas de dilogo tem o boto alterao. ou , para fechar aps aplicar a
Para alterar os ttulos ou notas de rodap (ou defini-los, se no o foram durante o procedimento do elaborao do grfico), faz-se o seguinte procedimento: Chart Title... (ou Footnote... se se trata de editar as notas de rodap)
Abre-se a seguinte janela de dilogo, onde o utilizador poder alterar os ttulos (se no foram previamente definidos os ttulos, os respectivos campos aparecem vazios), e o respectivo alinhamento:
Aps ter efectuado as alteraes pretendidas, fechar o Chart Editor para regressar ao Viewer; para tal, fazer File Close, ou click no boto .
ESACB
65
SPSS
4 - Grficos
Como referido no incio do captulo, o SPSS dispe de uma rotina interactiva de definio de grficos, em que a seleco e alterao do tipo de grficos, variveis a incluir, e pormenores, so mais facilmente editados. Para criar um grfico interactivo, seleccionar: Graphs Interactive No menu seguinte, selecciona-se o tipo de grfico a criar:
Vamos ilustrar a criao de um grfico de barras e de um grfico de disperso; para os restantes tipos, os procedimentos so anlogos. 4.3.1 - GRFICO DE BARRAS No menu Interactive selecciona-se a opo Bar... , aparecendo a seguinte janela de dilogo:
ESACB
66
SPSS
4 - Grficos
Esta janela tpica dos grficos interactivos, e representa o esqueleto do grfico, com um sistema de eixos ortogonais, cada um com um campo, para o qual se selecciona a varivel a usar nesse eixo; alguns campos podem j conter uma varivel4 automaticamente assumida pelo programa; o que acontece no eixo dos yy, em que o programa prope representar o nmero de casos iguais, ou frequncias absolutas (varivel $count). O grfico pode ser bi-dimensional, ou tri-dimensional; a seleco faz-se com os botes:
) ou na
Aparte das variveis definidas no ficheiro, nesta rotina o programa automaticamente define outras variveis, nomeadamente a varivel $count (contagem de casos), $pct (percentagem de casos), $case (nmero de ordem dos casos). Se a varivel precedida pelo con , trata-se de uma varivel categrica; se , trata-se de uma
precedida pelo con , uma varivel numrica escalar do ficheiro; se o con varivel escalar definida pelo programa, e no constante no ficheiro.
ESACB
67
SPSS
4 - Grficos
ESACB
68
SPSS
4 - Grficos
Se se pretende visualizar a distribuio, dentro de cada um dos sexos, pela varivel fuma, deve especificar-se esta diviso por categorias, no separador Assign Variables da janela Create Bar Chart, incluindo a varivel para definir as categorias no campo Legend Variables Color; o que se est a fazeer, instruir o programa para usar cores diferentes para cada uma das categorias da varivel fuma:
ESACB
69
SPSS
4 - Grficos
4.3.2 - GRFICO DE DISPERSO Vamos ilustrar com a criao do grfico que relaciona o ritmo cardaco antes de exerccio (ritmoa) com o ritmo cardaco aps exerccio (ritmod). Para tal: Graphs Interactive Scatterplot ... Na janela de dilogo seguinte, definir as variveis para os eixos dos xx e dos yy; para identificar os casos por sexo, seleccionar a varivel sexo para o campo Legend Variable Style (os casos de cada um dos sexos so identificados com uma marca distinta; se se incluir a varivel em Color, para cada um dos sexos usada uma cor distinta):
ESACB
70
SPSS
4 - Grficos
Para definir os ttulos, seleccionar o separador Titles. O grfico tem o seguinte aspecto:
ESACB
71
SPSS
4 - Grficos
O grfico de disperso interactivo tem a particularidade de poder ajustar uma equao de regresso linear aos pontos, na totalidade, sem diferenciao por categorias, ou ento para os pontos de cada uma das categorias definidas por uma varivel categrica. Para tal, na janela de dilogo Create Scatterplot, aps identificar as variveis x e y e a varivel categrica (se se pretender uma equao para cada categoria), seleccionar o separador Fit:
ESACB
72
SPSS
4 - Grficos
No campo Method, seleccionar a opo Regression; no campo Fit lines for, seleccionar a se se pretende uma equao para cada um dos casos da varivel sexo (a opo opo Total, que pode ser seleccionada isolada ou em conjunto com a opo Subgroups, destina-se a ajustar uma equao a toda a amostra). O resultado o seguinte:
ESACB
73
SPSS
4 - Grficos
Para cada uma das sub-amostras definidas pela varivel sexo, foi ajustada a equao de regresso linear, cujas equaes, e o respectivo coeficiente de determinao R2, so apresentadas na figura. Uma outra possibilidade apresentar os grficos por categorias isolados. Para tal, na janela Create Scatterplot, a varivel categrica seleccionada para o campo Panel Variables (e no para o campo Legend Variables):
ESACB
74
SPSS
4 - Grficos
separador Fit a opo (j que o ajustamento da equao feito para cada um dos grficos isoladamente). O resultado o seguinte:
seleccionar SPSS Interactive Graphic Object iii) Duplo click com o boto esquerdo do rato sobre o grfico
ESACB
75
SPSS
4 - Grficos
A rea do grfico em edio, assinalada na margem esquerda por uma seta, est no interior de uma bordadura tracejada. No permitido efectuar modificaes em qualquer zona fora desta bordadura. Os cons na borda do grfico so botes de atalho para as tarefas de edio. Para editar um elemento do grfico, deve seleccionar-se previamente, fazendo click sobre esse elemento. Seguidamente, utiliza-se o boto pretendido: Espessura de linhas; Estilo de linhas (contnuas, tracejadas); Tamanho de marcas ou pontos; Estilo (forma) de marcas ou pontos; Padro de preenchimento de reas; Estilo e cor das linhas de bordadura de reas; Cor de preenchimento de reas; Ferramenta para criar/editar uma caixa de texto; Ponteiro do rato para selecco de elementos do grfico; Abre a seguinte caixa de dilogo de seleco de variveis, onde se podem mudar as variveis a representar no grfico:
ESACB
76
SPSS
4 - Grficos
Permite inserir elementos no grfico (os elementos que se podem inserir dependem do tipo de grfico, e natureza das variveis em uso):
Boto que permite desfazer a ltima modificao efectuada no grfico; Selecciona a orientao horizontal ou vertical do grfico; Dispe automaticamente na rea os elementos do grfico; Definio da fonte e tamanho do texto, bold ou negrito, itlico (s est activo se previamente se tiver seleccionado um elemento de texto do grfico). Alm destes botes, que permitem efectuar a maior parte das modificaes que o utilizador normal pretende efectuar no grfico, os menus Edit, View, Format possibilitam executar
ESACB
77
SPSS
4 - Grficos
essas mesmas alteraes atravs de menus, e outras modificaes que no dispem de boto de atalho. No final, para terminar a sesso de edio do grfico, basta fazer click sobre uma rea do ecran no pertencente janela do grfico.
ESACB
78
SPSS
5 - Testes T
5-
TESTES T
As metodologias estatsticas que envolvem testes de hipteses acerca de mdias de hiptese designam-se genericamente por testes t. O SPSS dispe de trs tipos de testes t: Teste t para a mdia de uma amostra: compara a mdia de uma amostra com a mdia hipottica conhecida de uma populao. So apresentados os parmetros estatsticos da amostra em anlise; igualmente estabelecido um intervalo de confiana para ( x ) . O teste de hiptese subjacente : H0 :x = H0 : x = 0 e a estatstica de testes t = x N H1 : x 0 H1 : x
Teste t para duas amostras independentes: Compara as mdias de uma mesma varivel ou caracterstica observada sobre duas amostras independentes de indivduos, com a condio de que os indivduos sejam aleatoriamente atribudos aos dois conjuntos em comparao (por exemplo, produo obtida sob um tratamento versus produo obtida sob outro tratamento diferente, ou de um modo genrico, controlo versus tratamento). So apresentados os parmetros estatsticos das amostras em anlise; efectuado o teste de LEVENE para a homogeneidade das varincias das duas amostras; so apresentadas as estatsticas de teste para as situaes de varincias homogneas e no homogneas; estabelecido um intervalo de confiana para ( x1 x 2 ). O teste de hiptese subjacente : H 0 : x1 = x 2 H 0 : x1 x 2 = 0 e a estatstica de testes t = H 1 : x1 x 2 0 x1 x 2 1 1 s2 N N 2 1 H 1 : x1 x 2
2 2 O teste de Levene para decidir H 0 : s12 = s 2 H 1 : s12 s 2 consiste numa anlise de varincia aos valores absolutos das diferenas entre os valores observados e a mdia de cada uma das amostras.
ESACB
79
SPSS
5 - Testes T
Teste t para duas amostras emparelhadas: Compara as mdias de duas variveis ou caractersticas para uma mesma amostra de indivduos (do gnero peso antes versus peso depois de um determinado tratamento). So apresentados os parmetros estatsticos para as duas amostras em anlise; calculada a correlao entre as duas amostras; So apresentados os parmetros estatsticos para as diferenas entre as duas amostras emparelhadas; estabelecido um intervalo de confiana para ( x1 x 2 ). O teste de hiptese subjacente : H 0 : x1 = x 2 H 0 : x1 x 2 = 0 e a estatstica de testes t = H 1 : x1 x 2 0 x1 x 2 1 1 s2 N N2 1 H 1 : x1 x 2
A fim de ilustrar a realizao destes testes vamos usar o ficheiro PULSO.SAV que foi criado por importao de um ficheiro dBase. Em anexo fornecida uma impresso do ficheiro. Os dados consistem em 40 casos de pacientes (seleccionados aleatoriamente entre os alunos de uma universidade), homens e mulheres, alguns dos quais fumam e outros no fumam. Para cada um dos indivduos foi medido o ritmo cardaco antes (ritmoa) e aps uma corrida de 1500 m (ritmod). Pretende-se, entre outros objectivos, verificar se h diferenas entre os ritmos cardacos antes e aps o exerccio fsico; se h diferenas de ritmo cardaco entre homens e mulheres, entre fumadores e no fumadores. Pretende-se igualmente saber qual o valor indicativo do ritmo cardaco mdio da populao dessa universidade. Antes de prosseguir para os testes t aconselhado fazer uma anlise exploratria dos dados, tal como foi ilustrado no captulo 3. A seguir apresentam-se dois estratos desta anlise, nomeadamente o diagrama de extremos-e-quartis e os valores extremos:
ESACB
80
SPSS
5 - Testes T
300
200
100
0
N= 40
RITMOD
Extreme Values Case Value Number 1 6 96 2 4 96 3 15 92 4 10 90 5 38 90 1 1 62 2 36 62 3 3 64 4 13 66 a 5 39 1 6 265 2 9 160 3 17 158 4 26 158 5 19 156 1 16 112 2 27 116 3 37 116 4 7 120 5 28 120 of cases with the value 66 are shown in the table of lower
RITMOA Highest
Lowest
RITMOD Highest
Lowest
ESACB
81
SPSS
5 - Testes T
Por esta anlise pode concluir-se que o caso n 6 constitui uma observao outlier no referente observao ritmod: provavelmente, o observador queria registar o valor 165 e, por erro, introduziu 265, valor virtualmente impossvel para o ritmo cardaco de qualquer humano, mesmo que sujeito a condies in extremis. Contudo, como na realidade o estatstico no sabe ou que se passou, a melhor estratgia ser ignorar este caso (indivduo n 6) sempre que tiver de utilizar a varivel ritmod.
Aparece a seguinte caixa de dilogo, onde se selecciona a varivel a analisar (ritmoa), e o valor hipottico da mdia da populao :
ESACB
82
SPSS
5 - Testes T
De seguida, seleccionar
Por defeito, est definido (1-)=0.95; se o desejar, o utilizador poder alterar este nvel de confiana. Fazer e depois OK:
Para um nvel de significncia de 5%, deve rejeitar-se a hiptese nula de que o ritmo mdio cardaco da populao, com base nesta amostra, possa ser de 80 (pois o p-value ou significance level da amostra de 0.011<=0.05, ou porque |tcalc|=2.686 > t(0.05,39)=2.021). O intervalo de confiana para ( x ) [ 7.01, 1.00]
ESACB
83
SPSS
5 - Testes T
Compare Means
Independent
Samples
Na caixa de dilogo seguinte, seleccionar a varivel resposta a analisar (ritmoa); as duas amostras a comparar so dois sub-grupos desta varivel, definidos pela varivel fuma; para tal, seleccionar esta varivel para o campo :
Para definir os sub-grupos ou amostras, seleccionar ; usar os valores codificados da varivel fuma (1=Fuma; 2=No Fuma) para definir os grupos:
ESACB
84
SPSS
5 - Testes T
Fazer
e depois OK:
Group Statistics FUMA Fuma No Fuma N 16 24 Mean 76.75 75.42 Std. Deviation 12.00 7.72 Std. Error Mean 3.00 1.58
RITMOA
t-test for Equality of Means 95% Confidence Interval of the Difference Lower Upper -4.96 -5.67 7.63 8.34
Sig. .006
t .429 .394
df 38 23.274
No primeiro quadro so apresentados alguns parmetros estatsticos de cada uma das amostras. No segundo quadro apresentam-se os testes de homogeneidade de varincias (Levene) e o teste t-Student de comparao das mdias das duas amostras. Comea por analisar-se a homogeneidade das varincias, isto , verificar se se devem considerar homogneas ou diferentea as varincias dos dois sub-grupos:
2 2 H 0 : s ritmoaFuma = s ritmoaNo Fuma 2 2 H 1 : s ritmoaFuma s ritmoaNo Fuma
concluindo-se que se devem considerar as varincias no homogneas, pois p-value deste teste (0.006) inferior a um valor =5% ou mesmo =1% (isto , podemos fazer esta deciso com 99% de probabilidade de acertar). Tambm se pode decidir este teste, comparando o valor Fcalc=8.665 com um valor crtico da distribuio F de Snedecor (por exemplo, para =5%, F(0.05; 1, 38)=4.105).
O teste de Levene uma anova. Os graus de liberdade totais so N-1=39; pretendem-se comparar duas amostras, de modo que fica 1 grau de liberdade para as amostras, restando 38 graus de liberdade para o erro experimental.
ESACB
85
SPSS
5 - Testes T
De seguida, faz-se a deciso do teste t-Student, para a situao de varincias no homogneas, isto : H 0: x ritmoaFumadores = x ritmoano fumadres H 1 : x ritmoaFumadores x ritmoano fumadres
O valor da estatstica de teste t=0.394 < t(0.05; 23) = 2.069, ou p-value = 0.698 > =5%, concluindo-se assim que os ritmos cardacos em repouso, destas duas amostras, so estatisticamente iguais, para um nvel de significncia de 5%. O intervalo de confiana a 95% para a diferena entre as mdias [-5.67 , 8.34], podendo teoricamente a diferena ser nula.
Como anteriormente se fez notar, este teste dever ser efectuando, sem incluir o indivduo n 6, por se suspeitar que o respectivo registo do ritmo cardaco aps exerccio est errado. Para tal, fazer: Data Select Cases...
ESACB
86
SPSS
5 - Testes T
Pretende-se excluir o caso n 6 da anlise, isto , incluir na anlise todos os casos com excepo do caso n 6. Para tal, na caixa de dilogo seleccionar definir que se seleccionam para anlise todos os cados diferenntes do caso n 6: ,e
A indicao caso ~= 6 significa todos os casos excepto o caso 6. O Data Editor do SPSS criou automaticamente uma varivel designada filter_$, em que indica quais os casos seleccionados e os no includos. Repare-se que a linha 6 est traada, indicando que este caso est excludo de futuras anlises:
Note-se que este procedimento de seleccionar casos no exclusivo nem obrigatrio do procedimento da comparao de mdias de duas amostras emparelhadas. um procedimento geral a efectuar previamente a qualquer anlise em que haja necessidade de seleccionar ou excluir casos. De seguida, passa-se ento comparao das mdias das duas amostras emparelhadas. Tal como o nome indica, deve haver pares de observaes, de modo que ambas as amostras tm o mesmo nmero de observaes. Para tal, fazer Statistics Compare Means Paired Samples T Test...:
ESACB
87
SPSS
5 - Testes T
Na caixa de dilogo seguinte, seleccionar as duas variveis emparelhadas cujas mdias se pretendem comparar:
O boto serve para definir o intervalo de confiana para a diferena entre as duas mdias (por defeito, (1-)=0.95). Os resultados so os seguintes:
Paired Samples Statistics Mean 75.44 137.31 N 39 39 Std. Deviation 9.08 12.56 Std. Error Mean 1.45 2.01
Pair 1
RITMOA RITMOD
ESACB
88
SPSS
5 - Testes T
Paired Samples Correlations N Pair 1 RITMOA & RITMOD 39 Correlation .544 Sig. .000
Paired Differences 95% Confidence Interval of the Difference Lower Upper -65.36 -58.38
Pair 1
RITMOA - RITMOD
Mean -61.87
t -35.858
df 38
No primeiro quadro so apresentados alguns parmetros estatsticos de cada uma das amostras. Repare-se que foram s levados em conta 39 observaes em cada amostra. O quadro seguinte apresenta o valor do coeficiente de correlao de Pearson entre as duas variveis (r=0.544). No ltimo quadro apresentado o valor de x ritmoa x rit mod = 61.87 , o intervalo de confiana para a diferena entre mdias ([-65.36 , -58.38]) e o valor da estatstica de teste t-Student t= -35.858, bem como os graus de liberdade do teste e o valor p-value ou verdaddeiro nvel de significncia (0.000). Como |tcalc| = 35.858 > t(0.05,38)=2.025 (ou pvalue=0.000 < =5%) conclui-se que as mdias so significativamente diferentes.
ESACB
89
SPSS
6 - Anova
6-
ANLISE DE VARINCIA
Se a estatstica F demasiado grande, ento porque a varincia entre tratamentos preponderante em relao varincia residual, isto , os diferentes tratamentos a que a amostra foi sujeita conduz a resultados estatisticamente diferentes. Na sequncia de uma anlise de varincia em que se conclua que existem diferenas significativas entre as mdias dos diversos tratamentos em anlise, faz-se um teste suplementar a fim de identificar quais so as mdias estatisticamente diferentes. Os mais usuais so os testes LSD (Least Significant Difference, Diferena Mnima Significativa), HSD-Tuckey (Honnestly Significant Difference), Scheff, Duncan. Vamos ilustrar a metodologia de anlise de varincia, usando os valores apresentados no quadro seguinte, referentes s produes obtidas num ensaio em que se pretende
ESACB
90
SPSS
6 - Anova
estudar o efeito da densidade de sementeira, na cultura de arroz (variedade IR8). Definiram-se 6 densidades de sementeira (kg/ha de semente). Para cada densidade de fizeram-se 4 repeties. Todos os restantes factores de produo foram mantidos constantes no ensaio (adaptado de GOMEZ & GOMEZ, 1984). Densidade 25 50 75 100 125 150 5113 5346 5272 5164 4804 4254 5398 5952 5713 4831 4848 4542 Repeties 5307 4719 5483 4986 4432 4919 4678 5264 5049 4410 4748 4098
A anova simples (ensaios uni-factoriais) pode ser executada no SPSS com dois procedimentos:
6.1.1 - PROCEDIMENTO ONE-WAY ANOVA Este o procedimento que conduz elaborao tpica da anlise de varincia, e no qual possvel definir a obteno de mais resultados no mbito desta metodologia estatstica. A partir do menu principal do SPSS, seleccionar: Statistics Compare Means... One-Way ANOVA...
Seleccionar para o campo o nome da varivel que contm os valores da varivel que contm os resultados a analisar (no exemplo, producao); no campo selecciona-se a varivel que identifica os diferentes tratamentos (densidad). Seleccionar a opo para definir qual ou quais os testes de comparao de mdias a efectuar na sequncia da anova. Pode seleccionar-se apenas um ou mais testes.
ESACB 91
SPSS
6 - Anova
No exemplo, pediram-se os testes LSD e Tuckey. O nvel de significncia , por defeito, =5%, podendo este valor ser definido pelo utilizador:
Fazer
a fim de definir clculos adicionais; no caso, pediram-se o clculo dos parmetros estatsticos, a realizao do teste de Levene para verificar se as varincias dos diferentes tratamentos so homogneas e representar graficamente as mdias dos diferentes tratamentos:
Os resultados so os seguintes:
ESACB
92
SPSS
6 - Anova
Oneway
Descriptives Produo (kg/ha) 95% Confidence Interval for Mean Lower Upper Bound Bound 4614.4755 5633.5245 4517.0176 6123.4824 4926.6402 5831.8598 4335.3920 5360.1080 4408.0611 5007.9389 3879.0097 5027.4903 4779.5628 5164.6038
N 25 kg/ha 50 kg/ha 75 kg/ha 100 kg/ha 125 kg/ha 150 kg/ha Total 4 4 4 4 4 4 24
Test of Homogeneity of Variances Produo (kg/ha) Levene Statistic .418 df1 5 df2 18 Sig. .830 ANOVA Produo (kg/ha) Sum of Squares 2657880.8 2123087.0 4780967.8 df 5 18 23 Mean Square 531576.167 117949.278 F 4.507 Sig. .008
ESACB
93
SPSS
6 - Anova
Tukey HSD
50 kg/ha
75 kg/ha
100 kg/ha
125 kg/ha
150 kg/ha
LSD
25 kg/ha
50 kg/ha
75 kg/ha
100 kg/ha
125 kg/ha
150 kg/ha
(J) Densidade de sementeira 50 kg/ha 75 kg/ha 100 kg/ha 125 kg/ha 150 kg/ha 25 kg/ha 75 kg/ha 100 kg/ha 125 kg/ha 150 kg/ha 25 kg/ha 50 kg/ha 100 kg/ha 125 kg/ha 150 kg/ha 25 kg/ha 50 kg/ha 75 kg/ha 125 kg/ha 150 kg/ha 25 kg/ha 50 kg/ha 75 kg/ha 100 kg/ha 150 kg/ha 25 kg/ha 50 kg/ha 75 kg/ha 100 kg/ha 125 kg/ha 50 kg/ha 75 kg/ha 100 kg/ha 125 kg/ha 150 kg/ha 25 kg/ha 75 kg/ha 100 kg/ha 125 kg/ha 150 kg/ha 25 kg/ha 50 kg/ha 100 kg/ha 125 kg/ha 150 kg/ha 25 kg/ha 50 kg/ha 75 kg/ha 125 kg/ha 150 kg/ha 25 kg/ha 50 kg/ha 75 kg/ha 100 kg/ha 150 kg/ha 25 kg/ha 50 kg/ha 75 kg/ha 100 kg/ha 125 kg/ha
Mean Difference (I-J) Std. Error -196.2500 242.8469 -255.2500 242.8469 276.2500 242.8469 416.0000 242.8469 670.7500 242.8469 196.2500 242.8469 -59.0000 242.8469 472.5000 242.8469 612.2500 242.8469 867.0000* 242.8469 255.2500 242.8469 59.0000 242.8469 531.5000 242.8469 671.2500 242.8469 926.0000* 242.8469 -276.2500 242.8469 -472.5000 242.8469 -531.5000 242.8469 139.7500 242.8469 394.5000 242.8469 -416.0000 242.8469 -612.2500 242.8469 -671.2500 242.8469 -139.7500 242.8469 254.7500 242.8469 -670.7500 242.8469 -867.0000* 242.8469 -926.0000* 242.8469 -394.5000 242.8469 -254.7500 242.8469 -196.2500 242.8469 -255.2500 242.8469 276.2500 242.8469 416.0000 242.8469 670.7500* 242.8469 196.2500 242.8469 -59.0000 242.8469 472.5000 242.8469 612.2500* 242.8469 867.0000* 242.8469 255.2500 242.8469 59.0000 242.8469 531.5000* 242.8469 671.2500* 242.8469 926.0000* 242.8469 -276.2500 242.8469 -472.5000 242.8469 -531.5000* 242.8469 139.7500 242.8469 394.5000 242.8469 -416.0000 242.8469 -612.2500* 242.8469 -671.2500* 242.8469 -139.7500 242.8469 254.7500 242.8469 -670.7500* 242.8469 -867.0000* 242.8469 -926.0000* 242.8469 -394.5000 242.8469 -254.7500 242.8469
Sig. .962 .894 .859 .541 .111 .962 1.000 .408 .170 .023 .894 1.000 .290 .110 .014 .859 .408 .290 .991 .594 .541 .170 .110 .991 .895 .111 .023 .014 .594 .895 .430 .307 .270 .104 .013 .430 .811 .067 .021 .002 .307 .811 .042 .013 .001 .270 .067 .042 .572 .122 .104 .021 .013 .572 .308 .013 .002 .001 .122 .308
95% Confidence Interval Lower Upper Bound Bound -968.0352 575.5352 -1027.0352 516.5352 -495.5352 1048.0352 -355.7852 1187.7852 -101.0352 1442.5352 -575.5352 968.0352 -830.7852 712.7852 -299.2852 1244.2852 -159.5352 1384.0352 95.2148 1638.7852 -516.5352 1027.0352 -712.7852 830.7852 -240.2852 1303.2852 -100.5352 1443.0352 154.2148 1697.7852 -1048.0352 495.5352 -1244.2852 299.2852 -1303.2852 240.2852 -632.0352 911.5352 -377.2852 1166.2852 -1187.7852 355.7852 -1384.0352 159.5352 -1443.0352 100.5352 -911.5352 632.0352 -517.0352 1026.5352 -1442.5352 101.0352 -1638.7852 -95.2148 -1697.7852 -154.2148 -1166.2852 377.2852 -1026.5352 517.0352 -706.4525 313.9525 -765.4525 254.9525 -233.9525 786.4525 -94.2025 926.2025 160.5475 1180.9525 -313.9525 706.4525 -569.2025 451.2025 -37.7025 982.7025 102.0475 1122.4525 356.7975 1377.2025 -254.9525 765.4525 -451.2025 569.2025 21.2975 1041.7025 161.0475 1181.4525 415.7975 1436.2025 -786.4525 233.9525 -982.7025 37.7025 -1041.7025 -21.2975 -370.4525 649.9525 -115.7025 904.7025 -926.2025 94.2025 -1122.4525 -102.0475 -1181.4525 -161.0475 -649.9525 370.4525 -255.4525 764.9525 -1180.9525 -160.5475 -1377.2025 -356.7975 -1436.2025 -415.7975 -904.7025 115.7025 -764.9525 255.4525
ESACB
94
SPSS
6 - Anova
Homogeneous Subsets
Produo (kg/ha) Densidade de sementeira 150 kg/ha 125 kg/ha 100 kg/ha 25 kg/ha 50 kg/ha 75 kg/ha Sig. Subset for alpha = .05 1 2 4453.2500 4708.0000 4708.0000 4847.7500 4847.7500 5124.0000 5124.0000 5320.2500 5379.2500 .111 .110
N 4 4 4 4 4 4
Tukey HSDa
Means for groups in homogeneous subsets are displayed. a. Uses Harmonic Mean Sample Size = 4.000.
Means Plots
5600 5400
5200
5000
4800
4600
4400 25 kg/ha 50 kg/ha 75 kg/ha 100 kg/ha 125 kg/ha 150 kg/ha
Densidade de sementeira
O primeiro quadro de resultados contm a mdias, desvio padro e erro padro da mdia e intervalo de confiana da mdia, mnimo e mximo para cada tratamento. De seguida apresentado o teste de homogeneidade de varincias de Levene:
2 2 2 H 0 : s12 = s 2 = s 3 = s 4
H 1 : As varincias no so homogneas
Como F=0.418 < F(0.05;5;18) =2.77, ou p-value=0.83 > =0.05, conclui-se que as varincias so homogneas, isto , dentro de cada um dos tratamentos a variabilidade apenas devida a causas aleatrias. O quadro que se segue a tabela da anlise de varincia, apresentando a variabilidade particionada entre os tratamentos (betwen groups) e residual (within groups). Como F=4.507 > F(0.05;5;18) =2.77, ou p-value=0.008 < =0.05, conclui-se que existem diferenas significativas entre as produes mdias das 6 densidades de sementeira, com um nvel de significncia de 5%. Contudo, este resultado no nos permite concluir qual ou quais densidades conduzem a produes mdias significativamente diferentes de outras. Para concluir tal, h que proceder comparao da mdia de cada um dos tratamentos com todas as restantes. esta comparao feita em termos do valor absoluto das diferenas entre mdias: se esta
ESACB
95
SPSS
6 - Anova
diferena entre duas mdias pequena, ento as mdias no diferem; se a diferena grande, ento as duas mdias so estatisticamente distintas. Este o princpio de qualquer teste de comparaes mltiplas. Contudo, h que fixar um critrio que defina a fronteira entre o que uma diferena grande e uma diferena pequena. Este critrio estabelecido por cada um dos testes (LSD, Scheff, Tukey, etc), com base em expresses que relacionam a mdia das somas dos quadrados residual (calculada na tabela anova) e com base em funes de distribuio de probabilidades. No quadro dos resultados dos testes de comparaes mltiplas so identificados com o smbolo * quais os tratamentos cujas mdias diferem significativamente. Repare-se que ambos os testes acusam como conduzindo a produes mdias diferentes densidades de 50 kg/ha e 150 kg/ha (diferena de 867 kg) e 75 kg/ha e 150 kg/ha (diferena de 926 kg). Contudo apenas o teste LSD acusa existirem diferenas entre as produes alcanadas com 25 e 150 kg/ha (diferena de 670.75 kg), 50 e 125 kg/ha (diferena de 612.25 kg), 75 e 100 kg/ha (diferena de 531.5 kg). Isto , o teste LSD acusa como diferentes tratamentos cujas mdias esto menos afastadas do que o teste Tuckey, que d, por assim dizer, maior margem de dvida antes de imputar essas diferenas aos efeitos dos tratamentos. De seguida aparece um quadro complementar do teste Tukey em que agrupa os tratamentos em grupos homogneos, sendo o critrio de agrupamento o facto de no existirem diferenas significativas entre os mdias dos tratamentos includos no mesmo grupo. O mesmo tratamento pode pertencer a mais do que um grupo, desde que no difira dos restantes tratamentos desse grupo. Assim, as densidades de sementeira de 150, 125, 100, 25 constituem um grupo de tratamentos, cujas produes mdias so as mais baixas; as densidades de 125, 100, 25, 50, 75 constituem outro grupo, cujas produes so as mais altas. claro que alguns dos tratamentos densidades de 125, 100, 25) pertencem aos dois grupos6. Em termos absolutos, a densidade de sementeira que conduz a maior produo a densidade de 75 kg/ha; contudo, a produo obtida com a densidade de 50 kg/ha no difere significativamente da anterior, e pode haver vantagens econmicas em usar esta densidade. Contudo, estas so algumas reflexes de ndole tcnica que competem ao analista desenvolver, no cabendo propriamente no mbito deste manual. No final aparece um grfico representado as mdias dos tratamentos, que pode ser til explorar no sentido de compreender os resultados, e deles tirar o proveito no mbito da aplicabilidade da Estatstica ao delineamento de ensaios agrcolas.
ESACB
96
SPSS
6 - Anova
Seleccionar para o campo o nome da varivel que contm os valores da varivel a analisar (no exemplo, producao); no campo selecciona-se a varivel que identifica os diferentes tratamentos (densidad). Seleccionar o boto a fim de pedir a elaborao da tabela da anlise de varincia. Por defeito, so calculados os parmetros mdia e desvio padro; o utilizador pode seleccionar outras estatsticas a calcular:
Os resultados so os seguintes:
ESACB
97
SPSS
6 - Anova
Means
Case Processing Summary Cases Excluded N Percent 0 .0%
Report Produo (kg/ha) Densidade de sementeira 25 kg/ha 50 kg/ha 75 kg/ha 100 kg/ha 125 kg/ha 150 kg/ha Total Mean 5124.0000 5320.2500 5379.2500 4847.7500 4708.0000 4453.2500 4972.0833 N 4 4 4 4 4 4 24
ANOVA Table Sum of Squares 2657880.8 2123087.0 4780967.8 Mean Square 5 531576.167 18 117949.278 23
df
F 4.507
Sig. .008
A tabela da anova idntica obtida no procedimento anterior. Contudo, este procedimento no permite a obteno dos testes subsequentes que foram obtidos previamente. A estatstica Eta-Squared a proporo de varincia da varivel dependente que SS explicada pelas diferenas entre os tratamentos; dado pela expresso H (isto , SS T razo entre Soma dos Quadrados entre tratamentos (SSH) e a Soma dos Quadrados total (SST). A designao de Eta adoptada pelo SPSS no contexto da anova destina-se a no fazer confuso com o coeficiente de determinao, R2, usado no contexto da regresso linear, e que pode ser obtido a partir da tabela da anova da regresso pela expresso anterior.
ESACB
98
SPSS
6 - Anova
ESACB
99
SPSS
6 - Anova
calcular. Por defeito, est seleccionada a opo , que especifica que a tabela da anova apresentar a os efeitos principais de cada factor, bem como as interaces o utilizador pode definir entre factores. a situao mais usual. Optando por que a anova apresente apenas os efeitos principais, ou apenas algumas das interaces a definir.
Por defeito, est definido o mtodo de clculo da soma de quadrados (tipo III); para delineamentos em que no haja missing-values deve definir-se esta metodologia de clculo.
ESACB
100
SPSS
6 - Anova
A opo deve ser seleccionada (por defeito, est activada). Caso se assuma que os dados passam pela origem dos eixos (isto , caso a ausncia dos factores em anlise conduzam a valor zero da varivel dependente), pode omitir-se esta opo. Da sua incluso no modelo resulta a apresentao de mais uma linha inusitada na tabela da anova, que traduz a variabilidade associada varivel dependente para os nveis zero dos factores. As restantes linhas da tabela so as usuais. Fazer para regressar janela GLM General factorial, onde se deve
para representar graficamente as mdias de cada um dos seleccionar factores e das interaces de factores:
Para seleccionar o grfico das mdias de um factor, definir esse factor em ; fazer para adicionar esse grfico; para definir o grfico das interaces, seleccionar um factor para Horizontal Axis e outro factor para Separate Lines. Fazer Optar por para continuar. para definir os testes de comparaes mltiplas:
ESACB
101
SPSS
6 - Anova
Fazer para continuar. Seleccionar para seleccionar o clculo de parmetros estatsticos, teste de Levene de homogeneidade de varincias e os intervalos de confiana para as mdias:
SPSS
6 - Anova
Between-Subjects Factors Value Label IR8 IR5 C4-63 0 kg/ha 60 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha
N 20 20 20 12 12 12 12 12
Variedade
Adubao
1 2 3 0 1 2 3 4
Descriptive Statistics Dependent Variable: Produo Variedade IR8 Adubao 0 kg/ha 60 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha Total 0 kg/ha 60 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha Total 0 kg/ha 60 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha Total 0 kg/ha 60 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha Total Mean 3124.0000 4723.5000 4459.5000 5717.0000 5823.0000 4769.4000 3548.0000 4806.0000 5436.0000 5739.5000 5680.5000 5042.0000 3778.0000 4753.5000 5320.0000 5552.5000 5886.5000 5058.1000 3483.3333 4761.0000 5071.8333 5669.6667 5796.6667 4956.5000 Std. Deviation 532.7939 171.9874 400.2345 334.1237 208.3235 1054.8145 540.9054 443.6124 757.8408 494.9542 217.5462 957.4259 314.1507 414.2411 501.1640 573.7000 385.9374 855.9827 513.9808 331.3680 689.7728 441.1381 271.0335 952.5245 N 4 4 4 4 4 20 4 4 4 4 4 20 4 4 4 4 4 20 12 12 12 12 12 60
IR5
C4-63
Total
Tests the null hypothesis that the error variance of the dependent variable is equal across groups. a. Design: Intercept+VARIEDAD+AZOTO+VARIEDAD * AZOTO
ESACB
103
SPSS
6 - Anova
Tests of Between-Subjects Effects Dependent Variable: Produo Type III Sum of Squares 44578256a 1.47E+09 1052784.4 41234745 2290726.3 8952613.0 1.53E+09 53530869 Mean Square 3184161.1 1.47E+09 526392.200 10308686 286340.783 198946.956
Source Corrected Model Intercept VARIEDAD AZOTO VARIEDAD * AZOTO Error Total Corrected Total
df 14 1 2 4 8 45 60 59
Based on estimated marginal means *. The mean difference is significant at the .05 level. a. Adjustment for multiple comparisons: Least Significant Difference (equivalent to no adjustments).
ESACB
104
SPSS
6 - Anova
Univariate Tests Dependent Variable: Produo Sum of Squares 1052784.4 8952613.0 df 2 45 Mean Square 526392.200 198946.956 F 2.646 Sig. .082
Contrast Error
The F tests the effect of Variedade. This test is based on the linearly independent pairwise comparisons among the estimated marginal means.
2. Adubao
Estimates Dependent Variable: Produo 95% Confidence Interval Lower Upper Bound Bound 3223.999 3742.668 4501.666 5020.334 4812.499 5331.168 5410.332 5929.001 5537.332 6056.001
ESACB
105
SPSS
6 - Anova
Pairwise Comparisons Dependent Variable: Produo 95% Confidence Interval a for Difference Lower Upper Bound Bound -1644.421 -910.913 -1955.254 -1221.746 -2553.087 -1819.579 -2680.087 -1946.579 910.913 1644.421 -677.587 55.921 -1275.421 -541.913 -1402.421 -668.913 1221.746 1955.254 -55.921 677.587 -964.587 -231.079 -1091.587 -358.079 1819.579 2553.087 541.913 1275.421 231.079 964.587 -493.754 239.754 1946.579 2680.087 668.913 1402.421 358.079 1091.587 -239.754 493.754
60 kg/ha
90 kg/ha
120 kg/ha
150 kg/ha
(J) Adubao 60 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha 0 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha 0 kg/ha 60 kg/ha 120 kg/ha 150 kg/ha 0 kg/ha 60 kg/ha 90 kg/ha 150 kg/ha 0 kg/ha 60 kg/ha 90 kg/ha 120 kg/ha
Mean Difference (I-J) -1277.667* -1588.500* -2186.333* -2313.333* 1277.667* -310.833 -908.667* -1035.667* 1588.500* 310.833 -597.833* -724.833* 2186.333* 908.667* 597.833* -127.000 2313.333* 1035.667* 724.833* 127.000
Std. Error 182.093 182.093 182.093 182.093 182.093 182.093 182.093 182.093 182.093 182.093 182.093 182.093 182.093 182.093 182.093 182.093 182.093 182.093 182.093 182.093
Sig. .000 .000 .000 .000 .000 .095 .000 .000 .000 .095 .002 .000 .000 .000 .002 .489 .000 .000 .000 .489
Based on estimated marginal means *. The mean difference is significant at the .05 level. a. Adjustment for multiple comparisons: Least Significant Difference (equivalent to no adjustments). Univariate Tests Dependent Variable: Produo Sum of Squares 41234745 8952613.0 df 4 45 Mean Square 10308686 198946.956 F 51.816 Sig. .000
Contrast Error
The F tests the effect of Adubao. This test is based on the linearly independent pairwise comparisons among the estimated marginal means.
ESACB
106
SPSS
6 - Anova
3. Variedade * Adubao Dependent Variable: Produo 95% Confidence Interval Lower Upper Bound Bound 2674.820 3573.180 4274.320 5172.680 4010.320 4908.680 5267.820 6166.180 5373.820 6272.180 3098.820 3997.180 4356.820 5255.180 4986.820 5885.180 5290.320 6188.680 5231.320 6129.680 3328.820 4227.180 4304.320 5202.680 4870.820 5769.180 5103.320 6001.680 5437.320 6335.680
Variedade IR8
IR5
C4-63
Adubao 0 kg/ha 60 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha 0 kg/ha 60 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha 0 kg/ha 60 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha
Mean 3124.000 4723.500 4459.500 5717.000 5823.000 3548.000 4806.000 5436.000 5739.500 5680.500 3778.000 4753.500 5320.000 5552.500 5886.500
Std. Error 223.017 223.017 223.017 223.017 223.017 223.017 223.017 223.017 223.017 223.017 223.017 223.017 223.017 223.017 223.017
95% Confidence Interval Lower Upper Bound Bound -614.4488 69.2488 -630.5488 53.1488 -69.2488 614.4488 -357.9488 325.7488 -53.1488 630.5488 -325.7488 357.9488
ESACB
107
SPSS
6 - Anova
Homogeneous Subsets
Produo Tukey HSD Variedade IR8 IR5 C4-63 Sig.
a,b
N 20 20 20
Means for groups in homogeneous subsets are displayed. Based on Type III Sum of Squares The error term is Mean Square(Error) = 198946.956. a. Uses Harmonic Mean Sample Size = 20.000. b. Alpha = .05.
Adubao
Multiple Comparisons Dependent Variable: Produo Tukey HSD
60 kg/ha
90 kg/ha
120 kg/ha
150 kg/ha
(J) Adubao 60 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha 0 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha 0 kg/ha 60 kg/ha 120 kg/ha 150 kg/ha 0 kg/ha 60 kg/ha 90 kg/ha 150 kg/ha 0 kg/ha 60 kg/ha 90 kg/ha 120 kg/ha
Mean Difference (I-J) -1277.6667* -1588.5000* -2186.3333* -2313.3333* 1277.6667* -310.8333 -908.6667* -1035.6667* 1588.5000* 310.8333 -597.8333* -724.8333* 2186.3333* 908.6667* 597.8333* -127.0000 2313.3333* 1035.6667* 724.8333* 127.0000
Std. Error 182.0929 182.0929 182.0929 182.0929 182.0929 182.0929 182.0929 182.0929 182.0929 182.0929 182.0929 182.0929 182.0929 182.0929 182.0929 182.0929 182.0929 182.0929 182.0929 182.0929
Sig. .000 .000 .000 .000 .000 .440 .000 .000 .000 .440 .016 .002 .000 .000 .016 .956 .000 .000 .002 .956
95% Confidence Interval Lower Upper Bound Bound -1795.0797 -760.2536 -2105.9131 -1071.0869 -2703.7464 -1668.9203 -2830.7464 -1795.9203 760.2536 1795.0797 -828.2464 206.5797 -1426.0797 -391.2536 -1553.0797 -518.2536 1071.0869 2105.9131 -206.5797 828.2464 -1115.2464 -80.4203 -1242.2464 -207.4203 1668.9203 2703.7464 391.2536 1426.0797 80.4203 1115.2464 -644.4131 390.4131 1795.9203 2830.7464 518.2536 1553.0797 207.4203 1242.2464 -390.4131 644.4131
Based on observed means. *. The mean difference is significant at the .05 level.
ESACB
108
SPSS
6 - Anova
Homogeneous Subsets
Produo Tukey HSD Adubao 0 kg/ha 60 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha Sig.
a,b
N 12 12 12 12 12
1 3483.3333
1.000
.440
Means for groups in homogeneous subsets are displayed. Based on Type III Sum of Squares The error term is Mean Square(Error) = 198946.956. a. Uses Harmonic Mean Sample Size = 12.000. b. Alpha = .05.
Profile Plots
5000
4900
4800
Variedade
ESACB
109
SPSS
6 - Anova
5000
4000
Adubao
6000
5000
4000
Variedade
IR8
3000 IR5 2000 0 kg/ha 60 kg/ha 90 kg/ha 120 kg/ha 150 kg/ha C4-63
Adubao
ESACB
110
SPSS
7 - Regresso Linear
7-
REGRESSO LINEAR
7.1 - INTRODUO
Muitos estudos estatsticos tm como objectivo estabelecer uma relao, traduzida por uma equao, que permite estimar o valor de uma varivel, em funo de outra ou outras variveis. O caso mais simples traduzir esta relao pela equao de uma recta, quando o acrscimo de uma varivel, designada por dependente e usualmente representada por y, varia linearmente com os acrscimos provocados noutra varivel, designada por independente, representada por x. A equao que traduz esta relao y = a + bx ou y = b0 + b1 x , em que os parmetros ou coeficientes so a ordenada na origem, a (ou bo), e o declive, b (ou b1). Como regra, previamente ao clculo da regresso linear, deve fazer-se uma anlise grfica aos dados (grfico de disperso ou scatterplot), a fim de ter uma percepo visual da existncia ou no de uma tendncia de dependncia entre as variveis, e como mtodo de detectar possveis observaes outliers ou influentes, que distoram os resultados. A representao grfica dos dados, num grfico de pontos (scatterplot) ajuda a identificar algumas situaes em que a equao de regresso linear simples no tem um ajustamento perfeito. De seguida, ilustram-se algumas destas situaes. Na situao 1, a observao assinalada um outlier bi-variado, muito embora no o seja em relao a cada uma das variveis, j que no observao extrema. Contudo, o par (x,y) est deslocado do contexto geral das restantes observaes. Em relao s restantes observaes, o grfico evidencia uma tendncia segundo uma recta crescente. O utilizador dever verificar os dados e corrigir eventuais registos errneos, ou simplesmente desprezar esta observao e efectuar a regresso com os dados restantes. Note-se que a incluso desta observao ir provocar uma acentuada variao no declive da recta.
ESACB
111
SPSS
7 - Regresso Linear
Situao 1 50
0 10
Na situao 2 existe uma observao igualmente muito influente em termos do declive da recta ajustada. Neste caso, a observao assinalada tem tendncia a ser outlier, quer bi-variado, quer em relao a cada uma das variveis. Alm disso, eliminando esta observao, resta uma nuvem de pontos, em que no ntida qualquer tendncia de relao entre as variveis.
Situao 2 60
0 10
Na situao 3, a varincia da varivel y no uniforme, ao longo dos valores em x, isto , tomando fatias verticais ao longo do eixo dos xx, a disperso dos valores y vai aumentando para valores mais elevados de y. Muito embora a normalidade dos dados no seja um pressuposto obrigatrio para a estimativa da regresso linear, contudo necessrio que os resduos (yobs yest) tenham distribuio normal e varincia constante. Nesta situao, estes pressupostos so violados, invalidando as inferncias que se faam a partir da equao estimada.
ESACB
112
SPSS
7 - Regresso Linear
Situao 3 50
0 10
A situao 4 ilustra uma forte relao entre x e y, mas no de tipo linear, pelo que o ajustamento de uma recta para traduzir esta funo de dependncia errada e sem significado.
Situao 4 12
0 0 16
Na situao 5 recolheram-se observaes apenas nas zonas extremas do intervalo de variao de x, no existindo dados para valores intermdios da varivel x. A funo de regresso linear nesta situao fortemente influenciada pelos valores extremos, mas no traduz a relao que existe para todo o intervalo de x. Na recolha de dados, deve haver a preocupao de que a amostragem cubra todo o intervalo de variao de x, de modo a evidenciar o comportamento da relao no interior desse intervalo.
Situao 5 20
0 0 10
ESACB
113
SPSS
7 - Regresso Linear
O objectivo da regresso linear estabelecer a funo y = a + bx desta recta, que de um modo muito aproximado permite estimar o valor de y para dado valor de x. O clculo dos coeficientes de regresso faz-se pelo mtodo dos mnimos quadrados, que minimiza 2 a soma dos quadrados dos resduos, isto , minimiza a funo ( y obs y ) , em que y representa o valor estimado pela equao para dado valor x. No grfico seguinte representam-se os valores de 24 pares de valores do tipo (x,y), em que no eixo dos xx est representada a varivel % de slidos insolveis em gua e nos yy se representa a % total de slidos, duas caractersticas importantes em molho de tomate (adaptado de DERECK PIKE, 19??; os dados so apresentados em anexo):
60
50
40
% slidos no molho
30
20 10 11 12 13 14 15 16 17 18
% insolveis em gua
evidente a tendncia do decrscimo da % de slidos no molho com o aumento da % de insolveis em gua, segundo uma relao aproximadamente linear. Pretende-se estabelecer esta relao entre as duas variveis, com os objectivos de (i) descrever a relao entre as caractersticas para este tipo de molho, e (ii) poder estimar ou prever a % de slidos do molho (caracterstica bastante difcil de quantificar) mediante a % de insolveis em gua que o molho contm (caracterstica relativamente fcil de determinar). A equao de regresso linear uma estatstica, e como tal, tem inerente a componente de erro estatstico. A fim de interpretar a equao estimada, so apresentados uma srie de coeficientes e estatsticas suplementares, que de um modo geral permitem analisar o maior ou menor grau de rigor com que a equao de regresso traduz a relao entre as variveis em estudo. Um dos coeficientes associados equao o coeficiente de correlao linear, representado por r, que representa, na escala ]-1, 1[, a correlao ou associao entre as
ESACB
114
SPSS
7 - Regresso Linear
duas variveis; o quadrado deste coeficiente constitui o coeficiente de correlao total, ou coeficiente de determinao, representado por R2, que traduz, a % de variabilidade da varivel dependente (y) que explicada pela varivel independente (x). apresentado o coeficiente de determinao ajustado, que um estimador no enviezado de R2 (que tende a ser um estimador sobre-avaliado) definido a partir de R2 pela expresso:
2 Ra = R 2
p (1 R 2 ) N p 1
em que p o nmero de variveis independentes; no caso da equao de regresso linear simples y = a + bx , p=1. So apresentados os intervalos de confiana para os coeficientes a e b, bem como os erros-padro e as estatsticas dos seguintes testes de hipteses: teste referente ao coeficiente a: teste referente ao coeficiente b: H0 : a = 0 H0 : b = 0 H1 : a 0 H1 : b 0
O output do procedimento do clculo da equao de regresso apresenta a tabela da anova, que constitui um teste de hipteses existncia ou no de uma relao de dependncia: H 0 : y no depende de x H0 : b = 0 H1 : b 0 H 1 : y depende de x
A estatstica F tem um valor alto quando a varivel independente ajuda a explicar a variabilidade da varivel dependente. Alm disso, a tabela da anlise de varincia fornece a mdia da soma dos quadrados dos resduos, cuja raz quadrada o erro padro da estimativa. A equao de regresso to mais ajustada aos dados, quanto menor for o erro padro da estimativa, comparativamente com o desvio padro da varivel dependente.
No exemplo usam-se os dados das caractersticas do molho de tomate, em que as variveis so insoluve (% de insolveis em gua) e solidos (% total de slidos no molho).
ESACB
115
SPSS
7 - Regresso Linear
. Aparece a seguinte caixa de dilogo, No menu anterior, seleccionar a opo onde se define a varivel dependente (solidos) e a varivel independente (insoluve) para os respectivos campos:
Seleccionar o boto , que abre a seguinte caixa de dilogo, onde se seleccionam as opes Confidence intervals e Descriptives; as opes Estimates e Model fit esto activadas por defeito:
ESACB
116
SPSS
7 - Regresso Linear
Fazer :
Nesta caixa de dilogo, deve seleccionar e para obter o histograma e o grfico do ajustamento normal dos resduos, a fim de verificar se os resduos seguem distribuio normal (pressuposto para a validade da regresso linear) para verificar a linearidade e a igualdade de varincia dos resduos, efectuar o grfico dos resduos, com os valores estimados standardizados (ZPRED) no eixo dos xx, e os resduos standardizados (ZRESID) no eixo dos yy. No final, fazer regressar janela Linear Regression. a fim de
O boto d acesso seguinte caixa de dilogo, onde se podem definir critrios de selecco ou remoo de variveis independentes (s tm efeito em regresso mltipla):
ESACB
117
SPSS
7 - Regresso Linear
Regression
Descriptive Statistics Mean 39.7292 13.7775 Std. Deviation 5.1826 1.8995 N 24 24
% slidos no molho % insolveis em gua % slidos no molho % insolveis em gua % slidos no molho % insolveis em gua
b Variables Entered/Removed
Model 1
Variables Removed .
Method Enter
ESACB
118
SPSS
7 - Regresso Linear
Model 1
R .970a
R Square .941
Model 1
df 1 22 23
F 350.378
Sig. .000a
Standardi zed Coefficien ts Beta -.970 t 38.761 -18.718 Sig. .000 .000
95% Confidence Interval for B Lower Upper Bound Bound 72.117 80.270 -2.940 -2.353
a Residuals Statistics
N 24 24 24 24
ESACB
119
SPSS
7 - Regresso Linear
Charts
Frequency
2 Std. Dev = .98 1 0 -1.00 -.50 0.00 .50 1.00 1.50 2.00 2.50 Mean = 0.00 N = 24.00
.75
.50
.25
ESACB
120
SPSS
7 - Regresso Linear
-1
-2 -3 -2 -1 0 1 2
A equao da recta estimada y = 76.193 2.647 x , em que x a % de insolveis em gua e y a % de slidos no molho. A anlise e interpretao pormenorizadas dos resultados deixam-se a cargo do leitor. Chama-se apenas a ateno para o facto de os resduos estarem ligeiramente desajustados da distribuio normal, como est evidenciado no histograma (nota-se um acentuado enviezamento esquerda, bem como a falta de resduos numa das classes centrais) e no grfico de ajustamento normal (um perfeito ajustamento traduzido pela diagonal do grfico; neste caso, os resduos situam-se sistematicamente acima ou abaixo desta linha, em diferentes zonas do grfico). No grfico dos resduos standardizados versus valores previstos standardizados nota-se uma tendncia para que os resduos se distribuam segundo uma curva ligeiramente cncava. Estas anlise dos resduos sugerem que o modelo linear ajustado (equao de uma recta) no o melhor modelo para traduzir a relao entre estas variveis; a distribuio dos resduos indica que o ajustamento de um modelo linear polinomial de 2 ordem, com uma equao do tipo y = a + bx + cx 2 aumentar a preciso da estimativa (que traduzida pelo coeficiente de determinao R2=0.941). O ajustamento a uma equao de segundo grau ser abordado no pargrafo seguinte.
ESACB
121
SPSS
7 - Regresso Linear
Os coeficientes de regresso b1, b2, ..., bn traduzem o declive ou acrscimo na varivel dependente provocado pelo acrscimo unitrio de cada uma das variveis independentes, x1, x2, ..., xn, respectivamente. A metodologia que se vai abordar serve igualmente para estimar uma equao de regresso linear polinomial, do tipo y = b0 + b1 x + b2 x 2 + b3 x 3 + ... + bn x n , em que y depende, no de diversas variveis independentes x1, x2, ..., xn, mas de um polinmio da mesma varivel independente x. Neste caso, previamente a efectuar o procedimento da regresso linear, devem gerar-se as variveis correspondentes s potncias x2, x3, ..., xn a incluir no modelo. No pargrafo seguinte ser abordada uma metodologia diferente que permite o ajustamento de equaes de curvas polinomiais a uma amostra de dados (x,y). Quando se ajusta um modelo de regresso mltipla, pode acontecer que se justifique estatisticamente incluir na equao de regresso todas as variveis independentes, ou que se incluam apenas algumas destas variveis explanatrias. Esta deciso tomada em funo da significncia do parmetro de regresso de cada uma das variveis, ou pelo acrscimo do coeficiente de determinao, R2, provocado pela incluso dessas variveis. De um modo geral, existem duas estratgias a seguir: (i) comear por incluir todas as variveis, e analisar a contribuio ou significncia dos coeficientes de regresso de cada uma das variveis independentes no modelo; eliminar a varivel independente menos significativa, desde que a sua contribuio seja inferior a determinado limite (normalmente analisado em termos da estatstica F associada a essa varivel na tabela da anova); recalcular de novo o modelo sem esta varivel e, se for caso disso, eliminar nova varivel, e assim sucessivamente, at que todas as restantes variveis independentes sejam significativas para a preciso do modelo. Este tipo de estratgia designa-se por processo backward ou stepback. (ii) comear por calcular um modelo de regresso simples, y = b0 + b1 x , incluindo, se for caso disso, apenas a varivel independente cujo coeficiente de regresso mais significativo em termos de preciso; analisar a significncia da prxima varivel independente mais significativa, e inclula, se for caso disso; recalcular de novo o modelo; analisar a significncia da prxima varivel independente mais significativa, e inclu-la, se for caso disso, e assim sucessivamente at que mais nenhuma das variveis independentes seja significativa. Este tipo de metodologia designa-se por processo stepwise ou forward. Pode acontecer que os modelos obtidos por estes dois tipos de metodologias, para a mesma amostra de valores, no sejam inteiramente coincidentes, nomeadamente quando alguma ou algumas das variveis independentes esto muito prximas do limite que define a significncia da sua incluso ou no incluso no modelo. Chama-se a ateno que, por vezes, a incluso de muitas variveis explanatrias no modelo pouco acrscimo trazem em termos de preciso do modelo, e este fica muito
ESACB 122
SPSS
7 - Regresso Linear
pouco funcional e muito fictcio ou artificial, isto , muito bem ajustado amostra particular de valores usados para o clculo da equao, mas pouco adaptvel populao. Para ilustrar o ajustamento de uma equao de regresso linear mltipla, vamos usar o seguinte conjunto de dados (adaptado de DRAPPER & SMITH, 1981), em que as variveis independentes so a temperatura mdia mensal (graus Fahrenheit), a produo mensal (toneladas), o nmero de dias teis de trabalho por ms e o nmero de empregados, e a varivel dependente o consumo de gua (m3), observados numa determinada empresa fabril: Temperatura (F) 58.80 65.20 70.90 77.40 79.30 81.00 71.90 63.90 54.50 39.50 44.50 43.60 56.00 64.70 73.00 78.90 79.40 68.40 Produo mensal 7107.00 8373.00 9796.00 9208.00 14792.00 14564.00 11964.00 13526.00 12656.00 14119.00 15691.00 14571.00 13619.00 14575.00 14556.00 16573.00 15618.00 14346.00 Dias teis do ms 20.00 20.00 20.00 20.00 22.00 23.00 21.00 22.00 21.00 21.00 22.00 23.00 22.00 22.00 21.00 22.00 22.00 23.00 Nmero de operrios 129.00 141.00 153.00 166.00 193.00 189.00 175.00 186.00 190.00 187.00 195.00 206.00 198.00 192.00 191.00 200.00 200.00 185.00 Consumo de gua (m3) 2967.00 2828.00 2891.00 2994.00 3282.00 3498.00 3302.00 3260.00 3211.00 3286.00 3432.00 3425.00 3256.00 3422.00 3250.00 3464.00 3495.00 3568.00
Pretende-se ajustar uma equao do tipo y = b0 + b1 x1 + b2 x 2 + b3 x3 + b4 x 4 que permita estimar o consumo mensal de gua nesta empresa, em funo das variveis independentes observadas. Para estimar uma equao de regresso mltipla executar o seguinte procedimento: Statistics Regression
ESACB
123
SPSS
7 - Regresso Linear
No menu anterior, seleccionar a opo . Aparece a seguinte caixa de dilogo, onde se definem a varivel dependente e as todas as variveis independentes:
No campo das variveis independentes esto includas todas as variveis explanatrias. O mtodo de clculo seleccionado Enter, que obriga incluso de todas as variveis independentes no modelo, sejam ou no significativas. Os outros mtodos de clculo so Stepwise e Forward (mtodos de incluso progressiva de variveis independentes), Backward (mtodo de eliminao progressiva de variveis independentes) e Remove (mtodo que calcula o modelo sem incluso de qualquer varivel independente, isto , o modelo resume-se a y = y ):
A fim de comparar diversos modelos de regresso, vamos comear por incluir todas as variveis independentes, optando pelo mtodo Enter; seguidamente, deve repetir-se a metodologia, e optar por outros mtodos de clculo, nomeadamente Stepwise e Backward. Seleccionar o boto linear simples. , e tal como descrito para a regresso
Os resultados so os seguintes:
ESACB
124
SPSS
7 - Regresso Linear
Regression
Descriptive Statistics Std. Deviation 218.9502 13.1334 2716.3310 1.0432 21.3514
Correlations Consumo mensal de gua (m3) Pearson Correlation Consumo mensal de gua (m3) Temperatura mdia mensal (F) Produo mensal (Ton) Dias teis no ms Nmero de operrios Consumo mensal de gua (m3) Temperatura mdia mensal (F) Produo mensal (Ton) Dias teis no ms Nmero de operrios Consumo mensal de gua (m3) Temperatura mdia mensal (F) Produo mensal (Ton) Dias teis no ms Nmero de operrios 1.000 .013 .894 .901 .831 . .480 .000 .000 .000 18 18 18 18 18 Temperatura mdia mensal (F) .013 1.000 -.005 -.022 -.080 .480 . .493 .466 .377 18 18 18 18 18 Produo mensal (Ton) .894 -.005 1.000 .811 .939 .000 .493 . .000 .000 18 18 18 18 18
Mean Consumo mensal de gua (m3) Temperatura mdia mensal (F) Produo mensal (Ton) Dias teis no ms Nmero de operrios 3268.3889 65.0500 13091.89 21.5000 182.0000
N 18 18 18 18 18
Dias teis no ms .901 -.022 .811 1.000 .784 .000 .466 .000 . .000 18 18 18 18 18
Nmero de operrios .831 -.080 .939 .784 1.000 .000 .377 .000 .000 . 18 18 18 18 18
Sig. (1-tailed)
b Variables Entered/Removed
Model 1
Variables Entered Nmero de operrios, Temperatura mdia mensal (F), Dias teis no a ms, Produo mensal (Ton)
Variables Removed .
Method Enter
a. All requested variables entered. b. Dependent Variable: Consumo mensal de gua (m3)
Model Summaryb
Model 1 a.
R .945a
R Square .893
Change Statistics R Square Change .893 F Change 27.127 df1 4 df2 13 Sig. F Change .000
Predictors: (Constant), Nmero de operrios, Temperatura mdia mensal (F), Dias teis no ms, Produo mensal (Ton) b. Dependent Variable: Consumo mensal de gua (m3)
ESACB
125
SPSS
7 - Regresso Linear
b ANOVA
Model 1
df 4 13 17
F 27.127
Sig. .000a
a. Predictors: (Constant), Nmero de operrios, Temperatura mdia mensal (F), Dias teis no ms, Produo mensal (Ton) b. Dependent Variable: Consumo mensal de gua (m3)
Coefficientsa Standardi zed Coefficien ts Beta .014 .624 .526 -.167 t .858 .150 2.166 3.376 -.610 Sig. .406 .883 .049 .005 .552
Unstandardized Coefficients Model 1 B 531.302 .232 5.027E-02 110.460 -1.709 Std. Error 619.067 1.550 .023 32.724 2.801
(Constant) Temperatura mdia mensal (F) Produo mensal (Ton) Dias teis no ms Nmero de operrios
95% Confidence Interval for B Lower Upper Bound Bound -806.111 1868.714 -3.117 .000 39.765 -7.759 3.581 .100 181.156 4.342
Correlations Zero-order .013 .894 .901 .831 Partial .041 .515 .683 -.167 Part .014 .197 .306 -.055
a Residuals Statistics
Minimum Predicted Value 2890.9719 Residual -111.5868 Std. Predicted Value -1.824 Std. Residual -1.363
N 18 18 18 18
Charts
Frequency
Std. Dev = .87 Mean = 0.00 N = 18.00 -1.50 -1.00 -.50 0.00 .50 1.00 1.50
ESACB
126
SPSS
7 - Regresso Linear
Normal P-P Plot of Regression Standardized Residual Dependent Variable: Consumo mensal de gua (m3)
1.00
.75
.50
.25
Scatterplot
Dependent Variable: Consumo mensal de gua (m3)
2.0
1.5 1.0 .5 0.0 -.5 -1.0 -1.5 -2.0 -1.5 -1.0 -.5 0.0 .5 1.0 1.5
Repita-se o processo, optando pelo mtodo de clculo Stepwise. Neste caso, chegar-se- ao modelo:
ESACB 127
SPSS
7 - Regresso Linear
consumo=443.965+0.03842producao+107.976dias
2 e R2=0.889 e Rajustado = 0.874 .
Repare-se que se simplificou o modelo, sem contudo prejudicar a preciso deste como instrumento de estimativa da varivel dependente. De seguida apresentam-se os resultados completos obtidos com o mtodo stepwise, de modo a possibilitar a comparao com o modelo que inclui todas as variveis independentes:
Regression
Descriptive Statistics Std. Deviation 218.9502 13.1334 2716.3310 1.0432 21.3514
Correlations Consumo mensal de gua (m3) Pearson Correlation Consumo mensal de gua (m3) Temperatura mdia mensal (F) Produo mensal (Ton) Dias teis no ms Nmero de operrios Consumo mensal de gua (m3) Temperatura mdia mensal (F) Produo mensal (Ton) Dias teis no ms Nmero de operrios Consumo mensal de gua (m3) Temperatura mdia mensal (F) Produo mensal (Ton) Dias teis no ms Nmero de operrios 1.000 .013 .894 .901 .831 . .480 .000 .000 .000 18 18 18 18 18 Temperatura mdia mensal (F) .013 1.000 -.005 -.022 -.080 .480 . .493 .466 .377 18 18 18 18 18 Produo mensal (Ton) .894 -.005 1.000 .811 .939 .000 .493 . .000 .000 18 18 18 18 18 Dias teis no ms .901 -.022 .811 1.000 .784 .000 .466 .000 . .000 18 18 18 18 18 Nmero de operrios .831 -.080 .939 .784 1.000 .000 .377 .000 .000 . 18 18 18 18 18
Mean Consumo mensal de gua (m3) Temperatura mdia mensal (F) Produo mensal (Ton) Dias teis no ms Nmero de operrios 3268.3889 65.0500 13091.89 21.5000 182.0000
N 18 18 18 18 18
Sig. (1-tailed)
ESACB
128
SPSS
7 - Regresso Linear
a Variables Entered/Removed
Model 1
Variables Removed
Method Stepwise (Criteria: Probability-of-F-to-e nter <= .050, Probability-of-F-to-re move >= .100). Stepwise (Criteria: Probability-of-F-to-e nter <= .050, Probability-of-F-to-re move >= .100).
Model 1 2
R .901a .943b
Change Statistics R Square Change .811 .078 F Change 68.810 10.554 df1 1 1 df2 16 15 Sig. F Change .000 .005
a. Predictors: (Constant), Dias teis no ms b. Predictors: (Constant), Dias teis no ms, Produo mensal (Ton) c. Dependent Variable: Consumo mensal de gua (m3)
c ANOVA
Model 1
df 1 16 17 2 15 17
F 68.810
Sig. .000a
60.225
.000b
a. Predictors: (Constant), Dias teis no ms b. Predictors: (Constant), Dias teis no ms, Produo mensal (Ton) c. Dependent Variable: Consumo mensal de gua (m3)
Coefficientsa Standardi zed Coefficien ts Beta .901 .514 .477 t -1.623 8.295 .815 3.507 3.249 Sig. .124 .000 .428 .003 .005
Unstandardized Coefficients Model 1 2 B -796.273 189.054 443.965 107.976 3.842E-02 Std. Error 490.549 22.791 544.446 30.791 .012
95% Confidence Interval for B Lower Upper Bound Bound -1836.190 243.643 140.740 237.369 -716.494 1604.425 42.346 173.606 .013 .064
Correlations Zero-order .901 .901 .894 Partial .901 .671 .643 Part .901 .301 .279
ESACB
129
SPSS
7 - Regresso Linear
c Excluded Variables
Model 1
Beta In Temperatura mdia mensal (F) Produo mensal (Ton) Nmero de operrios Temperatura mdia mensal (F) Nmero de operrios .032
a
-.176b
a. Predictors in the Model: (Constant), Dias teis no ms b. Predictors in the Model: (Constant), Dias teis no ms, Produo mensal (Ton) c. Dependent Variable: Consumo mensal de gua (m3)
a Residuals Statistics
Minimum Predicted Value 2876.5112 Residual -105.6879 Std. Predicted Value -1.898 Std. Residual -1.363
N 18 18 18 18
Charts
Histogram
Dependent Variable: Consumo mensal de gua (m3)
5
Frequency
Std. Dev = .94 Mean = 0.00 N = 18.00 -1.50 -1.00 -.50 0.00 .50 1.00 1.50
ESACB
130
SPSS
7 - Regresso Linear
.75
.50
.25
Scatterplot
Dependent Variable: Consumo mensal de gua (m3)
2.0
1.5 1.0 .5 0.0 -.5 -1.0 -1.5 -2.0 -1.5 -1.0 -.5 0.0 .5 1.0 1.5
O SPSS dispe de uma rotina que permite o ajustamento de vrios modelos prdefinidos a uma amostra de valores bi-variados (x,y). Tais modelos so:
ESACB
131
SPSS
7 - Regresso Linear
Linear: Quadrtico: Cbico: Logartmico: Inverso: Potncia: Composto (compound): Sigmoidal (S): Logstico:
y = b0 + b1 .x y = b0 + b1 .x + b2 .x 2 y = b0 + b1 .x + b2 .x 2 + b3 .x 3 y = b0 + b1 . ln x y = b0 + y = b0 .b y=e y= b1 x ln y = ln b0 + b1 . ln x ln y = ln b0 + x. ln b1 ln y = b0 + b1 x
y = b0 .x b1
x 1 b b0 + 1 x
1 1 ln = ln(b0 + x. ln b1 ) y u
Muitos destes modelos so frequentemente usados em modelos economtricos, em que a varivel independente ou causal o decurso do tempo. Se for este o caso, no menu apropriado o utilizador pode definir que x o tempo (ver caixa de dilogo seguinte). Para exemplificar esta metodologia, vamos usar os dados referentes s caractersticas do molho de tomate (em anexo). Como anteriormente se viu, o grfico denota uma ligeira curvatura na zona superior dos valores xx, que faz suspeitar que um modelo polinomial talvez seja melhor ajustado que o modelo linear simples. Para tal, fazer: Statistics Regression
Neste menu, seleccionar a opo Curve Estimation... que d acesso seguinte caixa de dilogo, onde se definem as variveis dependente (solidos) e independente (insoluve) e se seleccionam os modelos que se pretendem obter, e se define para apresentar a tabela da anova para cada um dos modelos calculados:
ESACB
132
SPSS
7 - Regresso Linear
Por
defeito, .
os
modelos
ajustados
incluem
constante
(coeficiente
b0)
O utilizador pode seleccionar um ou mais modelos, com o objectivo de, pela anlise dos resultados, nomeadamente R2 e anova, seleccionar o modelo melhor ajustado. No exemplo, foi solicitado para calcular os modelos linear, quadrtico e cbico. Os resultados so os seguintes: MODEL: MOD_1. Method.. LINEAR
Dependent variable.. SOLIDOS Listwise Multiple R Square Adjusted Standard Deletion of Missing Data R .97001 .94092 R Square .93823 Error 1.28802 Analysis of Variance: DF Regression Residuals F = 1 22 Sum of Squares 581.27190 36.49768 Signif F =
350.37794
ESACB
133
SPSS
7 - Regresso Linear
Variable T Sig T INSOLUVE -2.646653 18.718 .0000 (Constant) 38.761 .0000 Dependent variable.. SOLIDOS Listwise Multiple R Square Adjusted Standard
SE B
Beta
.141393 76.193433
-.970010
1.965707
Method.. QUADRATI
Deletion of Missing Data R .98637 .97293 R Square .97035 Error .89243 Analysis of Variance: DF Sum of Squares 601.04440 16.72518 Signif F = .0000 Mean Square 300.52220 .79644
Regression Residuals F =
2 21
377.33322
-------------------- Variables in the Equation ------------------Variable T Sig T INSOLUVE 7.293 .0000 INSOLUVE**2 4.983 .0001 (Constant) 14.516 .0000 -8.288178 .200730 B SE B Beta
1.136478
-3.037655
.040286
2.075370 7.930949
115.123024
Dependent variable.. SOLIDOS Listwise Multiple R Square Adjusted Standard Deletion of Missing Data R .98637 .97293 R Square .97035 Error .89243 Analysis of Variance: DF Regression Residuals 2 21 Sum of Squares 601.04440 16.72518
Method.. CUBIC
ESACB
134
SPSS
7 - Regresso Linear
F =
377.33322
Signif F =
.0000
-------------------- Variables in the Equation ------------------Variable T Sig T INSOLUVE 7.293 .0000 INSOLUVE**2 4.983 .0001 (Constant) 14.516 .0000 -8.288178 .200730 B SE B Beta
1.136478
-3.037655
.040286
2.075370 7.930949
115.123024
--------------- Variables not in the Equation -------------Variable T INSOLUVE**3 .3371 Beta In Partial Min Toler T Sig
-4.796852 -.214795
1.368E-05
-.984
Notes: 9 Tolerance limits reached; some dependent variables were not entered.
% slidos no molho
60
50
40
30
20 10 12 14 16 18 20
Quadratic
% insolveis em gua
ESACB
135
SPSS
7 - Regresso Linear
Note-se que ao passar do modelo linear y = 76.1934 2.6467x, R2=0.9409 para o modelo quadrtico y = 115.1230 8.2882x + 0.2007x2, R2=0.9729, h um acrscimo significativo do ajustamento (Tb2=4.983, significativo; F=377.33 significativo); contudo, ao passar para o modelo cbico, a estatstica Tb3=-0.984 no significativa, e nem sequer calculado este modelo, sendo apresentados os resultados do modelo quadrtico, o que significa que o melhor modelo (dos pedidos) o modelo quadrtico.
ESACB
136
SPSS
8 - Manusear os Resultados
8-
MANUSEAR OS RESULTADOS
medida que se vo executando tarefas com o SPSS, os resultados vo-se acumulando sucessivamente no Viewer do programa.
A janela do organigrama apresenta a sequncia de resultados, que comeam na identificao ; cada rotina ou tarefa aparece identificada com uma marca identificativa dos resultados, e respectivo contedo; por exemplo, os resultados correspondentes obteno das estatsticas descritivas identificado no organigrama
pelo esquema
Cada conjunto de resultados comea pela identificao da rotina ou tarefa ( ) e com o respectivo contedo; esta rotina apresenta um ttulo (repare que o livro est aberto), e que corresponde linha visvel Descriptives na janela direita, um conjunto de notas que no esto visveis no output (o livro est fechado), e as estatsticas descritivas visveis na janela de output (o livro est aberto). Esta organizao mantm-se para os resultados das tarefas seguintes.
ESACB
136
SPSS
8 - Manusear os Resultados
Note que cada rotina tem um conjunto de notas, mas que no esto visualizadas; para as ver na janela de output, o utilizador s tem que fazer duplo click sobre , de modo a abrir o livro, e aparecerem as notas na janela direita.
Repare que as notas incluem a data e hora de obteno dos resultados, a localizao do ficheiro de dados usado, o nmero de linhas ou casos do ficheiro de dados, indicaes sobre a existncia e tratamento de missing values, e as instrues que originaram os resultados (o utilizador gerou estas instrues, ou programa, seleccionando cons e janelas nos menus do programa; contudo, e para utilizaes mais avanadas, o SPSS tem um editor de programas, em que o utilizador constri as rotinas de anlise, como se de uma linguagem de programao de tratasse). A ltima linha das notas indica o tempo de processamento que a CPU do computador levou a executar esta rotina (neste caso, 0.99 segundos). Para fechar o livro de notas, isto , para que as notas no sejam visualizadas no output, fazer duplo click sobre . Para condensar a parte de organigrama correspondente a uma rotina de anlise, fazer click sobre o boto - esquerda da sua identificao; por exemplo, para condensar o organigrama das estatsticas descritivas, fazer click sobre
ESACB
137
SPSS
8 - Manusear os Resultados
Esta condensao do organigrama tem a vantagem de permitir maior rapidez na localizao de determinados conjuntos de resultados, pois o utilizador pode condensar as partes no relevantes do organigrama, ficando apenas aberta a parte relevante do organigrama.
Para expandir, fazer duplo click sobre o boto + correspondente Para visualizar resultados subsequentes, o utilizador pode usar a barra de scroll vertical da janela de resultados, ou simplesmente fazer clik no item respectivo do organigrama. Para ter acesso imediato ao diagrama de extremos-e-quartis referente a todos is valores, fazer click sobre o item
Alm da visualizao, o utilizador pode copiar este grfico (ou qualquer outro conjunto de resultados) para outra aplicao em Windows (por exemplo, processador de texto).
ESACB 138
SPSS
8 - Manusear os Resultados
Para tal, localizar o bloco de resultados pretendido (tal como descrito); Fazer Edit Copy (ou CTRL-C), para capturar uma imagem do bloco seleccionado para o clipboard (rea de transferncia) do Windows; colocar-se na aplicao pretendida (poor exemplo, num documento do Word) e fazer a colagem da imagem (Edit Past, ou CTRL-V). Se se efectuou uma anlise e se chegou concluso que est repetida, ou que pura e simplesmente no interessa, pode eliminar-se do Viewer. No exemplo seguinte, repetiuse a rotina Descriptives, de modo que os resultados esto em duplicado.
Podem acrescentar-se caixas de texto com comentrios aos resultados, por exemplo algumas anlises que se considerem pertinentes. Para incluir o comentrio O histograma evidencia uma tendncia assimtrica aps o histograma, seleccionar o item Histogram:
e fazer Insert New Text ou fazer click no boto . Na janela de resultados aberta uma caixa de texto, onde se esccrevem os comentrios pretendidos:
ESACB
139
SPSS
8 - Manusear os Resultados
Para eliminar um dos conjunto de resultados da rotina Descriptives, fazer click sobre o item respectivo no organigrama:
e de seguida fazer Edit Cut, ou CTRL-X, ou simplesmente carregar na tecla DEL. Podem guardar-se os resultados em ficheiro, de modo que posteriormente o utilizador possa recuper-los sem ter de os recalcular. Para gravar os resultados contidos no Viewer do SPSS, estando colocado nesta janela, fazer: File Save Aparece a seguinte caixa de dilogo, onde se selecciona o disco/directrio onde se pretende gravar; na caixa escreve-se o nome a dar ao ficheiro (sem extenso); o programa automaticamente acrescenta a extenso .spo tpica dos ficheiros Viewer do SPSS.
ESACB
140
SPSS
8 - Manusear os Resultados
Posteriormente, se se pretender apenas consultar os resultados, basta abrir este ficheiro no SPSS. Caso se pretenda continuar a executar anlises e acrescent-las a este ficheiro, ento deve abrir-se tambm o ficheiro de dados para a partir da proceder s anlises. Para imprimir os resultados do Viewer, faz-se File Print; na caixa de dilogo seguinte, confirmar a impressora, e fazer OK:
Se interessar imprimir no todo o conjunto de resultados, mas apenas alguns dos blocos, devem seleccionar-se previamente. Para tal, se os blocos so contguos, manter a tecla SHIFT carregada e fazer click sobre os items a seleccionar; se os blocos no so adjacentes, manter a tecla CTRL carregada e fazer click sobre os items a seleccionar:
ESACB
141
SPSS
8 - Manusear os Resultados
Neste exemplo, apenas o bloco Descriptives e o bloco Producao esto seleccionados; se se mandar imprimir, s sero impressos estes resultados.
Repare que agora, no aparece activada a opo que imprimir apenas os blocos seleccionados.
, a indicar
ESACB
142
SPSS
Anexos
ANEXOS
Listagem dos ficheiros SPSS referenciados no texto
ESACB
143
plasma.sav
hora 1 Manh 2 Manh 3 Manh 4 Manh 5 Manh 6 Manh 7 Manh 8 Manh 9 Manh 10 Manh 11 Tarde 12 Tarde 13 Tarde 14 Tarde 15 Tarde 16 Tarde 17 Tarde 18 Tarde 19 Tarde 20 Tarde
estrogen fosfo Controle 8,53 Controle 20,53 Controle 12,53 Controle 14 Controle 10,8 Presente 17,53 Presente 21,07 Presente 20,8 Presente 17,33 Presente 20,07 Controle 39,14 Controle 26,2 Controle 31,33 Controle 45,8 Controle 40,2 Presente 32 Presente 23,8 Presente 28,87 Presente 25,06 Presente 29,3
pulso.sav
caso sexo fuma 1 Homem Fuma 2 Mulher Fuma 3 Homem No Fuma 4 Mulher No Fuma 5 Homem Fuma 6 Mulher Fuma 7 Homem No Fuma 8 Mulher No Fuma 9 Mulher Fuma 10 Homem Fuma 11 Mulher No Fuma 12 Homem No Fuma 13 Mulher Fuma 14 Mulher No Fuma 15 Homem Fuma 16 Homem No Fuma 17 Homem No Fuma 18 Mulher No Fuma 19 Mulher Fuma 20 Homem Fuma 21 Homem Fuma 22 Homem No Fuma 23 Mulher Fuma 24 Mulher No Fuma 25 Mulher No Fuma 26 Mulher No Fuma 27 Homem No Fuma 28 Homem No Fuma 29 Homem Fuma 30 Homem Fuma 31 Mulher No Fuma 32 Homem No Fuma 33 Mulher No Fuma 34 Mulher No Fuma 35 Mulher No Fuma 36 Homem Fuma 37 Homem No Fuma 38 Homem Fuma 39 Homem No Fuma 40 Homem No Fuma
idade 31 20 28 29 21 27 21 42 22 28 21 22 43 19 23 41 24 21 21 20 38 20 33 25 37 22 32 22 22 19 21 26 32 24 28 34 35 21 21 30
ritmoa 62 78 64 96 66 96 68 72 88 90 82 74 66 68 92 68 76 86 88 66 70 80 76 78 76 80 68 70 68 70 86 72 84 72 80 62 74 90 66 70
ritmod 126 154 128 155 128 265 120 138 160 144 140 134 148 142 134 112 158 146 156 132 122 136 148 148 136 158 116 120 126 144 144 126 136 142 138 132 116 138 142 132
arroz.sav
caso variedad azoto 1 IR8 0 kg/ha 2 IR8 0 kg/ha 3 IR8 0 kg/ha 4 IR8 0 kg/ha 5 IR8 60 kg/ha 6 IR8 60 kg/ha 7 IR8 60 kg/ha 8 IR8 60 kg/ha 9 IR8 90 kg/ha 10 IR8 90 kg/ha 11 IR8 90 kg/ha 12 IR8 90 kg/ha 13 IR8 120 kg/ha 14 IR8 120 kg/ha 15 IR8 120 kg/ha 16 IR8 120 kg/ha 17 IR8 150 kg/ha 18 IR8 150 kg/ha 19 IR8 150 kg/ha 20 IR8 150 kg/ha 21 IR5 0 kg/ha 22 IR5 0 kg/ha 23 IR5 0 kg/ha 24 IR5 0 kg/ha 25 IR5 60 kg/ha 26 IR5 60 kg/ha 27 IR5 60 kg/ha 28 IR5 60 kg/ha 29 IR5 90 kg/ha 30 IR5 90 kg/ha 31 IR5 90 kg/ha 32 IR5 90 kg/ha 33 IR5 120 kg/ha 34 IR5 120 kg/ha 35 IR5 120 kg/ha 36 IR5 120 kg/ha 37 IR5 150 kg/ha 38 IR5 150 kg/ha 39 IR5 150 kg/ha 40 IR5 150 kg/ha 41 C4-63 0 kg/ha 42 C4-63 0 kg/ha 43 C4-63 0 kg/ha 44 C4-63 0 kg/ha 45 C4-63 60 kg/ha 46 C4-63 60 kg/ha 47 C4-63 60 kg/ha
repete producao 1 3852 2 2606 3 3144 4 2894 1 4788 2 4936 3 4562 4 4608 1 4576 2 4454 3 4884 4 3924 1 6034 2 5276 3 5906 4 5652 1 5874 2 5916 3 5984 4 5518 1 2846 2 3794 3 4108 4 3444 1 4956 2 5128 3 4150 4 4990 1 5928 2 5698 3 5810 4 4308 1 5664 2 5362 3 6458 4 5474 1 5458 2 5546 3 5786 4 5932 1 4192 2 3754 3 3738 4 3428 1 5250 2 4582 3 4896
arroz.sav
48 C4-63 49 C4-63 50 C4-63 51 C4-63 52 C4-63 53 C4-63 54 C4-63 55 C4-63 56 C4-63 57 C4-63 58 C4-63 59 C4-63 60 C4-63 60 kg/ha 90 kg/ha 90 kg/ha 90 kg/ha 90 kg/ha 120 kg/ha 120 kg/ha 120 kg/ha 120 kg/ha 150 kg/ha 150 kg/ha 150 kg/ha 150 kg/ha 4 1 2 3 4 1 2 3 4 1 2 3 4 4286 5822 4848 5678 4932 5888 5524 6042 4756 5864 6264 6056 5362
catsup.sav
caso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
insoluve 10,71 11,76 11,36 11,27 15,3 12,07 15,98 13,34 13,34 14,29 13,66 14,79 14,5 14,8 14,88 10,86 13,34 13,01 12,87 14,4 15,12 17,06 18,22 13,73
solidos 51 45,2 44,8 47,4 35,5 44,5 35,3 39,3 40,8 38,4 39,3 36 37,9 36,2 35,3 48,5 40 43 41,5 36,7 35,3 32,5 30,2 38,9