Você está na página 1de 74

Breve Manual do SPSS / PASW 18.

0
Objectivo: auxiliar os alunos da ESAC, inscritos na unidade
curricular de Estatstica (curso de LBIO), na utilizao do SPSS
nas aulas prticas.






ESCOLA SUPERIOR AGRRIA DE COIMBRA
Elaborado por Veneranda Ins Batalha



INSTALAO DO PROGRAMA
O aluno dever dirigir-se aos Servios Informticos da ESAC
Contedo
1. JANELAS MAIS UTILIZADAS .............................................................................................................................. 4
2. VARIVEIS ESTATSTICAS E ESCALAS DE MEDIDA ....................................................................................... 7
3. ABERTURA DE UM FICHEIRO DE DADOS (captulo 3 do manual, pg. 11)........................................................ 9
4. INTRODUO DE DADOS MANUAL (captulo ? do manual, pg. ?) ............................................................... 16
5. ESTATSTICA DESCRITIVA (estatsticas e grficos) .......................................................................................... 19
TABELA DE FREQUNCIAS para as variveis Maternidade, Cor e Sexo .................................................... 19
CRUZAMENTO DE VARIVEIS.................................................................................................................... 20
QUARTIS da varivel Peso ......................................................................................................................... 21
PERCENTIS DE DIFERENTES ORDENS (0,1 0,25 0,5 0,8 0,9) para o peso ........................................... 22
MDIA, MEDIANA, MODA, SOMA, DESVIO-PADRO, VARINCIA, AMPLITUDE, MNIMO E MXIMO da
varivel peso ............................................................................................................................................. 22
GRFICO DE BARRAS, para as variveis qualitativas discretas .................................................................. 23
GRFICO CIRCULAR, para a varivel cor da primeira roupa do recm-nascido ........................................ 23
GRFICO DE BOX-PLOT, para a varivel peso (apenas uma varivel) ....................................................... 24
ALGUMAS CONSIDERAES ACERCA DO DIAGRAMA DE EXTREMOS E QUARTIS BOXPLOT (adequado
para dados quantitativos, discretos ou contnuos) ................................................................................... 26
GRFICO DE BOX-PLOT E ESTATSTICA DESCRITIVA, para a varivel peso relativamente ao sexo do
recm-nascido .......................................................................................................................................... 27
CONSTRUO DAS CLASSES [1, 2[ [2, 3[ [3, 4[ [4, 5], para a varivel peso .......................................... 30
HISTOGRAMA, para a varivel Classes_Peso (peso agrupada em 4 classes) ............................................. 33
DADOS AGRUPADOS EM CATEGORIAS ..................................................................................................... 36
6. CLCULO DE PROBABILIDADES DE DISTRIBUIES DISCRETAS E CONTNUAS .............................................. 39
DISTRIBUIO BINOMIAL ......................................................................................................................... 40
DISTRIBUIO DE POISSON ...................................................................................................................... 41
DISTRIBUIO NORMAL ........................................................................................................................... 43
DISTRIBUIO t DE STUDENT ................................................................................................................... 50
DISTRIBUIO QUI-QUADRADO ............................................................................................................... 51
DISTRIBUIO F-SNEDECOR ..................................................................................................................... 52
7. TESTES DE HIPTESES E INTERVALOS DE CONFIANA de um parmetro populacional ................................ 54
TESTE T (teste de hipteses para , amostra pequena e populao Normal) .......................................... 54
TESTE BINOMIAL a uma proporo p ........................................................................................................ 58
8. REGRESSO LINEAR SIMPLES E MLTIPLA ..................................................................................................... 63
Regresso linear simples........................................................................................................................... 63
Regresso linear mltipla ......................................................................................................................... 70
9. ANOVA DE FACTOR NICO ............................................................................................................................ 71


Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 4

SPSS a sigla do software intitulado Statstical Package for the Social Sciences. Entre 2009 e 2010
o SPSS passou a ser chamado de PASW (Predictive Analytics SoftWare). O manual integral deste
programa, em ingls, pode ser encontrado de duas formas:
- http://support.spss.com/ProductsExt/Statistics/Documentation/18/client/User%20Manuals/Engl
ish/PASW%20Statistics%2018%20Core%20System%20User's%20Guide.pdf
- Aceder sua pasta c:\Programas\SPSSInc\PASWStatistics18\Manuals\PASW Statistics 18
Core System User's Guide

1. JANELAS MAIS UTILIZADAS
Ao iniciar o PASW Statistics 18.0 surge uma janela introdutria, onde poder escolher uma opo.
Caso queira colocar os seus dados, seleccione a opo Type in data; para abrir ficheiros de dados j
existentes, seleccione a opo Open an existing data source; se a primeira vez que utiliza o PASW
ento seleccione a opo Run the Tutorial para uma introduo rpida ao SPSS e s suas
potencialidades.

Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 5
Na opo Open an existing data source poder aceder aos ficheiros de exemplo de que o PASW
dispe, seleccionando More Files e escolher c:\Programas\SPSSInc\PASWStatistics18\Samples\English\.
Janela de edio de dados e variveis <Data Editor Window> (possui duas folhas, em baixo,
esquerda da janela, onde apenas uma delas poder estar activa) As duas janelas seguintes so
representativas desta situao.




Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 6
A imagem seguinte, referente janela de Output <Statistics Viewer Window>, que apresenta os
resultados de estatsticas, testes, etc


Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 7
2. VARIVEIS ESTATSTICAS E ESCALAS DE MEDIDA
Varivel toda a caracterstica que, observada numa pessoa, animal, objecto, pode variar de um
indivduo para outro. A idade de uma pessoa e seus hbitos quanto ao fumo, o sexo de um roedor
colectado na natureza, a estatura em jogadores de basquetebol, a cor das sementes de uma espiga de
milho, a quantidade de cido acetilsaliclico em comprimidos com o nome comercial NC, o nvel de
hemoglobina no sangue constituem exemplos de variveis.
importante identificar que tipo de varivel est sendo estudado, uma vez que so recomendados
procedimentos estatsticos diferentes em cada situao. A principal diviso ocorre entre variveis
quantitativas e qualitativas.
Variveis quantitativas so aquelas cujos dados so valores numricos que expressam quantidades,
como a estatura das pessoas ou o nmero de sementes ntegras numa vagem. Estas podem ainda ser
classificadas em:
Variveis quantitativas discretas so aquelas em que os dados somente podem apresentar determinados
valores, em geral, nmeros inteiros.
Variveis quantitativas contnuas so aquelas cujos dados podem apresentar qualquer valor dentro de
um intervalo de variao possvel.
Variveis qualitativas ou categricas so as que fornecem dados de natureza no-numrica, como a cor
de uma flor, a raa de uma ovelha ou o sexo de um indivduo. Mesmo que os dados possam ser
codificados numericamente (masculino=1, feminino=2), os nmeros aqui so apenas smbolos sem
valor quantitativo. As diferentes categorias so mutuamente exclusivas. Estas variveis podem ser
medidas numa escala:
Escala nominal: Como o nome implica, nesse nvel diferencia-se uma categoria da outra somente por
meio da denominao da categoria, no sendo possvel qualquer tipo de ordenao.
Escala ordinal: possvel indicar diferentes categorias mas tambm reconhecer graus de intensidade
entre elas, o que possibilita uma ordenao (que seja inerente varivel e no imposta por
convenincia) das diferentes categorias.

Na pgina seguinte apresentado um esquema resumo, apresentando exemplos para cada uma das
classificaes.
Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 8

Varivel
Quantitativa
discreta
Exemplos: nmero de filhos nascidos vivos, nmero de obras catalogadas,
nmero an ual de baixas hospitalares de uma pessoa.
contnua
Exemplos: a pluviosidade diria (mm) registada no quarto trimestre de 2007, o
ordenado de um trabalhador rural e o consumo elctrico mensal de uma famlia
de quatro pessoas ao longo de 2008.
Qualitativa
medida numa escala
nominal
Exemplos: sexo de um coelho (masculino, feminino), classificao de um
paciente psiquitrico (psictico, neurtico) e o grupo sanguneo de uma
pessoa (A, B, AB e O).
As variveis nominais podem ainda ser divididas em binrias ou dicotmicas,
quando compostas por duas categorias e polinominais, quando apresentam
mais de duas categorias possveis.
medida numa escala
ordinal
Exemplos: grau de dor ( nenhuma at dor insuportvel), o
comportamento de um animal (submisso, neutro ou agressivo), a cor
de determinada flor (desde branca at vermelho, passando por diversas
tonalidades de rosa) e as habilitaes literrias de um indivduo (9 ano, 12
ano, licenciatura, ps-graduao, mestrado e doutoramento).
Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 9
No quadro seguinte encontra-se a simbologia utilizada no PASW, ou seja, os smbolos utilizados
consoante os diferentes nveis de mensurao e tipo de valores, aquando da introduo de dados no
software.

Fonte: Manual do programa, pgina 6

3. ABERTURA DE UM FICHEIRO DE DADOS (captulo 3 do manual, pg. 11)
Ao escolher na barra de menu de qualquer janela do SPSS, File OpenData, surge a janela

O SPSS permite abrir ficheiros oriundos de diferentes programas: obviamente do SPSS (*.sav), Systat
(*.sys), Excel (*.xls, *.xlsm, *.xlsx), Lotus (*.w*), SAS (*.xpt), Stata (*.dta), Text (*.txt, *.dat) e
outros.
Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 10
Muitas vezes os dados encontram-se numa folha do Excel e inconcebvel voltar a introduzir os dados
novamente. Por essa razo possvel abrir um ficheiro do Excel 95 ou uma verso superior, sendo
necessrio ter alguns cuidados:
- A cada coluna deve corresponder uma varivel e primeira linha o nome de cada varivel;
- Em cada coluna os valores devero ser sempre do mesmo tipo: apenas datas, apenas nmeros,
apenas texto, etc;
- Se numa coluna de valores numricos existirem clulas em branco, estes sero convertidos no
sistema de valores omissos do SPSS;
- Se os nomes das variveis no seguirem as especificaes do SPSS, ser-lhes-o atribudos
outros nomes.
Exemplo para o Excel - considere a folha de clculo seguinte, criada no Excel:
A B C D E F G
1
2
3 Nome_aluno Dat_Insc Teste 1 Teste 2 Teste 3 Status
4 Nuno 09-01-2009 1 4,5 2,5 Reprovado
5 Patrcia 20-09-2009 3,5 7 8 Reprovado
6 Marco 12-10-2009 12 13 14 Aprovado
7 Manuel 23-10-2009 5 6 7 Reprovado
8 Elisa 14-10-2009 8 12 14 Aprovado
9 Ins 25-10-2009 7 7 7 Reprovado
10 Sara 06-10-2009 4 4 Reprovado
11 Carla 17-09-2009 11 10 9 Aprovado
12 Andr 18-10-2009 11 11 Reprovado
13

Para conseguir ler estes dados no Excel, proceda de acordo com o que foi dito anteriormente.
No SPSS escolher menu File OpenData

Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 11
O SPSS detecta dados no intervalo B3:G12 da folha1 do ficheiro analisado. Podemos concordar ou
definir um novo intervalo de dados. Caso exista dados noutras folhas, elas seriam identificadas e o
utilizador apenas teria de escolher a folha e o range pretendidos.

E assim os dados passam a poder ser visualizados no SPSS (ver imagem em baixo). Por vezes na
Variable View, nem tudo est como se pretende, nomeadamente nas colunas Label e Measure, pelo
que convm verificar e/ou emendar.



Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 12
Exemplo de um ficheiro de texto:

Coloque os dados no Bloco de Notas do
Windows, utilizando apenas o Tab para separar os
valores e Enter para mudar de linha. No SPSS
escolher menu File OpenData.




De seguida basta seguir os 6 passos seguintes:

Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 13


Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 14


Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 15

E finalmente podemos observar os dados no SPSS


Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 16
4. INTRODUO DE DADOS MANUAL (captulo ? do manual, pg. ?)
Ao iniciar o PASW Statistics 18.0 surge uma janela introdutria, seleccione a opo Type in data e
surge a Janela de edio de dados e variveis <Data Editor Window>.
Deve comear por definir as variveis primeiro e s depois digitar os dados.
Nota importante: Ao definir uma varivel como alfanumrica (opo String no menu Type) no
poder depois efectuar o mtodo estatstico apropriado para comparar, por exemplo, se o peso do
recm-nascido idntico nas 3 maternidades.
De modo a esclarecer algumas questes, comece por introduzir quatro variveis:
Nome: maternidade
Tipo: numrico
Nome completo (Label): nome da maternidade
Codificao dos Value Labels: (1, Estefnia) (2, Alfredo da Costa) (3, Amadora-Sintra)



Nome: cor
Tipo: String ou alfanumrica
Nome completo: cor da primeira roupa do recm-nascido
Codificao dos Value Labels: (1, rosa) (2, azul) (3, amarelo) (4, branco)
Valores em falta (missing): NR

Nome: peso
Tipo: numrico, com 3 casas decimais
Nome completo: peso do recm-nascido, em Kg
Valores em falta: 999

Nome: sexo
Tipo: numrico
Nome completo: sexo do recm-nascido
Codificao dos Value Labels: (1, M) (2, F)
Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 17

Aps a definio das variveis, pode agora introduzir os dados manualmente. Caso tenha os dados
dispersos numa folha do Excel, pode utilizar as opes de copiar e colar.

Caso queira visualizar os dados originais, ou seja, prescindindo da codificao de valores, basta
escolher menu View Value Labels
Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 18


Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 19
5. ESTATSTICA DESCRITIVA (estatsticas e grficos)
Para explicitar esta matria, irei utilizar o exemplo dos recm-nascidos na maternidade, que passarei a
designar por exemplo 1 (dados criados no ponto anterior 4).
TABELA DE FREQUNCIAS para as variveis Maternidade, Cor e Sexo
Escolher menu Analyse Descriptive Statistics Frequencies, obtendo-se a seguinte imagem.
Dever escolher apenas Display frequency tables, ignorando as restantes opes.


O output obtido pelo PASW poder ser copiado e posteriormente colado num documento Word
(utilizar o colar especial como texto formatado (RTF), permitindo ainda assim alterar a formatao).
Statistics

Nome da maternidade Sexo do recm-nascido
Cor da primeira roupa do
recm-nascido
N Valid 16 16 14
Missing 0 0 2

Frequency Table
Nome da maternidade

Frequency Percent Valid Percent
Cumulative
Percent
Valid Estefnia 4 25,0 25,0 25,0
Alfredo da Costa 6 37,5 37,5 62,5
Amadora-Sintra 6 37,5 37,5 100,0
Total 16 100,0 100,0

Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 20





Sexo do recm-nascido

Frequency Percent Valid Percent
Cumulative
Percent
Valid M 7 43,8 43,8 43,8
F 9 56,3 56,3 100,0
Total 16 100,0 100,0


Cor da primeira roupa do recm-nascido

Frequency Percent Valid Percent
Cumulative
Percent
Valid Rosa 4 25,0 28,6 28,6
Azul 3 18,8 21,4 50,0
Amarelo 4 25,0 28,6 78,6
Branco 3 18,8 21,4 100,0
Total 14 87,5 100,0

Missing NR 2 12,5

Total 16 100,0



CRUZAMENTO DE VARIVEIS
Escolher menu Analyse Descriptive Statistics Crosstabs; Na janela que surge dever escolher o
boto Cells e seleccionar a opo Counts Observed



Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 21



Case Processing Summary

Cases
Valid Missing Total
N Percent N Percent N Percent
Nome da maternidade * Cor da
primeira roupa do recm-nascido
* Sexo do recm-nascido
14 87,5% 2 12,5% 16 100,0%


Nome da maternidade * Cor da primeira roupa do recm-nascido * Sexo do recm-nascido Crosstabulation
Count
Sexo do recm-nascido Cor da primeira roupa do recm-nascido
Total rosa azul amarelo branco
M Nome da maternidade Estefnia 1 1 0

2
Amadora-Sintra 0 1 2

3
Total 1 2 2

5
F Nome da maternidade Estefnia 0 0 1 1 2
Alfredo da Costa 2 1 1 2 6
Amadora-Sintra 1 0 0 0 1
Total 3 1 2 3 9


QUARTIS da varivel Peso
Escolher menu Analyse Descriptive Statistics Frequencies; Na janela que surge dever escolher
o boto Statistics e seleccionar a opo Quartiles, ignorando as restantes opes.



Statistics
Peso do recm-nascido, em Kg
N Valid 14
Missing 2
Percentiles 25 2,68750
50 3,02500
75 3,35000

Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 22
PERCENTIS DE DIFERENTES ORDENS (0,1 0,25 0,5 0,8 0,9) para o peso
Escolher menu Analyse Descriptive Statistics Frequencies; Na janela que surge dever escolher
o boto Statistics e seleccionar a opo Percentile(s), ignorando as restantes opes


Statistics
Peso do recm-nascido, em Kg
N Valid 14
Missing 2
Percentiles 10 2,07500
25 2,68750
50 3,02500
80 3,50000
90 4,00000
MDIA, MEDIANA, MODA, SOMA, DESVIO-PADRO, VARINCIA, AMPLITUDE,
MNIMO E MXIMO da varivel peso
Escolher menu Analyse Descriptive Statistics Frequencies; Na janela que surge dever escolher
o boto Statistics e seleccionar as opes assinaladas na imagem abaixo, ignorando as restantes
opes.

Statistics
Peso do recm-nascido, em Kg
N Valid 14
Missing 2
Mean 3,01786
Median 3,02500
Mode 3,100
Std. Deviation ,589852
Variance ,348
Range 2,150
Minimum 1,950
Maximum 4,100
Sum 42,250
Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 23
GRFICO DE BARRAS, para as variveis qualitativas discretas
Escolher menu Analyse Descriptive Statistics Frequencies; Na janela que surge dever escolher
o boto Graphs e seleccionar a opo Bar Chart.

Statistics

Nome da
maternidade
Cor da
primeira roupa
do recm-
nascido
Sexo do
recm-
nascido
N Valid 16 14 16
Missing 0 2 0




GRFICO CIRCULAR, para a varivel cor da primeira roupa do recm-nascido

Escolher menu Analyse Descriptive
Statistics Frequencies; Na janela que surge
dever escolher o boto Graphs e seleccionar
a opo Pie Charts.


Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 24
GRFICO DE BOX-PLOT, para a varivel peso (apenas uma varivel)
Escolher menu Graphs Graph Builder Gallery, Boxplot


Arraste agora o tipo de boxplot que pretende da Gallery, a varivel pretendida e alguma opo que
pretenda do Basic Elements (observe as setas na imagem seguinte).


Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 25


Obteve-se o seguinte grfico (diagrama de extremos e quartis ou boxplot:

No foram detectados
outliers.
Informaes necessrias para a
construo deste grfico:
mnimo, 1 quartil, mediana, 3
quartil e mximo.
Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 26
ALGUMAS CONSIDERAES ACERCA DO DIAGRAMA DE EXTREMOS E QUARTIS
BOXPLOT (adequado para dados quantitativos, discretos ou contnuos)
um tipo de representao grfica, em que se realam algumas caractersticas da amostra. O conjunto
dos valores da amostra compreendidos entre o 1 e o 3 quartis, que vamos representar por Q
1/4
e Q
3/4

representado por um rectngulo (caixa) com a mediana (med) indicada por uma barra. A largura do
rectngulo no d qualquer informao, pelo que pode ser qualquer. Consideram-se seguidamente duas
linhas que unem os meios dos lados do rectngulo com os extremos da amostra. Para obter esta
representao, comea por se recolher da amostra, informao sobre 5 nmeros, que so: os 2
extremos (mnimo e mximo, caso no sejam considerados outliers ou candidatos a outliers), a
mediana e o 1 e 3 quartis. A representao do diagrama de extremos e quartis tem o seguinte aspecto:

O extremo inferior o mnimo da amostra, enquanto que o extremo superior o mximo da amostra.
Qual a importncia deste tipo de representao? Reala informao importante sobre os dados,
como sejam o centro da amostra (mediana), variabilidade e simetria. Repare-se que da forma como o
diagrama se constri, se pode retirar imediatamente a seguinte informao:

Como que se pode reconhecer a simetria ou o enviesamento dos dados, a partir do diagrama de
extremos e quartis? Existem fundamentalmente trs caractersticas, que nos do ideia da simetria ou
enviesamento e da sua maior ou menor concentrao: a distncia entre a linha indicadora da mediana e
os lados do rectngulo, o comprimento das linhas que saem dos lados dos rectngulos e o comprimento
da caixa.
Regras para a classificao dos outliers (observao suspeita, pois afasta-se do padro geral dos
dados).
Outliers caso ultrapasse um dos quartis em 1,5 vezes a amplitude inter-quartil (AIQ)
Outliers moderados caso se situe entre 1,5 e 3 vezes a AIQ, a partir de um dos quartis
Outliers severos ou valores extremos caso ultrapasse um dos quartis em 3 vezes a AIQ

Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 27
GRFICO DE BOX-PLOT E ESTATSTICA DESCRITIVA, para a varivel peso
relativamente ao sexo do recm-nascido

Uma forma de obter o que pedido escolher o menu Analyse Descriptive StatisticsExplore
e siga as indicaes das janelas seguintes.





Aps as opes anteriores, os resultados foram os seguintes:

Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 28
Case Processing Summary
Sexo do recm-
nascido
Cases
Valid Missing Total
N Percent N Percent N Percent
Peso do recm-
nascido, em Kg

M 6 85,7% 1 14,3% 7 100,0%
F 8 88,9% 1 11,1% 9 100,0%

Descriptives
Sexo do recm-nascido Statistic Std. Error
Peso do recm-
nascido, em Kg
M Mean 2,90000 ,199583
95% Confidence Interval for Mean Lower Bound 2,38696
Upper Bound 3,41304
5% Trimmed Mean 2,93056
Median 3,02500
Variance ,239
Std. Deviation ,488876
Minimum 1,950
Maximum 3,300
Range 1,350
Interquartile Range ,563
Skewness -1,947 ,845
Kurtosis 4,164 1,741
F Mean 3,10625 ,238379
95% Confidence Interval for Mean Lower Bound 2,54257
Upper Bound 3,66993
5% Trimmed Mean 3,10139
Median 2,95000
Variance ,455
Std. Deviation ,674239
Minimum 2,200
Maximum 4,100
Range 1,900
Interquartile Range 1,237
Skewness ,312 ,752
Kurtosis -1,199 1,481
Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 29

Outra forma de obter o boxplot, escolher o menu Graphs Graph Builder Gallery, Boxplot
detectada a presena
de um outlier
severo ou valor
extremo (o indivduo 1
que se encontra na
tabela dos dados).
Dever ser
considerada a sua
eliminao dos dados.
Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 30
CONSTRUO DAS CLASSES [1, 2[ [2, 3[ [3, 4[ [4, 5], para a varivel peso
(captulo 7 do manual, Visual Banning, PGINA 116)
O Visual Binning foi criado para assistir no processo de criao de novas variveis baseado no
agrupamento de dados contnuos, num nmero limite de categorias distintas. O Visual Binning pode
ser usado para:
Construir classes de uma varivel contnua; as classes sero encaradas como variveis
categricas;
Transformar uma varivel medida numa escala ordinal, com um grande nmero de valores
distintos, numa nova varivel com menos valores distintos (novas categorias).
1 PASSO - escolher o menu Transform Visual Binning e seleccionar a varivel que pretende
agrupar em bins (classes ou novas categorias). Seleccione o boto Continue.
NOTA: a lista das variveis contm apenas as variveis numricas medidas numa escala ordinal
e as variveis contnuas.


2 PASSO na prxima janela escolher o nome da Binned Variable, alterar o Label se assim
entender, inserir na grelha os valores de cutpoints 2, 3, 4 (inseridos abaixo na clula HIGH, um a
um, seguido de ENTER), seleccionar Excluded (<) Upper Endpoints de modo a que o intervalo da
classe esteja aberto direita ( [ , [ ) e finalmente carregar na opo Make Labels.
Seleccionar OK.
Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 31





Na janela de Edio de dados, aparecer a nova varivel Classes_Peso, onde indica o n
da classe ou a classe a que pertence o valor da varivel Peso, para cada um dos 16
indviduos.

Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 32
OU

Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 33
HISTOGRAMA, para a varivel Classes_Peso (peso agrupada em 4 classes)
Escolher o menu Graphs Graph Builder Gallery, Histogram


De seguida apresento o histograma que resultou da construo classes utilizando o Visual Binning.



Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 34

Uma vez que o PASW considera os bins como categorias, o histograma mais parece um grfico de
barras! Por essa razo devemos editar o grfico (duplo clique em cima do grfico), novo duplo clique
em cima de uma das barras e no Bar Optins aumentar o espaamento das barras para 100, de modo
a que estas fiquem adjacentes, indiciando a continuidade da varivel peso de um recm-nascido.

Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 35
Escolher menu Analyse Descriptive Statistics Frequencies; Na janela que surge dever escolher
apenas o boto Graphs e seleccionar a opo Histogram.

Obviamente este histograma utiliza outras classes (o utilizador no sabe especificamente quais as
classes que foram construdas).
.

Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 36
DADOS AGRUPADOS EM CATEGORIAS
Considere o seguinte exerccio:









RESOLUO DO EXERCCIO:
Inserir no Editor de dados e variveis a seguinte informao:


Tendo como objectivo analisar o conhecimento dos alunos da Escola Superior Agrria de Coimbra acerca do
projecto EMAS@SCHOOL, foram inquiridos 400 grupos de cinco alunos desta escola. Registado o nmero
de alunos por grupo que tinham conhecimento do projecto, obteve-se os seguintes resultados:
N. de alunos no grupo que tinham conhecimento do projecto 0 1 2 3 4 5
N. de grupos 16 32 89 137 98 28

Construa a tabela de frequncias;
Calcule a mdia, moda, o desvio padro e a mediana;
Esboce os diagramas de barras e de extremos e quartis.

Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 37
chegada a altura de transmitir ao PASW que existe uma varivel (n alunos) que est a ser
ponderada, pesada por uma outra varivel que representa uma frequncia.

Escolher menu Data Weight Cases onde surgir a janela abaixo; ser necessrio seleccionar qual a
varivel que representa a frequncia.


Escolher menu Analyse Descriptive Statistics Frequencies e seleccionar tudo o que foi pedido
no exerccio, utilizando as opes Statistics, Charts , para alm da tabela de frequncias que j se
encontra escolhida por defeito. Clicar OK


Os resultados que apresento a seguir foram colocados na janela de Output.

Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 38

Statistics
N_alunos
N Valid 400
Missing 0
Mean 2,88
Median 3,00
Mode 3
Std. Deviation 1,190
Variance 1,417
Range 5
Minimum 0
Maximum 5
Sum 1153
Percentiles 25 2,00
50 3,00
75 4,00

N_alunos

Frequency Percent Valid Percent
Cumulative
Percent
Valid 0 16 4,0 4,0 4,0
1 32 8,0 8,0 12,0
2 89 22,3 22,3 34,3
3 137 34,3 34,3 68,5
4 98 24,5 24,5 93,0
5 28 7,0 7,0 100,0
Total 400 100,0 100,0






Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 39
6. CLCULO DE PROBABILIDADES DE DISTRIBUIES DISCRETAS E
CONTNUAS
Escolher o menu Transform Compute Variable onde surgir a janela abaixo:

obrigatrio indicar a varivel onde iro ser colocados os clculos a realizar (Target Variable), a
expresso numrica que pretende realizar (Numeric Expression), podendo utilizar as funes
disponveis nesta janela (inclui uma breve explicao acerca da funo).
Para calcular probabilidades de uma distribuio discreta, poder utilizar a funo massa de
probabilidade
( ) ( ) f x P X x = = ou a funo de distribuio
( ) ( ) F x P X x = s utilizando,
respectivamente, o grupo de funes intitulado PDF & Noncentral PDF e CDF & Noncentral
CDF. O grupo PDF & Noncentral PDF contm as funes de distribuio pontuais f(x), referindo-
se s funes de massa de probabilidade (no caso discreto) e densidade (no caso contnuo), para
distribuies simtricas ou assimtricas. O grupo CDF & Noncentral CDF contm as funes de
distribuio cumulativas F(x), para distribuies simtricas ou assimtricas.
O grupo Inverse DF contm as funes inversas de distribuies contnuas que permitem obter
quantis de ordem p.
Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 40
DISTRIBUIO BINOMIAL
Considere o seguinte exerccio:



RESOLUO DO EXERCCIO:
Uma vez que esta varivel aleatria assume apenas os valores 0, 1, 2, 3,, 8 necessrio criar uma
varivel (designada por valores_x) no SPSS/PASW que contenha estes valores.
Utilizar, por duas vezes, a opo Computer Variable, escolhendo:
Target Variable: fmp_f (o utilizador pode escolher outro nome)
Numeric expression: =PDF.Binom(valores_x,8,0.4)
OK

Target Variable: fdist_F (o utilizador pode escolher outro nome)
Numeric expression: =CDF.Binom(valores_x,8,0.4)
OK



Supondo que a varivel aleatria
( ) Binomial 8, 0.4 X n p = = , obtenha os valores de
( ) f x ,
( ) F x
e os respectivos grficos. Calcule as probabilidades
( ) 2 P X s e
( ) 2 6 P X < < .

Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 41


Funo massa de probabilidade da Binomial (8;0,4) Funo distribuio da Binomial (8;0,4)

Agora j pode calcular variadas probabilidades:
( ) ( ) ( ) ( ) 2 0 1 2 0, 0168 0, 0896 0, 2090 0, 3154 P X f f f s = + + ~ + + =
OU
( ) ( ) 2 2 0,3154 P X F s = ~

( ) ( ) ( ) ( ) 2 6 3 4 5 0, 2787 0, 2322 0,1239 0, 6348 P X f f f < < = + + ~ + + =
OU
( ) ( ) ( ) ( ) 2 6 2 5 5 2 0,9502 0,3154 0, 6348 P X P X F F < < = < s = ~ =

DISTRIBUIO DE POISSON
Considere o seguinte exerccio:



RESOLUO DO EXERCCIO:
Uma vez que esta varivel aleatria assume os valores 0, 1, 2, 3,, + necessrio criar uma
varivel (designada por valores_x) no SPSS/PASW que contenha alguns destes valores, uma vez que
seria difcil ir at +
Utilizar, por duas vezes, a opo Computer Variable, escolhendo:
Target Variable: fmp_f (o utilizador pode escolher outro nome)
Numeric expression: =PDF.Poisson(valores_x,5)
OK

Target Variable: fdist_F (o utilizador pode escolher outro nome)
Numeric expression: =CDF.Poisson(valores_x,5)
OK

Supondo que a varivel aleatria
( ) 5 X Poisson = , obtenha os valores de
( ) f x ,
( ) F x e os
respectivos grficos. Calcule as probabilidades
( ) 3 P X > e
( ) 10 12 P X s < .

Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 42




Funo massa de probabilidade da Poisson(5) Funo distribuio da Poisson(5)

( ) ( ) ( ) ( ) ( ) ( ) 3 1 3 1 0 1 2 3 1 0, 0067 0, 0337 0, 0842 0,1404 0, 735 P X P X f f f f > = s = ~ =
OU
( ) ( ) ( ) 3 1 3 1 3 1 0, 2650 0, 7350 P X P X F > = s = ~ =

( ) ( ) ( ) 10 12 10 11 0, 0181 0, 0082 0, 0263 P X f f s < = + ~ + =
OU
( ) ( ) ( ) ( ) 10 12 9 11 11 9 0,9945 0,9682 0, 0263 P X P X F F s < = < s = ~ =
Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 43
DISTRIBUIO NORMAL
Uma varivel aleatria contnua X segue a lei Normal,
( ) , X N o , se a funo densidade de
probabilidade for dada por
2
1
1
2
( ) , , , 0
2
x
f x e x IR

o
o
o t
| |
|
|
\ .

= e > em que e o
representam, respectivamente, a mdia (localiza o centro da distribuio) e o desvio padro da
populao (mede a variabilidade de X em torno da mdia ).

Figura Curva normal tpica ( , , 0 x IR o e > )

A distribuio normal de mdia 0 e desvio padro 1 chamada de distribuio Normal padro, e
costuma ser denotada por Z.
A estandardizao a operao que transforma uma Normal ( , o) numa Normal (=0; o

=1), ou
seja,
( , ) Z (0,1)
X
X N N

o
o

=
.
A probabilidade de uma varivel contnua assumir valores entre a e b igual rea sob a curva entre
esses dois pontos. A determinao destas probabilidades realizada matematicamente atravs da
integrao da funo de densidade de probabilidade (f.d.p.) entre os pontos a e b de interesse, ou seja,
( ) ( )
2
1
1
2
2
b b
a a
x
e P a X b f x dx dx

o
o t
| |
|
\ .

< < = =
} }
. No caso da Normal, o integral no pode ser
calculado exactamente e a probabilidade entre dois pontos s pode ser obtida aproximadamente, por
mtodos numricos.

o
: mdia
o: desvio padro
x
f(x)
Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 44
Considere o seguinte exerccio:















RESOLUO DO EXERCCIO:
Alnea a)
Foram criadas duas variveis, designadas por valores_z e valores_x, no software SPSS/PASW. Uma
vez que as variveis assumem valores reais, o software no aconselhado visto no ser uma folha de
clculo, pelo que os valores foram obtidos no Excel e de seguida copiados para o SPSS/PASW.
Utilizar, por quatro vezes, a opo Computer Variable, escolhendo:
Target Variable: fdp_fz (o utilizador pode escolher outro nome)
Numeric expression: =PDF.Normal(valores_z, 0 , 1) OK

Target Variable: fdist_Fz (o utilizador pode escolher outro nome)
Numeric expression: =CDF. Normal (valores_z, 0 , 1) OK

Target Variable: fdp_fx (o utilizador pode escolher outro nome)
Numeric expression: =PDF. Normal (valores_x, -3 , 1.5) OK

Target Variable: fdist_Fz (o utilizador pode escolher outro nome)
Numeric expression: =CDF. Normal (valores_x, -3 , 1.5) OK
Supondo que a varivel aleatria
( ) ( ) Normal 0; 1 e Normal 3; 1, 5 Z X o o = = = =

a) Obtenha os grficos de
( ) f x e
( ) F x . Quais as propriedades que observa?
b) Comprove as percentagens indicadas na figura abaixo, atravs de probabilidades adequadas;

c) Calcule as probabilidades ( ) 0 P Z < , ( ) 3 P X > e ( ) 2,1 P Z = . O que pode concluir?
d) Determine os seguintes quantis da v.a. ( ) Normal 3; 1, 5 X o = = : primeiro quartil, terceiro
decil e nonagsimo oitavo percentil.

68.26 %
99.73 %
+o +3o
+2o
-o
-2o
-3o
95.46 %
Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 45


Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 46
Uma vez que se tratam de funes contnuas, no Chart Builder dever escolhar um grfico de linhas na Gallery e arrasta-lo para o Chart
Preview e na janela Element Properties escolher a interpolao do tipo Spline e interpolar para valores em falta.

Observao: uma vez que para os valores em falta seleccionada a interpolao, os valores_z j podem ser escassos (e assim no
precisam de ser gerados no Excel); sugiro que coloquem no SPSS/PASW os valores_z -4, -3, -2, -1, 0, 1, 2, 3, 4 , obtenham f(z) e
faam o grficomuito semelhante e com menor esforo!
Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 47
Alnea a) (continuao)










Curva da funo densidade de probabilidade da Normal (0; 1) Curva da funo densidade de probabilidade da Normal (-3; 1,5)

Propriedades da funo densidade de probabilidade:
fica identificada pelos dois parmetros: valor mdio e desvio-padro o; tem a forma de sino; simtrica em relao recta de equao x = ; a rea
compreendida entre a curva e o eixo XX igual a 1 (propriedade da f.d.p); tem dois pontos de inflexo (mudana de concavidade) de abcissas -o e +o; a
mdia = moda = mediana = ;

Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 48
Alnea a) (continuao)




Curva da funo distribuio da Normal (0; 1) Curva da funo distribuio da Normal (-3; -1,5)


Propriedades da funo distribuio:
( ) ( ) F x P X x = s uma funo cumulativa no decrescente, contnua direita e ( ) ( ) lim 0 e lim 1
x x
F x F x
+
= = .


Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 49
Alnea b)
( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
1 1 1 1 . 1, 0,1 . 1, 0,1
0,8413 0,1587 0, 6826 68, 26%
OU tendo em conta a simetria da dist. Normal
1 1 2 0 1 2 1 0 2 . 1, 0,1 . 0, 0,1
2 0,8413 0,
P Z P Z F F CDF Normal CDF Normal
P Z P Z F F CDF Normal CDF Normal
o o < < + = < < = = ~
~ = =
< < = < < = = ~
~ ( ) 5 2 0,3413 0, 6826 68, 26% = = =


( ) ( ) ( ) ( ) ( ) ( ) 2 2 2 2 2 2 . 2, 0,1 . 2, 0,1
0,9772 0, 0228 0,9544 95, 44%
P Z P Z F F CDF Normal CDF Normal o o < < + = < < = = ~
~ = =


( ) ( ) ( ) ( ) ( ) ( ) 3 3 3 3 3 3 . 3, 0,1 . 3, 0,1
0,9987 0, 0013 0,9974 99, 74%
P Z P Z F F CDF Normal CDF Normal o o < < + = < < = = ~
~ = =


Alnea c) Calcule as probabilidades
( ) 0 P Z < ,
( ) 3 P X > e
( ) 2,1 P Z = . O que pode concluir?
Atravs da observao dos grficos das f.d.p.
( ) ( ) e f z f x , as probabilidades
( ) ( ) 0 3 0, 5 P Z P X < = > = , pelo que correspondem a metade da rea compreendida entre a curva da
f.d.p. e o eixo XX. A ltima probabilidade equivale a calcular a rea de uma recta, logo ( ) 2,1 0 P Z = =
OU ( ) ( ) ( ) 0 0 . 0, 0,1 0, 5 P Z F CDF Normal < = = =

( ) ( ) ( ) ( ) 3 1 3 1 3 1 . 3, 3,1.5 1 0, 5 0, 5 P X P X F CDF Normal > = < = = = =
OU atendendo operao de estandardizao/padronizao
( )
( )
( ) ( ) ( )
3 3
3 0 1 0 1 . 0, 0,1 1 0, 5 0, 5
1, 5
P X P Z P Z F CDF Normal
| |
> = > = > = = = =
|
\ .


( ) ( ) ( ) ( )
( ) ( )
2,1 2, 0999 2,1001 2,1001 2, 0999
. 2.1001, 0,1 . 2.0999, 0,1 0, 9821 0, 9821 0
P Z P Z F F
CDF Normal CDF Normal
= ~ < < = =
= ~ =

Assim pode-se concluir que a mediana da v.a. ( ) Normal 0; 1 Z o = = zero e a mediana da v.a.
( ) Normal 3; 1, 5 X o = = igual a -3. Isto acontece devido ao facto de que na distribuio
Normal a mdia = mediana = . As probabilidades pontuais em distribuies. contnuas so sempre
nulas.
Alnea d) Determine os quantis: primeiro quartil, terceiro decil e nonagsimo oitavo percentil.
primeiro quartil = ( )
1
4
. 0.25, 3,1.5 4, 01 Q IDF Normal = ~
terceiro decil = ( )
3
10
. 0.3, 3,1.5 3, 79 Q IDF Normal = ~
nonagsimo oitavo percentil = ( )
98
100
. 0.98, 3,1.5 0, 08 Q IDF Normal = ~
Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 50
DISTRIBUIO t DE STUDENT
A distribuio possui um nico parmetro (g.l. > 0) denominado grau de liberdade. Domnio de f = IR
Considere o seguinte exerccio:



RESOLUO DO EXERCCIO:
Foram criadas duas variveis, designadas por valores_y e valores_g, no software SPSS/PASW. Uma
vez que as variveis assumem valores reais, o software no aconselhado visto no ser uma folha de
clculo, pelo que os valores foram obtidos no Excel e de seguida copiados para o SPSS/PASW.
Utilizar, por duas vezes, a opo Computer Variable, escolhendo:
Target Variable: fdp_fy Numeric expression: =PDF.T(valores_y, 3) OK

Target Variable: fdp_fg Numeric expression: =PDF.T(valores_g, 200) OK


Curva da funo densidade t
3
Curva da funo densidade t
200

NOTA: Quando o n. de graus de liberdade elevado, a f.d.p. da t-Student aproxima-se da N(0,1).

Determinao dos quantis ( )
gl
t p :
15 percentil da
3
t = ( ) ( )
3
0,15 . 0.15, 3 1, 25 t IDF T = ~
mediana da
3
t = ( ) ( ) ( )
3
0, 5 . 0.5, 3 0 tal como se pode observar numa das f.d.p. t IDF T = ~
85 percentil da
3
t = ( ) ( ) ( )
3
0,85 . 0.85, 3 1, 25 simetrico do decimo quinto percentil t IDF T = ~
NOTA: numa distribuio simtrica em torno de zero,
1 p p
Q Q

=
Obtenha os grficos da funo densidade de
3 gl
Y t
=
e de
200
G t . Determine o 15 percentil, a
mediana e o octogsimo quinto percentil da v.a. Y.

Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 51
DISTRIBUIO QUI-QUADRADO
A distribuio possui um nico parmetro (g.l. > 0) denominado grau de liberdade. Domnio de f = IR
+

Considere o seguinte exerccio:


RESOLUO DO EXERCCIO:
Foram criadas duas variveis, designadas por valores_x1 e valores_x2, no software SPSS/PASW. Uma
vez que as variveis assumem valores superiores a zero, o software no aconselhado visto no ser uma
folha de clculo, pelo que os valores devem ser obtidos no Excel e de seguida copiados para
SPSS/PASW.
Utilizar, por duas vezes, a opo Computer Variable, escolhendo:
Target Variable: fdp_fx1 Numeric expression: =PDF.Chisq(valores_x1, 1) OK

Target Variable: fdp_fx2 Numeric expression: =PDF.Chisq(valores_x2, 5) OK


Curva da funo densidade
2
1 gl
_
=
Curva da funo densidade
2
5 gl
_
=



Determinao dos quantis ( )
2
gl
p _ :
15 percentil do
2
5
_ = ( ) ( )
2
5
0,15 . 0.15, 5 1, 99 IDF Chisq _ = ~
mediana do
2
5
_ = ( ) ( )
2
5
0, 5 . 0.5, 5 4, 35 IDF Chisq _ = ~
terceiro quartil do
2
5
_ = ( ) ( )
2
5
0, 75 . 0.75, 5 6, 63 IDF Chisq _ = ~
Obtenha os grficos da funo densidade de
1
2
1 gl
X _
=
e de
2
2
5 gl
X _
=
. Determine o 15
percentil, a mediana e o terceiro quartil da varivel X
2
.

Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 52
DISTRIBUIO F-SNEDECOR
A distribuio possui 2 parmetros (gl1, gl2 > 0) denominados graus de liberdade. Domnio de f = IR
+
.
Considere o seguinte exerccio:



RESOLUO DO EXERCCIO:
Foram criadas duas variveis, designadas por valores_m1 e valores_m2, no software SPSS/PASW. Uma
vez que as variveis assumem valores superiores ou iguais a zero, o software no aconselhado visto
no ser uma folha de clculo, pelo que os valores foram obtidos no Excel e de seguida copiados para o
SPSS/PASW.
Utilizar, por trs vezes, a opo Computer Variable, escolhendo:
Target Variable: fdp_fm1 Numeric expression: =PDF.F(valores_m1, 1, 40) OK

Target Variable: fdp_fm2 Numeric expression: =PDF.F(valores_m2, 100, 100) OK

Target Variable: fdp_fm3 Numeric expression: =PDF.F(valores_m3, 6, 28) OK



Curva da funo densidade F
1, 40
Curva da funo densidade F
100,100

Obtenha os grficos da funo densidade de
1 1 1; 2 40 gl gl
M F
= =
,
2 1 100; 2 100 gl gl
M F
= =
e de
3 1 6; 2 28 gl gl
M F
= =
. Determine o 1 quartil, a mediana e o 3 quartil da v.a. M
3
.

Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 53



NOTA: A distribuio densidade f(x) assimtrica e os aspectos da funo densidade so variados.


Determinao dos quantis ( )
1, 2 gl gl
F p :
1 quartil de
6, 28
F = ( ) ( )
6, 28
0, 25 . 0.25, 6, 28 0, 57 F IDF F = ~
mediana de
6, 28
F = ( ) ( )
6, 28
0, 5 . 0.5, 6, 28 0, 91 F IDF F = ~
3 quartil de
6, 28
F = ( ) ( )
6, 28
0, 75 . 0.75, 6, 28 1, 4 F IDF F = ~

NOTA: ( )
( )
1, 2
2, 1
1
1
gl gl
gl gl
F p
F p
=



Curva da funo
densidade F
6,28

Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 54
7. TESTES DE HIPTESES E INTERVALOS DE CONFIANA de um parmetro
populacional
TESTE T (teste de hipteses para , amostra pequena e populao Normal)








RESOLUO DO EXERCCIO:
Alnea a)
Depois de introduzir os dados no Editor de Dados, se pretender apenas um intervalo de confiana para o
parmetro , deve escolher menu Analyse Descriptive Statistics Explore e especificar o grau de
confiana desejado.




Os valores de pH obtidos em 16 anlises de gua mineral de uma certa origem so:
6, 7 6,1 5, 9 6, 9 7, 6 7, 4 7, 4 7, 2 6, 3 5,6 5, 9 7,0 7, 8 6,7 6,0 7,1
Admita que o valor do pH das guas analisadas provenientes dessa origem uma varivel aleatria
que segue uma lei normal ; N . Com base nos valores anteriores:
a) Construa um intervalo de confiana para a mdia , com um grau de confiana de 99%;
b) Poderemos concluir, ao nvel de significncia de 5%, que o pH mdio da gua proveniente
da captao inferior a 7? E se for diferente de 7?

Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 55
O output obtido foi o seguinte:
Descriptives
Statistic Std. Error
ph Mean 6,725 ,1711
99% Confidence Interval
for Mean
Lower Bound 6,221

Upper Bound 7,229

5% Trimmed Mean 6,728

Median 6,800

Variance ,469

Std. Deviation ,6846

Minimum 5,6

Maximum 7,8

Range 2,2

Interquartile Range 1,3

Skewness -,127 ,564
Kurtosis -1,258 1,091

Assim
| | 6.221, 7.229 a 99% e cuja interpretao pode ser: considerando um nmero elevado de
amostras, em 99% das vezes o intervalo de confiana encontrado
| | 6.221, 7.229 contm o parmetro


Alnea b) Escolha agora menu Analyse Compare Means One Sample T Test

mdia amostral
desvio padro do
erro
s
n
=
Limites de confiana
do IC para a 99%
desvio padro
amostral
Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 56
Em seguida aparece a janela em baixo, esquerda, onde deve escolher a varivel em estudo (que
representa a amostra retirada de uma suposta populao Normal) e indicar o verdadeiro valor da mdia
(mdia populacional) que est a testar, ou seja, o valor de em teste (Test Value).
No output do teste, aparece sempre por defeito, um intervalo de confiana (IC) para a 95%, associado a
um possvel teste bilateral. Caso seja do seu interesse considerar 5% o = , clique no boto das Options
(surge a janela em baixo, direita) e indique o grau de confiana
( ) 1 o desejado. Esta escolha apenas
relevante para os limites de confiana do IC e no para o teste em si, que fornecer o valor de prova
(menor nvel de significncia a partir do qual se rejeita a hiptese nula). Observe que nada dito/pedido
acerca do tipo de teste que pretende (bilateral, unilateral esquerda ou direita), pelo que no output do
teste estar sempre o valor de prova de um teste bilateral (Sig.-2 tailed). A partir desse ter de encontrar o
que pretende.



Clicar Continue, seguido de Ok. Surge em seguida o output:





Valor observado da
estatstica de teste, ou
seja, ET
obs

Graus de liberdade da
dist. t de Student
Valor de prova
p

de um teste bilateral
Diferena entre a mdia
amostral e populacional,
X = 6,725 - 7
Limites de confiana do IC

| | 7 0.779 , 0.229 a 99% e

+7

| | 6.221, 7.229 a 99% e
Apesar de estarmos interessados em testar
0
H : 7 = vs
1
H : 7 <

podamos
tambm testar outras hipteses:
0
H : 7 = vs
1
H : ( ) 8 7 = >

e
0
H : 7 = vs
1
H : 7 = usando o
mesmo output do SPSS/PASW.
Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 57
Pretende-se testar
0
H : 7 = contra
1
H : 7 < (teste unilateral esquerdo).
ET
obs
= -1,607


Concluso estatstica (utilizando o valor de prova):
O valor de prova associado ao teste igual a 0,129/2 pelo que deve rejeitar
0
H

para 6,45%. Assim
para os nveis de significncia = 1% e 5% no se rejeita
0
H , mas para 10% rejeita-se
0
H

Para o outro teste pretendido,
0
H : 7 = contra
1
H : 7 = (teste bilateral).
ET
obs
= -1,607


Concluso estatstica (utilizando o valor de prova):
O valor de prova associado ao teste igual a 12,9% pelo que deve rejeitar
0
H

para 12,9%. Assim
para os nveis de significncia usuais no se rejeita
0
H , pelo que no existem evidncias estatsticas
significativas de que a verdadeiro valor do pH mdio da gua proveniente da captao diferente de 7.


Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 58
TESTE BINOMIAL a uma proporo p









RESOLUO DO EXERCCIO: Alnea a) Pretende-se efectuar um teste de hipteses unilateral direito
cujas hipteses so
0
H : ( ) 60 0,3 p idade > = contra
1
H : ( ) 60 0,3 p idade > > .
Para a realizao do teste no SPSS/PASW, a varivel em causa tem de ser numrica e dicotmica (deve
possuir apenas dois valores/categorias possveis; sim ou no, verdadeiro ou falso, 0 ou 1,mulher ou
homem, peso inferior a 75 quilos ou peso superior ou igual a 75 quilos, e assim por diante).
Se a varivel for do tipo alfanumrica ou qualitativa (String) deve usar o procedimento de recodificao
automtica (Automatic Recode disponvel no menu Transform).
No caso da varivel ser dicotmica, o primeiro valor encontrado nos dados define o primeiro grupo e
automaticamente o outro valor define o segundo grupo. necessrio apenas dizer ao SPSS/PASW que a
dicotomia ser definida atravs dos dados (Get from data).
No caso de a varivel no ser dicotmica, deve efectuar uma diviso nos dados especificando para esse
efeito um valor de corte (Cut point). O primeiro grupo ser definido para valores inferiores ou iguais ao
valor de corte e o segundo grupo para valores superiores.
Importante salientar que neste teste, o SPSS/PASW, utiliza sempre os indivduos do grupo 1 para
definir a proporo em causa nas hipteses em teste.
Voltando ao exerccio, como a idade numrica, mas no dicotmica necessrio definir o valor de
corte 60, pelo que o primeiro grupo ser constitudo pelos indivduos com idade 60 anos e o segundo
grupo de indivduos com idade > 60 anos. Assim obrigatrio que a proporo p a utilizar nas hipteses
se refira ao grupo 1, pelo que
0
H : ( ) 60 0, 7 p idade s = contra
1
H : ( ) 60 0, 7 p idade s < (teste unilateral
esquerdo).
(Exemplo) Uma empresa lanou recentemente no mercado uma dieta de emagrecimento e pretende
fazer o controlo do peso dos seus seguidores. Para tal procedeu recolha dos pesos de 16 indivduos,
escolhidos aleatoriamente entre os seus seguidores, assim como a sua idade e sexo, etc.
NOTA: Os dados encontram-se no ficheiro DietStudy.sav do SPSS/PASW.
a) Averige se a proporo de seguidores com idades superiores a 60 anos superior a 0,3.
b) Pretende-se averiguar se a proporo de seguidores do sexo feminino significativamente
diferente dos seguidores do sexo masculino.
c) Teste , para 5% o = , se a proporo dos indivduos com peso inicial (varivel wgt0) inferior
ou igual a 200 kg superior a 0,2.

Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 59
Abrir o ficheiro indicado para realizar o exerccio proposto. Deve escolher agora menu Analyse
Nonparametrics Tests Legacy Dialogs Binomial

Em seguida aparece a janela em baixo, onde deve escolher a varivel em estudo (idade), o valor de corte
60 e o valor de teste p = 0,7.

Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 60
Foi obtido o output seguinte:

Concluso estatstica (utilizando o valor de prova):
O valor de prova associado ao teste igual a 55% pelo que deve rejeitar
0
H

para 55%. Assim para
os nveis usuais de significncia ( = 1%, 5% e 10%) no se rejeita
0
H , ou seja, no existem evidncias
estatsticas significativas que levem a crer que a proporo de seguidores com idades superiores a 60 anos
superior a 30% ( equivalente a dizer que a proporo de seguidores com idades inferiores ou iguais a 60
anos inferior a 70%).
Alnea b)
Pretende-se averiguar se a proporo de seguidores do sexo feminino significativamente diferente dos
seguidores do sexo masculino, que pode ser realizado atravs de um teste bilateral cujas hipteses so
0
H : 0,5 p = contra
1
H : 0,5 p = onde p representa a proporo de seguidores do sexo masculino.
Uma vez que a varivel sexo j dicotmica e o primeiro indivduo dos dados do sexo masculino, o
grupo 1 ser composto pelos seguidores do sexo masculino. necessrio apenas dizer ao SPSS/PASW que
a dicotomia ser definida atravs dos dados (Get from data).

Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 61
Foi obtido o output seguinte:

Concluso estatstica (utilizando o valor de prova):
O valor de prova associado ao teste igual a 80,4% pelo que deve rejeitar
0
H

para 80,4%. Assim
para os nveis usuais de significncia ( = 1%, 5% e 10%) no se rejeita
0
H , ou seja, no existem
evidncias estatsticas significativas que levem a crer que a e a proporo de seguidores do sexo feminino
significativamente diferente dos seguidores do sexo masculino.
Alnea c)
Pretende-se averiguar se a proporo de seguidores, com peso inicial, inferior ou igual a 200 kg,
superior a 0.2, que pode ser realizado atravs de um teste unilateral direito cujas hipteses so
0
H :
0, 2 p = contra
1
H : 0, 2 p > (teste unilateral direito) onde p representa a proporo de indivduos com
peso inicial, inferior ou igual a 200 kg.
Uma vez que a varivel peso no dicotmica, mas sim contnua, necessrio definir o valor de corte
de 200, pelo que o primeiro grupo ser constitudo pelos indivduos com peso inicial 200 kg e o
segundo grupo de indivduos com peso inicial > 200 kg. Sendo assim o teste considerado anteriormente
para a alnea c) mantm-se inalterado.

Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 62
Foi obtido o output seguinte:

Concluso estatstica (utilizando o valor de prova):
O valor de prova associado ao teste igual a 0,1% pelo que deve rejeitar
0
H

para 0,1%. Assim
para 5% o = rejeita-se
0
H , ou seja, existem evidncias estatsticas significativas de que a proporo
dos indivduos com peso inicial, inferior ou igual a 200 kg, superior a 0,3.
Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 63

8. REGRESSO LINEAR SIMPLES E MLTIPLA
Regresso linear simples
O modelo de regresso linear simples (MRLS) caracterizado por uma recta em que apenas existe 1
varivel dependente e 1 varivel independente.



















NOTA: Este exemplo foi resolvido integralmente na aula prtica, pelo que apenas obterei os
outputs no SPSS/PASW para que possam responder a algumas das questes do exerccio.

(Exemplo) Foi realizado um estudo para determinar a percentagem dos resduos slidos eliminados por um
sistema de filtragem (P) em funo da taxa de fluxo de efluente (T). O quadro resume os valores obtidos:

1 4 6 8 10
24 19 17,5 14 12
Taxa de fluxo de efluente (T)
Percentagem de resduos slidos (P)


a) Identifique a varivel dependente (ou explicada) e independente (ou explicativa);
a) Obtenha o diagrama de disperso e comente-o, tendo em conta que se pretende aplicar o MRLS;
b) Apresente o coeficiente de correlao linear de Pearson (designado por R) e comente-o;
c) Apresente a recta de regresso estimada;
d) Interprete as estimativas dos coeficientes de regresso calculados anteriormente;
e) Calcule os valores preditos e os resduos, associados a cada par de observaes (x
i
,y
i
);
f) Os pressupostos do MRLS so satisfeitos?
g) Calcule um intervalo de confiana a 95% para cada coeficiente de regresso;
h) Avalie o significado da regresso de P sobre T, ao nvel de significncia de 5% , utilizando trs
formas distintas: um quantil de ordem apropriado, o valor de prova e um intervalo de confiana
adequado;
i) Teste, ao nvel de significncia de 5%, se o MRLS deve conter a constante (teste presena de
ordenada na origem);
j) Interprete o coeficiente de determinao (designado por R
2
);
k) Comente a adequao do MRLS aos dados;
l) Teste, ao nvel de significncia de 5%, as hipteses
0 1
: 1 contra : 1 H b H b = < ;
m) Estime, se possvel, a percentagem de resduos slidos eliminados por um sistema de filtragem quando
a taxa de fluxo de efluente for 9.2 , 10.5, 11 e 14.


Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 64

RESOLUO DO EXEMPLO DE REGRESSO LINEAR SIMPLES:
Insira os dados em duas colunas pela ordem que entender.
Alnea a) Tendo em conta o enunciado do exemplo, a varivel dependente a considerar ser a
percentagem de resduos slidos a eliminar pelo sistema de filtragem (varivel Perc) e a independente
ser a taxa de fluxo de efluente (varivel Taxa).
Alnea b) Como ferramenta exploratria da regresso dever obter um diagrama de disperso no
SPSS/PASW, atravs do menu Graphs Chart Builder. Escolha na Gallery um Simple Scatter e arraste-
o para a zona do Chart Preview; escolha a varivel dependente e arraste-a para o eixo dos yys e a
varivel independente para o eixo dos xxs.

Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 65
Atravs do diagrama de disperso obtido, parece
muito sensato/plausvel tentar ajustar uma recta
aos dados.

So inmeras as rectas que podem passar por
aqueles pontos no entanto procuramos a recta
que tenta minimizar a distncia entre os pontos
e a recta de regresso estimada.

Nota: ao editar o grfico, poder adicionar uma
recta aos dados, mediante a introduo da
expresso analtica da recta.


Deve escolher agora menu Analyse Regression Linear e escolher as opes seguintes das diferentes
janelas:


Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 66


Caso pretenda predizer valores
(banda de previso), dever
seleccionar a opo Individual e
para alm dos dados originais
dever colocar outros valores da
varivel Taxa na janela de
dados..
Ao ter seleccionado a opo
para guardar os valores preditos
da varivel Perc, sero
colocados na janela dos dados
os respectivos valores preditos,
assim como os limites inferior e
superior (LICI e UICI) do
intervalo de confiana de
previso (chamada banda de
previso aconselha-se aos
alunos a leitura dos diapositivos
16, 17 e 18 dos apontamentos
do Prof. Nuno de Sousa)
Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 67

Aps as escolhas anteriores na regresso, janela de dados (inicialmente com as variveis Taxa e Perc) foram
includas 4 colunas (tal como foi pedido na janela Linear Regression: Save): os valores preditos da percentagem no
estandardizados(PRE_1), os resduos no estandardizados (RES_1), os limites inferior e superior do intervalo de
confiana de previso (LICI_1 e UICI_1).
Resolvi alterar o nome das duas primeiras variveis (alterei o nome e no o label) para respectivamente,
Valores_preditos e Resduos.



Realizada a anlise de regresso linear simples atravs do SPSS/PASW obtiveram-se os seguintes outputs:


5 valores originais das variveis Taxa e Percentagem, assim
como 4 valores de Taxa para predizer a varivel Perc
Valores preditos da percentagem,
atravs da recta de regresso
estimada e os respectivos resduos
Inicialmente dever considerar que a constante faz parte da
recta, ou seja do seu modelo de regresso. Mais tarde se
chegar concluso que o modelo no dever ter constante,
repete os passos anteriores e no selecciona esta opo.
Limites inferior e superior (LICI e
UICI) do intervalo de confiana de
previso (chamada banda de
previso)
mdia amostral x
,
desvio
padro amostral s e
dimenso da amostra

Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 68














|R| R
2
S
Modelo composto pela constante
e pela varivel explicativa
Estimativas dos coeficientes ou parmetros de regresso
e respectivos desvios padro: , ,
a b
a b e o o
Estatsticas de teste (ET= t) e valores de prova (Sig.) para os testes de significncia
ordenada na origem (H
0
: a=0 vs H
1
: a0) e ao declive da recta (H
0
: b=0 vs H
1
: b0)

IC a 95% para os coeficientes
de regresso a e b
R coeficiente de
correlao de Pearson
Ao seleccionar o mtodo Enter
analisado o MRLS, composto
por uma nica varivel
independente (taxa), seleccionada
anteriormente.
Estatstica de teste (ET= F) e valor de prova (Sig.) para o teste de preciso de ajustamento
(H
0
: b=0 vs H
1
: b0).
Uma vez que estamos perante a regresso linear simples, este teste similar ao segundo teste da
prximo output (apesar das ETs diferentes, valores de prova e concluses semelhantes.

Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 69
Para que a regresso linear simples (RLS) seja vlida necessrio validar os pressupostos da mesma
utilizando para esse efeito a varivel Resduos obtida anteriormente pelo software.
Deve escolher agora menu AnalyseDescriptive Statistics Explore e seleccionar as opes
seguintes das diferentes janelas:



Obtiveram-se os seguintes outputs:











Caso os pressupostos do modelo de regresso linear sejam validados e o MRLS seja considerado um bom
modelo, podero efectuar-se previses com os devidos cuidados (ler dispositivos 16, 17 e 18 do Prof.
Nuno de Sousa), pelo que este de facto o objectivo de uma qualquer regresso.

H
0
: os resduos seguem uma
distribuio normal contra
H
1
: resduos no so normais
Aplicao do teste Shapiro-Wilk:
ET=0,865 e valor de prova=24,7%
Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 70
Regresso linear mltipla
O modelo de regresso linear mltiplo (MRLM) caracterizado por uma combinao linear de variveis,
assim apenas existe 1 varivel dependente (Y) e duas ou mais variveis independentes (designadas
habitualmente por X
1
, X
2
, X
3
, X
i
).
Deve proceder de modo anlogo ao que foi feito na regresso linear simples, sendo que agora dever
seleccionar sempre mais do uma varivel independente.
Na regresso linear mltipla, o SPSS/PASW disponibiliza mtodos de seleco de variveis (Enter,
Forward, Backward e Stepwise) mas nenhum deles, garantidamente, conduz ao modelo ptimo. Como
o estudo desta tcnica no foi exaustivo nas aulas tericas, deixo como sugesto utilizarem inicialmente o
mtodo Enter (utiliza todas as variveis independentes que o utilizador indicar). Podero experimentar os
mtodos anteriormente referidos.
O objectivo final encontrar o melhor modelo que explique a varivel dependente Y, para que depois
possa efectuar previses.
Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 71

9. ANOVA DE FACTOR NICO





















NOTA: Este exemplo foi resolvido integralmente na aula prtica, pelo que apenas obterei os outputs no
SPSS/PASW para que possa responder a todas as questes do exerccio.


Com o objectivo de se fazer um estudo ecolgico sobre os rios portugueses, mediu-se a concentrao
de estrncio (g/l) em quatro cursos de gua. Pensa-se que a concentrao de estrncio afectada de
forma diferente em cada um dos cursos de gua. Decidiu-se testar quatro cursos de rios (Mira, Minho,
Alviela e Tranco), utilizando um nmero distinto de observaes para cada um dos rios. As 17
observaes que se encontram na tabela seguinte foram obtidas, por ordem aleatria, num laboratrio
que mediu as seguintes concentraes de estrncio:
Cursos de gua Concentrao de estrncio (g/l)
Mira (1) 28,2 33,2 32,4 29,1 31,0
Minho (2) 40,8 43,6 42,4 39,6
Alviela (3) 46,3 49,1 48,8 43,7 40,1
Tranco (4) 59,4 62,7 60,0
Nas alneas abaixo, considere um nvel de significncia de 10%.
a) Identifique a varivel de resposta (varivel dependente ou varivel em estudo), o factor e os
respectivos nveis desse factor (tratamentos). Apresente um modelo de anlise de varincia
adequado para o planeamento em causa.
b) Construa diagramas de extremos-e-quartis para os quatro cursos de gua. Compare os
diagramas e comente este breve estudo descritivo.
c) Comprove que os pressupostos da Anova paramtrica so validados;
d) Identifique as hipteses a testar pela ANOVA, construa a tabela de anlise de varincia para
o planeamento referido na alnea b) e retire concluses. Caso haja necessidade, recorra ao
teste de comparaes mltiplas de Tukey, para identificar quais os cursos de gua que
diferem entre si, relativamente concentrao de estrncio;
e) Suponha que os pressupostos da Anova paramtrica no foram validados. Opte pela Anova
de postos e retire concluses.
Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 72
RESOLUO DO EXEMPLO DE ANLISE DE VARINCIA:
Varivel dependente (ou varivel em estudo) - concentrao de estrncio (g/l)
Factor (nico)- curso de rio
Nveis ou tratamentos do factor Mira, Minho, Alviela e Tranco



Introduzir os dados na janela de dados do
SPSS/PASW, utilizando duas colunas (o factor e a
varivel dependente).

Ateno que os nveis do factor devero ser
nmeros, pelo que neste exemplo o factor ser
composto pelos nmeros 1, 2, 3 e 4.

No separador Variable View, na opo Values,
dever atribuir ao 1-Mira, 2-Minho, 3-Alviela e 4-
Tranco; na opo Measure dever escolher
Nominal.







Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 73
Deve escolher agora menu AnalyseDescriptive Statistics Explore e seleccionar as opes
seguintes das diferentes janelas:





Deve escolher agora menu Analyse Compare Means One-way ANOVA (ou seja a Anova
paramtrica) e escolher as opes seguintes das diferentes janelas:



Elaborado por Veneranda Ins Batalha
Verso de 15 de Janeiro de 2011 Pgina 74
Caso seja necessrio optar pela Anova de postos dever executar os seguintes passos: atribuir varivel
dependente os postos; em seguida aplicar a Anova de factor nico aos postos e caso seja necessrio
recorrer ao teste de comparaes mltiplas de Tukey.

Menu Transform Rank Case ( criada automaticamente uma varivel denominada Rconcent, pois
seguido da letra R colocado parte do nome da varivel) e escolha as opes seguintes:





Aps esta transformao pode aplicar simplesmente a Anova de factor nico como fez
anteriormente, mas agora deve considerar a varivel dependente os postos.