Escolar Documentos
Profissional Documentos
Cultura Documentos
0
Objectivo: auxiliar os alunos da ESAC, inscritos na unidade
curricular de Estatística (curso de LBIO), na utilização do SPSS
nas aulas práticas.
INSTALAÇÃO DO PROGRAMA
O aluno deverá dirigir-se aos Serviços Informáticos da ESAC
Conteúdo
http://support.spss.com/ProductsExt/Statistics/Documentation/18/client/User%20Manuals/Engl
ish/PASW%20Statistics%2018%20Core%20System%20User's%20Guide.pdf
Aceder à sua pasta c:\Programas\SPSSInc\PASWStatistics18\Manuals\PASW Statistics 18
Core System User's Guide
Ao iniciar o PASW Statistics 18.0 surge uma janela introdutória, onde poderá escolher uma opção.
Caso queira colocar os seus dados, seleccione a opção Type in data; para abrir ficheiros de dados já
existentes, seleccione a opção Open an existing data source; se é a primeira vez que utiliza o PASW
então seleccione a opção Run the Tutorial para uma introdução rápida ao SPSS e às suas
potencialidades.
Janela de edição de dados e variáveis <Data Editor Window> (possui duas folhas, em baixo, à
esquerda da janela, onde apenas uma delas poderá estar activa) As duas janelas seguintes são
representativas desta situação.
Variável é toda a característica que, observada numa pessoa, animal, objecto, pode variar de um
indivíduo para outro. A idade de uma pessoa e seus hábitos quanto ao fumo, o sexo de um roedor
colectado na natureza, a estatura em jogadores de basquetebol, a cor das sementes de uma espiga de
milho, a quantidade de ácido acetilsalicílico em comprimidos com o nome comercial NC, o nível de
hemoglobina no sangue constituem exemplos de variáveis.
É importante identificar que tipo de variável está sendo estudado, uma vez que são recomendados
procedimentos estatísticos diferentes em cada situação. A principal divisão ocorre entre variáveis
quantitativas e qualitativas.
Variáveis quantitativas são aquelas cujos dados são valores numéricos que expressam quantidades,
como a estatura das pessoas ou o número de sementes íntegras numa vagem. Estas podem ainda ser
classificadas em:
Variáveis quantitativas discretas são aquelas em que os dados somente podem apresentar determinados
valores, em geral, números inteiros.
Variáveis quantitativas contínuas são aquelas cujos dados podem apresentar qualquer valor dentro de
um intervalo de variação possível.
Variáveis qualitativas ou categóricas são as que fornecem dados de natureza não-numérica, como a cor
de uma flor, a raça de uma ovelha ou o sexo de um indivíduo. Mesmo que os dados possam ser
codificados numericamente (masculino=1, feminino=2), os números aqui são apenas símbolos sem
valor quantitativo. As diferentes categorias são mutuamente exclusivas. Estas variáveis podem ser
medidas numa escala:
Escala nominal: Como o nome implica, nesse nível diferencia-se uma categoria da outra somente por
meio da denominação da categoria, não sendo possível qualquer tipo de ordenação.
Escala ordinal: É possível indicar diferentes categorias mas também reconhecer graus de intensidade
entre elas, o que possibilita uma ordenação (que seja inerente à variável e não imposta por
conveniência) das diferentes categorias.
Na página seguinte é apresentado um esquema resumo, apresentando exemplos para cada uma das
classificações.
discreta
medida numa escala Exemplos: grau de dor ( “nenhuma” até “dor insuportável”), o
ordinal comportamento de um animal (“submisso”, “neutro” ou “agressivo”), a cor
de determinada flor (desde “branca” até “vermelho”, passando por diversas
tonalidades de “rosa”) e as habilitações literárias de um indivíduo (9º ano, 12º
ano, licenciatura, pós-graduação, mestrado e doutoramento).
Ao escolher na barra de menu de qualquer janela do SPSS, File OpenData, surge a janela
O SPSS permite abrir ficheiros oriundos de diferentes programas: obviamente do SPSS (*.sav), Systat
(*.sys), Excel (*.xls, *.xlsm, *.xlsx), Lotus (*.w*), SAS (*.xpt), Stata (*.dta), Text (*.txt, *.dat) e
outros.
A cada coluna deve corresponder uma variável e à primeira linha o nome de cada variável;
Em cada coluna os valores deverão ser sempre do mesmo tipo: apenas datas, apenas números,
apenas texto, etc;
Se numa coluna de valores numéricos existirem células em branco, estes serão convertidos no
sistema de valores omissos do SPSS;
Se os nomes das variáveis não seguirem as especificações do SPSS, ser-lhes-ão atribuídos
outros nomes.
A B C D E F G
1
2
3 Nome_aluno Dat_Insc Teste 1 Teste 2 Teste 3 Status
4 Nuno 09-01-2009 1 4,5 2,5 Reprovado
5 Patrícia 20-09-2009 3,5 7 8 Reprovado
6 Marco 12-10-2009 12 13 14 Aprovado
7 Manuel 23-10-2009 5 6 7 Reprovado
8 Elisa 14-10-2009 8 12 14 Aprovado
9 Inês 25-10-2009 7 7 7 Reprovado
10 Sara 06-10-2009 4 4 Reprovado
11 Carla 17-09-2009 11 10 9 Aprovado
12 André 18-10-2009 11 11 Reprovado
13
Para conseguir ler estes dados no Excel, proceda de acordo com o que foi dito anteriormente.
E assim os dados passam a poder ser visualizados no SPSS (ver imagem em baixo). Por vezes na
Variable View, nem tudo está como se pretende, nomeadamente nas colunas Label e Measure, pelo
que convém verificar e/ou emendar.
Ao iniciar o PASW Statistics 18.0 surge uma janela introdutória, seleccione a opção Type in data e
surge a Janela de edição de dados e variáveis <Data Editor Window>.
Nota importante: Ao definir uma variável como alfanumérica (opção String no menu Type) não
poderá depois efectuar o método estatístico apropriado para comparar, por exemplo, se o peso do
recém-nascido é idêntico nas 3 maternidades.
Nome: maternidade
Tipo: numérico
Nome completo (Label): nome da maternidade
Codificação dos Value Labels: (1, Estefânia) (2, Alfredo da Costa) (3, Amadora-Sintra)
Nome: cor
Tipo: String ou alfanumérica
Nome completo: cor da primeira roupa do recém-nascido
Codificação dos Value Labels: (1, rosa) (2, azul) (3, amarelo) (4, branco)
Valores em falta (missing): NR
Nome: peso
Tipo: numérico, com 3 casas decimais
Nome completo: peso do recém-nascido, em Kg
Valores em falta: 999
Nome: sexo
Tipo: numérico
Nome completo: sexo do recém-nascido
Codificação dos Value Labels: (1, M) (2, F)
Caso queira visualizar os dados originais, ou seja, prescindindo da codificação de valores, basta
escolher menu View Value Labels
Para explicitar esta matéria, irei utilizar o exemplo dos recém-nascidos na maternidade, que passarei a
designar por exemplo 1 (dados criados no ponto anterior 4).
O “output” obtido pelo PASW poderá ser copiado e posteriormente colado num documento Word
(utilizar o colar especial como texto formatado (RTF), permitindo ainda assim alterar a formatação).
Statistics
N Valid 16 16 14
Missing 0 0 2
Frequency Table
Nome da maternidade
Cumulative
Frequency Percent Valid Percent Percent
Valid Estefânia 4 25,0 25,0 25,0
Alfredo da Costa 6 37,5 37,5 62,5
Amadora-Sintra 6 37,5 37,5 100,0
Total 16 100,0 100,0
CRUZAMENTO DE VARIÁVEIS
Escolher menu Analyse Descriptive Statistics Crosstabs; Na janela que surge deverá escolher o
botão Cells e seleccionar a opção Counts Observed
Escolher menu Analyse Descriptive Statistics Frequencies; Na janela que surge deverá escolher
o botão Statistics e seleccionar a opção “Quartiles”, ignorando as restantes opções.
Statistics
Peso do recém-nascido, em Kg
N Valid 14
Missing 2
Percentiles 25 2,68750
50 3,02500
75 3,35000
Escolher menu Analyse Descriptive Statistics Frequencies; Na janela que surge deverá escolher
o botão Statistics e seleccionar a opção “Percentile(s)”, ignorando as restantes opções
Statistics
Peso do recém-nascido, em Kg
N Valid 14
Missing 2
Percentiles 10 2,07500
25 2,68750
50 3,02500
80 3,50000
90 4,00000
Escolher menu Analyse Descriptive Statistics Frequencies; Na janela que surge deverá escolher
o botão Statistics e seleccionar as opções assinaladas na imagem abaixo, ignorando as restantes
opções.
Statistics
Peso do recém-nascido, em Kg
N Valid 14
Missing 2
Mean 3,01786
Median 3,02500
Mode 3,100
Std. Deviation ,589852
Variance ,348
Range 2,150
Minimum 1,950
Maximum 4,100
Sum 42,250
Escolher menu Analyse Descriptive Statistics Frequencies; Na janela que surge deverá escolher
o botão Graphs e seleccionar a opção Bar Chart.
Statistics
Cor da
primeira roupa Sexo do
Nome da do recém- recém-
maternidade nascido nascido
N Valid 16 14 16
Missing 0 2 0
Arraste agora o tipo de boxplot que pretende da “ Gallery”, a variável pretendida e alguma opção que
pretenda do “ Basic Elements” (observe as setas na imagem seguinte).
O extremo inferior é o mínimo da amostra, enquanto que o extremo superior é o máximo da amostra.
Qual a importância deste tipo de representação? Realça informação importante sobre os dados,
como sejam o centro da amostra (mediana), variabilidade e simetria. Repare-se que da forma como o
diagrama se constrói, se pode retirar imediatamente a seguinte informação:
Como é que se pode reconhecer a simetria ou o enviesamento dos dados, a partir do diagrama de
extremos e quartis? Existem fundamentalmente três características, que nos dão ideia da simetria ou
enviesamento e da sua maior ou menor concentração: a distância entre a linha indicadora da mediana e
os lados do rectângulo, o comprimento das linhas que saem dos lados dos rectângulos e o comprimento
da caixa.
Regras para a classificação dos “outliers” (observação “suspeita”, pois afasta-se do padrão geral dos
dados).
“Outliers” – caso ultrapasse um dos quartis em 1,5 vezes a amplitude inter-quartil (AIQ)
“Outliers” moderados – caso se situe entre 1,5 e 3 vezes a AIQ, a partir de um dos quartis
“Outliers” severos ou valores extremos – caso ultrapasse um dos quartis em 3 vezes a AIQ
Uma forma de obter o que é pedido é escolher o menu Analyse Descriptive StatisticsExplore
e siga as indicações das janelas seguintes.
Descriptives
Sexo do recém-nascido Statistic Std. Error
Peso do recém- M Mean 2,90000 ,199583
nascido, em Kg 95% Confidence Interval for Mean Lower Bound 2,38696
Upper Bound 3,41304
5% Trimmed Mean 2,93056
Median 3,02500
Variance ,239
Std. Deviation ,488876
Minimum 1,950
Maximum 3,300
Range 1,350
Interquartile Range ,563
Skewness -1,947 ,845
Kurtosis 4,164 1,741
F Mean 3,10625 ,238379
95% Confidence Interval for Mean Lower Bound 2,54257
Upper Bound 3,66993
5% Trimmed Mean 3,10139
Median 2,95000
Variance ,455
Std. Deviation ,674239
Minimum 2,200
Maximum 4,100
Range 1,900
Interquartile Range 1,237
Skewness ,312 ,752
Kurtosis -1,199 1,481
Deverá ser
considerada a sua
eliminação dos dados.
Outra forma de obter o boxplot, é escolher o menu Graphs Graph Builder Gallery, Boxplot
O “Visual Binning” foi criado para assistir no processo de criação de novas variáveis baseado no
agrupamento de dados contínuos, num número limite de categorias distintas. O “Visual Binning” pode
ser usado para:
Construir classes de uma variável contínua; as classes serão encaradas como variáveis
categóricas;
Transformar uma variável medida numa escala ordinal, com um grande número de valores
distintos, numa nova variável com menos valores distintos (novas categorias).
1º PASSO - escolher o menu Transform Visual Binning e seleccionar a variável que pretende
agrupar em “bins” (classes ou novas categorias). Seleccione o botão “Continue”.
NOTA: a lista das variáveis contém apenas as variáveis numéricas medidas numa escala ordinal
e as variáveis contínuas.
2º PASSO – na próxima janela escolher o nome da “Binned Variable”, alterar o Label se assim
entender, inserir na grelha os valores de “cutpoints” 2, 3, 4 (inseridos abaixo na célula HIGH, um a
um, seguido de ENTER), seleccionar “Excluded (<) Upper Endpoints” de modo a que o intervalo da
classe esteja aberto à direita ( [ , [ ) e finalmente carregar na opção “Make Labels”.
Seleccionar OK.
De seguida apresento o histograma que resultou da construção classes utilizando o “Visual Binning”.
Obviamente este histograma utiliza outras classes (o utilizador não sabe especificamente quais as
classes que foram construídas).
RESOLUÇÃO DO EXERCÍCIO:
Inserir no Editor de dados e variáveis a seguinte informação:
Escolher menu Data Weight Cases onde surgirá a janela abaixo; será necessário seleccionar qual a
variável que representa a frequência.
Escolher menu Analyse Descriptive Statistics Frequencies e seleccionar tudo o que foi pedido
no exercício, utilizando as opções “Statistics”, “Charts” , para além da tabela de frequências que já se
encontra escolhida por defeito. Clicar OK
É obrigatório indicar a variável onde irão ser colocados os cálculos a realizar (Target Variable), a
expressão numérica que pretende realizar (Numeric Expression), podendo utilizar as funções
disponíveis nesta janela (inclui uma breve explicação acerca da função).
Para calcular probabilidades de uma distribuição discreta, poderá utilizar a função massa de
probabilidade f x P X x ou a função de distribuição F x P X x utilizando,
respectivamente, o grupo de funções intitulado “PDF & Noncentral PDF” e “CDF & Noncentral
CDF”. O grupo “PDF & Noncentral PDF” contém as funções de distribuição pontuais f(x), referindo-
se às funções de massa de probabilidade (no caso discreto) e densidade (no caso contínuo), para
distribuições simétricas ou assimétricas. O grupo “CDF & Noncentral CDF” contém as funções de
distribuição cumulativas F(x), para distribuições simétricas ou assimétricas.
O grupo “Inverse DF” contém as funções inversas de distribuições contínuas que permitem obter
quantis de ordem p.
RESOLUÇÃO DO EXERCÍCIO:
Uma vez que esta variável aleatória assume apenas os valores 0, 1, 2, 3,…, 8 é necessário criar uma
variável (designada por valores_x) no SPSS/PASW que contenha estes valores.
Distribuição de Poisson
RESOLUÇÃO DO EXERCÍCIO:
Uma vez que esta variável aleatória assume os valores 0, 1, 2, 3,…, é necessário criar uma
variável (designada por valores_x) no SPSS/PASW que contenha alguns destes valores, uma vez que
seria difícil ir até …
2
1 x
1
probabilidade for dada por f ( x) e 2
, x, IR, 0 em que e
2
representam, respectivamente, a média (localiza o centro da distribuição) e o desvio padrão da
população (mede a variabilidade de X em torno da média ).
f(x)
: média
: desvio padrão
x
A estandardização é a operação que transforma uma Normal ( , ) numa Normal (=0; =1), ou
X
seja, X N ( , ) Z N (0,1) .
A probabilidade de uma variável contínua assumir valores entre a e b é igual à área sob a curva entre
esses dois pontos. A determinação destas probabilidades é realizada matematicamente através da
integração da função de densidade de probabilidade (f.d.p.) entre os pontos a e b de interesse, ou seja,
1 x
2
b b
e 2 dx . No caso da Normal, o integral não pode ser
1
P a X b f x dx
a a 2
calculado exactamente e a probabilidade entre dois pontos só pode ser obtida aproximadamente, por
métodos numéricos.
95.46 %
68.26 %
RESOLUÇÃO DO EXERCÍCIO:
Alínea a)
Foram criadas duas variáveis, designadas por valores_z e valores_x, no software SPSS/PASW. Uma
vez que as variáveis assumem valores reais, o software não é aconselhado visto não ser uma folha de
cálculo, pelo que os valores foram obtidos no Excel e de seguida copiados para o SPSS/PASW.
Observação: uma vez que para os valores em falta é seleccionada a interpolação, os valores_z já podem ser escassos (e assim não
precisam de ser gerados no Excel); sugiro que coloquem no SPSS/PASW os valores_z -4, -3, -2, -1, 0, 1, 2, 3, 4 , obtenham f(z) e
façam o gráfico…muito semelhante e com menor esforço!
Curva da função densidade de probabilidade da Normal (0; 1) Curva da função densidade de probabilidade da Normal (-3; 1,5)
Curva da função distribuição da Normal (0; 1) Curva da função distribuição da Normal (-3; -1,5)
P Z 0 P X 3 0,5 , pelo que correspondem a metade da área compreendida entre a curva da
f.d.p. e o eixo XX. A última probabilidade equivale a calcular a área de uma recta, logo
P Z 2,1 0
Assim pode-se concluir que a mediana da v.a. Z Normal 0 ; 1 é zero e a mediana da v.a.
X Normal 3 ; 1,5 é igual a -3. Isto acontece devido ao facto de que na distribuição
A distribuição possui um único parâmetro (g.l. > 0) denominado grau de liberdade. Domínio de f = IR
RESOLUÇÃO DO EXERCÍCIO:
Foram criadas duas variáveis, designadas por valores_y e valores_g, no software SPSS/PASW. Uma
vez que as variáveis assumem valores reais, o software não é aconselhado visto não ser uma folha de
cálculo, pelo que os valores foram obtidos no Excel e de seguida copiados para o SPSS/PASW.
NOTA: Quando o nº. de graus de liberdade é elevado, a f.d.p. da t-Student aproxima-se da N(0,1).
mediana da t3 = t3 0,5 IDF. T 0.5,3 0 tal como se pode observar numa das f.d.p.
85º percentil da t3 = t3 0,85 IDF . T 0.85,3 1, 25 simetrico do decimo quinto percentil
A distribuição possui um único parâmetro (g.l. > 0) denominado grau de liberdade. Domínio de f = IR
RESOLUÇÃO DO EXERCÍCIO:
Foram criadas duas variáveis, designadas por valores_x1 e valores_x2, no software SPSS/PASW.
Uma vez que as variáveis assumem valores superiores a zero, o software não é aconselhado visto não
ser uma folha de cálculo, pelo que os valores devem ser obtidos no Excel e de seguida copiados para
SPSS/PASW.
A distribuição possui 2 parâmetros (gl1, gl2 > 0) denominados graus de liberdade. Domínio de f = IR .
RESOLUÇÃO DO EXERCÍCIO:
Foram criadas duas variáveis, designadas por valores_m1 e valores_m2, no software SPSS/PASW.
Uma vez que as variáveis assumem valores superiores ou iguais a zero, o software não é aconselhado
visto não ser uma folha de cálculo, pelo que os valores foram obtidos no Excel e de seguida copiados
para o SPSS/PASW.
NOTA: A distribuição densidade f(x) é assimétrica e os aspectos da função densidade são variados.
1
NOTA: Fgl1, gl 2 p
Fgl 2, gl1 1 p