Você está na página 1de 53

Breve Manual do SPSS / PASW 18.

0
Objectivo: auxiliar os alunos da ESAC, inscritos na unidade
curricular de Estatística (curso de LBIO), na utilização do SPSS
nas aulas práticas.

ESCOLA SUPERIOR AGRÁRIA DE COIMBRA


Elaborado por Veneranda Inês Batalha

INSTALAÇÃO DO PROGRAMA
O aluno deverá dirigir-se aos Serviços Informáticos da ESAC
Conteúdo

1. JANELAS MAIS UTILIZADAS .............................................................................................................................. 3


2. VARIÁVEIS ESTATÍSTICAS E ESCALAS DE MEDIDA ....................................................................................... 6
3. ABERTURA DE UM FICHEIRO DE DADOS (capítulo 3 do manual, pág. 11)........................................................ 8
4. INTRODUÇÃO DE DADOS MANUAL (capítulo ? do manual, pág. ?) ............................................................... 15
5. ESTATÍSTICA DESCRITIVA (estatísticas e gráficos) .......................................................................................... 18
TABELA DE FREQUÊNCIAS para as variáveis Maternidade, Cor e Sexo .................................................... 18
CRUZAMENTO DE VARIÁVEIS.................................................................................................................... 19
QUARTIS da variável Peso ......................................................................................................................... 20
PERCENTIS DE DIFERENTES ORDENS (0,1 0,25 0,5 0,8 0,9) para o peso ........................................... 21
MÉDIA, MEDIANA, MODA, SOMA, DESVIO-PADRÃO, VARIÂNCIA, AMPLITUDE, MÍNIMO E MÁXIMO da
variável peso ............................................................................................................................................. 21
GRÁFICO DE BARRAS, para as variáveis qualitativas discretas .................................................................. 22
GRÁFICO CIRCULAR, para a variável cor da primeira roupa do recém-nascido ........................................ 22
GRÁFICO DE BOX-PLOT, para a variável peso (apenas uma variável) ....................................................... 23
ALGUMAS CONSIDERAÇÕES ACERCA DO DIAGRAMA DE EXTREMOS E QUARTIS – “Boxplot” (adequado
para dados quantitativos, discretos ou contínuos) ................................................................................... 25
GRÁFICO DE BOX-PLOT E ESTATÍSTICA DESCRITIVA, para a variável peso relativamente ao sexo do
recém-nascido .......................................................................................................................................... 26
CONSTRUÇÃO DAS CLASSES [1, 2[ [2, 3[ [3, 4[ [4, 5], para a variável peso .......................................... 29
HISTOGRAMA, para a variável Classes_Peso (peso agrupada em 4 classes) ............................................. 32
DADOS AGRUPADOS EM CATEGORIAS ..................................................................................................... 35
6. CÁLCULO DE PROBABILIDADES DE DISTRIBUIÇÕES DISCRETAS E CONTÍNUAS .............................................. 38
Distribuição Binomial ................................................................................................................................ 39
Distribuição de Poisson............................................................................................................................. 40
Distribuição Normal .................................................................................................................................. 42
Distribuição t-Student ............................................................................................................................. 49
Distribuição Qui-quadrado ...................................................................................................................... 50
Distribuição F-Snedecor .......................................................................................................................... 51
7. TESTES DE HIPÓTESES E INTERVALOS DE CONFIANÇA de um parâmetro populacional ................................ 53
SPSS é a sigla do software intitulado “Statístical Package for the Social Sciences”. Entre 2009 e 2010
o SPSS passou a ser chamado de PASW (“Predictive Analytics SoftWare”). O manual integral deste
programa, em inglês, pode ser encontrado de duas formas:

 http://support.spss.com/ProductsExt/Statistics/Documentation/18/client/User%20Manuals/Engl
ish/PASW%20Statistics%2018%20Core%20System%20User's%20Guide.pdf
 Aceder à sua pasta c:\Programas\SPSSInc\PASWStatistics18\Manuals\PASW Statistics 18
Core System User's Guide

1. JANELAS MAIS UTILIZADAS

Ao iniciar o PASW Statistics 18.0 surge uma janela introdutória, onde poderá escolher uma opção.
Caso queira colocar os seus dados, seleccione a opção Type in data; para abrir ficheiros de dados já
existentes, seleccione a opção Open an existing data source; se é a primeira vez que utiliza o PASW
então seleccione a opção Run the Tutorial para uma introdução rápida ao SPSS e às suas
potencialidades.

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 3
Na opção Open an existing data source poderá aceder aos ficheiros de exemplo de que o PASW
dispõe, seleccionando More Files… e escolher c:\Programas\SPSSInc\PASWStatistics18\Samples\English\.

Janela de edição de dados e variáveis <Data Editor Window> (possui duas folhas, em baixo, à
esquerda da janela, onde apenas uma delas poderá estar activa) As duas janelas seguintes são
representativas desta situação.

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 4
A imagem seguinte, é referente à janela de Output <Statistics Viewer Window>, que apresenta os
resultados de estatísticas, testes, etc

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 5
2. VARIÁVEIS ESTATÍSTICAS E ESCALAS DE MEDIDA

Variável é toda a característica que, observada numa pessoa, animal, objecto, pode variar de um
indivíduo para outro. A idade de uma pessoa e seus hábitos quanto ao fumo, o sexo de um roedor
colectado na natureza, a estatura em jogadores de basquetebol, a cor das sementes de uma espiga de
milho, a quantidade de ácido acetilsalicílico em comprimidos com o nome comercial NC, o nível de
hemoglobina no sangue constituem exemplos de variáveis.

É importante identificar que tipo de variável está sendo estudado, uma vez que são recomendados
procedimentos estatísticos diferentes em cada situação. A principal divisão ocorre entre variáveis
quantitativas e qualitativas.

Variáveis quantitativas são aquelas cujos dados são valores numéricos que expressam quantidades,
como a estatura das pessoas ou o número de sementes íntegras numa vagem. Estas podem ainda ser
classificadas em:

Variáveis quantitativas discretas são aquelas em que os dados somente podem apresentar determinados
valores, em geral, números inteiros.

Variáveis quantitativas contínuas são aquelas cujos dados podem apresentar qualquer valor dentro de
um intervalo de variação possível.

Variáveis qualitativas ou categóricas são as que fornecem dados de natureza não-numérica, como a cor
de uma flor, a raça de uma ovelha ou o sexo de um indivíduo. Mesmo que os dados possam ser
codificados numericamente (masculino=1, feminino=2), os números aqui são apenas símbolos sem
valor quantitativo. As diferentes categorias são mutuamente exclusivas. Estas variáveis podem ser
medidas numa escala:

Escala nominal: Como o nome implica, nesse nível diferencia-se uma categoria da outra somente por
meio da denominação da categoria, não sendo possível qualquer tipo de ordenação.

Escala ordinal: É possível indicar diferentes categorias mas também reconhecer graus de intensidade
entre elas, o que possibilita uma ordenação (que seja inerente à variável e não imposta por
conveniência) das diferentes categorias.

Na página seguinte é apresentado um esquema resumo, apresentando exemplos para cada uma das
classificações.

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 6
Exemplos: número de filhos nascidos vivos, número de obras catalogadas,
número an ual de baixas hospitalares de uma pessoa.

discreta

Quantitativa Exemplos: a pluviosidade diária (mm) registada no quarto trimestre de 2007, o


ordenado de um trabalhador rural e o consumo eléctrico mensal de uma família
de quatro pessoas ao longo de 2008.
contínua

Variável Exemplos: sexo de um coelho (masculino, feminino), classificação de um


paciente psiquiátrico (psicótico, neurótico) e o grupo sanguíneo de uma
medida numa escala pessoa (A, B, AB e O).
nominal As variáveis nominais podem ainda ser divididas em binárias ou dicotómicas,
quando compostas por duas categorias e polinominais, quando apresentam
mais de duas categorias possíveis.
Qualitativa

medida numa escala Exemplos: grau de dor ( “nenhuma” até “dor insuportável”), o
ordinal comportamento de um animal (“submisso”, “neutro” ou “agressivo”), a cor
de determinada flor (desde “branca” até “vermelho”, passando por diversas
tonalidades de “rosa”) e as habilitações literárias de um indivíduo (9º ano, 12º
ano, licenciatura, pós-graduação, mestrado e doutoramento).

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 7
No quadro seguinte encontra-se a simbologia utilizada no PASW, ou seja, os símbolos utilizados
consoante os diferentes níveis de mensuração e tipo de valores, aquando da introdução de dados no
software.

Fonte: Manual do programa, página 6

3. ABERTURA DE UM FICHEIRO DE DADOS (capítulo 3 do manual, pág. 11)

Ao escolher na barra de menu de qualquer janela do SPSS, File OpenData, surge a janela

O SPSS permite abrir ficheiros oriundos de diferentes programas: obviamente do SPSS (*.sav), Systat
(*.sys), Excel (*.xls, *.xlsm, *.xlsx), Lotus (*.w*), SAS (*.xpt), Stata (*.dta), Text (*.txt, *.dat) e
outros.

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 8
Muitas vezes os dados encontram-se numa folha do Excel e é inconcebível voltar a introduzir os dados
novamente. Por essa razão é possível abrir um ficheiro do Excel 95 ou uma versão superior, sendo
necessário ter alguns cuidados:

 A cada coluna deve corresponder uma variável e à primeira linha o nome de cada variável;
 Em cada coluna os valores deverão ser sempre do mesmo tipo: apenas datas, apenas números,
apenas texto, etc;
 Se numa coluna de valores numéricos existirem células em branco, estes serão convertidos no
sistema de valores omissos do SPSS;
 Se os nomes das variáveis não seguirem as especificações do SPSS, ser-lhes-ão atribuídos
outros nomes.

Exemplo para o Excel - considere a folha de cálculo seguinte, criada no Excel:

A B C D E F G
1
2
3 Nome_aluno Dat_Insc Teste 1 Teste 2 Teste 3 Status
4 Nuno 09-01-2009 1 4,5 2,5 Reprovado
5 Patrícia 20-09-2009 3,5 7 8 Reprovado
6 Marco 12-10-2009 12 13 14 Aprovado
7 Manuel 23-10-2009 5 6 7 Reprovado
8 Elisa 14-10-2009 8 12 14 Aprovado
9 Inês 25-10-2009 7 7 7 Reprovado
10 Sara 06-10-2009 4 4 Reprovado
11 Carla 17-09-2009 11 10 9 Aprovado
12 André 18-10-2009 11 11 Reprovado
13

Para conseguir ler estes dados no Excel, proceda de acordo com o que foi dito anteriormente.

No SPSS escolher menu File OpenData

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 9
O SPSS detecta dados no intervalo B3:G12 da folha1 do ficheiro analisado. Podemos concordar ou
definir um novo intervalo de dados. Caso exista dados noutras folhas, elas seriam identificadas e o
utilizador apenas teria de escolher a folha e o range pretendidos.

E assim os dados passam a poder ser visualizados no SPSS (ver imagem em baixo). Por vezes na
Variable View, nem tudo está como se pretende, nomeadamente nas colunas Label e Measure, pelo
que convém verificar e/ou emendar.

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 10
Exemplo de um ficheiro de texto:

Coloque os dados no Bloco de Notas do


Windows, utilizando apenas o Tab para separar os
valores e Enter para mudar de linha. No SPSS
escolher menu File OpenData.

De seguida basta seguir os 6 passos seguintes:

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 11
Elaborado por Veneranda Inês Batalha
Versão de 7 de Novembro de 2010 Página 12
Elaborado por Veneranda Inês Batalha
Versão de 7 de Novembro de 2010 Página 13
E finalmente podemos observar os dados no SPSS…

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 14
4. INTRODUÇÃO DE DADOS MANUAL (capítulo ? do manual, pág. ?)

Ao iniciar o PASW Statistics 18.0 surge uma janela introdutória, seleccione a opção Type in data e
surge a Janela de edição de dados e variáveis <Data Editor Window>.

Deve começar por definir as variáveis primeiro e só depois digitar os dados.

Nota importante: Ao definir uma variável como alfanumérica (opção String no menu Type) não
poderá depois efectuar o método estatístico apropriado para comparar, por exemplo, se o peso do
recém-nascido é idêntico nas 3 maternidades.

De modo a esclarecer algumas questões, comece por introduzir quatro variáveis:

Nome: maternidade
Tipo: numérico
Nome completo (Label): nome da maternidade
Codificação dos Value Labels: (1, Estefânia) (2, Alfredo da Costa) (3, Amadora-Sintra)

Nome: cor
Tipo: String ou alfanumérica
Nome completo: cor da primeira roupa do recém-nascido
Codificação dos Value Labels: (1, rosa) (2, azul) (3, amarelo) (4, branco)
Valores em falta (missing): NR

Nome: peso
Tipo: numérico, com 3 casas decimais
Nome completo: peso do recém-nascido, em Kg
Valores em falta: 999

Nome: sexo
Tipo: numérico
Nome completo: sexo do recém-nascido
Codificação dos Value Labels: (1, M) (2, F)

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 15
Após a definição das variáveis, pode agora introduzir os dados manualmente. Caso tenha os dados
dispersos numa folha do Excel, pode utilizar as opções de copiar e colar.

Caso queira visualizar os dados originais, ou seja, prescindindo da codificação de valores, basta
escolher menu View Value Labels

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 16
Elaborado por Veneranda Inês Batalha
Versão de 7 de Novembro de 2010 Página 17
5. ESTATÍSTICA DESCRITIVA (estatísticas e gráficos)

Para explicitar esta matéria, irei utilizar o exemplo dos recém-nascidos na maternidade, que passarei a
designar por exemplo 1 (dados criados no ponto anterior 4).

TABELA DE FREQUÊNCIAS para as variáveis Maternidade, Cor e Sexo

Escolher menu Analyse Descriptive Statistics Frequencies, obtendo-se a seguinte imagem.


Deverá escolher apenas “Display frequency tables”, ignorando as restantes opções.

O “output” obtido pelo PASW poderá ser copiado e posteriormente colado num documento Word
(utilizar o colar especial como texto formatado (RTF), permitindo ainda assim alterar a formatação).

Statistics

Cor da primeira roupa do


Nome da maternidade Sexo do recém-nascido recém-nascido

N Valid 16 16 14

Missing 0 0 2

Frequency Table
Nome da maternidade
Cumulative
Frequency Percent Valid Percent Percent
Valid Estefânia 4 25,0 25,0 25,0
Alfredo da Costa 6 37,5 37,5 62,5
Amadora-Sintra 6 37,5 37,5 100,0
Total 16 100,0 100,0

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 18
Sexo do recém-nascido
Cumulative
Frequency Percent Valid Percent Percent
Valid M 7 43,8 43,8 43,8
F 9 56,3 56,3 100,0
Total 16 100,0 100,0

Cor da primeira roupa do recém-nascido


Cumulative
Frequency Percent Valid Percent Percent
Valid Rosa 4 25,0 28,6 28,6
Azul 3 18,8 21,4 50,0
Amarelo 4 25,0 28,6 78,6
Branco 3 18,8 21,4 100,0
Total 14 87,5 100,0
Missing NR 2 12,5
Total 16 100,0

CRUZAMENTO DE VARIÁVEIS

Escolher menu Analyse Descriptive Statistics Crosstabs; Na janela que surge deverá escolher o
botão Cells e seleccionar a opção Counts Observed

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 19
Case Processing Summary
Cases
Valid Missing Total
N Percent N Percent N Percent
Nome da maternidade * Cor da 14 87,5% 2 12,5% 16 100,0%
primeira roupa do recém-nascido
* Sexo do recém-nascido

Nome da maternidade * Cor da primeira roupa do recém-nascido * Sexo do recém-nascido Crosstabulation


Count
Sexo do recém-nascido Cor da primeira roupa do recém-nascido
rosa azul amarelo branco Total
M Nome da maternidade Estefânia 1 1 0 2
Amadora-Sintra 0 1 2 3
Total 1 2 2 5
F Nome da maternidade Estefânia 0 0 1 1 2
Alfredo da Costa 2 1 1 2 6
Amadora-Sintra 1 0 0 0 1
Total 3 1 2 3 9

QUARTIS da variável Peso

Escolher menu Analyse Descriptive Statistics Frequencies; Na janela que surge deverá escolher
o botão Statistics e seleccionar a opção “Quartiles”, ignorando as restantes opções.

Statistics
Peso do recém-nascido, em Kg
N Valid 14
Missing 2
Percentiles 25 2,68750
50 3,02500
75 3,35000

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 20
PERCENTIS DE DIFERENTES ORDENS (0,1 0,25 0,5 0,8 0,9) para o peso

Escolher menu Analyse Descriptive Statistics Frequencies; Na janela que surge deverá escolher
o botão Statistics e seleccionar a opção “Percentile(s)”, ignorando as restantes opções

Statistics
Peso do recém-nascido, em Kg

N Valid 14

Missing 2
Percentiles 10 2,07500

25 2,68750

50 3,02500

80 3,50000

90 4,00000

MÉDIA, MEDIANA, MODA, SOMA, DESVIO-PADRÃO, VARIÂNCIA, AMPLITUDE,


MÍNIMO E MÁXIMO da variável peso

Escolher menu Analyse Descriptive Statistics Frequencies; Na janela que surge deverá escolher
o botão Statistics e seleccionar as opções assinaladas na imagem abaixo, ignorando as restantes
opções.
Statistics
Peso do recém-nascido, em Kg

N Valid 14

Missing 2
Mean 3,01786
Median 3,02500
Mode 3,100
Std. Deviation ,589852
Variance ,348
Range 2,150
Minimum 1,950
Maximum 4,100
Sum 42,250

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 21
GRÁFICO DE BARRAS, para as variáveis qualitativas discretas

Escolher menu Analyse Descriptive Statistics Frequencies; Na janela que surge deverá escolher
o botão Graphs e seleccionar a opção Bar Chart.

Statistics

Cor da
primeira roupa Sexo do
Nome da do recém- recém-
maternidade nascido nascido
N Valid 16 14 16
Missing 0 2 0

GRÁFICO CIRCULAR, para a variável cor da primeira roupa do recém-nascido

Escolher menu Analyse Descriptive


Statistics Frequencies; Na janela que surge
deverá escolher o botão Graphs e seleccionar
a opção Pie Charts.

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 22
GRÁFICO DE BOX-PLOT, para a variável peso (apenas uma variável)

Escolher menu Graphs Graph Builder Gallery, Boxplot

Arraste agora o tipo de boxplot que pretende da “ Gallery”, a variável pretendida e alguma opção que
pretenda do “ Basic Elements” (observe as setas na imagem seguinte).

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 23
Obteve-se o seguinte gráfico (diagrama de extremos e quartis ou “boxplot”:

Não foram detectados


“outliers”.

Informações necessárias para a


construção deste gráfico:
mínimo, 1º quartil, mediana, 3º
quartil e máximo.

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 24
ALGUMAS CONSIDERAÇÕES ACERCA DO DIAGRAMA DE EXTREMOS E QUARTIS –
“Boxplot” (adequado para dados quantitativos, discretos ou contínuos)

É um tipo de representação gráfica, em que se realçam algumas características da amostra. O conjunto


dos valores da amostra compreendidos entre o 1º e o 3º quartis, que vamos representar por Q 1/4 e Q3/4 é
representado por um rectângulo (caixa) com a mediana (med) indicada por uma barra. A largura do
rectângulo não dá qualquer informação, pelo que pode ser qualquer. Consideram-se seguidamente duas
linhas que unem os meios dos lados do rectângulo com os extremos da amostra. Para obter esta
representação, começa por se recolher da amostra, informação sobre 5 números, que são: os 2
extremos (mínimo e máximo, caso não sejam considerados “outliers” ou candidatos a “outliers”), a
mediana e o 1º e 3º quartis. A representação do diagrama de extremos e quartis tem o seguinte aspecto:

O extremo inferior é o mínimo da amostra, enquanto que o extremo superior é o máximo da amostra.

Qual a importância deste tipo de representação? Realça informação importante sobre os dados,
como sejam o centro da amostra (mediana), variabilidade e simetria. Repare-se que da forma como o
diagrama se constrói, se pode retirar imediatamente a seguinte informação:

Como é que se pode reconhecer a simetria ou o enviesamento dos dados, a partir do diagrama de
extremos e quartis? Existem fundamentalmente três características, que nos dão ideia da simetria ou
enviesamento e da sua maior ou menor concentração: a distância entre a linha indicadora da mediana e
os lados do rectângulo, o comprimento das linhas que saem dos lados dos rectângulos e o comprimento
da caixa.

Regras para a classificação dos “outliers” (observação “suspeita”, pois afasta-se do padrão geral dos
dados).

“Outliers” – caso ultrapasse um dos quartis em 1,5 vezes a amplitude inter-quartil (AIQ)
“Outliers” moderados – caso se situe entre 1,5 e 3 vezes a AIQ, a partir de um dos quartis
“Outliers” severos ou valores extremos – caso ultrapasse um dos quartis em 3 vezes a AIQ

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 25
GRÁFICO DE BOX-PLOT E ESTATÍSTICA DESCRITIVA, para a variável peso
relativamente ao sexo do recém-nascido

Uma forma de obter o que é pedido é escolher o menu Analyse Descriptive StatisticsExplore
e siga as indicações das janelas seguintes.

Após as opções anteriores, os resultados foram os seguintes:

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 26
Case Processing Summary
Sexo do recém- Cases
nascido Valid Missing Total
N Percent N Percent N Percent
Peso do recém- M 6 85,7% 1 14,3% 7 100,0%
nascido, em Kg F 8 88,9% 1 11,1% 9 100,0%

Descriptives
Sexo do recém-nascido Statistic Std. Error
Peso do recém- M Mean 2,90000 ,199583
nascido, em Kg 95% Confidence Interval for Mean Lower Bound 2,38696
Upper Bound 3,41304
5% Trimmed Mean 2,93056
Median 3,02500
Variance ,239
Std. Deviation ,488876
Minimum 1,950
Maximum 3,300
Range 1,350
Interquartile Range ,563
Skewness -1,947 ,845
Kurtosis 4,164 1,741
F Mean 3,10625 ,238379
95% Confidence Interval for Mean Lower Bound 2,54257
Upper Bound 3,66993
5% Trimmed Mean 3,10139
Median 2,95000
Variance ,455
Std. Deviation ,674239
Minimum 2,200
Maximum 4,100
Range 1,900
Interquartile Range 1,237
Skewness ,312 ,752
Kurtosis -1,199 1,481

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 27
É detectada a presença
de um “outlier”
severo ou valor
extremo (o indivíduo 1
que se encontra na
tabela dos dados).

Deverá ser
considerada a sua
eliminação dos dados.

Outra forma de obter o boxplot, é escolher o menu Graphs Graph Builder Gallery, Boxplot

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 28
CONSTRUÇÃO DAS CLASSES [1, 2[ [2, 3[ [3, 4[ [4, 5], para a variável peso

(capítulo 7 do manual, Visual Banning, PÁGINA 116)

O “Visual Binning” foi criado para assistir no processo de criação de novas variáveis baseado no
agrupamento de dados contínuos, num número limite de categorias distintas. O “Visual Binning” pode
ser usado para:

 Construir classes de uma variável contínua; as classes serão encaradas como variáveis
categóricas;
 Transformar uma variável medida numa escala ordinal, com um grande número de valores
distintos, numa nova variável com menos valores distintos (novas categorias).

1º PASSO - escolher o menu Transform Visual Binning e seleccionar a variável que pretende
agrupar em “bins” (classes ou novas categorias). Seleccione o botão “Continue”.

NOTA: a lista das variáveis contém apenas as variáveis numéricas medidas numa escala ordinal
e as variáveis contínuas.

2º PASSO – na próxima janela escolher o nome da “Binned Variable”, alterar o Label se assim
entender, inserir na grelha os valores de “cutpoints” 2, 3, 4 (inseridos abaixo na célula HIGH, um a
um, seguido de ENTER), seleccionar “Excluded (<) Upper Endpoints” de modo a que o intervalo da
classe esteja aberto à direita ( [ , [ ) e finalmente carregar na opção “Make Labels”.

Seleccionar OK.

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 29
Na janela de Edição de dados, aparecerá a nova variável Classes_Peso, onde indica o nº
da classe ou a classe a que pertence o valor da variável Peso, para cada um dos 16
indíviduos.

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 30
OU

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 31
HISTOGRAMA, para a variável Classes_Peso (peso agrupada em 4 classes)

Escolher o menu Graphs Graph Builder Gallery, Histogram

De seguida apresento o histograma que resultou da construção classes utilizando o “Visual Binning”.

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 32
Uma vez que o PASW considera os “bins” como categorias, o histograma mais parece um gráfico de
barras! Por essa razão devemos editar o gráfico (duplo clique em cima do gráfico), novo duplo clique
em cima de uma das barras e no “Bar Optins” aumentar o espaçamento das barras para 100, de modo
a que estas fiquem adjacentes, indiciando a continuidade da variável peso de um recém-nascido.

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 33
Escolher menu Analyse Descriptive Statistics Frequencies; Na janela que surge deverá escolher
apenas o botão Graphs e seleccionar a opção Histogram.

Obviamente este histograma utiliza outras classes (o utilizador não sabe especificamente quais as
classes que foram construídas).

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 34
DADOS AGRUPADOS EM CATEGORIAS

Considere o seguinte exercício:


Tendo como objectivo analisar o conhecimento dos alunos da Escola Superior Agrária de Coimbra acerca do
projecto EMAS@SCHOOL, foram inquiridos 400 grupos de cinco alunos desta escola. Registado o número
de alunos por grupo que tinham conhecimento do projecto, obteve-se os seguintes resultados:

N.º de alunos no grupo que tinham conhecimento do projecto 0 1 2 3 4 5


N.º de grupos 16 32 89 137 98 28

Construa a tabela de frequências;


Calcule a média, moda, o desvio padrão e a mediana;
Esboce os diagramas de barras e de extremos e quartis.

RESOLUÇÃO DO EXERCÍCIO:
Inserir no Editor de dados e variáveis a seguinte informação:

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 35
É chegada a altura de transmitir ao PASW que existe uma variável (nº alunos) que está a ser
ponderada, pesada por uma outra variável que representa uma frequência.

Escolher menu Data Weight Cases onde surgirá a janela abaixo; será necessário seleccionar qual a
variável que representa a frequência.

Escolher menu Analyse Descriptive Statistics Frequencies e seleccionar tudo o que foi pedido
no exercício, utilizando as opções “Statistics”, “Charts” , para além da tabela de frequências que já se
encontra escolhida por defeito. Clicar OK

Os resultados que apresento a seguir foram colocados na janela de” Output”.

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 36
Statistics
N_alunos N_alunos
N Valid 400 Cumulative
Missing 0 Frequency Percent Valid Percent Percent
Mean 2,88 Valid 0 16 4,0 4,0 4,0
Median 3,00 1 32 8,0 8,0 12,0
Mode 3 2 89 22,3 22,3 34,3
Std. Deviation 1,190 3 137 34,3 34,3 68,5
Variance 1,417 4 98 24,5 24,5 93,0
Range 5 5 28 7,0 7,0 100,0
Minimum 0 Total 400 100,0 100,0
Maximum 5
Sum 1153
Percentiles 25 2,00
50 3,00
75 4,00

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 37
6. CÁLCULO DE PROBABILIDADES DE DISTRIBUIÇÕES DISCRETAS E
CONTÍNUAS

Escolher o menu Transform Compute Variable… onde surgirá a janela abaixo:

É obrigatório indicar a variável onde irão ser colocados os cálculos a realizar (Target Variable), a
expressão numérica que pretende realizar (Numeric Expression), podendo utilizar as funções
disponíveis nesta janela (inclui uma breve explicação acerca da função).

Para calcular probabilidades de uma distribuição discreta, poderá utilizar a função massa de
probabilidade f  x  P  X  x ou a função de distribuição F  x  P  X  x utilizando,

respectivamente, o grupo de funções intitulado “PDF & Noncentral PDF” e “CDF & Noncentral
CDF”. O grupo “PDF & Noncentral PDF” contém as funções de distribuição pontuais f(x), referindo-
se às funções de massa de probabilidade (no caso discreto) e densidade (no caso contínuo), para
distribuições simétricas ou assimétricas. O grupo “CDF & Noncentral CDF” contém as funções de
distribuição cumulativas F(x), para distribuições simétricas ou assimétricas.

O grupo “Inverse DF” contém as funções inversas de distribuições contínuas que permitem obter
quantis de ordem p.

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 38
Distribuição Binomial

Considere o seguinte exercício:

Supondo que a variável aleatória X  Binomial  n  8, p  0.4  , obtenha os valores de f  x  , F  x 

e os respectivos gráficos. Calcule as probabilidades P  X  2  e P  2  X  6  .

RESOLUÇÃO DO EXERCÍCIO:

Uma vez que esta variável aleatória assume apenas os valores 0, 1, 2, 3,…, 8 é necessário criar uma
variável (designada por valores_x) no SPSS/PASW que contenha estes valores.

Utilizar, por duas vezes, a opção Computer Variable, escolhendo:


Target Variable: fmp_f (o utilizador pode escolher outro nome)
Numeric expression: =PDF.Binom(valores_x,8,0.4)
OK

Target Variable: fdist_F (o utilizador pode escolher outro nome)


Numeric expression: =CDF.Binom(valores_x,8,0.4)
OK

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 39
Função massa de probabilidade da Binomial (8;0,4) Função distribuição da Binomial (8;0,4)

Agora já pode calcular variadas probabilidades:


P  X  2  f  0   f 1  f  2   0, 0168  0, 0896  0, 2090  0,3154
OU P  X  2   F  2   0,3154

P  2  X  6   f  3  f  4   f  5  0, 2787  0, 2322  0,1239  0, 6348


OU P  2  X  6   P  2  X  5   F 5   F  2   0,9502  0,3154  0,6348

Distribuição de Poisson

Considere o seguinte exercício:

Supondo que a variável aleatória X  Poisson    5 , obtenha os valores de f  x  , F  x  e os

respectivos gráficos. Calcule as probabilidades P  X  3 e P 10  X  12  .

RESOLUÇÃO DO EXERCÍCIO:

Uma vez que esta variável aleatória assume os valores 0, 1, 2, 3,…,  é necessário criar uma
variável (designada por valores_x) no SPSS/PASW que contenha alguns destes valores, uma vez que
seria difícil ir até  …

Utilizar, por duas vezes, a opção Computer Variable, escolhendo:


Target Variable: fmp_f (o utilizador pode escolher outro nome)
Numeric expression: =PDF.Poisson(valores_x,5)
OK

Target Variable: fdist_F (o utilizador pode escolher outro nome)


Numeric expression: =CDF.Poisson(valores_x,5)
OK

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 40
Função massa de probabilidade da Poisson(5) Função distribuição da Poisson(5)

P  X  3  1  P  X  3  1  f  0   f 1  f  2   f  3  1  0, 0067  0, 0337  0, 0842  0,1404  0, 735


OU P  X  3  1  P  X  3  1  F 3  1  0, 2650  0,7350

P 10  X  12   f 10   f 11  0, 0181  0, 0082  0, 0263


OU P 10  X  12   P 9  X  11  F 11  F 9   0,9945  0,9682  0,0263

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 41
Distribuição Normal

Uma variável aleatória contínua X segue a lei Normal, X  N   ,   , se a função densidade de

 2
1  x
1 
probabilidade for dada por f ( x)  e 2 
, x,   IR,   0 em que  e 
 2
representam, respectivamente, a média (localiza o centro da distribuição) e o desvio padrão da
população (mede a variabilidade de X em torno da média ).

f(x)


: média
: desvio padrão

 x

Figura – Curva normal típica ( x,   IR,   0 )

A distribuição normal de média 0 e desvio padrão 1 é chamada de distribuição Normal padrão, e


costuma ser denotada por Z.

A estandardização é a operação que transforma uma Normal ( , ) numa Normal (=0;  =1), ou
X 
seja, X  N (  ,  )  Z   N (0,1) .

A probabilidade de uma variável contínua assumir valores entre a e b é igual à área sob a curva entre
esses dois pontos. A determinação destas probabilidades é realizada matematicamente através da
integração da função de densidade de probabilidade (f.d.p.) entre os pontos a e b de interesse, ou seja,

 1  x 
2
b b
e 2    dx . No caso da Normal, o integral não pode ser
1
P  a  X  b    f  x  dx  
a a  2

calculado exactamente e a probabilidade entre dois pontos só pode ser obtida aproximadamente, por
métodos numéricos.

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 42
Considere o seguinte exercício:

Supondo que a variável aleatória Z  Normal    0 ;   1 e X  Normal    3 ;   1,5

a) Obtenha os gráficos de f  x  e F  x  . Quais as propriedades que observa?

b) Comprove as percentagens indicadas na figura abaixo, através de probabilidades adequadas;


99.73 %

95.46 %

68.26 %

-3 -  + +3


-2 +2

c) Calcule as probabilidades P  Z  0  , P  X  3 e P  Z  2,1 . O que pode concluir?

d) Determine os seguintes quantis da v.a. X  Normal    3 ;   1,5 : primeiro quartil, terceiro

decil e nonagésimo oitavo percentil.

RESOLUÇÃO DO EXERCÍCIO:

Alínea a)

Foram criadas duas variáveis, designadas por valores_z e valores_x, no software SPSS/PASW. Uma
vez que as variáveis assumem valores reais, o software não é aconselhado visto não ser uma folha de
cálculo, pelo que os valores foram obtidos no Excel e de seguida copiados para o SPSS/PASW.

Utilizar, por quatro vezes, a opção Computer Variable, escolhendo:


Target Variable: fdp_fz (o utilizador pode escolher outro nome)
Numeric expression: =PDF.Normal(valores_z, 0 , 1) OK

Target Variable: fdist_Fz (o utilizador pode escolher outro nome)


Numeric expression: =CDF. Normal (valores_z, 0 , 1) OK

Target Variable: fdp_fx (o utilizador pode escolher outro nome)


Numeric expression: =PDF. Normal (valores_x, -3 , 1.5) OK

Target Variable: fdist_Fz (o utilizador pode escolher outro nome)


Numeric expression: =CDF. Normal (valores_x, -3 , 1.5) OK

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 43
Elaborado por Veneranda Inês Batalha
Versão de 7 de Novembro de 2010 Página 44
Uma vez que se tratam de funções contínuas, no Chart Builder deverá escolhar um gráfico de linhas na Gallery e arrasta-lo para o Chart
Preview e na janela Element Properties escolher a interpolação do tipo Spline e interpolar para valores em falta.

Observação: uma vez que para os valores em falta é seleccionada a interpolação, os valores_z já podem ser escassos (e assim não
precisam de ser gerados no Excel); sugiro que coloquem no SPSS/PASW os valores_z -4, -3, -2, -1, 0, 1, 2, 3, 4 , obtenham f(z) e
façam o gráfico…muito semelhante e com menor esforço!

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 45
Alínea a) (continuação)

Curva da função densidade de probabilidade da Normal (0; 1) Curva da função densidade de probabilidade da Normal (-3; 1,5)

Propriedades da função densidade de probabilidade:


fica identificada pelos dois parâmetros: valor médio  e desvio-padrão ; tem a forma de sino; é simétrica em relação à recta de equação x = ; a área
compreendida entre a curva e o eixo XX é igual a 1 (propriedade da f.d.p); tem dois pontos de inflexão (mudança de concavidade) de abcissas - e +; a
média = moda = mediana = ;

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 46
Alínea a) (continuação)

Curva da função distribuição da Normal (0; 1) Curva da função distribuição da Normal (-3; -1,5)

Propriedades da função distribuição:


F ( x)  P( X  x) é uma função cumulativa não decrescente, contínua à direita e xlim

F x  0 e lim F  x   1 .
x

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 47
Alínea b)
P      Z       P  1  Z  1   F  1   F  1   CDF . Normal  1,0,1   CDF . Normal  1,0,1  
 0,8413  0,1587  0,6826  68, 26%
OU tendo em conta a simetria da dist. Normal
P  1  Z  1   2 P  0  Z  1   2  F  1   F  0    2  CDF . Normal  1,0,1   CDF . Normal  0,0,1   
 2  0,8413  0, 5   2  0,3413  0,6826  68, 26%

P    2  Z    2   P  2  Z  2   F  2   F  2   CDF . Normal  2,0,1   CDF . Normal  2,0,1  


 0,9772  0,0228  0,9544  95, 44%

P    3  Z    3   P  3  Z  3   F  3   F  3   CDF . Normal  3,0,1   CDF . Normal  3,0,1  


 0,9987  0,0013  0,9974  99,74%

Alínea c) Calcule as probabilidades P  Z  0  , P  X  3 e P  Z  2,1 . O que pode concluir?

Através da observação dos gráficos das f.d.p. f  z  e f  x , as probabilidades

P  Z  0   P  X  3  0,5 , pelo que correspondem a metade da área compreendida entre a curva da

f.d.p. e o eixo XX. A última probabilidade equivale a calcular a área de uma recta, logo
P  Z  2,1  0

OU P  Z  0  F  0  CDF . Normal  0,0,1  0,5

P  X  3  1  P  X  3  1  F  3  1  CDF . Normal  3, 3,1.5  1  0,5  0,5


OU atendendo à operação de estandardização/padronização
 3   3 
P  X  3  P  Z    P  Z  0   1  F  0   1  CDF . Normal  0, 0,1  1  0,5  0,5
 1,5 

P  Z  2,1  P  2, 0999  Z  2,1001  F  2,1001  F  2, 0999  


 CDF . Normal  2.1001, 0,1  CDF . Normal  2.0999, 0,1  0,9821  0,9821  0

Assim pode-se concluir que a mediana da v.a. Z  Normal    0 ;   1 é zero e a mediana da v.a.

X  Normal    3 ;   1,5 é igual a -3. Isto acontece devido ao facto de que na distribuição

Normal a média = mediana = . As probabilidades pontuais em distribuições. contínuas são sempre


nulas.
Alínea d) Determine os quantis: primeiro quartil, terceiro decil e nonagésimo oitavo percentil.
primeiro quartil = Q1  IDF . Normal  0.25, 3,1.5  4,01
4

terceiro decil = Q3  IDF . Normal  0.3, 3,1.5  3,79


10

nonagésimo oitavo percentil = Q98  IDF . Normal  0.98, 3,1.5  0,08


100

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 48
Distribuição t-Student

A distribuição possui um único parâmetro (g.l. > 0) denominado grau de liberdade. Domínio de f = IR

Considere o seguinte exercício:

Obtenha os gráficos da função densidade de Y  t gl 3 e de G  t200 . Determine o 15º percentil, a

mediana e o octogésimo quinto percentil da v.a. Y.

RESOLUÇÃO DO EXERCÍCIO:
Foram criadas duas variáveis, designadas por valores_y e valores_g, no software SPSS/PASW. Uma
vez que as variáveis assumem valores reais, o software não é aconselhado visto não ser uma folha de
cálculo, pelo que os valores foram obtidos no Excel e de seguida copiados para o SPSS/PASW.

Utilizar, por duas vezes, a opção Computer Variable, escolhendo:


Target Variable: fdp_fy Numeric expression: =PDF.T(valores_y, 3) OK

Target Variable: fdp_fg Numeric expression: =PDF.T(valores_g, 200) OK

Curva da função densidade t3 Curva da função densidade t200

NOTA: Quando o nº. de graus de liberdade é elevado, a f.d.p. da t-Student aproxima-se da N(0,1).

Determinação dos quantis t gl  p  :

15º percentil da t3 = t3  0,15  IDF . T  0.15,3  1, 25

mediana da t3 = t3  0,5  IDF. T  0.5,3  0  tal como se pode observar numa das f.d.p.
85º percentil da t3 = t3  0,85  IDF . T  0.85,3  1, 25  simetrico do decimo quinto percentil

NOTA: numa distribuição simétrica em torno de zero, Qp  Q1 p

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 49
Distribuição Qui-quadrado

A distribuição possui um único parâmetro (g.l. > 0) denominado grau de liberdade. Domínio de f = IR 

Considere o seguinte exercício:

Obtenha os gráficos da função densidade de X 1   gl


2
1 e de X 2   gl
2
5 . Determine o 15º

percentil, a mediana e o terceiro quartil da variável X2.

RESOLUÇÃO DO EXERCÍCIO:

Foram criadas duas variáveis, designadas por valores_x1 e valores_x2, no software SPSS/PASW.
Uma vez que as variáveis assumem valores superiores a zero, o software não é aconselhado visto não
ser uma folha de cálculo, pelo que os valores devem ser obtidos no Excel e de seguida copiados para
SPSS/PASW.

Utilizar, por duas vezes, a opção Computer Variable, escolhendo:


Target Variable: fdp_fx1 Numeric expression: =PDF.Chisq(valores_x1, 1) OK

Target Variable: fdp_fx2 Numeric expression: =PDF.Chisq(valores_x2, 5) OK

Curva da função densidade  gl2 1 Curva da função densidade  gl2 5

Determinação dos quantis  gl2  p  :

15º percentil do  52 = 52  0,15  IDF . Chisq  0.15,5  1,99


mediana do  52 = 52  0,5  IDF . Chisq  0.5,5  4,35
terceiro quartil do  52 = 52  0,75  IDF . Chisq  0.75,5  6,63

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 50
Distribuição F-Snedecor

A distribuição possui 2 parâmetros (gl1, gl2 > 0) denominados graus de liberdade. Domínio de f = IR  .

Considere o seguinte exercício:

Obtenha os gráficos da função densidade de M1  Fgl11; gl 240 , M 2  Fgl1100; gl 2100 e de

M 3  Fgl16; gl 228 . Determine o 1º quartil, a mediana e o 3º quartil da v.a. M3.

RESOLUÇÃO DO EXERCÍCIO:

Foram criadas duas variáveis, designadas por valores_m1 e valores_m2, no software SPSS/PASW.
Uma vez que as variáveis assumem valores superiores ou iguais a zero, o software não é aconselhado
visto não ser uma folha de cálculo, pelo que os valores foram obtidos no Excel e de seguida copiados
para o SPSS/PASW.

Utilizar, por três vezes, a opção Computer Variable, escolhendo:


Target Variable: fdp_fm1 Numeric expression: =PDF.F(valores_m1, 1, 40) OK

Target Variable: fdp_fm2 Numeric expression: =PDF.F(valores_m2, 100, 100) OK

Target Variable: fdp_fm3 Numeric expression: =PDF.F(valores_m3, 6, 28) OK

Curva da função densidade F1, 40 Curva da função densidade F100,100

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 51
Curva da função
densidade F6,28

NOTA: A distribuição densidade f(x) é assimétrica e os aspectos da função densidade são variados.

Determinação dos quantis Fgl1, gl 2  p  :

1º quartil de F6, 28 = F6, 28  0, 25  IDF . F  0.25,6, 28  0,57


mediana de F6, 28 = F6, 28  0,5  IDF . F  0.5,6, 28  0,91
3º quartil de F6, 28 = F6, 28  0,75  IDF . F  0.75,6, 28  1, 4

1
NOTA: Fgl1, gl 2  p  
Fgl 2, gl1 1  p 

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 52
7. TESTES DE HIPÓTESES E INTERVALOS DE CONFIANÇA de um parâmetro
populacional

Elaborado por Veneranda Inês Batalha


Versão de 7 de Novembro de 2010 Página 53

Você também pode gostar