Você está na página 1de 285

NÍVEIS DE MENSURAÇÃO

Discreto e Contínuo: são os dois níveis básicos de mensuração de variáveis em pesquisa quantitativa.

Variáveis Discretas: classificam pessoas, objetos ou eventos segundo o tipo ou qualidade de seus atributos.

Dicotômica: o tipo mais simples de variável discreta define o objeto apenas através da identificação da presença ou ausência de um atributo.

üMorto/Não Morto

üMasculino/Feminino

üBranco/Não Branco

da presença ou ausência de um atributo. ü   Morto/Não Morto ü   Masculino/Feminino ü  
da presença ou ausência de um atributo. ü   Morto/Não Morto ü   Masculino/Feminino ü  

Multicategórica: é o tipo de variável discreta em que a classificação ocorre em mais de duas categorias.

üPaís de origem

üOcupação

üEtnia

üReligião

Variáveis Discretas Ordenadas: quando os valores ou categorias podem ser dispostas em um ranking do menor para o maior ou vice- versa.

üAvaliação de governo (ótimo/bom/regular/ruim)

üSatisfação com a vida (muito satisfeito/pouco/nada)

ü   Avaliação de governo (ótimo/bom/regular/ruim) ü   Satisfação com a vida (muito satisfeito/pouco/nada)
ü   Avaliação de governo (ótimo/bom/regular/ruim) ü   Satisfação com a vida (muito satisfeito/pouco/nada)

Variáveis Discretas Não Ordenadas: quando as categorias não podem ser ordenadas.

üEtnia

üReligião

üSexo

üNação de origem

quando as categorias não podem ser ordenadas. ü   Etnia ü   Religião ü   Sexo
quando as categorias não podem ser ordenadas. ü   Etnia ü   Religião ü   Sexo

Variáveis Contínuas: são aquelas que classificam pessoas, objetos ou eventos de acordo com a magnitude ou quantidade de seus atributos.

Números fracionados: a principal diferença entre as variáveis discretas e contínuas é que as últimas podem ter seus valores fracionados numericamente.

Comuns nas Ciências Naturais: peso, altura, tempo, velocidade, etc.

Menos comuns nas Ciências Sociais: tais variáveis são menos comuns entre nós, porém são igualmente desejáveis, pois possuem uma precisão maior.

tais variáveis são menos comuns entre nós, porém são igualmente desejáveis, pois possuem uma precisão maior.
tais variáveis são menos comuns entre nós, porém são igualmente desejáveis, pois possuem uma precisão maior.

Abordagem clássica dos níveis de mensuração: outras abordagens estatísticas e das ciências sociais adotam uma abordagem mais clássica que divide os níveis de mensuração em üNominal: categorias não ordenadas üOrdinal: categorias ordenadas üIntervalar: quantidades ordenadas, sem fracionamento e zero verdadeiro üEscalas de Razão: quantidades fracionadas com zero verdadeiro Pouca relevância prática: a abordagem que seguimos aqui entende que essa divisão possui pouca relevância prática na escolha das técnicas estatísticas. Discretas e Contínuas: portanto, adotaremos aqui apenas a distinção entre variáveis discretas e contínuas, com suas subdivisões internas.

portanto, adotaremos aqui apenas a distinção entre variáveis discretas e contínuas, com suas subdivisões internas.
portanto, adotaremos aqui apenas a distinção entre variáveis discretas e contínuas, com suas subdivisões internas.

ANÁLISE DESCRITIVA

ANÁLISE DESCRITIVA
ANÁLISE DESCRITIVA

A BASE DE DADOS

Transposição: uma base de dados é construída pela transposição das informações obtidas com cada questionário (ou outro instrumento) para uma plataforma. Etapas Integradas: a estrutura da base de dados deve ser pensada em conjunto com as questões teóricas e a etapa de construção do instrumento. Softwares: existem no mercado uma série de softwares úteis para a criação, manipulação e análise de dados quantitativos Stata, Sphinx, SAS, R, SPSS, PSPP

de softwares úteis para a criação, manipulação e análise de dados quantitativos Stata , Sphinx, SAS,
de softwares úteis para a criação, manipulação e análise de dados quantitativos Stata , Sphinx, SAS,

CRIANDO UMA BASE DE DADOS NO SPSS

Abrindo o SPSS: clique no Menu Iniciar – Todos os Programas – SPSS Inc – PASW Statistics 18 – PASW Statistics 18

o SPSS: clique no Menu Iniciar – Todos os Programas – SPSS Inc – PASW Statistics
o SPSS: clique no Menu Iniciar – Todos os Programas – SPSS Inc – PASW Statistics
o SPSS: clique no Menu Iniciar – Todos os Programas – SPSS Inc – PASW Statistics

MODOS DE INTERFACE

4 Modos: o SPSS oferece 4 formas de interface com o usuário

Visualização dos Dados: a primeira delas possibilita a visualização da coleção dos dados. Ø Clicando em Data View a planilha exibe nas linhas os casos e nas colunas as variáveis.

coleção dos dados. Ø   Clicando em Data View a planilha exibe nas linhas os casos
coleção dos dados. Ø   Clicando em Data View a planilha exibe nas linhas os casos
coleção dos dados. Ø   Clicando em Data View a planilha exibe nas linhas os casos

Ø Visualização das Variáveis: clicando em Variable View a planilha passa a exibir nas linhas as variáveis e nas colunas os seus atributos que devem ser definidos.

View a planilha passa a exibir nas linhas as variáveis e nas colunas os seus atributos
View a planilha passa a exibir nas linhas as variáveis e nas colunas os seus atributos
View a planilha passa a exibir nas linhas as variáveis e nas colunas os seus atributos

Output: todos os comandos executados, as tabelas, gráficos e testes solicitados são exibidos em outra janela.

Output: todos os comandos executados, as tabelas, gráficos e testes solicitados são exibidos em outra janela.

Sintaxe: todas as solicitações podem ser realizadas por meio da construção de linhas de comando na janela de sintaxes.

Sintaxe: todas as solicitações podem ser realizadas por meio da construção de linhas de comando na

DEFININDO VARIÁVEIS

Variable View: clique em Variable View para começar a definir as variáveis que irão compor seu banco de dados.

Campos:

Name: é o nome da sua variável (sem espaços, - ou outros caracteres especiais) Sugestões: p1, v1, x1, q1, Id, Sex. Type: é o tipo da variável. Ao clicar na célula para definir o tipo é aberta a janela de diálogo com as opções

Type: é o tipo da variável. Ao clicar na célula para definir o tipo é aberta

Numeric: variáveis numéricas. Comma: os valores são separados por vírgulas (comma) a cada três casas decimais. Dot: semelhante ao Comma, porém com o ponto funcionando como limitador decimal. Scientific notation: variáveis numéricas que aceitam termos como E e exponencial de 10. Data: variáveis em diferentes formatos de tempo. Dollar: variáveis com formatos monetários. Custom currency: variáveis com formatos definidos pelo pesquisador. String: variáveis que não são numéricas.

Custom currency: variáveis com formatos definidos pelo pesquisador. String: variáveis que não são numéricas.
Custom currency: variáveis com formatos definidos pelo pesquisador. String: variáveis que não são numéricas.

Width: campo onde definimos a amplitude da variável

Na variável sexo a amplitude é de 1 dígito, em renda pode ser de

8.

Decimals: inserimos quantas casas decimais a variável possui.

Label: o rótulo da nossa variável, ou seja, uma descrição mais extensa do que o nome. A variável p1 pode ter como Label “Identificação” ou “Hora de Início da Entrevista”.

Values: clicando na célula Value e em seguida no box azul com encontramos a caixa de diálogo para nela definirmos quais são os valores possíveis para nossa variável.

nela definirmos quais são os valores possíveis para nossa variável. Sexo: possui os valores 0=masculino 1=feminino
nela definirmos quais são os valores possíveis para nossa variável. Sexo: possui os valores 0=masculino 1=feminino

Sexo: possui os valores

0=masculino

1=feminino

nela definirmos quais são os valores possíveis para nossa variável. Sexo: possui os valores 0=masculino 1=feminino

Missing: campo no qual a qualquer momento podemos definir valores que não serão considerados em nossas análises.

Columns: onde estabelecemos qual será a largura da coluna da variável no editor de dados.

Align: determina apenas o alinhamento do valor na célula (esquerda, centro, direita).

Measure: campo em que determinamos qual o nível de mensuração da variável com as opções Nominal, Ordinal e Escalar.

Denominação

Denominação no SPSS

Discretas

 

Dicotômica sem ordenação

Nominal

Dicotômica com ordenação

Ordinal

Multicategórica sem ordenação

Nominal

Multicategórica com ordenação

Ordinal

Contínuas

Escalar

Rule: campo de definição de regras para análise posterior com as opções

Input: indica que a variável será usada como independente.

Target: indica que a variável será usada como dependente.

Both: indica que a variável será usada como independente e dependente.

None: opção quando não são definidas regras.

Partition: indica que a variável será utilizada para dividir a base de dados em amostras separadas.

Split: indica que a variável será utilizada para produzir outras bases com o emprego de um modulo adicional do SPSS (Modeler).

que a variável será utilizada para produzir outras bases com o emprego de um modulo adicional
que a variável será utilizada para produzir outras bases com o emprego de um modulo adicional

DICIONÁRIO OU LIVRO DE CÓDIGOS

Alimentação da base: uma vez definidos os níveis de mensuração das variáveis é possível alimentarmos a base de dados criada.

Sumário das decisões: as decisões tomadas no processo de codificação podem ser sumarizadas com o uso do SPSS.

Livro de Códigos: chamamos esse sumário ou guia de Livro de Códigos.

Procedimento: File – Display Data File Information – Working File

Janela de Output: o livro aparece na janela de Output aberta pelo programa.

Data File Information – Working File Janela de Output: o livro aparece na janela de Output
Data File Information – Working File Janela de Output: o livro aparece na janela de Output

ESTATÍSTICA DESCRITIVA

Descrição de Dados: procedimentos para sintetizar informações das variáveis com o uso do SPSS

Tabelas de frequências, gráficos, medidas de tendência central e variabilidade.

Níveis de Mensuração: devemos ter clara percepção sobre os níveis de mensuração de nossas variáveis

Ø

Discretas ou Contínuas?

Ø

Dicotômicas sem ordenação ou ordenadas?

Ø

Multicategóricas sem ordenação ou ordenadas?

Base 1: para todos os exercícios dessa seção iremos usar a “MQ UFSC 2011 1”.

Procedimento: File – Open – Data – MQ UFSC 2011 1

os exercícios dessa seção iremos usar a “MQ UFSC 2011 1”. Procedimento: File – Open –
os exercícios dessa seção iremos usar a “MQ UFSC 2011 1”. Procedimento: File – Open –

TABELAS DE DISTRIBUIÇÃO DE FREQUÊNCIAS

Aplicação para todos os níveis: a tabela de frequência é a primeira ferramenta de descrição dos dados de variáveis com diferentes níveis de mensuração.

Particularidade das variáveis discretas: ainda assim é preciso ter em mente que no caso das discretas que não comportam ordenação a disposição das categorias é arbitrária.

Procedimento: Analyze – Descriptive Statistics – Freqüências – Estado Civil - OK

das categorias é arbitrária. Procedimento: Analyze – Descriptive Statistics – Freqüências – Estado Civil - OK
das categorias é arbitrária. Procedimento: Analyze – Descriptive Statistics – Freqüências – Estado Civil - OK

Output: todas as solicitações serão executadas na janela de Output.

Sintaxe: antes da tabela aparece uma linha de comandos (sintaxe) da solicitação.

Tabela 1: N válido e Missing.

Tabela 2: a frequência de distribuição dos casos entre as categorias.

Atenção: cuidado na utilização do percentual cumulativo para variáveis sem ordenação.

casos entre as categorias. Atenção: cuidado na utilização do percentual cumulativo para variáveis sem ordenação.
casos entre as categorias. Atenção: cuidado na utilização do percentual cumulativo para variáveis sem ordenação.
casos entre as categorias. Atenção: cuidado na utilização do percentual cumulativo para variáveis sem ordenação.

Tabela com Variáveis Discretas com Ordenação: o procedimento é o mesmo, com a vantagem da utilização do percentual cumulativo.

Procedimento: Analyze – Descriptive Statistics – Frequências – Educação – OK

do percentual cumulativo. Procedimento: Analyze – Descriptive Statistics – Frequências – Educação – OK

Percentual Cumulativo: a tabela tem os mesmos elementos da anterior, mas agora faz sentido utilizar a coluna dos percentuais acumulados.

Edição: para editar qualquer tabela ou gráfico, basta clicar duas vezes sobre o output.

dos percentuais acumulados. Edição: para editar qualquer tabela ou gráfico, basta clicar duas vezes sobre o

GRÁFICO DE BARRAS

Variáveis nominais: quando trabalhamos com discretas não ordenadas (nominais) não podemos utilizar gráficos que conectam categorias adjacentes. Falta de ordenação: isso porque as categorias não são ordenadas ou dispostas em uma escala. Barras: a melhor forma de descrição gráfica dessas variáveis é por meio de colunas. Procedimento: Graphs – Legacy Dialogs – Bar –Simple – Sumaries for Groups of Cases – Define

de colunas. Procedimento: Graphs – Legacy Dialogs – Bar –Simple – Sumaries for Groups of Cases
de colunas. Procedimento: Graphs – Legacy Dialogs – Bar –Simple – Sumaries for Groups of Cases

Category Axis: Estado Civil.

Representação das Barras: acima da caixa você pode escolher o que as barras representarão.

Title: clicando em Titles é possível já inserir título para o Gráfico.

pode escolher o que as barras representarão. Title: clicando em Titles é possível já inserir título
pode escolher o que as barras representarão. Title: clicando em Titles é possível já inserir título
pode escolher o que as barras representarão. Title: clicando em Titles é possível já inserir título

Várias Linhas: esse título pode inclusive conter várias linhas, subtítulos e notas de rodapé.

Várias Linhas: esse título pode inclusive conter várias linhas, subtítulos e notas de rodapé.
Várias Linhas: esse título pode inclusive conter várias linhas, subtítulos e notas de rodapé.
Várias Linhas: esse título pode inclusive conter várias linhas, subtítulos e notas de rodapé.

Edição de Gráfico: o SPSS oferece uma série de ferramentas de edição de gráficos e tabelas. Para acessá-las basta um duplo clique sobre o gráfico.

uma série de ferramentas de edição de gráficos e tabelas. Para acessá-las basta um duplo clique

HISTOGRAMA

Barras sem intervalos: se diferencia de um gráfico de barras devido a falta de espaço entre as barras, o que indica que os valores da variável são teoricamente contínuos.

Utilização em variáveis discretas: entretanto, podem ser também utilizados em medidas discretas, desde que ordenadas.

Procedimento: Graphs – Legacy Dialogs – Histogram – Idade para o campo Variable.

discretas, desde que ordenadas. Procedimento: Graphs – Legacy Dialogs – Histogram – Idade para o campo
discretas, desde que ordenadas. Procedimento: Graphs – Legacy Dialogs – Histogram – Idade para o campo

Forma da Distribuição: o histograma fornece informação gráfica sobre a forma da distribuição.

Simetria: observando o gráfico podemos identificar se ocorre simetria na distribuição dos casos entre as duas metades da variável.

o gráfico podemos identificar se ocorre simetria na distribuição dos casos entre as duas metades da
o gráfico podemos identificar se ocorre simetria na distribuição dos casos entre as duas metades da
o gráfico podemos identificar se ocorre simetria na distribuição dos casos entre as duas metades da

POLÍGONOS

Ordenação: um polígono liga os pontos entre as categorias ou valores, sendo mais aplicado para variáveis contínuas, entretanto, pode também ser empregado para descrever medidas com alguma ordenação.

Procedimento: Graphs – Legacy Dialogs – Line – Simple – Sumaries Groups of Cases – Define.

ordenação. Procedimento: Graphs – Legacy Dialogs – Line – Simple – Sumaries Groups of Cases –

Índice de Interesse por Política para a caixa Category Axis Titles: podemos ainda adicionar os títulos. OK.

Índice de Interesse por Política para a caixa Category Axis Titles: podemos ainda adicionar os títulos.

BOX E WHISKERS PLOT

Ordenação: serve para os dois níveis de mensuração, pois exige ao menos um nível mínimo de ordenação.

Distinção da normalidade: é uma representação gráfica da distribuição dos valores muito útil para distinguir variáveis com distribuição normal.

Procedimento: Analyze – Descriptive Statistics – Explore – Simple – Sumaries Guoups of Cases – Define.

Procedimento: Analyze – Descriptive Statistics – Explore – Simple – Sumaries Guoups of Cases – Define.
Procedimento: Analyze – Descriptive Statistics – Explore – Simple – Sumaries Guoups of Cases – Define.

Adicione Índice de Interesse por Política para Dependent List.

Adicione Índice de Interesse por Política para Dependent List .
Adicione Índice de Interesse por Política para Dependent List .
Adicione Índice de Interesse por Política para Dependent List .

Statistics: clicando nessa caixa é possível solicitar medidas descritivas, outliers, percentis e outras afirmações. Vamos marcar por enquanto apenas outliers.

solicitar medidas descritivas, outliers, percentis e outras afirmações. Vamos marcar por enquanto apenas outliers.
solicitar medidas descritivas, outliers, percentis e outras afirmações. Vamos marcar por enquanto apenas outliers.
solicitar medidas descritivas, outliers, percentis e outras afirmações. Vamos marcar por enquanto apenas outliers.

Plots: clicando em nessa caixa conseguimos definir que tipo de gráficos queremos. Marquem apenas Boxplots Factor levels together.

em nessa caixa conseguimos definir que tipo de gráficos queremos. Marquem apenas Boxplots Factor levels together.

Gráficos e Estatísticas: voltando a janela inicial é possível definir se serão rodadas apenas gráficos ou estatísticas também. Marquem apenas Plots e cliquem em OK.

é possível definir se serão rodadas apenas gráficos ou estatísticas também. Marquem apenas Plots e cliquem
é possível definir se serão rodadas apenas gráficos ou estatísticas também. Marquem apenas Plots e cliquem
é possível definir se serão rodadas apenas gráficos ou estatísticas também. Marquem apenas Plots e cliquem

Elementos do gráfico:

Ø Caixa: o box representa 50% dos casos

Ø Linha: a linha no centro do box representa a mediana

Ø Bigodes”: os whiskers representam os limites determinados pelos valores maiores e menores.

Ø Outliers: caso houvesse algum outlier ele estaria representado por um círculo acima ou abaixo dos bigodes.

Ø   Outliers: caso houvesse algum outlier ele estaria representado por um círculo acima ou abaixo

MEDIDAS DE TENDÊNCIA CENTRAL

Aplicações: as medidas de tendência central mais utilizadas são média, mediana e moda, todas aplicáveis à variáveis contínuas.

Ordinais: para variáveis apenas ordinais a média não é recomendada.

Discretas sem ordenação: apenas a moda é viável.

Média: é a melhor medida de tendência quando a distribuição de frequência se aproxima da simetria, sendo obtida pela soma de todos os valores e divisão do resultado pelo número de valores.

Mediana: é o valor que ocupa o centro da escala de valores. É a melhor medida de tendência para variáveis ordinais ou com distribuição oblíqua e inclinada.

Moda: o valor com maior número de ocorrências em uma variável. Útil em variáveis nominais.

oblíqua e inclinada. Moda: o valor com maior número de ocorrências em uma variável. Útil em
oblíqua e inclinada. Moda: o valor com maior número de ocorrências em uma variável. Útil em

Procedimento: podemos obter essas e outras medidas de tendência central com

Análise – Descriptive Statistics – Freqüências – Idade para a caixa Variable

Statistics: em seguida em Statistics para selecionar as opções.

– Freqüências – Idade para a caixa Variable Statistics : em seguida em Statistics para selecionar

Central Tendency: Reunidas nessa caixa estão todas as medidas estudadas. Marque Mean, Median e Mode.

Continue – OK.

Tendency: Reunidas nessa caixa estão todas as medidas estudadas. Marque Mean , Median e Mode .

Tabela 2: não nos interessa agora, pois apresenta a frequência de idade. Tabela 1: mostra as medidas de tendência central.

2: não nos interessa agora, pois apresenta a frequência de idade. Tabela 1: mostra as medidas
2: não nos interessa agora, pois apresenta a frequência de idade. Tabela 1: mostra as medidas
2: não nos interessa agora, pois apresenta a frequência de idade. Tabela 1: mostra as medidas

MEDIDAS DE VARIABILIDADE

Dispersão: medidas de variabilidade nos falam sobre a dispersão dos dados de uma variável.

Desvio-padrão: medida usada para variáveis normais, mas também pode ser aplicada para variáveis ordinais em alguns casos.

Definição: é baseado na distância de cada valor em relação à média. Essa distância é elevada ao quadrado e somada, sendo o resultado dividido pelo número de valores menos 1. Finalmente, é calculada a raiz quadrada do resultado dessa divisão.

Procedimento: Análise – Descriptive Statistics – Descriptive – Idade para a caixa Variables

dessa divisão. Procedimento: Análise – Descriptive Statistics – Descriptive – Idade para a caixa Variables
dessa divisão. Procedimento: Análise – Descriptive Statistics – Descriptive – Idade para a caixa Variables

Options : clicando em options vamos definir quais são as medidas desejadas. Deixe marcada apenas a caixa de Std. Deviation

Continue – OK.

options vamos definir quais são as medidas desejadas. Deixe marcada apenas a caixa de Std .
options vamos definir quais são as medidas desejadas. Deixe marcada apenas a caixa de Std .

RESUMO

 

Discreta

Discreta

Contínua

sem

com

ordenação

ordenação

Distribuição de Freqüência

Sim

Sim

OK

Gráfico de barras

Sim

Sim

OK

Histograma

Não

Não

Sim

Polígono de Freqüência

Não

Não

Sim

Box e Whiskers Plot

Não

Não

Sim

Média

Não

OK

Sim

Mediana

Não

OK

Sim

Moda

Sim

Sim

OK

Desvio Padrão

Não

Não

Sim

IDENTIFICAÇÃO DE NORMALIDADE

Distribuição Simétrica: vimos anteriormente que as distribuições de frequência podem ser simétricas, quando distribuem os casos em duas metades iguais, e assimétricas, quando ocorre concentração em um dos lados. Normal: a forma simétrica também é denominada de normal ou sinoidal. Ocorrência: muitas variáveis utilizadas em diferentes ciências possuem uma distribuição que se aproxima de uma curva normal. Ex.: altura, peso, coeficiente de inteligência. Maioria no centro da curva: essas variáveis tem em comum o fato de que a maior parte dos casos se localizarem próximo ao centro, com poucas ocorrências nos extremos.

em comum o fato de que a maior parte dos casos se localizarem próximo ao centro,

DISTRIBUIÇÃO DE PROBABILIDADE

Distribuição de probabilidade: a partir dessa distribuição é possível identificar qual a probabilidade de ocorrência de um evento em razão da sua distância em relação à média.

§68% entre -1 e 1 desvio-padrão §95% entre -2 e 2 desvios-padrão §97% entre -3 e 3 desvios-padrão §Valores que se situam a mais de 3 desvios possuem uma probabilidade muito pequena de ocorrência.

desvios-padrão §   Valores que se situam a mais de 3 desvios possuem uma probabilidade muito
desvios-padrão §   Valores que se situam a mais de 3 desvios possuem uma probabilidade muito

PROPRIEDADES DA CURVA NORMAL

Uni modal: possui apenas um ponto de elevação, sendo esse no centro da distribuição.

Média, mediana e moda são iguais.

Simetria: o lado direito e esquerdo da curva são iguais ou simétricos, logo, a curva não é inclinada. Skewness é o termo estatístico para designar essa característica. Uma curva normal possui 0 de Skewness (Inclinação).

Kurtosis: a distribuição normal não é muito pontiaguda, nem muito achatada, tendo caudas não muito curtas, nem muito longas. Kurtosis é o termo estatístico para se referir a essa característica. A normal possui valores de Kurtosis próximo de 0.

é o termo estatístico para se referir a essa característica. A normal possui valores de Kurtosis
é o termo estatístico para se referir a essa característica. A normal possui valores de Kurtosis

DISTRIBUIÇÕES ASSIMÉTRICAS

Skewness: se uma das caudas da distribuição de frequência é maior que a outra e sua média é diferente da mediana a sua curva é inclinada, oblíqua, enviesada ou assimétrica (skewed).

Importância: como a maioria das estatísticas inferenciais exigem que as variáveis sejam normalmente distribuídas é fundamental saber se as medidas envolvidas em suas análises são altamente inclinadas ou possuem altos valores de Skewness.

Valores: uma curva perfeitamente normal tem valor 0,0, mas podemos tomar como referência os valores +1 e -1 e a partir deles tomar cuidado na utilização de estatísticas não- paramétricas (como o teste t).

os valores +1 e -1 e a partir deles tomar cuidado na utilização de estatísticas não-
os valores +1 e -1 e a partir deles tomar cuidado na utilização de estatísticas não-

Procedimento: Análise – Descriptive Statistics – Freqüências – Índice de Interesse em Política

Procedimento: Análise – Descriptive Statistics – Freqüências – Índice de Interesse em Política
Procedimento: Análise – Descriptive Statistics – Freqüências – Índice de Interesse em Política
Procedimento: Análise – Descriptive Statistics – Freqüências – Índice de Interesse em Política

Clique em Statistics Mode e Skewness. Continue e na Janela inicial OK.

Clique em Statistics – Mode e Skewness. Continue e na Janela inicial OK.

Kurtosis: se uma distribuição possui picos mais elevados que os de uma curva normal afirmamos que possui kurtose positivo. Caso seja mais achatada afirmamos que possui kurtose negativo.

Procedimento: o mesmo para obter o Skewness, porém como essa medida não afeta a maioria das estatísticas não é necessária para a boa parte dos usuários.

porém como essa medida não afeta a maioria das estatísticas não é necessária para a boa

MANIPULAÇÃO DE BANCO DE DADOS

MANIPULAÇÃO DE BANCO DE DADOS
MANIPULAÇÃO DE BANCO DE DADOS

RECODIFICAÇÕES E COMPUTAÇÕES

Transformações e computações: as variáveis originais de um banco de dados em geral possibilitam uma série de transformações e alterações.

Construção de novas variáveis: muitas vezes para responder nossas questões de pesquisa precisamos criar novas variáveis e até mesmo índices a partir das medidas originais.

Três técnicas principais: Count, Recode e Compute.

variáveis e até mesmo índices a partir das medidas originais. Três técnicas principais: Count, Recode e
variáveis e até mesmo índices a partir das medidas originais. Três técnicas principais: Count, Recode e

COUNT

Variável Somatória: Com essa técnica podemos criar uma nova variável que será o somatório dos valores encontrados em um conjunto de medidas originais.

Exemplo: temos na Análise de Dados CS 1 quatro variáveis sobre participação em instituições/organizações e precisamos saber em quantas delas cada entrevistado participa.

Procedimentos: Transform – Count Values within Cases

e precisamos saber em quantas delas cada entrevistado participa. Procedimentos: Transform – Count Values within Cases
e precisamos saber em quantas delas cada entrevistado participa. Procedimentos: Transform – Count Values within Cases
e precisamos saber em quantas delas cada entrevistado participa. Procedimentos: Transform – Count Values within Cases
Target Variable : nome da variável criada Target Label : rótulo da variável criada Numeric

Target Variable : nome da variável criada Target Label : rótulo da variável criada Numeric variables: campo para definição de que variáveis serão somadas Define Values : define como será contada cada variável original

para definição de que variáveis serão somadas Define Values : define como será contada cada variável
para definição de que variáveis serão somadas Define Values : define como será contada cada variável

Define: ao clicar nesse ícone um novo box irá aparecer.

Value: como sabemos que nossas variáveis tem os valores 0 e 1, defina o valor como 1, ou seja, para cada variável serão contados apenas os valores igual a 1.

Clique em Add e Continue.

Retornando à janela inicial clique em OK.

No Data Editor clique em Variable View e digite 0 no campo Decimal Places da variável criada.

inicial clique em OK. No Data Editor clique em Variable View e digite 0 no campo

Comando e Variável criada

Comando e Variável criada Confiram a variável com a sua distribuição de frequência.
Comando e Variável criada Confiram a variável com a sua distribuição de frequência.

Confiram a variável com a sua distribuição de frequência.

Comando e Variável criada Confiram a variável com a sua distribuição de frequência.

RECODIFICAÇÃO

Alteração de Valores: Procedimento útil quando precisamos alterar os valores possíveis de uma variável, em geral com o objetivo de reduzir a amplitude.

Redução indesejável: é preciso destacar que a redução de uma medida ordinal não é desejável, pois reduzir o seu nível de mensuração.

Dicotomização necessária: a transformação de ordinais em dicotômicas deve ser feita apenas quando estritamente necessário.

Exemplo: para serem utilizadas como variáveis preditoras em modelos de regressão.

quando estritamente necessário. Exemplo: para serem utilizadas como variáveis preditoras em modelos de regressão.
quando estritamente necessário. Exemplo: para serem utilizadas como variáveis preditoras em modelos de regressão.

Procedimentos: Transform – Recode

Duas Opções: para recodificar temos duas opções Recode into same variable e Recode into diferent variable. A primeira altera a variável original e a segunda efetua as alterações em uma nova variável. Por segurança, selecione essa última opção.

original e a segunda efetua as alterações em uma nova variável. Por segurança, selecione essa última

Na caixa aberta coloque a variável Interesse por Política no campo Numeric Variable.

Nos campos relativos a Output Variable coloque o nome que deseja para a nova variável recodificada e em Label qual a sua descrição.

Em seguida clique em Change para efetivar essas operações.

Agora clique em Old and New Values para definirmos as regras de recodificação.

Change para efetivar essas operações. Agora clique em Old and New Values para definirmos as regras
Change para efetivar essas operações. Agora clique em Old and New Values para definirmos as regras
Change para efetivar essas operações. Agora clique em Old and New Values para definirmos as regras

Essa janela é dividida em duas partes, uma com os valores antigos e outra com os novos valores.

A partir do conhecimento dos valores atuais insira a regra de alteração e clique em Add.

Ao concluir, clique em Continue. Na janela inicial clique em OK.

atuais insira a regra de alteração e clique em Add. Ao concluir, clique em Continue. Na

Novos rótulos: como definimos novos valores é preciso alterar os rótulos.

Procedimentos: clique em Variable View – na linha da variável criada clique na célula da coluna Values – Value (insira o 1) – Label (o que o 1 representa) Add - OK.

Alternativa: o procedimento de recodificação pode ser realizada por meio da opção Range.

o 1 representa) Add - OK. Alternativa: o procedimento de recodificação pode ser realizada por meio
o 1 representa) Add - OK. Alternativa: o procedimento de recodificação pode ser realizada por meio

RECODIFICAÇÃO DE VARIÁVEL ESCALAR

Redução: Em muitos casos é necessário também reduzir uma variável escalar que comporta muitos valores a um número reduzido de grupos.

Exercício com a variável idade.

O caminho é o mesmo, ou seja, Transform – Recode into Diferente Variable.

Introduza a variável Idade (x3), selecione o seu nome de Output e o Label. Clique em Change e depois em Old e New Values.

a variável Idade (x3), selecione o seu nome de Output e o Label . Clique em
a variável Idade (x3), selecione o seu nome de Output e o Label . Clique em
a variável Idade (x3), selecione o seu nome de Output e o Label . Clique em

Use o Range para definir grupos etários. Clique em Continue e OK. Será necessário incluir os valores da variável criada no Data Editor. Gere uma tabela de frequência para analisar essa variável.

incluir os valores da variável criada no Data Editor. Gere uma tabela de frequência para analisar

COMPUTAÇÃO DE UM ÍNDICE

Computação: o SPSS fornece uma série de ferramentas para computação de variáveis que possibilitam a construção de novas medidas, inclusive índices somatórios.

Índice de confiança institucional: vamos construir uma variável que seja o somatório de diferentes medidas de confiança nas instituições.

Procedimentos: Transform – Compute Variable

seja o somatório de diferentes medidas de confiança nas instituições. Procedimentos: Transform – Compute Variable
seja o somatório de diferentes medidas de confiança nas instituições. Procedimentos: Transform – Compute Variable
seja o somatório de diferentes medidas de confiança nas instituições. Procedimentos: Transform – Compute Variable

CI: como essa variável será a junção de várias outras sobre confiança em instituições podemos atribuir o nome CI (Confiança Institucional).

Clique em Type & Label para definir o seu tipo e nome.

Após clique em Continue.

para definir o seu tipo e nome. Após clique em Continue. Devemos agora no campo Numeric

Devemos agora no campo Numeric Expression determinar

Qual será a regra para criação da nova variável combinando

Confiança nos Sindicatos, Congresso e Partidos.

determinar Qual será a regra para criação da nova variável combinando Confiança nos Sindicatos, Congresso e

Resultado: O resultado desse procedimento é a criação de uma variável com escala de 0 a 9 porque cada uma das variáveis originais estavam codificados com valores de 0 (não confia) a 3 (confia muito).

de 0 a 9 porque cada uma das variáveis originais estavam codificados com valores de 0

SELEÇÃO DE CASOS

Redução da Base: em alguns casos trabalhamos com bases relativamente grandes e pode ser interessante selecionar apenas alguns casos.

Seleção das entrevistadas: tomando a variável sexo vamos selecionar apenas as mulheres.

Procedimento: Data – Select Cases

Notem que inicialmente aparece

marcada a opção All Cases, ou seja,

sem seleção.

Procedimento: Data – Select Cases Notem que inicialmente aparece marcada a opção All Cases, ou seja,
Procedimento: Data – Select Cases Notem que inicialmente aparece marcada a opção All Cases, ou seja,

Clique If Condition (Se a condição), para estabelecer qual a regra de seleção.

Como a opção “feminino” está codificada como 0, basta selecionar a variável sexo (x1) adicionar o sinal de = e o código 0.

Clique em Continue

está codificada como 0, basta selecionar a variável sexo (x1) adicionar o sinal de = e

Opções de Seleção: na janela inicial existem três opções de Output Filtrar: os casos não selecionados são marcados. Copiar: os casos selecionados não copiados para outro arquivo. Deletar: os casos não selecionados são apagados. Selecione a opção filtrar.

não copiados para outro arquivo. Deletar: os casos não selecionados são apagados. Selecione a opção filtrar.
não copiados para outro arquivo. Deletar: os casos não selecionados são apagados. Selecione a opção filtrar.

DIVISÃO

Split File: é possível também dividir uma base de dados para que seja possível comprara grupos divididos por uma variável.

Comparação entre Sexos: como exemplo podemos comparar o interesse por política entre homens e mulheres.

Procedimento: Data – Split File

Clique em Compare Groups e

selecione qual variável será utilizada

como critério.

Procedimento: Data – Split File Clique em Compare Groups e selecione qual variável será utilizada como
Procedimento: Data – Split File Clique em Compare Groups e selecione qual variável será utilizada como

Com esse procedimento todas as análise solicitadas serão divididas nos grupos determinados pelo critério.

Com esse procedimento todas as análise solicitadas serão divididas nos grupos determinados pelo critério.

ANÁLISE BIVARIADA

ANÁLISE BIVARIADA
ANÁLISE BIVARIADA

TESTES DE SIGNIFICÂNCIA ESTATÍSTICA

Inferências Seguras: para produzir a partir de dados amostrais afirmações que sejam válidas para a população de onde essa parte foi extraída precisamos entender e empregar o aparato técnico envolvido nos testes de significância estatística. Certeza Absoluta Impossível: desde já é preciso deixar claro que a certeza absoluta sobre a validade da afirmação amostral é impossível de ser alcançada. Probabilidade Calculável: mas é possível identificar qual a probabilidade desse tipo de afirmação estar correta. Exigência – uma amostra aleatória: a exigência inicial para que isso seja possível é a qualidade aleatória da amostra, o que já estudamos nas aulas anteriores.

inicial para que isso seja possível é a qualidade aleatória da amostra, o que já estudamos
inicial para que isso seja possível é a qualidade aleatória da amostra, o que já estudamos

PROBABILIDADE E HIPÓTESE NULA

Questão Básica:

QUAL A PROBABILIDADE DO RELACIONAMENTO OBSERVADO NOS DADOS AMOSTRAIS NÃO EXISTIR NA POPULAÇÃO DA QUAL FOI EXTRAÍDA ESSA AMOSTRA?

Probabilidade Alta: ao encontrarmos probabilidades altas não podemos aceitar o relacionamento encontrado nos dados amostrais como válidos, ou seja, não podemos realizar inferência segura.

Probabilidade Baixa: apenas quando essa probabilidade é reduzida podemos afirmar a ocorrência em termos populacionais do relacionamento estudado.

quando essa probabilidade é reduzida podemos afirmar a ocorrência em termos populacionais do relacionamento estudado.
quando essa probabilidade é reduzida podemos afirmar a ocorrência em termos populacionais do relacionamento estudado.

TAMANHO AMOSTRAL E PROBABILIDADE

Amostras Pequenas e Grandes: a probabilidade de observarmos um relacionamento na amostra que não existe na população de onde ela foi extraída é maior em uma amostra pequena do que em uma grande.

Exemplo: Se em uma população de 1.000 casos não existe relacionamento entre duas variáveis e nós selecionamos uma amostra de 900 a chance de encontrarmos tal relacionamento é muito pequena. Se selecionarmos dessa mesma população uma amostra de apenas 50 essa probabilidade será muito grande.

é muito pequena. Se selecionarmos dessa mesma população uma amostra de apenas 50 essa probabilidade será
é muito pequena. Se selecionarmos dessa mesma população uma amostra de apenas 50 essa probabilidade será

A HIPÓTESE NULA (H 0 )

H1: o sexo dos entrevistados está associado à posição favorável à candidaturas femininas.

Inversamente: nos procedimentos inferenciais é comum realizar esse tipo de teste propondo a hipótese inversa, ou seja, de que as duas variáveis não estão relacionadas na população.

H 0 : essa hipótese invertida é chamada de Hipótese Nula e afirma que as variáveis não estão relacionadas na população.

Hipótese contrária: a hipótese nula é sempre algo contrário aos interesses da pesquisa que pretende afirmar a existência dos relacionamentos.

nula é sempre algo contrário aos interesses da pesquisa que pretende afirmar a existência dos relacionamentos.
nula é sempre algo contrário aos interesses da pesquisa que pretende afirmar a existência dos relacionamentos.

H 0 1: O sexo do entrevistados não está associado à disposição favorável à candidaturas femininas.

Refutação: o interesse do pesquisador nesse exemplo será refutar essas duas hipóteses nulas como afirmações válidas para a população adulta norte-americana.

Probabilidade Reduzida: se a evidência de relacionamento encontrada na amostra tem uma probabilidade pequena de ser resultado da escolha aleatória de casos e também de não se verificar na população, então podemos rejeitar a hipótese nula.

Probabilidade Elevada: se a evidência amostral tem grande probabilidade de ser resultado do sorteio de casos e também de não se verificar na população não podemos rejeitar a hipótese nula.

de ser resultado do sorteio de casos e também de não se verificar na população não
de ser resultado do sorteio de casos e também de não se verificar na população não

O que é probabilidade pequena: é considerada como probabilidade reduzida uma chance de 1 para 20

Ø

1/20=0.05

Igual ou Menor: Se temos probabilidade igual ou menor que 0.05 de tomar um relacionamento amostral que não ocorre na população como válido, podemos rejeitar a hipótese nula.

Maior: Se encontrarmos probabilidade maior que 0.05 não podemos rejeitar a hipótese nula

Hipótese Alternativa: quando rejeitamos a hipótese nula aceitamos Hipótese Alternativa (H 1 ).

a hipótese nula Hipótese Alternativa: quando rejeitamos a hipótese nula aceitamos Hipótese Alternativa (H 1 ).
a hipótese nula Hipótese Alternativa: quando rejeitamos a hipótese nula aceitamos Hipótese Alternativa (H 1 ).

ANÁLISE BIVARIADA NO SPSS

Praticidade: a refutação da hipótese nula pode ser realizada de maneira prática e rápida através de testes conduzidos com o uso do SPSS.

MQ UFSC 2011 1: retornando a nossa Base 1 vamos identificar os procedimentos para conduzir análises bivariadas com o uso do software.

1: retornando a nossa Base 1 vamos identificar os procedimentos para conduzir análises bivariadas com o
1: retornando a nossa Base 1 vamos identificar os procedimentos para conduzir análises bivariadas com o

QUI-QUADRADO

Duas variáveis nominais ou dicotômicas: o teste do X 2 é apropriado para analisar o relacionamento entre duas variáveis nominais ou dicotômicas sem ordenação.

Três valores ou ordenação: não é indicado, portanto, quando as variáveis em estudo possuem três valores ou possuem alguma ordenação.

Amostras Grandes: requer amostras relativamente grandes e também que a divisão dos sujeitos entre as níveis das variáveis seja relativamente igual.

Alternativa: quando a amostra é reduzida uma alternativa é utilizar o Fisher’s exact test para tabelas 2x2.

Sem informação sobre a força: esses testes apenas indicam se o relacionamento é estatisticamente significativo, não fornecendo qualquer indicação sobre a direção ou força da associação.

é estatisticamente significativo, não fornecendo qualquer indicação sobre a direção ou força da associação.
é estatisticamente significativo, não fornecendo qualquer indicação sobre a direção ou força da associação.

EXIGÊNCIAS E CONDIÇÕES DO X 2

1. Os dados de uma variável são independentes, ou seja, cada sujeito é

calculado uma única vez.

2. Os dados são tratados como nominais, ainda que sejam ordenados.

3. Para o X 2 os sujeitos devem estar distribuídos entre os valores de

maneira aproximadamente igual. Pelo menos 80% das células deve ter uma freqüência de pelo menos 5. Em uma tabela 2x2 todas as células devem ter no mínimo 5 casos.

das células deve ter uma freqüência de pelo menos 5. Em uma tabela 2x2 todas as
das células deve ter uma freqüência de pelo menos 5. Em uma tabela 2x2 todas as

Procedimentos:

§Abra a Análise de Dados CS1.sav

Procedimentos: §   Abra a Análise de Dados CS1.sav

Analyze – Descriptive Statistics – Crosstabs

Analyze – Descriptive Statistics – Crosstabs

Na caixa das linhas (rows) introduza a variável Sexo Na caixa das colunas (columns) introduza a Discussão sobre Política

das colunas (columns) introduza a Discussão sobre Política Essa variável é binária porque é resultado da

Essa variável é binária porque é resultado da seguinte pergunta:

Com que freqüência costuma conversar sobre política com seus amigos ou familiares? 1) Nunca conversa; 2) As vezes conversa.

que freqüência costuma conversar sobre política com seus amigos ou familiares? 1) Nunca conversa; 2) As
que freqüência costuma conversar sobre política com seus amigos ou familiares? 1) Nunca conversa; 2) As
Clique em Statistics e marque o teste X 2 . Continue.

Clique em Statistics e marque o teste X 2 . Continue.

Clique em Statistics e marque o teste X 2 . Continue.
Clique em Statistics e marque o teste X 2 . Continue.

Retorne para a caixa anterior e clique em Cells marcando Expected e Observed. Continue e OK.

Retorne para a caixa anterior e clique em Cells marcando Expected e Observed. Continue e OK.

Interpretação do Output

Sintaxe: antes das tabelas aparece a sintaxe contendo todos os comandos que resultaram no teste.

sintaxe contendo todos os comandos que resultaram no teste. Exigências: Primeiramente verifique que as exigências do

Exigências: Primeiramente verifique que as exigências do X 2 estão satisfeitas comparando os valores observados e esperados em cada célula da segunda tabela. §Informação semelhante pode ser encontrada na nota a da terceira tabela.

em cada célula da segunda tabela. §   Informação semelhante pode ser encontrada na nota a

Terceira Tabela: são apresentados os valores do teste e seu nível de significância. Primeira linha: a primeira linha corresponde ao X 2 Interpretação: Verifique o valor de p de Pearson Chi-Square.

Não é preciso então consultar mais a tabela de distribuição dos valores do

X 2

Conclusão: Nesse caso podemos verificar que existe uma associação estatisticamente significativa entre sexo e a discussão sobre política. Hipótese Nula: rejeitamos a hipótese nula da inexistência de associação entre as variáveis no nível populacional.

Hipótese Nula: rejeitamos a hipótese nula da inexistência de associação entre as variáveis no nível populacional.

Limitação do X 2 : a grande limitação do X 2 é a falta de informação sobre força do relacionamento identificado como significativo, ou seja, ele indica apenas se a associação ocorre em termos populacionais.

Uma medida ideal: um teste ideal seria aquele que indicasse a existência e também a força dessa associação em termos populacionais.

Lambda: um dos testes que apresentam essas propriedades é o Lambda.

a força dessa associação em termos populacionais. Lambda: um dos testes que apresentam essas propriedades é
a força dessa associação em termos populacionais. Lambda: um dos testes que apresentam essas propriedades é

LAMBDA ( λ )

Redução Proporcional de Erro : o λ é um dos testes de associação que emprega a abordagem da Redução Proporcional de Erro.

Previsão de uma variável dependente: essa abordagem considera sempre uma das variáveis envolvidas no teste como dependente, ainda que em termos teóricos isso não faça sentido.

Dois cenários: considerando uma variável como dependente o RPE desenha um cenário de previsão em que não existe qualquer informação sobre uma variável independente e compara com um cenário em que tais informações estão disponíveis.

Impacto do conhecimento da independente: com essa comparação o RPE identifica o quanto o conhecimento de uma variável independente auxilia na compreensão de uma variável dependente.

RPE identifica o quanto o conhecimento de uma variável independente auxilia na compreensão de uma variável
RPE identifica o quanto o conhecimento de uma variável independente auxilia na compreensão de uma variável

λ no SPSS: não precisamos ficar nos ocupando dos procedimentos matemáticos ou dos níveis de significância desse teste, pois o SPSS nos fornece diretamente o seu valor e a pertinência da rejeição da hipótese nula.

Exercício: na base MQ UFSC 2011 1 vamos realizar um exercício testando o relacionamento entre nível de escolaridade e interesse por política.

Observação: essa variável sobre educação tem os valores “baixa”, “média” e “alta”, desta forma podemos considera-la como ordinal em alguns testes. Agora seremos um pouco mais rigorosos e a tomaremos como discreta sem ordenação.

Procedimento: o caminho é o mesmo do usado para o X 2 .

Analyze – Descriptive Statistics - Crosstabs

Procedimento: o caminho é o mesmo do usado para o X 2 . Analyze – Descriptive

Na caixa das linhas (rows) introduza a variável Educação Recodificada e na caixa das colunas (columns) introduza a Interesse por Política

(rows) introduza a variável Educação Recodificada e na caixa das colunas (columns) introduza a Interesse por
Clique em Statistics e marque o teste ! . Continue. OK

Clique em Statistics e marque o teste !. Continue. OK

Clique em Statistics e marque o teste ! . Continue. OK
Clique em Statistics e marque o teste ! . Continue. OK

Valores: o resultado desse teste varia de 0 (quando o conhecimento de X produz uma previsão pobre da moda dos valores de Y) e 1 (quando o conhecimento de X produz uma explicação perfeita da moda dos valores de x).

Coeficiente Assimétrico: é importante destacar também que ! é um coeficiente assimétrico, ou seja, se refere a capacidade preditiva de Y sobre X ou X sobre Y, sendo os seus resultados normalmente diferentes nesses dois sentidos.

Simétrico e Assimétrico: no SPSS, entretanto, o ! é calculado na sua forma simétrica e nas duas formas assimétricas.

Simétrica: sem considerar qualquer relação de dependência ou independência entre as variáveis.

Assimétrica: considerando na segunda linha o sexo como variável dependente e depois a discussão sobre política como dependente.

considerando na segunda linha o sexo como variável dependente e depois a discussão sobre política como
considerando na segunda linha o sexo como variável dependente e depois a discussão sobre política como

Passos para a interpretação:

1. Selecione qual das linhas irá utilizar a partir de seus pressupostos teóricos.

2. Identifique o nível de significância para decidir se é possível rejeitar a hipótese nula. Lembrem-se que rejeitamos H 0 sempre que o valore for igual ou menor que 0,05, o que representa a chance de cometer erro de tipo I de 1/20.

3. Verifique o valor do teste para descobrir a intensidade do relacionamento.

Considerando o Interesse como Dependente podemos verificar que H 0 pode ser rejeitada, mas a associação é fraca.

Considerando o Interesse como Dependente podemos verificar que H 0 pode ser rejeitada, mas a associação

MEDIDAS ORDENADAS

Medidas apropriadas: o ! pode ser aplicado para variáveis discretas que possuem algum ordenamento, entretanto, existem alguns outros testes mais apropriados para esses casos.

Direção do Relacionamento: esses testes são mais poderosos porque são capazes de indicar a direção da associação entre essas variáveis ordenadas.

Gamma, Tau b, Tau c e d de Somer.

capazes de indicar a direção da associação entre essas variáveis ordenadas. Gamma, Tau b, Tau c
capazes de indicar a direção da associação entre essas variáveis ordenadas. Gamma, Tau b, Tau c

GAMMA ( γ )

Mais utilizado: o coeficiente γ , o mais utilizando teste para variáveis discretas ordenadas. RPE: assim como o ! o γ também é uma estatística de Redução de Erro Proporcional. Simétrico: a diferença é que o γ é uma medida simétrica, ou seja, o seu resultado considerando a variável Y como dependente e a X como independente é idêntico se as posições forem invertidas.

Direção da Associação: o γ tem a desejável propriedade de indicar qual a direção da associação

Valores:

+1.00 = relacionamento positivo perfeito 0 = ausência de relacionamento -1.00 = relacionamento negativo perfeito

Valores: +1.00 = relacionamento positivo perfeito 0 = ausência de relacionamento -1.00 = relacionamento negativo perfeito
Valores: +1.00 = relacionamento positivo perfeito 0 = ausência de relacionamento -1.00 = relacionamento negativo perfeito

Interesse por Política e Confiança: como exercício vamos testar a associação entre o interesse por política dos entrevistados e o seu nível de confiança no Congresso.

Ordinais: as duas variáveis possuem valores ordenados.

Procedimento: o mesmo utilizado anteriormente

Analyze – Descriptive Statistics - Crosstabs

valores ordenados. Procedimento: o mesmo utilizado anteriormente Analyze – Descriptive Statistics - Crosstabs

Na caixa das linhas (rows) introduza a variável Interesse por Política e na caixa das colunas (columns) introduza a Confiança Institucional no Congresso

a variável Interesse por Política e na caixa das colunas (columns) introduza a Confiança Institucional no

Clique em Statistics e marque a opção Gamma. Continue e OK.

Clique em Statistics e marque a opção Gamma. Continue e OK.

Passos para a interpretação:

1.Identifique o nível de significância para decidir se é possível rejeitar a hipótese nula. Lembrem-se que rejeitamos H 0 sempre que o valore for igual ou menor que 0,05, o que representa a chance de cometer erro de tipo I de

1/20.

Como verificamos sig.=.000, podemos rejeitar a hipótese nula da independência entre as variáveis em termos populacionais.

2. Verifique o sinal do teste.

O sinal positivo indica que a associação é positiva, ou seja, elevações no interesse por política são acompanhadas de elevações na escala de confiança no Congresso.

3. Verifique o valor do teste para descobrir a intensidade do relacionamento.

na escala de confiança no Congresso. 3. Verifique o valor do teste para descobrir a intensidade

TAU b ( τ b )

Pares de Observação: assim como o " o τ b também considera os pares de observações em um cruzamento.

Valores: os valores do τ b vão de -1,00 a 1.00, sendo que o 0 indica a ausência de associação entre as duas variáveis discretas ordenadas.

Tabela Quadrada: esses valores ocorrem apenas quando o cruzamento resulta em uma tabela quadrada, ou seja, L=C (linha igual coluna).

τ c : para tabelas que não possuem essa características o teste ideal seria o τ c .

L=C (linha igual coluna). τ c : para tabelas que não possuem essa características o teste
L=C (linha igual coluna). τ c : para tabelas que não possuem essa características o teste

Mesmo exercício: para usarmos o τ b vamos testar novamente a associação entre o interesse por política e a confiança no congresso.

Tabela Quadrada: notem que as duas variáveis possuem 4 valores, formando uma tabela L=C.

Procedimento: o mesmo utilizado anteriormente

Analyze – Descriptive Statistics - Crosstabs

formando uma tabela L=C. Procedimento: o mesmo utilizado anteriormente Analyze – Descriptive Statistics - Crosstabs

Na caixa das linhas (rows) introduza a variável Interesse por Política e na caixa das colunas (columns) introduza a Confiança Institucional no Congresso

a variável Interesse por Política e na caixa das colunas (columns) introduza a Confiança Institucional no

Clique em Statistics e marque a opção Kendall’s Tau-b. Continue e OK.

Clique em Statistics e marque a opção Kendall’s Tau-b. Continue e OK.
Clique em Statistics e marque a opção Kendall’s Tau-b. Continue e OK.
Clique em Statistics e marque a opção Kendall’s Tau-b. Continue e OK.

Passos para a interpretação:

1.Identifique o nível de significância para decidir se é possível rejeitar a hipótese nula. Lembrem-se que rejeitamos H 0 sempre que o valore for igual ou menor que 0,05, o que representa a chance de cometer erro de tipo I de 1/20.

Como verificamos sig.=.000, podemos rejeitar a hipótese nula da independência entre as variáveis em termos populacionais.

2. Verifique o sinal do teste.

O sinal positivo indica que a associação é positiva, ou seja, elevações no interesse por política são acompanhadas de elevações na escala de confiança no Congresso.

3. Verifique o valor do teste para descobrir a intensidade do relacionamento.

na escala de confiança no Congresso. 3. Verifique o valor do teste para descobrir a intensidade
na escala de confiança no Congresso. 3. Verifique o valor do teste para descobrir a intensidade
na escala de confiança no Congresso. 3. Verifique o valor do teste para descobrir a intensidade

TAU c ( τ c )

Diferença entre linhas e colunas: o Tau c é o equivalente ao Tau b quando a tabela não possui o mesmo número de linhas e colunas.

Procedimento: o mesmo utilizado anteriormente

Analyze – Descriptive Statistics - Crosstabs

de linhas e colunas. Procedimento: o mesmo utilizado anteriormente Analyze – Descriptive Statistics - Crosstabs

Na caixa das linhas (rows) introduza a variável Sexo e na caixa das colunas (columns) introduza a Confiança Institucional no Congresso

(rows) introduza a variável Sexo e na caixa das colunas (columns) introduza a Confiança Institucional no
(rows) introduza a variável Sexo e na caixa das colunas (columns) introduza a Confiança Institucional no
(rows) introduza a variável Sexo e na caixa das colunas (columns) introduza a Confiança Institucional no

Clique em Statistics e marque a opção Kendall’s Tau-b. Continue e OK.

Clique em Statistics e marque a opção Kendall’s Tau-b. Continue e OK.

Passos para a interpretação:

1.Identifique o nível de significância para decidir se é possível rejeitar a hipótese nula. Lembrem-se que rejeitamos H 0 sempre que o valore for igual ou menor que 0,05, o que representa a chance de cometer erro de tipo I de 1/20.

Como verificamos sig.=.000, podemos rejeitar a hipótese nula da independência entre as variáveis em termos populacionais.

2. Verifique o sinal do teste.

O sinal positivo indica que a associação é positiva, ou seja, elevações no interesse por política são acompanhadas de elevações na escala de confiança no Congresso.

3. Verifique o valor do teste para descobrir a intensidade do relacionamento.

na escala de confiança no Congresso. 3. Verifique o valor do teste para descobrir a intensidade

D SOMER

Teste Assimétrico: diferentemente do γ e do τ b , que não consideram a questão da dependência ou independência, o teste d de Somer fornece valores distintos para cada tipo de relacionamento.

Previsão de X por Y: em um teste de associação envolvendo duas variáveis discretas multicategóricas com ordenação o d de Somer indicará o quanto o conhecimento de X colabora na previsão de Y, por isso é uma medida assimétrica.

Procedimento: o mesmo utilizado anteriormente

Analyze – Descriptive Statistics - Crosstabs

uma medida assimétrica. Procedimento: o mesmo utilizado anteriormente Analyze – Descriptive Statistics - Crosstabs

Na caixa das linhas (rows) introduza a variável Educação Recodificada (x5r) e na das colunas (columns) introduza a Importância da Política.

introduza a variável Educação Recodificada (x5r) e na das colunas (columns) introduza a Importância da Política.

Clique em Statistics e marque a opção Somers’d. Continue e OK.

Clique em Statistics e marque a opção Somers’d. Continue e OK.

Passos para a interpretação:

O d de Somer apresenta três valores:

§Na primeira linha o valor simétrico, desconsiderando a independência, como o Gamma. §Na segunda apresenta o valor tomando X como dependente §Na terceira tomando o Y como independente 1.Decida qual dos valores será utilizado.

2. Identifique o nível de significância para decidir se é possível rejeitar a hipótese nula. Lembrem-se que rejeitamos H 0 sempre que o valore for igual ou menor que 0,05, o que representa a chance de cometer erro de tipo I de 1/20.

Como verificamos sig.=.000, podemos rejeitar a hipótese nula da independência entre as variáveis em termos populacionais.

2.

Verifique o sinal do teste.

O

sinal positivo indica que a associação é positiva, ou seja, elevações no interesse por

política são acompanhadas de elevações na escala de confiança no Congresso.

3. Verifique o valor do teste para descobrir a intensidade do relacionamento.

na escala de confiança no Congresso. 3. Verifique o valor do teste para descobrir a intensidade

COMPARANDO TESTES DE ASSOCIAÇÃO

RPE: todas as medidas de associação para variáveis discretas multicategóricas ordenadas estudadas, com exceção do tau c, são estatísticas de Redução Proporcional de Erro.

Como decidir? Isso pode tornar difícil a decisão sobre qual teste utilizar.

Simétrico X Assimétrico: a primeira pergunta relevante diz respeito ao seu interesse em testar apenas a associação entre as variáveis ou se também pretende entender a relação de dependência entre elas.

Dependência: se uma de suas variáveis é claramente dependente a escolha é fácil, pois o d de Somer foi criado especificamente para essas situações.

é claramente dependente a escolha é fácil, pois o d de Somer foi criado especificamente para
é claramente dependente a escolha é fácil, pois o d de Somer foi criado especificamente para

Simples Associação: se o seu interesse é testar apenas e existe associação, sem certezas sobre a relação de dependência, tem três opções.

Exclusão dos pares amarrados em Gamma: como vimos o Gamma exclui do seu cálculo todos os pares amarrados, ou seja, idênticos em X e Y.

Valores Maiores: esse procedimento faz com que os valores desse testes sejam sempre mais elevados que os Taus.

Recomendação: pelo fato de levarem em consideração os pares coincidentes em X e Y as medidas de Tau são recomendadas.

b ou c: lembrem-se que o tau b se aplica para tabelas quadradas (L=C) e o c para tabelas com outros formatos (LC).

b ou c: lembrem-se que o tau b se aplica para tabelas quadradas (L=C) e o
b ou c: lembrem-se que o tau b se aplica para tabelas quadradas (L=C) e o

RHO DE SPEARMAN

Polêmica: todos os testes que estudamos até aqui foram desenvolvidos para variáveis discretas ordenadas, mas existem alguns pesquisadores que utilizam para esse tipo de variáveis um teste desenvolvido para variáveis contínuas. Variáveis Contínuas: algumas variáveis contínuas ao invés de representarem valores fracionáveis, fornecem apenas indicações sobre posições ordenadas Tempo de um Corredor: 45’33’’ Posição de um Corredor: 3º lugar Ordenamento: nesse último caso temos uma variável contínua que oferece informações sobre uma ordem e não sobre quantidades.

nesse último caso temos uma variável contínua que oferece informações sobre uma ordem e não sobre
nesse último caso temos uma variável contínua que oferece informações sobre uma ordem e não sobre

Rho de Spearman ( ρ s ): é a estatística mais indicada para esse tipo de variável contínua ordenada.

Lógica do Teste: para cada observação temos dois grupos de informações ordenadas (X e Y) que serão comparadas

1. tomando inicialmente a diferença no ordenamento (D i ), ou

seja, qual a diferença em termos de ordem encontrado para o indivíduo João na variável X e Y. Podemos considerar como exemplo que em X ele ocupe a 10 posição e em Y a 1. Nesse caso a diferença é igual a 9.

2. elevando ao quadrado a diferença entre os ordenamentos.

3. somando esses quadrados das diferenças.

é igual a 9. 2. elevando ao quadrado a diferença entre os ordenamentos. 3. somando esses
é igual a 9. 2. elevando ao quadrado a diferença entre os ordenamentos. 3. somando esses

RHO DE SPEARMAN NO SPSS

Variáveis Contínuas Ordenadas: vamos conduzir um exercício fazendo uma interpretação mais flexível do que seria uma variável dessa natureza.

Avaliações de Sistemas Políticos: vamos considerar duas medidas que avaliam sistemas políticos nacionais com escalas que vão de 0 a 9.

Procedimento: Analyze - Correlate - Bivariate

que avaliam sistemas políticos nacionais com escalas que vão de 0 a 9. Procedimento: Analyze -
que avaliam sistemas políticos nacionais com escalas que vão de 0 a 9. Procedimento: Analyze -
que avaliam sistemas políticos nacionais com escalas que vão de 0 a 9. Procedimento: Analyze -

Na seguinte janela vamos introduzir as variáveis Avaliação do

Sistema Político Atual (p26) e Avaliação do Sistema Político daqui

a 10 anos (p28).

Nossa intenção é verificar se as pessoas que avaliam positivamente

a democracia atual manifestam expectativa positiva em relação ao futuro político.

Marque a opção Spearman, Two-talled e Flag significant correlations

positiva em relação ao futuro político. Marque a opção Spearman, Two-talled e Flag significant correlations
positiva em relação ao futuro político. Marque a opção Spearman, Two-talled e Flag significant correlations
positiva em relação ao futuro político. Marque a opção Spearman, Two-talled e Flag significant correlations

Passos para a interpretação:

Na tabela vemos duas linhas e duas colunas que cruzam variáveis em questão.

A célula do cruzamento da primeira linha com a primeira coluna tem coeficiente de 1.0, porque reflete a associação da avaliação do sistema político atual com ela mesma.

A célula do cruzamento da segunda linha com a segunda coluna tem coeficiente de 1.0, porque reflete a associação da avaliação do sistema anterior atual com ela mesma.

1ª Linha e 2ª Coluna: só nos interessa o cruzamento de uma com a outra, então é a célula gerada pelo encontro da 1ª linha e 2ª coluna que devemos observar.

o cruzamento de uma com a outra, então é a célula gerada pelo encontro da 1ª

1.Identifique o nível de significância para decidir se é possível rejeitar a hipótese nula. Lembrem-se que rejeitamos H 0 sempre que o valor for igual ou menor que 0,05, o que representa a chance de cometer erro de tipo I de 1/20. Como verificamos sig.=.000, podemos rejeitar a hipótese nula da independência entre as variáveis em termos populacionais. ** como marcamos a opção Flag, o SPSS marca com esse sinal as correlações significativas.

2. Verifique o sinal do teste.

O sinal positivo indica que a associação é positiva, ou seja, elevações no interesse por política são acompanhadas de elevações na escala de confiança no Congresso.

3. Verifique o valor do teste para descobrir a intensidade do relacionamento.

na escala de confiança no Congresso. 3. Verifique o valor do teste para descobrir a intensidade
na escala de confiança no Congresso. 3. Verifique o valor do teste para descobrir a intensidade
na escala de confiança no Congresso. 3. Verifique o valor do teste para descobrir a intensidade

VARIÁVEIS NOMINAIS E ESCALARES

Cruzamentos mistos: em alguns casos nossas hipóteses exigem o cruzamento entre variáveis com distintos níveis de mensuração.

ETA: é uma medida de associação empregada quando temos uma variável nominal e outra escalar ou contínua.

Procedimentos: Analyze – Descriptive Statistics – Crosstabs

temos uma variável nominal e outra escalar ou contínua. Procedimentos: Analyze – Descriptive Statistics – Crosstabs

Na caixa das linhas (rows) introduza a variável Sexo Na caixa das colunas (columns) introduza a variável Índice de Participação Não-Convencional

a variável Sexo Na caixa das colunas (columns) introduza a variável Índice de Participação Não-Convencional

Clique em Statistics e marque ETA. Continue e OK.

Clique em Statistics e marque ETA. Continue e OK.

INTERPRETAÇÃO DO OUTPUT

O ETA varia de -1,00 a 1,00. Quando mais distante de 0 maior é a intensidade do relacionamento entre as variáveis.

é a intensidade do relacionamento entre as variáveis. Direcional: notem que essa medida também é direcional,

Direcional: notem que essa medida também é direcional, ou seja, pressupõe a definição de dependência e independência.

notem que essa medida também é direcional, ou seja, pressupõe a definição de dependência e independência.
notem que essa medida também é direcional, ou seja, pressupõe a definição de dependência e independência.

CORRELAÇÃO E REGRESSÃO

CORRELAÇÃO E REGRESSÃO
CORRELAÇÃO E REGRESSÃO

CORRELAÇÃO E REGRESSÃO

Relacionamento entre variáveis contínuas: os testes que iremos estudar a partir de agora exigem que as variáveis possuam nível de mensuração mais elevado.

Interpretação de valores: de forma parecida com alguns dos testes anteriores a medida de correlação que veremos varia de -1,00 a 1,00, passando por 0,00. Quando mais próximo de 0,00 menor é a evidência de correlação. Valores próximo de -1,00 indicam correlação negativa e próximos de 1,00 revelam correlação positiva.

Correlação de Pearson: é empregada quando as variáveis são contínuas.

de 1,00 revelam correlação positiva. Correlação de Pearson: é empregada quando as variáveis são contínuas.
de 1,00 revelam correlação positiva. Correlação de Pearson: é empregada quando as variáveis são contínuas.

CONDIÇÕES E EXIGÊNCIAS PARA A CORRELAÇÃO DE PEARSON

Linearidade: as duas variáveis devem ter um relacionamento linear, ou seja, percorrendo uma reta.

üVeremos como identificar se essa exigência é atendida com diagramas de dispersão (Scatterplot).

Normalidade: os valores de uma variável são normalmente distribuídos para cada valor da outra variável e vice-versa.

üSe os graus de liberdade (n-1) são maiores que 25 a violação dessa regra não causa conseqüências relevantes.

Outliers: podem ter um grande efeito sobre a correlação.

violação dessa regra não causa conseqüências relevantes. Outliers: podem ter um grande efeito sobre a correlação.
violação dessa regra não causa conseqüências relevantes. Outliers: podem ter um grande efeito sobre a correlação.

DIAGRAMA DE DISPERSÃO (SCATTERPLOTS) PARA TESTE DE EXIGÊNCIAS OU CONDIÇÕES

Diagrama de Dispersão: gráfico que mostra como os valores de um indivíduo em duas variáveis se relacionam. Correlação positiva alta: no caso de uma correlação altamente positiva os pontos que representam cada um dos indivíduos ou casos deve estar próximo de um linha reta que parte do canto inferior esquerdo para o canto superior direito do gráfico. Correlação negativa alta: quando esses pontos estão próximos de uma linha reta que parte do canto esquerdo superior para o inferior direito do gráfico. Correlações próximas de 0: a linha é plana e existem muitos pontos distantes dela. Visualização gráfica: o que um scatterplots fornece, portanto, é uma visualização gráfica da correlação Pearson de Produtos de Momentos.

o que um scatterplots fornece, portanto, é uma visualização gráfica da correlação Pearson de Produtos de
o que um scatterplots fornece, portanto, é uma visualização gráfica da correlação Pearson de Produtos de

Teste de duas exigências: esse gráfico indica se as duas exigências fundamentais dessa medida são atendidas. §Inexistência de muitos outliers: basta verificar se existem muitos pontos distantes da reta. §Linearidade: basta ver se a curva se aproxima de uma reta. §Se não existem muitos outliers e a curva se aproxima de uma linha reta as exigências estão satisfeitas.

reta. §   Se não existem muitos outliers e a curva se aproxima de uma linha
reta. §   Se não existem muitos outliers e a curva se aproxima de uma linha

Procedimentos: Abrir a base MQ UFSC 2011 2.

Procedimentos: Abrir a base MQ UFSC 2011 2.

Graphs Legacy Dialogs – Scatter

Graphs Legacy Dialogs – Scatter

Clique em Simple – Define

Clique em Simple – Define
Clique em Simple – Define
Clique em Simple – Define

Coloque a variável Salário Atual no eixo Y e Anos de Estudo no eixo

X.

Coloque a variável Salário Atual no eixo Y e Anos de Estudo no eixo X.

Clique em Titles e escreva “Correlação entre Salário e Anos de Estudo” – Continue – OK.

Clique em Titles e escreva “Correlação entre Salário e Anos de Estudo” – Continue – OK.

O gráfico foi construído, entretanto, precisamos introduzir a reta:

Duplo clique no gráfico para abrir o Chart Editor – Clique em Elements e selecione a opção Fit Line at Total – Feche o editor.

no gráfico para abrir o Chart Editor – Clique em Elements e selecione a opção Fit

Interpretando o Output Cada um dos pontos incluídos no gráfico representa um participante da pesquisa e a sua localização depende dos valores que ele possui em cada variável.

representa um participante da pesquisa e a sua localização depende dos valores que ele possui em

A linha reta demonstra que existe linearidade e a sua inclinação em trajetória ascendente informa sobre seu caráter positivo.

reta demonstra que existe linearidade e a sua inclinação em trajetória ascendente informa sobre seu caráter

Ø Notem que apesar de existirem alguns pontos distantes da reta, a maioria deles está próximo, indicando a existência de correlação considerável. Ø Essa mesma afirmação pode ser obtida pelo r 2 que aparece no interior o gráfico (canto superior direito). Ø Para encontrar o r (Pearson) basta extrair a raiz quadrada do r 2 , ou seja, a raiz de 0,436 é 0,66. Um valor bastante considerável se lembrarmos que o Pearson vai de -1,00 a 1,00.

2 , ou seja, a raiz de 0,436 é 0,66. Um valor bastante considerável se lembrarmos
2 , ou seja, a raiz de 0,436 é 0,66. Um valor bastante considerável se lembrarmos

CORRELAÇÕES BIVARIADAS DE PEARSON

Pearson: a correlação de produtos de momentos de Pearson é uma medida bivariada quando as duas variáveis envolvidas possuem distribuição aproximadamente normal.

Base: abra agora a base MQ UFSC 2011 2

Procedimentos:

§Analyze – Correlate – Bivariate.

normal. Base: abra agora a base MQ UFSC 2011 2 Procedimentos: §   Analyze – Correlate
normal. Base: abra agora a base MQ UFSC 2011 2 Procedimentos: §   Analyze – Correlate
normal. Base: abra agora a base MQ UFSC 2011 2 Procedimentos: §   Analyze – Correlate

Transfira Anos de Estudo e Salário Atual para a caixa Variables.

Transfira Anos de Estudo e Salário Atual para a caixa Variables.

Marque as opções Pearson – em Teste of Sig, marque two-tailed – marque Flag sig. Correlations.

Marque as opções Pearson – em Teste of Sig, marque two-tailed – marque Flag sig. Correlations.

Clique em Options e marque Means e s.d. e Exclude cases listwise – continue – OK.

Clique em Options e marque Means e s.d. e Exclude cases listwise – continue – OK.
Clique em Options e marque Means e s.d. e Exclude cases listwise – continue – OK.
Clique em Options e marque Means e s.d. e Exclude cases listwise – continue – OK.

Interpretando o Output

São geradas três tabelas.

1. Tabela com as médias e desvios das duas variáveis.

2. Os coeficientes de Pearson.

desvios das duas variáveis. 2. Os coeficientes de Pearson. Ø   Inicialmente verifique o nível de
desvios das duas variáveis. 2. Os coeficientes de Pearson. Ø   Inicialmente verifique o nível de

Ø Inicialmente verifique o nível de significância. Ø Em seguida verifique os valores do teste. Note que quando são significativos o SPSS adiciona uma marcação solicitada pelo comando Flag.

os valores do teste. Note que quando são significativos o SPSS adiciona uma marcação solicitada pelo
os valores do teste. Note que quando são significativos o SPSS adiciona uma marcação solicitada pelo

MATRIZ DE CORRELAÇÃO

Mais de duas variáveis: muitas vezes nosso interesse é saber se mais de duas variáveis ordinais ou escalares se correlacionam.

Matriz: o SPSS nesses casos fornece uma matriz de correlação que nos informa sobre as relações entre cada par de variáveis.

Procedimento: Analyze – Correlate – Bivariate.

que nos informa sobre as relações entre cada par de variáveis. Procedimento: Analyze – Correlate –

Transfira Salário Inicial, Tempo de serviço, Salário atual, Anos de estudo, Experiência na função e Sexo.

A Variável sexo: notem que desta vez incluímos a variável sexo, considerada como ordinal na medida em que 0 é homem e 1 mulher.

Marque Pearson, Two-tailed e Flag significant correlations.

como ordinal na medida em que 0 é homem e 1 mulher. Marque Pearson, Two-tailed e
como ordinal na medida em que 0 é homem e 1 mulher. Marque Pearson, Two-tailed e
como ordinal na medida em que 0 é homem e 1 mulher. Marque Pearson, Two-tailed e

Em Options Means e S.D. e Exclude cases Listwise.

Em Options Means e S.D. e Exclude cases Listwise.
Em Options Means e S.D. e Exclude cases Listwise.
Em Options Means e S.D. e Exclude cases Listwise.

Interpretação do Output Duas tabelas, a primeira com as médias e desvios.

Interpretação do Output Duas tabelas, a primeira com as médias e desvios.
Interpretação do Output Duas tabelas, a primeira com as médias e desvios.
Interpretação do Output Duas tabelas, a primeira com as médias e desvios.

e a segunda com a matriz de correlações.

e a segunda com a matriz de correlações. Ø   As correlações que alcançaram significância aparecem

Ø As correlações que alcançaram significância aparecem destacadas com **. Ø Verifique os níveis de significância da correlação entre cada par de variáveis. Ø Identifique os valores e a direção de cada correlação.

da correlação entre cada par de variáveis. Ø   Identifique os valores e a direção de
da correlação entre cada par de variáveis. Ø   Identifique os valores e a direção de

CONSIDERAÇÕES GERAIS SOBRE REGRESSÃO

Predições: para além da correlação algumas vezes os pesquisadores podem estar interessados em prever ou explicar o comportamento de uma variável (dependente) em razão de uma outra (independente).

Origem do termo: Francis Galton (1822-1911) a partir de estudos sobre hereditariedade de medidas.

Variáveis Intervalares e Contínuas (quantitativas): nesse tipo de análise, entretanto, são exigidas variáveis intervalares ou contínuas.

e Contínuas (quantitativas): nesse tipo de análise, entretanto, são exigidas variáveis intervalares ou contínuas.
e Contínuas (quantitativas): nesse tipo de análise, entretanto, são exigidas variáveis intervalares ou contínuas.

Simples: quando a regressão envolve apenas duas variáveis consideramos o modelo como simples ou bivariado.

Múltipla: se mais de duas variáveis estão envolvida estamos diante de uma regressão múltipla.

Combinações ou Hierarquia de Efeitos: se a regressão simples apenas fornece informações sobre a intensidade do relacionamento entre as variáveis, a múltipla informa qual combinação de variáveis independentes explica melhor a dependente e também indica qual das preditoras possui maior capacidade explicativa.

independentes explica melhor a dependente e também indica qual das preditoras possui maior capacidade explicativa.
independentes explica melhor a dependente e também indica qual das preditoras possui maior capacidade explicativa.

APROXIMAÇÃO INICIAL

Abordagem intuitiva: a partir dos conteúdos abordados inicialmente é possível realizar uma aproximação inicial intuitiva sobre a técnica de regressão.

Relação entre variáveis: partindo do pressuposto de que a regressão simples

é uma extensão da análise de correlação, vamos imaginar que nossa

intenção seja entender mais profundamente a relação entre escolaridade

e salário.

Plotagem dos dados: um bom começo pode ser a plotagem dos dados para a visualização gráfica do relacionamento.

Procedimento: Graphs – Legacy Dialogs – Scatter/Dot – Simple.

para a visualização gráfica do relacionamento. Procedimento: Graphs – Legacy Dialogs – Scatter/Dot – Simple.

Salário Atual no eixo Y e Anos de Estudo no X e OK.

Salário Atual no eixo Y e Anos de Estudo no X e OK.

O gráfico apresenta no eixo vertical o salário atual dos indivíduos da amostra e no horizontal seus respectivos anos de estudo.

Cada ponto no gráfico representa a intersecção entre essas duas informações para cada pessoa.

anos de estudo. Cada ponto no gráfico representa a intersecção entre essas duas informações para cada

Apenas pela inspeção visual é possível constatar que elevações no salário tendem a serem acompanhadas por elevações nos anos de estudo.

Esse comportamento revela a existência de um relacionamento positivo entre as variáveis.

elevações nos anos de estudo. Esse comportamento revela a existência de um relacionamento positivo entre as

A EQUAÇÃO DA RETA

Para além do gráfico: a plotagem dos dados na forma de um scatter possibilita a identificação do padrão geral de relacionamento entre as variáveis, mas é algo muito vago e impreciso.

Uma simples função matemática: para descrever com maior precisão e detalhe esse relacionamento podemos utilizar uma simples função matemática.

Uma reta: o ponto de partida para a identificação dessa função é uma linha reta, cuja fórmula simples é y = a + bx

reta: o ponto de partida para a identificação dessa função é uma linha reta, cuja fórmula
reta: o ponto de partida para a identificação dessa função é uma linha reta, cuja fórmula

y = a + bx

Onde:

§b é a inclinação, ou seja, a quantidade de salário alterada pela mudança de um ponto em termos de anos de estudo §a é o intercepto, o salário esperado para uma pessoa com 0 anos de estudo. §Com esses dois valores é possível estabelecer essa linha que descreve o relacionamento entre as variáveis.

§   Com esses dois valores é possível estabelecer essa linha que descreve o relacionamento entre
§   Com esses dois valores é possível estabelecer essa linha que descreve o relacionamento entre

Felizmente não precisamos entrar em maiores detalhes sobre essa função pois é possível introduzir a reta no gráfico. §Dê um duplo clique no gráfico para abrir o Editor. §Na aba Options selecione Reference Line from Equation e feche o editor. §No centro do gráfico aparece a equação y=4.2857*+-34.2857, ou seja, §Salário Atual=-34.28+4.28*Anos de Estudo

No centro do gráfico aparece a equação y=4.2857*+-34.2857, ou seja, §   Salário Atual=-34.28+4.28*Anos de Estudo

¢ Salário Atual=-34.28+4.28*Anos de Estudo ¢ O coeficiente b, que corresponde à inclinação da reta, indica que para cada ano de estudo ocorre uma elevação de 4.285 no salário. ¢ Como a variável salário está medida em mil dólares anuais, cada ano de estudo adicional eleva o salário em 4.285 mil dólares anuais. ¢ O intercepto a sugere que uma pessoa com 0 ano de escolaridade teria um salário de -34.285 mil dólares anuais. Desta forma podemos concluir que o intercepto fornece informações sobre o que aconteceria com a extrapolação dos dados observados, possibilitando assim a previsão. ¢ A adição de casos reais de pessoas com 0 ano de estudo poderia produzir interceptos mais plausíveis e uma equação com maior capacidade preditiva.

pessoas com 0 ano de estudo poderia produzir interceptos mais plausíveis e uma equação com maior
pessoas com 0 ano de estudo poderia produzir interceptos mais plausíveis e uma equação com maior

GOODNESS OF FIT

Ajustamento imperfeito da equação aos dados: ao observamos o scatter podemos identificar que vários pontos se afastam da reta, o que revela que o ajuste entre a equação e os dados não é perfeito.

R-quadrado: é a medida mais comum de ajustamento e serve para identificarmos o quanto a equação da reta descreve bem o relacionamento entre as variáveis.

0=inexistência de relacionamento: quando o valor dessa medida é igual a 0 devemos entender que não existe relacionamento linear entre as medidas.

quando o valor dessa medida é igual a 0 devemos entender que não existe relacionamento linear
quando o valor dessa medida é igual a 0 devemos entender que não existe relacionamento linear

1=os pontos descrevem uma linha reta: quando o valor é 1 devemos entender que os dados se colocam sobre uma linha reta perfeita.

Capacidade explicativa/preditiva: o R-quadrado também indica quanto o conhecimento sobre a variação de uma medida y é melhorado quando se conhece o valor de uma segunda medida, ou seja, quanto x explica y.

de uma medida y é melhorado quando se conhece o valor de uma segunda medida ,
de uma medida y é melhorado quando se conhece o valor de uma segunda medida ,

AJUSTANDO A LINHA AOS DADOS

Necessidade de ajustamento: o R-quadrado indica se uma equação (ou a linha que a representa) se ajusta bem aos dados concretos, mas é possível produzir melhores ajustamentos de diferentes maneiras.

A soma dos quadrados das distâncias: o método mais empregado para encontrar a reta que melhor descreve os dados faz esse ajustamento através da minimização da soma dos quadrados das distâncias existentes entre cada ponto e a reta.

das distâncias existentes entre cada ponto e a reta. erro na sugerida pela equação ou reta.

erro na sugerida pela equação ou reta.

Distância como erro: em uma outra forma de interpretação essa distância pode ser entendida como o previsão

RESÍDUOS E PONTOS INFLUENTES

Cálculo do quadrado das distancias: todos os dados de uma base são considerado no cálculo do quadrado das distâncias que indicará qual reta descreve melhor o relacionamento entre as variáveis.

Contribuição desigual: mas a simples visualização de um scatter pode revelar que os pontos não contribuem para esse cálculo da mesma maneira.

Influencia desproporcional: pela sua distância acima da média apresentada pelos demais, alguns desses pontos podem influenciar de maneira mais intensa o cálculo.

acima da média apresentada pelos demais, alguns desses pontos podem influenciar de maneira mais intensa o
acima da média apresentada pelos demais, alguns desses pontos podem influenciar de maneira mais intensa o

Pontos com ajuste fraco: esses pontos distantes são pouco ajustados a equação e a reta, sendo também pouco explicados por ela.

Resíduos: esses pontos apresentam grande resíduo, que é a diferença entre o ponto observado e aquele que deveria cair sobre a reta.

Resíduos muito altos: geralmente indicam erros ou observações que distanciam muito do padrão geral da população ou amostra.

Informações sobre resíduos: o SPSS fornece informações sobre a quantidade de resíduos não explicados pela equação.

sobre resíduos: o SPSS fornece informações sobre a quantidade de resíduos não explicados pela equação.
sobre resíduos: o SPSS fornece informações sobre a quantidade de resíduos não explicados pela equação.

EXIGÊNCIAS E PRESSUPOSTOS

Componentes da equação de regressão: essa equação possui uma forma específica que faz com que a variável dependente seja a soma de suas partes, ou seja, a soma do intercepto, de uma combinação linear de variáveis preditoras e do resíduo (erro).

Violações: algumas violações dessa forma básica provocam erros §Omissão de importantes variáveis independentes §Inclusão de variáveis independentes irrelevantes §Não linearidade entre as variáveis dependente e independente

Inclusão de variáveis independentes irrelevantes §   Não linearidade entre as variáveis dependente e independente
Inclusão de variáveis independentes irrelevantes §   Não linearidade entre as variáveis dependente e independente

Outras Exigências §Os erros são normalmente distribuídos. §A diferença entre os valores atuais e os previstos (os resíduos) é constante. §Não ocorre a multicolinearidade, ou seja, não existe forte correlação entre as variáveis preditoras. A existência de multicolinearidade indica que provavelmente suas variáveis medem a mesma coisa ou contém a mesma informação.

de multicolinearidade indica que provavelmente suas variáveis medem a mesma coisa ou contém a mesma informação.
de multicolinearidade indica que provavelmente suas variáveis medem a mesma coisa ou contém a mesma informação.

REGRESSÃO SIMPLES

Modelo bivariado: vamos inicialmente nos ocupar com um modelo que comporta apenas uma variável dependente e uma independente, ou seja, uma equação de regressão simples ou bivariada.

Procedimento: com a base MQ UFSC 2011 2 aberta clique em Análise – Regression – Linear.

simples ou bivariada. Procedimento: com a base MQ UFSC 2011 2 aberta clique em Análise –

Mova a variável Salário Atual para a caixa Dependent e Anos de Estudo para a Independent(s).

Certifique-se de que o método Enter está selecionado.

Equação: Salário Atual = a + b*Anos de Estudo + e

Certifique-se de que o método Enter está selecionado. Equação: Salário Atual = a + b *Anos

Clique em Statistics

Estimates e Model Fit: com essas duas opções previamente marcadas o output exibirá os coeficientes b das variáveis dependentes e medidas de ajuste da equação como o R-quadrado.

Confidence intervals: marque essa opção para que o output mostre intervalos de confiança de 95% para os coeficientes de regressão.

Casewise diagnostics: ao marcar essa opção serão exibidas informações dos casos que apresentam resíduos superiores a dois ou mais desvios padrões da média de resíduos da amostra. Ou seja, serão exibidas informações detalhadas daqueles casos que podem influenciar desproporcionalmente a capacidade explicativa do modelo.

Mude o Outliers outside de 3 para 2, para refinar um pouco mais esse tipo de informação sobre os outliers.

do modelo. Mude o Outliers outside de 3 para 2, para refinar um pouco mais esse
do modelo. Mude o Outliers outside de 3 para 2, para refinar um pouco mais esse
Clique em Continue

Clique em Continue

Clique em Continue
Clique em Continue

Clique em Plots e marque a opção Histogram.

Mova *zresid para a caixa do eixo Y e *zpred para o eixo X.

Mova *zresid para a caixa do eixo Y e *zpred para o eixo X. Ao solicitarmos

Ao solicitarmos um histograma com os resíduos nossa intenção é avaliar a normalidade dos resíduos, que é uma das exigências da regressão.

Clique em Continue e na janela inicial em OK para finalmente rodar o modelo.

que é uma das exigências da regressão. Clique em Continue e na janela inicial em OK
que é uma das exigências da regressão. Clique em Continue e na janela inicial em OK

Sintax:

REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS CI(95) R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT sal_atua /METHOD=ENTER anos_est /SCATTERPLOT=(*ZRESID ,*ZPRED) /RESIDUALS HISTOGRAM(ZRESID) /CASEWISE PLOT(ZRESID) OUTLIERS(2).

/METHOD=ENTER anos_est /SCATTERPLOT=(*ZRESID ,*ZPRED) /RESIDUALS HISTOGRAM(ZRESID) /CASEWISE PLOT(ZRESID) OUTLIERS(2).
/METHOD=ENTER anos_est /SCATTERPLOT=(*ZRESID ,*ZPRED) /RESIDUALS HISTOGRAM(ZRESID) /CASEWISE PLOT(ZRESID) OUTLIERS(2).

OUTPUT

Tabelas e gráficos: a análise de regressão produz uma série de tabelas e gráficos com informações sobre o relacionamento entre as variáveis, o ajuste da equação e sua capacidade explicativa.

Tabela 1: exibe informações sobre as variáveis preditoras adicionadas, método de regressão e nota com a variável dependente.

exibe informações sobre as variáveis preditoras adicionadas, método de regressão e nota com a variável dependente.

Tabela 2: apresenta o coeficiente de múltipla correlação e o seu quadrado, chamado aqui de R-quadrado.

correlação e o seu quadrado, chamado aqui de R-quadrado. Correlação: como em modelos de regressão simples

Correlação: como em modelos de regressão simples temos apenas duas variáveis (dependente e independente) o R-quadrado nada mais é que o coeficiente de correlação entre as mesmas. No caso de modelos com mais preditores esse coeficiente corresponde à correlação entre todas as medidas.

as mesmas. No caso de modelos com mais preditores esse coeficiente corresponde à correlação entre todas
as mesmas. No caso de modelos com mais preditores esse coeficiente corresponde à correlação entre todas

Interpretação: o R-quadrado indica a proporção de variação na variável dependente que pode ser explicada pela(s) variável(s) independente(s).

Um bom preditor: o R-quadrado tem 1 como valor máximo, o que significaria que a variável independente explica 100% da variação da medida dependente.

Anos de estudo: desta forma, podemos concluir que a variável anos de estudo é uma boa preditora do salário atual, pois explica 43,6% da variação salarial.

que a variável anos de estudo é uma boa preditora do salário atual, pois explica 43,6%
que a variável anos de estudo é uma boa preditora do salário atual, pois explica 43,6%
que a variável anos de estudo é uma boa preditora do salário atual, pois explica 43,6%
O R-quadrado ajustado: é uma medida que leva em consideração o número de observações e

O R-quadrado ajustado: é uma medida que leva em consideração o número de observações e o número de variáveis preditoras do modelo.

Poucos dados e muitas variáveis: nesse caso o R-quadrado pode ser espuriamente alto, sendo necessário esse ajustamento. Como no caso em análise o número de observações é considerável não existem diferenças significativas entre os dois valores.

em análise o número de observações é considerável não existem diferenças significativas entre os dois valores.
em análise o número de observações é considerável não existem diferenças significativas entre os dois valores.

Erro padrão: registra a variabilidade dos resíduos na escala original e a relaciona com o desvio padrão dos pontos ao redor da linha com melhor ajuste, desta forma, mede aquilo que não foi explicado pela linha de regressão. Quando mais ajustada é uma linha, menor será seu erro padrão.

aquilo que não foi explicado pela linha de regressão. Quando mais ajustada é uma linha, menor
aquilo que não foi explicado pela linha de regressão. Quando mais ajustada é uma linha, menor
aquilo que não foi explicado pela linha de regressão. Quando mais ajustada é uma linha, menor

Tabela 3: mostra um teste sobre a existência de relacionamento significante entre a variável independente e a medida dependente.

Sig.: o valor de sig. ou p de .000 indica a existência de relacionamento significativo, ainda que a linha dos resíduos demonstre que boa parte da variação não foi explicada pela equação.

significativo, ainda que a linha dos resíduos demonstre que boa parte da variação não foi explicada
significativo, ainda que a linha dos resíduos demonstre que boa parte da variação não foi explicada
significativo, ainda que a linha dos resíduos demonstre que boa parte da variação não foi explicada

Tabela 4: apresenta os coeficientes da linha melhor ajustada aos dados.

os coeficientes da linha melhor ajustada aos dados. Coluna B: exibe os coeficientes parciais de regressão

Coluna B: exibe os coeficientes parciais de regressão que indicam o quanto a mudança de uma unidade na variável independente provoca de efeito na medida dependente.

que indicam o quanto a mudança de uma unidade na variável independente provoca de efeito na
que indicam o quanto a mudança de uma unidade na variável independente provoca de efeito na

Salário Atual=-7.332+1.564*Anos de Estudos

O acréscimo de um ano de estudo acrescenta 1.564 mil dólares de salário anual.

Betas: são coeficientes parciais de regressão que foram padronizados, ou seja, apresentam valores que seriam encontrados se todas as variáveis do modelo tivessem as mesmas medidas.

Comparação de efeitos: os Betas são fundamentais quando o pesquisador precisa identificar qual das variáveis incluídas como preditoras mais afeta a variável dependente em um modelo múltiplo.

identificar qual das variáveis incluídas como preditoras mais afeta a variável dependente em um modelo múltiplo.
Teste T: é um teste aplicado a cada coeficiente parcial de regressão para saber se

Teste T: é um teste aplicado a cada coeficiente parcial de regressão para saber se o seu valor é diferente de zero na população, ou seja, se é estatisticamente significativo.

Como temos apenas uma variável independente em nosso modelo o resultado desse teste deve ser idêntico ao encontrado no teste F da tabela 3 do output (com elevação ao quadrado).

T=19.115 2 =365,38 (o valor de F anterior).

Ambos indicam que os valores dos intercepto e da preditora são diferentes de zero na população.

valor de F anterior). Ambos indicam que os valores dos intercepto e da preditora são diferentes
valor de F anterior). Ambos indicam que os valores dos intercepto e da preditora são diferentes

Intervalo de confiança: as duas últimas colunas trazem os valores de B para o intercepto e para as variáveis preditoras considerando 95% de intervalo de confiança.

Interpretação: se essa análise for repetida em amostras adicionais os valores de B podem variar dentro dos limites apresentados nas duas colunas. Vale lembrar que quanto menor for essa variação, melhor é a explicação fornecida pela equação.

nas duas colunas. Vale lembrar que quanto menor for essa variação, melhor é a explicação fornecida
nas duas colunas. Vale lembrar que quanto menor for essa variação, melhor é a explicação fornecida
nas duas colunas. Vale lembrar que quanto menor for essa variação, melhor é a explicação fornecida

Resíduos: a partir da tabela 5 temos informações sobre os resíduos que são importantes pois contribuem para a avaliação sobre a precisão ou capacidade explicativa do modelo.

Melhorias na equação: além disso, analisar os casos onde se constatam grandes resíduos pode ajudar o pesquisador a melhorar sua equação através da inclusão de outras medidas inicialmente desprezadas.

Teste de exigências: por fim, a análise dos resíduos leva a testes sobre importantes exigências da técnica de regressão, como a normalidade e a homogeneidade.

dos resíduos leva a testes sobre importantes exigências da técnica de regressão, como a normalidade e
dos resíduos leva a testes sobre importantes exigências da técnica de regressão, como a normalidade e

Tabela 5: mostra que dos 474 casos que compõem a amostra 18 apresentam resíduos maiores situados a mais de 2 desvios- padrões da linha da regressão, tal como definimos anteriormente.

resíduos maiores situados a mais de 2 desvios- padrões da linha da regressão, tal como definimos

Indício de normalidade: esse número de pontos destacados sugere que a exigência da normalidade na distribuição dos resíduos foi atendida.

Uma distribuição normal: lembrem-se que a distribuição normal possui forma de sino e que apenas 5 de cada 100 casos se localizam para além de 2 desvios-padrões.

5 de cada 100 casos se localizam para além de 2 desvios-padrões. 18 casos correspondem a

18 casos correspondem a 3,79% dos 474 casos da amostra.

5 de cada 100 casos se localizam para além de 2 desvios-padrões. 18 casos correspondem a
5 de cada 100 casos se localizam para além de 2 desvios-padrões. 18 casos correspondem a

Colunas:

§Primeira: traz o número de identificação dos casos destacados. §Segunda: indica sua localização em termos de desvios-padrões em relação a linha da equação. §Terceira: exibe os salários atuais de cada um dos 18 casos. §Quarta: apresenta os salários previstos pela equação para cada um deles. §Quinta: exibe a diferença entre o que havia sido previsto e o salário atual observado. §A comparação desses valores pode indicar casos bastante distantes da média de resíduos que merecem a atenção do pesquisador. §Esses casos que desafiam o modelo podem sugerir a inclusão de novas variáveis que possam reduzir os resíduos não explicados pela equação. §Com esse procedimento problemas com dados errados também podem ser identificados.

explicados pela equação. §   Com esse procedimento problemas com dados errados também podem ser identificados.
explicados pela equação. §   Com esse procedimento problemas com dados errados também podem ser identificados.

Tabela 6: fornece informações gerais sobre os resíduos, como o resíduo mínimo, máximo, média e o padronizado.

Resíduo Padrão: é o mais relevante, pois indica a capacidade explicativa do modelo. Resíduo padrão Mínimo negativo indica grande poder de predição, enquanto valores positivos sugerem que a equação possui baixo poder preditivo.

indica grande poder de predição, enquanto valores positivos sugerem que a equação possui baixo poder preditivo.
indica grande poder de predição, enquanto valores positivos sugerem que a equação possui baixo poder preditivo.
indica grande poder de predição, enquanto valores positivos sugerem que a equação possui baixo poder preditivo.

Histograma: fornece informações sobre a normalidade da distribuição dos resíduos, uma das exigências da análise de regressão.

Normalidade: aqui podemos verificar que a distribuição se aproxima da forma de um sino, o que indica uma distribuição aproximadamente normal.

verificar que a distribuição se aproxima da forma de um sino, o que indica uma distribuição

Scatter: uma outra exigência da análise de regressão é que os resíduos devem ser independentes dos valores preditos.

Ausência de padrão: como podemos observar no diagrama de dispersão não existe um padrão no relacionamento. Indício de heterocedasticidade, ou seja, a diferença entre valores previsto e observados (o resíduo) é constante.

Indício de heterocedasticidade, ou seja, a diferença entre valores previsto e observados (o resíduo) é constante.

REGRESSÃO MÚLTIPLA

REGRESSÃO MÚLTIPLA
REGRESSÃO MÚLTIPLA

REGRESSÃO MÚLTIPLA

Análise multivariada: um modelo de regressão múltipla é a extensão multivariada da equação simples anterior.

Variáveis independentes: essa extensão ocorre pela introdução de outras variáveis independentes que teoricamente podem aumentar a capacidade explicativa ou preditiva da equação.

Mesmos métodos com equação ampliada:

§De Y=a+b*X+e para Y=a+b 1 *X 1 +b 2 *X 2 +

+b i *X i +e

com equação ampliada: §   De Y=a+b*X+ e para Y=a+b 1 *X 1 +b 2 *X
com equação ampliada: §   De Y=a+b*X+ e para Y=a+b 1 *X 1 +b 2 *X

Procedimento: na barra de ferramentas clique em Analize,Regression e Linear.

Procedimento: na barra de ferramentas clique em Analize,Regression e Linear.
Procedimento: na barra de ferramentas clique em Analize,Regression e Linear.
Procedimento: na barra de ferramentas clique em Analize,Regression e Linear.

Mova a variável Salário Atual para a caixa Dependent. Coloque todas as demais na caixa Independents. Certifique-se de que o método Enter está selecionado.

a caixa Dependent. Coloque todas as demais na caixa Independents. Certifique-se de que o método Enter

Clique em Statistics, marque a opção Descritives e clique em Continue.

Clique em Statistics, marque a opção Descritives e clique em Continue.
Clique em Statistics, marque a opção Descritives e clique em Continue.
Clique em Statistics, marque a opção Descritives e clique em Continue.

Clique em Plots, marque a opção Histogram, Normal probability plot e Produce all partial plots. Essa última opção irá gerar um plot sobre o relacionamento entre cada variável independente e a dependente.

Mova *ZRESID para o eixo Y e *ZPRED para o X.

Continue.

o relacionamento entre cada variável independente e a dependente. Mova *ZRESID para o eixo Y e

Volte a caixa inicial e clique em OK.

Volte a caixa inicial e clique em OK.
Volte a caixa inicial e clique em OK.
Volte a caixa inicial e clique em OK.

OUTPUT

Tabela 1: oferece um sumário estatístico das variáveis introduzidas no modelo (médias, desvios e N).

OUTPUT Tabela 1: oferece um sumário estatístico das variáveis introduzidas no modelo (médias, desvios e N).

Tabela 2: exibe a matriz de correlações entre as variáveis do modelo. Atenção para o coeficiente negativo de sexo e status de minoria e os positivos de anos de estudo e categoria profissional.

para o coeficiente negativo de sexo e status de minoria e os positivos de anos de
para o coeficiente negativo de sexo e status de minoria e os positivos de anos de
para o coeficiente negativo de sexo e status de minoria e os positivos de anos de

Tabela 3: exibe a lista das variáveis do modelo e o método.

Tabela 3: exibe a lista das variáveis do modelo e o método.

Tabela 4: mostra dados sobre o ajuste do modelo. Note que o acréscimo de novas variáveis preditoras eleva consideravelmente a capacidade explicativa da equação.

§R 2 do modelo simples= 0,436=43,6% §R 2 do modelo múltiplo= 0,832=83,2%

§As 8 variáveis explicam em conjunto 83,2% da variação salarial.

explicam em conjunto 83,2% da variação salarial. §   Conseqüentemente o erro de estimativa é reduzido

§Conseqüentemente o erro de estimativa é reduzido

§Erro do modelo simples=5.13342 §Erro do modelo múltiplo=2.82539 §O R 2 é praticamente o mesmo que o ajustado.

simples=5.13342 §   Erro do modelo múltiplo=2.82539 §   O R 2 é praticamente o mesmo
simples=5.13342 §   Erro do modelo múltiplo=2.82539 §   O R 2 é praticamente o mesmo

Tabela 5: a tabela ANOVA, como já mencionamos, testa se existe relacionamento linear entre as variáveis independentes e a medida dependente

O sig. 0,000 indica a existência de linearidade no relacionamento.

as variáveis independentes e a medida dependente O sig. 0,000 indica a existência de linearidade no
as variáveis independentes e a medida dependente O sig. 0,000 indica a existência de linearidade no
as variáveis independentes e a medida dependente O sig. 0,000 indica a existência de linearidade no

Tabela 6: traz os coeficientes parciais de regressão na segunda coluna, que indicam quanto a mudança de uma unidade na variável independente provoca de efeito na medida dependente.

Equação Múltipla:

provoca de efeito na medida dependente. Equação Múltipla: §   Salário Atual=-4.773+1.264*Salário

§Salário Atual=-4.773+1.264*Salário Inicial+-1.027*Sexo+.068*Tempo de Serviço+-.005*Idade+.228*Anos de Estudo+-.083*Experiência na Função+1.001*Categoria Profissional+-.394*Status de Minoria+e

de Estudo+-.083*Experiência na Função+1.001*Categoria Profissional+-.394*Status de Minoria+ e
de Estudo+-.083*Experiência na Função+1.001*Categoria Profissional+-.394*Status de Minoria+ e

O

acréscimo de mil dólares de salário anual inicial provoca um efeito de 1.364 mil dólares de salário anual atual.

O

caso da variável sexo é particular, pois não se trata de uma variável escalar, mas sim binária. Neste caso 0=homem e 1=mulher, o que conduz a seguinte interpretação: ser mulher implica em uma redução de 1.027 mil dólares de salário anual.

Cada mês de tempo de serviço eleva em .068 mil dólares no salário anual.

A idade é uma variável que não produz efeito significativo, pois o p é maior do que o nível mínimo exigido de .005. O p=.818 indica que o coeficiente para idade não se distancia de 0 na população.

o nível mínimo exigido de .005. O p =.818 indica que o coeficiente para idade não

Cada ano de estudo eleva .228 mil dólares no salário anual.

Cada mês de experiência na função reduz .083 mil dólares no salário atual.

A

elevação de um ponto na escala de categoria profissional eleva em 1.001 mil dólares o salário atual.

O

status de minoria étnica não produz efeito sobre o salário. O p=. 228 indica que o coeficiente desse preditor não se afasta de 0 na população.

produz efeito sobre o salário. O p =. 228 indica que o coeficiente desse preditor não

Betas: como se trata de um modelo multivariado, os Betas servem para comparar as medidas preditoras.

Comparação de efeitos positivos: em termos de coeficientes positivos, como poderíamos antecipar, o Beta do salário inicial é o maior, seguido pela categoria profissional. Tempo de serviço aparece na terceira posição e na quarta anos de estudo.

Comparação de efeitos negativos: experiência na função produz o maior impacto negativo, seguida por sexo.

de estudo. Comparação de efeitos negativos: experiência na função produz o maior impacto negativo, seguida por

Testes de significância: as duas últimas colunas apresentam os testes t para cada preditor. Lembrem-se que essa estatística testa se o coeficiente B é diferente de 0 na população.

Como já mencionamos o valor do t elevado ao quadrado é igual ao valor do F na tabela ANOVA.

Conferindo os sig. podemos identificar que dois preditores não passaram no teste (idade e status de minoria), logo, podem ser excluídos do modelo.

identificar que dois preditores não passaram no teste (idade e status de minoria), logo, podem ser
identificar que dois preditores não passaram no teste (idade e status de minoria), logo, podem ser
identificar que dois preditores não passaram no teste (idade e status de minoria), logo, podem ser

Análise de resíduos: todas as demais tabelas e gráficos se referem a questão dos resíduos e sua análise serve principalmente para confirmar a capacidade explicativa do modelo e também se as exigências básicas da análise de regressão foram satisfeitas.

Tabela 7: fornece informações gerais sobre os resíduos, como o resíduo mínimo, máximo, média e o padronizado.

Resíduo Padrão: é o mais relevante, pois indica a capacidade explicativa do modelo. Resíduo padrão negativo indica grande poder de predição, enquanto valores positivos sugerem que a equação possui baixo poder preditivo.

Padronização: cada resíduo é dividido pelo desvio-padrão de todos os resíduos, o que os coloca em uma escala padronizada.

cada resíduo é dividido pelo desvio-padrão de todos os resíduos, o que os coloca em uma

Histograma dos resíduos: revela que a distribuição dos resíduos se aproxima da forma de um sino, confirmando assim que a exigência da normalidade foi atendida, inclusive com considerável equilíbrio entre o campo negativo e o positivo.

que a exigência da normalidade foi atendida, inclusive com considerável equilíbrio entre o campo negativo e

Normal P-P Plot (Probabilidade-Probabilidade): trata-se de uma diagrama no qual um eixo corresponde a distribuição esperada em termos de uma distribuição normal e a distribuição realmente observada.

Podemos observar que os pontos se aproximam muito da reta, ou seja, a distribuição dos resíduos se aproxima muito da reta da normalidade.

os pontos se aproximam muito da reta, ou seja, a distribuição dos resíduos se aproxima muito

Plots parciais de regressão: todos os demais diagramas do output se referem a relação entre cada variável dependente e a independente.

regressão: todos os demais diagramas do output se referem a relação entre cada variável dependente e
regressão: todos os demais diagramas do output se referem a relação entre cada variável dependente e

REGRESSÃO STEPWISE

Questões exploratórias: em algumas pesquisas precisamos explicar ou prever o comportamento de uma variável, mas não temos uma orientação teórica clara sobre quais seriam as melhores variáveis independentes (ou preditoras) para essa tarefa.

Técnicas de seleção: existem algumas técnicas estatísticas desenvolvidas para selecionar um subgrupo de medidas preditoras que produz uma equação mais ajustada aos dados.

Critérios de significância estatística: é importante lembrar que essas técnicas selecionam as variáveis preditoras a partir de critérios de significância e não teóricos ou substantivos.

técnicas selecionam as variáveis preditoras a partir de critérios de significância e não teóricos ou substantivos.
técnicas selecionam as variáveis preditoras a partir de critérios de significância e não teóricos ou substantivos.

Erro de tipo I: esse método pode resultar em problemas envolvendo erros de I (falsos positivos), quando a base de dados é muito grande.

Efeitos significativos: em grandes amostras existe uma tendência de serem encontrados efeitos estatisticamente significativos em razão do número de casos.

Amostra da amostra: quando se trabalha com bases assim é aconselhável inicialmente realizar a análise inicial com uma amostra da base original.

se trabalha com bases assim é aconselhável inicialmente realizar a análise inicial com uma amostra da
se trabalha com bases assim é aconselhável inicialmente realizar a análise inicial com uma amostra da

Método Stepwise: é um dos métodos mais utilizados para produzir a seleção de variáveis que resulta na equação com melhor ajuste.

Funcionamento: levando em consideração a lista de preditores indicada pelo pesquisador o método introduz na equação primeiramente aquele que, segundo algum critério estatístico, é a melhor. Então o próximo melhor preditor é adicionado na seqüência. Essas adições continuam até que o último preditor com algum efeito tenha sido introduzido.

Diferentes subgrupos: com esse procedimento são geradas diferentes equações compostas por distintos subgrupos de variáveis.

subgrupos: com esse procedimento são geradas diferentes equações compostas por distintos subgrupos de variáveis.
subgrupos: com esse procedimento são geradas diferentes equações compostas por distintos subgrupos de variáveis.

Critérios de seleção: dentre esses diferentes subgrupos de variáveis dependentes é escolhido aquele que resulta na melhor equação, sempre levando em consideração critérios estatísticos. (R 2 / R 2 Ajustado / redução do erro padrão / correlações parciais.)

No SPSS: o critério para inclusão das variáveis é a correlação parcial entre o preditor e a medida dependente, controlada por todas as demais variáveis presentes no modelo.

parcial entre o preditor e a medida dependente, controlada por todas as demais variáveis presentes no
parcial entre o preditor e a medida dependente, controlada por todas as demais variáveis presentes no

RODANDO UMA REGRESSÃO STEPWISE

Na barra de ferramentas clique em Analize,Regression e Linear.

RODANDO UMA REGRESSÃO STEPWISE Na barra de ferramentas clique em Analize,Regression e Linear.

Mova a variável Salário Atual para a caixa Dependent. Coloque todas as demais na caixa Independents. Certifique-se de que o método Stepwise está selecionado.

caixa Dependent. Coloque todas as demais na caixa Independents. Certifique-se de que o método Stepwise está

Clique em Statistics e marque as opções, Estimates, Model fit, R square change e Descriptives.

Clique em Continue e OK.
Clique em Continue e OK.

OUTPUT

Tabelas 1 e 2: apresentam as mesmas informações das tabelas iniciais do modelo com método ENTER.

Tabela 3: mostra os passos que a regressão stepwise seguiu no processo de seleção das variáveis que seriam introduzidas e removidas da equação.

Notem que no primeiro passo Salário inicial foi introduzida primeiro. Nos passos seguintes foram introduzidas as demais.

Idade e Status de Minoria não aparecem porque não seus coeficientes parciais de regressão não atingiram o nível mínimo de significância (.

05).

aparecem porque não seus coeficientes parciais de regressão não atingiram o nível mínimo de significância (.

Tabela 4: fornece informações sobre o ajuste dos 6 modelos criados em cada passo do método Stepwise.

R 2 : comparando a terceira coluna verificamos que a cada passa ocorre um ganho no R 2 indicando crescente ganho na capacidade explicativa das equações.

R 2 Change: a sexta coluna mostra passo a passo quais os acréscimos no R 2.

Erro padrão: inversamente, os erros (quinta coluna) decrescem.

mostra passo a passo quais os acréscimos no R 2 . Erro padrão: inversamente, os erros
mostra passo a passo quais os acréscimos no R 2 . Erro padrão: inversamente, os erros
mostra passo a passo quais os acréscimos no R 2 . Erro padrão: inversamente, os erros

Tabela 5: mostra a soma dos quadrados dos valores preditos e dos resíduos (segunda coluna). Notem que a cada passo o valor da regressão aumenta e o dos resíduos diminui.

F: na quinta coluna aparecem os valores do teste F, que verifica se o relacionamento entre os preditores do grupo e a variável dependente possuem um relacionamento linear na população.

se o relacionamento entre os preditores do grupo e a variável dependente possuem um relacionamento linear

Tabela 6: apresenta os coeficientes B, Beta, testes t e sig. As interpretações de cada um dessas valores é idêntica a que realizamos no modelo com método ENTER.

testes t e sig. As interpretações de cada um dessas valores é idêntica a que realizamos

Tabela 7: mostra quais variáveis foram excluídas em cada passo e estatísticas que justificam o procedimento.

Decisão sobre qual modelo usar: o Stepwise constrói os modelos seguindo critérios estritamente estatísticos, mas outras questões podem ser relevantes na decisão sobre qual modelo será escolhido pelo pesquisador.

Magnitude dos ganhos: um elemento que deve ser considerado é a magnitude dos ganhos que a inclusão de cada variável irá produzir. Notem que entre o primeiro modelo e o último ocorre um acréscimo de menos de 6%. Entretanto, empiricamente sabemos que não faz sentido ficar apenas com a variável salário inicial, cuja correlação com o salário atual é mais do que esperada.

Relevância da teoria e do conhecimento prévio: são elementos fundamentais para realizar escolhas dessa natureza, que extrapolam a lógica estritamente estatística.

são elementos fundamentais para realizar escolhas dessa natureza, que extrapolam a lógica estritamente estatística.
são elementos fundamentais para realizar escolhas dessa natureza, que extrapolam a lógica estritamente estatística.

MULTICOLINEARIDIADE

Definição: a perfeita colinearidade ocorre quando uma das variáveis independentes possui uma relação linear perfeita com outra (s) variável(s) independentes.

Problemas:

§quando ocorre essa perfeita colinearidade um modelo de regressão simplesmente não será rodado pelo programa. §No caso de colinearidade ou multicolinearidade alta o erro padrão aumenta muito. §Os coeficientes de regressão se tornam muito instáveis e qualquer pequena mudança na base de dados pode gerar alterações dramáticas nos coeficientes. §Medidas de ajuste do modelo (como o R 2 ) permanecem corretas, mas nossa capacidade de medir o efeito de um preditor é afetada. §Se as duas variáveis se relacionam intimamente provavelmente são redundantes, ou seja, medem a mesma coisa, sendo impossível distinguir o efeito de uma e outra.

provavelmente são redundantes, ou seja, medem a mesma coisa, sendo impossível distinguir o efeito de uma
provavelmente são redundantes, ou seja, medem a mesma coisa, sendo impossível distinguir o efeito de uma

Alta colinearidade: um os problemas envolvidos nessa questão é que não existe um consenso sobre o que seria uma alta colinearidade, ou seja, não existe acordo sobre qual a intensidade de relacionamento entre preditores é tolerável.

Sinais de problemas: podemos mencionar alguns sinais de possíveis problemas com multicolinearidade.

§O teste F sobre o ajuste do modelo como um todo na Tabela ANOVA é significante, porém nenhum dos coeficientes parciais de regressão são significantes no teste

T.

§Os Betas explodem, atingindo valores superiores a 1. §Ocorrem reduzidos valores de tolerância. Tolerância indica a proporção de variação em um preditor que é independente de qualquer outro na equação. Tolerância de .01 indica que um determinado preditor compartilha 99% da sua variação com outra variável independente, logo, é redundante. §A correlação de coeficientes estimados se torna muito alta.

outra variável independente, logo, é redundante. §   A correlação de coeficientes estimados se torna muito
outra variável independente, logo, é redundante. §   A correlação de coeficientes estimados se torna muito

§Condition Index maior que 30. §Eigenvalues próximos de 0. A soma dos eigenvalues deve ser igual ao número de preditores mais um (intercepto). §Variance Inflation Factors: uma medida do quanto a variança de cada coeficiente de regressão aumenta por causa da multicolinearidade. É uma ótima medida dos custos da multicolinearidade sobre a precisão do modelo. §Variance Decomposition Proportions.

Procedimentos: vamos agora solicitar essas informações para identificarmos o problema no modelo anteriormente rodado.

Procedimentos: vamos agora solicitar essas informações para identificarmos o problema no modelo anteriormente rodado.
Procedimentos: vamos agora solicitar essas informações para identificarmos o problema no modelo anteriormente rodado.

Na barra de ferramentas clique em Analize,Regression e Linear.

Na barra de ferramentas clique em Analize,Regression e Linear.

Mova a variável Salário Atual para a caixa Dependent. Coloque todas as demais na caixa Independents. Certifique-se de que o método Enter está selecionado.

a caixa Dependent. Coloque todas as demais na caixa Independents. Certifique-se de que o método Enter

Clique em Statistics e marque as opções Estimates, Model Fit, Descritives e Collinearity disgnostics.

Continue.

Clique em Statistics e marque as opções Estimates, Model Fit, Descritives e Collinearity disgnostics. Continue.
Clique em Statistics e marque as opções Estimates, Model Fit, Descritives e Collinearity disgnostics. Continue.
Clique em Statistics e marque as opções Estimates, Model Fit, Descritives e Collinearity disgnostics. Continue.

Clique em Save e marque as opções Unstandardized Predited Values, Standardized Predited Values, Unstandardized Residuals, Standardized Residuals, Cook’s, DfBeta(s), Standartized DfBeta(s), DfFit e Covariance Ratio.

Unstandardized Residuals, Standardized Residuals, Cook’s, DfBeta(s), Standartized DfBeta(s), DfFit e Covariance Ratio.

OUTPUT

Tabela 2: é a primeira a oferecer informações sobre o problema, pois mostra a matriz de correlação entre todas as variáveis.

mostra a matriz de correlação entre todas as variáveis. Precisamos aqui identificar se existem coeficientes elevados

Precisamos aqui identificar se existem coeficientes elevados de correlação entre os preditores.

Tabela 6:

§nas penúltima coluna vemos que nenhuma das variáveis possui valores de tolerância muito baixos (crítico de .01). §na última coluna os valores de VIF (Variance Inflation Factors) não são muito elevados (não existe um padrão), indicando que erros não se devem a correlação entre preditores. §Nenhum dos Betas “explodiu” com valores acima de 1.

que erros não se devem a correlação entre preditores. §   Nenhum dos Betas “explodiu” com

Tabela 7:

§Na primeira coluna aparecem os Eigenvalues. Notem que a soma dos valores deve ser igual o número de preditores +1. §6.686+.835+.704+.521+.165+.043+.024+.016+.006=9. §Os eigenvalues não se referem diretamente a nenhuma das variáveis listadas nas colunas da segunda metade da tabela. §Observe que pelo menos três eigenvalues se aproximam do 0, o que indica multicolinearidade. §Para saber quais são as variáveis devemos verificar quais as maiores variações proporcionais, ou seja, quais variáveis têm a maior proporção de sua variação explicada por outros preditores.

proporcionais, ou seja, quais variáveis têm a maior proporção de sua variação explicada por outros preditores

§Nas colunas das variáveis verificamos que as três (além do intercepto) com maior variança proporcional são salário inicial (.71), idade (,71), experiência na função (.69) e status de minoria (.68). Mas lembrem-se que idade e status de minoria foram excluídos do modelo por não atingirem nível de sig. menor que .05. §Na terceira coluna notamos que o valor do Condition Index de um preditor é maior do que o limite de 30. Esse índice é calculado a partir dos eigenvalues, portanto não identifica diretamente qual é a variável responsável por esse valor acima do limite.

dos eigenvalues, portanto não identifica diretamente qual é a variável responsável por esse valor acima do

Estratégias: diante da constatação de que existe multicolinearidade entre os preditores algumas estratégias podem ser adotadas.

§Aumentar o tamanho da amostra nos casos em que existem poucos casos e muitas variáveis no modelo. §Combinar preditores em alguma espécie de indicador ou índice. Aqui podemos pensar em combinar idade com tempo de experiência. §Excluir variáveis redundantes. Talvez seja uma boa idéia excluir salário inicial ou idade, mantendo experiência na função.

variáveis redundantes. Talvez seja uma boa idéia excluir salário inicial ou idade, mantendo experiência na função.
variáveis redundantes. Talvez seja uma boa idéia excluir salário inicial ou idade, mantendo experiência na função.

REGRESSÃO LOGÍSTICA

REGRESSÃO LOGÍSTICA
REGRESSÃO LOGÍSTICA

REGRESSÃO LOGÍSTICA

Variáveis dependentes dicotômicas: muitos problemas de pesquisa, sobretudo nas ciências sociais, envolvem variáveis dependentes que possuem apenas dois valores. Essas medidas são chamadas ainda de binárias ou dummys.

Codificação: devido a sua natureza binária essas variáveis devem possuir a codificação 0 (representando a ausência de um atributo ou a não ocorrência de um evento) e 1 (representando a presença de um atributo ou a ocorrência de um evento).

§Exemplos:

§participação em partidos (0=não participa/1=participa) §Democrata (0=não/1=sim) §Interessado em política (0=não/1=sim)

§Em todos esses casos o investigador estaria interessado em identificar possíveis preditores para explicar a presença do atributo ou a ocorrência do evento em questão. §Que variáveis conduzem à participação em partidos políticos? §Que atributos fazem de um indivíduo alguém comprometido com a democracia? §Quais são as características que favorecem o interesse por política?

EQUAÇÃO LOGÍSTICA

Log Odds (Logaritmo das chances ou probabilidades): diferentemente dos modelos lineares padrões o relacionamento entre as variáveis na regressão logística não é linear em termos da escala de dados, mas sim no logaritmo das chances ou probabilidades de um evento de interesse ocorrer.

ln(Odds)=a +B 1 X 1 +B 2 X 2 +

+B k X k onde

§os termos do lado direito são idênticos à equação do modelo linear padrão §termo do lado esquerdo [ln(Odds)] é o logaritmo natural da probabilidade. §a quantidade desse ln(Odds) é chamada de logit.

§Observação: o valor aproximado do Logaritmo Natural é = 2,718281828459045

desse ln(Odds) é chamada de logit. §   Observação: o valor aproximado do Logaritmo Natural é
desse ln(Odds) é chamada de logit. §   Observação: o valor aproximado do Logaritmo Natural é

ELEMENTOS DE UMA REGRESSÃO LOGÍSTICA

Objetivos fundamentais:

§Determinar o efeito de um grupo de variáveis sobre a probabilidade de um evento §Determinar o efeito de cada variável sobre essa probabilidade §Identificar qual o mais elevado grau de precisão na previsão do evento com um grupo de variáveis

Apesar de não serem mutuamente excludentes, na prática não caminham juntos. Pesquisadores preocupados com causalidade tendem a buscar os dois primeiros objetivos, enquanto aqueles que buscam prever a ocorrência futura de eventos buscam o terceiro objetivo.

dois primeiros objetivos, enquanto aqueles que buscam prever a ocorrência futura de eventos buscam o terceiro
dois primeiros objetivos, enquanto aqueles que buscam prever a ocorrência futura de eventos buscam o terceiro

EXIGÊNCIAS

Poucas condições: se comparado com o modelo linear baseado nos mínimos quadrados que estudamos até aqui, o logit é bem menos exigente.

§as variáveis independentes devem ser intervalares, razão ou dicotômicas §todos os preditores relevantes são incluídos, os irrelevantes são excluídos e o relacionamento é linear §o valor esperado do termo de erro é 0 §não existe autocorrelação §não existe correlação entre o erro e as variáveis independentes §não existe perfeita multicolinearidade entre os preditores Portanto, não são exigidas a normalidade dos erros e a homogeneidade da variança.

entre os preditores Portanto, não são exigidas a normalidade dos erros e a homogeneidade da variança.
entre os preditores Portanto, não são exigidas a normalidade dos erros e a homogeneidade da variança.

RODANDO UMA REGRESSÃO LOGÍSTICA BINÁRIA

Como exercício proponho uma investigação sobre quais os atributos ou fatores individuais que impulsionam ou favorecem a participação dos cidadãos em passeatas e manifestações pacíficas.

Abra a Base1_CursoUFSC

Clique em Análise, Regression, Binary Logistic.

em passeatas e manifestações pacíficas. Abra a Base1_CursoUFSC Clique em Análise, Regression, Binary Logistic.

Mova a variável Participação em Passeatas/Manifestações Bin (p15Bin) para a caixa Dependent. Na caixa Covariates coloque:

§Sexo (x1): dicotômica com 0=feminino e 1=homem. §Idade (x3): razão com o número inteiro de anos de vida. §Estado Civil_Casado (x4Casado): dicotômico com 0=não e 1=sim. §