Você está na página 1de 22

ndice

Introduo ............................................................. 1 Problema .............................................................. 1 Objectivos ............................................................. 1 Objectivo geral ........................................................ 1 Objectivos Especficos ................................................... 1 Metodologia ............................................................ 2 Materiais e Mtodos ..................................................... 2 Reviso da literatura....................................................... 3 Anlise de regresso ..................................................... 3 Modelo de Regresso Linear Mltipla ........................................ 3 Mtodo de estimao dos parmetros ........................................ 4 Pressupostos para inferncia dos parmetros.................................... 5 Apresentao dos Resultados ................................................. 8 Anlise Descritiva das variveis ............................................. 8 Anlise de Regresso Modelo Linear ......................................... 10 Anlise do Modelo Log-Linear ............................................. 13 Concluso ............................................................ 16 Bibliografia ........................................................... 17 Anexos .............................................................. 18

Introduo
Em muitos estudos estatsticos, o objetivo estabelecer relaes que possibilitem predizer variveis em termos de outras. Assim que se fazem estudos para predizer as vendas futuras de um produto em funo do seu preo, a perda de peso de uma pessoa em decorrer do nmero de dias que se submete a uma determinada dieta e\ou tratamento, gastos em funo do rendimento etc. para poder prever uma varivel necessrio primeiro estabelecer uma relao terica de causao com uma ou mais variveis, salientando que a causao terica no implica necessariamente uma causao estatstica.

Neste trabalho, pretende-se estimar um modelo de regresso linear mltiplo que ajude a SNEB (Sindicato Nacional de Empregados Bancrios) a prever e/ou estimar o salrio mdio mensal dos funcionrios envolvidos no atendimento direto ao cliente (Front Officer). Para tal procurou-se tecer uma relao terica de causao das diferenas salariais. Dentre vrias variveis que concorrem explicar o rendimento mensal, neste trabalho tomar-se- em conta a instituio bancria, escolaridade, anos de experiencia, idade, funo, sexo e domnio da lngua inglesa.

Problema
Para melhor planeamento das suas actividades e aumento do poder de barganha com as diferentes instituies do sistema bancrio nacional em relao ao salrio dos seus integrantes, a SNEB esta preocupado em encontrar a melhor forma de estimar e /ou prever o salrio de funcionrios Bancrios na rea Front Officer.

Objectivos
Objectivo geral
Tendo em conta o problema apresentado acima, este trabalho tem como trabalho encontrar o modelo de regresso linear que melhor explica a variabilidade do salrio dos funcionrios Front Officer no sector Bancrio.

Objectivos Especficos
Estimar o modelo de regresso linear mltipla Validao do modelo atravs da anlise residual Testar a significncia dos parmetros

Metodologia
Materiais e Mtodos
No caso em estudo, utilizou-se uma amostra de 250 funcionrios (caixas e front desks) de quatro bancos comerciais operando no pas, escolhidos de forma aleatria. Para cada funcionrio, obteve-se a idade, o banco onde trabalha, a experiencia, o maior nvel de educao concludo, o sexo, se falante de ingls ou no, a funo e o salario ganho. Ao todo, foram observadas oito (8) variveis, das quais trs so quantitativas e cinco so categricas. Uma breve descrio destas variveis feita a seguir:

Varivel Salrio

Descrio

Smbolo modelo

no

Remunerao mensal paga ao funcionrio, sem incluir Salario bnus ou subsdios. Idade Idade, em nmero de anos completos Idade Nmero de anos completos trabalhando na mesma Experincia Anos_experiencia funo. Originou trs variveis dummies, tendo o Banco D BancoA Banco onde como categoria de controlo. Assim, BancoA igual a 1 BancoB trabalha se o individuo funcionrio do Banco A, e igual a zero, (4 caso contrrio. Da mesma forma, se faz a interpretao BancoC categorias) de BancoB e BanoC. Sexo Sexo igual a 1 se o individuo do sexo masculino, e (2 zero se do sexo feminino. Categoria de controlo: Sexo Sexo categorias) feminino. Nvel de Nivel_Tecnico Mede o ltimo grau de educao completo educao satisfatoriamente. (3 Nivel_Superior Categoria de controlo: Nvel Mdio. categorias) Funo A funo desempenhada pelo individuo. Funo igual a (2 1 se for Front Desk e, zero, caso seja Caixa. Controlo: Funo categorias) Caixa Ingls O individuo falante da lngua inglesa? (2 Ingls Ingles igual a 1 caso seja falante, e zero quando no. categorias) Nota : Por questes de polticas institucionais, os nomes dos bancos envolvidos no sero revelados.

Recorreu-se a tcnica de anlise de regresso para alcanar os objectivos antes estabelecidos, tendo a varivel salario como a varivel explicada, e as restantes como explicadoras. Todos testes sero considerados a um nvel de significncia de 5%.

A anlise de dados foi possvel por meio do uso de programas computacionais de anlise estatstica em combinao, Software SPSS verso 17.0, Eviews, pacote estatstico R verso 2.14.1e o complemento Action embutido no Microsoft Office Excel 2007 e Microsoft Office Word para o processamento do texto.

Na verificao dos pressupostos da anlise residual, usar-se- em comunho testes informais (por meio de grficos) e teste formais a nvel de significncia descrito acima.

Reviso da literatura
Anlise de regresso
A anlise de regresso aplicada para compreender a dependncia estatstica de uma varivel em relao a uma ou mais variveis. A tcnica pode mostrar que proporo da variao entre variveis se deve varivel dependente e que proporo se deve s variveis independentes. A relao entre as variveis pode ser ilustrada graficamente ou, na maioria dos casos, por via de uma equao matemtica.

Esta tcnica estatstica habitualmente usada na avaliao de programas no sentido de estimar efeitos. Os efeitos do programa sob avaliao podem ser analisados com base na anlise de regresso, atribuindo parte das mudanas observadas a variveis explicativas, sendo os efeitos restantes atribudos ao programa. Modelo de Regresso Linear Mltipla Um modelo de regresso linear mltiplo (MRLM) descreve uma relao entre varias variveis independentes (explicativas) Xs e uma varivel dependente (resposta) Y, nos termos seguintes:

Modelo Matemtico Mostra existncia de uma relao funcional ou determinstica entre a varivel dependente e a(s) independente(s). = Onde + , , + ,, + + so constantes (parmetros) desconhecidas

Modelo estatstico Mostra uma relao estatstica ou estocstica entre a varivel dependente e a(s)

independente(s), devido a presena do termo aleatrio = + + + + +

Modelo estatstico estimado Modelo estimado por meio de uma amostra proveniente da populao em estudo. = Onde + , , + ,, + + so estimativas dos parmetros que variam de acordo com

amostra selecionada.

Mtodo de estimao dos parmetros


Para estimar parmetros de regresso linear (simples ou mltipla) recorre-se a estimadores mnimos quadrados, por este conseguir produzir melhores estimativas. Mtodo de Mnimos Quadrados Em 1809, Carl Friedrich Gauss (1777-1855) publicou um artigo demonstrando que a melhor maneira de determinar um parmetro desconhecido de uma equao condicional minimizando a soma dos quadrados dos resduos, mais tarde chamado de Mnimos Quadrados por Adrien-Marie Legendre (1752-1833).

O mtodo de mnimos quadrados sempre comea com a minimizao da soma ou seja, mnimos quadrados implica em minimizar a soma dos quadrados dos resduos Um requisito para o mtodo dos mnimos quadrados so que o termo do erro seja distribudo aleatoriamente, essa distribuio seja normal e independente. O Teorema Gauss-Markov garante (embora indiretamente) que o estimador de mnimos quadrados o estimador no-enviesado de mnima varincia linear na varivel resposta. Outro requisito que o modelo linear nos parmetros, ou seja, as variveis apresentam uma relao linear entre si. Teorema de Gauss-Markov: Se as pressuposies do modelo de regresso linear forem atendidas, os estimadores de mnimos quadrados so no tendenciosos

(centrados) e com varincia mnima, entre todos os estimadores lineares no tendenciosos.

Pressupostos para inferncia dos parmetros


(i) Homoscedasticidade do termo de erro (varincia constante). (ii) Os erros so no correlacionados (independncia dos termos de erro) (iii) ~iddN (0, )

(iv) Modelo linear nos parmetros (v) No existir outliers (pontos atpicos) e influentes (vi) No Colinearidade e multicolinearidade entre as variveis explicativas

Normalidade do termo do erro A normalidade dos resduos uma suposio essencial para que os resultados do ajuste do modelo de regresso linear sejam confiveis. Podemos verificar essa suposio por meio do grfico de Papel de Probabilidade (Quantil Quantil) e por meio de testes tais como Shapiro-Wilk, Anderson-Darling e Kolmogorov-Smirnov. Hiptese : : ~ (0, )

Homoscedasticidade do termo do erro Homoscedasticidade o termo para designar varincia constante dos erros para observaes diferentes. Caso a suposio de homoscedasticidade no seja vlida, podemos listar alguns efeitos no ajuste do modelo: Os erros padres dos estimadores, obtidos pelo Mtodo dos Mnimos Quadrados, so incorretos e portanto a inferncia estatstica no vlida. No podemos mais dizer que os Estimadores de Mnimos Quadrados so os melhores estimadores de mnima varincia para, embora ainda possam ser no viciados. Vale ressaltar que a ausncia de homoscedasticidade chamada de

heteroscedasticidade.

Teste de Breusch-Pagan para homoscedasticidade Baseado no teste multiplicador de Lagrange, o teste de Breusch-Pagan bastante utilizado para testar a hiptese nula de que as varincias dos erros so iguais (homoscedasticidade) versus a hiptese alternativa de que as varincias dos erros so uma funo multiplicativa de uma ou mais variveis. indicado para grandes amostras e quando a suposio de normalidade nos erros assumida.

Independncia do termo do erro Uma anlise grfica para verificar a hiptese de independncia dos resduos pode ser feita por meio do grfico dos resduos versus a ordem da recolha dos dados.

Teste de Durbin-Watson para independncia O teste de Durbin-Watson utilizado para detectar a presena de auto-correlao (dependncia) nos resduos de uma anlise de regresso. Este teste baseado na suposio de que os erros no modelo de regresso so gerados por um processo autorregressivo de primeira ordem, de acordo com do erro do modelo na i-sima observao, e : : ~ = 0 0 = 0, + em que o termo | | 1 o parmetro de

auto-correlao. Testamos a presena de auto-correlao por meio das hipteses

Existncia de Outlier Outlier uma observao extrema, ou seja, um ponto com comportamento diferente dos demais. Alm de diagnosticar heteroscedasticidade, o grfico de resduos versus valores ajustados tambm auxilia na deteo de pontos atpicos. Se um outlier for influente, ele interfere sobre a funo de regresso ajustada (a incluso ou no do ponto modifica substancialmente os valores ajustados). Mas uma observao ser considerada um outlier no quer dizer que consequentemente um ponto influente. Por isso, um ponto pode ser um outlier em relao a Y ou aos X, e pode ou no ser um ponto influente.

A deteo de pontos atpicos tem por finalidade identificar: Outlier com relao a X; Outlier com relao a Y; Observaes influentes Outliers em X Outliers em X so detetados por meio da matriz chapu H. Assim, o i-simo elemento da diagonal principal da matriz H e tambm chamado de leverage da observao i. Outliers em Y

Os resduos brutos so definidos como

. Entretanto, para uma melhor

deteo em outliers em Y, eles foram melhorados. Resduos Padronizados Se os erros tm distribuio normal, ento aproximadamente 95% dos resduos padronizados devem estar no intervalo de (-2,2). Resduos fora desse intervalo podem indicar a presena de outliers. Resduos Studentizados Os resduos studentizados tem varincias constantes e igual a 1 o que consequentemente torna muito prtica a procura por outliers, que so observaes distantes das demais.

Pontos Influentes Um ponto influente se sua excluso do ajuste da regresso causa uma mudana substancial nos valores ajustados. Por isso, tcnicas foram desenvolvidas para identificar essas observaes influentes. DFFITS DFFITS mede a influncia que a observao i tem sobre seu prprio valor ajustado. Assim, essa tcnica mede o quanto a incluso da observao i aumenta ou diminui seu valor estimado. Dizemos que um ponto outlier influente segundo o DFFITS se |DFFITS |>1, para amostras pequenas ou mdias. |DFFITS | >2 , para amostras grandes.

DFBETA DFBETA mede a influncia da observao i sobre o coeficiente de |DFBETA | >1, para amostras pequenas. |DFBETA | >2/ , para amostras grandes Distncia de Cook A distncia de Cook mede a influncia da observao i sobre todos n valores ajustados

Colinearidade e Multicolinearidade Quando trabalhamos com mais de uma varivel regressora, muito importante verificar se essas variveis explicativas so correlacionadas. Desta forma, se no houver nenhum relacionamento entre elas, diz-se que so ortogonais. Se as variveis forem muito correlacionadas, as inferncias baseadas no modelo de regresso podem ser errneas ou pouco confiveis.

Por isso, necessrio verificar se as variveis so altamente correlacionadas. Na literatura, os termos Colinearidade (Multicolinearidade) so utilizados para indicar a existncia forte de correlao entre duas (ou mais) variveis independentes. Entretanto, alguns autores designam de Colinearidade a existncia de relao linear entre duas varivel explicativa (matriz de correlao) e de Multicolinearidade a existncia de relao linear entre uma varivel explicativa e as demais. Multicolinearidade A multicolinearidade um problema no ajuste do modelo que pode causar impactos na estimativa dos parmetros. Vamos diagnosticar Multicolinearidade por meio do VIF (Variance Inflation Factor). VIF mede a correlao da varivel com todas as outras do modelo, VIF> 5 ou VIF> 10 (depende dos autores) indicam problemas com estimao de devido multicolinearidade.

Apresentao dos Resultados


Anlise Descritiva das variveis
Aps a apresentao dos materiais e do mtodo a ser utilizado, a seguir apresentam-se os principais resultados do trabalho. De uma forma geral, o salario dos funcionrios da caixa e de atendimento geral dos quatro bancos apresenta uma assimetria positiva, o que demostra que maior parte deles tem os salrios mais baixos. De facto, como pode ser observado pesos resultados apresentados a seguir, 75% dos funcionrios tem salrios compreendidos entre 10.000,00 meticais e 19.500,00 meticais, e os restantes 25% com salrios entre 19.500,00 meticais e 27.680,00 meticais.

0.00015

Comportamento da Renda de Empregados Bancrios**


curv a normal densidade NP

Frequncia relativa

0.00000 10000

0.00005

0.00010

15000

20000

25000

Salrio Base (em Mt) **Funes: Caixa e Front Desk

1 Quartil=15349,41

Mediana=17054,53

Mdia=17795,86

3 Quartil=19479,07

Desvio padro=3658,27

Estes resultados ilustram, de modo geral, a distribuio de salario dentro de toda amostra de 250 funcionrios. A seguir apresentam-se algumas caractersticas para outras variveis de estudo. A idade destes funcionrios varia de 21 a 51 anos completos, sendo a idade mdia de aproximadamente 37 anos, o mesmo valor da moda. Quanto a experincia, o tempo mximo atingido de 12 anos completos, e o mnimo de zero. O tempo mdio para esta varivel de aproximadamente 8 anos. Dos 250 funcionrios, 90 (36%) pertencem ao Banco A, 70 (28%) ao Banco B, 50 (20%) ao Banco C e 40 (16%) ao Banco D. A distribuio de Salrios de cada um destes bancos no difere tanto da distribuio geral. Comportamento do Salrio por Bancos
Banco A B C D Geral N 90 70 50 40 250 Salario mdio 18.065,73 MZN 17.638,48 MZN 17.278,54 MZN 18.110,75 MZN 17.795,86 MZN Desvio Padro 4.247,41 MZN 3.369,27 MZN 2.914,10 MZN 3.586,74 MZN 3.658,27 MZN

So no total, 190 (76%) Mdios, 23 (9,2%) Tcnicos e 37 (14,8%) do ensino superior. A distribuio de salrios para diferentes nveis apresentada na tabela a seguir. Verifica-se que a categoria com maior salrio mdio o nvel Tcnico. Quanto a

funo, 176 (70,4%) so caixa e 74 (29,6%) prestam atendimento geral aos clientes (Front desks).

O nmero de homens (45,6%) menos que das mulheres (54,4%), tendo os homens a maior mdia de salario. De todo, 60 (24%) falam a lngua inglesa contra 190 (76%) que no falam.
Comportamento do Salrio por Sexo
Sexo Mulher Homem Geral N Salario mdio Desvio Padro 3.318,29 MZN 3.773,25 MZN 3.658,27 MZN 136 16.904,36 MZN 114 18.859,41 MZN 250 17.795,86 MZN

Comportamento do Salrio por Ingls


Ingls No Sim Geral N 190 60 250 Salario mdio 17.667,82 MZN 18.201,32 MZN 17.795,86 MZN Desvio Padro 3.685,20 MZN 3.571,61 MZN 3.658,27 MZN

Outras caractersticas relevantes podem ser encontradas no anexo (Estatsticas descritivas).

Anlise de Regresso Modelo Linear


Na tentativa de estimar o salario dos funcionrios com base nas suas caractersticas (idade, experiencia, educao, Banco, Sexo, funo e ingls) estabeleceu-se um modelo linear, a ser estimado pelo mtodo de mnimos quadrados.
= + + + + + + + + + + +

Resultados do modelo Linear O modelo estimado parece muito bem ajustado, pois o coeficiente de determinao de 82%. Descontando o nmero de variveis explicadoras no modelo, o coeficiente de determinao ajustado difere apenas do primeiro em cerca de 1 ponto percentual apenas. Assim sendo, no modelo estimado, as variveis de regressoras explicam cerca de 82% a varivel salario. A seguir, verificou-se pela tabela abaixo que o modelo tem pelo menos uma varivel com coeficiente significativamente diferente de zero, pois o valor p associado a estatstica F de aproximadamente zero.
ANOVA Gl SQ MQ F F de significncia

10

Regresso Residual Total

10 239 249

2732625948 273262594,8 108,8981 4,17604E-83 599732839,1 2509342,423 3332358787

Uma observao no modelo estimado mostra que no h diferenas significativas entre os salrios dos funcionrios do Banco D (categoria de controle) e dos do Banco A, mas h diferenas entre o Banco D e os Bancos B e C a um nvel de significncia 5%. Um facto curioso o sinal dos coeficientes de associados as variveis BancoA, BancoB e BancoC, que so todas negativas em relao ao BancoD. Quanto a educao, verificou-se que, em termos de salrios mdios, os funcionrios do nvel mdio no diferem dos de nvel Superior (que ganham aproximadamente menos 200,00MT em relao aos Mdio), mas no difere do Tcnico. So significativos os coeficientes de Idade, Experiencia e Sexo (Homens diferem das mulheres). No entanto, no h evidncias suficientes da significncia de Funo e Ingls.
Coeficientes Intercepto BancoA BancoB BancoC Tcnico Superior Idade Experiencia Sexo Funo Ingls 9907,15 -540,68 -952,54 -702,13 711,14 -200,72 -102,28 1510,02 859,26 283,36 236,77 Erro-padro 1136,28 305,49 317,11 342,85 321,66 352,70 33,23 52,87 209,36 221,65 240,22 Estatstica t 8,72 -1,77 -3,00 -2,05 2,21 -0,57 -3,08 28,56 4,10 1,28 0,99 Valor P 4,82E-16 0,0780 0,0029 0,0417 0,0280 0,5698 0,0023 0,0000 0,0001 0,2023 0,3253

Anlise residual Modelo Linear Como regra pratica, h indcios de Colinearidade quando se tem coeficientes de correlao iguais ou superiores a 0,9. No caso do modelo estimado, no se verifica tal evento.

11

Colinearidade: Matriz de correlao BancoA BancoA BancoB BancoC Tecnico Superior Idade Experiencia Sexo Funo Ingls 1,000 -0,468 -0,375 0,086 -0,037 0,195 0,066 -0,017 0,025 -0,070 BancoB -0,468 1,000 -0,312 -0,009 0,017 -0,062 0,031 0,001 -0,053 0,025 BancoC -0,375 -0,312 1,000 -0,096 0,048 -0,167 -0,065 -0,076 0,048 -0,047 Tecnico 0,086 -0,009 -0,096 1,000 -0,133 0,458 0,139 -0,088 -0,023 0,003 Superior -0,037 0,017 0,048 -0,133 1,000 -0,137 -0,039 -0,014 0,036 -0,082 Idade 0,195 -0,062 -0,167 0,458 -0,137 1,000 0,475 0,014 -0,033 -0,014 Experiencia 0,066 0,031 -0,065 0,139 -0,039 0,475 1,000 0,158 -0,108 0,009 Sexo -0,017 0,001 -0,076 -0,088 -0,014 0,014 0,158 1,000 0,005 0,162 Funo 0,025 -0,053 0,048 -0,023 0,036 -0,033 -0,108 0,005 1,000 -0,036 Ingls -0,070 0,025 -0,047 0,003 -0,082 -0,014 0,009 0,162 -0,036 1,000

O VIF, que serve para medir a multicolinearidade no apresenta valores superiores a 5, o que no mostra indcios de multicolinearidade.
Multicolinearidade: VIF BancoA BancoB BancoC Tecnico Superior Idade Experiencia Sexo Funo Ingls

2,142

2,02

1,874

1,3

1,035

1,701

1,372

1,083

1,02

1,049

O teste de independncia mostrou resultados satisfatrios a hiptese de independncia dos termos de erro (p-value 0,98). No entanto, tanto o teste de Normalidade, bem como o de Homoscedasticidade do termo de erro indicaram falha na validao dos pressupostos (Breusch Pagan p-value 0,0069). Assim, segundo estes dois ltimos testes, os termos de erro no apresentam uma distribuio normal, muito menos uma varincia constante (Kolmogorov 0,00). Com a violaao destes dois pressupostos, os resultados da anlise de regrasso no so confiaveis. Portanto, o passo seguinte foi corrigir a no normalidade e a heteroscedasticidade dos termos de erro.

12

Anlise do Modelo Log-Linear


Analise residual Diagnstico de linearidade

Figura 1 COMENTARIO Da figura acima podemos observar que a distribuio dos resduos no segue nenhum padro, mas sim esta distribudo de forma aleatria, isto indica que o pressuposto de linearidade no foi violado.

Diagnstico de Normalidade Analisando a figura 1 (anexos) os pontos seguem o comportamento da recta (no esto distantes dela), temos indcios de que os erros so normalmente distribudos e tambm o histograma mostra uma distribuio simtrica. Para complementar o resultado descrito pela anlise grfica, com base no teste de Kolmogorov (p-value 0,0896) no podemos rejeitar a normalidade dos resduos.

Diagnstico de Homoscedasticidade O grfico3 dos resduos versus valores ajustados (valores preditos) uma das principais tcnicas utilizadas para verificar as suposies dos resduos, este pela forma que os pontos esto distribudos (forma aleatria) em torno da linha central mostra que no foi violado o pressuposto de homoscedasticidade. Alm da deteo de heteroscedasticidade, esse grfico pode indicar que no existe uma relao linear entra as variveis explicativas com a varivel resposta por meio de alguma tendncia nos pontos. Em conformidade com a anlise grfica, com base no teste de Breusch-Pagan (p-value 0,3515 > 0,05) pode afirmar-se que a varincia dos termos do erro constante.

Diagnstico de Independncia Para verificar se os resduos so independentes, iremos utilizar tcnicas grficas e testes. A seguir, temos o diagnstico de independncia por essas duas formas.

Figura 2 Se avaliarmos o grfico, no h uma tendncia dos pontos, ou seja, se os pontos tm um comportamento aleatrio, isto , ano seguem nenhum padro na sua distribuio em torno da linha central. Com base no teste DW, (DW=2,215 e p-value 0,956), no se rejeita a hiptese nula da no auto-correlao residual.

Diagnstico de Outlier Com base no teste de outliers de Bonferroni (p-value 0,415) no rejeita a hiptese nula de que existem outliers. Sendo assim h necessidade de verificar os pontos influentes para suportar a deciso de retirada ora no destes pontos na estimao do nosso modelo.

Pontos influentes

DFFIT S
0.8 0.00 0.02 0.04 0.06

D-COOK

-0.4

0.0

50

100

150

200

250

D-COOK

DFFITS

0.4

50

100

150

200

250

Observaes

Observaes

Fig. Grficos com os valores de DFFITS, D-COOK

Pelos resultados das Figuras verificamos que nenhum DFFITS, D-COOK e DFBETAS (no foi possvel apresentar os grficos dos DFBETAS por causa do elevado numero de variveis regressora no modelo) em mdulo maior do que 1. Assim, conclumos que

nenhuma observao um ponto influente. Sendo assim no havendo necessidade de excluirmos os outliers.

Colinearidade Observando os valores da matriz correlao tabela 1 (anexos) presentada verificamos a existncia de correlao muito baixa entre as variveis explicativa, sendo a correlao mais alta apresentada de 0,48 entre as variveis idade e anos de experiencia, que nos leva a concluir que as variveis no so relacionadas. Multicolinearidade
Multicolinearidade
BancoA BancoB BancoC Nivel_Tecnico Nivel_Superior Idade anos_experiencia sexo Funao ingles

2,142

2,02

1,874

1,3

1,035

1,701

1,372

1,083

1,02

1,049

Dos valores apresentados na tabela acima, no se verifica um VIF superior a 5 (sendo este o menor limite apresentado por alguns autores), que significa que no h problema de multicolinearidade das variveis explicativas.

Teste dos coeficientes do modelo Para testar a linearidade do modelo, atravs do teste conjunto dos coeficientes da regresso linear mltipla (sob hiptese nula de que todos coeficientes so iguais e iguais a zero e alternativa de que existe pelo menos um diferente de zero), podemos concluir (p-value 0,00) que existem evidncias suficientes para rejeitar a hiptese nula de todos coeficientes da regresso so iguais a zero, sendo que mantendo outros factores constantes os salario dos bancos A e B no se diferem do banco de controlo (Banco D) com p-value 0,10 e 0,85 respectivamente, mas este (Banco D) difere-se do banco C devido a significncia da estimativa do ltimo (p-value 0,0077). A funo exercida e domnio na expresso em lngua inglesa, no interferem nas diferenas salariais mantendo os outros factores constantes. Os factores factor sexo, tem uma influncia no salario auferido pelo bancrio dado a significncia da estimativa. Quanto a varivel nvel de escolaridade observa-se que no existe diferena significativa entre a categoria de controlo (Nvel mdio) e o nvel superior (p-value 0,13), mas esta difere-se com a do tcnico. A idade e os anos de experiencia, tem um efeito significativo na populao com p-value 0,00 para as duas variveis.

15

Concluso
Apresentao do modelo Com o uso da tcnica estatstica (analise de regresso) conseguimos verificar e medir a o grau de relao e o efeito das diversas variveis usadas no modelo na variao do salario dos bancrios. Estimou-se a prior o modelo linear mltiplo de salario em funo das outras variveis, onde o modelo explicava cerca de 82% da variao do salario, mas as estimativas dos parmetros, no era eficientes (varincia mnima dos estimadores no

enviesados/centrados) porque a varincia do termo do erro no era constante. Para ultrapassar este obstculo, estimou-se uma regresso log-linear (logaritmizar a varivel salario). O novo modelo log-lin de regresso linear mltipla Log (Salrios) = 4,03-0,02BancoA 0,02 BancoB -0,1BancoC + 0,008Nivel_Tecnico -0,01Nivel_Superior - 0,002Idade +0,036 anos_experiencia + 0,02sexo +0,005 Funo + 0,007ingles explica 87% (coeficiente de determinao 0,87) da variao do Log (Salrios), desta forma podemos dizer que o modelo se ajusta aos dados, o que mostra um melhoramento da qualidade dos valores estimados. Em relao aos coeficientes do modelo, 4,03 o valor esperado de um funcionrio do Banco D, sexo feminino, nvel mdio a desempenhar funo caixa, no falante da lngua inglesa, sem experiencia e com idade igual a zero, o que leva este valor a no ter uma interpretao prctica, limitando se apenas na estatstica. Mantendo constante todos outros factores envolvidos no modelo, a cada aumento unitrio de anos de experiencia espera-se que o salario varie no sentido positivo em 0,036% e em 0,002% no sentido contrrio com o aumento da idade Coeteris Paribus. Os funcionrios dos bancos A, B e C auferem um salario infererior ao do grupo de controlo assumindo a hiptese Coeteris Paribus, sendo que dentre eles A e B no diferem-se, mas no pode-se dizer o mesmo comparando os dois com o banco C, pois a diferena media deste com o banco D de -0,1% e -0,02% para A e B. Em mdia, os Desck Officer, chegam a superar os operadores de caixa em 0,05% Coeteris Paribus. Quanto ao grau de instruo acadmica, os funcionrios com nvel superior, em mdia recebem um salario inferior aos mdios e tcnicos.

16

Bibliografia
HAIR, JOSEPH F.; TATHAM, RONALD L.; ANDERSON, ROLPH E.; BLACK, WILIAM et al. traduo, Adonai Schlup SantAnna e Anselmo Chave Neto, Anlise Multivariada de Dados, pp. 25 33, 5 ed. - Porto Alegre: Bookman, 2005.

MARTINS, G. A. Estatstica Geral e Aplicada. So Paulo. Atlas, p.417, 20. Maroco, Joo; Anlise Estatstica com utilizao de SPSS, 3 Edio, Edies Slabo, 2007. Gujarati, D. Econometria Bsica, terceira edio, Makron Books, 2000

17

Anexos

Figura 2 Modelo Log-lin

Figura 3 Modelo Log-Lin


BancoA BancoB BancoC Nivel_Tecnico Nivel_Superior Idade anos_experiencia sexo Funao ingles

BancoA BancoB BancoC Nivel_Tecnico Nivel_Superior Idade anos_experiencia sexo Funao ingles

1,00 -0,47 -0,38 0,09 -0,04 0,20 0,07 -0,02 0,02 -0,07

-0,47 1,00 -0,31 -0,01 0,02 -0,06 0,03 0,00 -0,05 0,03

-0,38 -0,31 1,00 -0,10 0,05 -0,17 -0,06 -0,08 0,05 -0,05

0,09 -0,01 -0,10 1,00 -0,13 0,46 0,14 -0,09 -0,02 0,00

-0,04 0,02 0,05 -0,13 1,00 -0,14 -0,04 -0,01 0,04 -0,08

0,20 -0,06 -0,17 0,46 -0,14 1,00 0,48 0,01 -0,03 -0,01

0,07 0,03 -0,06 0,14 -0,04 0,48 1,00 0,16 -0,11 0,01

-0,02 0,00 -0,08 -0,09 -0,01 0,01 0,16 1,00 0,00 0,16

0,02 -0,05 0,05 -0,02 0,04 -0,03 -0,11 0,00 1,00 -0,04

-0,07 0,03 -0,05 0,00 -0,08 -0,01 0,01 0,16 -0,04 1,00

Tabela 1:Matriz Correlao das variveis regressoras Modelo Log-lin

Preditor

Coeficientes Estimativa Desvio Padro

Estat. T

P-valor

Intercepto BancoA BancoB BancoC Nivel_Tecnico Nivel_Superior Idade anos_experiencia sexo Funao ingles

4,025666676 -0,015929712 -0,022352781 -0,014468447 0,007674644 -0,005359907 -0,001707737 0,036389459 0,020006972 0,005003627 0,006641021

0,022766301 0,006120806 0,00635347 0,006869186 0,006444706 0,007066679 0,000665739 0,001059361 0,004194623 0,004440848 0,004812932

176,8256832 -2,602551345 -3,518200341 -2,106282671 1,190844687 -0,758476076 -2,565173298 34,35038837 4,769671057 1,126727875 1,379828643

2,3656E-255 0,009831661 0,000519941 0,036222875 0,23489593 0,448913329 0,010924074 2,04402E-94 3,2111E-06 0,260987554 0,168928882

Tabela 2: Coeficientes do modelo Log-lin

Estatsticas descritivas Comportamento do Salrio por Nvel de educao


Nvel Mdio Tcnico Universitrio Geral N Salario mdio Desvio Padro 190 17.629,20 MZM 3.422,35 MZM 23 19.016,59 MZM 4.613,37 MZM 37 17.208,86 MZM 3.593,98 MZM 250 17.795,86 MZM 3.658,27 MZM

Comportamento do Salrio por Funo


Funo Caixa Front Desk Geral N Salario mdio 176 17.942,52 MZM 74 17.447,06 MZM 250 17.795,86 MZM Desvio Padro 3.546,17 MZM 3.915,01 MZM 3.658,27 MZM

Comportamento do Salrio por Sexo


Sexo Mulher Homem Geral N Salario mdio Desvio Padro 136 16.904,36 MZN 3.318,29 MZN 114 18.859,41 MZN 3.773,25 MZN 250 17.795,86 MZN 3.658,27 MZN

Comportamento do Salrio por Ingls


Falante de Ingls No Sim Geral N Salario mdio Desvio Padro 190 17.667,82 MZN 3.685,20 MZN 60 18.201,32 MZN 3.571,61 MZN 250 17.795,86 MZN 3.658,27 MZN

Salrio por Anos completos de experiencia


Experincia N Salario mdio Desvio Padro

19

0 1 2 3 4 5 6 7 8 9 10 11 12 Geral

2 1 3 4 7 17 31 44 40 52 24 17 8 250

10.559,65 MZN 11.192,97 MZN 11.454,25 MZN 11.583,52 MZN 13.589,52 MZN 14.844,74 MZN 15.213,32 MZN 16.036,85 MZN 16.784,65 MZN 18.822,29 MZN 21.917,14 MZN 24.902,20 MZN 26.467,70 MZN 17.795,86 MZN

652,65 MZN 84,27 MZN 405,36 MZN 708,16 MZN 1.444,95 MZN 1.012,34 MZN 662,43 MZN 1.122,43 MZN 1.448,10 MZN 1.428,09 MZN 1.452,76 MZN 1.004,10 MZN 3.658,27 MZN

Comportamento do Salrio por Sexo*Funo


Funo Caixa Mulher Front Desk Caixa Homem Front Desk Geral Sexo N 96 40 80 34 250 Salario mdio 17.151,58 MZN 16.311,04 MZN 18.891,64 MZN 18.783,56 MZN 96 Desvio Padro 3.257,07 MZN 3.429,64 MZN 3.664,31 MZN 4.074,32 MZN 3.658,27 MZN

Comportamento do Salrio por Nvel de educao*Ingls


Nvel Mdio Tcnico Universitrio Geral Falante de Ingls No Sim No Sim No Sim N 142 48 28 9 20 3 250 Salario mdio Desvio padrao 17.500,02 MZN 3.473,38 MZN 18.011,37 MZN 3.272,07 MZN 19.261,90 MZN 4.764,94 MZN 18.253,41 MZN 4.275,51 MZN 16.627,56 MZN 2.864,09 MZN 21.084,21 MZN 6.184,56 MZN 17.795,86 MZN 3.658,27 MZN

Comportamento do Salrio por Nvel de educao*Sexo


Nvel de educao Mdio Tcnico Universitrio Geral Sexo Mulher Homem Mulher Homem Mulher Homem N Salario mdio Desvio Padro 99 16.752,77 MZN 3.040,83 MZN 91 18.582,68 MZN 3.572,60 MZN 24 18.250,56 MZN 4.470,34 MZN 13 20.430,81 MZN 4.712,38 MZN 13 15.573,54 MZN 2.079,56 MZN 10 19.334,79 MZN 4.113,81 MZN 250 17.795,86 MZN 3.658,27 MZN

20

Comportamento do Salrio por Banco*Sexo


Banco A B C D Geral Sexo Mulher Homem Mulher Homem Mulher Homem Mulher Homem N Salario mdio Desvio Padro 50 16.891,52 MZN 3.540,90 MZN 40 19.533,49 MZN 4.630,25 MZN 38 17.120,92 MZN 3.544,82 MZN 32 18.253,08 MZN 3.090,52 MZN 31 16.884,79 MZN 2.700,70 MZN 19 17.920,97 MZN 3.202,84 MZN 17 16.493,78 MZN 3.388,55 MZN 23 19.305,90 MZN 3.307,74 MZN 250 17.795,86 MZN 3.658,27 MZN

21

Você também pode gostar