Você está na página 1de 14

Bertolo, L.A.

COC-Catanduva
2008

Reviso de Estatstica

Reviso de Estatstica Este manual destina-se a servir de uma reviso dos elementos bsicos da estatstica. A cobertura e apresentao do material introduz assuntos que sero importantes nos entendimentos e nas implementaes de conceitos de finanas em que o curso est focado. uma boa idia espanar o p dos seus velhos livros de estatstica ou fazer uma viagem at a biblioteca para ler com ateno os livros textos introdutrios da estatstica. Os conceitos destacados nesta reviso so importantes ferramentas para este curso. A estatstica o estudo das variveis aleatrias. Os retornos dos investimentos so variveis aleatrias. Portanto, a estatstica um componente crucial do campo de investimentos medida que voc progredir pelo manual, voc encontrar alguns exerccios prticos que voc esperava fazer. As solues so fornecidas no final do manual. A. Variveis aleatrias Em geral, uma varivel para a qual os valores no so conhecidos at que um experimento seja realizado chamada a varivel aleatria. Tambm, o retorno sobre uma ao particular stock uma varivel aleatria desde que o retorno sobre a ao durante qualquer perodo particular no seja conhecido com certeza. Exemplo: Considere o resultado de um lanamento de dados. Existem seis resultados possveis (1, 2, 3, 4, 5, 6). O resultado uma varivel aleatria, pois o valor real no conhecido antes de se lanar o dado. Se ele for um dado leal, cada resultado tem uma probabilidade de acontecer igual a 1/6. Seja a varivel aleatria X, o resultado do lanamento de um dado. X ento um exemplo de uma varivel aleatria discreta, pois ela pode assumir somente 6 valores. Exerccio 1: Escreva os resultados possveis de lanamento de uma moeda e a probabilidade associada a cada lanamento. (As solues dos exerccios prticos esto no final do manual). Exerccio 2: Suponha que voc lance dois dados. Voc est interessado na soma dos dados. Escreva os resultados possveis (onde cada resultado a soma dos valores do lanamento de dois dados) e suas probabilidades associadas. (Sugesto: o resultado de lanar um dado independente do resultado de = ). lanar o outro dado. Da, a probabilidade de obter um par particular de valores No caso de uma varivel aleatria discreta, a funo de densidade de probabilidade (fdp) definida como um grfico (ou tabela) que mostra todos os valores que a varivel aleatria pode assumir com suas probabilidades associadas. Para a varivel aleatria X que o resultado do lanamento de um dado, a funo de densidade de probabilidade est mostrada no grfico abaixo.

Figura 1. Funo densidade de probabilidade de X. A probabilidade de cada resultado 0,16, neste caso.

Reviso de Estatstica

Bertolo, L.A. COC - Catanduva


2008

Exerccio 3: Calcular a probabilidade de se obter uma soma menor do que 4 quando se lanarem dois dados. Uma varivel aleatria contnua aquela que pode assumir qualquer valor real (no apenas nmeros inteiros) num intervalou da linha de nmeros reais. Para exemplo, seja Y o retorno de um lote de aes da IBM. Y pode teoricamente assumir valores de 100% (devido a responsabilidade limitada, voc no pode perder mais do que seu investimento original) at valores positivos muito grandes, e claro qualquer valor entre esses. A probabilidade que Y assume qualquer valor nico zero. Isto porque uma varivel aleatria contnua pode assumir um nmero infinito de valores e a chance de qualquer valor ocorrer zero. Variveis aleatrias contnuas podem seguir vrias fdp. Algumas fdp mais comuns so a distribuio normal, distribuio exponencial, e a distribuio uniforme.

95%

Existe 95% de estar dentro de 2 da mdia centro)

Figura 2. Funo densidade de probabilidade da distribuio normal padro (mdia 0 e varincia 1) A distribuio normal uma das mais importantes distribuies. Se X uma varivel aleatria normal com mdia e varincia (simbolizada como X ~ N(, ), ento sua funo densidade de probabilidade dada pela seguinte expresso: f x|, ) = 1 exp
)

A mdia e a varincia 2 so parmetros desta distribuio e determinam sua localizao e disperso respectivamente. O intervalo de valores que uma varivel aleatria normal pode assumir a + . A funo de densidade de probabilidade normal uma curva simtrica na forma de sino centrada no valor mdio a. Quanto maior para a varincia b2, mais disperso so os valores possveis. Duas distribuies tendo a mesma varincia com diferentes mdias, elas tero formas idnticas, mas sero localizadas em pontos diferentes sobre o eixo x. Devido simetria da distribuio normal (Figura 2), metade da probabilidade (50%) est associada com valores esquerda da mdia, e metade com valores direita da mdia. Isto , a probabilidade de observar um resultado que seja menor do que a a soma das probabilidades de observar todos os valores menores que a que o mesmo que a rea sob o fdp esquerda de a. Para distribuies normais, 68% dos resultados possveis cairo entre +/-1 desvio padro da mdia. Isto , 68% da rea sob a fdp, ficam entre a+b e a-b. Tambm, 95% dos resultados possveis cairo entre +/-2 desvios padres da mdia (pintada na Figura 2), e 99% de todos os resultados ficaro entre +/-3 desvios padres da mdia. Uma varivel aleatria normal padro tem uma funo de densidade de probabilidade normal com mdia 0 e varincia 1. Uma das razes para que a distribuio normal seja uma distribuio importante devido ao Teorema do Limite Central. O teorema do limite central diz que o valor mdio de N variveis aleatrias independentes de qualquer funo de densidade de probabilidade (enquanto ela tiver uma mdia e uma varincia e N sendo suficientemente grande) ter aproximadamente uma distribuio normal padro

Bertolo, L.A. COC-Catanduva Reviso de Estatstica


2008

Reviso de Estatstica 3

aps subtrair sua mdia e dividir pelo seu desvio padro. Isto , todas as distribuies convergem assintticamente para a distribuio normal. B. Momentos de Variveis aleatrias Os primeiros quatro momentos de uma varivel aleatria so, respectivamente, a mdia, varincia, simetria e curtose. Mdia: A mdia de uma varivel aleatria X o valor mdio da varivel aleatria em um nmero infinito de repeties do experimento. A mdia d uma medida do centro ou localizao dos dados de uma varivel aleatria. A mdia tambm referida como o valor esperado da varivel aleatria, a qual denotada por E(X). Note tambm que a mdia tambm denotada por . Para uma varivel aleatria discreta, o valor esperado a mdia ponderada dos valores da varivel aleatria com os pesos sendo a probabilidade anexada a cada valor. E X) = onde, X uma varivel aleatria discreta N o nmero de resultados possveis Pi a probabilidade do resultado i xi o valor de X quando o resultado i ocorre Exemplo: Qual o valor esperado do resultado de lanamento de um dado? 1 1 1 1 1 1 x1 + x2 + x3 + x4 + x5 + x6 = 3,5 6 6 6 6 6 6 Quo certo voc est de obter este valor esperado? E X) = De forma interessante, como voc j deve ter notado o valor esperado nunca ser observado neste caso. Exemplo: Vamos dar a seguinte informao sobre duas aes e as vrias condies do tempo que podem ocorrer. Estado do tempo Probabilidade Retorno sobre a Ao Retorno sobre a Ao do Amusement Park (A) Ski Resort (S) Extremamente Frio 10% -15% 35% Frio 30% -5% 15% Mdio 40% 10% 5% Quente 20% 30% -5% Quais so os retornos esperados de cada ao? E(A) = E(S) = Px

(-15% 0,1)+ (-5% 0,3) + (10% 0,4) + (30% 0,2) (35% 0,1)+ (15% 0,3) + (5% 0,4) + (-5% 0,2) =

= 7% 9%

Varincia: A varincia de uma varivel aleatria d uma idia da disperso dos valores possveis da varivel aleatria. A varincia de uma varivel aleatria discreta X definida como: Var X) = = P [x E X)]

Reviso de Estatstica

Bertolo, L.A. COC - Catanduva


2008

Isto pode ser visualizado como o valor esperado de (xi E(X))2 onde : X uma varivel aleatria discreta N o nmero de resultados possveis Pi a probabilidade de resultado i Xi o valor de X quando o resultado i ocorrer E(X) a mdia de X O desvio padro de uma varivel aleatria, denotado por a raiz quadrada da varincia. Precisa-se calcular E(X) primeiro, o qual j foi encontrado. Exemplo: Seja X o valor observado no lanamento de um dado. Desvio Padro (X) = = ) = 0,1 ) = 1,71 5 7) + 0,4 10 7) + 0,2 30 7) = 201%

Exemplo Amusement Park / Ski Resort: 15 7) + 0,3 = 0,0201

Desvio Padro(A ) = = 201% = 14,18% Desvio Padro(S ) = = 124% = 11,14% ) = 0,1 35 9) + 0,3

15 9) + 0,4

5 9) + 0,2

5 9) = 124% = 0,0124

Distoro: Freqentemente voc quer saber se os seus dados exibem uma forma simtrica. A Distoro mede o grau da assimetria da funo de densidade de probabilidade. Quando os dados so simtricos, a mdia e a mediana so as mesmas. Para uma distribuio assimtrica que chamada tambm de uma distribuio distorcida, a mdia e a mediana so diferentes. A distoro mede a tendncia de uma distribuio alongar numa particular direo. Se a cauda alongada da funo de densidade de probabilidade est do lado esquerdo da mdia, a densidade dita ser distorcida para a esquerda (ou negativamente distorcida) e se a cauda alongada da funo de densidade de probabilidade est do lado direito da mdia, a densidade dita ser distorcida para a direita (ou positivamente distorcida). Curtose: Curtose mede grau de salincia (achatamento) de uma densidade prxima ao seu centro. Uma distribuio leptocrtica (tem excesso de curtose) se a funo de densidade de probabilidade mais aguada no seu centro e tem uma cauda mais longa que uma distribuio normal padro. Uma distribuio platicrtica (tem menos curtose) mais achatada ao redor do centro e tem cauda mais curta do que uma distribuio normal padro1. Covarincia: Covarincia uma medida de como duas variveis aleatrias movem uma com a outra. A medida para duas variveis aleatrias discretas dada por:

Eu costumo pensar nos significados destas palavras assim, a primeira figura representa a platicrtica e a segunda a leptocrtica

Bertolo, L.A. COC-Catanduva Reviso de Estatstica


2008

Reviso de Estatstica 5

, )=

))

Se duas variveis aleatrias, X e Y, tm uma covarincia positiva, significa que as duas variveis esto geralmente movendo-se na mesma direo (relativa s suas mdias respectivas). Isto , na mdia, quando X estiver acima da sua mdia, Y est acima da sua mdia e quando X estiver abaixo de sua mdia, Y est abaixo de sua mdia. Similarmente, se duas variveis aleatrias, X e Y, tm uma covarincia negativa, significa que, na mdia, as duas variveis esto se movendo em direes opostas (relativas s suas mdias respectivas). Isto , na mdia, quando X est acima de sua mdia, Y est abaixo de sua mdia e quando X est abaixo de sua mdia, Y est acima de sua mdia. Uma covarincia zero implica que no existe uma associao nem positiva e nem negativa entre as variveis aleatrias, i.e, no h associao entre X estar acima ou abaixo de sua mdia e Y estar acima ou abaixo de sua mdia. Nota: Uma olhada na definio da covarincia revela que Cov(X,X) = Var(X). Exemplo Amusement Park / Ski Resort: Cov(A,S) = 0,1x(-15 - 7)(35 - 9) + 0,3 (-5 - 7)(15 - 9) + 0,4 (10 - 7)(5 - 9) + 0,2 (30 - 7)(-5 - 9) = -148%2 = -0,0148 Correlao: A magnitude da covarincia difcil de interpretar porque ela depende das unidades de medida das variveis aleatrias e da disperso (desvio padro) das duas variveis aleatrias. Para fornecer uma medida til do grau para o qual duas variveis movem-se juntas, a covarincia medida escalada como mostrado abaixo para calcular a correlao entre duas variveis aleatrias. , )= Exemplo: Assuma Cov(X,Y) = 200%2 e Cov(X,Z) = 200%2. Se = 20%2 = 20% e = 25%, ento a Corr(X,Y) e Corr(X,Z) sero diferentes, embora suas covarincias sejam iguais. A covarincia entre X e Z is ligeiramente menos aguada que aquela entre X e Y, porque Z tem um intervalo mais largo de valores provveis (um maior desvio padro). Escalando as covarincias pelo apropriado desvios padres revela isto, , = 0,5 e , = 0,4. A correlao mede o grau (ou intensidade) da covarincia entre duas variveis aleatrias e est sempre entre 1,0 e +1,0. Corr(X,Y) = +1 implica que X e Y so perfeitamente linearmente correlacionados positivamente. Isto , X e Y diferem somente por algum mltiplo e/ou constante. Especificamente, Y = aX + b onde a>0 e b so constantes. Neste caso, conhecer o valor de X revelar exatamente o valor de Y. Corr(X,Y) = -1 implica que X e Y esto perfeitamente linearmente correlacionados negativamente. Especificamente, Y = aX + b onde a<0 e b so constantes. Novamente, conhecer o valor de X revelar exatamente o valor de Y. Exemplo Amusement Park / Ski Resort: , )= , ) = 148% = 0,937 14,18%) 11,14%) , ) =
,

Reviso de Estatstica

Bertolo, L.A. COC - Catanduva


2008

Alguns resultados comumente usados: Seja Z = aX + bY onde X e Y so variveis aleatrias e a e b so constantes. Ento, E(Z) = E(aX + bY) = aE(X) + bE(Y) Var(Z)= Var( aX+bY) = a2Var(X) + b2Var(Y) + 2abCov(X,Y) Seja W = cX + dY, onde c e d so constantes. Ento, Cov(Z,W) = Cov(aX + bY, cX + dY) = acVar(X)+ (ad+bc)Cov(X,Y) + bdVar(Y) Exerccio 4: Qual a covarincia e a correlao entre uma constante e qualquer varivel aleatria? C. Estatsticas da Amostra Uma varivel aleatria descrita pela sua funo de densidade de probabilidade. Momentos de uma varivel aleatria caracterizam a fdp. Na maioria dos casos, ns no conhecemos a populao, ou verdadeiro, valores dos momentos. A nica informao que temos uma amostra extrada da populao. Os momentos da amostra do uma estimativa dos valores dos momentos da populao. Note que os momentos da amostra no necessariamente se igualam aos momentos da populao. (Eles so iguais assintoticamente, i.e, se temos um nmero infinito de extraes da varivel X). Mdia da Amostra: A mdia da amostra a mdia aritmtica das observaes da amostra. Vamos dizer que voc tenha n observaes sobre a varivel X denominadas x1, x2, x3,.., xn. A mdia da amostra da varivel X, denotada por , calculada como segue. = Exerccio 5: Considere-se lanando uma moeda 10 vezes. Seja H (cara) = 1 e T (coroa) = 0. O valor esperado do experimento 5, mas no existe garantia de que este ser o resultado. A mdia da amostra nem sempre igual a da populao, ou na verdade, a mdia. Varincia da Amostra: Vamos dizer que voc tenha n observaes sobre a varivel X denominada x1, x2, x3,.., xn. Para computar a varincia da amostra de X, use no lugar da mdia da populao. Para obter uma estimativa imparcial da varincia da populao, a medida da varincia da amostra definida como = ) 1

Nota: O termo n-1 usado em vez de n para tornar s2 uma estimativa imparcial da populao varincia 2. s2 como definido acima uma estimativa imparcial da populao 2 desde que E(s2) = 2. O desvio padro da amostra medido pelo s. Covarincia da Amostra: Vamos dizer que voc tenha n observaes sobre a varivel Y denominada y1, y2, y3, , yn e voc tem n correspondendo observaes sobre a varivel X denominada x1, x2, x3, , xn. Suponha que voc queira estimar a covarincia entre varivel Y e varivel X.

Bertolo, L.A. COC-Catanduva Reviso de Estatstica


2008

Reviso de Estatstica 7

A medida da covarincia da amostra definida como , =

) 1

Correlao da Amostra: A correlao da amostra entre y e x definida como


,

Exerccio 6: Acesse os dados do arquivo Excel para esta tarefa no curso da web page. O arquivo d os retornos mensais de vrias aes durante um perodo de 10 anos de Janeiro de 1994 a Dezembro de 2003. Calcule a mdia das amostras, os desvios padres da amostra, a varincia das amostras, as covarincias da amostra, e as correlaes da amostra para os retornos das aes. D. Inferncias Estatsticas O propsito da inferncia estatstica usar uma amostra para obter informaes sobre a populao da qual a amostra foi extrada. Assumindo que a distribuio de probabilidade da populao (p.ex.. a distribuio normal), podemos usar as caractersticas da amostra para tomar decises relativas populao maior. Exemplo: Suponha que voc queira estimar a taxa de defeitos dos novos brinquedos que sua companhia construiu. Digamos que um lote de produo consiste de 100.000 itens. Este a populao de interesse. Para propsitos de teste, entretanto, voc encontrar que vale pena examinar somente uma amostra randmica, digamos 150 brinquedos desta populao, pois seria muito caro, ou praticamente impossvel, testar todos os 100.000 brinquedos. Dada a taxa de defeitos observada na amostra randmica, voc pode fazer inferncias sobre a taxa de defeitos da populao inteira. Testando Hipteses Ao planejar o seu teste, voc precisa formular suas hipteses de pesquisa. Por exemplo, voc pode estar interessado em saber se a expectativa de vida dos homens nos US maior do que 65 anos. Por conseguinte, voc ter duas hipteses competidoras. A hiptese nula (H0) para este estudo = 65. As hipteses alternativas (Ha) so as declaraes que se opem hiptese nula. Neste caso >65 so as hipteses alternativas. Uma vez nossas identificadas as hipteses, a tarefa determinar qual destas duas hipteses competidoras suportada melhor pelos dados da amostra. Devido a sua amostra no consistir da populao completa, sempre h a possibilidade de extrair uma concluso incorreta quando inferir o valor de um parmetro da populao de um parmetro da amostra. Quando se testam hipteses, existem dois tipos de erros possveis. Erro do Tipo I: Um erro do Tipo I ocorre se voc rejeitar H0 quando de fato H0 verdadeiro. Erro do Tipo II: Um erro do Tipo II ocorre se voc falhar em rejeitar H0 quando de fato H0 falso. Certamente gostaramos de eliminar qualquer chance de cometer qualquer tipo de, mas isto no possvel. Para um dado tamanho da amostra, no se pode controlar ambas as chances de um erro do Tipo I e uma de erro do Tipo II. Na prtica, um pesquisador geralmente escolhe controlar o erro do Tipo I. O nvel de significncia (tambm conhecido como o tamanho) de um teste a probabilidade de um erro do Tipo I, e o nvel de significncia geralmente predeterminado. Por exemplo, se o nvel de significncia selecionado como 5%, ento uma hiptese nula verdadeira tem somente uma chance de 5% chance de ser rejeitada falsamente. Em outras palavras, se rejeitarmos H0, ns estamos totalmente confiantes de que ela a deciso correta.

Reviso de Estatstica

Bertolo, L.A. COC - Catanduva


2008

O poder de um teste igual a um menos a probabilidade do erro do Tipo II. Isto d a probabilidade de que voc corretamente rejeitar H0 quando H0 falso. Exemplo: Voc lana uma moeda dez vezes e obtm 8 caras (H) e 2 coroas (T). Voc decidir que a probabilidade de obter uma cara mais do que ? H0: p=0.5 HA: p>0.5 Assumindo o nmero de caras que voc observou distribudo binomialmente, a probabilidade de obter ! 0,5 0,5 = 0,0439 8H e 2T =
! !

Portanto, se seguirmos o padro comum de configurar o nvel de significncia a 5%, ento rejeitaremos H0 neste case (muito embora o H0 seja verdadeiro). Na prtica, os parmetros da populao so desconhecidos, e as rejeies de H0 podem ocorrer que so incorretas. Ns, entretanto, no sabemos que eles so incorretos claro. Insucesso em rejeitar H0 pode tambm ser incorreto. DE QUE MAMEIRA VOC PODE IMAGINAR A DISTINO ENTRE DECISES INCORRETAS E CORRETAS? distribuio t: Usualmente, no conhecemos a varincia da populao, e temos que usar a varincia da amostra como a sua estimativa. Se x1, x2, x3,.,xn uma amostra aleatria de uma distribuio normal com mdia e varincia 2, a varivel aleatria = =

segue uma distribuio t com n-1 graus de liberdade denotada por tn-1. A forma da distribuio t simtrica e muito semelhante distribuio normal padro. menos aguada e tem cauda mais grossa do que uma distribuio normal padro. Exemplo: A empresa que voc trabalha est considerando a recompra de algumas de suas aes em circulao. Ela acredita que a recompra vista como uma boa notcia no mercado. Os administradores exigem que voc examine como o mercado reagiu historicamente recompra de aes. Assim suas hipteses so: H0 : = 0 HA : 0 onde a mdia do mercado ajustada diariamente do retorno de todas as aes anunciadas que foram recompradas calculada subtraindo o retorno de mercado do dia anunciado do retorno para a empresa i no dia anunciado. (Mais tarde teremos algumas preocupaes acerca do mrito de tal Exerccio e apontaremos vrios refinamentos. VOC PODE IMAGINAR QUAL PREOCUPAO ESTAMOS TENDO?) Este um exemplo de um teste bicaudal. Rejeitamos H0 se o teste estatstico t computado estiver na regio de rejeio determinada pelos graus de liberdade e o nvel de significncia do teste (probabilidade de erro do tipo I). Vamos apresentar o nvel de significncia a 5%. Portanto, a regio de rejeio definida de modo que a probabilidade do teste estatstico t fracassar na regio pela chance (quando H0 verdadeiro) para 5%.

Bertolo, L.A. COC-Catanduva Reviso de Estatstica


2008

Reviso de Estatstica 9

-tcrtico

tcrtico

Figura 3. Regio de rejeio da distribuio t Suponha que voc seja capaz de colher uma amostra de 100 empresas durante os cinco ltimos anos passados que anunciaram recompra de aes. O teste estatstico

segue uma distribuio t99 se H0

verdadeiro e se os retornos das aes forem distribudos normalmente. Como uma estimativa imparcial da mdia, espera-se que o valor de seja perto de 0 se H0 verdadeiro, o que resultar num pequeno teste estatstico. Se HA verdadeiro, espera-se que desvie substancialmente de 0, que resultaria num teste estatstico t que grande (em valor absoluto). Rejeitamos H0 se o teste estatstico estiver suficientemente longe o bastante de zero para cair na regio de rejeio. O valor tcrtico de um teste bicaudal com 99 graus de liberdade e um nvel de significncia de 5% 1,98. Usando as observaes da amostra, encontrado que 2,1% e S=5,6%. Os valores correspondentes observados da estatstica t 3,75 o qual est numa regio de rejeio. Portanto, somos capazes de rejeitar as hipteses que a reao mdia ao anncio da recompra de aes zero. Dizemos que a reao mdia estatisticamente diferente de zero e positiva na mdia. Em vez de ter que encontrar o tcrtico, cada vez que voc realizar um teste, os pacotes estatsticos existentes (o EXCEL est includo) fornecem os valores-p para voc. Um valor-p o menor nvel de significncia para o qual o teste estatstico t da amostra levar rejeio de H0. O valor-p de 3,75 com 99 graus de liberdade num teste bicaudal 0.0298% (encontrado usando a funo TDIST do EXCEL). Assim mesmo se inicialmente selecionarmos um nvel de significncia de 0,03% para nosso teste, ainda rejeitaramos H0. E. Advertncia: Bisbilhotando Dados (Escavando) Num teste de hiptese clssico, quando se seleciona um nvel de significncia (digamos de 5%), estamos fixando a probabilidade de um erro Tipo I ser 5%. Isto , uma probabilidade do teste estatstico t fracassar na regio de rejeio (por chance) quando H0 verdadeiro 5%. Portanto, se conduzirmos nosso experimento 100 vezes, esperamos rejeitar a hiptese nula verdadeira 5 vezes puramente pela chance somente. Considere o seguinte cenrio. Assuma 100 pesquisadores usando 100 respectivas variveis para tentar explicar os retornos do S&P 500 index. Suponha que para 5 destas variveis a hiptese nula de que seja zero rejeitada. Em outras palavras, os pesquisadores concluram que estas 5 variveis tenham poder de previso para retornos S&P 500. PODEMOS CONCLUIR QUE OS RESULTADOS OBTIDOS SO ESTATISTICAMENTE SIGNIFICANTES? Finanas is rife com dados extrados de forma errada. David J. Leinweber, diretor administrativo da First Quadrant Corp. em Pasadena, Calif., que administra $20 bilhes de ativos, gosta de ilustrar o problema com Stupid Data-Miner Tricks. Por exemplo, ele filtrou o CD-ROM das Naes Unidas e

10

Reviso de Estatstica

Bertolo, L.A. COC - Catanduva


2008

descobriu que historicamente, a nica melhor predio do Standard & Poors 500-stock index foi a produo de manteiga em Bangladesh. -Peter Coy, Business Week, June 16, 1997, page 40 F. Regresso Linear Antes de rever a mecnica da regresso linear, vamos introduzir trs amplas categorias de regresso, as quais so caracterizadas pela natureza dos dados que esto sendo estudados. Note que, em geral, uma regresso linear uma ferramenta que aproxima a relao linear entre as variveis. Estas relaes no so determinsticas apesar disto. Isto , no podemos capturar cada elemento de influncia. Portanto, contaremos explicitamente com a natureza estocstica do modelo (adicionando um termo de erro). 1. Regresso Srie de Tempo A srie de tempo um conjunto de observaes extradas de uma entidade em diferentes instantes de tempo. Por exemplo, os retornos das aes da IBM por ms de 1960 a 1999 uma srie temporal. Podemos querer saber se estes retornos mensais esto relacionados a certas variveis. A regresso srie de tempo dos retornos mensais das aes da IBM pelas taxas mensais de inflao, para o exemplo, estima a relao srie de tempo entre retornos das aes da IBM e a inflao. Em outras palavras, as variaes nos retornos das aes da IBM durante o tempo esto relacionadas s variaes na inflao durante o tempo? Poderamos encontrar que quando a inflao cresce, o retorno da IBM decresce. 2. Regresso de Corte Transversal (Cross-sectional) Um corte transversal um conjunto de observaes extradas de um nmero de diferentes entidades num nico instante de tempo. Por exemplo, os retornos de todas as aes negociadas na NYSE no ms de Junho de 1999 um corte transversal. Uma regresso de corte transversal verifica se as diferenas nos retornos atravs destas aes esto relacionadas a variveis particulares. Poderamos encontrar talvez que quanto menor a ao, maior o retorno. 3. Regresso Painel dados Painel de dados um conjunto de observaes que ambas a srie de tempo e o corte transversal. Portanto, podemos olhar para um painel de dados como dados de corte transversal durante um perodo de tempo. Regresso Simples Suponhamos que estamos interessados em examinar se X pode explicar Y. Em outras palavras, conhecer o valor de X nos ajudar predizer o valor de Y? Se uma relao linear entre X e Y existe, podemos ento escrever a seguinte equao. Y = + X Como sabemos que esta relao no perfeita, adicionamos um termo de erro equao para refletir a imperfeio (a natureza estocstica da relao). Y = + X + onde E() = 0. Para estimar esta relao, desde que e so desconhecidos, coletamos uma amostra de observaes e assumimos que para cada observao i yi = + xi + i Isto chamado de regresso Y sobre (uma constante e) X onde Y a varivel dependente (ou explicada) e X a varivel independente (ou explicativa).

Bertolo, L.A. COC-Catanduva Reviso de Estatstica


2008

Reviso de Estatstica 11

Um mtodo para estimar e chamado Ordinary Least Squares (OLS) e ele escolhe o e o que melhor ajustam os dados de modo que a soma dos desvios quadrticos para cada observao (i 2)seja o mnimo. As estimativas de e so = y x = ) ) ) =
,

As estimativas OLS so imparciais significando E(b1) = 1 e E(b2) = 2. O critrio de estimao (a soma dos erros quadrticos) est estreitamente relacionado a uma medida do ajuste conhecido as R2. Esta medida quantifica a habilidade de X explicar Y referindo o quanto da variao em Y pode ser explicado pela variao em X. = onde 0 R2 1. Note que Soma dos Quadrados Totais = Soma dos Quadrados Explicados + Soma dos Quadrados Residuais. Quando R2 = 0, o modelo pode explicar a variao em Y no to bem mas apenas usando como uma estimativa para cada um yi. Isto porque, de fato, = 0 neste caso. Quando R2 = 1, todas as observaes de yi e xi carem sobre uma linha perfeita, e no h residuais. Neste caso, X explica perfeitamente Y. Uma vez tendo nossas estimativas de e , para empregar quaisquer inferncias estatsticas destas estimativas, devemos modelar como o termo erro randmico distribudo. Vamos assumir ~ N(0,2). Para testar hipteses sobre e , precisamos estimar as varincias de e . = = 1 + ) ) ) = )

onde = uma estimativa imparcial de . A varivel aleatria t =


)
2

2)

~ t (N-2).

O teste de hipteses ento conduzido como descrito na Seo D. A estatstica t para testar hipteses sobre calculada similarmente. Algumas descobertas gerais: 1. Quanto maio o 2 (onde ~ N(0,2), maiores as varincias dos estimadores de e . 2. Quanto maior a varincia da amostra de X, mais precisos os estimadores de e .

12

Reviso de Estatstica

Bertolo, L.A. COC - Catanduva


2008

3. Um aumento no tamanho da amostra geralmente leva a um aumento na preciso dos estimadores de e .

Interpretao dos Coeficientes das Regresses Ordinary Least Squares (OLS) Suponha que procuramos identificar os determinantes dos retornos das aes. Assuma que voc rode uma regresso crosssectional dos retornos das aes (em %) de um nmero de aes por um ano sobre uma constante e seus respectivos ndices contbeis-pelo-mercado (B/M). Vamos dizer que sua equao estimada torna-se ri = 7,60 + 2,80 B/Mi + i Assuma que ambos o intercepto e os coeficientes inclinao so estatisticamente significativamente diferentes de zero (sua estatstica-t excede o valor tcritical). Estes coeficientes podem ser interpretados como segue. Intercepto: Superficialmente, uma ao com um ndice B/M zero estimada ter um retorno mensal de 7,6%. Alm disto, o intercepto captures os efeitos mdios diferentes de zero que no so relacionados a B/M. Recorde que E() = 0; assim enquanto o termo erro tambm captures efeitos no relacionados a B/M, estes efeitos tem um impacto zero na mdia. Inclinao: Todas as aes comeam com um retorno de 7,6% (o valor do intercepto). A inclinao ento estima a sensibilidade de um retorno de ao pelo ndice B/M da ao. Para um acrscimo unitrio no ndice B/M de uma ao, o retorno anual cresce por 2,8%. Para prever o retorno da ao para o prximo ano, precisaramos estimar o ndice B/M, digamos 1,13. Da ento o retorno previsto ri = 7,6 + 2,8 (1,13) = 10,76% Exerccio 7: Usando os dados para esta tarefa (nas web-page), faa a regresso dos retornos de cada ao numa constante e os retornos S&P 500 de Janeiro de 1994 a Dezembro de 2003. Teste respectivamente que o intercepto e a inclinao so cada um diferentes de zero no nvel de significncia 5%. Discuta quo bem o modelo explica os retornos de cada uma das aes. G. Variveis Dummy As variveis Dummy so usadas na anlise de regresso para examinar se classes de observaes relacionam diferentemente s variveis independentes. Por exemplo, na regresso dos retornos das aes sobre os ndices B/M, deveramos considerar que a relao entre B/M e retornos das aes diferente para pequenas empresas daquelas das grandes empresas. Defina a varivel dummy SMALL para ser SMALL = 1 se a capitalizao do mercado $ 1 bilho 0 caso contrrio ri = + 1 B/Mi + 2 (B/Mi SMALLi ) + i onde (B/MSMALL) chamado de termo de interao. Para as grandes empresas, a interpretao da regresso permanece a mesma que antes desde que 2 se iguala a zero para estas empresas. Para as pequenas empresas, a inclinao da relao entre retornos e B/M no pode mais ser medido por apenas 1. A inclinao para pequenas empresas (1+2 ). Se 2 estatisticamente diferente de zero (usando um teste-t) ento conclumos que os retornos das aes de pequenas empresas tem uma relao diferente com B/M daquela dos retornos das grandes empresas.

Poderamos ento rodar a seguinte regresso

Bertolo, L.A. COC-Catanduva Reviso de Estatstica


2008

Reviso de Estatstica 13

Exerccio 8: Suponha que o intercepto da regresso dos retornos das aes sobre B/M e (B/MSMALL) seja 7,6%, 1 seja 1,7%, e 2 seja 2,4%. Preveja os retornos das aes de uma empresa cuja capitalizao de mercado seja $50 bilhes e cujo ndice B/M seja 0,95 e de uma empresa cuja capitalizao de mercado seja $950 milhes e cujo ndice B/M seja 1,75. Solues dos Exerccios Prticos 1. Dois resultados possveis: cara ou coroa. 50% probabilidade para cada um. 2. Soma Modos Prob de obter 2 1 1/36 3 2 2/36 4 3 3/36 5 4 4/36 6 5 5/36 7 6 6/36 8 5 5/36 9 4 4/36 10 3 3/36 11 2 2/36 12 1 1/36 3. Usando a funo densidade precedente, a probabilidade de obter menos do que 4 encontrada por acumulao das probabilidades das somas abaixo de 4, i.e. 2 e 3. 1 2 3 Pr 2) + Pr 3) = + = 36 36 36 4. Cov(a,X) = Corr(a,X) = 0. Como a uma constante, ela sempre emprega o mesmo valor sem desvio (a despeito do valor de X). 5. (Exerccio imaginao) 6. Dell Eastman Kodak GE VW Market Index Matriz de Covarincia:
Varincia da Dell difere ligeiramente da acima por 120/199 porque a funo COV no Excel assumes que ela tenha a populao, no uma amostra

Mdia 5,04% 0,21% 1,48% 0,94% 0,0244 0,0029 0,0029 0,0037

Desv. Pad. 15,68% 8,86% 7,12% 4,67%

Varincia 0,0246 = 246%2 0,0079 0,0051 0,0022

0,0078 0,0017 0,0014

0,0050 0,0022

0,0022

Matriz de Correlao: 1,0000 0,2103 0,2608 0,5122 1,0000 0,2757 0,3356

1,0000 0,6623

1,0000

Dell tem uma correlao maior com o Mercado que a Eastman does indicando que os movimentos do Mercado explicam a maior parte dos movimentos nos preos da Dell.

14

Reviso de Estatstica

Bertolo, L.A. COC - Catanduva


2008

7. Regresso dos retornos da Dell sobre os retornos da S&P 500.


RESUMO DOS RESULTADOS Estatstica de regresso R mltiplo R-Quadrado R-quadrado ajustado Erro padro Observaes ANOVA Regresso Resduo Total gl 1 118 119 SQ 0,761346 2,165075 2,926422 MQ 0,761346 0,018348 F 41,49456 F de significao 2,67E-09

0,510062 0,260163 0,253893 0,135455 120

Coeficientes Erro padro Stat t Interseo 0,035796 0,01257 2,847681 Varivel X1 1,752193 0,272011 6,441627

valor-P 95%Infer. 95%Super. 0,005196 0,010904 0,060689 2,67E-09 1,213538 2,290848

Inferior 95,0% Superior 95,0% 0,010904 0,060689 1,213538 2,290848

Os resultados da regresso para a Dell indicam que a Dell muito sensvel aos movimentos da S&P 500. Um aumento de 1% nos preos S&P 500 tipicamente geram um aumento de 1,75% nos preos da Dell. O teste estatstico t testando a hiptese nula de que a inclinao zero nesta regresso 6,44, que altamente significativo. O valor-p interpreta a estatstica-t de 6,44 para ns e mostra que a probabilidade de ter a inclinao de 1,75, dado que a verdadeira inclinao zero, minscula a 0,000000267%. Estamos, portanto, muito confiantes de que os retornos da Dell esto relacionados aos retornos da S&P 500. Agora estamos confiantes de que h uma relao entre Dell e o S&P 500, como se pode descrever do informativo o retorno S&P 500 est para os retornos da Dell? O R-Quadrado indica que 26% da variao nos retornos da Dell durante o perodo de amostragem explicada pelo retorno S&P 500. O restante 74% da variao no explicado pelo S&P 500. Dado que estamos explicando os retornos, os quais so altamente variveis, o R-Quadrado de 26% relativamente alto, como voc ver mais tarde na aula. 8. E(ri ) = 7,6 +1,7(0,95) + 2,4(0) = 9,215% E(rj ) = 7,6 +1,7(1,75) + 2,4(1,75) = 14,775%