Você está na página 1de 13

Modelo de regress

ao Beta

Fernando Lucambio P
erez
Departamento de Estatstica
Universidade Federal do Paran
a

Agosto de 2004

Consideremos uma situa


c
ao em que a vari
avel resposta contnua

e restrita ao intervalo (0,1), em estes casos


e apropriado atribuir
a distribui
c
ao beta a vari
avel resposta. Esta fun
c
ao de densidade

e adequada para modelar propor


c
oes por apresentar diferentes
formas conforme os valores dos par
ametros que a definem.
A fun
c
ao de densidade beta
e definida como
( + ) 1
f (y; , ) =
y
(1 y)1,
()()
onde > 0, > 0, 0 < y < 1 e ()
e a fun
c
ao gama. A m
edia e
varian
ca de Y s
ao, respectivamente,
E{Y } =

var{Y } =

2
( + ) ( + + 1)
2

Para obter um modelo de regress


ao para a m
edia da vari
avel
resposta utilizaremos uma parametriza
c
ao diferente da densidade
beta. Seja = /( + ) e = + , ent
ao
E{Y } =

var{Y } =

V ()
,
1+

onde V () = (1). Desta maneira


e a m
edia da vari
avel resposta e pode ser interpretado como o par
ametro de preciss
ao
no sentido de que, para fixo, quanto maior seja menor ser
a
a varian
ca.
A fun
c
ao de densidade assume a forma
()
y 1(1 y)(1)1,
f (y; , ) =
()((1 ))
onde 0 < < 1 e > 0.
3

15

12

(0.95,5)

(0.05,50)

(0.95,50)

densidade

(0.25,5)

(0.75,50)
(0.50,50)

densidade
6

10

10

(0.05,5)

(0.75,5)

(0.25,5)

(0.50,5)

0.0

0.2

0.4

0.6
y

0.8

1.0

0.0

0.2

0.4

0.6

0.8

1.0

Modelo de regress
ao Beta
Este modelo de regress
ao foi proposto pelos professores Silvia
L.P. Ferrari, IME, USP e Francisco Cribari-Neto, UFPE no artigo Beta regression for modelling rates and proportions, Journal
of Applied Statistics (2004) e posteriormente programado por
Alexandre Simas no pacote betareg do R, vers
ao 1.9.0.
Apresentaremos a seguir a defini
c
ao deste modelo de regress
ao,
propriedades dos estimadores dos par
ametros da regress
ao, algumas medidas de diagn
ostico e o aplicaremos em uma situa
c
ao
pr
atica.

Defini
c
ao
Sejam Y1, . . . , Yn vari
aveis aleat
orias independentes onde cada Yt
segue a distribui
c
ao beta com m
edia t e preciss
ao . O modelo
de regress
ao beta
e obtido assumindo que a m
edia de Yt pode
ser escrita como
g(t) =

k
X

xtii = t,

i=1

onde 1, . . . , k s
ao os par
ametros da regress
ao e xt1, . . . , xtk s
ao
constantes conhecidas. Consideraremos tamb
em que g()
e uma
fun
c
ao mon
otona e duas vezes diferenci
avel, chamada de fun
c
ao
de liga
c
ao.
Observemos que a variancia de Yt
e fun
c
ao de t e, por conseq
u
encia, das vari
aveis explicativas, portanto, estes modelos
s
ao por natureza de variancia n
ao constante.
6

Existem diferentes escolhas para a fun


c
ao de liga
c
ao g(). Uma
delas, escolhida como padr
ao,
e a fun
c
ao logito g() = log{/(1
)}, probito g() = 1(), onde ()
e a fun
c
ao de distribui
c
ao
acumulada de uma vari
avel aleat
oria normal padr
ao, a fun
c
ao
complementar log-log g() = log{ log(1 )}, liga
c
ao log-log
g() = log{ log()}, dentre outras.
Em particular, muito utilizada
e a liga
c
ao logito, a qual implica
que
et
t =
,

t
1+e
onde t
e o chamado preditor linear.
7

Estima
c
ao dos par
ametros
A estima
c
ao dos par
ametros de regress
ao e do par
ametro de
preciss
ao
e por m
axima verossimilhan
ca obt
endo-se que, em
amostras grandes,
!
b

, K 1 ,

onde K
e a matriz de informa
c
ao de Fisher.
O intervalo de confian
ca para , para um vetor de covari
aveis x

e, aproximadamente
h

b
b
g 1(b 1(1 /2)se()),
g 1(b + 1(1 /2)se())
r

b =
onde b = xb e se()

\
b >.
xcov(
)x
8

Medidas de diagn
ostico
Os resduos padronizados s
ao definidos como
bt
yt

rt = q

d t)
var(y

b
d t) = {
b t = g 1(bt) e var(y
b t(1
b t)}/(1 + ).
onde
A matriz
chapeu
e da forma

H = W 1/2X(X >W X)1X >W 1/2,


de elementos diagonais, aproximadamente, iguais a {g 0(t)V (t)1/2}1.
Para medir a influencia de cada observa
c
ao utilizamos a dist
ancia
de Cook a qual
e, aproximadamente, igual a
httrt2
Ct =

2
k(1 htt)
9

Exemplo
Informa
c
oes sobre a venda de 142 autom
oveis seminovos, incluindo modelo (modelo), pre
co de revenda em R$ (revenda), o
pre
co do modelo novo em R$ (novo), o tempo de uso do autom
ovel em anos completos (uso) e quilometragem em milhares
de Km (Km) foram coletados pelo Prof. Manoel R. Lino (UFSC)
em 2002.
Foi proposto estudar a rela
c
ao entre a propor
c
ao do valor do
carro na revenda com rela
c
ao ao valor quando novo segundo
uso, Km e modelo. Assim, a vari
avel resposta
e
revenda
resp =

novo
10

Coefficients:
(Intercept)
uso
Km
modeloEscort
modeloFiesta
modeloFiorino
modeloGol
modeloMille
modeloParati
modeloVectra
phi

estimates
1.514349451
-0.161221109
-0.007117227
-0.343957131
0.252944303
-0.252418089
0.009408672
0.129727161
-0.518922929
-0.314786295
108.522648930

std. errors
0.065092397
0.026242247
0.001741486
0.069380189
0.064708966
0.066893425
0.060320926
0.070182954
0.062176392
0.068011499
12.825609954

z-stats
23.2646135
-6.1435711
-4.0868698
-4.9575698
3.9089529
-3.7734365
0.1559769
1.8484141
-8.3459800
-4.6284276

p-value
0.000000e+00
8.068650e-10
4.372322e-05
7.138039e-07
9.269703e-05
1.610142e-04
8.760512e-01
6.454246e-02
0.000000e+00
3.684527e-06

Pseudo R^2:
0.8059293

11

40

80

1
1
3

Standardized residuals

3
1
1
3

Deviance residuals

Standardized residuals vs indices of obs.


Deviance residuals vs indices of obs.

120

40

80

120

Cooks distance plot

0.5

0.6

0.7

Fitted values

0.8

0.00

Cooks distance

0.08
0.04
0.4

0.10

Generalized leverage vs. Predicted values


0.12

Obs. number

Generalized leverage

Indices of obs.

40

80

120

Obs. number

12

Conslus
oes
Definimos o modelo de regress
ao beta, no qual a resposta
assume valores no intervalo (0,1). Desta forma podemos
modelar propor
c
oes contnuas.

O ajuste do modelo e as medidas de diagn


ostico correspondentes est
ao programadas no package betareg, no R vers
ao
1.9.0.

13

Você também pode gostar