Você está na página 1de 16

El uso de las variables aleatorias en el anlisis economtrico

Javier Galn Figueroa


Introduccin

El presente documento tiene como objetivo explicar dos conceptos claves del
anlisis estadstico: la esperanza matemtica y la covarianza para despus
ejemplificar su uso en una situacin concreta de la economa, la determinacin del
salario de una determinada comunidad que se encuentra condicionada por los
factores cualitativos: gnero y el estado civil. Para ello el documento se compone
de los siguientes tres apartados: en el primero se explica cmo se determina la
esperanza condicional, la varianza y covarianza para variables aleatorias tanto
discretas como continuas.

En el segundo apartado se explica cmo las ciencias sociales utilizan los conceptos
revisados en el anterior apartado en el anlisis econmico. Mientras el tercer
apartado se ejemplifica, a partir de un conjunto de datos, el uso de la esperanza
condicional y de la covarianza a un caso de discriminacin salarial. Por ltimo se
presentan algunos comentarios de tipo general, as como plantear posibles lneas
de trabajo que pudieran dar continuidad al documento.

1. Anlisis de la esperanza matemtica para variables aleatorias

Uno de los objetivos de estudio de la estadstica es la descripcin de una


determinada poblacin (o un fenmeno social, poltico o econmico) que se desea
analizar para inferir sobre su comportamiento. Para ello el anlisis estadstico inicia
del proceso de recoleccin de datos para su posterior ordenacin y clasificacin, de
esta manera obtener los parmetros mustrales que permitan generar expectativas
sobre el comportamiento de la poblacin bajo ciertas condiciones.

Con la finalidad de que el anlisis estadstico sea consistente y robusto, se emplea


la teora de la probabilidad a fin de reducir el grado de incertidumbre que existe
alrededor de la poblacin que est sujeta a estudio, por lo que las expectativas que
se generen permitirn determinar con mayor certeza su comportamiento. Para ello
se seleccionan un conjunto de variables aleatorias, las cuales debern aportar la
suficiente informacin sobre el comportamiento de la poblacin. De acuerdo a Otero
(1993) y Canavos (1988) el estudio de las variables aleatorias pueden llevarse a
cabo de dos maneras: i) univariante en donde se analiza a una variable aleatoria a
la vez, y ii) multivariado en donde se explica el comportamiento de la variable
aleatoria (o de estudio) condicionada a una o ms variables.

En la ciencia econmica lo anterior es utilizado para explicar el comportamiento


racional de los agentes, quienes toman sus decisiones de acuerdo a sus
expectativas que son generadas a partir de la informacin disponible y a su entorno.
Esto se puede ejemplificar en la situacin de una pareja de novios quienes deciden
ir al cine, pero la pelcula de inters est condicionada a la disponibilidad del horario,
la cantidad de boletos vendidos, disponibilidad de asientos, entre otros. Otro caso,
son los accidentes de trnsito en la Ciudad de Mxico los cuales pueden estar
condicionados a los siguientes factores: consumo de alcohol, uso del celular,
consumo de drogas, estado de estrs del conductor, entre otros.

Determinar qu variables son las que condicionan el comportamiento de la variable


de estudio, es importante conocer el grado de asociacin y el nivel de dependencia
entre la variable objetivo y de aquellas que pudieran incidir en su comportamiento
en determinadas situaciones (o experimentos). Para Aris Spanos (1999, pp. 145)
todo experimento es un proceso que permite determinar el compartimento de la
variable, para ello se debe asumir las siguientes condiciones: i) todos los posibles y
distintos resultados son conocidos a priori, ii) en ensayo particulares los resultados
no son conocidos a priori pero existe una regularidad perceptible de una ocurrencia
asociada con los resultados, y iii) los experimentos pueden ser repetidos bajo las
mismas condiciones.

De esta manera se puede modelar aquellas variables que se encuentran


condicionadas al comportamiento de otras. De acuerdo a Ross (2010) y Spanos
(1999) la esperanza condicional de un experimento multivariado, en donde se
considera a dos o ms variables aleatorias, se obtiene a partir de su funcin de
probabilidad condicional la cual es definida por la expresin (1).

P X | Y P X x | Y y

(1)

P X x,Y y
P Y y

p( x, y )
pY y

en donde, X y Y son variables aleatorias discretas y su funcin de probabilidad


condicional discreta de X dado que Y = y, para todos los valores de y se tiene que
P{Y = y} > 0. De manera similar, la funcin de distribucin de probabilidad de X dado
que Y = y es definida por los valores que tome y, de tal manera que

P{Y = y}

> 0, debido a

FX |Y x | y P X x | Y y

(2)

pX |Y a | y
a x

Mediante la ecuacin (2) la esperanza condicional de la variable X dado que Y = y,


se define con ecuacin (3).

E X | Y y xP X x | Y y

(3)

xpX |Y x | y
x

X |Y

Mientras el caso continuo se considera las siguientes variables aleatorias continuas


X y Y, cuya funcin de distribucin de probabilidad conjunta, f(x,y), permite obtener
la funcin de densidad de probabilidad de X dado que Y = y, es definida por todos
los valores de y, de tal manera que fY(y) > 0, por

f X |Y x | y

f x, y

(4)

fY y

De la ecuacin (4), el lado izquierdo se multiplica por la derivada de X, dx, mientras


el lado derecho se multiplica por (dx dy)/dy para obtener la ecuacin (5).

f X |Y x | y dx

f x, y dxdy

(5)

fY y dy

P x X x dx, y Y y dy
P y Y y dy

P x X x dx | y Y y dy

De esta manera la esperanza condicional de X, dado que Y = y, es definida para


todos los valores de y, de tal manera fY(y) > 0, se tiene la esperanza condicional,
ecuacin (6):

E X | Y y xf X |Y x | y dx X |Y

(6)

Una vez obtenida la esperanza matemtica condicional se define a continuacin la


varianza condicional para variables aleatorias discretas (ecuacin 7) y continuas
(ecuacin 8).

var X | Y y x E X | Y pX |Y x | y
2

(7)

x X |Y pX |Y x | y
2

X2 |Y

var X | Y y x E X | Y pX |Y x | y dx

(8)

x X |Y pX |Y x | y dx

X2 |Y

Una vez que se ha obtenido las expresiones de esperanza y varianza condicional


para variables aleatorias discretas y continuas se puede encontrar la ecuacin de la
covarianza. Para ello se sigue la funcin generatriz de momentos alrededor de la
media que se muestra en la ecuacin (9) (Freud et al, 2000).
r
s
r ,s E x X |Y y Y | X

(9)

Donde r = 0, 1, 2, y s = 0, 1, 2, adems X y Y son variables aleatorias. De esta


manera cuando r = 1 y s = 0 r = 0 y s = 1, se obtiene la esperanza matemtica,
cuando r = 2 y s = 0 r = 0 y s = 2, se obtiene la varianza, cuando r = 1 y s = 1, se
obtiene la covarianza que se define en la ecuacin (10).
'
Cov ( X ,Y ) 1,1
X |Y Y | X

( 10 )

E x X |Y y Y | X
XY

La covarianza permite conocer el grado de independencia o dependencia entre las


variables que son estudiadas. Adems permite obtener el coeficiente de correlacin,
el cual indica el grado de asociacin entre las variables.

2.

Aplicaciones en el anlisis econmico

En las ciencias sociales, entre ellas la economa, el uso de la esperanza condicional


y de la covarianza puede ser mediante el anlisis economtrico, en donde se
selecciona una variable de estudio (o dependiente) y cuyo comportamiento se
encuentra condicionada por otras variables (independientes o de control). De
acuerdo a Greene (2002) y Gujarati (2010) lo anterior se puede explicar de la
siguiente manera.

Sea Y la variable la variable objetivo o dependiente cuyo comportamiento se


encuentra condicionado a los valores de las variables explicativas, Xi, es decir,
E(Y|Xi) es funcin de Xi,

E Y | X i f X i

( 11 )

donde i = 1, 2, , n, representa el tamao muestral el nmero de observaciones.


En la Grfica 1 se ejemplifica lo dicho previamente.

Grfica 1
E(Y|X)
E(Y|X) = f(Xi)
E(Y|X= x3)

E(Y|X= x2)

E(Y|X= x1)

x1

x2

x3

Fuente: grfica tomada de Greene (2002, pp. 18)

A partir de la Grafica 1, se puede establecer la relacin funcional de una funcin de


regresin lineal, ecuacin (12)

E Y | X i =0 1 X i

( 12 )

Donde 0 y 1 son parmetros constantes no conocidos, los cuales se denominan


coeficientes de regresin. Lo anterior es utilizado en las ciencias sociales como la
economa para analizar el comportamiento de las variables de tipo econmico. Es
as que la funcin de regresin descrita en la ecuacin (12) busca encontrar los
valores de 0 y 1 de acuerdo a la informacin disponible, de esta manera determinar
el valor esperado de la variable dependiente (Y) condicionada a los valores de las
variables explicativas (X).

De acuerdo al enfoque de la regresin y la Grafica 1, la ecuacin (12) tiene la


propiedad de ser lineales cuyo mtodo de estimacin puede ser por Mnimos
Cuadrado Ordinarios, MCO, aunque cabe sealar que hay otros mtodos que no se
tratarn en el presente documento. El mtodo MCO permite estimar los parmetros

0 y 1, conociendo as la esperanza condicional de la variable dependiente, dado


los valores que toma las variables explicativas y adems se debe considerar que en
el proceso de estimacin se incurre en un error, el cual es agregado a travs de la
variable ui, la cual es una variable aleatoria que satisface el teorema de GaussMarkov1. Lo anterior permite re expresar la ecuacin (12) en la ecuacin (13),

E Y | X =0 1 X i ui
E Y | X i E E Y | X i E ui | X i

( 13 )

En la ecuacin (13) se tiene que el trmino izquierdo de la ecuacin, E(Y|Xi), es lo


mismo del lado derecho, E(Y|Xi), lo que implicara que el ultimo trmino del lado

El teorema de Gauss-Markov implica para el caso de la variable error, ui, sta se distribuye como
una distribucin normal con media cero y varianza mnima, ui N(0,2).

derecho es cero, E(ui|Xi) = 0, esto se debe a que el trmino error, ui, y la variable
explicativa, Xi, no estn correlacionadas, esto tambin implica que la covarianza
entre el error, ui, y la variable explicativa, Xi, es cero, cov(ui, Xi) = 0 (Gujarati, 2010,
pp.68 y Greene, 2002, pp.14).

Este tipo de herramientas son utilizadas en el anlisis economtrico de acuerdo a


la naturaleza de la informacin. Por ejemplo, si los datos son de corte transversal,
estos se obtienen mediante muestreo aleatorio, como es el caso de una encuesta.
Si los datos son series de tiempo, implica que estos provienen de las observaciones
hechas en el tiempo, como la tasa de inters observada para un periodo
determinado y con cierta periodicidad (diaria, mensual, trimestral, anual, etc.).

Si los datos son una combinacin entre datos transversales y series de tiempo se
les conoce como datos de panel o longitudinales, los cuales constan de una serie
de tiempo para cada elemento del corte transversal en el conjunto de datos
(Wooldridge, 2002).

3.

Un caso prctico

Para ejemplificar el uso de la esperanza condicional y de la covarianza en un caso


aplicado a las ciencias sociales, se toma la base de datos sala.dta del libro de
Wooldridge (2002) la cual contiene 526 observaciones y la cual ser utilizada para
explicar que el salario de la comunidad Z se encuentra condicionado a los siguientes
factores, i) si el trabajador es mujer u hombre, y ii) estado civil. El modelo estadstico
que explica el salario de la comunidad Z se expresa en la ecuacin (14).
salario 0 1mujer 2ecivil ui

( 14 )

Donde, salario es una variable cuantitativa2 del ingreso que perciben las personas
de la comunidad Z como pago de la prestacin laboral medido en dlares por hora
trabajada, mujer es una variable cualitativa3 que toma el valor uno si es mujer y cero
si es hombre, mientras ecivil es una variable cualitativa que toma el valor de uno si
la persona est casada y cero si es todo lo contrario. Por ltimo se tiene que la
variable ui, es el trmino residual o error del modelo estadstico de regresin lineal.

Con la ecuacin (14) se desea ahora determinar si existe o no una diferencia salarial
entre hombres y mujeres as como el estado civil, para ello se impone las siguientes
restricciones sobre los parmetros:

0 0
1 0
2 0
Es decir, si los parmetros despus de haber estimado la ecuacin (14) son
estadsticamente significativos, implicara que si existe diferencias salariales entre
mujeres y hombres as como el estado civil (casado o soltero) de las personas que
habitan la comunidad Z. Bajo estas condiciones la ecuacin (14) se reescribe en la
ecuacin (15) considerando los siguientes escenarios: i) la variable mujer toma el
valor uno, mientras el ecivil toma el valor cero, ii) la variable mujer toma el valor uno,
mientras el ecivil toma el valor uno, iii) las variables mujer y ecivil toman el valor
cero, y iv) las variables mujer toma valor cero mientras el ecivil toma el valor uno.

E salario | mujer , ecivil 0 1mujer 2ecivil ui

( 15 )

Una variable cuantitativa es aquella que se expresa de manera numrica, por ejemplo, el peso, la
estatura, edad, el valor monetario del PIB, el nivel de la tasa de inters, etc.
3 Una variable cualitativa es aquella que puede tomar dos valores que se conoce atributo (0, 1).
Cuando la variable toma el valor cero indica ausencia del atributo, mientras el valor uno refleja que
la variable cuenta con el atributo, por ejemplo, uno puede indicar que una persona es del sexo
femenino, mientras el cero puede indicar que la persona es del sexo masculino. De esta manera se
puede incorporar al anlisis aquellas variables que hacen referencia a las cualidades, tales como,
sexo, religin, estado civil, raza, entre otras ms.

De acuerdo a la ecuacin (15) se tiene que el valor esperado del salario se ha


condicionado a los valores de las variables cualitativas de que el trabajador es o no
una mujer y por el estado civil de que el trabajador es o no casado. Antes de estimar
la ecuacin (15), a continuacin se presenta en la Tabla 1 la descripcin estadstica
de las series.

Tabla 1
Anlisis descriptivo de las variables
Estadistico
Media
Varianza
Desviacin Estandar
Valor mnimo
Valor mximo
Sesgo
Curtosis
Hombres
Mujeres
Casados
Solteros
Observaciones

salario
5.896103
13.63888
3.693086
0.53
24.98
2.007325
7.970083

526

mujer
0.4790875
0.250038
0.500038
0
1
0.0837235
1.00701
252
274

526

ecivil
0.608365
0.2387108
0.4885804
0
1
-0.4440136
1.197148

206
320
526

Para el caso de la variable salario, se tiene que el salario promedio es de 5.89


dlares por hora y una mediana de 4.65. Adems hay personas que perciben menos
de un dlar por hora y otras que tienen un salario de 24.98. Con esto se aprecia que
existe una diferenciacin salarial, esto ltimo se puede apreciar mejor mediante la
Grfica 2 en donde existen valores atpicos, outliers. Los valores atpicos indican
que hay personas que perciben un salario mayor al lmite superior del grafico de
caja. Con ello se confirma la existencia de una diferenciacin salarial, esto justifica
porque la variable salario tiene una curtosis de 7.97, indicando con ello una
distribucin leptocurtica.

Grfica 2
Concentracin del salario

10

10
15
Salario: dlar por hora

20

25

En la Grfica 3 se muestra el histograma, en el cual confirma que el salario tiene


una distribucin leptocurtica y con un fuerte sesgo a la izquierda.

Grfica 3
Histograma del salario
.3

.2

.1

0
0

10
15
Salario promedio por hora

20

25

De acuerdo a la Tabla 1, indica que la variable mujer se encuentra compuesta por


274 mujeres y 252 hombres. Mientras la variable ecivil se compone de 206 casados

11

y 320 solteros. A continuacin se calcula la matriz de covarianza, Tabla 3, y de


correlacin, Tabla 4.
Tabla 3
Matriz de Covarianza
SALARIO MUJER
SALARIO
13.731
-0.628
MUJER
-0.628
0.250
ECIVIL
0.412
-0.041

ECIVIL
0.412
-0.041
0.238

Tabla 4
Matriz de Correlacin
SALARIO
SALARIO
1.0000
MUJER
-0.3395
ECIVIL
0.2279

MUJER
-0.3395
1.0000
-0.1661

ECIVIL
0.2279
-0.1661
1.0000

La covarianza mide el grado de dependencia entre variables, para este caso la


covarianza entre salario y mujer es negativa, mientras la covarianza entre salario y
ecivil es positiva. Por otro lado la matriz de correlacin mide el grado de asociacin
lineal entre las variables, en este caso se tiene que la asociacin entre salario y
mujer es de -0.3395 (-33.95%), esto implica que existe una relacin inversa entre
estas variables. Para el caso entre salario y ecivil la relacin es positiva con un grado
de asociacin de 0.2270 (22.7%).

Cabe mencionar que la covarianza es quien determina el signo de la relacin entre


las variables en la matriz de correlacin. Una vez que se ha descrito las variables
que se utilizarn en el anlisis, se procede a estimar la ecuacin (15), cuyos valores
obtenidos por MCO se presentan en la ecuacin (16).

E salario | mujer , eduacion, ecivil 6.1804 2.2944mujer 1.339ecivil


ee(i)

(0.2963)

( 16 )

(0.30261)

(0.30971)

t-estadstico (20.86)

(-7.58)

(4.32)

P-value

(0.000)

(0.000)

(0.000)

12

Antes de analizar los escenarios, se puede apreciar en la ecuacin estimada (16)


que los parmetros 0, 1, y 2 satisfacen la restriccin impuesta de que estos son
diferentes de cero o que son estadsticamente significativos. Esto implica que el
salario que perciben los trabajadores de la comunidad Z existe una discriminacin
de gnero (entre hombres y mujeres) y por su estado civil.

De la ecuacin (14) se aprecia que el parmetro de la variable mujer es negativo,


indicando con ello, la existencia de una discriminacin hacia la mujer, ya que su
salario estar por debajo del hombre. Mientras el parmetro de ecivil resulto ser
positivo, indicando que el salario de los trabajadores que estn casados ser mayor
de aquellos que se encuentran solteros.

Una vez que se ha encontrado evidencia sobre la existencia de diferenciacin


salarial debido a factores de gnero y del estado civil, a continuacin se procede a
interpretar los escenarios previamente establecidos.

Escenario 1:

E salario | mujer 1, ecivil 0 6.1804 2.2944 * (1) 1.339 * (0)


E salario | mujer 1, ecivil 0 3.886
De acuerdo al escenario 1, se tiene que el salario de una mujer soltera es de 3.886
dlares por hora.

Escenario 2:

E salario | mujer 1, ecivil 1 6.1804 2.2944 * (1) 1.339 * (1)


E salario | mujer 1, ecivil 1 5.225
Con el escenario 2, se tiene evidencia que el salario de una mujer casada es 5.225
dlares por hora.

13

Escenario 3:

E salario | mujer 0, ecivil 0 6.1804 2.2944 * (0) 1.339 * (0)


E salario | mujer 0, ecivil 0 6.1804

En el escenario 3 se indica que las variables mujer y ecivil toman el valor cero, lo
que permite conocer el salario de los hombres que son solteros, el cual es de 6.1804
dlares por hora.

Escenario 4:

E salario | mujer 0, ecivil 1 6.1804 2.2944 * (0) 1.339 * (1)


E salario | mujer 0, ecivil 1 7.5194

Por ltimo, con el escenario 4 permite calcular el salario de los hombres casados,
el cual es de 7.5194 dlares por hora.

Con ste anlisis se encontr que el salario que perciben los habitantes de la
comunidad Z se encuentra condicionado si el trabajador es hombre o mujer y
adems si est casado o no. De acuerdo a los cuatro escenarios, se tiene que las
mujeres solteras son quienes perciben el menor salario, mientras que los hombres
casados son los que gozan del mayor salario.

Comentarios finales

En este documento se describe el proceso de obtencin de la esperanza condicional


a partir de su distribucin de probabilidad condicional, para los casos de una variable
aleatoria discreta y continua. En su derivacin se hace mencin que este tipo de
conceptos pueden ser utilizados segn el tipo de anlisis que se desea emplear, es
decir, si es univariante o multivariado. Para el caso de la esperanza condicional,
este es de carcter multivariado ya que en su derivacin interviene ms de una
variable.

14

En la ciencia econmica estos conceptos son utilizados a travs de la regresin


lineal, el cual permite establecer cmo la variable de estudio es dependiente o se
encuentra condicionada a los valores de las variables explicativas. Este anlisis se
utiliz en el documento para ejemplificar como el salario de los trabajadores de la
comunidad Z, se encuentra condicionado a los factores de gnero y al estado civil.
Una vez llevado el desarrollo del anlisis se encontr evidencia que en esta
comunidad existe una discriminacin hacia la mujer y a las personas solteras, ya
que la mujer que es soltera su salario es inferior a la de un hombre que es casado.

Este anlisis se puede aplicar en cualquier comunidad, regin o pas incorporando


otras variables para el estudio como es la experiencia laboral, aos de estudios o
tipo de estudios, nmero de hijos, aos de antigedad entre otros ms. Tambin
para robustecer el estudio se puede emplear otros mtodos estadsticos de mayor
precisin que aporten mayor informacin sobre la variable de estudio que en este
caso fue el salario.

Referencias

Canavos, George (1988), Probabilidad y Estadstica. Aplicaciones y mtodos,


McGraw-Hill, Mxico.

Freud, J., I. Miller y M. Miller (2000), Estadstica Matemtica con Aplicaciones, 6


Ed. Prentice-Hall, Mxico.
Greene, William (2002), Econometric Analysis, 5 Ed. Prentice-Hall, USA.

Gujarati, Damodar y Dwan Porter (2010), Econometra, 5 Ed. McGraw-Hill, Mxico

Otero, Jos Mara (1993), Econometra. Series temporales y prediccin, Editorial


AC, Madrid.

Ross, Sheldon (2010), Introduction to Probability Models, 10 Ed. Elsevier, USA.

15

Spanos, Aris (1999), Probability theory and statistical inference: Econometric


modeling with observational data, Cambridge University Press, USA.

Wooldridge, Jeffrey (2002), Introduccin a la Econometra. Un enfoque moderno,


Thomson Learning, Mxico.

16

Você também pode gostar