Universidad Nacional Mayor de San Marcos

ANALISIS DE DATOS CON “R”
El siguiente análisis lo hacemos con respecto a una base de datos conformada

por 45 unidades de estudio.
Los datos están agrupados en tres secciones: ingreso, sueldo y tiempo de
servicio, los cuales están simbolizados de la siguiente manera:
 Edad: Y
 Sueldo: X1
 Tiempo de servicio: X2
A continuación presentamos los datos en “R”
a) Comando
> data<-read.delim("F:/datah.txt")
> data
Tabla 1. Datos para el análisis en “R”
I. ESTADÍSTICOS DESCRIPTIVOS
A. Resumen estadístico:
a) Comando
> summary(data)
Tabla 2. Resumen estadistico por variable
b) Interpretación
En la tabla dos podemos ver un resumen estadístico de las 3 variables, haremos
un análisis de cada una.
Para la variable “Y” (edad) vemos que la media, es decir el promedio, es de 47
años, mientras que el valor intermedio de la muestra es el de 48 años. También
nos muestra el dato máximo y el mínimo que son 70 años y 25 años,
respectivamente.
Para la variable “X1” (sueldo) vemos que la media, es decir el promedio, es de
4151 soles, mientras que el valor intermedio de la muestra es el de 4005 soles.
También nos muestra el dato máximo y el mínimo que son 7150 soles y 1750
soles, respectivamente.
Para la variable “X2” (tiempo de servicio) vemos que la media, es decir el
promedio, es de 13.29 meses, mientras que el valor intermedio de la muestra es
el de 12 meses. También nos muestra el dato máximo y el mínimo que son 30
meses y 3 meses, respectivamente.
Calcularemos ahora estadísticos restantes por medio de comandos
independientes:
B. Moda
Para calcular la moda, al no haber un comando específico, utilizaremos el
comando “table”.
a) Comando:
> table(“variable”)
Tabla 3. Desviación estandar por variable
b) Interpretación
Podemos ver que en la variable “Y” la moda, el dato mas frecuente, es 43
años. La variable “X1” posee dos modas 2400 soles y 2800 soles,
mientras que la moda para la variable “X2” es 12 meses.
C. Rango
Para calcular el rango usaremos la combinación de dos comandos max() y min()
a) Comando:
> rango.“variable”<-(max(“variable”)-min(“variable”))
>rango.“variable”
Tabla 4. Rango por variable
b) Interpretación
El rango de la variable “Y” es 45, es decir la diferencia entre el máximo y
mínimo. Mientras que para las variables “X1” y “X2” el rango es de 5400
y 27, respectivamente. El rango nos da una idea de la dispersión.
D. Desviación estándar
a) Comando:
> sd (“variable”)
Tabla 5. Desviación estandar
b) Interpretación
Por la siguiente tabla podemos ver las desviaciones de cada variable. En
el caso de la variable “Y” notamos q su desviación estándar es de
13.29301, esto quiere decir que el promedio de dispersión de los datos
con respecto a la media de la variable “Y” es de 13,29301.
El mismo análisis podemos realizar a las variables “X1” y “X2” quienes
poseen una desviación estándar, promedio de dispersión respecto a la
media de todos los datos de la muestra, de 1311.55 y 7.542673,
respectivamente.
En tal sentido, podríamos decir que en la variable “X1” la que posee un
promedio de dispersión, con respecto a la media, mucho mayor que las
demás variables, mientras que la variable “X2” posee un promedio de
dispersión, con respecto a la media, menor que las otras dos.
E. Rango
Para calcular el rango usaremos la combinación de dos comandos max() y min()
a) Comando:
> quantile(“variable”,probs=c(0,0.25,0.5,0.75,1))
Tabla 6. Cuantil por variables
b) Interpretación
En la anterior tabla podemos ver datos que arroja el quantile según la
posición que tienen dentro de la muestra.
F. Varianza
a) Comando
> var (“variable”)
Tabla 7. Varianza
b) Interpretación
Por la siguiente tabla podemos ver las desviaciones de cada variable. En
el caso de la variable “Y” notamos q su desviación estándar es de
13.29301, esto quiere decir que el promedio de dispersión de los datos
con respecto a la media de la variable “Y” es de 13,29301.
El mismo análisis podemos realizar a las variables “X1” y “X2” quienes
poseen una desviación estándar, promedio de dispersión respecto a la
media de todos los datos de la muestra, de 1311.55 y 7.542673,
respectivamente.
En tal sentido, podríamos decir que en la variable “X1” la que posee un
promedio de dispersión, con respecto a la media, mucho mayor que las
demás variables, mientras que la variable “X2” posee un promedio de
dispersión, con respecto a la media, menor que las otras dos.
G. Covarianza
a) Comando
> cov (data)
Tabla 8. Covarianza por variable
b) Interpretación
Como podemos ver a través de la tabla 6, las variables tienen una
correlación positiva, pues para todas ellas la covarianza es positiva y
mayor a cero. Según los datos obtenidos, la correlación entre “Y” y “X1”
es mucho mayor a “Y” y “X2”.
H. Correlación
a) Comando
> cor (data)
Tabla 9. Correlación por variable
b) Interpretación
Como podemos ver la tabla, la correlación entre “Y” y las otras dos
variables es positiva, es decir hay una relación directa, pero esta no es
tan significativa, pues no llega ni a 0.5. Si evaluamos la correlación que
encontramos entre las variables “X1” y “X2”, nos daremos cuenta que la
correlación es mucho mayor entre estas, logrando un 0.69, tienen ambas
una relación positiva, es decir directa.
I. Coeficiente de Variación
Para calcular el coeficiente de variación, al no haber un comando específico,
utilizaremos tendremos que crear una combinación de comandos que nos
permita obtenerlo.
a) Comando
> cv.”variable”<-(sd(“variable”)/mean(“variable”))
> cv.”variable”
Tabla 10. Coeficiente de Variación
b) Interpretación
Como vemos a través de la tabla 8, la variable que presenta mayor
dispersión en la variable “X2”, la cual posee un coeficiente de variación
del 56%. La variable “Y” es la que presenta un menor coeficiente de
variación, llegando solo al 27.7%, aproximadamente. Lo que nos indica
que, con respecto a las otras, la variable” Y”, tiene sus datos mucho más
cerca a la media. La variable “X1”, posee un coeficiente de variación de
31.6%, su grado de dispersión no es muy alto y es representativo.
J. Histograma de la variable “Y”
a) Comando
> hist(y,col="blue",main="HISTOGRAMA DE EDADES",
ylab="Frecuencia", xlab="Edad",ylim=c(0,10))
Gráfico 1. Muestra el histograma de edades en años
b) Interpretación
A través del histograma de edades, podemos notar que la distribución de
los datos no es tan asimétrica, es decir que hay una ligera preferencia por
los datos más pequeños. Podemos notar también que se prefieren
personas que tienen entre 40 y 45 años de edad y hay 6 persona que
tiene entre 65 y 70años de edad.
K. Histograma de la variable “X1”
a) Comando
> hist(X1,col="lightgreen",main="HISTOGRAMA DE SUELDOS",
ylab="Frecuencia", xlab="Sueldos")
Gráfico 2. Muestra el histograma de sueldos en soles
b) Interpretación
En este histograma vemos que la distribución es asimétrica positiva, es
decir, que se prefieren los datos mas pequeños, o hay escasa información
en los datos mas altos. Los sueldos pagados con mayor recurrencia son
los que se encuentran en el intervalo de 4000 a 5000 soles, mientras que
solo hay un trabajador al que se le paga un sueldo entre 1000 y 2000
soles.
L. Histograma de la variable “X2”
a) Comando
> hist(X2,col="orange",main="HISTOGRAMA DE TIEMPO DE
SERVICIO", ylab="Frecuencia", xlab="Tiempo de Servicio")
Gráfico 3. Muestra el histograma de tiempo de servicio en meses
b) Interpretación
El histograma de la variable “X2” si es muy explícito, en el se ve a simple
vista que tiene una asimetría positiva, en donde se prefieren los datos de
menor valor. El tiempo de servicio, más frecuente, de los trabajadores es
el que se encuentra entre los 5 y 10 meses, mientras que solo 3 personas
trabajaron entre 25 y 30 meses en la empresa.
M. Gáfico de caja de la variable “Y”
a) Comando
> boxplot(y,data=data,main="Gráfico de caja de Edad",ylab="Edad",
col=(c("red")))
Gráfico 4. Muestra el gráfico de caja de edades en años
b) Interpretación
Como vemos en la gráfica de caja la distribución de la muestra es más
simétrica que las demás. La media se encuentra casi junto a la mediana,
como vimos en el análisis de los estadísticos, en los q encontramos q la
media era 48.02 y la mediana era 47. Esa proximidad entre ambas nos
muestra que la gráfica posee una asimetría más cercana a 0.
N. Gráfico de caja de la variable “X1”
a) Comando
> boxplot(X1,data=data,main="Gráfico de caja de Sueldo",
ylab="Sueldo", col=(c("yellow")))
Gráfico 5. Muestra el gráfico de caja de sueldos en soles
b) Interpretación
Como vemos en caja de sueldo, por la distribución de la misma, podemos
evidenciar que su asimetría es positiva, habiendo preferencias por los
datos menores. La media esta alejada de la mediana, y el dato mayor se
encuentra muy alejado de los demás datos de la muestra.
O. Gráfico de caja de la variable “X2”
a) Comando
> boxplot(X2,data=data,main="Gráfico de caja de Tiempo de Servicio",
ylab="Tiempo de servicio", col=(c("blue")))
Gráfico 6. Muestra el gráfico de caja de tiempo de servicio en meses
b) Interpretación
En esta gráfica de cajas vemos que hay una distribución asimétrica
positiva, con preferencias por los datos de menor valor, esto se evidencia
también a través de los datos obtenido anteriormente, en el que la media
y la mediana se encuentran muy distanciadas. La asimetría positiva es
mucho más acentuada en esta variable.
P. Gráfico de barras de la variable “Y”
a) Comando
> barplot(table(y),main="Gráfico de barra de Edad",
ylab="Frecuencia",xlab="Edad",col="purple")
Gráfico 7. Muestra el gráfico de barras de las edades en años
b) Interpretación
En el gráfico de barras vemos la distribución de las edades por su
frecuencia. Nos damos cuenta, al igual que en las otras gráficas que la
muestra es casi simétrica. Hay un poco preferencia por los datos menores.
Q. Gráfico de barras de la variable “X1”
a) Comando
> barplot(table(X1),main="Gráfico de barras de sueldo",
ylab="Frecuencia", xlab="Sueldo",col="brown")
Gráfico 8. Muestra el gráfico de barras de sueldos en soles
b) Interpretación
Como vemos en el gráfico hay una mayor cantidad, respecto a las demás,
de personas que reciben un sueldo entre 1750 y 3250. Si nos fiamos de
este gráfico, podríamos decir que posee una simetría positiva muy
marcada. Con una alta preferencia por los datos de menor valor.
R. Gráfico de barras de la variable “X2”
a) Comando
> barplot(table(X2),main="Gráfico de barras de tiempo de servicio",
ylab="Frecuencia",xlab="Tiempo de servicio",col="gold")
Gráfico 9. Muestra el gráfico de barras de tiempo de servicio en meses
b) Interpretación
En la gráfica de barras podemos ver la distribución de las edades con sus
respectivas frecuencias. Vemos q el tiempo de servicio mas frecuente
entre los trabajadores es el de 12 meses. Si nos fiamos por este gráfico
se puede decir, que al igual que las demás variables, posee una asimetría
positiva.
S. Gráfico de pastel de la variable “Y”
c) Comando
> pie(table(y),col=rainbow(length(table(y))),main="Gráfico de pastel de
Edad")
Gráfico 10. Muestra el gráfico de pastel de las edades en años
d) Interpretación
En el gráfico de barras vemos la distribución de las edades por su
frecuencia. Nos damos cuenta, al igual que en las otras gráficas que la
muestra es casi simétrica. Hay un poco preferencia por los datos menores.
T. Gráfico de pastel de la variable “X2”
c) Comando
> pie(table(X2),col=rainbow(length(table(X2))),main="Gráfico de pastel
de Tiempo de servicio")
Gráfico 11. Muestra el gráfico de pastel de tiempo de servicio
d) Interpretación
En la gráfica de barras podemos ver la distribución de las edades con sus
respectivas frecuencias. Vemos q el tiempo de servicio mas frecuente
entre los trabajadores es el de 12 meses. Si nos fiamos por este gráfico
se puede decir, que al igual que las demás variables, posee una asimetría
positiva.
U. Gráfico de puntos de las variables “X1” y “Y”
a) Comando
> plot(X1,y, col="green",main="Gráfica de dispersión de X1 y Y")
Gráfico 12. Muestra el gráfico de dispersión de “X1” y “y”
b) Interpretación
A través del gráfico vemos la dispersión que hay entre las variables “X1”
y “Y”, al parecer la dispersión es muy alta, no se pude decir si es una
asimetría positiva o negativa, pero se puede inferir, que es poco probable
explicar por medio de “X1” la variable “Y”.
V. Gráfico de puntos de las variables “X2” y “Y”
a) Comando
> plot(X2,y, col="blue",main="Gráfica de dispersión de X2 y Y")
Gráfico 13. Muestra el gráfico de dispersión de “X2” y “Y”
b) Interpretación
El gráfico anterior muestra la dispersión que hay en la relación de datos
de la variable “X2” y la variable “Y”, como se ve, los datos están
demasiado dispersos. No se puede tener, a ciencia cierta, si es realmente
representativa la correlación que exista entre ellas.
W. Gráfico de puntos de las variables “X1” y “X2”
a) Comando
> plot(X1,X2, col="red",main="Gráfica de dispersión de X1 y X2")
Gráfico 14. Muestra el gráfico de dispersión de “X1” y “X2”
b) Interpretación
La gráfica muestra que entre las variables “X1” y “X2” hay una correlación
positiva, no se muestra mucha dispersión, esto a comparación con la
variable “Y”, que al momento de evaluarla con las del tipo “X” arroja una
alta dispersión.
X. Gráfico de puntos de las variables “X1” y “X2”
a) Comando
> pairs(data, main="Gráfico de dispersión resumen",col="blue")
Gráfico 15. Muestra la gráfica de dispersión de todas las variables
b) Interpretación
En el gráfico resumen vemos como las variables del tipo “X” son dispersas
con respecto a la variable “Y”. Esto no ocurre cuando comparamos ambas
variables del tipo “X”, pues se ve que tienen una correlación positiva, pues
ambos van en la misma dirección.
ANÁLISIS DE DATOS EN EVIEWS
II. DETERMINACIÓN DEL MODELO Y SU
ESTACIONARIEDAD.
A. Modelo mediante ANOVA para “X1” y “Y”
a) Hipótesis
Ho: probabilidad > α, el modelo no es estacionario
H1: probabilidad < α, el modelo es estacionario
b) ANOVA
Tabla 11. ANOVA
Variable Coefficient Std. Error t-Statistic Prob.
C 35.26954 6.405405 5.506216 0.0000

X1 0.003072 0.001473 2.085835 0.0430
R-squared 0.091883 Mean dependent var 48.02222

Adjusted R-squared 0.070764 S.D. dependent var 13.29301
S.E. of regression 12.81405 Akaike info criterion 7.982388
Sum squared resid 7060.593 Schwarz criterion 8.062684
Log likelihood -177.6037 Hannan-Quinn criter. 8.012321
F-statistic 4.350706 Durbin-Watson stat 2.600524
Prob(F-statistic) 0.042962
c) Decisión
Ya que la probabilidad es 0.00 < 0.05, se acepta H1, entonces el modelo
es estacionario. La función de regresión sería:
Y= 35.26954 + 0.003072(X1)
d) Interpretación
Hemos logrado obtener un modelo que en realidad no es representativo.
La correlación que hay entre ellas dos es mu bajo, no llega ni al 0.1, no
se puede decir que por medio de la variable “X1” se pueda explicar la
variable “Y”.
e) Gráfico de dispersión
80
70
60
50
Y
40
30
20
1,000 2,000 3,000 4,000 5,000 6,000 7,000 8,000
X1
f) Interpretación del gráfico

Como podemos ver en el gráfico los datos están realmente muy dispersos y es
poco probable que la variable “Y” pueda ser explicada mediante la variable “X1”.
B. Modelo mediante ANOVA para “X2” y “Y”
a) Hipótesis
Ho: probabilidad > α, el modelo no es estacionario
H1: probabilidad < α, el modelo es estacionario
b) ANOVA
Tabla 12. ANOVA
C 36.78000 3.592865 10.23696 0.0000

X2 0.845987 0.235770 3.588182 0.0008
R-squared 0.230426 Mean dependent var 48.02222

c) Decisión
Ya que la probabilidad es 0.00 < 0.05, se acepta H1, entonces el modelo
es estacionario. La función de regresión sería:
Y= 36.78000 + 0.845987 (X1)
d) Interpretación
Gracias a este gráfico podemos ver que ya tenemos un modelo, pero
debemos notar que el modelo no es realmente significativo en su análisis,
ya que la correlación que guardan entre ellas es muy baja.
e) Gráfico de dispersión
80
70
60
50
Y
40
30
20
0 5 10 15 20 25 30 35
X2
f) Interpretación del gráfico

El gráfico de “X2” y “Y” aún tiene sus datos dispersos, pero a comparación con
en de “X1” y “Y” hay una mayor correlación, aun q no tan significativa pues solo
tiene una correlación de 0.2. Esto quiere decir q “Y” no podrá ser explicada, de
la mejor manera, por este modelo.
C. Prueba de raíz unificada
a) Para “Y”
Tabla 13. Prueba de ráiz unificada
Null Hypothesis: Y has a unit root

Exogenous: Constant
Lag Length: 0 (Automatic - based on SIC, maxlag=9)
t-Statistic Prob.*
Augmented Dickey-Fuller test statistic -9.691434 0.0000

Test critical values: 1% level -3.588509
5% level -2.929734
10% level -2.603064
*MacKinnon (1996) one-sided p-values.
Augmented Dickey-Fuller Test Equation

Dependent Variable: D(Y)
Method: Least Squares
Date: 11/24/18 Time: 04:07
Sample (adjusted): 2 45
Included observations: 44 after adjustments
Y(-1) -1.387140 0.143130 -9.691434 0.0000

C 66.64796 7.157500 9.311626 0.0000
R-squared 0.691004 Mean dependent var -0.250000

b) Interpretación de la tabla
En la tabla podemos notar algunos estadísticos a modo de resumen que nos
ayudan a sabes como se comporta “Y” y como es su grado de asimetría. Nos
ayuda a confirmar también si el modelo obtenido antes posee estacionariedad.
c) Para “X1”
Null Hypothesis: X1 has a unit root

Exogenous: Constant
t-Statistic Prob.*

5% level -2.929734
10% level -2.603064

Dependent Variable: D(X1)
Date: 11/24/18 Time: 04:08
X1(-1) -1.410367 0.140734 -10.02151 0.0000

C 5854.618 613.0845 9.549448 0.0000

Sum squared resid 62943070 Schwarz criterion 17.18344
d) Interpretación de la tabla
En la tabla podemos notar algunos estadísticos a modo de resumen que nos
ayudan a sabes cómo se comporta “X1” y como es su grado de asimetría. Nos
ayuda a confirmar también si el modelo obtenido antes posee estacionariedad
e) Para “X2”
Null Hypothesis: X2 has a unit root

Exogenous: Constant
t-Statistic Prob.*

5% level -2.929734
10% level -2.603064

Dependent Variable: D(X2)
Date: 11/24/18 Time: 04:08
X2(-1) -1.581568 0.125570 -12.59508 0.0000

C 21.01815 1.921788 10.93677 0.0000

f) Interpretación de la tabla
Para concluir con el análisis podemos ver la tabla nos brinda información sobre
alguno estadísticos a modo de resumen que nos ayudan a sabes cómo se
comporta “X2” y como es su grado de asimetría. Nos ayuda a confirmar también
si el modelo obtenido antes posee estacionariedad
III. FORMAS DE IMPORTAR DATOS A EVIEWS
A. Introducir datos a mano

1) Crea un grupo de trabajo [1.1] y selecciona Quick > Empty Group (Edit
Series).
2) Sube con el cursor una vez para que se pueda ver la primera fila.
3) En la primera fila introduce el nombre de la variable y en la columna
debajo los valores.
4) Cierra la ventana y a la pregunta Delete Untitled GROUP? contesta Yes.
5) En File > Save As podrás guardar el fichero con extensión por defecto
wf1.
B. Importar datos de una hoja de cálculo
1) Los datos deben estar en una hoja de Excel o Lotus en columnas con el
nombre de las variables en la primera fila.
2) Selecciona File > Import > Read Text-Lotus-Excel...
3) Busca en el disco duro tu hoja de cálculo, selecciona y confirma Abrir.
4) En el campo Upper-left data cell asegúrate de que aparece efectivamente
la celda
5) del primer dato, normalmente A2 si has empezado por la columna A y la
primera fila contiene los nombres de las variables.
6) En Names for series or Number of series if names in files introduce el
número de variables.
7) Confirma OK y salva tu nuevo grupo de trabajo en File > Save As.
C. Importar datos copiando directamente
Se puede copiar directamente la hoja actual de Excel, simplemente se
debe arrastrar sobre la ventana de Eviews y se copiará la hoja actual.
IV. EXTENSIONES DE EVIEWS
EViews utiliza un formato propio de almacenamiento de información que resulta
muy útil puesto que conserva para cada objeto algunas de las propiedades que,
almacenado en otro formato, se perderían.
No sólo pueden almacenarse series en este formato de EViews sino cualquier
otro tipo de objeto de EViews. Cada uno de ellos puede ser reconocido
fácilmente por la extensión que tendrá el fichero donde quedará guardado el
objeto.
a) .DB para series

b) .DBE para ecuaciones
c) .DBM para matrices o vectores de coeficientes
d) .DBG para gráficos
e) .DBR para grupos de variables
f) .DBT para tablas
g) .DBV para vectores autorregresivos
h) .DBL para modelos
i) .DBS para sistemas completos

Universidad Nacional Mayor de San Marcos

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Universidad Nacional Mayor de San Marcos

Enviado por

Direitos autorais:

Formatos disponíveis

ANALISIS DE DATOS CON “R”

El siguiente análisis lo hacemos con respecto a una base de datos conformada

Variable Coefficient Std. Error t-Statistic Prob.

C 35.26954 6.405405 5.506216 0.0000

R-squared 0.091883 Mean dependent var 48.02222

f) Interpretación del gráfico

Variable Coefficient Std. Error t-Statistic Prob.

C 36.78000 3.592865 10.23696 0.0000

R-squared 0.230426 Mean dependent var 48.02222

f) Interpretación del gráfico

Null Hypothesis: Y has a unit root

Augmented Dickey-Fuller test statistic -9.691434 0.0000

*MacKinnon (1996) one-sided p-values.

Augmented Dickey-Fuller Test Equation

Variable Coefficient Std. Error t-Statistic Prob.

Y(-1) -1.387140 0.143130 -9.691434 0.0000

R-squared 0.691004 Mean dependent var -0.250000

Null Hypothesis: X1 has a unit root

Augmented Dickey-Fuller test statistic -10.02151 0.0000

*MacKinnon (1996) one-sided p-values.

Augmented Dickey-Fuller Test Equation

Variable Coefficient Std. Error t-Statistic Prob.

X1(-1) -1.410367 0.140734 -10.02151 0.0000

R-squared 0.705120 Mean dependent var -4.431818

Null Hypothesis: X2 has a unit root

Augmented Dickey-Fuller test statistic -12.59508 0.0000

*MacKinnon (1996) one-sided p-values.

Augmented Dickey-Fuller Test Equation

Variable Coefficient Std. Error t-Statistic Prob.

X2(-1) -1.581568 0.125570 -12.59508 0.0000

R-squared 0.790666 Mean dependent var -0.045455

A. Introducir datos a mano

a) .DB para series

Você também pode gostar