Escolar Documentos
Profissional Documentos
Cultura Documentos
b) Interpretación
En la tabla dos podemos ver un resumen estadístico de las 3 variables, haremos
un análisis de cada una.
Para la variable “Y” (edad) vemos que la media, es decir el promedio, es de 47
años, mientras que el valor intermedio de la muestra es el de 48 años. También
nos muestra el dato máximo y el mínimo que son 70 años y 25 años,
respectivamente.
Para la variable “X1” (sueldo) vemos que la media, es decir el promedio, es de
4151 soles, mientras que el valor intermedio de la muestra es el de 4005 soles.
También nos muestra el dato máximo y el mínimo que son 7150 soles y 1750
soles, respectivamente.
Para la variable “X2” (tiempo de servicio) vemos que la media, es decir el
promedio, es de 13.29 meses, mientras que el valor intermedio de la muestra es
el de 12 meses. También nos muestra el dato máximo y el mínimo que son 30
meses y 3 meses, respectivamente.
Calcularemos ahora estadísticos restantes por medio de comandos
independientes:
B. Moda
Para calcular la moda, al no haber un comando específico, utilizaremos el
comando “table”.
a) Comando:
> table(“variable”)
Tabla 3. Desviación estandar por variable
b) Interpretación
Podemos ver que en la variable “Y” la moda, el dato mas frecuente, es 43
años. La variable “X1” posee dos modas 2400 soles y 2800 soles,
mientras que la moda para la variable “X2” es 12 meses.
C. Rango
Para calcular el rango usaremos la combinación de dos comandos max() y min()
a) Comando:
> rango.“variable”<-(max(“variable”)-min(“variable”))
>rango.“variable”
Tabla 4. Rango por variable
b) Interpretación
El rango de la variable “Y” es 45, es decir la diferencia entre el máximo y
mínimo. Mientras que para las variables “X1” y “X2” el rango es de 5400
y 27, respectivamente. El rango nos da una idea de la dispersión.
D. Desviación estándar
a) Comando:
> sd (“variable”)
Tabla 5. Desviación estandar
b) Interpretación
Por la siguiente tabla podemos ver las desviaciones de cada variable. En
el caso de la variable “Y” notamos q su desviación estándar es de
13.29301, esto quiere decir que el promedio de dispersión de los datos
con respecto a la media de la variable “Y” es de 13,29301.
El mismo análisis podemos realizar a las variables “X1” y “X2” quienes
poseen una desviación estándar, promedio de dispersión respecto a la
media de todos los datos de la muestra, de 1311.55 y 7.542673,
respectivamente.
En tal sentido, podríamos decir que en la variable “X1” la que posee un
promedio de dispersión, con respecto a la media, mucho mayor que las
demás variables, mientras que la variable “X2” posee un promedio de
dispersión, con respecto a la media, menor que las otras dos.
E. Rango
Para calcular el rango usaremos la combinación de dos comandos max() y min()
a) Comando:
> quantile(“variable”,probs=c(0,0.25,0.5,0.75,1))
Tabla 6. Cuantil por variables
b) Interpretación
En la anterior tabla podemos ver datos que arroja el quantile según la
posición que tienen dentro de la muestra.
F. Varianza
a) Comando
> var (“variable”)
Tabla 7. Varianza
b) Interpretación
Por la siguiente tabla podemos ver las desviaciones de cada variable. En
el caso de la variable “Y” notamos q su desviación estándar es de
13.29301, esto quiere decir que el promedio de dispersión de los datos
con respecto a la media de la variable “Y” es de 13,29301.
El mismo análisis podemos realizar a las variables “X1” y “X2” quienes
poseen una desviación estándar, promedio de dispersión respecto a la
media de todos los datos de la muestra, de 1311.55 y 7.542673,
respectivamente.
En tal sentido, podríamos decir que en la variable “X1” la que posee un
promedio de dispersión, con respecto a la media, mucho mayor que las
demás variables, mientras que la variable “X2” posee un promedio de
dispersión, con respecto a la media, menor que las otras dos.
G. Covarianza
a) Comando
> cov (data)
Tabla 8. Covarianza por variable
b) Interpretación
Como podemos ver a través de la tabla 6, las variables tienen una
correlación positiva, pues para todas ellas la covarianza es positiva y
mayor a cero. Según los datos obtenidos, la correlación entre “Y” y “X1”
es mucho mayor a “Y” y “X2”.
H. Correlación
a) Comando
> cor (data)
Tabla 9. Correlación por variable
b) Interpretación
Como podemos ver la tabla, la correlación entre “Y” y las otras dos
variables es positiva, es decir hay una relación directa, pero esta no es
tan significativa, pues no llega ni a 0.5. Si evaluamos la correlación que
encontramos entre las variables “X1” y “X2”, nos daremos cuenta que la
correlación es mucho mayor entre estas, logrando un 0.69, tienen ambas
una relación positiva, es decir directa.
I. Coeficiente de Variación
Para calcular el coeficiente de variación, al no haber un comando específico,
utilizaremos tendremos que crear una combinación de comandos que nos
permita obtenerlo.
a) Comando
> cv.”variable”<-(sd(“variable”)/mean(“variable”))
> cv.”variable”
Tabla 10. Coeficiente de Variación
b) Interpretación
Como vemos a través de la tabla 8, la variable que presenta mayor
dispersión en la variable “X2”, la cual posee un coeficiente de variación
del 56%. La variable “Y” es la que presenta un menor coeficiente de
variación, llegando solo al 27.7%, aproximadamente. Lo que nos indica
que, con respecto a las otras, la variable” Y”, tiene sus datos mucho más
cerca a la media. La variable “X1”, posee un coeficiente de variación de
31.6%, su grado de dispersión no es muy alto y es representativo.
J. Histograma de la variable “Y”
a) Comando
> hist(y,col="blue",main="HISTOGRAMA DE EDADES",
ylab="Frecuencia", xlab="Edad",ylim=c(0,10))
Gráfico 1. Muestra el histograma de edades en años
b) Interpretación
A través del histograma de edades, podemos notar que la distribución de
los datos no es tan asimétrica, es decir que hay una ligera preferencia por
los datos más pequeños. Podemos notar también que se prefieren
personas que tienen entre 40 y 45 años de edad y hay 6 persona que
tiene entre 65 y 70años de edad.
K. Histograma de la variable “X1”
a) Comando
> hist(X1,col="lightgreen",main="HISTOGRAMA DE SUELDOS",
ylab="Frecuencia", xlab="Sueldos")
Gráfico 2. Muestra el histograma de sueldos en soles
b) Interpretación
En este histograma vemos que la distribución es asimétrica positiva, es
decir, que se prefieren los datos mas pequeños, o hay escasa información
en los datos mas altos. Los sueldos pagados con mayor recurrencia son
los que se encuentran en el intervalo de 4000 a 5000 soles, mientras que
solo hay un trabajador al que se le paga un sueldo entre 1000 y 2000
soles.
L. Histograma de la variable “X2”
a) Comando
> hist(X2,col="orange",main="HISTOGRAMA DE TIEMPO DE
SERVICIO", ylab="Frecuencia", xlab="Tiempo de Servicio")
Gráfico 3. Muestra el histograma de tiempo de servicio en meses
b) Interpretación
El histograma de la variable “X2” si es muy explícito, en el se ve a simple
vista que tiene una asimetría positiva, en donde se prefieren los datos de
menor valor. El tiempo de servicio, más frecuente, de los trabajadores es
el que se encuentra entre los 5 y 10 meses, mientras que solo 3 personas
trabajaron entre 25 y 30 meses en la empresa.
M. Gáfico de caja de la variable “Y”
a) Comando
> boxplot(y,data=data,main="Gráfico de caja de Edad",ylab="Edad",
col=(c("red")))
Gráfico 4. Muestra el gráfico de caja de edades en años
b) Interpretación
Como vemos en la gráfica de caja la distribución de la muestra es más
simétrica que las demás. La media se encuentra casi junto a la mediana,
como vimos en el análisis de los estadísticos, en los q encontramos q la
media era 48.02 y la mediana era 47. Esa proximidad entre ambas nos
muestra que la gráfica posee una asimetría más cercana a 0.
N. Gráfico de caja de la variable “X1”
a) Comando
> boxplot(X1,data=data,main="Gráfico de caja de Sueldo",
ylab="Sueldo", col=(c("yellow")))
Gráfico 5. Muestra el gráfico de caja de sueldos en soles
b) Interpretación
Como vemos en caja de sueldo, por la distribución de la misma, podemos
evidenciar que su asimetría es positiva, habiendo preferencias por los
datos menores. La media esta alejada de la mediana, y el dato mayor se
encuentra muy alejado de los demás datos de la muestra.
O. Gráfico de caja de la variable “X2”
a) Comando
> boxplot(X2,data=data,main="Gráfico de caja de Tiempo de Servicio",
ylab="Tiempo de servicio", col=(c("blue")))
Gráfico 6. Muestra el gráfico de caja de tiempo de servicio en meses
b) Interpretación
En esta gráfica de cajas vemos que hay una distribución asimétrica
positiva, con preferencias por los datos de menor valor, esto se evidencia
también a través de los datos obtenido anteriormente, en el que la media
y la mediana se encuentran muy distanciadas. La asimetría positiva es
mucho más acentuada en esta variable.
P. Gráfico de barras de la variable “Y”
a) Comando
> barplot(table(y),main="Gráfico de barra de Edad",
ylab="Frecuencia",xlab="Edad",col="purple")
Gráfico 7. Muestra el gráfico de barras de las edades en años
b) Interpretación
En el gráfico de barras vemos la distribución de las edades por su
frecuencia. Nos damos cuenta, al igual que en las otras gráficas que la
muestra es casi simétrica. Hay un poco preferencia por los datos menores.
Q. Gráfico de barras de la variable “X1”
a) Comando
> barplot(table(X1),main="Gráfico de barras de sueldo",
ylab="Frecuencia", xlab="Sueldo",col="brown")
Gráfico 8. Muestra el gráfico de barras de sueldos en soles
b) Interpretación
Como vemos en el gráfico hay una mayor cantidad, respecto a las demás,
de personas que reciben un sueldo entre 1750 y 3250. Si nos fiamos de
este gráfico, podríamos decir que posee una simetría positiva muy
marcada. Con una alta preferencia por los datos de menor valor.
R. Gráfico de barras de la variable “X2”
a) Comando
> barplot(table(X2),main="Gráfico de barras de tiempo de servicio",
ylab="Frecuencia",xlab="Tiempo de servicio",col="gold")
Gráfico 9. Muestra el gráfico de barras de tiempo de servicio en meses
b) Interpretación
En la gráfica de barras podemos ver la distribución de las edades con sus
respectivas frecuencias. Vemos q el tiempo de servicio mas frecuente
entre los trabajadores es el de 12 meses. Si nos fiamos por este gráfico
se puede decir, que al igual que las demás variables, posee una asimetría
positiva.
S. Gráfico de pastel de la variable “Y”
c) Comando
> pie(table(y),col=rainbow(length(table(y))),main="Gráfico de pastel de
Edad")
Gráfico 10. Muestra el gráfico de pastel de las edades en años
d) Interpretación
En el gráfico de barras vemos la distribución de las edades por su
frecuencia. Nos damos cuenta, al igual que en las otras gráficas que la
muestra es casi simétrica. Hay un poco preferencia por los datos menores.
T. Gráfico de pastel de la variable “X2”
c) Comando
> pie(table(X2),col=rainbow(length(table(X2))),main="Gráfico de pastel
de Tiempo de servicio")
Gráfico 11. Muestra el gráfico de pastel de tiempo de servicio
d) Interpretación
En la gráfica de barras podemos ver la distribución de las edades con sus
respectivas frecuencias. Vemos q el tiempo de servicio mas frecuente
entre los trabajadores es el de 12 meses. Si nos fiamos por este gráfico
se puede decir, que al igual que las demás variables, posee una asimetría
positiva.
U. Gráfico de puntos de las variables “X1” y “Y”
a) Comando
> plot(X1,y, col="green",main="Gráfica de dispersión de X1 y Y")
Gráfico 12. Muestra el gráfico de dispersión de “X1” y “y”
b) Interpretación
A través del gráfico vemos la dispersión que hay entre las variables “X1”
y “Y”, al parecer la dispersión es muy alta, no se pude decir si es una
asimetría positiva o negativa, pero se puede inferir, que es poco probable
explicar por medio de “X1” la variable “Y”.
V. Gráfico de puntos de las variables “X2” y “Y”
a) Comando
> plot(X2,y, col="blue",main="Gráfica de dispersión de X2 y Y")
Gráfico 13. Muestra el gráfico de dispersión de “X2” y “Y”
b) Interpretación
El gráfico anterior muestra la dispersión que hay en la relación de datos
de la variable “X2” y la variable “Y”, como se ve, los datos están
demasiado dispersos. No se puede tener, a ciencia cierta, si es realmente
representativa la correlación que exista entre ellas.
W. Gráfico de puntos de las variables “X1” y “X2”
a) Comando
> plot(X1,X2, col="red",main="Gráfica de dispersión de X1 y X2")
Gráfico 14. Muestra el gráfico de dispersión de “X1” y “X2”
b) Interpretación
La gráfica muestra que entre las variables “X1” y “X2” hay una correlación
positiva, no se muestra mucha dispersión, esto a comparación con la
variable “Y”, que al momento de evaluarla con las del tipo “X” arroja una
alta dispersión.
X. Gráfico de puntos de las variables “X1” y “X2”
a) Comando
> pairs(data, main="Gráfico de dispersión resumen",col="blue")
Gráfico 15. Muestra la gráfica de dispersión de todas las variables
b) Interpretación
En el gráfico resumen vemos como las variables del tipo “X” son dispersas
con respecto a la variable “Y”. Esto no ocurre cuando comparamos ambas
variables del tipo “X”, pues se ve que tienen una correlación positiva, pues
ambos van en la misma dirección.
ANÁLISIS DE DATOS EN EVIEWS
II. DETERMINACIÓN DEL MODELO Y SU
ESTACIONARIEDAD.
A. Modelo mediante ANOVA para “X1” y “Y”
a) Hipótesis
Ho: probabilidad > α, el modelo no es estacionario
H1: probabilidad < α, el modelo es estacionario
b) ANOVA
Tabla 11. ANOVA
c) Decisión
Ya que la probabilidad es 0.00 < 0.05, se acepta H1, entonces el modelo
es estacionario. La función de regresión sería:
Y= 35.26954 + 0.003072(X1)
d) Interpretación
Hemos logrado obtener un modelo que en realidad no es representativo.
La correlación que hay entre ellas dos es mu bajo, no llega ni al 0.1, no
se puede decir que por medio de la variable “X1” se pueda explicar la
variable “Y”.
e) Gráfico de dispersión
Gráfico 16. Muestra la gráfica de dispersión de todas las variables
80
70
60
50
Y
40
30
20
1,000 2,000 3,000 4,000 5,000 6,000 7,000 8,000
X1
c) Decisión
Ya que la probabilidad es 0.00 < 0.05, se acepta H1, entonces el modelo
es estacionario. La función de regresión sería:
Y= 36.78000 + 0.845987 (X1)
d) Interpretación
Gracias a este gráfico podemos ver que ya tenemos un modelo, pero
debemos notar que el modelo no es realmente significativo en su análisis,
ya que la correlación que guardan entre ellas es muy baja.
e) Gráfico de dispersión
Gráfico 17. Muestra la gráfica de dispersión de todas las variables
80
70
60
50
Y
40
30
20
0 5 10 15 20 25 30 35
X2
t-Statistic Prob.*
b) Interpretación de la tabla
En la tabla podemos notar algunos estadísticos a modo de resumen que nos
ayudan a sabes como se comporta “Y” y como es su grado de asimetría. Nos
ayuda a confirmar también si el modelo obtenido antes posee estacionariedad.
c) Para “X1”
Tabla 14. Prueba de ráiz unificada
t-Statistic Prob.*
d) Interpretación de la tabla
En la tabla podemos notar algunos estadísticos a modo de resumen que nos
ayudan a sabes cómo se comporta “X1” y como es su grado de asimetría. Nos
ayuda a confirmar también si el modelo obtenido antes posee estacionariedad
e) Para “X2”
Tabla 15. Prueba de ráiz unificada
t-Statistic Prob.*
f) Interpretación de la tabla
Para concluir con el análisis podemos ver la tabla nos brinda información sobre
alguno estadísticos a modo de resumen que nos ayudan a sabes cómo se
comporta “X2” y como es su grado de asimetría. Nos ayuda a confirmar también
si el modelo obtenido antes posee estacionariedad
III. FORMAS DE IMPORTAR DATOS A EVIEWS