Estadistica I - Final

“UNIVERSIDAD ANDINA DEL CUSCO”
FACULTAD DE CIENCIAS ECONOMICAS ADMINISTRATIVAS Y

CONTABLES
PROGRAMA ACADÉMICO PROFESIONAL

DE ECONOMIA
ESTADISTICA I
INTEGRANTES :
 SANDRA AZURIN SOLIS
 BERELIZ CASTILLO USCA
 CINTHIA MOSCOSO OQUENDO
CUSCO – PERÚ
2016
1
PRESENTACION DE DATOS
La presentación de datos estadísticos constituye en sus diferentes modalidades uno de
los aspectos de más uso en la estadística descriptiva. A partir podemos visualizar a
través de los diferentes medios escritos y televisivos de comunicación masiva la
presentación de los datos estadísticos sobre el comportamiento de las
principales variables económicas y sociales, nacionales e internacionales.
1.-Presentación escrita: Esta forma de presentación de informaciones se usa cuando

una serie de datos incluye pocos valores, por lo cual resulta más apropiada la palabra
escrita como forma de escribir el comportamiento de los datos; mediante la forma
escrita, se resalta la importancia de las informaciones principales.
2.-Presentación tabular: Cuando los datos estadísticos se presentan a través de un

conjunto de filas y de columnas que responden a un ordenamiento lógico; es de gran
eso e importancia para el uso e importancia para el usuario ya que constituye la forma
más exacta de presentar las informaciones. Una tabla consta de varias partes, las
principales son las siguientes:
3.-Título: Es la parte más importante del cuadro y sirve para describir todo él
contenido de este.
Encabezados: Son los diferentes subtítulos que se colocan en la parte superior de
cada columna.
Columna matriz: Es la columna principal del cuadro.
Cuerpo: El cuerpo contiene todas las informaciones numéricas que aparecen en la
tabla.
Fuente: La fuente de los datos contenidos en la tabla indica la procedencia de estos.
Notas al pie: Son usadas para hacer algunas aclaraciones sobre aspectos que
aparecen en la tabla o cuadro y que no han sido explicados en otras partes.
4.-Presentación gráfica: Proporciona al lector o usuario mayor rapidez en la

comprensión de los datos, una gráfica es una expresión artística usada para
representar un conjunto de datos.
De acuerdo al tipo de variable que vamos a representar, las principales graficas son las
siguientes:
5.-Histograma: Es un conjunto de barras o rectángulos unidos uno de otro, en razón

de que lo utilizamos para representar variables continuas.
Polígono de frecuencias: Esta grafica se usa para representar los puntos medios
de clase en una distribución de frecuencias
2
6.-Gráfica de barras: Es un conjunto de rectángulos o barras separadas una de la
otra, en razón de que se usa para representar variables discretas; las barras deben ser
de igual base o ancho y separadas a igual distancia. Pueden disponerse en forma
vertical y horizontal.
7.-Gráfica lineal: Son usadas principalmente para representar datos clasificados por
cantidad o tiempo; o sea, se usan para representar series de tiempo o cronológicas.
Gráfica de barra 100% y gráfica circular: se usan especialmente para representar las
partes en que se divide una cantidad total.
La ojiva: Esta grafica consiste en la representación de las frecuencias acumuladas de
una distribución de frecuencias. Puede construirse de dos maneras diferentes; sobre la
base "menor que" o sobre la base "o más". Puede determinar el valor de la mediana de
la distribución.
En estadística denominamos gráficos a aquellas imágenes que, combinando la
utilización De sombreado, colores, puntos, líneas, símbolos, números, texto y
un sistema De referencia (coordenadas), permiten presentar información cuantitativa.
La utilidad De los gráficos es doble, ya que pueden servir no sólo como sustituto a las
tablas, sino que también constituyen por sí mismos una poderosa herramienta para
el análisis De los datos, siendo en ocasiones el medio más efectivo no sólo para
describir y resumir la información, sino también para analizarla.
En este trabajo solo nos vamos a centrar únicamente en los gráficos como vehículo de
presentación de datos, sin abordar su otra faceta como herramienta de análisis.
DISTRIBUCIÓN DE FRECUENCIA
GRÁFICOS ESTADÍSTICOS
Los gráficos son medios popularizados y a menudo los más convenientes para
presentar datos, se emplean para tener una representación visual de la totalidad de la
información. Los gráficos estadísticos presentan los datos en forma de dibujo de tal
modo que se pueda percibir fácilmente los hechos esenciales y compararlos con otros.
3
GRÁFICOS DE BARRAS HORIZONTALES
Representan valores discretos a base de trazos horizontales, aislados unos de otros.
Se utilizan cuando los textos correspondientes a cada categoría son muy extensos.
 para una serie
 para dos o más series
GRÁFICOS DE BARRAS PROPORCIONALES

Se usan cuando lo que se busca es resaltar la representación de los porcentajes de
los datos que componen un total. Las barras pueden ser:
Verticales
Horizontales
GRÁFICOS DE BARRAS COMPARATIVAS: Se utilizan para࣯ comparar dos o más

series, para comparar valores entre categorías. Las barras pueden ser: Verticales
Horizontales
4
GRÁFICOS DE BARRAS: Se usan para mostrar las relaciones entre dos o más series
con el total. Las barras pueden ser: verticales horizontales
GRÁFICOS DE LÍNEAS
En este tipo de gráfico se representan los valores de los datos en dos ejes cartesianos
ortogonales entre sí. Se pueden usar para representar: una serie dos o más series
Una presentación adecuada y clara de los resultados de
un trabajo de investigación además de ser fundamental para contribuir a la difusión de
los mismos, puede incluso ser imprescindible para lograr que se acepte su publicación.
En la actualidad la exigencia de las revistas y de los revisores ha contribuido a que el
nivel de calidad en la presentación de datos sea bastante bueno, por lo que es
conveniente tener algunas ideas muy claras para evitar errores o situaciones que hoy
ya no son admisibles, lo que no solo nos preparará para la publicación de nuestros
trabajos sino también para una lectura crítica de los de otros. Precisamente un buen
punto de partida para obtener información, no sólo sobre cómo presentar nuestros
resultados sino también sobre cómo preparar todo el conjunto del artículo, lo
constituyen las propias guías suministradas por las revistas.
5
Un artículo bien concebido debe transmitir la mayor parte de la información con sólo
leer el Abstract y los Resultados, siendo para ello vital que los datos, con las tablas y
figuras correspondientes, estén bien presentados y organizados. En general no debiera
ser necesario acudir al texto para entender una tabla o una figura; otro caso es para
interpretarla, lo que ya corresponde al apartado de Discusión o Conclusiones.
La manera de presentar los datos es diferente según el tipo de los mismos. De forma
rápida podemos hacer dos grandes grupos: datos cuantitativos y datos cualitativos. En
el grupo de datos cuantitativos tenemos aquellos cuyo resultado puede variar de forma
continua, como puede ser el peso, la edad, etc. y los que sólo pueden tomar valores
enteros como por ejemplo el número de hijos, el número de ingresados en la Unidad
de Quemados un día concreto, etc. A su vez en las variables cualitativas
distinguiremos las nominales, que constituyen una simple etiqueta -como puede ser
el sexo, el grupo sanguíneo, etc.- de las ordinales, en las que se da una relación de
orden entre las respuestas, como por ejemplo en el resultado de una
patología/tratamiento (fallece, empeora, sin cambios, mejora, curación) o el nivel
educacional. Cada tipo variable tiene requerimientos propios en cuanto a presentación
y en cuanto a las pruebas que se utilizan para contrastar los valores entre diferentes
grupos.
Observados en ella serán válidos aproximadamente para esa población, y
los procedimientos estadísticos nos permiten cuantificar la magnitud del término
"aproximadamente", lo que dependerá del tamaño y representatividad de
la muestra (error de muestreo), la variación debida a las técnicas de medida
empleadas (error de medida), y la propia variabilidad del proceso estudiado (error
aleatorio).
La precisión de la estimación efectuada a partir de los datos del estudio se refleja en el
intervalo de confianza. El intervalo de confianza de un parámetro viene dado por
dos límites, inferior y superior, en el que, de acuerdo con nuestros datos, esperamos
que se encuentre el valor verdadero del parámetro de la población (desconocido), con
un nivel de seguridad determinado y que se suele fijar en el 95%.
El intervalo de confianza es mucho más informativo que indicar solo si un resultado ha
sido estadísticamente significativo, incluso aunque se dé el valor de la probabilidad
Representaciones gráficas pueden alcanzar en el proceso de análisis de datos. La
mayoría de los textos estadísticos y epidemiológicos4 hacen hincapié en los distintos
tipos de gráficos que se pueden crear, como una herramienta imprescindible en la
presentación de resultados y el proceso de análisis estadístico. No obstante, es difícil
precisar cuándo es más apropiado utilizar un gráfico que una tabla. Más bien
podremos considerarlos dos modos distintos pero complementarios de visualizar los
mismos datos. La creciente utilización de distintos programas informáticos hace
especialmente sencillo la obtención de las mismas. La mayoría de los paquetes
estadísticos (SPSS, STATGRAPHICS, S-PLUS, EGRET,...) ofrecen grandes
posibilidades en este sentido. Además de los gráficos vistos, es posible elaborar otros
6
gráficos, incluso tridimensionales, permitiendo grandes cambios en su apariencia y
facilidad de exportación a otros programa
Figura 1. Ejemplo de gráfico
de sectores. Distribución de
una muestra de pacientes
según el hábito de fumar.
Figura 2. Ejemplo de gráfico de barras. Estadio TNM en el

cáncer gástrico.
7
Figura 3.Ejemplo de un histograma correspondiente a los
datos de la Tabla I.
Figura 4. Polígono de frecuencias para los datos de

la Tabla I.
Figura 5.Ejemplo de un diagrama de caja correspondiente a lo

datos en la Tabla I.
8
Figura 7. Diagrama de barras agrupadas. Relación entre la presencia de
alguna enfermedad coronaria y los antecedentes cardiacos familiares en una
muestra.
Figura 8. Barras de error. Variación en el índice desa

corporal según el sexo.
9
Figura 9. Gráfico de líneas. Número de pacientes
trasplantados renales en el Complexo Hospitalario "Juan
Canalejo" durante el periodo 1981-1997.
Figura 10. Diagrama de dispersión entre la talla y el peso

de una muestra de individuos.
10
Figura 11. Dos diagramas de líneas superpuestos. Variación en el peso
medio de una muestra de recién nacidos según el control ginecológico
del embarazo y el hábito de fumar de la madre.
Figura 12. Diagrama de dispersión

(regresión logística). Probabilidad de padecer cirrosis
hepática, según un modelo de regresión logística ajustando
por el % de protrombina y el presentar o no hepatomegalia.
11
Figura 13. Curva ROC para el porcentaje de protrombina en la
predicción de cirrosis.
12
En estadística denominamos gráficos a aquellas imágenes que, combinando la
utilización de sombreado, colores, puntos, líneas, símbolos, números, texto y
un sistema de referencia (coordenadas), permiten presentar información cuantitativa.
La utilidad de los gráficos es doble, ya que pueden servir no sólo como sustituto a las
tablas, sino que también constituyen por sí mismos una poderosa herramienta para el
análisis de los datos, siendo en ocasiones el medio más efectivo no sólo para describir
y resumir la información, sino también para analizarla.
13
El propósito de un gráfico no es entonces muy diferente del de cualquier otra
herramienta estadística: ayudar a la comprensión y comunicación de la evidencia
aportada por los datos respecto a una hipótesis en estudio. Un gráfico científico debe
servir por tanto para representar la realidad, no para generar nuevas realidades
inexistentes fuera de la propia imagen. La llegada de los ordenadores y de programas
para la generación de gráficos y presentaciones ha puesto en manos del usuario
común una herramienta poderosa, antes de que disponga de los conocimientos o la
mentalidad adecuada para usarla, y de esa forma nos vemos invadidos, cierto que con
honrosas excepciones, por una insensata proliferación de gráficos mercantilistas que
parece que tienen como único objetivo hacernos ver la capacidad
del programa utilizado: llenos de una variada gama de colores, todo tipo de fuentes de
letras imaginables, casi tantos como palabras, y por supuesto representación al menos
en tres dimensiones. Todo lo contrario de lo que un buen gráfico científico debe ser, en
el que su calidad radica precisamente en la simplicidad de la presentación para permitir
visualizar unos datos complejos.
En este artículo nos vamos a centrar únicamente en los gráficos como vehículo de
presentación de datos, sin abordar su otra faceta como herramienta de análisis.
La calidad de un gráfico estadístico consiste en comunicar ideas complejas con
precisión, claridad y eficiencia, de tal manera que:
 Induzca a pensar en el contenido más que en la apariencia

 No distorsione la información proporcionada por los datos
 Presente mucha información (números) en poco espacio
 Favorezca la comparación de diferentes grupos de datos o de relaciones entre los
mismos (por ejemplo una secuencia temporal)
A su vez los gráficos se integran dentro de un contexto de presentación, por ejemplo

en papel o proyectados en una pantalla en una presentación oral, y deben estar
adecuadamente diseñados para el soporte al que van destinados. Personalmente me
resulta asombroso la enorme cantidad de veces que oigo atónito a un presentador, que
nos muestra una transparencia o una diapositiva llena de texto minúsculo, ilegible para
la audiencia, decir que "aunque Uds. probablemente no pueden leerlo"... ¿entonces
para qué lo ha puesto en esa imagen? ¿Qué arcana misión cumple entonces el texto
que la audiencia no puede leer? Lo mismo podemos decir de los gráficos en papel
¿por qué contienen tantos puntos o rayas que no se pueden distinguir unos de otros?
Aunque como norma general en los gráficos científicos los adornos sobran, tampoco
hay que olvidar que a menudo también cumplen una misión estética, ayudando de esa
forma a una presentación que quizás sería demasiado árida sólo con texto y números.
Pero entonces esa función estética debe ser comprendida y valorada, quedando
perfectamente integrada en el contexto de lo que se presenta, y no puede ser una
disculpa para distorsionar su contenido
14
MEDIDAS DE RESUMEN
Las medidas de resumen sirven para describir en forma resumida un

conjunto de datos que constituyen una muestra tomada de alguna
población.
Podemos distinguir cuatro grupos de medidas de resumen: las medidas de centro,
las medidas de
Posición, (las de centro son casos especiales de estas últimas), las medidas
de dispersión y las medidas de forma.
Supóngase que se dispone de una muestra de observaciones x1, x2,... xn. Con
estas observaciones se efectuarán los cálculos de todas las medidas de resumen
que se presentan a continuación.
A modo de ejemplo, se dispone de tres muestras de datos con las que se obtendrán
las medidas de
Resumen. Los tres están ordenados de menor a mayor, por columnas.
50 140 175 270 430

50 150 180 280 450
80 150 185 285 460
80 150 190 290 500
90 150 190 295 510
90 150 195 350
90 150 250 350
95 150 250 365
130 160 250 370
Muestra 1. Ingresos de 45 250
140 170 empleados
395 de una firma (miles de pesos).
8 14 17 21 2 9 11 12 14
4 9 11 12 14
8 15 17 22
4 9 11 12
9 15 18 23 7 9 11 12
10 15 18 23 7 9 12 12
12 16 18 23 8 9 12 12
8 9 12 13
12 16 19 24 8 9 12 13
13 16 19 25 8 9 12 14
14 17 19 27 8 10 12 14
14 17 20
Muestra
14 2.
17Pesos
20de bultos Muestra 3. Escolaridad de los
habitantes transportados por un correo (kg).Adultos de un
condominio (años).
15
A continuación se presentan tablas de frecuencia por intervalos e histogramas de
los tres conjuntos de datos. Se puede observar que el primer conjunto tiene sesgo
(la cola) hacia la derecha; el segundo es
Bastante simétrico; y el tercero tiene sesgo hacia la izquierda.
Fre Frec
Frecuen c relativ
Clase cia. a
1a 8 acumu
8 %
17.
100 l. 8
18 26
101 a 9 35 40.
200 5 40 0
201 a 4 44 20.
300
total 45 -- 0
10
Figura 1 Ingresos
1. 45 de empleados. Tabla de frecuencias e histograma.
301 a 0
11.
400 1
401 a Fre 8.9
Frec
500 Frecuen c relativ
2.2
Clase
501 a c. a
600
7a 3 acumu
3 %
7.9
9 l.
3 6 7.9
10 a 8 14 21.
12 11 25 0
13 a 6 31 28.
15 9
5 36
total
16 a 38 -- 10
15.
2 2. Pesos
Figura 38 de bultos. Tabla de frecuencias e histograma.
18 0
8
19 a 13.
21 Fre Frec
2
22 a Frecuen c relativ
5.3
Clase c. a
24
1 aa
25 1 acumu
1 %
2.4
2
27 l.
2 3 4.7
3a 0 3 0
4 7 10 16.
5a 10 20 7
6 23.
16 36
total
7a 42 -- 10
8
6 3. Escolaridad.
Figura 42 0Tabla de frecuencias e histograma.
8 38.
9 a 10 1
11 a 14.
12 3
13 a
14
16
MEDIDAS DE CENTRO
Son medidas que pretenden indicar dónde está lo que se podría considerar como
el centro de la masa de datos. Promedio o media. Es la suma de todas las
observaciones, dividida por el número de ellas. Las más conocidas son las
siguientes:
PROMEDIO O MEDIA.
Es igual a la suma de todas las observaciones, dividida por el número de
observaciones. Se usa el símbolo x para representar la media.
n
∑ xi
El promedio está dado por la x = i =1
fórmula n
El promedio es una medida muy influenciada por valores extremos. Por lo
tanto, si los datos presentan mucha asimetría, el promedio resulta
distorsionado.
Ejemplo 1. Cálculo del promedio con los datos presentados al inicio:

Muestra 1 Muestra 2 Muestra 3
Suma de los 1013 64 42
datos
Número de n0= 5
38 5
42
datos Promedi 10130/45
45= 225.1 645/38 = 17.0 425/42 = 10.1
o M$ kilos años
MEDIANA.
Es un número tal que al menos el 50% de las observaciones son menores o iguales
a él, y al menos el
50% son mayores o iguales a él. La mediana es muy resistente a valores
extremos. La representamos por el símbolo Mn.
Se calcula de la siguiente forma:
1 - Se ordenan las observaciones, de menor a mayor.
2 - Si el número n de observaciones es impar, la mediana es la que queda
exactamente al centro.
3 - Si el número de observaciones es par, la mediana es el promedio de las
dos observaciones centrales
17
Ejemplo 2. Cálculo de la mediana:
Número de n= 38 42
datos
Ubicación 45
La mediana La mediana es el La mediana es el
de la es la promedio de las promedio de las
media
Median observación
Mn = 185 M$ observaciones
Mn = (17+17)/2 19= observaciones
Mn = (11+11)/2 21
=
a
na de orden 23 y1720kilos y1122años
Comparando con el ejemplo 1, se puede ver que el promedio es mayor que la

mediana cuando hay sesgo hacia la derecha. Las observaciones extremas
influyen más sobre el promedio que sobre la mediana, y lo desplazan a la
derecha.
En el caso simétrico, ambas medidas coinciden.
Y cuando hay sesgo a la izquierda, el promedio está más a la izquierda que la
mediana.
Promedio Recortado o Truncado en α%.

Es el promedio del conjunto de observaciones, al cual se le ha eliminado un
porcentaje predeterminado α de las observaciones más pequeñas y el mismo
porcentaje de las más grandes.
Para calcularlo se deben ordenar las observaciones, eliminar un porcentaje α%,
previamente definido,
en ambos extremos. Luego se obtiene el promedio de las
(100-2α)% observaciones centrales. Valores típicos de α son 5 o 10 %.
El promedio recortado es más resistente que la media, a valores extremos,
precisamente porque se eliminaron los extremos. Pero no tan insensible como la
mediana, en casos en que hay muchos valores que se alejan significativamente
del promedio.
Ejemplo 3: Promedio recortado al 5%:

Número de n= 38 42
datos de
Número 2.2545que lo 1.9, 2.1,
datos aproximamos aproxim aproxim
recortados por a2 ado a 2 ado a 2 18
lado
Cálculo El promedio El promedio El promedio
del promedio recortado al 5% recortado al 5% recortado al 5%
recortado es el promedio de es el promedio de es el promedio de
las 41 las 34 las 38
Promedio (80+80+90+.
observaciones 17.0 kilos
observaciones 10.3 años
observaciones
..
recortado centrales centrales centrales
..+430+450
+
460)/41 =al220.0
Ejemplo 4: Promedio recortado 20%:
M$
Número de 9 datos por lado 7.6 datos, 8.4 datos,
datos que lo aproximado
Cálculo El promedio El promedio El promedio
recortados por aproximamos a8
del promedio recortado al 20% recortado al 20% recortado al 20%
lado a8
recortado es el promedio es el promedio de es el promedio de
de las 27 las 22 las 26
Prome (140+140+150+...
observaciones 16.9 kilos
observaciones 10.4 años
observaciones
dio +350)/27=205.4 M$
centrales centrales centrales
Se observarecorta
que si se recorta poco, el promedio recortado se parece al
do
promedio simple. Sin embargo, si se recorta más, se parece más a la
mediana.
MEDIDAS DE POSICIÓN
Señalan otras posiciones, aparte del centro, dentro de la masa de datos. Por
ejemplo, a partir de qué valores está el 10% mayor. Las medidas de centro son
casos especiales de medidas de posición.
Percentil q, en que q es un número entero

entre 1 y 99. El percentil q es un número Pq tal
que:
19
1 - Al menos q% de las observaciones son menores o iguales que él.
2 - Al menos (100-q)% de las observaciones son mayores o iguales que él.
El percentil q se obtiene de la siguiente forma:

1 - Se ordenan las observaciones, de menor a mayor.
2 - Se calcula el valor de r=q x n/100, en que n es el número de observaciones.
3 - Si el resultado de r es entero, el percentil Pq es el promedio de las
observaciones que ocupan los lugares r y r+1.
4.- Si el resultado no es entero, se aproxima al entero superior y el percentil Pq es la observación
que ocupa ese lugar
CASOS PARTICULARES DE PERCENTILES:
La Mediana. Es el percentil 50.

Cuartiles. Son los percentiles de orden 25, 50 y 75, representados por Q1, Q2 y
Q3, respectivamente. Dividen la muestra ordenada en cuatro grupos que
contienen la cuarta parte de las observaciones cada uno.
Quintiles. Son los percentiles de orden 20, 40, 60 y 80. Dividen la muestra
ordenada en cinco grupos de igual tamaño.
Deciles. Son los percentiles de orden 10, 20, 30, 40, 50, 60, 70, Figura 5.
Representación de Cuartiles y Quintiles en un conjunto de datos simétrico 80 y 90.
Dividen la muestra ordenada en diez grupos de igual tamaño.
Figura 5. Representación de Cuartiles y Quintiles en un conjunto de datos

simétrico.
20
Ejemplo 7. Cálculo del cuartil 3.
75*n/10 33.7 28. 31.
0
ubicación 5 3 es la
El cuartil 5 3 es la
El cuartil El cuartil5 3 es la
del observación de observación de observación de
cuartil
Cuartil orden
290 orden
20 orden
12 años
Q
Q33 M$
34 kilos
29 32
MEDIDAS DE DISPERSIÓN
Describen el grado de dispersión de los datos, es decir, cuán separados se

encuentran, como opuesto a datos que están muy concentrados o cercanos
entre sí. Las más conocidas son las siguientes:
Rango.
Es la diferencia entre el mayor valor y el menor.
Depende sólo de dos observaciones, y justamente de las
más extremas, por lo que, en general es una muy mala
medida de dispersión.
R=x
n-xi
Ejemplo 8. Cálculo del rango.

Muestra Muestra Muestra
1 2 3
Mínimo 50 8 2
(Ingreso (Pesos (Escolarid
Máximo 51 27 14
Rango s) 0
510-50=460 M$ )
27-8=19 kgs. ad)
14-2=12 años
Desviación Media.
Es el promedio de las desviaciones absolutas (en valor absoluto) respecto de la
media. Se mide en las mismas unidades que las observaciones originales.
n
∑ xi − x
DMd = i =1 x es la media o promedio
n
21
Ejemplo 9. Cálculo desviación media.
Muestra Muestra Muestra
1 2 3
Número de 45 38 42
datosMedi (Ingreso (Pesos (Escolarid
225. 17. 10.
a
desviacio 175.1,1175.1,
s) 9.0,09.0,
) ad) 1 6.1,
8.1, 6.1,
145.1, 8.0,... ...
nes
Sum ..,4645.
274.9, ..,135.
8.0, 94.
3.9,
absoluta
a 8
284.9 1
10.0 8
3.9
promedio 4645.7/45=103.2 135.1/38=3.6 kg 94.8/42=2.3
M$ años
Desviación Mediana.
Es parecida a la desviación media. Se define como el promedio de las
desviaciones absolutas (en valor absoluto) respecto de la mediana. También se
mide en las mismas unidades que las observaciones
Originales. Tiene la característica de ser poco sensible a observaciones extremas.
n
∑ xi − Mn
DMn = i =1 en que Mn es la mediana
n
Ejemplo 10. Cálculo desviación mediana.

Número de 45 38 42
datos
Mediana 18 17 11
desviacio 135,5135, 9, 9, 8, 9, 7, 7,
105,105... 7... 4,...
nes
Sum 440
...315, 13
...7,8,1 93
...3,
absoluta
a 5 97.9
325 5
0 3
DM 4405/45= 135/38=3.6 kg 93/42=2.2 años
d M$
Ambas medidas de dispersión, la desviación media y la desviación mediana dan
resultados parecidos, y en un iguales.
Varianza.
Es un promedio de los cuadrados de las desviaciones respecto de la media,
excepto que en lugar de dividir por n (el número de observaciones), se suele dividir
por n-1. Se usa el símbolo s2 o bien var para representar la varianza.
22
n
∑( x i − x ) 2
s 2 = var = i =1
n −1
Su unidad de medida es el cuadrado de unidades en que se midieron las
observaciones originales. Hay una forma alternativa de calcularla, que da el
mismo resultado:
n 2
∑x i − n ⋅ x
2
s 2 = var = i =1
n −1
Ejemplo 11. Cálculo varianza.

desviacio (-175.1)2, (- (-9)2, (-9)2, (-8)2, (-8.1)2, (-
175.1)2, 6.1)2,
nes al (-7)2...72,82, 102
(- (-6.1)2,...3.92,
=
cuadrado 145.1)2,...274.9 3.92=
2, 81, 81, 64, 49, ...,
(ver ejemplo 65.6, 37.4,
8) 49.4, 64.4,100.5
284.92 37.4,
Sum 680224.44
= 786.9 ...,316.4
15.21,
a
Divisor 44 7
37 2
41
15.21
30663.9,
s 15459.6 (M$)2
30663.9, 21.3 Kg2 7.7 años2
2
21057.2,...,
Observar que la unidad75563.9,
de medida es el cuadrado de las unidades originales.
81168.
Desviación estándar. 7
Es la raíz cuadrada de la varianza. Se mide en las mismas unidades que las
observaciones originales. Se usa el símbolo s o bien ds para representar la
desviación estándar.
s = ds = var
23
Tanto la desviación media como la varianza y la desviación estándar se
encuentran muy influidas por valores extremos. Por lo tanto, cuando la muestra
presenta mucha asimetría, estos no son buenos indicadores de la dispersión, pues
están sobrevalorados.
Figura 6. Dispersión y desviaciones estándar.
Ejemplo. Desviación estándar.

Varianza s2 15459. 21. 7.7
desviación 6 3
standard 124.3 M$ 4.3 2.8 años
kg
s
2
Aunque mide el mismo concepto que las desviaciones media y mediana, y
están expresados en la misma unidad de medida, los números están en
escalas diferentes y no son comparables.
COEFICIENTE DE VARIACIÓN.
Es similar a la desviación estándar, pero dividido por la media. Con esto se
logra que sea independiente de la unidad de medida con que se midieron las
observaciones. El coeficiente de variación no tiene unidad de medida.
CV= S/X
Tiene una limitación, y es que sólo puede utilizarse cuando los datos se midieron
en una escala que sólo admite valores positivos.
Ejemplo 13. Coeficiente de variación.

desviación
standard 124.3 M$ 4.6 2.8 años
media 225.1 M$ kg kg
17.0 10.1 años
C 124.3/225.1=0.55 4.6/17.0=0.274 2.8/10.1=0.272
v 2
24
.
El coeficiente de variación permite comparar dispersiones entre datos expresados
en escalas diferentes, como en este caso. Se puede concluir que la muestra 1
tiene mayor dispersión que las muestras 2 y 3, y estas últimas tienen similares
dispersiones.
DESVIACIÓN INTERCUARTIL O RANGO INTERCUARTIL.

Es la diferencia entre los cuartiles 3 y 1. Es decir, es el rango del 50\% de
las observaciones centrales, las más representativas de la masa de datos.
Tiene la propiedad de ser muy resistente a valores extremos.
DIC = Q3-Q1
Ejemplo. Desviación inter cuartil.

Cuartiles 1 y 150 y 290 14 y 20 9y
12
3 (ejemplos 5
DI 140 6 3
y 7) C M$ kg años
MEDIDAS DE FORMA.
Como un complemento a la posición y la dispersión de una muestra de datos,

puede ser útil describir algunas características de su forma
Coeficiente de simetría.
Cuantifica el grado de asimetría que presenta la muestra. Se define como el
promedio de los cubos de las desviaciones en torno a la media, dividido por la
desviación standard elevada también al cubo. La
fórmula es
n
1 ∑ ( xi
n − x)3
cs = i =1
s3
25
Si los datos presentan una cola larga hacia la derecha, el coeficiente de
simetría es positivo. Si presentan una cola larga hacia la hacia la izquierda, el
coeficiente de simetría es negativo. Si hay simetría, el coeficiente es cercano a
cero.
Ejemplo. Coeficiente de simetría

Suma de
las 60201633.46 73. -750.073
1
desviacione
Promedio 1337814.1 1.9 -
s al cubo
Desviaci 124. 4.6 17.86
2.8
3
ón
ds al cubo 1922203.383 98.09 21.43
standard 3 8-
C. simetría cs 0.7 0.0
ds 0 2 0.83
El signo positivo del coeficiente de simetría de la muestra 1 indica que tiene sesgo
hacia la derecha. El coeficiente de simetría de la muestra 2 indica que no tiene
sesgo. La muestra 3 tiene sesgo hacia la izquierda.
COEFICIENTE DE CURTOSIS.
Cuantifica el hecho que la masa de datos presenta una forma de campana
(mesocúrtica), una forma más bien puntiaguda en la parte central (leptocúrtica) o
muy plana (platicúrtica). El coeficiente de curtosis se define como el promedio de
las desviaciones elevadas a la cuarta potencia, respecto de la media, dividido por
la desviación standard elevado a la cuarta. A todo esto se le resta el número 3. La
Fórmula es
1 (x 4
n ∑ i − x)
k= i =1 −3
s
4
Los datos con forma de campana (mesocúrticos) tienen un coeficiente de curtosis
cercano a cero. Si son leptocúrticos o con forma puntiaguda, el coeficiente es
negativo. Si son planos o platicúrticos, su coeficiente de curtosis es positivo.
26
Ejemplo 16. Coeficiente de curtosis.
Promedio de
las 586243699.0 1131. 205.982
1
desviaciones
ds a la cuarta 239000668.81 452.394 59.55
aCurtosis
la cuartak - - 5
0.4
0.55 0.50 6
Los primeros dos conjuntos aparecen con forma lepticúrtica (puntiagudos), mientras
el de la muestra
3 aparece con forma platicúrtica (más plano). Eso se puede apreciar por el hecho
que las tres barras más grandes, en el histograma correspondiente a este tercer
conjunto, tienen alturas similares. Si se comparan con los histogramas de los
primeros dos conjuntos, hay más diferencia entre la barra más alta y las que le
siguen.
DIAGRAMAS DE CAJÓN
El diagrama de cajón o cajagrama es una representación gráfica basada en

medidas resistentes, como la mediana, los cuartiles y la desviación intercuartil.
Se construye dibujando una línea horizontal que con una escala que representa
el rango de las observaciones. Se representa la mediana mediante un pequeño
trazo vertical. A los lados se dibujan dos trazos iguales, que representan los
cuartiles. Dos trazos horizontales cierran el rectángulo, denominado cajón, que
tiene los cuartiles por lados, y contiene la mediana en el interior.
Recordamos que para la muestra 1, ingresos de 45 empleados de una firma, en

miles de pesos, el cuartil 1 es Q1 = 150 M$, la mediana es M = 185 M$ y el
cuartil 3 es Q3 = 290 M$. El cajón se muestra a continuación.
27
Luego se calcula la desviación intercuartil DIC = Q3 – Q1 = 290 – 150 = 140
Se dibujan dos trazos verticales, denominadas rejas, en forma
provisoria, a distancias r1 = Q1 – 1.5*DIC = 150 –1.5*140 =
150 – 210 = -60
y r2 = Q3 + 1.5*DIC = 290 + 1.5*140 = 290 + 210 = 500

Las observaciones que quedan dentro de estos dos límites, se denominan
observaciones interiores. La menor y la mayor de las observaciones interiores se
denominan adyacentes. En nuestro ejemplo, son los valores 50 y 500.
Se dibujan dos líneas horizontales hacia ambos lados del cajón, hasta las
respectivas observaciones adyacentes. Estas líneas se denominan bigotes. La
figura siguiente representa el cajón con sus bigotes.
Finalmente, las observaciones que quedan fuera de las rejas se denominas

observaciones exteriores, o extremas (outliers, en inglés). Estas se representan
individualmente, mediante puntos o asteriscos. En el ejemplo, hay un valor extremo,
que es el 510. El diagrama de cajón queda como en la siguiente figur
28
PARQUE AUTOMOTRIZ EN CUSCO.
ORIGEN Y DESTINO
Son varios los factores que contribuyen a este problema: las inadecuadas dimensiones
de las calles incas en el Centro Histórico, el excesivo número de unidades y el
crecimiento urbano desordenado que ha experimentado la ciudad en los últimos dos
decenios. Así lo determina el Estudio Origen y Destino elaborado por la Corporación
Peruana de Ingenieros en Transporte S.A., a pedido de la Municipalidad Provincial de
Cusco.
Dentro del estudio se hizo una encuesta para recoger las quejas y sugerencias de los
usuarios. En base a ello se elabora la nueva forma de gestión, planificación y expansión
del sistema de transporte urbano.
El estudio se hizo en los ocho distritos de la provincia de Cusco, 49 sectores y 169

zonas de alto flujo vehicular. Con este documento la comuna cusqueña busca validar
una matriz de viajes basada en información recogida en el estudio de Origen-Destino.
"Este busca ordenar el transporte público evitando congestión y contaminación".
PARQUE AUTOMOTOR
Al 2010 en Cusco existían inscritos 42 mil 175 vehículos, entre unidades de transporte
urbano, turístico, particular, de carga y taxis. Para el 2012 la cifra habría aumentado a
más de 45 mil, según el Estudio Origen y Destino elaborado a pedido de la
Municipalidad de Cusco por la Corporación Peruana de Ingenieros en Transporte S.A.
Empero sería mayor el número de vehículos que circulan en la ciudad. “Actualmente,

de la flota que entra y sale del Centro Histórico de Cusco, el 59.07% tiene placas
inscritas en Cusco, 40.93% tiene placa de otras regiones. Eso significa que la flota que
circula en Cusco supera los 70 mil vehículos”, concluye.
TRANSPORTE PÚBLICO
Son 41 las empresas de transporte público urbano las que están organizadas en 42
rutas y usan dos tipos de vehículos: camionetas rurales (combis) de baja capacidad y
microbuses de mediana capacidad. En total, 5 mil unidades conforman la flota vehicular
de transporte urbano y solo se necesita mil.
29
Apenas el 32% de estas tiene concesión vigente y el 68% restante cuenta con una
autorización excepcional. Las concesiones y permisos excepcionales están vencidas desde
julio de 2011, debido a que la comuna provincial no ha licitado las rutas. “Se estaba a la
espera del estudio Origen y Destino que ahora ya se tiene”, aclaró el regidor Ismael Suta.
PARQUE AUTOMOTOR COMO PROBLEMA AMBIENTAL
Un tema que las megas tendencias actuales, como la globalización y la masificación han
puesto dentro de las prioridades humanas, es la cuestión ambiental, aspecto que viene
generando posiciones antagónicas en unos temas y unanimidad en su tratamiento en
otros.
El problema ambiental surge cuando se toma conciencia de los efectos negativos que
produce el parque automotor en la ciudad capital. Sin embargo solo se genera una
movilización destinada a cambiar dicha situación cuando se toma conciencia de la
posibilidad de resolverla.
PARQUE AUTOMOTOR
COMO UN FACTOR CONTAMINANTE
La contaminación ambiental producido por el parque automotor en la Ciudad de Cusco es
un fenómeno que se presenta sobre todo por la acumulación de gases tóxicos producidos
por los automóviles y que por consiguiente contaminan el aire el cual a su vez al ser
absorbido por la respiración de las personas producen enfermedades como el asma por
ejemplo que a veces pueden llevar a la muerte. También se presentan enfermedades en la
piel, así como el consiguiente daño al sistema ecológico natural.
30
CONSECUENCIAS DEL PROBLEMA
Es cierto que el benceno inhalado durante largo tiempo produce leucemia (linfocítica y
especialmente mielocítica), como lo demostraron experimentalmente los doctores Maltoni y
C. Scarnato en 1977 en la unidad experimental Bentivoglio del Instituto de Oncología de
Boloña, Italia.
Pero durante la combustión incompleta de la gasolina se produce una pirólisis

(descomposición por alta temperatura) de sus integrantes químicos dando origen a
sustancias mucho más cancerígenas (productoras de cáncer) que el benceno. Esta
molécula prácticamente no existe, o en concentración mínima, en la emisión de gases
tóxicos por los escapes de los vehículos automotores, ya que es condensada por las altas
temperaturas en hidrocarburos policícilicos condensados, potentes cancerígenos.
Los principales contaminantes del aire emitidos por los escapes de los vehículos son el
monóxido de carbono, los óxidos de nitrógeno, bióxido de azufre y los temibles
hidrocarburos policíclicos condensados (HPC). Dentro de estos últimos debemos
mencionar al metilcolantreno descubierto por H. Wieland y Dane en Alemania en 1933 y
demostrado por J.C. Cook en 1934 en Inglaterra, que es la sustancia química más
cancerígena.
ALTERNATIVAS DE SOLUCION
Estas deben comprender:
 Renovación del parque Automotor

 Restricción de importaciones de vehículos de segunda mano
 Instalación de una red de
monitoreo
 Intervención de vehículos que
expulsan
 tóxicos. Plantación de árboles
 Propiciar el uso del GLP (Gas
Licuado de Petróleo)
31
BIBLIOGRAFIA
1.- MINISTERIO DE SALUD. Problemas Ambientales y Comunidad.
INAPMAS, 1998, pg. 7
2.-SUAREZ José. Parque automotor aun es principal factor contaminante: En El

Comercio, Lima, 24 de abril de 1998. D−7
3.- http://larepublica.pe/01-09-2012/estudio-de-origen-y-destino-revela-
sobrepoblacion-del-parque-automotor
4.- http://perueconomico.com/ediciones/46/articulos/689
5.- https://www.inei.gob.pe/estadisticas/indice-tematico/sector-statistics/
6.http://www.snieg.mx/contenidos/espanol/normatividad/doctos_genbasica/cuadros_grafi
cas.pdf
7.-www.geocities.ws/ymarte/trab/estpredat.html
8.-www.jorgegalbiati.cl/enero_07/MedidasResumen.pdf
9.-www.fca.proed.unc.edu.ar/mod/book/view.php?id=3270&chapterid=151
32

Estadistica I - Final

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Estadistica I - Final

Enviado por

Direitos autorais:

Formatos disponíveis

“UNIVERSIDAD ANDINA DEL CUSCO”

FACULTAD DE CIENCIAS ECONOMICAS ADMINISTRATIVAS Y

PROGRAMA ACADÉMICO PROFESIONAL

1.-Presentación escrita: Esta forma de presentación de informaciones se usa cuando

2.-Presentación tabular: Cuando los datos estadísticos se presentan a través de un

4.-Presentación gráfica: Proporciona al lector o usuario mayor rapidez en la

5.-Histograma: Es un conjunto de barras o rectángulos unidos uno de otro, en razón

GRÁFICOS DE BARRAS PROPORCIONALES

GRÁFICOS DE BARRAS COMPARATIVAS: Se utilizan para࣯ comparar dos o más

Figura 2. Ejemplo de gráfico de barras. Estadio TNM en el

Figura 4. Polígono de frecuencias para los datos de

Figura 5.Ejemplo de un diagrama de caja correspondiente a lo

Figura 8. Barras de error. Variación en el índice desa

Figura 10. Diagrama de dispersión entre la talla y el peso

Figura 12. Diagrama de dispersión

 Induzca a pensar en el contenido más que en la apariencia

A su vez los gráficos se integran dentro de un contexto de presentación, por ejemplo

Las medidas de resumen sirven para describir en forma resumida un

50 140 175 270 430

Ejemplo 1. Cálculo del promedio con los datos presentados al inicio:

Comparando con el ejemplo 1, se puede ver que el promedio es mayor que la

Promedio Recortado o Truncado en α%.

Ejemplo 3: Promedio recortado al 5%:

Percentil q, en que q es un número entero

El percentil q se obtiene de la siguiente forma:

CASOS PARTICULARES DE PERCENTILES:

La Mediana. Es el percentil 50.

Figura 5. Representación de Cuartiles y Quintiles en un conjunto de datos

Describen el grado de dispersión de los datos, es decir, cuán separados se

Ejemplo 8. Cálculo del rango.

Ejemplo 10. Cálculo desviación mediana.

Ejemplo 11. Cálculo varianza.

Figura 6. Dispersión y desviaciones estándar.

Ejemplo. Desviación estándar.

Ejemplo 13. Coeficiente de variación.

DESVIACIÓN INTERCUARTIL O RANGO INTERCUARTIL.

Ejemplo. Desviación inter cuartil.

Como un complemento a la posición y la dispersión de una muestra de datos,

Ejemplo. Coeficiente de simetría

El diagrama de cajón o cajagrama es una representación gráfica basada en

Recordamos que para la muestra 1, ingresos de 45 empleados de una firma, en

y r2 = Q3 + 1.5*DIC = 290 + 1.5*140 = 290 + 210 = 500

Finalmente, las observaciones que quedan fuera de las rejas se denominas

El estudio se hizo en los ocho distritos de la provincia de Cusco, 49 sectores y 169

Empero sería mayor el número de vehículos que circulan en la ciudad. “Actualmente,

PARQUE AUTOMOTOR COMO PROBLEMA AMBIENTAL

Pero durante la combustión incompleta de la gasolina se produce una pirólisis

Estas deben comprender:

 Renovación del parque Automotor

INAPMAS, 1998, pg. 7

2.-SUAREZ José. Parque automotor aun es principal factor contaminante: En El

Você também pode gostar

y r2 = Q3 + 1.5DIC = 290 + 1.5140 = 290 + 210 = 500