Você está na página 1de 68

Glosario bsico

de trminos estadsticos

Lima,mayode2006

Glosario bsico de trminos estadsticos

CREDITOS

Direccin y Supervisin Lupe Berrocal de Montestruque Directora Tcnica del Centro de Investigacin y Desarrollo Responsable del documento Herminia Asurza Olaechea Apoyo en revisin Santiago Alejandro Billn

Preparado Impreso Diagramacin Tiraje N de Orden

: Por el Centro de Investigacin y Desarrollo : Talleres de la Oficina Tcnica de Administracin (OTA) del Instituto Nacional de Estadstica e Informtica : Centro de Edicin del INEI : ejemplares : 485-OI-OTA-INEI

Hecho el Depsito Legal en la Biblioteca Nacional del Per N : 2006-6441


2

Glosario bsico de trminos estadsticos

Presentacin
El Instituto Nacional de Estadstica e Informtica (INEI), a travs del Centro de Investigacin y Desarrollo, continuando con su poltica de difusin y fortalecimiento de la cultura estadstica, pone a disposicin de los usuarios interesados en conocer los conceptos bsicos de la ciencia estadstica el documento Glosario bsico de trminos estadsticos. La estadstica es la ciencia que se ocupa del estudio de fenmenos de tipo genrico, en el mbito social y econmico, normalmente complejos y enmarcados en un universo variable. Emplea modelos de reduccin de la informacin y de anlisis de validacin de los resultados en trminos de representatividad. La informacin puede ser numrica o alfabtica. Una de las ramas de la ciencia estadstica es la estadstica descriptiva, que se encarga desde la recoleccin, procesamiento, anlisis y hasta la presentacin de un conjunto de datos, mediante las denominadas medidas de posicin, dispersin, forma y concentracin, con el fin de describir, apropiadamente, ese conjunto de datos. La otra rama es la estadstica inferencial que se refiere al mtodo para lograr generalizaciones acerca de las propiedades del todo. Usualmente el trmino estadstica se utiliza como sinnimo de dato. Sin embargo una informacin numrica cualquiera puede no constituir una estadstica. Para merecer esta denominacin, los datos han de constituir un conjunto coherente, organizado de forma sistemtica y siguiendo un criterio de ordenacin. El presente documento comprende los trminos ms usuales de la estadstica. Los conceptos incluidos son de fcil comprensin y permiten conocer las definiciones elementales del argot estadstico, ordenadas alfabticamente. El INEI espera contribuir con esta publicacin al manejo bsico de los trminos estdsticos includos. Lima, mayo de 2006

FARID MATUK Jefe Instituto Nacional de Estadstica e Informtica


3

Glosario bsico de trminos estadsticos

Glosario bsico de trminos estadsticos

Glosario bsico de trminos estadsticos


Este Glosario le permite acceder fcilmente a una definicin sencilla de los principales trminos utilizados en estadstica ordenados alfabticamente.

A
AFIJACIN DE UNA MUESTRA.- Es un mtodo utilizado para establecer cmo debe distribuirse la muestra. En un muestreo estratificado, se refiere generalmente a la determinacin del nmero de unidades en la muestra de cada estrato. En el muestreo por conglomerados, se refiere a la decisin sobre el nmero de conglomerados por seleccionar y el tamao de la muestra en cada conglomerado. AFIJACIN PTIMA DE UNA MUESTRA.- Es la forma de seleccionar una muestra de manera tal que produzca un error estndar mnimo para un tamao de muestra constante. Se utiliza en muestreo estratificado y en muestreo por conglomerados. AMPLITUD DE UN INTERVALO.- Conocido tambin como amplitud de clase, es la diferencia entre los dos extremos de un intervalo. ANLISIS DE CONTINGENCIA.- Es el estudio que se realiza con las tablas de contingencia y consiste en analizar el grado de asociacin o dependencia entre dos variables cualitativas; para medir el grado de dependencia se utiliza el coeficiente de contingencia. (Ver coeficiente de contingencia). ANLISIS DE CORRELACIN.- Es el estudio que se realiza para medir la intensidad o grado de la asociacin que existe entre variables numricas. ANLISIS DE REGRESIN.- Es el estudio que se realiza con el propsito de hacer predicciones. El objetivo es el desarrollo de un modelo estadstico que pueda ser utilizado para predecir valores de una variable dependiente, basado en los valores de la variable independiente. ANLISIS DE VARIANZA.- Es un mtodo para comparar dos o ms medias (Ver media) de n grupos analizando la varianza de los datos, tanto entre n grupos como dentro de ellos.
5

Glosario bsico de trminos estadsticos

En el anlisis de varianza se subdivide la variacin total de las mediciones resultantes (SST Sum of squares of the treatments) en lo que puede atribuir a diferencias entre los n grupos (SSA Sum of squares between(among)) y lo que se debe al azar o que se puede atribuir a una variacin inherente dentro de los n grupos (SSW Sum of squares within). La variacin dentro de grupos se considera error experimental, mientras que la variacin entre grupos se atribuye a efectos de tratamiento. Variacin total (SST) Variacin entre grupos (SSA) Variacin dentro de grupos (SSW) ASIMETRA.- Es la falta de simetra entre los datos de una distribucin. El concepto de asimetra se refiere a si la curva que forman los valores de la serie presenta la misma forma a la izquierda y derecha de un valor central (media aritmtica). AUTOCORRELACIN.- Se denomina as a la correlacin de una variable consigo misma cuando se desfasa uno o ms periodos de tiempo. Se determina calculando el coeficiente de autocorrelacin. Se usa para tal efecto la siguiente frmula:

Donde: r k Es el coeficiente de autocorrelacin para un desfasamiento de k periodos. Y Es la media de los valores de la serie Yt Es la observacin en el periodo de tiempo t Yt+k Es la observacin en k periodos posteriores o en el periodo t+k. Por lo cual r 1 es el coeficiente de autocorrelacin en el primer desfasamiento, r 2 es el coeficiente de autocorrelacin en el segundo desfasamiento y as sucesivamente hasta un rk desfasamiento.
6

Glosario bsico de trminos estadsticos

B
BASE DEL NDICE.- Es la magnitud utilizada como unidad de referencia, contra la cual se hacen todas las comparaciones de la variable en estudio. Esta base puede corresponder a un ao, un trimestre, un mes, etc. Al seleccionar el perodo base para un ndice (Ver ndice), debe tomarse en cuenta dos reglas: 1. El perodo base seleccionado, hasta donde sea posible, debe ser de normalidad o estabilidad econmica. 2. El perodo base debe ser reciente a fin de que las comparaciones no se afecten por cambios en la tecnologa, en la calidad del producto o por las actitudes e intereses de los consumidores. El valor del ndice para el perodo base es 100. BONDAD DE AJUSTE.- Es un indicador que permite discernir acerca de qu tan buena es la ecuacin obtenida. Para determinar la bondad de un ajuste se utilizan diferentes criterios en la regresin lineal. Unos se refieren a los residuales como son el valor de la sumatoria de residuales al cuadrado, la varianza, la desviacin estndar del ajuste y el coeficiente de correlacin al cuadrado. Otro indicador de la bondad de ajuste es el realizado mediante el test de bondad de ajuste utilizando la prueba Ji-Cuadrada (X2), Kolgomorov -Smirnov (K-S) entre otras. BOXPLOT.- (Ver diagrama de caja).

C
CARTOGRAMAS.- Es un tipo de grfico mediante el cual se muestra datos estadsticos sobre una base geogrfica como mapas. CENSO.- Es una investigacin estadstica que consiste en el recuento de la totalidad de los elementos que componen la poblacin por investigar. Es necesario que se especifique el espacio y el tiempo al que se refiere el recuento. CICLO.- (Ver variaciones o fluctuaciones cclicas). CLASE MEDIANA.- En una tabla de datos agrupados, es la clase o intervalo al que pertenece el valor de la mediana. CLASE MODAL.- En una tabla de datos agrupados, es la clase o intervalo que tiene la mayor frecuencia.
7

Glosario bsico de trminos estadsticos

CLASE O CATEGORA.- Se denomina as a la caracterstica o a los intervalos construidos convenientemente para agrupar la informacin. Est conformada por el nmero de particiones que se realiza al conjunto de informacin. CODIFICACIN.- Es asignar nmeros o claves a la informacin para facilitar el procesamiento. Generalmente se realiza sobre las respuestas de un cuestionario, para poder identificarlas con mayor eficacia al momento del procesamiento de datos. COEFICIENTE DE ASIMETRA DE FISHER.- Es un valor que indica la asimetra. Simblicamente se representa por g1 . Se obtiene mediante la siguiente frmula:

g 1 =
m 3 =

m 3 s 3
1

(xi - x) i
=1

Donde: S es la desviacin estndar Los resultados pueden ser los siguientes:

g1 = 0
g1 > 0

g1 < 0

La distribucin es simtrica: existe la misma concentracin de valores a la derecha y a la izquierda de la media. La distribucin es asimtrica positiva: existe mayor concentracin de valores a la derecha de la media que a su izquierda. La cola derecha es ms larga. La distribucin es asimtrica negativa: existe mayor concentracin de valores a la izquierda de la media que a su derecha. La cola izquierda es ms larga.

COEFICIENTE DE ASIMETRA DE PEARSON.- Es un valor que indica la asimetra. Simblicamente se representa por As, y se obtiene mediante la siguiente frmula:

A s =

3x- Me

A s =

x- Mo S

Glosario bsico de trminos estadsticos

Donde: onde:

c
Mo S Me

Es la media aritmtica Es la moda Es la desviacin estndar Es la mediana

As = 0 Entonces la distribucin es simtrica. As > 0 Entonces la distribucin es asimtrica hacia la derecha o tiene sesgo positivo. As < 0 Entonces la distribucin es asimtrica hacia la izquierda o tiene sesgo negativo. COEFICIENTE DE CONFIANZA.- Se representa por (1- a ) y es la probabilidad de que la hiptesis nula Ho no sea rechazada cuando de hecho es verdadera y debera ser aceptada. COEFICIENTE DE CONTINGENCIA Chi-Cuadrado (c2).- Es un nmero que mide el grado de asociacin o dependencia de las clasificaciones en una tabla de contingencia (h x k). Se obtiene mediante la siguiente frmula:

c =
i=1 j=1

(n - e )
ij ij

2 2 ] 0 x N[min (h,k) - 1

e ij

Donde: n i n j e "i , j ij = N Cuanto ms se acerque la Chi-Cuadrado a cero menos asociacin hay (ms independencia) entre los atributos. Cuanto ms se acerque la Chi-Cuadrado a su cota superior ms asociacin hay (menos independencia) entre los atributos. Cuando la Chi-Cuadrado es igual a cero no hay asociacin entre los atributos. Es decir los atributos son independientes.
9

Glosario bsico de trminos estadsticos

COEFICIENTE DE CORRELACIN LINEAL DE PEARSON.- Es un nmero que mide la intensidad de la asociacin lineal entre dos variables. El coeficiente de correlacin se representa simblicamente por "r". Este coeficiente se aplica cuando la relacin que puede existir entre las variables es lineal (es decir, si representramos en un grfico los pares de valores de las dos variables, la nube de puntos se aproximara a una recta).

No obstante, puede que exista una relacin que no sea lineal, sino exponencial, parablica, etc. En estos casos, el coeficiente de correlacin lineal medira mal la intensidad de la relacin de las variables, por lo que convendra utilizar un tipo de coeficiente ms apropiado. El coeficiente de correlacin lineal se calcula aplicando la siguiente frmula:

r=

[X, Y] c sxsy

Los valores que puede tomar el coeficiente de correlacin "r" son: -1 < r < 1 Si "r" > 0 La correlacin lineal es positiva (si sube el valor de una variable sube el de la otra). La correlacin es tanto ms fuerte cuanto ms se aproxime a 1.

10

Glosario bsico de trminos estadsticos

Si "r" < 0

Si "r" = 0

La correlacin lineal es negativa (si sube el valor de una variable disminuye el de la otra). La correlacin negativa es tanto ms fuerte cuanto ms se aproxime a -1. No existe correlacin lineal entre las variables, aunque podra existir otro tipo de correlacin (parablica, exponencial, etc.)

De todos modos, aunque el valor de "r" fuera prximo a 1 -1, tampoco esto quiere decir obligatoriamente que existe una relacin de causa-efecto entre las dos variables, ya que este resultado podra haberse debido al puro azar. COEFICIENTE DE CURTOSIS.- Es una medida de forma (Ver curtosis). Se conoce como coeficiente de curtosis de Fisher, en honor al matemtico britnico Ronald Fisher (1890-1962). El valor se obtiene mediante la siguiente frmula:

g 2 =

m 4 - 3 s 4

Donde:

m4 =

(xi - x)
i=1

S es la desviacin estndar Los resultados pueden ser los siguientes: g2 > 0 (distribucin leptocrtica). g2 = 0 (distribucin mesocrtica). g 2< 0 (distribucin platicrtica).

DISTRIBUCIONES

11

Glosario bsico de trminos estadsticos

COEFICIENTE DE DETERMINACIN.- Es un valor que se obtiene elevando al cuadrado el coeficiente de correlacin. Se representa simblicamente por r2 y puede tomar valores entre 0 y 1. El coeficiente de determinacin mide la proximidad del ajuste de la ecuacin de regresin de la muestra a los valores observados de la variable dependiente. COEFICIENTE DE GINI.- (Ver ndice de concentracin de Gini). Es una medida de la desigualdad. Mide la distribucin o nivel de concentracin del ingreso o renta. Su denominacin es en honor al estadstico italiano Corrado Gini. El coeficiente de Gini es un nmero entre 0 y 1, en donde 0 se corresponde con la perfecta igualdad o distribucin equitativa ( todos tienen los mismos ingresos); y 1 se corresponde con la perfecta desigualdad (una persona tiene todos los ingresos y todos los dems ninguno). COEFICIENTE DE VARIACIN DE PEARSON.- Es una medida de dispersin relativa y se calcula dividiendo la desviacin tpica entre la media aritmtica:

s CV = ---------- X 100 x
La ventaja de este coeficiente es que no lleva asociado ninguna unidad de medida. Se Interpreta como porcentaje, por lo que nos permitir decidir entre dos muestras, cul es la que presenta mayor dispersin. Simblicamente se denota por CV. COEFICIENTES DE REGRESIN.- Son los valores constantes de una ecuacin de regresin lineal. En el modelo de regresin lineal siguiente los coeficientes son a y b. y = a + bx a b
12

representa el punto de interseccin con el eje representa la pendiente de la recta

Glosario bsico de trminos estadsticos

b=

XY - n Y X X - nX
. 2 2

a = Y - bX

COMBINACIONES.- Consiste en tomar diferentes agrupaciones de r elementos de un total de n objetos sin importar el orden, y el nmero de combinaciones se obtiene mediante la siguiente frmula.

n C r = r ! (n- r) !
Donde: n Representa el total de objetos r Nmero de objetos agrupados n! Representa Factorial del total de datos, se obtiene 1x2x3x....xn COMPONENTES DE UNA SERIE TEMPORAL .- Los datos de un fenmeno se representan ordenados en el tiempo (Ver series temporales) Segn el enfoque clsico una serie es el resultado de cuatro componentes: tendencia, variaciones o fluctuaciones estacionales, variaciones o fluctuaciones cclicas y variacionaes irregulares, accidentales, residuales, como se aprecia en el grfico siguiente:

n !

CONCENTRACIN.- Cuantifica el grado de equidistribucin de la distribucin de un fenmeno: salarios, rentas etc. Para medir el nivel de concentracin de una distribucin de frecuencia se puede utilizar distintos indicadores entre ellos el ndice de concentracin de Gini.
13

Glosario bsico de trminos estadsticos

CONGLOMERADO.- Es una subpoblacin que rene caractersticas presentes en la poblacin. Los elementos que la componen poseen cierta caracterstica que les hace ser propios de cierta cualidad o atributo, tal como lugar geogrfico, grupo tnico, ideologa, organizacin social, etc. CONTRASTE DE HIPTESIS.- Conocido tambin como dcima o prueba de hiptesis, es el proceso estadstico que se sigue para la toma de decisiones a partir de la informacin de la muestra. Comparando el valor del estadstico experimental con el valor terico, se rechaza o acepta la hiptesis nula (H0). Lo contrario a la hiptesis nula se llama hiptesis alterna (H1). CORRELOGRAMA.- Es un grfico que permite apreciar las autocorrelaciones r1, r2,........,rk mediante el cual se identifican si los datos de una serie de tiempo tienen las siguientes caractersticas: estacionalidad, aleatoriedad, tendencia y estacionariedad. COVARIANZA.- Es una medida de la asociacin lineal entre dos variables.
n i i n i i i=1

C[X, Y]=

(X - X)(Y - Y) X Y
i=1

- X Y

Si

> 0 hay dependencia directa (positiva), es decir a grandes valores de X corresponden grandes valores de Y. Si C[X, Y] = 0 las variables estn incorrelacionadas, es decir no hay relacin lineal. Si C[X, Y] < 0 hay dependencia inversa o negativa, es decir a grandes valores de X corresponden pequeos valores de Y.
C[ X, Y]

Una desventaja de la covarianza como medida de asociacin es que su valor depende de las unidades en que se miden las variables de inters. Para evitar esta propiedad, se ha ideado una medida de asociacin que es independiente de las unidades de medicin, la cual recibe el nombre de correlacin (Ver coeficiente de correlacin lineal de Pearson).
14

Glosario bsico de trminos estadsticos

CUARTIL.- Es una medida de posicin no central o de localizacin. Los cuartiles son los tres valores que dividen la distribucin en cuatro partes iguales, es decir, en cuatro intervalos dentro de cada cual estn incluidos el 25% de los datos de la distribucin:
l

Q1 Representa el primer cuartil y se interpreta como que el 25% de la distribucin es menor que el Q1 obtenido. Q2 Representa el segundo cuartil y se interpreta como que el 50% de la distribucin, es menor que el Q2 obtenido. Este valor es igual a la mediana. Q3 Representa el tercer cuartil y se interpreta como que el 75% de la distribucin, es menor que el Q3 obtenido.
FORMULAPARADATOSAGRUPADOS

(rN/4) Ni1 Qr =Li+ ni xc

r=1,2,3

Donde: r Es el nmero del cuartil que se desea calcular y puede tomar los valores de: 1, 2 y 3 Li Lmite inferior de la clase cuartlica N Total de datos Ni-1 Frecuencia absoluta acumulada menor o igual a rN/4. ni Frecuencia absoluta de la clase cuartlica c Amplitud del intervalo CUASIVARIANZA.- Es un valor que se obtiene de manera similar a la varianza pero dividiendo entre n-1 en lugar de n. La cuasivarianza cuantifica la dispersin o variabilidad de la muestra. La cuasivarianza muestral es un estimador centrado (no sesgado) de la varianza poblacional. CUESTIONARIO.- Es el instrumento ms utilizado para recolectar datos. Consiste en un conjunto de preguntas respecto a una o ms variables a medir. La esencia de los cuestionarios son las preguntas que permiten alcanzar los objetivos de la investigacin. Las respuestas a estas preguntas constituyen los datos estadsticos que sern utilizados para conocer las caractersticas de la poblacin o muestra bajo estudio.
15

Glosario bsico de trminos estadsticos

CURTOSIS.- Es una medida de forma. Tambin se conoce como medida de apuntamiento mide si los valores de la distribucin estn ms o menos concentrados alrededor de los valores medios de la muestra. Se definen 3 tipos de distribuciones segn su grado de curtosis: Distribucin mesocrtica, distribucin leptocrtica y distribucin platicrtica. (Ver grfico en coeficiente de curtosis). CURVA DE LORENZ.- Es una grfica de concentracin acumulada de la distribucin de la riqueza. Para elaborar una curva de Lorenz, se anotan los porcentajes acumulados del ingreso contra los porcentajes acumulados de las familias clasificadas, de las de ingresos ms bajos a las de ingresos ms altos. Los nmeros requeridos se derivan de la informacin obtenida en la investigacin. Esos pares de nmeros determinan la curva de Lorenz. Se dibuja una lnea diagonal perfecta a lo largo del cuadrante (por ejemplo el 20% del ingreso es recibido por el 20% de las familias). Mientras ms cerca est la curva de Lorenz de la lnea diagonal, ser ms equitativa la distribucin del ingreso. Por lo tanto, una medida de igualdad debe medir qu tan cerca se encuentra la curva de Lorenz de la diagonal. Una medida de este tipo es el coeficiente de Gini.

CURVA NORMAL.- Tambin denominada curva o campana de Gauss, en honor al matemtico alemn Karl Friedrich Gauss. La curva normal es una distribucin simtrica de mediciones, con el mismo nmero de casos
16

Glosario bsico de trminos estadsticos

a distancias especficas tanto por debajo como por encima de la media. Su media es el punto debajo del cual cae exactamente el 50% de los casos y sobre el que se encuentra el otro 50%. En estas distribuciones la media, mediana y la moda son valores idnticos. En una curva normal la mayora de los casos se concentran alrededor de la media.

Donde: e es la constante 2,7182(base de los logaritmos neperianos). p es 3,1415 (relacin entre la longitud de la circunferencia y su dimetro). x es la abscisa, cualquier punto del intervalo. m es la mediana de la variable aleatoria. s es la desviacin tipo de la variable aleatoria, y f(x) la ordenada de la curva.

D
DATO.- Conocido tambin como informacin, es el valor de la variable asociada a un elemento de una poblacin o una muestra. DATO CUALITATIVO.- Es aquel que representa alguna caracterstica de los elementos de una muestra o una poblacin que presentan, atributos, actitudes o son opiniones. Son datos NO NUMRICOS. (Ver variable cualitativa).

17

Glosario bsico de trminos estadsticos

DATO CUANTITATIVO.- Es aquel dato numrico que representa aspectos de una muestra o una poblacin que es medible o que se puede contar. (Ver variable cualitativa). DATOS DE PANEL.- Son aquellos datos que son una combinacin de series de tiempo y datos de seccin cruzada o corte transversal que se obtienen sobre un mismo conjunto de unidades de anlisis (individuos, familias o empresas) en distintos periodos de tiempo. DATOS DE SECCIN CRUZADA O DE CORTE TRANSVERSAL.Son aquellos que corresponden a distintas unidades de anlisis ( individuos, familias o empresas) pero referidos al mismo periodo de tiempo. DECIL.- Es una medida de localizacin o posicin no central. Los deciles son los nueve puntos que dividen la distribucin en diez puntos de forma tal que dentro de cada una, estn incluidos el 10% de los datos. Entonces, un decil es un valor que representa la dcima parte de un conjunto de informacin. Se representa simblicamente por Dr . (rN/10)Ni1 Dr =Li + ni Donde: r Es el nmero del decil que se desea calcular. Puede tomar valores de 1,2,.3,....,.9 Li Lmite inferior de la clase declica N Total de datos Ni-1 Frecuencia absoluta acumulada anterior a la clase declica ni Frecuencia absoluta de la clase declica c Amplitud o tamao del intervalo DEFLACTAR.- Es transformar valores expresados en precios corrientes (valor nominal) a valores en precios constantes (valor real). La deflactacin se calcula usando la expresin siguiente: xc
r=1,2,3,..........9

18

Glosario bsico de trminos estadsticos


Valorreal=(valornominal/ndicedeprecios)x100

Lo cual indica el valor expresado en unidades monetarias de igual poder adquisitivo que el del ao base. DENSIDAD DE POBLACIN.- Es la medida ms tradicional y usada con mucha frecuencia para expresar el nmero de habitantes por kilmetro cuadrado. Se calcula dividiendo el nmero de habitantes de una zona por la superficie total que tiene esa zona.

DNiZ =

Z N i S i

Donde: DNiZ Representa la densidad de poblacin del lugar "i" en el ao "z".


NiZ

Representa la poblacin total del lugar "i" en el ao "z". Representa la superficie del lugar "i".

Si

DESVIACIN ESTNDAR.- Conocida tambin como desviacin tpica, es una medida de dispersin que se obtiene como la raz cuadrada de la varianza. (Ver varianza).

S =

S2 =

i= 1

Xi - X ni

Datosagrupados

n
2 (Xi - X )

S =

S2 =

i= 1

Datossimplesosinagrupar

Este estadstico se mide en la misma unidad que la variable por lo que se puede interpretar mejor que la varianza. DESVIACIN MEDIA.- Es una medida de dispersin. Es un nmero que representa la media de los valores absolutos de las desviaciones respecto a su media aritmtica. Se expresa en la misma unidad en la que se presentan los datos. Se la denota como DM.
19

Glosario bsico de trminos estadsticos

Xi - X n i

DM =

i =1

Datosagrupados

N
Xi - X
m

DM =

i =1

Datossimplesosinagrupar

DESVO TIPIFICADO (z).- Conocido tambin como estandarizacin de la distribucin normal. Es la transformacin de cualquier variable aleatoria normal x con media m y una desviacin estndar s , en una variable aleatoria estandarizada de distribucin normal, con media 0 y desviacin tpica 1. x- m Z = s DIAGRAMA.- Es un dibujo o representacin grfica que sirve para representar un objeto, indicar la relacin entre elementos o mostrar el valor de una magnitud. DIAGRAMA DE BARRAS.- Es un grfico utilizado para representar la distribucin de frecuencias de una variable cualitativa y cuantitativa discreta. Puede graficarse en forma horizontal o vertical.

20

Glosario bsico de trminos estadsticos

DIAGRAMA DE BASTONES (ESPECTRO).- Es un grfico utilizado para representar una distribucin de frecuencias o frecuencias relativas de una variable numrica (en general discreta) sin agrupar.

DIAGRAMA DE CAJAS.- Conocido tambin como BOXPLOT. Es un importante grfico del anlisis exploratorio de datos. Al igual que el histograma, permite tener una idea visual de la distribucin de los datos. Permite determinar si hay simetra, ver el grado de variabilidad existente y detectar los "outliers" (datos muy diferentes al conjunto de informacin), es decir la existencia de posibles datos discordantes. Adems, el Boxplot es bien til para comparar grupos Es un diagrama que muestra la distancia en que se encuentran los datos y cmo estn distribuidos equitativamente.

RecorridointercuartlicoRI=Q Q 3 1 DIAGRAMA DE DISPERSIN.- Es un grfico utilizado para representar la relacin entre los valores observados de dos variables numricas. Tambin se conoce como nube de puntos.
21

Glosario bsico de trminos estadsticos

Estatura

DIAGRAMA DE FLUJO.- Es una representacin grfica de los pasos en un proceso. til para determinar cmo funciona realmente el proceso para producir un resultado. El resultado puede ser un producto, un servicio, informacin o una combinacin de los tres. Los diagramas de flujo se pueden aplicar a cualquier aspecto del proceso desde el flujo de materiales hasta los pasos para realizar la venta u ofrecer un producto.
DIAGRAMA DE FLUJO DE LA DIVISIN DE DOS NMEROS
INICIO

LEER A 1 LEER B Si B=0 No 1

C=A/B

ESCRIBIR C

FIN

22

Glosario bsico de trminos estadsticos

DIAGRAMA DE PARETO.- Es una forma especial de grfico de barras verticales donde se organizan diversas clasificaciones de datos por orden descendente, de izquierda a derecha, por medio de barras sencillas despus de haber reunido los datos para calificar las causas. De modo que se pueda asignar un orden de prioridades, separa los problemas muy importantes de los menos importantes, estableciendo un orden de prioridades. El nombre de Pareto fue dado por Joseph Juran en honor del economista italiano Vilfredo Pareto (1848-1923) quien realiz un estudio sobre la distribucin de la riqueza, en el cual descubri que la minora de la poblacin posea la mayor parte de la riqueza y la mayora de la poblacin posea la menor parte de la riqueza. Con esto estableci la llamada "Ley de Pareto" segn la cual la desigualdad econmica es inevitable en cualquier sociedad. Juran aplic este concepto a la calidad, obtenindose lo que hoy se conoce como la regla 80/20. Segn este concepto, si se tiene un problema con muchas causas, podemos decir que el 20% de las causas resuelven el 80% del problema y el 80% de las causas slo resuelven el 20% del problema.

Matemticas

Tarjeta de Tiempo

Renta de Autos

Autorizacin

Otros

23

Glosario bsico de trminos estadsticos

DIAGRAMA DE SECTORES.- Es un grfico utilizado para representar la distribucin de frecuencias relativas de una variable cualitativa. (Ver grfico circular). Hbitos de fumar

DIAGRAMA DE TALLOS Y HOJAS.- Es una forma semigrfica de representar una distribucin de frecuencias de una variable numrica. Vamos a construir un diagrama de tallo y hojas para el siguiente conjunto de 20 puntajes de ingreso a la universidad:
62 68 72 92 86 76 52 76 82 78 82 74 88 66 58 74 78 84 96 76

Siendo los datos nmeros de dos cifras, vemos que hay datos en los grupos del 50, 60, 70, 80 y 90. El primer dgito de cada dato debe utilizarse como tallo y el segundo como hoja. Se traza una lnea vertical y se colocan los tallos a su izquierda, en columna. Luego se coloca cada hoja junto a su tallo hasta completar la lectura de todos los datos. La presentacin de tallo y hojas es la siguiente.
Frecuencia 2 3 8 5 2 Tallo 5 6 7 8 9 8 6 4 2 6 Hojas 2 2 8 4 8 6 2 6 6 8 8 4 6 2 2

N = 20 Unidad = 1

Proporciona una idea de la distribucin de la variable en estudio.


24

Glosario bsico de trminos estadsticos

Si los datos tuviesen cifras decimales, al construir el diagrama de tallo y hojas, el punto decimal se pierde por tal razn se acostumbra indicar las unidades que los datos del tallo representan. As, si los datos de arriba fuesen decimales 6.2 6.8 ........7.6, debajo del diagrama se pondra "Unidad = 0.1". DIAGRAMA EN ESCALERA.- Es un grfico utilizado para representar la distribucin de frecuencias acumuladas de una variable discreta numrica.

DISTRIBUCIN BIDIMENSIONAL.- Es la disposicin de la frecuencia de dos variables de cada elemento de la poblacin. Por ejemplo: peso y altura de un grupo de estudiantes, superficie y precio de las viviendas de una ciudad, potencia y velocidad de una gama de autos deportivos etc. Sea una poblacin donde se estudia simultneamente dos caractersticas X e Y, se representa genricamente como (xi , y , nij), donde xi , y , son dos j j valores cualesquiera y nij es la frecuencia absoluta conjunta del valor i-simo de X con el j-simo de Y. Una forma de disponer estos resultados es la conocida como tabla de doble entrada o tabla de contingencia y se representa como sigue:

25

Glosario bsico de trminos estadsticos

Y X x 1 x 2 . . . x i . . . x h n. y 1
n11 n21

y2
n12 n22

.. .. .. . . . .. . . . .. ..

y j
n1j n2j

.. .. .. . . . .. . . . .. ..

yk
n1k n2k

ni . n1 . n2 . . . ni . . . . nh . N

. .
ni1

. .
ni2

. .
nij

. .
nik

. . .
nh1

. . .
nh2

. . .
nhj

. . .
nhk

1 n 2 j k En jeste caso, nos indica el nmero de veces que se repite x 1 11 conjuntamente con y1, n12, nos indica la frecuencia conjunta de x1 con y2, etc.

n.

n.

n.

n.

DISTRIBUCIN CONDICIONAL.- De una tabla de frecuencias bidimensionales se puede formar varias distribuciones unidimensionales en las que previamente hace falta definir una condicin. Las distribuciones surgen al fijar un valor de una de las variables (condicionante) y considerar la distribucin de los valores de la otra variables (condicionada). Al condicionar reducimos el nmero de elementos de la distribucin defina por un valor especfico de la otra variables. El nmero total de distribuciones condicionadas es h+k h k nmero de filas nmero de columnas

DISTRIBUCIN MARGINAL.- Es la distribucin de frecuencias de una variable independientemente de cmo se comporta la otra variable de una distribucin bidimensional. De cada distribucin bidimensional se pueden deducir dos distribuciones marginales: una correspondiente a la variable x y otra correspondiente a la variable y.

26

Glosario bsico de trminos estadsticos

Distribucin marginal de X
X x1 x2 ..... xn1 xn

. n . n .
ni
1 2

... nn1
n

. n .
. n. n.
n
j

Distribucin marginal de Y Y
y1 y2 ..... ym1 ym n
1

...

. n.

m1

DISTRIBUCIN LEPTOCRTICA.- Es aquella que presenta un elevado grado de concentracin alrededor de los valores centrales de la variable.
CURVALEPTOCRTICA

DISTRIBUCIN MESOCRTICA.- Es conocida tambin como curva normal o campana de Gauss. Es aquella que presenta un grado de
27

Glosario bsico de trminos estadsticos

concentracin alrededor de los valores centrales de la variable. (Ver curva normal).


CURVAMESOCRTICA

DISTRIBUCIN PLATICRTICA.- Es aquella que presenta un reducido grado de concentracin alrededor de los valores centrales de la variable.
CURVAPLATICRTICA

DISTRIBUCIN UNIDIMENSIONAL.- Es una tabla resumen en la que se estudia una sola variable. Los datos se disponen segn agrupamientos o categoras convenientemente establecidas. Puede construirse con variable cualitativa o cuantitativa.
Categoraso clases Frecuencias Frecuencias Frecuencias Frecuencias Absolutas Relativa Absolutas Relativas acumuladas acumuladas ni h i Ni Hi
n1 n2 . . ni . . . nm
m

1 2

h1 h2 . . hi . . . hm

N1 N2 . . Ni . . . Nm

H1 H2 . . Hi . . . Hm

m Total

m i=1

=1 ni = N hi
i=1

28

Glosario bsico de trminos estadsticos

DISTRIBUCIN NORMAL O CURVA NORMAL.- Llamada tambin como distribucin de Gauss, es la distribucin de probabilidad ms utilizada en estadstica y teora de probabiliad. Esto se debe a dos razones: Su funcin de densidad es simtrica y con forma de campana lo que favorece su aplicacin como modelo a gran nmero de variables. Es adems lmite de otras distribuciones y aparece relacionada con resultados ligados a la teora de las probabilidades gracias a sus propiedades matemticas. La funcin de densidad est dada por:

1 f (x) = e s 2 p

( x- m )2
2 s 2

Donde: m Media s 2 Varianza Desviacin estndar s p Constante = 3,1415..... e Constante = 2,7182.....

E
ENCUESTA.- Es un mtodo de recoleccin de datos. Es llevada a cabo generalmente a travs de algn cuestionario que puede o no ser diligenciado por el encuestado y/o encuestador. ENTREVISTA.- Es un mtodo de recoleccin de datos. Consiste en una serie de preguntas realizadas por el entrevistador, personalmente, a cada uno de los entrevistados. ERROR DE MUESTREO.- Conocido tambin como error muestral, es la diferencia que existe entre el valor real (parmetro) obtenido con los valores de la poblacin y el valor estimado en base a los valores de una muestra (estimacin).

29

Glosario bsico de trminos estadsticos

ERROR TIPO I.- En la teora de decisiones, es el error que se comete al rechazar la hiptesis nula H0, cuando es verdadera. ERROR TIPO II.- En la teora de decisiones, es el error que se comete al aceptar la hiptesis nula H0 cuando es falsa.
DECISIONESPOSIB LES HIPTESISNUL AHo VERDADERA HIPTESISNUL AHoFALSA

SeaceptalaHo SerechazaHo

Correctamenteaceptada ErrordetipoI

ErrordetipoII Correctamenterechazada

ESPACIO MUESTRAL.- Es el conjunto de todos los resultados posibles de un experimento aleatorio. Cada experimento aleatorio tiene definido su espacio muestral (es decir, un conjunto con todas las soluciones posibles). Ejemplo: si tiramos una moneda al aire una sola vez, el espacio muestral ser cara o sello. Si el experimento consiste en lanzar una moneda al aire dos veces, entonces el espacio muestral estara formado por (cara-cara), (carasello), (sello-cara) y (sello-sello). ESTACIONARIA.- Es la serie de datos cuyas propiedades estadsticas bsicas como la media y la varianza permanecen constantes en el tiempo, es decir cuando la serie no presenta crecimiento o declinacin es estacionaria.

30

Glosario bsico de trminos estadsticos

ESTADSTICA.- Es la ciencia que comprende una serie de mtodos y procedimientos destinados a la recopilacin, tabulacin, procesamiento, anlisis e interpretacin de datos cuantitativos y cualitativos. Un objetivo de la estadstica es describir "la poblacin del estudio" en base a informacin obtenida de elementos individuales. Se divide en dos ramas: Estadstica descriptiva y Estadstica inferencial ESTADSTICA DESCRIPTIVA.- Rama de la ciencia estadstica que se encarga desde la recopilacin, procesamiento y anlisis de la informacin siendo sus conclusiones vlidas slo para el grupo analizado. ESTADSTICA INFERENCIAL.- Rama de la ciencia estadstica que proporciona mtodos y procedimientos que permiten obtener conclusiones para una poblacin a partir del estudio de una o ms muestras representativas. ESTADSTICO.- Conocido tambin como estadgrafo, es el valor calculado en base a los datos que se obtienen sobre una muestra y por lo tanto es una estimacin de los parmetros. Entre los ms usados se tiene la media muestral y la desviacin estndar muestral. ESTIMADOR.- Es un estadstico empleado para estimar un parmetro. ESTIMADOR INSESGADO.- Es un tipo de estimador que posee la propiedad de que el promedio de las estimaciones efectuadas a partir de todas las muestras posibles de un determinado tamao es igual al valor verdadero o valor poblacional. ESTRATIFICACIN.- Es un procedimiento por medio del cual una poblacin se divide en grupos llamados estratos, con el propsito de seleccionar una muestra separada en cada grupo. Cada uno de estos grupos o estratos debe ser internamente lo ms homogneo posible. ESTRATO.- Es una subpoblacin o parte de una poblacin que rene caractersticas comunes que le hacen ser homognea. Los estratos son mutuamente excluyentes. Ello significa que los elementos que pertenecen a un estrato no pueden pertenecer a otro.
31

Glosario bsico de trminos estadsticos

EXACTITUD.- Es la cercana de una medicin al verdadero valor que se pretende medir. EXPERIMENTO.- Es un mtodo de investigacin mediante el cual se determina la incidencia de variables independientes sobre la variable dependiente. EXPERIMENTO ALEATORIO.- Es cualquier acto que implique la observacin de los valores de una variable aleatoria. Es aquel que puede dar lugar a varios resultados, sin que pueda ser previsible enunciar con certeza cul de stos va a ser observado en la realizacin del experimento.

F
FACTOR DE EXPANSIN.- Es un nmero constante (factor o multiplicador) por medio del cual el valor de la variable muestral se expande o eleva a nivel de la poblacin total. El factor de expansin es el recproco o inverso de la fraccin de muestreo. FRACTIL O CUANTIL.- Es el valor que se obtiene al fraccionar el conjunto de datos en partes o fracciones iguales. Los ms conocidos son: mediana, cuartiles, deciles y percentiles. FRECUENCIA ABSOLUTA.- Es el nmero de veces que la variable asume un valor dado o pertenece a una clase dada. Se representa simblicamente por ni. FRECUENCIA ABSOLUTA ACUMULADA.- Es el nmero de observaciones hasta (inclusive) un valor dado de una variable numrica. Se representa por Ni.

FRECUENCIA CONDICIONAL.- En una distribucin conjunta, son las frecuencias de una de las variables estando fijo un valor de la (s) otra (s) variable(s).
32

Glosario bsico de trminos estadsticos

FRECUENCIA CONJUNTA.- Es un nmero nij que representa la ocurrencia de dos variables (x, y) en los elementos de poblacin o de la muestra. (Ver distribucin bidimensional) FRECUENCIA MARGINAL.- En una distribucin conjunta, son las frecuencias de cada una de las variables sin tener en cuenta el valor de la (s) otra (s). FRECUENCIA RELATIVA.- Es un valor que se obtiene como el cociente de la frecuencia absoluta (ni) sobre el tamao de la muestra (N). Simblicamente se representa por hi.
ni hi = N

FRECUENCIA RELATIVA ACUMULADA.- Es una cantidad que se obtiene como el cociente de la frecuencia absoluta acumulada (Ni) sobre el tamao de la muestra (N). Simblicamente se representa por Hi.
Ni Hi = N

FUENTES DE DATOS.- Medios de donde procede la informacin. Los datos pueden reunirse de diferentes fuentes de informacin ya existentes o pueden obtenerse mediante censos, encuestas y estudios experimentales para conseguir nuevos datos. FUENTE PRIMARIA.- Es aquella en la que los datos estadsticos se obtienen a partir de un relevamiento propio, como por ejemplo a partir de una encuesta. FUENTE SECUNDARIA.- Es aquella persona o institucin que proporciona datos estadsticos, es decir los datos se obtienen a partir de un relevamiento de otros recopiladores.
33

Glosario bsico de trminos estadsticos

G
GRADO DE URBANIZACIN.- Es el porcentaje de poblacin que reside en las zonas urbanas (ciudades) de un pas, regin o lugar. Se define como el cociente de la poblacin urbana entre el total de la poblacin, multiplicado por 100. Se expresa como porcentaje:
PNU iZ =
NUiZ x 100

NiZ

donde: PNUiZ representa el porcentaje de poblacin urbana del lugar "i" en el ao "z". NU iZ representa la poblacin urbana que reside en el lugar "i" en el ao "z". representa la poblacin total del lugar "i" en el ao "z". NiZ

GRADOS DE LIBERTAD.- En estadstica grados de libertad de un estadstico calculado en base a n datos, se refiere al nmero de cantidades independientes que se necesitan en su clculo, menos el nmero de restricciones que ligan a las observaciones y el estadstico. Simblicamente se representa por gl. Ejemplo: Sea Xi : 2, 5,7,9,12 su media es X =7 y se ha calculado a partir de n=5 observaciones independientes, que estn ligadas por la media aritmtica. Luego el nmero de grados de libertad de la media es n-1=4 GRFICO CIRCULAR.- Conocido tambin como grfico de sectores circulares. Est formado por un crculo dividido en sectores, de modo que cada uno de ellos representa una categora distinta de la variable observada, manteniendo su proporcin relativa respecto del total de la muestra. (Ver diagrama de sectores). GRFICO DE REAS.- Grfico que busca mostrar la tendencia de la informacin generalmente en un perodo de tiempo. Pueden ser para representar una, dos o ms series en dos, o tres dimensiones. GRFICO DE BARRAS.- Ver diagrama de barras.
34

Glosario bsico de trminos estadsticos

GRFICO DE CAJAS.- (Ver diagrama de cajas). GRFICO DE LNEAS.- Diagrama donde se representa con lneas los valores de los datos en dos ejes cartesianos ortogonales entre s. Se puede usar para representar una, dos o ms series. GRFICO SEMILOGARTMICO.- Es un diagrama donde uno de los ejes est en escala logartmica. Se utiliza cuando hay grandes incrementos entre s.

H
HIPTESIS ESTADSTICA.- Es una afirmacin respecto a alguna caracterstica de la poblacin en estudio que se formula para ser sometida a la denominada prueba de hiptesis, para ser aceptada o rechazada. HISTOGRAMA.- Grfico utilizado para representar la distribucin de frecuencias de una variable continua. Describe el comportamiento de un conjunto de datos en cuanto a su tendencia central, forma y dispersin. Est formado por un conjunto de rectngulos unidos, cuya base es igual a la amplitud del intervalo, y la longitud proporcional a la frecuencia.

I
INDEPENDENCIA ESTADSTICA.- Se dice que dos variables X e Y son independientes, estadsticamente, cuando la frecuencia relativa conjunta es igual al producto de las frecuencias relativas marginales en todos los casos, es decir:

n n n ij = i * j n n n

" i , j 0

Si esta condicin no se cumple para todos los valores, se dice que hay dependencia estadstica. NDICE.- Es la relacin expresada en porcentaje entre el precio, cantidad o valor de un bien y servicio o conjunto de bienes y servicios, en un perodo
35

Glosario bsico de trminos estadsticos

de estudio y el precio, cantidad o valor del mismo bien y servicio o conjunto de bienes y servicios en el periodo de referencia o perodo base El nmero ndice es :
o I t (i )=

x it * 100 x io

X io Representa el valor de la magnitud en el periodo base X it Representa el valor de la magnitud en el periodo que se quiere estudiar El ndice mide la variacin (expresado en porcentaje) que ha sufrido la magnitud X entre los dos periodos considerados. Puede referirse a precios, cantidad y valor. (Ver nmero ndice). NDICE DE CANTIDAD.- Es un nmero que refleja la variacin en las cantidades de un producto o un conjunto de productos en dos momentos en el tiempo. Ejemplos: ndice de exportacin del algodn, el ndice de produccin industrial, variacin de la carga transportada, entre otros.
0 qt =

q it * 100 q io

NDICE DE PRECIOS.- Es un nmero que refleja el cambio en el precio de un bien, servicio o conjunto de bienes y servicios en un perodo de tiempo, en relacin con el precio en un perodo de referencia (perodo base). P Pt0 = it * 100

P io

NDICE DE VALOR.- Es un nmero que expresa la variacin en el valor de un conjunto de productos en dos momentos en el tiempo o el espacio. Ejemplo: ndice de ventas comerciales, valor de las exportaciones, deuda externa, entre otros. p q Vt0 = it it * 100 p ioq io NDICE AGREGATIVO.- Es aquel que expresa la variacin de un conjunto de artculos agregados. Entre ellos tenemos el ndice de Laspeyres, Paasche y Fisher.
36

Glosario bsico de trminos estadsticos

NDICE DE PRECIOS DE LASPEYRES.- Describe la variacin de precios de una canasta de bienes y servicios elegidos en un ao base, que permanece inalterable durante los perodos sucesivos.

IP L =

Q P t 100 Q P
0 0 0

Donde: P0 Q0 Pt Precio del ao base Cantidad del ao base Precio del ao dado

NDICE DE PRECIOS DE PAASCHE.- Es un nmero que describe la relacin exitente entre el precio actual de un grupo de bienes y servicios y el precio de dichos bienes y servicios en el ao base. A diferencia del ndice de precios de Laspeyres donde se mantenan fijas las cantidades de la canasta de bienes y servicios del peroido base, para el ndice de precio de Paasche estas cantidades van variando y corresponden a las del perodo corriente (periodo actual). El ndice de precios de Paasche est definido por:

IP P =

QtP t 100 QtP


0

37

Glosario bsico de trminos estadsticos

NDICE IDEAL DE FISHER.- Es un ndice de precios que se obtiene como la media geomtrica de los nmeros ndices de Laspeyres y de Paasche. El ndice ideal de Fisher satisface los criterios de inversin temporal y de inversin de factores, lo que le confiere una cierta ventaja terica sobre otros nmeros ndice. Se obtiene de la combinacin de los ndices de Laspeyres y Paasche: I Ft/o =
PtQ P 0 tQ t PQ P Q 0 t 0 0

ILxIP

NDICE DE CARLI.- Es un ndice agregado simple. Si los precios de un conjunto de bienes en el perodo base estn dados por Po1, Po2, Po3, Po4, etc., y los precios de estos mismos bienes para el perodo dado t son Pt1 , Pt2 , Pt3 , Pt4, etc., entonces el ndice de Carli se define como la media aritmtica de la evolucin de los precios relativos: It/o =
1 100 t x n P
0

Donde n es el nmero de bienes y la suma de (Pt / Po) se extiende a todos los bienes. NDICE DE CONCENTRACIN DE GINI.- Es el coeficiente expresado en porcentaje. Aunque el coeficiente de Gini se utiliza, sobre todo, para medir la desigualdad en los ingresos tambin puede utilizarse para medir la desigualdad en la riqueza. El coeficiente se calcula como el doble del rea encerrada por la Curva de Lorenz y la diagonal. Este ndice se calcula aplicando la siguiente frmula:
n

IG = i=1

( p - q )
i i n

p
i=1

38

Glosario bsico de trminos estadsticos

En donde pi mide el porcentaje de individuos de la muestra que presentan un valor igual o inferior al de xi.
p i = n 1 + n 2 + .......+ n i * 100 n

Mientras que qi se calcula aplicando la siguiente frmula:


i i i n i qi =(x* * 100 n) +(x* n ) +.......... ...... +(x* n )
1 1 2 2

(x* n) +(x n) +.......... . +(x* n) 2*


n

El ndice Gini (IG) puede tomar valores entre 0 y 1: IG = 0 Concentracin mnima. Indica que la muestra est uniformemente repartida a lo largo de todo su rango. Distribucin perfecta equitativa. Concentracin mxima. Indica que un solo individuo acumula el 100% de los resultados. Distribucin perfecta desigual.

IG = 1

NDICE DE MARSHALL-EDGEWORTH.- Indice que se calcula por el mtodo de agregacin ponderada. Utiliza como ponderacin la media aritmtica de las cantidades consumidas en el ao base y en el ao de estudio. (perodo en que se calcula el ndice). Spn (q0 + qn) ndice de Marshall-Edgeworth = Sp0 (q0 + qn) Donde: q0 Representa cantidades del ao base. qn Representa cantidades del ao dado. NDICE DE MASCULINIDAD.- Es un nmero que relaciona el nmero de hombres por cada 100 mujeres, expresado como porcentaje. Es un indicador bsico para el anlisis de la distribucin por sexo de la poblacin. Se expresa como la relacin por cociente entre el nmero de varones y el nmero de mujeres en una poblacin dada o en parte de ella. Se define como:
IM (X) = NH(X) x 100 NF(X)
39

Glosario bsico de trminos estadsticos

donde: IM(X) es el ndice de anlisis correspondiente a la edad X. NH(X) es el total de varones a la edad X. NF(X) es el nmero total de mujeres a la edad X NDICE DE PRECIOS AL CONSUMIDOR (IPC).- Es un indicador econmico que muestra la variacin en los precios de un conjunto de bienes y servicios (canasta familiar) que consume habitualmente un grupo representativo de familias de diversos estratos socio-econmicos de un pas. Esto nos indica qu tanto ms cara o ms barata est la canasta (los bienes y servicios seleccionados) en el periodo actual, en comparacin con el periodo base, expresndolo como un porcentaje. La ponderacin de los bienes y servicios (artculos) que componen la canasta familiar son los pesos relativos medidos en trminos de valores de gasto, con relacin al gasto total de los hogares. Las ponderaciones permanecen fijas hasta un nuevo cambio de base del ndice. NDICE DE ENVEJECIMIENTO.- Es un valor que se obtiene dividiendo el nmero de personas de 60 y ms aos entre el nmero de los menores de 15 aos, multiplicado por 100. El descenso de los niveles de mortalidad y fecundidad a travs del tiempo produce el envejecimiento de la poblacin; esto es, disminuye la proporcin de la poblacin menor de 15 aos y a la vez aumenta la proporcin de adultos mayores, fenmeno que se conoce como envejecimiento de la poblacin. Se expresa como
IV = N(60 y+ )
N(014) x100

donde: IV representa el ndice de envejecimiento o vejez. N(60 y +) representa la poblacin de 60 y ms aos de edad. N(0 -14) representa la poblacin de menores de 15 aos de edad.
40

Glosario bsico de trminos estadsticos

INFERENCIA ESTADSTICA.- Es una parte de la estadstica cuya finalidad es obtener conclusiones respecto a la poblacin a partir de datos observados en muestras. Es el proceso por medio del cual se hacen aseveraciones o estimaciones de un todo, a partir de sus partes o elementos. INTERVALO DE CLASE.- Es el conjunto de datos cuantitativos comprendido entre dos valores. Generalmente se ubican en la primera columna en una tabla de distribucin de frecuencias. Se conoce intervalos abiertos, semiabiertos, cerrados y semicerrados, en funcin a la inclusin de los valores extremos. INTERVALO DE CONFIANZA.- Conocido tambin como lmites de confianza. Es un rango de valores en el cual se encontrara el valor del parmetro, con una probabilidad determinada. Generalmente se construye intervalos de confianza con 95% de probabilidad (Ver parmetro).

L
LMITE INFERIOR.- Es el menor valor de un intervalo de clase. LMITE SUPERIOR.- Es el mayor valor de un intervalo de clase.

M
MARCA DE CLASE.- Es la denominacin que se le da al punto medio de un intervalo en una tabla de frecuencias de datos agrupados. Hay tantas marcas de clase como intervalos tenga la variable. Simblicamente se representa por xi .

41

Glosario bsico de trminos estadsticos

MARCO MUESTRAL.- Es la totalidad de unidades de muestreo de la que se selecciona una muestra. El marco puede ser una lista de personas, o unidades de vivienda, hogares, un archivo de registros, un mapa subdividido, una foto area con detalles, entre muchos otros. MEDIA ARITMTICA PARA DATOS SIMPLES.- Es una medida de tendencia central que denota el promedio de un conjunto de datos. Se calcula dividiendo la suma del conjunto de datos entre el total de ellos. Simblicamente se representa por: X
n

X =

x
i i=1

MEDIA ARITMTICA PARA DATOS AGRUPADOS.- Es una medida de tendencia central. Se calcula multiplicando cada valor de los elementos por el nmero de veces que se repite. La suma de todos estos elementos se divide entre el total de datos:
(X1 * n1)+(X2 *n2)+(X3 *n3)+.....+(Xm1 *nm1)+(Xm * nm)

X =

La media aritmtica de una variable se define como la suma ponderada de los valores de la variable por sus frecuencias relativas. Se denota por X y se calcula mediante la expresin:
m

X =

xi* ni i
=1

xi representa el valor de la marca de clase o punto medio del intervalo. ni representa la frecuencia absoluta N representa el total de datos. MEDIA ARMNICA.- Es un valor que se obtiene como la inversa de la media de las inversas de las observaciones. Se le denota por H.

42

Glosario bsico de trminos estadsticos

Donde: ci representa el valor de la variable o en su caso la marca de clase. ni representa la frecuencia absoluta MEDIA GEOMTRICA.- Es una medida de tendencia central. Dado dos nmeros y1 e y2 , llamaremos media geomtrica (G) de estos nmeros a la raz cuadrada del producto de los mismos. Cuando se tiene N observaciones (ms de dos datos): x1 , x2....xp y cada uno de ellos se repite n1, n2......np veces entonces, generalizando la primera expresin se tiene:

Solo se puede calcular si no hay observaciones negativas o valores cero. Es menos sensible que la media aritmtica a los valores extremos. Su valor es siempre menor o igual que la media aritmtica. Su uso ms frecuente es el de promediar porcentajes, tasas, nmeros ndices, entre otros, es decir en los casos que se supone que la variable presenta variaciones acumulativas. MEDIANA.- Es una medida de tendencia central. Es el valor que divide al conjunto de datos ordenados, en aproximadamente dos partes: 50% de valores son inferiores y otro 50% son superiores. Por ejemplo, si decimos que la mediana de los sueldos de los obreros de una empresa es de 800 soles mensuales, estamos indicando que el 50% gana menos que 800 y el otro 50% gana ms. Simblicamente se representa por Clculo de la mediana para datos no agrupados en intervalos: Tendremos en cuenta el nmero de datos N : Si tenemos N datos y N es impar, hay un trmino central entonces este valor central es la mediana. Si N es par, hay dos trminos centrales, la mediana ser la semisuma de esos dos valores.
43

Glosario bsico de trminos estadsticos

Clculo de la mediana en datos agrupados en intervalos: Si la variable se encuentra representada por intervalos, se calcula mediante la siguiente frmula: ~ (N/2) - Nj-1

X= LI + ------------------ * ci
ni Donde: LI Es el lmite inferior de la clase mediana. Nj-1 Es la frecuencia absoluta acumulada anterior o igual a la frecuencia de la clase mediana. ni Frecuencia de la clase mediana N Total de datos. ci Es la amplitud del intervalo de la clase mediana. MEDIDA DE ASOCIACIN.- Es un valor o medida que indica cunto varan conjuntamente dos o ms variables. (Ver coeficiente de correlacin). MEDIDAS DE ASIMETRA.- Son aquellas orientadas a elaborar un indicador para establecer el grado de simetra (o asimetra) que presenta la distribucin, sin necesidad de una representacin grfica. Se mide con el coeficiente de Fisher y el de Pearson. (Ver coefiente de asimetra). MEDIDAS DE DISPERSIN.- Son aquellas medidas de resumen que, de acuerdo a algn criterio, reflejan la heterogeneidad de las observaciones. Dan una idea sobre la representatividad de las medidas de tendencia central, a mayor dispersin menor representatividad. Entre ellas: desviacin media, varianza, desviacin tpica, coeficiente de variacin, entre otros. MEDIDAS DE FORMA.- Permiten conocer que forma tiene la curva que representa la serie de datos. Entre estas medidas tenemos las de concentracin, asimetra y curtosis. (Ver ndice de concentracin de Gini, coeficiente de asimetra y coeficiente de curtosis). MEDIDAS DE POSICIN.- Resumen caractersticas generales de la ubicacin de la distribucin de los datos dentro de un conjunto de valores posibles. Estas pueden ser de tendencia central y no central.
44

Glosario bsico de trminos estadsticos

MEDIDAS DE POSICIN DE TENDENCIA CENTRAL.- Son medidas de resumen que, de acuerdo a algn criterio, indican un valor alrededor del cual se distribuyen las observaciones. Se tiene a: la media, mediana y moda, media geomtrica y media armnica. MEDIDAS DE POSICIN DE TENDENCIA NO CENTRALES.Conocido tambin como medidas de localizacin. Son aquellos valores que permiten conocer otros puntos caractersticos de la distribucin que no son los valores centrales. Son valores de la distribucin que la dividen en partes iguales, es decir en intervalos que comprenden el mismo nmero de datos como los cuartiles, deciles y percentiles. MTODO DE MNIMOS CUADRADOS.- Es un mtodo utilizado para determinar los parmetros de una ecuacin de regresin que mejor se ajuste al conjunto de puntos. El mtodo consiste en minimizar la suma de las diferencias de los valores observados y estimados al cuadrado. Cuando se utiliza este mtodo en regresin, la funcin ecuacin se llama ecuacin de regresin mnimo cuadrtica. MODA.- Es una medida de tendencia central es el valor de la variable que tiene mayor frecuencia absoluta, la que ms se repite es la nica medida de centralizacin que tiene sentido estudiar en una variable cualitativa, pues no precisa la realizacin de ningn clculo. Por su propia definicin, la moda no es nica, pues puede haber dos o ms valores de la variable que tengan la misma frecuencia siendo esta mxima. Entonces tendremos una distribucin bimodal o polimodal segn el caso. Considerando distribuciones unimodales, el clculo de la moda (Mo) para datos agrupados en intervalos se obtiene mediante la frmula: nj - nj-1 Mo = LI + ------------------------ * ci (nj - nj-1) + (nj - nj+1) Donde: LI Es el lmite inferior de la clase modal. nj - nj-1 Es la diferencia de la frecuencia absoluta de la clase modal menos la frecuencia del intervalo anterior.
45

Glosario bsico de trminos estadsticos

nj - nj+1 ci

Es la diferencia de la frecuencia absoluta de la clase modal menos la frecuencia del intervalo posterior Es la amplitud del intervalo.

Clase modal es el intervalo que tiene mayor frecuencia o frecuencia relativa. MUESTRA.- Es un subconjunto representantivo de la poblacin a partir del cual se pretende realizar inferencias respecto a la poblacin de donde procede. Los elementos seleccionados con cierta tcnica rene ciertas caractersticas que la hacen ser representativa, significativa y confiable y que en base a ella se pueden hacer inferencias respecto a la poblacin. La muestra puede ser probabilstica y no probabilstica. MUESTRA NO PROBABILSTICA.- Es aquella que se obtiene mediante juicio de la persona que selecciona los elementos de la muestra que usualmente es un experto en la materia. Este mtodo est basado en los puntos de vista subjetivos de una persona y la teora de la probabilidad no puede ser empleada para medir el error de muestreo. Las principales ventajas de una muestra de juicio son la facilidad de obtenerla y que el costo usualmente es bajo. MUESTRA PROBABILSTICA.- Es aquella muestra obtenida por un mecanismo de probabilidades, en el cual cada elemento de la poblacin total o universo tiene una probabilidad conocida de seleccin. (Ver muestreo aleatorio). MUESTREO.- Es un conjunto de mtodos y procedimientos estadsticos destinados a la seleccin de una o mas muestras es la tcnica seguida para elegir muestras. El objetivo principal de un diseo de muestreo es proporcionar procedimientos para la seleccin de muestras que sean representativas de la poblacin en estudio. MUESTREO ALETORIO SIMPLE.- Tambin llamado irrestrictamente aleatorio. Es un mtodo de muestreo donde una muestra aleatoria simple es seleccionada de tal manera que cada muestra posible del mismo tamao tiene igual probabilidad de ser seleccionada de la poblacin. Una muestra
46

Glosario bsico de trminos estadsticos

aleatoria es tambin llamada una muestra probabilstica es aquella cuyos elementos se seleccionan individualmente de la poblacin en forma aleatoria, y es preferida por los estadsticos porque la seleccin de las muestras es objetiva y el error muestral puede ser medido en trminos de probabilidad bajo la curva normal. Por conveniencia, este mtodo puede ser reemplazado por una tabla de nmeros aleatorios cuando una poblacin es infinita. Se aplica cuando los datos son casi homogneos. Una variante del muestreo aleatorio simple es el muestreo aleatorio sistemtico. Otros tipos ms comunes de muestreo aleatorio son: muestreo aleatorio estratificado y muestreo por conglomerados. MUESTREO SISTEMTICO.- Es una variante del mtodo aleatorio simple de seleccin de cada elemento de la muestra. Se aplica cuando la poblacin est listada en algn orden. Consiste en seleccionar un nmero aleatorio menor que N/n y luego los (n-1) elementos de la muestra se eligen agregando al primer aleatorio: el entero K obtenido por K=N/n y as sucesivamente. El primer elemento de la muestra es seleccionado al azar. Por lo tanto, una muestra sistemtica puede dar la misma precisin de estimacin acerca de la poblacin que una muestra aleatoria simple cuando los elementos en la poblacin estn ordenados al azar. MUESTREO ESTRATIFICADO ALEATORIO.- Es un mtodo de muestreo que se aplica cuando se divide la poblacin en grupos, llamados estratos, donde los datos son ms homogneos pero un estrato frente al otro muy distintos. Para extraer la muestra aleatoria se aplica el muestreo aleatorio simple a cada estrato y el tamao es la suma de los tamaos de todos los estratos. Para determinar los tamaos de los estratos se puede utilizar la asignacin proporcional, ptima y ptima econmica. Si no se conoce la variabilidad de los datos se aplica la asignacin proporcional. MUESTREO POR CONGLOMERADOS.- Es un mtodo de muestreo en el cual la poblacin est en grupos debido a la organizacin administrativa u otro (conglomerados). Ejemplo: Colegios, Universidades, manzanas de casas, entre otros. Al interior de los conglomerados no se puede garantizar homogeneidad. Cada conglomerado es una unidad donde la muestra se selecciona como en el muestreo aleatorio simple y se
47

Glosario bsico de trminos estadsticos

aplica la encuesta a todos los elementos del conglomerado. Una muestra de conglomerados, usualmente produce un mayor error muestral (por lo tanto, se obtiene menor precisin de las estimaciones acerca de la poblacin) que una muestra aleatoria simple del mismo tamao. Los elementos individuales dentro de cada "conglomerado" tienden frecuentemente a ser iguales. MUESTREO CON REPOSICIN.- Es el mtodo para obtener una muestra con reposicin. Esta muestra consiste en que al seleccionar un segundo elemento, el primero debe haber sido devuelto a la poblacin. De este modo un elemento puede repetirse en la muestra. Es decir, con este mtodo una unidad en particular puede quedar incluida ms de una vez en la muestra, pudiendo ser hasta "n veces". El universo o poblacin se mantiene permanentemente con un tamao N. MUESTREO SIN REPOSICIN.- Es el procedimiento para seleccionar cada elemento de la poblacin ste no se repone o considera de nuevo en la poblacin, por lo que no puede ser seleccionado nuevamente. En este caso el tamao de la poblacin o universo se ir reduciendo en cada seleccin N-1, N-2, N-3,...,etc. unidades de muestreo hasta N - n elementos.

N
NIVEL DE SIGNIFICACIN.- Se define como la probabilidad de rechazar la hiptesis nula cuando sta es verdadera. Se le conoce tambin con el nombre de error de tipo 1, simblicamente se denota por a . NMERO NDICE.- Es aquella medida estadstica que permite estudiar los cambios que se producen en una magnitud simple o compleja con respecto al tiempo o al espacio; es decir, se va a comparar dos situaciones, una de las cuales se considera de referencia, llamado tambin perodo base. Los nmeros ndices pueden ser simples y complejos. Estos ndices pueden ser de precios, cantidades y valor (Ver ndice).

48

Glosario bsico de trminos estadsticos

O
OJIVA.- Es un grfico acumulativo de frecuencias o frecuencias relativas. Existen las ojivas mayor que y menor que.
12 0 10 0 Frecuencias acumuladas 80 60 40 2 0

Ojiva menor que

46

10

1214

P
PARMETRO.- Es cualquier valor caracterstico de la poblacin. Ejemplo: la media de la poblacin, la desviacin tpica de la poblacin. Sin embargo estos valores son desconocidos porque no siempre podemos tener todos los datos de la poblacin para calcularlos. PERMUTACIONES.- Son las distintas disposiciones de los elementos en que se pueden ordenar los objetos. El nmero de permutaciones de n objetos se obtiene como el factorial de n! Permutaciones de n objetos =n! Pero generalmente interesa conocer el nmero de subgrupos de r elementos que se puede tomar del total de n objetos, se obtiene con la siguiente frmula:

P r =

Donde:

n ! (n- r) !
49

Glosario bsico de trminos estadsticos

n! r

Representa el factorial de n. El nmero de elementos de cada subgrupo.

PERCENTIL.- Es el valor que resulta de dividir el conjunto de datos en 100 partes iguales. Cada parte representa al 1% del total, se pueden calcular los 99 percentiles mediante la frmula:

Pr= Li

(rN/100 )- Ni-1 *c
n i

r=1,2,3,..........99

Donde: r Es el nmero del percentil que se desea calcular Li Lmite inferior de la clase percentlica N Total de datos ni Frecuencia absoluta de la clase percentlica Ni-1 Frecuencia absoluta acumulada anterior o igual a la clase percentlica c Amplitud o tamao del intervalo PERIODO DE REFERENCIA DE UNA ENCUESTA.- Es el lapso o espacio de tiempo durante el cual se levanta la informacin de la encuesta y la referencia cronolgica respecto a la cual es vlida la informacin inherente a ella. PICTOGRAMAS.- Son grficos vistosos, similares a los grficos de barras, pero empleando un dibujo alusivo al tema que representa, en una determinada escala para expresar la unidad de medida de los datos.

Cursos

N de das
50

Glosario bsico de trminos estadsticos

PIRMIDE DE POBLACIN.- Es la representacin grfica de la estructura por sexo y edad de una poblacin en un instante temporal determinado. La pirmide de poblacin consta de dos histogramas horizontales: usualmente el del lado izquierdo representa la distribucin por edad de los hombres y el derecho el de las mujeres. Cada barra horizontal representa la proporcin de poblacin de un determinado sexo y rango de edad. En el eje de abscisas se representa los efectivos de poblacin, normalmente en porcentajes, y en el eje de ordenadas las edades.
2003
80yms 7074 6064 5054 4044 3034 2024 1014 04

Miles de Personas

POBLACIN FINITA.- Es aquella en la que es posible enumerar (contar) fsicamente los elementos que pertenecen a la poblacin. POBLACIN INFINITA.- Es aquella en la que no es posible enumerar (contar) fsicamente los elementos que pertenecen a la poblacin. Dicho de otra manera, cuando los elementos de la poblacin son ilimitados. POBLACIN O UNIVERSO.- Es cualquier conjunto de unidades o elementos claramente definido, en el espacio y el tiempo, donde los elementos pueden ser personas, granjas, hogares, manzanas, condados, escuelas, hospitales, empresas, y cualquier otro. Las poblaciones pueden ser finitas e infinitas. POBLACIN OBJETIVO.- Es el conjunto de elementos de los que nos interesa obtener informacin o tomar decisiones.
51

Glosario bsico de trminos estadsticos

POLGONO DE FRECUENCIAS ACUMULADAS.- Es un grfico utilizado para representar una distribucin de frecuencias acumuladas de una variable numrica. Se conoce tambin como ojiva. (Ver ojiva). POLGONO DE FRECUENCIAS.- Es un grfico utilizado para representar una distribucin de frecuencias de una variable numrica, teniendo en cuenta su marca de clase. Histograma Polgono de frecuencias

PRECISIN.- La precisin de una variable es la inversa de su variabilidad, es decir: Precisin = 1/variabilidad. PROBABILIDAD.- Es un nmero que se le asigna a un suceso como una medida de su incertidumbre. Este nmero puede tomar valores entre cero y uno inclusive. Cuando los sucesos son equiprobables, es decir todos tienen la misma probabilidad para calcularla, se utiliza la Regla de Laplace. Sea un suceso A, entonces: P(A) = Casos favorables / casos posibles El experimento aleatorio debe cumplir dos requisitos: a) El nmero de resultados posibles (sucesos) debe ser finito. b) Todos los sucesos deben tener la misma probabilidad. A la regla de Laplace tambin se le denomina "probabilidad a priori",
52

Glosario bsico de trminos estadsticos

ya que para aplicarla hay que conocer antes de realizar el experimento cules son los posibles resultados y saber que todos tienen las mismas probabilidades. PROBABILIDAD DE SELECCIN.- Es la oportunidad que tiene cada elemento de la poblacin o universo de ser incluida en una muestra. PROBABILIDAD PROPORCIONAL AL TAMAO.- Es un mtodo de seleccin de muestreo en el que las unidades se eligen con probabilidad de seleccin desigual, siendo la probabilidad para cada unidad proporcional a una medida de tamao. La medida de tamao para cada unidad es un nmero asignado antes de la seleccin de esa unidad, que se supone altamente correlacionada con el estadgrafo a estimar. Usualmente la probabilidad proporcional al tamao se abrevia como PPT. PROMEDIO.- Es cualquier medida de posicin de tendencia central. Cuando se obtenie sumando los datos y diviendo entre el nmero de ellos, se conoce como promedio simple. PROMEDIO PONDERADO.- Es un nmero conocido tambin como media aritmtica ponderada. Es el promedio de datos a los que se les asigna distinta importancia llamada ponderacin. PRUEBA DE HIPTESIS.- Es una tcnica que permite rechazar o aceptar la hiptesis en base de la informacin proporcionada por la muestra. (Ver contraste de hiptesis). PRUEBA JI-CUADRADO.- Es una prueba que permite contrastar si la hiptesis H0 es coherente con los datos obtenidos en la muestra. Se le denota c2 . Puede utilizar para: 1. 2. 3. Bondad de un ajuste. Criterio de independencia. Criterio de homogeneidad.

Una forma de comparar las Ox con las

ex es calculando el valor de c2
53

Glosario bsico de trminos estadsticos

Donde: Ox Es el valor observado Es el valor esperado x

PUNTO MUESTRAL.- El conjunto de todos los resultados posibles de un experimento aleatorio se le denomina espacio muestral. Un punto de este conjunto es un punto muestral.

Q
QUINTIL.- Es un fractil se obtienen dividiendo al conjunto de datos en cinco partes iguales cada parte representa el 20% del total. Se pueden calcular 4 quintiles.

R
RANGO.- Conocido tambin como recorrido, es un nmero que mide la amplitud de los valores de un conjunto de datos y se calcula por diferencia entre el valor mayor y el valor menor. Lo notaremos como R. No constituye una medida muy significativa en la mayora de los casos, pero es muy fcil de calcular.

R = Xmayor - Xmenor
RAZN.- Es la relacin entre dos categoras o partes. Seala el tamao de una parte con respecto a otra que se toma como unidad. RECORRIDO INTERCUARTLICO.- Es una medida de dispersin. Su valor se obtiene como la diferencia del tercer cuartil (Q3) menos el primer cuartil (Q1), definido por la expresin: R1 = Q3 - Q1 REDONDEO.- Es el procedimiento para expresar un nmero de acuerdo a una precisin establecida.
54

Glosario bsico de trminos estadsticos

REGIN DE ACEPTACIN.- Es la regin formada por el conjunto de valores con los cuales decidimos aceptar la hiptesis nula. REGIN DE RECHAZO.- Conocida tambin como regin crtica, est formada por el conjunto de valores con los cuales se rechaza la hiptesis nula. REGRESIN.- Es una tcnia de anlisis para poner de manifiesto la estructura de dependencia que mejor explique el comportamiento de la variable dependiente o explicada (y) a travs de un conjunto de variables independientes o explicativas (x1 ,x 2 ....xp ), con las que se supone est relacionada. El mtodo ms utilizado es el de los mnimos cuadrados. La ecuacin a ajustar puede ser lineal o no lineal. En ambos casos el objetivo es el mismo: encontrar las mejores estimaciones de los parmetros y cuantificar la precisin de los mismos.

REGRESIN LINEAL.- La regresin ser lineal cuando la curva obtenida o seleccionada sea una recta. Es la recta que mejor se ajusta a los datos. Se obtiene mediante el mtodo de mnimos cuadrados. Para ello se debe calcular primero el coeficiente de correlacin lineal que permite determinar, si efectivamente, existe relacin entre las dos variables. Una vez encontada la relacin, la regresin permite definir la recta que mejor se ajusta a la nube de puntos (grfico de pares ordenados). Una recta viene definida por la siguiente frmula: Y = a + bX Donde "Y" sera la variable dependiente, es decir, aquella que viene definida a partir de la otra variable "X" (variable independiente). Para definir la recta hay que determinar los valores de los parmetros "a" y "b":

55

Glosario bsico de trminos estadsticos

REGRESINLINEAL

El parmetro "b" determina la pendiente de la recta, es decir su grado de inclinacin.

El parmetro "a" es el valor que toma la variable dependiente "Y", cuando la variable independiente "X" vale 0, y es el punto donde la recta cruza el eje vertical.

)- Al RELACIN ENTRE LA MEDIA (X ), MEDIANA (X) Y MODA (X comparar los valores de la media mediana y moda puede ocurrir:

~ 1.- X = X = X ~ 2.- X X X

La curva es simtrica La curva es asimtrica asimetra hacia la izquierda o negativa asimetra hacia la derecha o positiva

~ a) X < X < X

~ < X b) X < X

56

Glosario bsico de trminos estadsticos

S
SERIES TEMPORALES.- Conocida tambin como serie cronolgica. Es la sucesin de observaciones cuantitativas ordenadas en el tiempo de un fenmeno. Los datos tienen un orden que no es posible variar. La informacin puede ser mensual, trimestral, anual o de cualquier otro intervalo temporal. SESGO.- Se denomina as a la asimetra que presenta una distribucin de frecuencias. Puede ser sesgo negativo o a la izquierda y sesgo positivo o a la derecha. SUCESO CIERTO.- Se conoce tambin como suceso seguro. Es aquel suceso que siempre se realiza. Estar formado por todos los resultados posibles del experimento; es decir, coincide con el espacio muestral. SUCESO IMPOSIBLE.- Es aquel suceso que no se realiza nunca. Se designa por un . SUCESOS COMPUESTOS.- Se llama sucesos compuestos, a los sucesos formados por dos o ms puntos muestrales; es decir, por ms de un resultado del experimento. SUCESOS CONTRARIOS.- Dado un suceso cualquiera A del espacio de sucesos S, se llama suceso contrario del suceso A a un suceso que se realiza cuando no se realiza A, y recprocamente.
57

Glosario bsico de trminos estadsticos

Por tanto los sucesos A y A son contrarios, ya que si se realiza A no se realiza A y si se realiza A no se realiza A. SUCESOS ELEMENTALES.- Conocido tambin como sucesos aleatorios, son los sucesos formados por un solo punto muestral; es decir, por un solo resultado del experimento aleatorio.

T
TABLA DE CONTINGENCIA.- Es una tabla de doble entrada. Se representa genricamente como (xi; yj ; nij). (Ver distribucin bidimensional). TABLA DE DATOS AGRUPADOS.- Es un arreglo matricial que contiene el nmero de veces (frecuencia) que aparece un dato, de acuerdo a las clases de inters especificadas (puede ser intervalos). (Ver distribucin unidimensional) TASA.- Es la relacin del nmero de casos, frecuencias o eventos de una categora entre el nmero total de observaciones, multiplicada por un mltiplo de 10, generalmente 100 1000. La frmula es:

Tasa =

Nmerodeeventosduranteunperodo t 1000 Nmero totalobservacionesenelperodo t

TASA BRUTA DE MORTALIDAD.- Es un nmero que expresa la frecuencia de muertes en una poblacin en un perodo de tiempo, por lo general un ao calendario. La tasa bruta de mortalidad se calcula dividiendo el nmero de defunciones ocurridas en un perodo de tiempo determinado entre la poblacin donde ocurren estas defunciones, generalmente expresadas por 1000 habitantes. Se define como:

58

Glosario bsico de trminos estadsticos

mZ =
donde: mZ DZ N30-VI-Z

DZ x 1,000 N30VIZ

representa la tasa bruta de mortalidad para el ao "z". representa las defunciones ocurridas durante el ao "z". representa la poblacin al 30 de junio del ao "z", o poblacin media.

TASA DE ANALFABETISMO.- Es un valor que se obtiene como la relacin del nmero de analfabetos (personas que no saben leer ni escribir) de 15 y ms aos de edad en el ao z dividido entre la poblacin total de 15 y ms aos de edad en el ao "z". Se calcula como sigue:

TAZ =
Donde:
TAZ NA(15y+) N(Z 15y+)
Z

Z NA (15 y+ ) x 100 Z N( 15y+ )

representa la tasa de analfabetismo en el ao "z". representa la poblacin de analfabetos de 15 y ms aos de edad en el ao "z". representa la poblacin total de 15 y ms aos de edad en el ao "z".

TASA DE ESCOLARIZACIN POR EDAD.- Es un nmero que se obtiene como la relacin del nmero de matriculados de la edad "x" en el ao "z" entre la poblacin total de la edad "x" en el ao "z" . Se calcula del modo siguiente:
Z TE x = Z Mx x100 Z Nx

Donde:
Z TEx Z Mx Z N x

representa la tasa de escolarizacin por edad "x" en el ao "z". representa el nmero de matriculados de edad "x" en el ao "z". representa la poblacin total de edad "x" en el ao "z".

59

Glosario bsico de trminos estadsticos

TASA DE INFLACIN.- Es un indicador del aumento en los precios de los bienes y servicios, referidos a un periodo de tiempo. Ms utilizado para medir la inflacin es el ndice de precios al consumidor IPC ao actual - IPC ao base T de I = ---------------------------------------------- x 100 IPC ao base

TASA DE LETALIDAD.- Es un nmero que se define como la proporcin de personas que mueren por causa de una enfermedad determinada entre el total de quienes contrajeron la enfermedad.
c

tlZ = c

DZ x 1000 EZ

Donde:
c

tlZ
DZ EZ

representa la tasa de letalidad del perodo "z" debido a la causa "c". representa las defunciones del perodo "z" debido a la causa "c". representa las personas que contrajeron la enfermedad "c" en el perodo "z".

TASA DE MASCULINIDAD.- Es un nmero que expresa la proporcin de varones en la poblacin total o en una parte de ella. Se usa para estudiar la distribucin por sexo en la poblacin. Se expresa:

TM( X)=

NH(X) x k NH(X)+ NF(X)

Donde: TM(X) representa la tasa de masculinidad de la poblacin de edad X. NH(X) representa el nmero total de varones de edad X. NF(X) representa el nmero total de mujeres de edad X. k representa una constante, generalmente 100.
60

Glosario bsico de trminos estadsticos

TASA DE MORTALIDAD INFANTIL.- Es un nmero que expresa la mortalidad de nios menores de un ao y se obtiene dividiendo las defunciones infantiles (menores de un ao) ocurridas en un ao calendario entre el nmero de nacidos vivos ocurridos en el transcurso del mismo ao, multiplicado por mil.

TMlz =

Dz 100 Bz

Donde: TMIz representa la tasa de mortalidad infantil en el ao "z" Dz representa las defunciones de menores de un ao ocurridas en el ao "z" Z B representa el nmero de nacidos vivos del ao "z". TASA DE MORTALIDAD MATERNA.- Es un valor que representa las defunciones de las mujeres durante el embarazo o dentro de los 42 das de su trmino (embarazo, parto, puerperio). La tasa de mortalidad materna se obtiene dividiendo el nmero de muertes maternas ocurridas en un ao, entre el nmero promedio de mujeres en edad frtil para ese ao, multiplicado por 100,000.
MMZ x100,000 MEF30VIZ

TMMZ =
Donde: TMM Z MM Z MEF30-VI-Z

representa la tasa de mortalidad materna del ao "z". representa las muertes por causa materna ocurridas en el ao "z". representa el nmero promedio de mujeres en edad frtil en el ao "z".

TASA DE MORTALIDAD POR CAUSAS.- Es un nmero que representa la mortalidad por causas y se calcula dividiendo el nmero de defunciones debidas a cierta causa o grupo de causas entre la poblacin total, multiplicado por 100,000.

61

Glosario bsico de trminos estadsticos


c c

m Z =

DZ

N30-VI- Z

x 100,000

Donde: c Z m representa la tasa de mortalidad por la causa "c" en el ao "z".


c

D Z
30-VI-Z

representa el nmero de muertes debidas a la causa "c" en el ao "z".


representa la poblacin al 30 de junio del ao "z", o poblacin media.

TENDENCIA.- Es un componente del anlisis clsico de series temporales. Refleja el movimiento de la serie en el largo plazo (crecimiento, decrecimiento o estancamiento). Es necesario un nmero suficientemente grande de observaciones para determinar una tendencia.

U
UNIDAD DE MUESTREO.- Es la unidad estadstica que se selecciona para constituir la muestra. La eleccin de la unidad de muestreo ms eficiente es una consideracin importante en el diseo de una muestra. UNIDAD ESTADSTICA.- Conocido tambin como unidad elemental. Es el elemento o unidad base de la poblacin o de la muestra que permite obtener informacin o datos referidos a ciertas caractersticas o variables, que nos interesan para explicar un determinado fenmeno.
62

Glosario bsico de trminos estadsticos

V
VARIABLE.- Es una caracterstica de la poblacin o de la muestra cuya medida puede cambiar de valor. Se representa simblicamente mediante las letras del alfabeto. Segn su naturaleza puede ser cualitativa y cuantitativa. VARIABLE ALEATORIA.- Conocida tambin como variable estocstica o probabilstica. Es la caracterstica considerada en un experimento aleatorio cuyo valor de ocurrencia slo puede saberse con exactitud una vez observado. VARIABLE BIDIMENSIONAL.- Es aquella que proporciona informacin sobre dos caractersticas de la poblacin (por ejemplo: edad y altura de los alumnos de una clase). (Ver distribucin bidimensional). VARIABLE CONTINUA.- Es una variable cuantitativa. Es la caracterstica de la poblacin, cuyos valores estn representados mediante el conjunto de los nmeros reales. Puede tomar cualquier valor real dentro de un intervalo. Por ejemplo, la velocidad de un vehculo puede ser 80,3 km/h, 94,57 km/h. VARIABLE CUALITATIVA.- Es aquella que representa cualidades, atributos o caractersticas no numricas y estas pueden ser nominales y ordinales. (Ver dato cualitativo). VARIABLE CUANTITATIVA.- Es aquella caracterstica de la poblacin o de la muestra que es posible representar numricamente. stas pueden ser continua y discreta. (Ver dato cuantitativo). VARIABLE DETERMINSTICA.- Es aquella cuyo valor puede ser predicho con exactitud. VARIABLE DISCRETA.- Es una variable cuantitativa. Es la caracterstica de la poblacin, cuyos valores estn representados mediante el conjunto de los nmeros naturales. Por ejemplo, el nmero de alumnos de un aula.

63

Glosario bsico de trminos estadsticos

VARIABLE NOMINAL.- Es una variable cualitativa la cual slo permite asignar nombres a los datos y no implica ningn orden. Ej. el idioma de los habitantes de la tierra. VARIABLE ORDINAL.- Es una variable cualitativa cuyos valores solamente pueden ser ordenados con algn criterio. VARIABLE PLURIDIMENSIONAL.- Es aquella que proporciona informacin sobre tres o ms caractersticas (por ejemplo: edad, altura y peso de los alumnos de una clase). VARIABLE UNIDIMENSIONAL.- Es aquella que proporciona informacin sobre una sola caracterstica (por ejemplo: edad de los alumnos de una clase). (Ver distribucin unidimensional). VARIACIONES IRREGULARES.- Conocido como variacin de aleatoriedad. Es un comportamiento irregular que est compuesto por fluctuaciones causadas por sucesos impredecibles o no peridicos, movimientos de muy corto plazo, sin un carcter peridico reconocible, ocasionados por fenmenos singulares o fortuitos que producen efectos casuales y no permanentes como el clima poco usual, huelgas, guerras, rumores, elecciones, cambio de leyes, entre otros.

64

Glosario bsico de trminos estadsticos

VARIACIONES O FLUCTUACIONES CCLICAS.- Se conoce tambin como ciclos o ciclicidad. Es un conjunto de fluctuaciones en forma de onda o ciclos, de ms de un ao de duracin, producidas por cambios en las condiciones econmicas. Refleja movimientos de la serie a medio plazo producidos con un perodo superior al ao, debido a alternancias de prosperidad y de depresin en la actividad econmica. Se suelen superponer distintos ciclos, siendo muy difciles de aislar.

VARIACIONES O FLUCTUACIONES ESTACIONALES.- Son oscilaciones a corto plazo producidas en un perodo inferior al ao (mes, trimestre) y que se repiten de forma reconocible dentro de cada periodo de 12 meses, ao tras ao. Se deben a factores climatolgicos, biolgicos, institucionales, culturales, de tradicin y otros.

65

Glosario bsico de trminos estadsticos

VARIANZA.- Conocida tambin como variancia, es una medida de dispersin de la informacin. Se obtiene como el promedio de los cuadrados de las desviaciones de los valores de la variable respecto de su media aritmtica. Frmula para datos simples.

S2 =

(xi-X)
2

Frmula para datos agrupados

S2 =

(xi-X)*ni
2

Mide la distancia existente entre los valores de la serie y la media. La varianza siempre ser mayor que cero. Mientras ms se aproxima a cero, ms concentrados estn los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, ms dispersos estn los datos. Este estadstico tiene el inconveniente de ser poco significativo, pues se mide en el cuadrado de la unidad de la variable. Por ejemplo, si la variable viene dada en cm, la varianza vendr en cm2.

66

Glosario bsico de trminos estadsticos

BIBLIOGRAFIA

BERENSON, Mark. ESTADSTICA BASICA EN ADMINISTRACIN. (1992). New York: Prentice Hall. MAZA, Domingo. TRATADO MODERNO DE ECONOMA. (1992). Caracas: Panapo. MURRAY, Spiguel. PROBABILIDADES Y ESTADSTICA. (1997). Madrid: Mc Graw Hill. ROS, Sixto. ANLISIS ESTADSTICO APLICADO. (1972). Madrid: Paraninfo. SALINAS O., Jos. ANLISIS ESTADSTICO PARA LA TOMA DE DECISIONES EN ADMINISTRACIN Y ECONOMA. 1998. Universidad del Pacfico. Lima-Per. Nmeros ndices . Pg. 361-376. SERRANO RODRGUEZ, Javier. INTRODUCCIN A LA ESTADSTICA. Ed universitaria de Amrica LIDA, Bogot, Colombia. Pg. 30-49 SIERRA BRAVO. R. DICCIONARIO PRCTICO DE ESTADSTICA, Ed Paraninfo S.A. Madrid. Espaa, Pg. 56-57, 177-187, 427-432. YA-LUN, Chou. ANLISIS ESTADSTICO. (1980). Tokio: Mc Graw Hill. PAGINAS WEB http://www.bioestadistica.uma.es/libro/ Universidad de Mlaga http://www.estadistico.com/dic.html http://www.fvet.edu.uy/estadis/diagrth http://www.fvet.edu.uy/estadis/glosario.htm http://www.uhu.es/89009/ficheros_datos/ Universidad de Huelva de Andaluca
67

Glosario bsico de trminos estadsticos Doctor ALEJANDRO TOLEDO MANRIQUE Presidente Constitucional de la Repblica PRESIDENCIA DEL CONSEJO DE MINISTROS Doctor PEDRO PABLO KUCZYNSKI Presidente Seor FARID MATUK Jefe Seor FRANCISCO COSTA APONTE Sub-Jefe de Estadstica Seora LUPE BERROCAL DE MONTESTRUQUE Directora Tcnica del Centro de Investigacin y Desarrollo LEY DE ORGANIZACION Y FUNCIONES DEL INSTITUTO NACIONAL DE ESTADISTICA E INFORMATICA DECRETO LEGISLATIVO N 604
Artculo 1 Los Sistemas Nacionales de Estadstica e Informtica tienen por finalidad asegurar, en los respectivos campos, que sus actividades se desarrollen en forma integrada, coordinada y racionalizada y bajo una normatividad tcnica comn, contando para ello con autonoma tcnica y gestin. Son objetivos de los Sistemas Nacionales de Estadstica e Informtica: a. Normar las actividades de estadstica e informtica oficial. b. Coordinar, integrar y racionalizar las actividades de Estadsticas e Informtica y c. Promover la capacitacin, investigacin y desarrollo de las actividades de Estadstica e Informtica. Artculo 3 Los mbitos de competencia de los Sistemas Nacionales de Estadstica e Informtica son: a. Del Sistema Nacional de Estadstica Los levantamientos censales, estadsticas contnuas, las encuestas por muestreo, las estadsticas de poblacin, los indicadores e ndices en general, las cuentas nacionales y regionales, los esquemas macroestadsticos, anlisis e investigacin. Corresponde a ste las tareas tcnicas y cientficas que se desarrollan con fines de cuantificar y proyectar los hechos econmicos y sociales para producir las estadsticas oficiales del pas.

INSTITUTO NACIONAL DE ESTADISTICA E INFORMATICA

Artculo 2

68