Você está na página 1de 20

Denicin 1 Poblacin es cualquier conjunto de datos, objetivo de nuestro inters que caracteriza o o e un fenmeno que nos interesa.

o Denicin 2 Muestra es un subconjunto de una poblacin determinada. Interesan aquellas muestras o o que representan elmente a la poblacin. o En ocasiones se utilizan las palabras poblacin y muestra para representar los objetos que se o someten a medicin. o Denicin 3 La Estad o stica Descriptiva es la rama de la Estad stica dedicada a la recogida, recopilacin o y reduccin de unos datos a unas pocas medidas descriptivas y grcos, permitiendo conocer las o a caracter sticas existentes en la poblacin o conjunto de datos. o Denicin 4 La Inferencia Estad o stica tiene por objeto obtener conocimientos sobre ciertas poblaciones a partir de las observaciones relativas a una muestra. Su instrumento matemtico es el Clculo de a a Probabilidades.

Variables estad sticas.


ww w.

Se va a trabajar con conjuntos de datos asociados al carcter o caracter a stica objeto de estudio, que denominaremos variable estad stica y se representar por una letra mayscula: X, Y, Z,. . . A partir a u de ahora nos referiremos a los conjuntos de datos como variables. Como en esta parte se va a tratar de describir y analizar estas variables, debemos distinguir los distintos tipos de variables que hay, lo cual nos va a permitir utilizar las herramientas estad sticas apropiadas.

1.1

Tipos de variables.

Las variables estad sticas pueden ser de dos tipos: 1. Variables cualitativas o atributos: describen cualidades y no toman valores numricos. Ejemplos: e Provincias espa olas, pa de la U. E., nivel de estudios, meses del a o, clasicar una pieza n ses n como aceptable o defectuosa, . . . 2. Variables cuantitativas: toman valores numricos. e A su vez pueden ser:

at

em at

ic a

1.c

om

Discretas: Slo toman un n mero nito o innito numerable de valores distintos (generalmente o u n meros naturales o enteros). Ejemplos: n mero de compras de un producto en un mes, u u el a o de fabricacin de un veh n o culo, nmero de entradas de cine vendidas en un intervalo u de tiempo, resultado de lanzar un dado, nmero de hijos,. . . u Continuas: Toman valores en un intervalo de IR. Generalmente corresponden a medir magnitudes continuas, por ejemplo, peso, altura, temperatura, intensidad de corriente, el tiempo entre dos llamadas telefnicas, el tiempo de servicio o de operacin de una o o mquina, etc. Una caracter a stica esencial de este tipo de variables es que sus valores nunca son observables con exactitud, sino que dependen (las observaciones) de la precisin del o instrumento de medida. Se va a suponer que el orden en que se recogen los datos es irrelevante. Cuando los datos se observan con una pauta ja (cada hora, semana, etc.), constituyen una serie temporal, y su anlisis a requiere otras tcnicas especiales, que tengan en cuenta que el orden de los datos inuye. e A los distintos resultados que pueden presentar las variables estad sticas los denominaremos modalidades. Ejemplo: Si la caracter stica es el gusto, puede presentar cuatro modalidades: dulce, amargo, salado y acido. Si es el sexo: hombre y mujer.

1.2

Presentacin de datos. o

at

La forma ms elemental de presentar los datos es por medio de una matriz en la que aparecen en a la primera columna los individuos, representados de alguna forma (en muchas ocasiones se suele prescindir de esta columna) y en las restantes columnas las observaciones de las distintas variables (o caracter sticas) en estudio para cada uno de los individuos. Se la conoce como matriz de datos. (Presentacin t o pica de hoja de cculo) a Ejemplo: Individuo Individuo Individuo Individuo Individuo . . . 1 2 3 4 5 edad 21 19 19 18 20 . . .

em

especialidad Estructuras Construccin de Maqu. o Construccin de Maqu. o Estructuras Construccin de Maqu. o . . .

at
39 36 17 34 26

ic
32 26 39 18 31

a1
23 17 19 14 35

.c o
sexo mujer hombre hombre mujer hombre . . . Normalmente se reserva el nombre de matriz de datos a la obtenida de la anterior, eliminando la primera columna. Cuando se estudia una sola variable, otra forma usual de presentar los datos es por medio de una matriz en la que cada valor corresponde a un individuo de la poblacin. o Ejemplo: Edades de 40 individuos encuestados: 12 36 11 16 33 17 23 34 11 14 16 23 37 13 26 23 15 24 40 26 33 24 31 29 18

ww w.

1.3

Agrupacin en clases. o

Ser exhaustivas: es decir, abarcar todo el rango de posibles valores de la variable.

En general, la forma de las clases que utilizaremos ser: a

Elementos asociados a las clases o intervalos: mite inferior y l mite superior, respectivamente). L mites: Li1 , Li (l Amplitud de la clase: bi = Li Li1 . Marca de la clase: ci =
Li +Li1 2

Observacin 1 La marca de clase se considera el valor representativo de todos los valores de su o intervalo. Por ello, deben elegirse los intervalos de forma que la marca s sea un valor representativo. Puede ocurrir que la marca de clase tenga ms cifras decimales que los datos (es decir, que no a corresponda a un valor realmente observable) y lo mismo puede ocurrir con los l mites de clase. A veces, el primer y ultimo intervalo, tienen respectivamente, el extremo inferior y superior indeterminados, con objeto de incluir observaciones poco frecuentes. Ejemplo de agrupacin en clases: Edades de 40 individuos encuestados: o

ww w.

(L0 , L1 ], (L1 , L2 ], . . . (Lk1 , Lk ]

at

Estar ordenadas de menor a mayor.

em at

Ser disjuntas: un dato no puede estar en dos clases a la vez.

ic

En ocasiones, y con objeto de facilitar la toma o presentacin de datos cuantitativos, estos se agrupan o en intervalos o clases. Por ejemplo, es ms sencillo anotar cuntos individuos hay en una muestra a a con una estatura entre 1.70 y 1.80, que anotar exactamente la estatura de todos. No obstante, siempre se producir una prdida de informacin al agrupar los datos en intervalos, a e o y dado que el uso de ordenadores y programas de clculo suelen ser corriente, se suelen tratar los a datos sin agrupar salvo para algunos res menes grcos, cuando el n mero de valores distintos que u a u toma una variable discreta sea grande, o cuando sta sea continua. e La primera cuestin que se nos plantea es elegir el nmero de clases y la longitud de cada clase. o u Si es posible, es recomendable que todas las clases tengan la misma longitud. En cuanto al nmero u de clases, en general, se recomienda utilizar entre 5 y 20 o 25 clases, de forma que ninguna contenga menos de 5 datos. Existen distintos criterios, para determinar un nmero adecuado de clases, todos ellos en funcin u o del n mero de datos. Nosotros utilizaremos para obtener una aproximacin al n mero de clases k a u o u utilizar la frmula de Sturges donde k es el entero ms prximo a 1 + 10 log10 N siendo N el n mero o a o u 3 de datos o individuos. Existen otros criterios, por ejemplo tomar k el entero ms prximo a N. a o En general, el n mero de clases debe ser sucientemente grande para que no se pierda excesiva u informacin, pero no tanto que se pierda la simplicidad de la representacin. o o Las clases o intervalos en que se agrupen los datos deben cumplir:

a1

.c

om

12 36 11 16 33 Agrupacin en clases: o

17 23 34 11 14

16 23 37 13 26

23 15 24 40 26

39 36 17 34 26

32 26 39 18 31

23 17 19 14 35

33 24 31 29 18

Clases N o de datos (10,15] 7 (15,20] 8 (20,25] 6 (25,30] 5 (30,35] 8 (35,40] 6 En este caso el n mero de clases es 6, los l u mites son 10, 15, 20, 25, 30, 35 y 40; la amplitud es en todas las clases es 5 y las marcas son, respectivamente: 12.5, 17.5, 22.5, 27.5, 32.5 y 37.5.

Se denomina frecuencia absoluta de la modalidad Mi (valor xi o intervalo Ii ), al nmero de u individuos o nmero de datos que presentan esta modalidad, ni ,. u Se denomina frecuencia relativa de la modalidad Mi (valor xi o intervalo Ii ), al cociente fi = Si la variable considerada es cuantitativa, se pueden denir adems: a Se denomina frecuencia absoluta acumulada hasta la modalidad Mi , (valor xi o intervalo Ii ) al nmero de individuos o nmero de datos, Ni , que presentan una modalidad menor o igual que u u sta; se dene como Ni = n1 + n2 + + ni = i nj . e j=1 Se denomina frecuencia relativa acumulada hasta la modalidad Mi , (valor xi o intervalo Ii ) al cociente: Fi = Ni o Fi = f1 + f2 + + fi = i fj . j=1 N Denicin 6 Se dice que se ha dado la distribucin de frecuencias (absolutas, relativas, absolutas o o acumuladas o relativas acumuladas) de la variable estadstica X si se dan las distintas modalidades de la variable y las correspondientes frecuencias (absolutas, relativas, absolutas acumuladas o relativas acumuladas, respectivamente) de cada modalidad. En ese caso, hablaremos de datos agrupados por frecuencias.
ni . N

ww

w.

Se denomina frecuencia total al nmero total de individuos observados o nmero total de datos, u u N.

at

Denicin 5 Elementos que utilizaremos para resumir la informacin que ofrecen nuestros datos: o o

em

A partir de ahora, vamos a considerar que tenemos datos correspondientes a una sola variable estad stica, que denominaremos X. (Se corresponder a tratar con una de las columnas de la matriz a de datos ya vista).

at

ic a

Distribuciones univariantes.

1.c

om

La forma de dar estos valores es por medio de tablas, en las que aparecen una primera columna con las distintas modalidades de la variable (ordenadas de menor a mayor, si la variable es cuantitativa) y columnas correspondientes a las frecuencias absolutas, relativas, absolutas acumuladas y relativas acumuladas (estas dos ultimas cuando tengan sentido). Mi M1 M2 . . . ni n1 n2 . . . fi f1 f2 . . . Ni N1 N2 . . . Fi F1 F2 . . .

Mk nk fk Nk = N Fk = 1 Propiedades 1 Propiedades de las tablas: k i=1 k i=1

ni = N fi = 1

- Nk = N. - Fk = 1

. fi 100% es el tanto por ciento de datos o individuos que estn en la modalidad Mi . a . Fi 100% es el tanto por ciento de datos o individuos que estn en las modalidades M1 , M2 , . . . Mi . a Tablas para datos agrupados: Cuando los datos aparecen agrupados por clases, se habla de frecuencias absolutas, relativas, absolutas acumuladas y relativas acumuladas de cada clase. En este caso, las tablas de frecuencias tienen la forma:

ww

w.

M at em
(Li1 Li ] (L0 , L1 ] (L1 , L2 ] . . . (Lk1 , Lk ] ci c1 c2 . . . ci 7 8 6 5 8 6

- Las frecuencias relativas y las frecuencias relativas acumuladas pueden interpretarse como porcentajes (tantos por ciento) de la siguiente forma:

at
ni n1 n2 . . . ni 12.5 17.5 22.5 27.5 32.5 37.5

ck nk fk Nk Fk

En el ejemplo anterior: (Li1 Li ] (10, 15] (15, 20] (20, 25] (25, 30] (30, 35] (35, 40] fi 0.175 0.200 0.150 0.125 0.200 0.150 Ni 7 15 21 26 34 40 Fi 0.175 0.375 0.525 0.650 0.850 1.000

ic a
fi f1 f2 . . .

1.c
Ni Fi N1 F1 N2 F2 . . .

om

Se observa cmo en este caso, la marca de clase puede no ser un valor posible de la variable, pero o conserva su signicado de valor representativo de todos los datos del intervalo. Observacin 2 Al escribir una tabla es conveniente tener en cuenta los siguientes convenios para o evitar ambigedades: u . Indicar la unidad de medida de cada variable. . Indicar con un 0 los valores con frecuencia 0. (Evitar las rayas, cuya interpretacin es de falta o de informacin sobre la frecuencia del valor). o . Escribir todos los datos con igual nmero de decimales. u

Representacin grca de variables estad o a sticas unidimensionales

La representacin grca de una distribucin de frecuencias va a depender del tipo de variable o a o considerada.

Para ilustrar las principales representaciones grcas, vamos a utilizar los datos del tipo de veh a culos: TIPO deportivo furgoneta gran turismo monovolumen peque o n tama o medio n frecuencias 14 9 11 16 21 11

Esta representacin grca consiste en construir tantos rectngulos como modalidades presente o a a la variable cualitativa en estudio, todos ellos con base de igual amplitud (la que sea) y la altura se toma proporcional a la frecuencia absoluta o relativa (segn cual estemos representando), u obteniendo rectngulos con areas proporcionales a las frecuencias que se quieran representar. a

ww

Diagrama de barras.

w.

at

em

at

ic

a1

.c om

3.1

Representacin grca de variables cualitativas y de variables cuantitativas o a con pocos valores distintos.

Diagrama de Pareto. Es un diagrama de rectngulos en el que los rectngulos se presentan en orden decreciente de a a altura. Se utilizan para variables cualitativas y son muy frecuentes en control de calidad y procesos, donde las alturas de los rectngulos a menudo representan frecuencias de problemas a en el proceso de produccin. Como los rectngulos estn dispuestos en orden decreciente por o a a altura, resulta fcil identicar las areas con el mayor n mero de problemas. a u

3.2

Representacin grca de variables cuantitativas que toman muchos o a valores distintos.


Es la representacin grca ms frecuente y se realiza a partir de una grupacin de los datos o a a o en intervalos. Consiste en un conjunto de rectngulos construidos de la siguiente forma: a

Histograma.

ww w.

at e

Esta representacin consiste en dividir un c o rculo en tantos sectores circulares como modalidades presente la variable cualitativa, donde cada sector circular tendr un area proporcional a la a frecuencia absoluta (o relativa).

at ic

Diagrama de sectores.

a1

.c

om

-Tiene como eje horizontal una escala de valores de la variable que se mide. Se marcan los l mites de las clases sobre la escala. - Como eje vertical, tiene una escala de alturas. Sobre cada clase se eleva un rectngulo tal que su rea Ai = base altura = (Li Li1 )hi sea a a proporcional a la frecuencia absoluta (o relativa) de la clase, es decir, ni ; entonces, despejando n tenemos que la altura es hi = Li Lii1 . Ejemplo: En el ejemplo de las edades de 40 individuos:

Si la distribucin de la variable es: o

ww

w.

El siguiente ejemplo corresponde a clases no equiespaciadas: (Li1 Li ] ci ni (1.5, 3.5] 2.5 3 (3.5, 6.5] 5 4

a un histograma correcto tendr un primer rectngulo de altura 3 y un segundo rectngulo a a 2 de altura 4 , dnde es un n mero real positivo cualquiera. Por ejemplo, para = 6, el o u 3 histograma ser a:

at

Ejemplo:

9 8

em
1.5 3.5

at

ic
6.5

a1

.c om

Pol gono de frecuencias acumuladas. Se construye de la siguiente forma: -Tiene como eje horizontal una escala de valores de la variable que se mide. Sobre l se marcan e los l mites de las clases. - La escala vertical es una escala de frecuencias acumuladas (absolutas o relativas). En este plano, partiendo desde el punto sobre el eje OX que corresponde al l mite inferior del primer intervalo, se sit an los pares formados por el l u mite superior de clase y la correspondiente frecuencia acumulada de la clase y los puntos se unen por medio de segmentos, dando lugar a una grca creciente, que termina en una meseta de altura N, si se utilizan frecuencias acumuladas a absolutas, o altura 100 si se utilizan porcentajes acumulados. Esta grca se conoce como ojiva a de frecuencias.

Se trata de un procedimiento semi-grco de presentar la informacin de variables cuantitativas, a o util cuando el n mero de datos es peque o (menor que 50), aunque con los ordenadores es u n posible utilizarlo con ms datos. a Los pasos para su construccin son: o 1. Expresar los datos en unidades convenientes, redondearlos a dos o tres cifras signicativas y ordenarlos de menor a mayor. 2. Colocarlos en una tabla con dos columnas separadas por una l nea como sigue: - Para los datos con dos d gitos, escribir a la izquierda de la l nea los d gitos de las decenas (que forman el tallo) y a la derecha los de las unidades (que forman las hojas). - Para datos con tres d gitos, el tallo estar formado por las centeneas y decenas, escritos a a la izquierda, y las hojas sern las unidades. a 3. Cada tallo dene una clase y se escribe una sla vez; el n mero de hojas representa la o u frecuencia de la clase correspondiente al tallo. Ejemplo: Para el ejemplo de las edades, el diagrama de tallo-hojas ser a:

ww w.

Diagrama de tallo-hojas. (Stem and leaf)

at e

at

ic

a1

.c om

15 (11) 14 1

1 2 3 4

1 1 2 3 3 3 1 1 2 0

3 4 3 4 3 3

4 5 6 4 6 6 4 4 5

6 7 6 6 6 6

7 7 8 9 7 9 9

8 9

Los valores que aparecen a la izquierda se llaman profundidades e indican las frecuencias acumuladas, comenzando por arriba (de menor a mayor) y por abajo (de mayor a menor), hasta llegar al tallo en el que se encuentra el valor que ocupa la posicin central; en este tallo, o el valor aparece entre parntesis e indica solo la frecuencia de ese tallo. e Observacin 3 Para facilitar la construccin del diagrama, para una cantidad numerosa de o o datos, puede ser conveniente escribir en primer lugar un diagrama desordenado anotando los tallos y las hojas sin ordenar de mayor a menor, y a partir de esta primera aproximacin, o construir el diagrama. A veces conviene subdividir los tallos para obtener mayor claridad, colocando por una parte las hojas del 0 al 4 y por otra las hojas de 5 a 9, en otros casos, las hojas 0 y 1, las 2 y 3, las 4 y 5, las 6 y 7 y, por ultimo, las 8 y 9; por ejemplo: 6 15 (6) 19 14 7 1 1 1 2 2 3 3 4 1 5 3 6 1 5 0 1 6 3 6 1 6 2 6 3 6 2 6 3 7 3 6 3 7 4 7 4 9 3 9 4 7 8 4 4 4 9 8 9

Medidas caracter sticas de una distribucin unidimensional. o

Vamos a denir en esta seccin algunos valores numricos que proporcionan informacin sobre o e o cmo se distribuye un conjunto de datos homogneo. Estas medidas adems, permiten comparar o e a distribuciones y en la tercera parte de la asignatura nos sern de utilidad para obtener conclusiones a sobre la poblacin cuando se trabaja con una muestra. Algunos de estos valores dependen de la o posicin de los datos, cuando se ha ordenado estos de menor a mayor; denotaremos por x(i) el dato o que ocupa el lugar i-simo una vez ordenados los datos de esta forma. e

4.1

Medidas de posicin o localizacin. o o

Proporcionan uno o varios valores en torno a los cuales tienden a agruparse los datos. Entre ellas destacaremos las medidas de tendencia central. 1. Medidas de tendencia central. Vamos a estudiar tres: media aritmtica, mediana y moda. e

ww

w.

Puede observarse que si se gira el diagrama, se obtiene una apariencia similar a la del histograma correspondiente.

at em

at ic

a1

.c om

Media o media aritmtica. e Denicin 7 Si x1 , . . . , xN son los datos directos de la variable, se dene la media como: o x= xi i=1 N
N

Observacin 4 Si los datos vienen dados por medio de una tabla de frecuencias: o xi x1 x2 . . . entonces x= ni n1 n2 . . . fi f1 f2 . . .

xk nk fk xi ni = i=1 N
N 1 k k i=1

xi fi

Propiedades 2 (a) La media es el valor que equilibra las desviaciones positivas y negativas de los datos directos respecto a su valor:

Mediana.

Clculo de la mediana: Para calcular la mediana de un conjunto de datos, en primer lugar a hay que ordenarlos de menor a mayor. x +x Si el n mero de datos, N, es par, el valor mediana es (N/2) 2((N/2)+1) , mientras que si el u n mero de datos es impar, el valor mediana es x((N +1)/2) , supuestos los datos ordenados u de menor a mayor. Moda. Denicin 9 La moda, se dene como el valor o los valores ms frecuentes de la variable, o a es decir, a los que corresponde la mayor frecuencia. Cuando los datos estn agrupados por clases, no puede determinarse qu valor es la moda; a e en este caso llamaremos clase modal a aquella a la que corresponde la mayor altura en el histograma (que no tiene porqu coincidir con la clase de mayor frecuencia). e Comparacin entre las medidas de tendencia central o Como ya hemos se alado al denirla, la media es una medida que utiliza toda la informacin n o disponible, pues tiene en cuenta el valor de todos los datos. En cambio, la mediana es, en ese sentido, menos informativa, pues slo tiene en cuenta la posicin y no el valor. o o

ww w.

M at

Denicin 8 Llamaremos mediana y la denotaremos por Me al valor numrico que verica o e que ordenados los datos de menor a mayor, el 50% son menores o iguales que este valor y el 50% son mayores o iguales.

em

at

considerar como centro de gravedad o centro geomtrico de los datos. e (b) Utiliza toda la informacin contenida en los datos (pues utiliza todos los datos). o

ic a1

(xi x) = 0. En ese sentido, se la puede

.c om

Por esa misma razn, la media es muy sensible a valores extremos. Por ello, un error en los o datos puede modicarla por completo. Ejemplo: Para los datos 10, 15, 21, 50, la media es 24, desplazada hacia el valor 50 que es un valor extremo. Si los datos correctos hubiesen sido 10, 15, 21, 20, la media ser 16.5. Sin embargo, la mediana a queda menos afectada por ese dato extremo: en el primer caso ser 18 y en el segundo, 17.5. a Observacin 5 A veces, el conjunto de datos est dividido en subgrupos, por ejemplo, los o a individuos de una clase divididos en hombres y mujeres, y se conoce la media de una caracterstica en cada subgrupo. A partir de esta informacin se puede obtener la media del conjunto total de o datos: si x1 , x2 , . . . , xs son las medias en s subgrupos (disjuntos) con n1 , n2 , . . . , ns individuos cada uno, la media total ser: a n1 x1 + n2 x2 + . . . + ns xs x= n1 + n2 + . . . + ns 2. Otras medidas de posicin: Percentiles. o

qp =

at

em

Clculo de los percentiles: a

x([pN ]+1)

at

Denicin 10 Para cada valor p (0, 1), se denomina p-percentil y se denota por qp , al valor o de la variable que divide a la distribucin de frecuencias en dos partes, de forma que al menos o el 100p% de los datos son menores o iguales que qp .

Denicin 11 Se denominan cuartiles a los percentiles que dividen a la distribucin en 4 o o partes iguales, es decir, - el 0.25-percentil, llamado primer cuartil, y denotado por Q1 . - el 0.5-percentil, que es la mediana. - el 0.75-percentil, llamado tercer cuartil, y denotado por Q3 . Denicin 12 Se denominan deciles a los percentiles que dividen a la distribucin en 10 partes o o i iguales. Se denotan por d1 , d2 , . . . , d9 , siendo di el 10 -percentil, i = 1, 2, , 9. Observacin 6 A veces solo disponemos de la informacin de los datos agrupados en clases y no o el valor de los datos, en esos casos se calculan valores aproximados de los percentiles, tomando como valor qp el valor del eje X en el que el polgono de frecuencias relativas acumuladas tiene por altura p: Si F1 , F2 , . . . , Fk son las frecuencias relativas acumuladas de las clases en que se agrupan los datos, existe i {1, 2, . . . k} con Fi1 p < Fi . ( Se considera F0 = 0). El p-percentil ser: a p Fi1 qp = Li1 + bi fi

ww w.

x(pN ) + x(pN +1) 2

ic a1

si pN no es entero si pN es entero

.c

om

4.2

Medidas de dispersin. o

Estas medidas indican lo prximos o alejados que estn los datos, bien entre s o respecto a alguna o a , medida de centralizacin. o Rango o recorrido. Denicin 13 Si x(1) , x(2) , . . . , x(k) son los datos, ordenados de menor a mayor, se denomina o recorrido a x(k) x(1) , es decir, a la diferencia entre el mayor y el menor dato. El recorrido es fcil de calcular, lo que hace que sea una medida muy utilizada, por ejemplo en a control de calidad. Adems tiene idnticas unidades que la variable. Sin embargo, presenta el a e inconveniente de ser una medida muy sensible a valores extremos. Varianza. Denicin 14 Se dene la varianza de los datos directos x1 , x2 , . . . , xN , y se denota por s2 , o al valor: N (xi x)2 1 N 2 s2 = =( x ) x2 N N i=1 i i=1 Observacin 7 Si los datos vienen dados por medio de una tabla de frecuencias, entonces o (xi x)2 ni = s = N i=1
2

at

em

at ic
k

La varianza tiene en cuenta todos los datos, es fcil de calcular, pero no tiene las mismas a unidades que la variable; este inconveniente se salva considerando su ra cuadrada, que se z denomina desviacin t o pica. Observacin 8 Por razones que veremos ms adelante, en muchos casos se utiliza otra medida, o a llamada cuasivarianza, y que a la hora de hacer inferencias, tiene mejores propiedades que la varianza. Se dene la cuasivarianza de los datos directos x1 , x2 , . . . , xN , y se denota por s2 al c valor: N (xi x)2 s2 = c i=1 N 1 Notar que N s2 = (N 1) s2 , y que si N es grande, la diferencia entre ambas medidas (varianza c y cuasivarianza) es peque a. n Observacin 9 En muchos programas de software estadstico, se llama varianza a la cuasivarianza o (entre ellos el programa de Statgraphics).

ww

w.

a1
i=1

(xi x)2 fi

.c o

Desviacin t o pica. Denicin 15 Se dene la desviacin t o o pica o estndar de los datos directos x1 , x2 , . . . , xN , y a se denota por s, al valor: N (xi x)2 s= N i=1 Observacin 10 Si los datos vienen dados por medio de una tabla de frecuencias, entonces o s= (xi x)2 ni = N i=1
k k i=1

(xi x)2 fi

Observacin 11 Se dene tambin la cuasidesviacin t o e o pica como: sc = (xi x)2 i=1 N 1


N

Vamos a denotar por fr la frecuencia relativa de un conjunto de datos y por x1 , x2 , . . . , xN los valores directos de la variable X. Sean A1 = {xi : |xi x| > ks} y A2 = {xi : |xi x| ks}. A partir de la denicin de varianza, o se obtienen las siguientes desigualdades: s =
2

ww

Demostracin: o

(xi x)2 (xi x)2 (xi x)2 = + N N N i=1 xi A1 xi A2


xi A1

w.

Despejando, fr (A1 ) <

1 . k2

Como fr (A1 ) + fr (A2 ) = 1, se tiene que fr (A2 ) = fr ({xi : |xi x| ks}) > 1 1 k2

y teniendo en cuenta la interpretacin de la frecuencia relativa como tanto por ciento, se obtiene o el resultado.

(Expresndolo de otra forma: la frecuencia relativa del intervalo [ ks, x + ks] es mayor que a x (1 k12 ).)

at

(xi x)2 (ks)2 > = (ks)2 fr (A1 ) N N xi A1

em

Sea X una variable estadstica y k IR con k 1. Entonces, en el intervalo [ ks, x + ks] se x 1 halla ms del (1 k2 )100% de las observaciones. a

at

Teorema 1 Desigualdad de Chebychev.

ic a

La desviacin estndar se expresa en las mismas unidades que la variable, dando una idea ms o a a precisa de la variabilidad respecto de la media, como veremos en el teorema siguiente.

1.c

om

Observacin 12 Tomando k = 2 en el intervalo [ 2s, x + 2s] se encuentra como mnimo o x el 75% de los datos. Tomando k = 3 en el intervalo [ 3s, x + 3s] se encuentra como m x nimo el 89% de los datos. Rango intercuart lico. Denicin 16 Se dene el rango intercuart o lico, y se denota por IQR, a: IQR = Q3 Q1 . El rango intercuart lico es una medida de dispersin utilizada en relacin con la mediana e o o indica la dispersin del 50% central de los datos. o

4.3

Medidas de posicin y de variacin utilizadas para comparar conjuntos o o de datos


Los valores z indican la posicin relativa de un dato, respecto del conjunto. o

ic
s . || x

a1

.c o

Valores o puntuaciones z

ww w.

Denicin 18 Para datos todos positivos o todos negativos, se dene el coeciente de variacin o o de Pearson de la variable estadstica X como: CV =

Es una medida adimensional de la variabilidad relativa, pues considera la variabilidad de los datos en relacin al tama o de su media ( no es lo mismo una variabilidad de 200 euros en o n ganacias del orden de 1000 euros, que en ganancias del orden de 1 milln). Por ello, es la o medida adecuada para comparar la variabilidad de dos conjuntos de datos distintos. Se puede interpretar el CV como el promedio del error de medida.

4.4

Otras caracter sticas observables de una distribucin de datos o


Diremos que una distribucin es simtrica si al considerar la representacin grca de la o e o a distribucin de frecuencias y trazar una perpendicular al eje de abcisas por x ocurre lo siguiente: o Hay el mismo n mero de valores a ambos lados de la perpendicular, equidistantes de x dos a u dos y tales que cada par de valores equidistantes a x tienen la misma frecuencia. En este caso, la mediana coincide con x.

1. Asimetr a.

at

Coeciente de variacin. o

em

Nos indica cuntas desviaciones t a picas se aleja el dato respecto del valor de la media.

at

Denicin 17 Se dene el valor z del dato xi como el valor o

m
xi x . s

Las medidas de asimetr existentes son vlidas para las denominadas distribuciones con forma a a de campana o campaniformes (distribuciones unimodales simtricas o con cierta asimetr y e a) para las distribuciones en forma de U. Indicar que las distribuciones en forma de campana son las ms usuales. Cuando la distribucin de los datos es campaniforme, las distribuciones a o asimtricas se clasican en distribuciones asimtricas con cola a la derecha y distribuciones e e asimtricas con cola a la izquierda; el valor de x Me proporciona informacin del tipo de e o asimetr a:

asimetr a la derecha a 2. Apuntamiento o curtosis.

simtrica e

asimetr a la izquierda a

Llamamos curtosis o apuntamiento el grado de concentracin de los datos alrededor de la media. o Las medidas de curtosis se aplican a distribuciones campaniformes y para estudiarlas es necesario denir previamente una distribucin tipo, que vamos a tomar como modelo de referencia. o Esta distribucin va a ser la llamada distribucin normal, que corresponde a fenmenos muy o o o corrientes en la naturaleza y cuya representacin grca es una campana de Gauss, dada por o a la frmula: o 2 1 (x) 1 f (x) = e 2 2 , 2 donde y son respectivamente la media y la desviacin t o pica. A esta distribucin se le llama normal porque se presenta en numerosos casos, e implica que o la mayor de los valores de la variable estn cerca de la media, y aquellos que se encuentran a a muy distanciados de ella, a ambos lados son poco numerosos. Tomando esta distribucin como referencia diremos que una distribucin puede ser ms apuntada o o a que la normal, es decir, leptoc rtica o menos apuntada, es decir, platic rtica. A la distribucin u u o normal, desde el punto de vista de la curtosis, se le llama mesoc rtica u

platic rtica u

ww

w.

M at

em

at ic

a1

.c o

mesoc rtica u

leptoc rtica u

En denitiva, aqu lo que se estudia es la deformacin, en sentido vertical, respecto de la normal, o de una distribucin. o

Diagramas de caja o Box-Plot.

Este tipo de diagramas son una representacin semigrca de la distribucin, que permite observar las o a o caracter sticas principales de la distribucin y detectar posibles valores at o picos. Son especialmente utiles para comparar la distribucin de una variable en distintas poblaciones. Se ha pospuesto su o estudio hasta ahora pues para su construccin son necesarias algunas de las medidas caracter o sticas de la distribucin, denidas en el apartado anterior. o Construccin del Box-Plot o Los pasos para su construccin son: o 1. Ordenar los datos de menor a mayor y obtener los cuartiles Q1 , Q2 y Q3 . Se obtienen tambin e otros dos valores, llamados l mite inferior (LI) y l mite superior (LS), dados por: LI = Q1 1.5IQR

Ejemplo: Para los datos de la edad, los cinco valores son: Q1 = 17, Q3 = 33, Me = 24, LI = 6.5 y LS = 43.5 y el grco: a

ww

w.

5. Los datos que queden fuera del intervalo [LI, LS] se marcan con un punto o un asterisco, a la altura de las dos l neas dibujadas. Se denominan datos at picos y se clasican en prximos y o lejanos, segn estn en [Q1 3IQR, Q3 + 3IQR] o a n ms alejados. u e u a

at em

4. Desde el centro de los lados verticales del rectngulo se dibujan sendas l a neas hasta el menor dato mayor o igual que LI y el mayor dato menor o igual que LS (es decir, los datos ms a extremos del intervalo [LI,LS]).

at ic

2. A continuacin se sit an en un eje graduado estos 5 valores y tomando como base el segmento o u [Q1 , Q3 ] se dibuja un rectngulo con altura arbitraria; en l se indica la posicin de la mediana, a e o mediante una l nea vertical que divida al rectngulo. a

a1

.c om

LS = Q3 + 1.5IQR

Ejemplo: distancia de frenado en metros, en automviles conducidos sobre una pista h meda o u (mismo automvil y velocidad en todos los casos). o 35.8 39.2 35.3 40.1 30.5 41.9 37.3 36.1 35.9 38.6 35.6 37.0 41.6 39.2 38.0 39.5 35.9 37.3 36.7 38.3

Para los datos de la distancia de frenado, los cinco valores son: Q1 = 35.9, Q3 = 39.2, Me = 37.3, LI = 30.95 y LS = 44.15 y el grco: a

Observacin 13 El Box-Plot permite ver fcilmente caractersticas como asimetr apuntamiento, o a a, variabilidad y puesto que se basa en la mediana y los cuartiles, medidas poco inuenciables por datos extremos, proporciona en general una imagen adecuada de la distribucin. o Tambin permite hacer comparaciones entre conjuntos distintos de datos, o subgrupos. e Los datos siguientes corresponden al tiempo en segundos en pasar de 0 a 100 Km/h en un conjunto de veh culos subdivididos en cuanto al tipo de vehculo. Es fcil observar en el grco, por ejemplo, a a que las furgonetas son las que presentan menor variabilidad y los de tamao peque o son los de n n mayor variacin. o

ww

w.

at

em

at

ic

a1

.c o

Datos at picos

Son datos que se alejan del conjunto global de datos, por ser inusualmente grandes o peque os. n Pueden ser datos reales, como una puntuacin de 10 en un examen en el que la mayor de las o a puntuaciones estn entre 3 y 6, o la estatura de un individuo que mide 2m 10cm, en una clase de a individuos con estaturas normales. Tambin en ocasiones, aparecen como consecuencia de haber e registrado de forma incorrecta un dato. No existe un criterio unico para determinar qu datos son o e no at picos; dos de los criterios ms usuales son: a El proporcionado por el diagrama de caja: considerar como at picos todos los datos fuera del intervalo [LI,LS]. En el ejemplo de la distancia de frenado, ser el dato 30,5. a El criterio de 3s: considerar como at pico todo dato que se aleje ms de 3s de la media de los a datos (recordar que seg n la desigualdad de Chebysev, al menos el 88.89% de los datos est u a en el intervalo [ 3s, x + 3s]). En el ejemplo de la distancia de frenado, con este criterio no x existir datos at an picos.

Vamos a distinguir entre dos tipos de transformaciones: Transformaciones lineales: Son del tipo Y=aX+b, con a, b IR; a = 0, es decir, traslaciones y cambios de escala; por tanto, producen cambios en cuanto a posicin y dispersin, pero no var la forma de la distribucin: si o o an o x1 , . . . , xN son los datos directos de la variable X, sus transformados sern los datos y1 , . . . , yN , con a yi = axi + b. Propiedades 3 En efecto: y= yi = i=1 N
N N

1. y = a + b. x axi + b = N i=1
N

ww

w.

2. s2 = a2 s2 Y X En efecto: s2 = Y (yi y )2 = N i=1


N

at em
=a

El objetivo de la descripcin de datos es obtener una visin lo ms clara posible de los datos, por o o a ello, en muchas ocasiones ser necesario hacer traslaciones o cambios de escala para obtener datos lo a ms simples y manejables posible. a En otras ocasiones, como los principales mtodos estad e sticos son aplicables slo a distribuciones o simtricas, nos interesar transformar unos datos asimtricos en otros que no lo sean tanto. e a e

xi + b = a + b x i=1 N

at
N

(axi + b (a + b))2 x = N i=1 = a2 (xi x)2 = a2 s2 X N i=1


N

ic a

1.c

om

Transformaciones.

3. sY = |a|sX 4. Me (Y ) = aMe (X) + b En efecto, si a > 0, los datos conservan su orden y por tanto, la mediana de la variable X se transforma en la mediana de la variable Y. Si a < 0, entonces los datos invierten su orden, pero entonces, la transformada de la mediana sigue dejando un 50% de los datos a cada lado. 5. Moda(Y ) = aModa(X) + b

7. IQR(Y ) = |a|IQR(X). Transformaciones no lineales Las transformaciones no lineales ms usuales son: Y = X 2 , Y = X, Y = ln X e Y = a 1 . Producen, adems de cambios en la posicin y dispersin, cambios en la forma. Se utilizan a o o X principalmente para promover simetr a.

ww w.

(Se razona de igual forma que en la propiedad anterior).

at e

6. Si a > 0 entonces Q1 (Y ) = aQ1 (X) + b y Q3 (Y ) = aQ3 (X) + b. Si a < 0 entonces Q1 (Y ) = aQ3 (X) + b y Q3 (Y ) = aQ1 (X) + b.

at

ic a1

.c om

Você também pode gostar