Você está na página 1de 50

Tabla de cont enido

C A P T U L O 1
1.I I nt r oduc c i n 1
1.I I Pr obabi l i dad y Est adst i c a 4
1.I I I Est adst i c a Desc r i pt i va 5
1.I I I .1 Uni ver so 5
1.I I I .2 Pobl ac i n 5
1.I I I .3 Tamao de l a pobl ac i n 5
1.I I I .4 Muest r a 5
1.I I I .5 Tamao de l a muest r a 6
1.I I I .6 Fr ec uenc i a, f r ec uenc i a r el at i va
y f r ec uenc i a r el at i va ac umul ada 6
1.I I I .7 Di st r i buc i n empr i c a 8
1.I I I .8 Pr esent ac i n de dat os:
Tabl a de di st r i buc i n de
Fr ec uenc i as 8
1.I I I .9 Repr esent ac i ones gr f i c as 10
1.I I I .9.1 Hi st ogr ama 10
1.I I I .9.2 Pol gono 11
1.I I I .10 Par met r os desc r i pt i vos 12
1.I I I .10.1 Medi a 13
1.I I I .10.2 Medi ana 13
1.I I I .10.3 Moda 15
1.I I I .10.4 Cuar t i l es 16
1.I I I .10.5 Medi a geomt r i c a 17
1.I I I .10.6 Rango 17
1.I I I .10.7 Var i anza 18
1.I I I .10.8 Desvi ac i n est ndar 19
1.I I I .10.9 Coef i c i ent e de var i ac i n 19
1.I I I .10.10 Coef i c i ent e de asi met r a 20
1.I I I .10.11 Coef i c i ent e de
apl anami ent o 22
1.I I I .11 Regr esi n l i neal si mpl e y
c or r el ac i n 29
1.I I I .11.1 Mt odo de mni mos
c uadr ados 30
1.I I I .11.2 Lnea de r egr esi n 32
1.I I I .11.3 Li mi t ac i ones del mt odo 35
1.I I I .11.4 Rel ac i ones no l i neal es 35
1.I I I .11.5 Rec t i f i c ac i ones 35
1.I I I .11.6 Cor r el ac i n
C A P T U L O 2
2.I Noc i n de c onj unt o 38
2.I I Si mbol oga y not ac i n 39
2.I I I Car di nal i dad 40
2.I V Conj unt os f i ni t os e i nf i ni t os 40
2.V Conj unt o uni ver sal 41
2.VI Conj unt o vac o 41
2.VI I Conj unt os equi val ent es 41
2.VI I I Conj unt os i gual es 41
2.I X Subc onj unt os 42
2.X Di agr ama de Venn 43
2.XI Oper ac i ones c on c onj unt os 44
E S T A D S T I C A Y P R O B A B I L I D A D
1 1
Est adst ica descript iva


1.I 1.I INTRODUCCIN INTRODUCCIN

Es un hecho bien conocido que para incrementar los conocimientos que se tienen acerca del
mundo es necesario emplear cada vez ms los mtodos ylas inferencias estadsticas. Casi
todas las personas requieren tener conocimientos de estadstica. Sin embargo, debido a la
amplitud yprofundidad de la materia, es conveniente seleccionar el campo de conocimiento y
los mtodos pertinentes segn sea la finalidad que se persigue.

Existen varias definiciones de estadstica: Se la define como la ciencia que trata de los
problemas que comprenden variaciones casuales, resultantes de un sinnmero de influencias
pequeas e independientes que operan en cada resultado medido que se obtiene; asimismo,
se dice que es la ciencia de la toma de decisiones a partir de datos, de manera que la
confiabilidad de las conclusiones con base en stos se valora mediante la probabilidad. De
modo ms general, la estadstica es una ciencia que comprende la recopilacin, tabulacin,
anlisis e interpretacin de los datos cuantitativos ycualitativos; este proceso incluye de-
terminar los atributos o cualidades reales, al igual que realizar estimaciones yverificar hi-
ptesis mediante las cuales se determinan valores probables o esperados.

La estadstica es una rama de la matemtica y, no obstante, difiere de sta de la siguiente
manera. En la matemtica pura, 105 valores son exactos, esto es, una variable tiene un valor
particular (la probabilidad de que as ocurra es igual a la unidad, dado que estamos seguros
de ello), o bien, no lo tiene (la probabilidad en este caso, es cero, ya que estamos seguros
ahora de que la variable no tiene tal valor). Sin embargo, en estadstica, la variable puede
asumir muchos valores posibles, yexiste una probabilidad definida de que adquiera tales
valores. Dicha probabilidad puede comprender cualquier valor entre 0 y 1. Mediante la
estadstica se intenta definir ycontrolar el grado de incertidumbre que surge de la inevitable
variabilidad de los datos.

Captulo
1
E S T A D S T I C A Y P R O B A B I L I D A D
2 2
La estadstica se enfrenta a dos tipos bsicos de problemas: los problemas descriptivos ylos
problemas inferenciales. Los primeros se refieren a la presentacin de conjuntos de ob-
servaciones, de manera tal que se puedan comprender e interpretar. Las caractersticas nu-
mricas empleadas para describir los conjuntos reciben el nombre de valores estadsticos. Los
problemas inferenciales son los que comprenden generalizaciones inductivas, esto es, a partir
de una muestra puesta a prueba en la realidad hasta el todo del cual se obtuvo la muestra. La
inferencia estadstica permite conseguir la mxima cantidad de informacin exacta de una
prueba dada, en otras palabras, el empleo de valores estadsticos hace ms eficientes las
pruebas.

En los campos de la ingeniera yde las ciencias experimentales, el empleo de valores es-
tadsticos casi siempre es necesario cuando se efectan pruebas rutinarias de laboratorio, al
igual que en los trabajos de investigacin yde produccin yconstruccin.

En una investigacin experimental, quiz se quiera saber si las pruebas son "precisas", o si la
variabilidad de los resultados es mayor que lo esperado, o mayor que en cualquiera otra
prueba.

En la investigacin de productos, tal vez se deseara conocer si un cambio en los ingredientes
afecta las propiedades del material resultante; comparar la eficacia de los procesos o la
eficiencia de las mquinas de ensayo; determinar silos resultados se adaptan a una forma
supuesta o postulada; o bien, idear un experimento que permita considerar la variacin debida
a diversas causas.

Esto ltimo tambin se requiere en la produccin, dado que el conocimiento de la variacin en
las observaciones, causada por un cierto factor, nos capacita para saber si, por trminos
econmicos, es conveniente controlar ms estrechamente este factor. Adems, quiz se desee
averiguar la probabilidad de obtener una resistencia por encima o por debajo de cierto valor;
verificar si la produccin ha sufrido alteraciones que modifiquen esta probabilidad; determinar
la proporcin de elementos que presentan cierto atributo o cualidad; o saber qu tamao de
muestra es necesario emplear con el fin de que las conclusiones posean una confiabilidad
especfica.

Existen dos tipos bsicos de variables que resultan de inters para nuestro estudio: las
variables continuas, las cuales difieren en cifras infinitesimales, ylas variables discretas que
slo pueden tener valores especficos, pero no intermedios entre ellos. Tales conceptos deben
ser ya conocidos, pues pertenecen a las matemticas bsicas yson tiles, dado que ambos
tipos de variables, por lo regular, siguen diferentes distribuciones o leyes de comportamiento.
El trmino distribucin se refiere a la frecuencia con la que se presentan diversos valores
observados.

Dichos "diversos valores" pueden obtenerse de dos maneras. Se puede medir varias veces una
cierta propiedad, por ejemplo, la dimensin de un objeto particular. Dados los errores de
medicin que se cometen, no siempre se obtendrn exactamente los mismos valores. El
E S T A D S T I C A Y P R O B A B I L I D A D
3 3
segundo caso ocurre cuando se fabrican artculos que deban tener una cierta propiedad en
comn, por ejemplo, la misma dimensin. Como por lo general se presentan variaciones en la
fabricacin, al igual que errores de medicin, los valores registrados tambin varan. En ambos
casos, si se realizan algunas observaciones, se obtienen resultados que difieren entre s, yuna
de las principales funciones de la estadstica es evaluar la informacin de este tipo, de modo
que se pueda estimar el "mejor" valor de la cantidad sometida a medicin ydeterminar la
precisin del clculo.

La distribucin de las variables discretas es de inters principalmente en el caso de problemas
en los que intervengan objetos que posean o no una cierta caracterstica: ser de color negro o
no, con defectos o sin ellos, presentar o no una resistencia superior a un valor esperado, etc.

Es pertinente mencionar que a fin de llevar a cabo un anlisis estadstico, las variables
discretas ylas continuas no estn separadas entre s de manera inevitable. Si los valores de
una variable que est distribuida continuamente se agrupan en intervalos ydespus se les da
un tratamiento en grupos, el problema se convierte, en esencia, en uno de tipo de variables
discretas. Por el contrario, cuando una de estas ltimas variables est constituida por una gran
cantidad de clases yse la determina muchas veces, su distribucin se aproxima a la de una
variable continua ya menudo resulta conveniente emplear dicha aproximacin.

En el anlisis estadstico se denomina variable estadstica o variante a la magnitud que vara, y
puede ser la variable original o una cantidad derivada de ella como la media de muestras, su
desviacin estndar,

etc.

En mltiples problemas de tipo prctico es imposible probar u observar la totalidad de los
elementos que intervienen (todos los cuales constituyen una poblacin o universo) y, por
consiguiente, es necesario recurrir al muestreo. As pues, se miden o consideran las
propiedades de una muestra con el objeto de estimar las caractersticas de todos los ele-
mentos (poblacin) de los cuales se extrajo la muestra. La inferencia a partir de muestras es
de gran valor en muchos campos, yva desde comprobar si un embarque de mercancas
cumple con las especificaciones, hasta predecir los resultados de unas elecciones. Las expe-
riencias obtenidas de este ltimo tipo de problemas nos hace percatamos de que no slo es
conveniente tomar la muestra representativa de la poblacin subyacente, sino tambin de que
la conclusin a la que lleguemos es slo probablemente correcta, pues no se puede tener una
certeza total con base en el muestreo.

Esto se debe a que varan entre s las muestras extradas de la poblacin o grupo de ele-
mentos, yla variacin es propia de todos los fenmenos naturales yde todas las operaciones
de fabricacin. Por este motivo, la inferencia estadstica se presenta en trminos de
enunciados de probabilidad.

Mediante un programa adecuado se puede obtener mayor informacin de un cierto trabajo
experimental que si se llevaran a cabo pruebas al azar o por simple casualidad, y slo despus
se empleara la estadstica. Por ello, debemos considerar a esta ciencia no slo como un
E S T A D S T I C A Y P R O B A B I L I D A D
4 4
instrumento til para la interpretacin de resultados experimentales, sino como parte
integrante del diseo de experimentos.

1.II 1.II ESTADSTICA Y P ESTADSTICA Y PROBABILIDAD ROBABILIDAD

De lo anterior se deduce que los sujetos de estudio de la estadstica yla probabilidad estn
fundamentalmente relacionados entre s. En tanto que la estadstica se interesa en gran
medida en deducir conclusiones a partir de muestras alteradas por variaciones aleatorias o
incertidumbres, slo mediante la teora de la probabilidad se pueden definir o expresar, as
como controlar, tales incertidumbres en los resultados. Se dice que las variaciones son al azar
cuando no presentan un determinado patrn de conducta o regularidad.

La relacin entre una muestra yla poblacin puede servir para elucidar la diferencia existente
entre la estadstica y la probabilidad. Tal relacin plantea dos problemas generales: la
verificacin de una hiptesis estadstica y la estimacin de uno o varios parmetros
caractersticos de la poblacin. En el primer caso nos interesa saber si a partir de los ensayos
o pruebas se puede concluir que una muestra observada pertenece a una poblacin particular
(la hiptesis) o si no es posible servirse de ella para llegar a tal conclusin. Dadas las
inherentes variaciones casuales existentes en una muestra, no se puede tener una completa
seguridad acerca de nuestra conclusin y, por consiguiente, debemos vincularla a un
enunciado probabilstico.

Al considerar el problema de la estimacin o clculo estimativo, se intenta evaluar uno o varios
parmetros de la poblacin de una muestra mediante algunos de los valores "mejores"; una
vez ms, debido a la variacin inherente de una muestra a otra, es imposible estar seguro de
que el clculo es correcto, de ah que se deba asignarle una banda de probabilidad. Tal banda
proporcionar un grado de confianza especfico acerca del hecho de que el valor verdadero del
parmetro de poblacin caiga dentro de los lmites de confianza.

En determinados problemas es posible establecer una clara diferencia entre estadstica y
probabilidad. Por ejemplo, si se conocen los parmetros de la poblacin a partir de un registro
anterior, puede deducirse la conducta del componente, o muestra, que se supone forma parte
de la misma, por lo tanto, se tiene as un problema de probabilidad. Sin embargo, si el
parmetro (o parmetros) de la poblacin es desconocido, ytiene que ser estimado a partir
de la muestra, se tiene entonces un problema estadstico. Cabe mencionar que la teora de la
probabilidad se basa en leyes de casualidad o aleatoriedad; de ah que, las muestras sean de
naturaleza fortuita. Una muestra al azar o aleatoria es una seleccionada de manera que cada
elemento de la poblacin tenga la misma oportunidad de ser elegido. Obviamente, si se habr
de juzgar la poblacin (el todo) a partir de una muestra (la parte), esta ltima deber ser tan
representativa de la poblacin como sea posible.



E S T A D S T I C A Y P R O B A B I L I D A D
5 5
1.II 1.III I ESTADSTICA DESCRIPTIVA ESTADSTICA DESCRIPTIVA

La estadstica descriptiva resuelve la etapa de tabulacin y descripcin de resultados de
experimentos aleatorios de la investigacin estadstica. Se basa en el conjunto de definiciones
siguientes:

1.III.1 UNIVERSO

Es un grupo especifico de objetos de los que se trata de estudiar una caracterstica particular.
Por ejemplo, un universo puede ser el conjunto de estudiantes universitarios inscritos en la
Facultad de Ingeniera durante cierto semestre.

1.III.2 POBLACION

Es la totalidad de valores posibles de una caracterstica particular de un universo. Para el
universo de estudiantes universitarios citados existen varias poblaciones. Estas pueden ser el
conjunto de sus estaturas, sus edades, el color de su tez, sus ingresos mensuales, el promedio
de sus calificaciones, etc.

1.III.3 TAMAODELAPOBLACION

Es el nmero de elementos que tiene una poblacin, es decir, el nmero total de valores
posibles que puede tener la caracterstica particular del universo que se estudia.

Si el universo est formado por un dado con sus caras numeradas del 1 al 6, yse trata de ver
el nmero de la cara que ve hacia arriba al tirar el dado, la poblacin estar formada por el
conjunto de nmeros (1,2,3,4,5,6), yel tamao de la poblacin ser 6. Si en este experimento
se trata de ver la caracterstica par o impar del nmero resultante, el tamao de la poblacin
ser 2.

En el ejemplo del universo de estudiantes universitarios, el tamao de la poblacin de
estaturas ser igual al nmero de alumnos inscritos en la Facultad de Ingeniera durante el
semestre en cuestin.

1.III.4 MUESTRA

Es una parte de la poblacin obtenida de acuerdo a una regla determinada. Por ejemplo, en el
universo de estudiantes considerados, una muestra de la poblacin de sus estaturas se puede
obtener midiendo a todos los alumnos que asistan a cualquier curso de Probabilidad y
Estadstica que se d a las 10 de la maana de un da determinado del semestre. En el
ejemplo del dado, una posible muestra de la poblacin de los nmeros de las caras que ven
hacia arriba puede ser

3, 2, 3, 6, 1, 5, 3, 4, 6, 1,
E S T A D S T I C A Y P R O B A B I L I D A D
6 6
obtenida de tirar 10 veces al azar el dado. Si lo que se mide es la caracterstica par e impar de
esos nmeros, la muestra estara formada por los resultados

impar, par, impar, par, impar, impar, impar, par, par, impar

Obsrvese que los elementos de una muestra deben considerarse como los resultados de un
experimento aleatorio obtenidos al realizar repetida e independientemente las pruebas
correspondientes. Existen diferentes tipos de muestras y maneras de obtenerlas, como se ver
en el siguiente captulo. Ah se establecer que el trabajo estadstico que se realizar en este
fascculo no sirve nicamente para describir la muestra, sino que tambin proporciona
informacin sobre la poblacin muestreada.

1.III.5 TAMAODELAMUESTRA

Es el nmero de elementos que forman la muestra. En la tabla 1 se tiene una muestra de
tamao 100 de la poblacin de estaturas de los estudiantes universitarios considerados antes.
En el ejemplo recin mencionado del tiro de un dado, se tienen dos muestras de tamao 10.

De una muestra interesa que sea representativa de la poblacin de donde fue obtenida. Para
serlo, es necesario disear cuidadosamente su tamao, de tal manera que sin contener a
todos los elementos de la poblacin, lo que dara lugar a un estudio exhaustivo de todos los
elementos de la poblacin, s sea lo suficientemente grande para contener todas las
variedades de la caracterstica que se trata de estudiar. Por el contrario, generalmente una
muestra de tamao grande ocasiona costos altos en su obtencin y, por economa, conviene
que sta sea de tamao reducido. En la parte de la Estadstica llamada Diseo de
experimentos se analiza este problema, adems de las maneras en que debe levantarse la
muestra para asegurar su representatividad.


1.III.6 FRECUENCIA, FRECUENCIARELATIVAY FRECUENCIARELATIVAACUMULADA
Supngase que se tienen los n elementos de una muestra de tamao n obtenida de una
poblacin, yque en sta hay

f1 resultados idnticos a x1
f2 resultados idnticos a x2
f3 resultados idnticos a x3


fk resultados idnticos a xk

en donde

E S T A D S T I C A Y P R O B A B I L I D A D
7 7

k
i
i
n f
1
(1)

yx1, x2, x3, . . . , xk son k valores numricos asociados a los eventos observados al realizar el
experimento aleatorio que define la muestra, es decir, son valores observados de una variable
aleatoria xasociada a la poblacin.

Los nmeros f1, f2, f3, . . . , fk se llaman frecuencias de ocurrencia de los valores x1, x2, x3, . . . ,
xk, respectivamente.

El cociente de una frecuencia fi entre el total de observaciones n (el tamao de la muestra), se
llama la frecuencia relativa de ocurrencia del valor xi correspondiente. Representando la
frecuencia relativa de con fi*, se tiene que

k i
n
f
f
i
i
, , 3 , 2 , 1 ,
*
K (2)

Obsrvese el paralelismo entre los conceptos de frecuencia relativa yde probabilidad clsica.
De la definicin (2) de frecuencia relativa se obtiene de inmediato las condiciones para que un
conjunto de nmeros sean frecuencias relativas de los valores de una muestra. Estas son:


k
i
i
i
f
f
1
*
*
1
1 0
(3)

Se llama frecuencia relativa acumulada de un valor xi, a la suma de frecuencias relativas de
todos los valores menores o iguales al valor xi considerado. Si Fi es la frecuencia relativa
acumulada de xi, se tiene

k i f F
i
j
j i
, , 3 , 2 , 1 ,
1
*
K

(4)


1.III.7 DISTRIBUCINEMPRICA
Se llama distribucin emprica de frecuencias de la variable aleatoria x, al conjunto de
parejas (xi, fi*), en donde i = 1,2,3,... , n. Cabe decir que, como en el caso de la distribucin
de probabilidad, una distribucin emprica describe completamente a la muestra de donde fue
obtenida, ya que los valores de xi dan los valores observados de la caracterstica de la
poblacin en la muestra, ysus correspondientes frecuencias relativas fi* proporcionan la forma
como se presentan esos resultados.

E S T A D S T I C A Y P R O B A B I L I D A D
8 8
Para el ejemplo del tiro de un dado, en donde se trata de ver el nmero de la cara
que queda hacia arriba, la distribucin emprica es:

x
i
1 2 3 4 5 6
f
i
* 0.2 0.3 0.1 0.1 0.2

Si se considera una variable aleatoria que tome el valor cero cuando el resultado del
tiro del dado es par, yel valor uno cuando es impar, la distribucin emprica de esta variable
es

x
i
0 1
f
i
* 0.4 0.6

Para las mismas muestras consideradas del tiro de un dado, las distribuciones de frecuencias
relativas acumuladas, es decir, el conjunto de parejas (xi, Fi) son, respectivamente, las
siguientes:

x
i
1 2 3 4 5 6
F
i
0.2 0.7 1.0

y

x
i
0 1
F
i
0.4 1.0

Las distribuciones empricas de frecuencias yde frecuencias relativas acumuladas tienen las
representaciones grficas que se vern ms adelante.


1.III.8 PRESENTACINDEDATOS: TABLADEFRECUENCIAS
Considrese la muestra de tamao 100 de las estaturas de los estudiantes
universitarios mostrada en la tabla 1. Debido al nmero de datos y la variabilidad de los
mismos, poca informacin se podr deducir de la muestra si se forma una tabla con las
distribuciones empricas de frecuencias y de frecuencias relativas acumuladas. Entonces,
cuando el tamao n de la muestra es grande, conviene agrupar los datos de la muestra de
alguna manera que sea menos confusa ypermita establecer patrones de los valores ob-
servados.

Para resolver el problema apuntado, conviene condensar los datos tabulando las frecuencias
asociadas a ciertos intervalos de los valores observados. Estos intervalos se llaman intervalos
de clase, los que deben estar definidos por limites que permitan identificar plenamente si un
dato particular pertenece a uno u otro intervalo de clase. Comnmente se resuelve lo anterior
haciendo que los limites de los intervalos de clase tengan una cifra decimal ms que los datos
originales, o usando adecuadamente los signos de igualdad ydesigualdad en la definicin de
cada uno de los intervalos de clase. En la prctica se ha visto que es conveniente que el
E S T A D S T I C A Y P R O B A B I L I D A D
9 9
nmero de intervalos de clase sea de 5 a 15 yque en cada intervalo caigan por lo menos 5
observaciones.

De la tabla 1 se ve que la observacin mayor en la muestra de estaturas de estudiantes
universitarios es 1.87 yla menor 1.53. La diferencia entre estas dos observaciones, 1.87 -
1.53 = 0.34, indica que en un rango de 0.34 metros estn todas las estaturas de los
estudiantes muestreados. Si se consideran unos 7 intervalos de clase, la amplitud de cada uno
de ellos ser del orden de 0.34 / 7 0.05 metros. De esta manera, yhaciendo que la
observacin menor caiga en el primer intervalo de clase yla mayor en el ltimo, los intervalos
de clase pueden ser 1.525 x 1.575, 1.575 x 1.62 , ... , 1.825 x 1.875, en donde
xrepresenta a las estaturas observadas.

Los puntos medios de los intervalos de clase reciben el nombre de marcas de clase, y se
admite que representan al conjunto de observaciones que caen en el intervalo de clase
correspondiente. Para los intervalos de clase de la muestra de estaturas determinadas, las
marcas de clase son 1.55, 1.60, ..., 1.85.

El arreglo en una tabla de los intervalos de clase, marcas de clase, frecuencias, frecuencias
relativas yfrecuencias relativas acumuladas, se conoce con el nombre de tabla de frecuencias.

Condensados los datos de una muestra en una tabla de frecuencias, el conjunto de parejas (ti,
fi), en donde ti es la marca de clase, representa la distribucin emprica de la muestra, ya
travs de ella podr obtenerse mayor informacin de la misma muestra que de los datos
dispersos.

Ejemplo 1

Dada la tabla 1 con los datos observados en una muestra de tamao 100 de las estaturas de
los estudiantes universitarios, formar una tabla de frecuencias.

Tabla 1 Muestra de estaturas de estudiantes universitarios
1.65 1.61 1.79 1.87 1.73 1.79 1.71 1.77 1.68 1.72
1.68 1.70 1.77 1.81 1.75 1.74 1.69 1.70 1.69 1.69
1.53 1.72 1.65 1.63 1.74 1.84 1.70 1.69 1.64 1.58
1.85 1.67 1.57 1.79 1.55 1.77 1.67 1.61 1.77 1.71
1.66 1.69 1.86 1.65 1.68 1.65 1.85 1.68 1.62 1.73
1.64 1.73 1.66 1.65 1.72 1.64 1.75 1.62 1.68 1.81
1.84 1.69 1.80 1.63 1.70 1.68 1.65 1.76 1.76 1.80
1.58 1.79 1.73 1.78 1.80 1.76 1.73 1.80 1.75 1.68
1.80 1.63 1.75 1.67 1.62 1.78 1.78 1.68 1.78 1.72
1.76 1.84 1.79 1.69 1.54 1.76 1.68 1.55 1.69 1.70

De la tabla 1 se obtiene:

Observacin mxima: 1.87
Observacin mnima: 1.53
rango: 0.34

E S T A D S T I C A Y P R O B A B I L I D A D
10 10
Nmero de intervalos de clase: 7
Amplitud de los intervalos de clase 0.34/7: 0.05
Primer intervalo de clase (contiene a 1.53 ysus limites tienen tres decimales): 1.525
a 1.575.

Con la informacin anterior se construye la tabla de frecuencias que aparece en la tabla 2. De
esta se puede empezar a deducir informacin valiosa sobre la muestra estudiada. Por ejemplo,
de aqu se obtiene que el 28%de los estudiantes muestreados tienen una estatura de 1.675 a
1.725 metros; que el 77%de los estudiantes tienen una estatura menor a 1.775 metros; que
es muyremoto encontrar estudiantes con estatura superior a 1.875 metros, etc.

Tabla 2 Tabla de frecuencias de la muestra de estaturas de estudiantes
universitarios.
Intervalo de
clase
Marca de
clase
ti
Conteo de
frecuencias
Frecuencia
fi
Frecuencia
relativa
fi*
Frecuencia
relativa
acumulada
Fi
1.525 1.575 1.55 IIIII 5 0.05 0.05
1.575 1.625 1.60 IIIIIII 7 0.07 0.12
1.625 1.675 1.65 IIIIIIIIIIIIIIIII 17 0.17 0.29
1.675 1.725 1.70 IIIIIIIIIIIIIIIIIIIIIIIIIIII 28 0.28 0.57
1.725 1.775 1.75 IIIIIIIIIIIIIIIIIII 20 0.20 0.77
1.775 1.825 1.80 IIIIIIIIIIIIIIII 16 0.16 0.93
1.825 1.875 1.85 IIIIIII 7 0.07 1.00


1.III.9 REPRESENTACIONESGRFICASDELASDISTRIBUCIONESEMPRICAS
En forma semejante a los polgonos de probabilidad yde probabilidad acumulada, existen
representaciones grficas de las distribuciones empricas. stos son los histogramas ylos
polgonos de frecuencias acumuladas.
1.III.9.1 HISTOGRAMA

Es una representacin grfica de la distribucin emprica en un sistema de ejes coordenados
rectangulares de referencia. En el eje de las abscisas se sitan las marcas de clase, yen el de
las ordenadas las frecuencias o las frecuencias relativas. La representacin es a base de
rectngulos de base igual al intervalo de clase yde altura la frecuencia o frecuencia relativa
correspondiente. Dependiendo de que se grafiquen las frecuencias o las frecuencias relativas,
el histograma se llama de frecuencias o frecuencias relativas, respectivamente.

En la figura 1 se tiene el histograma de frecuencias relativas de la muestra de estaturas de los
estudiantes universitarios. Los datos para construirlo se tomaron de la tabla 2. En la misma
figura se han unido los puntos sucesivos (ti, fi*) por medio de rectas discontinuas; a este trazo
se le llama el polgono de frecuencias relativas de la distribucin emprica.

E S T A D S T I C A Y P R O B A B I L I D A D
11 11

Figura1 Histograma de frecuencias relativas correspondiente a la estatura de una muestra de 100 alumnos. Histograma de frecuencias relativas correspondiente a la estatura de una muestra de 100 alumnos.

1.III.9.2 POLIGONODE FRECUENCIAS RELATIVAS ACUMULADAS

El polgono de frecuencias relativas acumuladas, tambin llamado ojiva, es una representacin
poligonal abierta de las frecuencias relativas acumuladas en un sistema de ejes coordenados
rectangulares de referencia. En el eje de las abscisas se sitan los valores de los lmites de los
intervalos de clase, yen el de las ordenadas las frecuencias relativas acumuladas de los
mismos valores.

En la figura 2 se tiene el polgono de frecuencias relativas acumuladas de la misma muestra de
estaturas de los estudiantes universitarios. Tambin se construy tomando los datos de la
tabla 2.

En un polgono de frecuencias relativas acumuladas, la abscisa de cualquier punto del polgono
se llama el fractil, yla ordenada correspondiente la fraccin, la que se maneja en forma
porcentual. Esta representa precisamente la fraccin de la totalidad de datos que tienen un
valor menor o igual al del fractil correspondiente. Para referirse a un fractil en particular, se le
asocia la fraccin al cual corresponde. Por ejemplo, en la figura 2 se tiene trazado el fractil
70%, cuyo valor es 1.7575; significa que el 70%de los estudiantes medidos tienen una
estatura menor a 1.7575 metros.

Algunos fractiles tienen nombres particulares. As, el fractil 1%se llama el primer percentil o
percentil 1, el fractil 2%se llama el segundo percentil o percentil 2, etc. El fractil l0%se
conoce como el primer decil o decil 1, el fractil 20%es el segundo decil o decil 2, etc. Los
fractiles 25%, 50% y 75% se les denomina el primero, segundo y tercer cuartiles,
respectivamente. Y el fractil 50%se le llama la mediana. Esta, como puede verse, es un valor
tal que la mitad de los datos son menores que ella, yla otra mitad mayores que la misma. En
la figura 2 tambin est trazada la mediana.

E S T A D S T I C A Y P R O B A B I L I D A D
12 12

Figura2 Polgono de frecuencias relativas acumuladas de estaturas de la muestra de estudiantes. Polgono de frecuencias relativas acumuladas de estaturas de la muestra de estudiantes.

1.III.10 PARMETROSDESCRIPTIVOSDEUNADISTRIBUCINEMPRICA
Como en las distribuciones tericas de probabilidad, en las distribuciones empricas existen
diferentes parmetros descriptivos que resumen una gran cantidad de informacin sobre las
muestras. Estos parmetros se clasifican en medidas de tendencia central, medidas de
dispersin, medidas de asimetra y medidas de aplanamiento. Dentro de las medidas de
tendencia central se tienen la media, la mediana y la moda; dentro de las medidas de
dispersin se mencionarn al rango, la variancia, la desviacin estndar y el coeficiente de
variacin.

En general, las medidas de tendencia central representan valores promedios o medidas de
posicin de los datos de la muestra. Las de dispersin miden el grado de agregacin, de
concentracin, de variabilidad de los datos. Como sus nombres lo dicen, las medidas de
asimetra yde aplanamiento establecen criterios para comparar el histograma de la muestra
con respecto a ciertas normas. A continuacin se definen los diferentes parmetros
descriptivos.

E S T A D S T I C A Y P R O B A B I L I D A D
13 13
1.III.10.1 MEDIA

La media es el ms comn de los parmetros descriptivos de tendencia central. Se define
como el promedio aritmtico de todos los datos de la muestra.

De acuerdo a la definicin anterior, si x1, x2, x3, . . . ,xn son valores observados de la variable
aleatoria x correspondientes a una muestra de tamao n obtenida de una poblacin, la media,
representada por x , es:

n
x
x
n
i
i

1
(5)

Si los datos de la muestra estn concentrados en una tabla de frecuencias, en donde las
marcas de clase son ti ylas frecuencias fi con i = 1,2,3,... ,k, entonces la media de la muestra
queda definida por:

n
f t
f
f t
x
k
i
i i
k
i
i
k
i
i i


1
1
1
(6)

1.III.10.2 MEDIANA

Como ya se haba mencionado, la mediana es un valor tal que la mitad de las observaciones
son menores que ese valor yla otra mitad mayores que el mismo. Su valor puede determinarse
ordenando los datos de la muestra de menor a mayor ytomando el elemento central cuando
exista, el colocado en la posicin (n + 1) / 2 para n impar; si no existe, se conviene tomar
como mediana al promedio de los dos centrales. En el caso de la muestra del tiro de un dado,
las observaciones ordenadas son: 1,1,2,3,3,3,4,5,6,6, por lo que su mediana es (3+3) / 2 =
3.

Cuando los datos se encuentran agrupados en una tabla de frecuencias, la mediana puede
obtenerse aproximadamente aceptando que las observaciones pertenecientes a cada intervalo
de clase se distribuyen uniformemente en el mismo.

El intervalo de clase en donde est alojada la mediana se determina de la columna de
frecuencias relativas acumuladas de la tabla de frecuencias; aquel para el cual ocurre primero
que Fi es mayor de 0.5. Para este intervalo supngase que L1 es su lmite interior, c la amplitud
de ese intervalo, (

f )1 la suma de las frecuencias de los intervalos anteriores a aquel en


donde est alojada la mediana yfmla frecuencia del mismo intervalo de clase; entonces, la
mediana ser igual a L1 ms una parte del intervalo de amplitud c que complete la mitad de las
observaciones a la izquierda de la mediana, como se muestra en la figura 3. Como las
E S T A D S T I C A Y P R O B A B I L I D A D
14 14
observaciones estn uniformemente distribuidas en el intervalo de clase de la mediana, la
parte de c que hayque sumar a L1 debe ser proporcional al nmero de observaciones faltantes
a la derecha de L1 para llegar a la mitad, o sea:

( )
m
f
f
n
1
2



Por lo tanto, la mediana podr calcularse aproximadamente por medio de:

( )
1
1
1
1
]
1

+

m
f
f
n
c L x
1
1
2
~
(7)

Si se tiene dibujado el polgono de frecuencias relativas acumuladas, se puede estimar la
mediana grficamente por medio del fractil 50%, como se hizo en la figura 2.


Figura3 Histograma de frecuencias para el clculo de la mediana Histograma de frecuencias para el clculo de la mediana









E S T A D S T I C A Y P R O B A B I L I D A D
15 15
1.III.10.3 MODA

La moda de una muestra es la observacin que se presenta con mayor frecuencia; por lo
tanto, es el valor ms representativo ydescriptivo de la muestra. Desde luego que la moda
puede ser nica o tener varios valores, opacando un poco su propiedad de descripcin.

En la muestra del tiro de un dado formada por los nmeros 3, 2, 3, 6, 1, 5, 3, 4, 6, 1,
obviamente la moda es nica yvale 3.

Cuando los datos de una muestra se encuentran concentrados en una tabla de frecuencias, no
es posible calcular exactamente el valor de la moda.

En este caso se obtiene aproximadamente su valor resolviendo los tringulos semejantes que
se muestran en la figura 4.


Figura4 Histograma de frecuencias para el clculo de la moda Histograma de frecuencias para el clculo de la moda

De sta se obtiene, teniendo en cuenta que L1 es el lmite inferior del intervalo de clase que
contiene a la moda (el de mayor frecuencia), c la amplitud de ese intervalo modal, d1 la
diferencia en valor absoluto de la frecuencia del intervalo modal yla frecuencia del intervalo de
clase anterior al modal, yd2 la diferencia en valor absoluto de la frecuencia del intervalo modal
yla frecuencia del intervalo de clase que sigue al modal:

E S T A D S T I C A Y P R O B A B I L I D A D
16 16
( )
( )
1
]
1

+
+
1
]
1

+

+

2 1
1
1
2 1
1
1
1
2 1
1
1
2
1
1 1
2
1
1
1
2
2
1
1
1


d d
d
c L x
d d
d
c L x
d
d d
L x
c
d
d
L x
c
L x
c
d
d
L x
L x c
d
d
d
L x c
d
L x
(8)

Cuando el histograma de una distribucin emprica es casi simtrica, se puede estimar el valor
de la moda a partir de la relacin que existe entre la media, mediana ymoda que se analizar
en la seccin 1.III.10.9. Se ha encontrado que en distribuciones empricas moderadamente
asimtricas, la distancia entre la media yla mediana es un tercio de la distancia entre la media
yla moda, es decir,

( ) x x x x
3
1
~


Con esta relacin se puede estimar la moda de la manera siguiente:

( ) x x x x
~
3


1.III.10.4 PERCENTILES, DECILES Y CUARTILES

Los percentiles, deciles ycuartiles vistos al final de la seccin XXtambin son parmetros
descriptivos de una distribucin emprica. Estos establecen la localizacin de diversos valores
que dividen a la muestra en grupos de acuerdo a las frecuencias de las observaciones.

Los valores de los diferentes percentiles, deciles ycuartiles se pueden estimar grficamente
del polgono de frecuencias relativas acumuladas, como se hizo en la figura 2, o,
preferiblemente, con un procedimiento analtico semejante al seguido para obtener la
expresin (7). Se llega a:

E S T A D S T I C A Y P R O B A B I L I D A D
17 17
( )
1
1
]
1


+

fractil
f
f fraccin n
c L fractil
1
1
(9)

1.III.10.5 MEDIAGEOMTRICA

Existe otro tipo de promedio que resulta de inters en los clculos de Ingeniera. Se trata de la
media geomtrica, definida como la raz ensima del producto de n observaciones. As la media
geomtrica
g
x , de n observaciones x1, x2, ... , xn es:

n
n g
x x x x K
2 1
(10)

Generalmente se emplea este promedio cuando se trabaja con observaciones con las que cada
una guarda una razn aproximadamente constante respecto a la anterior, ysiempre la media
ser mayor que la media geomtrica.

El sesgo en la media es resultado de la magnitud absoluta de las razones. Por ejemplo,
duplicar un valor representa una razn de 2, en tanto que dividirlo a la mitad origina una razn
de
2
1
. De este modo, si consideramos un valor de 100 que desciende a 50 yun poco
despus se eleva a 100, las razones sern de
2
1
y2 respectivamente. La media geomtrica
es 1 2
2
1
+ , que es la tasa media de incremento. Esta respuesta es correcta en
trminos intuitivos, dado que el cambio total registrado es nulo. Sin embargo, la media de las
razones es ( ) 25 . 1 2
2
1
2
1
+ . Si las razones fueran 3 y
3
1 , la media geomtrica seguira
siendo 1, en tanto que la media geomtrica sera de
3
2
1 .

Se puede evitar el empleo de la media geomtrica mediante la transformacin de la variable
original xen log x. La media aritmtica de la nueva variable servir para obtener una respuesta
correcta, dado que, por la ecuacin (10)
n
x
x
n
i
i
g

1
log
log (11)
1.III.10.6 RANGO

La medida de dispersin ms simple es el rango. Fue usado en la construccin de la tabla de
frecuencias en el ejemplo 1 y se define como la diferencia entre la mayor y la menor
observaciones de la muestra. Si xmax es la observacin de mayor valor yxmin el valor de la
observacin mnima, el rango valdr:

min max
x x rango (12)
E S T A D S T I C A Y P R O B A B I L I D A D
18 18

Para la muestra del tiro de un dado que se ha venido analizando, las observaciones mxima y
mnima son xmax= 6 y xmin = 1, respectivamente. Por lo tanto, el rango de la muestra ser 6-
1=5.

El semi rango, definido por:

2
max min
x x
rango semi
+
(13)

es una medida de tendencia central til cuando interesa tener una aproximacin rpida de las
medidas de tendencia central en distribuciones casi simtricas. Sin embargo, es poco utilizado
porque no considera la informacin contenida en los trminos intermedios.

1.III.10.7 VARIANZA

La media de dispersin ms conocida yde mayor utilidad es la variancia. Se define como el
promedio aritmtico de los cuadrados de las desviaciones de las observaciones con respecto a
su valor medio.
Si x1, x2, x3,..., xn son los valores observados de la variable aleatoria xcorrespondientes a una
muestra de tamao n obtenida de una poblacin, y x es la media de la muestra, la variancia,
representada por s
2
x, es:

( )
n
x x
s
n
i
i
x
2
1 2

(14)

Algunos autores consideran como denominador de la expresin anterior a n - 1 en lugar de la
n. Esto es debido a que as se obtiene un estimador insesgado de la variancia de la poblacin.
Sin embargo, cuando la muestra es grande, o sea n>30, no existen diferencias apreciables en
considerar uno u otro denominador. Aqu se considerar la variancia como se define en la
expresin (12).

Desarrollando el cuadrado del segundo miembro de la expresin (12). se obtiene una
expresin cmoda de usar para calcular la variancia de una muestra. Se tiene:

( )
n
x n x x x
n
x x x x
s
n
i
i
n
i
i
n
i
i i
x
2
1 1
2
1
2 2
2
2
2
+



E S T A D S T I C A Y P R O B A B I L I D A D
19 19
pero

n
x
x
n
i
i

1


luego

2
1 1
2
2
2
1
2
1 1
2
2
2
1
1
1
1
]
1


1
1
1
1
]
1

+
1
1
1
1
]
1






n
x
n
x
s
n
x
n
x
n
x
s
n
i
i
n
i
i
x
n
i
i
n
i
i
n
i
i
x


En el caso de que los datos de la muestra estn concentrados en una tabla de frecuencias, la
variancia se calcula con

( ) ( )
n
x t
f
x t
s
k
i
i
k
i
i
k
i
i
x

1
2
1
1
2
2
(15)


1.III.10.8 DESVIACIONESTANDAR

Como en el caso de la desviacin estndar de variables aleatorias con distribucin de
probabilidad conocida, la desviacin estndar de la muestra de define como la raz cuadrada
de la variancia.

2
x x
s s (16)

1.III.10.9 COEFICIENTE DE VARIACION

En el estudio de las distribuciones de probabilidad del fascculo 2 se estableci el concepto de
coeficiente de variacin. En las distribuciones empricas es el mismo, o sea, se vuelve a definir
el coeficiente de variacin como la razn de la desviacin estndar a la media de la muestra.

100 . .
x
s
V C
x
(16)
E S T A D S T I C A Y P R O B A B I L I D A D
20 20

1.III.10.10 COEFICIENTE DE ASIMETRA

Se dice que una distribucin emprica es simtrica, cuando su histograma tiene un eje vertical
de simetra. En este caso, la media, mediana ymoda coinciden con ese eje de simetra, como
se muestra en la figura 5 (a).

En una distribucin emprica asimtrica, los valores de la media, mediana y moda son
diferentes entre s. En este caso, la moda subsiste en el rectngulo ms alto del histograma, ya
que no se ve afectada por las observaciones poco frecuentes que distorsionan la simetra del
histograma. La posicin de la mediana estar algo alejada de la moda, en la direccin de los
valores inusuales, dividiendo en dos partes el rea del histograma. Como la media es la que se
ve ms afectada por los valores extremos, quedar localizada ms lejos de la moda en la
misma direccin de los valores poco frecuentes.

Lo anterior se representa en los casos (b) y (c) de la figura 5, en donde se ha llamado
asimetra positiva o derecha al caso de tener datos poco frecuentes a la derecha de la moda
que hagan que se prolongue el histograma en esa direccin, yasimetra negativa o izquierda
al caso contrario.

De lo anterior puede establecerse que una medida de la asimetra de una distribucin emprica
puede ser la diferencia entre la media yla moda, ya que a mayor asimetra le corresponde una
mayor diferencia. Dado que la medida de la asimetra se utiliza principalmente con fines
comparativos, conviene que la propuesta sea adimensional, yque los valores grandes de la
media sean debidos a gran asimetra yno a gran dispersin de los datos. Para resolver lo
anterior, se dividir la diferencia de la media yla moda entre la desviacin estndar de la
muestra. Aeste cociente se le llama el primer coeficiente de asimetra de Pearson; vale cero
cuando la distribucin es simtrica y diferente de cero cuando es asimtrica, dando
directamente el sentido positivo o negativo de la asimetra.

x
s
x x
asimetra de e coeficient

(17)
En el caso de distribuciones moderadamente sesgadas, existe una relacin aproximada entre
los diversos promedios:

( ) x x x x
~
3
Es interesante destacar que enel caso de las distribuciones asimtricas concspide muyaguda, la
mediana constituye a menudo una til medida de tendencia central.
E S T A D S T I C A Y P R O B A B I L I D A D
21 21

Figura5 Histogramas de frecuencias relativas que muestran los tipos de simetra Histogramas de frecuencias relativas que muestran los tipos de simetra
Existen otras formas de medir la asimetra de una distribucin emprica. Es particularmente
importante la que utiliza el concepto de momento de muestra que a continuacin se establece:

Se llama momento de orden r con respecto a la media de una muestra de valores x1, x2, x3, . .
, xnde media x a

( )
n
x x
m
n
i
r
i
r

1
(18)

Si la muestra est concentrada en una tabla de frecuencias, el momento de orden r con
respecto a la media es:

( ) ( )
n
f x t
f
f x t
m
n
i
i
r
i
n
i
i
n
i
i
r
i
r

1
1
1
(19)

Una medida de la asimetra de una distribucin emprica, llamada el coeficiente momento de
asimetra, est dada por el tercer momento con respecto a la media expresado en forma
adimensional. Esta es:

( )
3
2
2
3
m
m
a (20)

E S T A D S T I C A Y P R O B A B I L I D A D
22 22
en donde m3 es el tercer momento de la muestra con respecto a la media y m2 el segundo, o
sea, la variancia. Este coeficiente tambin vale cero cuando la distribucin emprica es
perfectamente simtrica.

1.III.10.11 COEFICIENTE DE APLANAMIENTO

El histograma de una distribucin emprica puede tener la tendencia general de la grfica de la
distribucin normal estudiada en el fascculo anterior (ver su figura 11), ser ms estrecha y
alta que esa tendencia, o ms ancha ybaja que la misma. Auna distribucin emprica cuyo
histograma siga la tendencia de la grfica de la distribucin normal se dice que es mesocrtica,
si es ms alta yestrecha que sta es leptocrtica, ysi es ms ancha ybaja se le llama
platocrtica. En la figura 6 se muestran histogramas correspondientes a los tres tipos de
aplaneamiento mencionados.

El grado de aplanamiento de una distribucin emprica se llama curtosis y se mide a travs del
cuarto momento con respecto a la media expresado en forma adimensional. La medida de
aplanamiento, llamada coeficiente momento de curtosis, est definida por:

2
2
4
4
m
m
a (21)

el cual vale 3 en una distribucin mesocrtica, es mayor de 3 en distribuciones leptocrticas y
menor de 3 en platocrticas.


Figura6 Histogramas de frecuencias que muestran los tipos de aplanamiento Histogramas de frecuencias que muestran los tipos de aplanamiento







E S T A D S T I C A Y P R O B A B I L I D A D
23 23
Ejemplo 2

En la tabla 1 se tienen las estaturas de 100 estudiantes universitarios. Determinar:

La tabla de distribucin de frecuencias de las estaturas
El histograma de frecuencias relativas yla ojiva
La media, la mediana yla moda
La desviacin estndar
Los cuartiles
Si la distribucin emprica es o no simtrica
El grado de aplanamiento de la distribucin emprica

Tabla 1 Muestra de estaturas de estudiantes universitarios
1.65 1.61 1.79 1.87 1.73 1.79 1.71 1.77 1.68 1.72
1.68 1.70 1.77 1.81 1.75 1.74 1.69 1.70 1.69 1.69
1.53 1.72 1.65 1.63 1.74 1.84 1.70 1.69 1.64 1.58
1.85 1.67 1.57 1.79 1.55 1.77 1.67 1.61 1.77 1.71
1.66 1.69 1.86 1.65 1.68 1.65 1.85 1.68 1.62 1.73
1.64 1.73 1.66 1.65 1.72 1.64 1.75 1.62 1.68 1.81
1.84 1.69 1.80 1.63 1.70 1.68 1.65 1.76 1.76 1.80
1.58 1.79 1.73 1.78 1.80 1.76 1.73 1.80 1.75 1.68
1.80 1.63 1.75 1.67 1.62 1.78 1.78 1.68 1.78 1.72
1.76 1.84 1.79 1.69 1.54 1.76 1.68 1.55 1.69 1.70

Solucin:
La tabla de distribucin de frecuencias se construye de la siguiente manera:

34 . 0 53 . 1 87 . 1
min max
x x Rango

Si se forman 7 intervalos de clase, entonces la amplitud de cada uno est dada por:

049 . 0
7
34 . 0
#

clases de
Rango
c

as, aproximando la amplitud del intervalo de clase a 0.05, la tabla queda como sigue:

Tabla 2 Tabla de frecuencias de la muestra de estaturas de estudiantes
universitarios.
Intervalo de
clase
Marca de
clase
ti
Conteo de
frecuencias
Frecuencia
fi
Frecuencia
relativa
fi*
Frecuencia
relativa
acumulada
Fi
1.525 1.575 1.55 IIIII 5 0.05 0.05
1.575 1.625 1.60 IIIIIII 7 0.07 0.12
1.625 1.675 1.65 IIIIIIIIIIIIIIIII 17 0.17 0.29
1.675 1.725 1.70 IIIIIIIIIIIIIIIIIIIIIIIIIIII 28 0.28 0.57
1.725 1.775 1.75 IIIIIIIIIIIIIIIIIII 20 0.20 0.77
1.775 1.825 1.80 IIIIIIIIIIIIIIII 16 0.16 0.93
1.825 1.875 1.85 IIIIIII 7 0.07 1.00
E S T A D S T I C A Y P R O B A B I L I D A D
24 24
El histograma se construye graficando la columna de la frecuencia contra la estatura asociada a ella
por medio de una barra. El grfico resultante es el siguiente:
Histograma
0
5
10
15
20
25
30
1.55 1.6 1.65 1.7 1.75 1.8 1.85
Estatura (m)
f
r
e
c
u
e
n
c
i
a

Figura7 Histograma de la muestra de esta Histograma de la muestra de estaturas de estudiantes de la Tabla 2. turas de estudiantes de la Tabla 2.
La ojiva se construye graficando por medio de segmentos de recta la frecuencia acumulada
relativa con respecto a la estatura. La grfica es como sigue:

Ojiva
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1.55 1.6 1.65 1.7 1.75 1.8 1.85
Estatura (m)
F
r
e
c
u
e
n
c
i
a

a
c
u
m
u
l
a
d
a

Figura8 Ojiva de la muestra de estatu Ojiva de la muestra de estatura de estudiantes de la Tabla 2. ra de estudiantes de la Tabla 2.

E S T A D S T I C A Y P R O B A B I L I D A D
25 25
El clculo de la media lo podemos efectuar tratando la muestra como datos dispersos, aunque
ya construida la tabla de distribucin de frecuencias se puede realizar el clculo por medio de
las ecuaciones para datos agrupados. Para datos dispersos tenemos:

7111 . 1
100
11 . 171
100
100
1

i
i
x
x

para datos agrupados:

( ) ( ) ( ) ( ) ( ) ( ) ( )
7135 . 1
100
35 . 171
7 16 20 28 17 7 5
7 85 . 1 16 80 . 1 20 75 . 1 28 70 . 1 17 65 . 1 7 60 . 1 5 55 . 1
7
1
7
1

+ + + + + +
+ + + + + +

x
f
f t
x
i
i
i
i i

Si comparamos ambos resultados encontraremos una pequea diferencia, lo cual es de esperarse,
ya que al agrupar los datos perdemos algo de precisin. Sinembargo, si comparamos ambos
resultados hasta la segunda cifra decimal, que sera lo ms indicado, tenemos el mismo valor; el cual
podemos interpretar como que la estatura promedio del grupo de estudiantes es de 1.71 m.
La mediana, para datos dispersos, se determina por el ordenamiento de menor a mayor de los
datos, quedndonos la siguiente tabla:

Tabla 3 Tabla de datos dispersos ordenados de la muestra de estaturas de
estudiantes universitarios.
1.53 1.54 1.55 1.55 1.57 1.58 1.58 1.61 1.61 1.62
1.62 1.62 1.63 1.63 1.63 1.64 1.64 1.64 1.65 1.65
1.65 1.65 1.65 1.65 1.66 1.66 1.67 1.67 1.67 1.68
1.68 1.68 1.68 1.68 1.68 1.68 1.68 1.68 1.69 1.69
1.69 1.69 1.69 1.69 1.69 1.69 1.70 1.70 1.70 1.70
1.70 1.71 1.71 1.72 1.72 1.72 1.72 1.73 1.73 1.73
1.73 1.73 1.74 1.74 1.75 1.75 1.75 1.75 1.76 1.76
1.76 1.76 1.76 1.77 1.77 1.77 1.77 1.78 1.78 1.78
1.78 1.79 1.79 1.79 1.79 1.79 1.80 1.80 1.80 1.80
1.80 1.81 1.81 1.84 1.84 1.84 1.85 1.85 1.86 1.87

La mediana se debe encontrar entre los datos 50 y51, ya que tenemos un nmero de datos
par, as que se determina por el promedio de esos dos datos:

70 . 1
2
70 . 1 70 . 1
2 2
~
51 50
1 2 2

+
x x
x x
x
n n

E S T A D S T I C A Y P R O B A B I L I D A D
26 26
para datos agrupados:
( ) ( )
7125 . 1
~
28
29 50
05 . 0 675 . 1
28
17 7 5
2
100
05 . 0 675 . 1
2
~
1
1

1
]
1


+
1
1
1
1
]
1

+ +
+
1
1
1
1
]
1

+

x
f
f
n
c L x
m
i


La moda para datos dispersos sera el dato que se repite el mayor nmero de veces, es decir, el de
mayor frecuencia. De la tabla 3, tenemos que la moda sera:
68 . 1 x

Para datos agrupados, vemos que el intervalo conmayor frecuencia corresponde al de 1.675
1.725, siendo d1 y d2 las diferencias, envalor absoluto, entre las frecuencias de los intervalos
anterior yposterior respectivamente:
( ) ( )
7039 . 1
8 11
11
05 . 0 675 . 1
20 28 17 28
17 28
05 . 0 675 . 1
2 1
1
1

1
]
1

+
+
1
]
1

+
1
]
1

+
+
x
d d
d
c L x

Para el clculo de la desviacinestndar, primero debemos calcular la varianza (momento de
segundo orden). Para datos dispersos tenemos:
( )
0057 . 0
100
5748 . 0
100
100
1 2

i
i
x
x x
s
ycondatos agrupados:
( ) ( )
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( ) ( )
0057 . 0
100
5743 . 0
100
7 7135 . 1 85 . 1 16 7135 . 1 80 . 1 20 7135 . 1 75 . 1
28 7135 . 1 70 . 1 17 7135 . 1 65 . 1 7 7135 . 1 60 . 1 5 7135 . 1 55 . 1
2
2 2 2
2 2 2 2
7
1
2
7
1
7
1
2
2

+ + +
+ + +

x
i
i i
i
i
i
i i
x
s
n
f x t
f
f x t
s

E S T A D S T I C A Y P R O B A B I L I D A D
27 27
Eneste caso, la varianza tuvo el mismo valor numrico enambos casos (hasta 4 cifras decimales),
as que la desviacinestndar ser la misma independientemente de la forma de calcularla:
0758 . 0 0057 . 0
2

x x
s s
Podemos verificar la ecuacinsimplificada para el clculo de la varianza cuando se trata de datos
dispersos:
0057 . 0
9279 . 2 9336 . 2
100
11 . 171
100
3611 . 293
100 100
2
2
2
100
1
100
1
2
2


1
]
1


1
1
1
1
]
1




x
i
i
i
i
x
s
x x
s

yenconsecuencia, la desviacinestndar ser 0.0758, como se haba calculado previamente a
travs de las diferencias entre los datos yla media.
Ya que tenemos los valores numricos de la media yla desviacinestndar, podemos calcular el
coeficiente de variacin:
% 43 . 4 100
7111 . 1
0758 . 0
100 . .
x
s
V C
x

El clculo de los cuartiles slo se har para el caso de datos agrupados, yde hecho ya se ha hecho
el clculo de uno de ellos, la mediana. El primer cuartil se encuentra dentro del tercer intervalo de
clase, por tanto, suclculo es como sigue:
( ) ( )
( )
6632 . 1
17
7 5 4 100
05 . 0 625 . 1
4 4 1
1
1
1
1
1 1
1 1

1
]
1

+
+
1
1
]
1


+
1
1
]
1


+

C
f
f n
c L
f
f n
c L C
C C

yel tercer cuartil se encuentra dentro del quinto intervalo de clase:
E S T A D S T I C A Y P R O B A B I L I D A D
28 28
( ) ( )
( )
7700 . 1
20
28 17 7 5 4 300
05 . 0 725 . 1
4 3 4 3
3
1
1
1
1 3
3 3

1
]
1

+ + +
+
1
1
]
1


+
1
1
]
1


+

C
f
f n
c L
f
f n
c L C
C C

Para determinar la simetra de la distribucin emprica, calculamos el coeficiente de asimetra
(coeficiente de Pearson):
127 . 0
0758 . 0
7039 . 1 7135 . 1
3

x
s
x x
a
lo cual nos indica que la asimetra es ligeramente positiva, es decir, la curva est corrida hacia la
derecha (vase la figura 1). Por qu no calcular el coeficiente de asimetra con los datos
dispersos?, porque la curva la construimos conbase a la tabla de distribucinde frecuencias, es
decir, despus de que hemos agrupado los datos, mientras que condatos dispersos no se construy
ningnhistograma.
El grado de aplanamiento se determina por medio del clculo del coeficiente de curtsis, ypara ello
debemos calcular previamente el momento de orden4:
( ) ( )
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( ) ( )
000084 . 0
100
0084 . 0
100
7 7135 . 1 85 . 1 16 7135 . 1 80 . 1 20 7135 . 1 75 . 1
28 7135 . 1 70 . 1 17 7135 . 1 65 . 1 7 7135 . 1 60 . 1 5 7135 . 1 55 . 1
4
4 4 4
4 4 4 4
7
1
4
7
1
7
1
4
4

+ + +
+ + +

m
n
f x t
f
f x t
m
i
i i
i
i
i
i i

yel coeficiente de aplanamiento:
( )
539 . 2
0057 . 0
000084 . 0
2 2
2
4
4

m
m
a
lo cual indica que la distribucinemprica es platocrtica.

E S T A D S T I C A Y P R O B A B I L I D A D
29 29
1.III.11 REGRESINLINEAL SIMPLEYCORRELACIN

En muchos problemas haydos o ms variables inherentemente relacionadas, yes necesario
explorar la naturaleza de esta relacin. El anlisis de regresin es una tcnica estadstica para
modelar e investigar la relacin entre dos o ms variables. Por ejemplo, en un proceso
qumico, supngase que el rendimiento del producto se relaciona con la temperatura de
operacin del proceso. El anlisis de regresin puede emplearse para construir un modelo que
exprese el rendimiento como una funcin de la temperatura. Este modelo puede utilizarse
luego para predecir el rendimiento en un nivel determinado de temperatura. Tambin podra
emplearse con propsitos de optimizacin o control del proceso.

En general, supngase que hayuna sola variable o respuesta yindependiente que se relaciona
con k variables independientes o regresivas, digamos x1, x2, ..., xk. La variable de respuesta y
es una variable aleatoria, en tanto que las variables regresivas x1, x2, . . . , xk se miden con
error despreciable. Las xj se llaman variables matemticas ycon frecuencia son controladas
por el experimentador. El anlisis de regresin tambin puede utilizarse en situaciones en las
que y, x1, x2, ..., xk son variables aleatorias distribuidas conjuntamente, tal como en el caso
cuando los datos se recaban como mediciones diferentes en una unidad experimental comn.
La relacin entre estas variables se caracteriza por medio de un modelo matemtico llamado
ecuacin de regresin. De modo ms preciso, hablamos de la regresin de y en x1, x2, ..., xk.
Este modelo de regresin se ajusta a un conjunto de datos. En algunas situaciones, el
experimentador conocer la forma exacta de la relacin funcin verdadera entre y yx1, x2 , ...,
xk, por ejemplo, ( )
k
x x x f y , , ,
2 1
K . Sin embargo, en la mayor parte de los casos, la
verdadera relacin funcional se desconoce, yel experimentador elegir una funcin apropiada
para aproximar f. Un modelo de polinomio suele emplearse como la funcin de aproximacin.

En trabajos elementales a menudo se establecen relaciones mediante la determinacin de los
valores de las variables en un cierto nmero de puntos igual al nmero total de variables. Por
ejemplo, si se postula una relacin lineal y= a + bx, , dos pares de valores (x1, y1) y (x2, y2)
determinan las constantes en la ecuacin. Esto resulta satisfactorio, tomando en cuenta que
las cantidades observadas no presentan ningn error.

En la prctica, hayerrores en nuestras observaciones, ysi se realizan algunas ms, digamos
(x3, y3), es posible obtener un punto que no se ajusta de manera exacta a la lnea recta que
pasa por los dos puntos originales. Desde luego, esto tambin se aplica a las curvas que
comprenden potencias de xyde y. Los mtodos estadsticos permiten ajustar la "mejor" lnea a
una serie de datos dada, en lugar de simplemente trazar una lnea "a ojo".

Nuestro principal inters radica en el estudio de la relacin existente entre dos variables, ms
que en la estimacin de una variable a partir de la otra.





E S T A D S T I C A Y P R O B A B I L I D A D
30 30
1.III.11.1 MTODODE MINIMOS CUADRADOS

El principio en el que se basa el ajuste de la "mejor" lnea es el de mnimos cuadrados, y
establece que si yes una funcin lineal de una variable independiente x, la posicin ms
probable de una recta y = a + bx es tal que la suma de los cuadrados de las desviaciones de
todos los puntos (xi, yi) respecto de la lnea es un mnimo; las desviaciones se miden en la
direccin del eje y. Cabe destacar que el supuesto considerado consiste en que xest libre de
errores (es la asignada), o bien, est sujeta slo a errores insignificantes, en tanto que yes la
cantidad observada o medida, sujeta a errores que deben ser "eliminados" por el mtodo de
mnimos cuadrados. La yobservada es pues un valor aleatorio a partir de la poblacin de
valores de yque corresponden a una xdada. Dicha situacin existe en los experimentos
controlados, donde se tiene inters en obtener un valor medio de
i
y para cada valor dado de
xi.

Suponga que nuestras observaciones constan de n pares de valores:

'

n
n
y y y
x x x
, , ,
, , ,
2 1
2 1
K
K


e imagine que los diversos pares se representan como puntos segn se muestra en la figura .
Suponga adems que, debido a la naturaleza fsica de la relacin entre y y x, se sabe que la
relacin es lineal, o bien, se espera o sospecha que lo es. Por consiguiente, se expresa la
relacin como

bx a y + (22)

Nuestro problema consiste en encontrar los valores de a yb para el caso de la lnea de "mejor
ajuste".


Figura9 Obtencin de la recta de regresin lineal por el mtodo de mnimos cuadrados Obtencin de la recta de regresin lineal por el mtodo de mnimos cuadrados
E S T A D S T I C A Y P R O B A B I L I D A D
31 31
En lo referente a un punto i en esta lnea:

( ) 0 +
i i
bx a y

pero si se presenta un error en la medicin, habr un residuo ei tal que

( )
i i i
e bx a y +

Con n observaciones, se tienen n ecuaciones:

( )
( )
( )
n n n
e bx a y
e bx a y
e bx a y
+
+
+
M M M
2 2 2
1 1 1


Mediante el uso de la notacin de sumatoria, es posible expresar la suma de los cuadrados de
los residuos como sigue:

2
i
e P

o bien,

( ) [ ]

+
2
bx a y P
i
(23)

en la que la sumatoria se extiende desde i = 1 a i = n.

Como se mencion antes, se tiene que satisfacer la condicin de que la suma de los cuadrados
de los residuos es mnima, es decir, P es un mnimo. Esto ocurre cuando:

'

0
0
b
P
a
P


o bien,
( ) [ ]

+ 0
i i
bx a y (24)
y
( ) [ ] 0
i i i
bx a y x (25)

Quitando el subndice, se puede formular la ecuacin (24) como


0 x b a y

E S T A D S T I C A Y P R O B A B I L I D A D
32 32
Dado que a es una constante, se tiene


+ x b na y (26)
o bien,

n
x
b a
n
y

+

As pues,

x b a y + (27)

La ecuacinanterior seala que la lnea que pasa por el punto ( ) y x, esto es, por el punto cuyas
coordenadas sonlas medias adecuadas de todas las observaciones, punto al que podemos dar el
nombre de centroide de todas las observaciones. Apartir del hecho de que el punto ( ) y x, se halla
enla recta, se dice que la ecuacin(22) puede formularse como sigue
( ) x x b y y

Regresando a la ecuacin (25) se tiene


+
2
x b x a xy

Las ecuaciones (24) y(25) reciben el nombre de ecuaciones normales.

1.III.11.2 LINEADE REGRESION

Al resolver las ecuaciones normales (24) y(25), se obtiene,

( )
2
2
2

x x n
xy x y x
a (28)
y

( )
2
2

x x n
y x xy n
b (29)

De ah que la ecuacin para la lnea de mejor ajuste se pueda expresar as:

( ) ( )
x
x x n
y x xy n
x x n
y x y x
y
2
2
2
2
2



(30)

E S T A D S T I C A Y P R O B A B I L I D A D
33 33
En la prctica es ms conveniente calcular a yb de manera separada [valindose de las
ecuaciones (28) y(29)] yemplear los valores numricos de a yb directamente, al escribir y =
a + bx.

La recta dada por la ecuacin (30) se denomina lnea de regresin de ysobre x. En su
obtencin se supone que xes la variable asignada (es decir, sensiblemente libre de error) y
que y es la cantidad observada.

No obstante, si se invierten las propiedades de las variables, esto es, si y es la variable
asignada yx, la cantidad observada, se calculan las constantes en la ecuacin de la lnea

y b a x + (31)

al minimizar la suma de los cuadrados de los xresiduos. La ecuacin para la recta, conocida
como lnea de regresin de xsobre y, es

( ) ( )
y
y y n
y x xy n
y y n
xy y x y
x



2
2
2
2
2
(32)

En general,
b
a
a


y
b
b

1


pero ambas lneas se cortan en ( ) y x, . Un ejemplo de las dos lneas de regresin se muestra
en la figura 10. Debe observarse que es posible calcular la regresin cuando ambas variables
estn sujetas a error.


Figura10Lnea de regresin a) xsobre y, b) ysobre x. El ejemplo corresponde a una relacin esfuerzo Lnea de regresin a) xsobre y, b) ysobre x. El ejemplo corresponde a una relacin esfuerzo resistencia. resistencia.
E S T A D S T I C A Y P R O B A B I L I D A D
34 34

El clculo de a y b puede resultar bastante laborioso ypuede comprender nmeros grandes.
Tal esfuerzo puede reducirse sirvindose del hecho de que( ) y x, es un punto sobre la lnea.
Por tanto, se pueden transformar los ejes de las coordenadas a un nuevo origen ( ) y x, . De
este modo, las nuevas coordenadas (X, Y), sern:

'



y y Y
x x X


Como el origen de las coordenadas (X, Y) es el centroide, se dice que


0 Y X

En consecuencia, de la ecuacin (28) se tiene,

0 a

yde la (29),

2
X
XY
b (33)

Esto equivale a escribir la ecuacin (29) en la forma:

( )( )
( )

2
x x
y y x x
b

que tiene un inters ms terico.

Valindose de la ecuacin (33) se observa que la ecuacin para la lnea de regresin de y
sobre x(o Y sobre X) se convierte en:

X
X
XY
Y

2
(34)
Por supuesto, la utilizacin de (X, Y) requiere que se calculen los valores de ( ) x x y
( ) y y para todas las observaciones. Esto puede ser tedioso si xo y comprenden varios
decimales, yel clculo de los productos ycuadrados puede resultar ms laborioso que la
operacin de (x, y) directamente cuando estos ltimos valores sean enteros.

1.III.11.3 LIMITACIONES DEL MTODO

Es pertinente establecer explcitamente que el mtodo de los mnimos cuadrados slo se
puede aplicar cuando los valores observados de yi corresponden a los valores asignados (o
E S T A D S T I C A Y P R O B A B I L I D A D
35 35
libres de errores) xi; adems, el error en y(expresado como varianza de y) debe ser inde-
pendiente del nivel de x. (Por supuesto, y y xse pueden invertir.)

Para el caso de inferencias yestimaciones que se deban hacer respecto a la regresin (pero
no por el mtodo de mnimos cuadrados), tambin es necesario que los valores de yi que
corresponden a un xi dado, estn distribuidos de manera normal, ycuya media de distribucin
satisfaga la ecuacin de regresin. Adems, la varianza de los valores de y para un valor dado
de xdeber ser independiente de la magnitud de x. En muchos problemas prcticos esto no
ocurre as, y, por tanto, es necesario recurrir a la transformacin; las transformaciones
comunes se realizan obteniendo los logaritmos, races cuadradas, etc. La transformacin
estabiliza la variancia de y, yhace que las distribuciones estn ms prximas a lo normal.

1.III.11.4 RELACIONES NOLINEALES

El mtodo de ajuste de la lnea de regresin puede extenderse al caso en el que la relacin
conocida, esperada o sospechada no se encuentra en la forma de una lnea recta. El
procedimiento consiste en formular la ecuacin a la curva en su forma general, tabular las
desviaciones de y a partir de la curva supuesta, yobtener las constantes en la ecuacin que
satisfaga la condicin de que la suma de los cuadrados de las desviaciones es un mnimo.

1.III.11.5 RECTIFICACIN

La aplicacin del mtodo de los mnimos cuadrados a las relaciones no lineales, por lo general
requiere una serie considerable de clculos. No obstante, en muchos casos, una relacin no
lineal puede transformarse en una relacin de lnea recta, es decir "rectificada". Eso no slo
simplifica el manejo de los datos, sino que tambin da lugar a una presentacin grfica ms
reveladora en lo que a la evaluacin de la dispersin se refiere. La extrapolacin, si esto se
justifica (ya menudo no lo hace), tambin resulta ms sencilla, al igual que el clculo de los
diversos valores estadsticos, como la desviacin estndar o los lmites de confianza.
Claramente, los valores estadsticos calculados para variables rectificadas se aplican a ellos y
no a los datos originales. Acontinuacin se ilustrarn algunos casos simples.

La funcin exponencial
x
ab y puede rectificarse mediante la transformacin logartmica,
esto es, obteniendo los logaritmos de ambos miembros de la ecuacin:

b x a y log log log +

Esto se representar como una lnea recta si las ordenadas dan como resultado log y (es
decir, estn a una escala logartmica), en tanto que las abscisas estn a una escala lineal.

log a ylog b son las constantes de ajuste de la ecuacin. De modo que log y y xson tratadas
como variables nuevas (ylineales) a las cuales se aplica el principio de mnimos cuadrados.
La funcin de potencia
b
ax y puede rectificarse aun de manera ms simple, una vez ms
tomando logaritmos:

x b a y log log log +
E S T A D S T I C A Y P R O B A B I L I D A D
36 36

Las constantes de ajuste son ahora log a y b, ylas nuevas variables log xylog y estn rela-
cionadas linealmente.

La hiprbola x b a y + se puede rectificar tratando u x 1 como la nueva variable. Por
tanto, y y u se relacionan en forma lineal.

Si la ecuacin es de la forma
bx a
x
y
+


se puede invertir a
b
x
a
y
+
1


En consecuencia, x 1 y y 1 se relacionan en forma lineal. Alternativamente, se pueden
multiplicar ambos miembros de la ecuacin anterior por x, obteniendo as:

bx a
y
x
+

Por tanto, se grafica y x respecto a x. La eleccin depende de la naturaleza del caso
considerado.

La funcin polinomial de la forma
2
cx bx a y + + es cncava hacia arriba o hacia abajo,
dependiendo de los signos de los coeficientes. Se diferencian ambos miembros de la ecuacin
con respecto a x:
cx b
dx
dy
2 +

Una relacin de lnea recta se obtiene graficando dx dy respecto de x.

Si no se dispone de informacin anticipada acerca de la forma de la curva que se ajusta a los
datos experimentales, se requerir de mtodos de ensayo yerror. Como primer paso, se
deben graficar los datos usando las coordenadas lineales y y x; luego se dibujar una curva
lisa, yse elegir una funcin susceptible de ajuste a partir del conocimiento de las formas de
las curvas que corresponden a funciones algebraicas simples.

Es importante destacar que cuando se emplea la transformacin, la desviacin minimizada no
se encuentra en y, sino en la variable transformada. Cabe recordar que al sacar conclusiones a
partir de un experimento, como ocurre en algunos casos, la diferencia puede ser significativa.
Si se tiene una razn para creer que a partir de consideraciones fsicas de un experimento, es
E S T A D S T I C A Y P R O B A B I L I D A D
37 37
la variable original yno la transformada la que debe reducir al mnimo su desviacin, entonces
la variable transformada debe ponderarse en proporcin inversa de alguna funcin del error
de la variable original. A menudo, la ponderacin se considera como proporcional a
( )
2
1 error .

Si el ajuste de la lnea recta se lleva a cabo "a ojo", el error estndar de cada punto que
representa una media de un conjunto de observaciones se puede indicar por una barra, y, por
tanto, se dibuja la curva de modo que cuanto menor sea el error asociado a un punto dado,
mayor ser la probabilidad del paso de la recta por el citado punto. Desde. luego, esto a
menudo se realiza intuitivamente cuando se tienen razones para creer que las lecturas a,
digamos, temperaturas bajas son menos confiables (es decir, tienen una menor ponderacin)
que a altas temperaturas.

Se dispone de programas de computadora estndares para el ajuste de diversas curvas de
mnimos cuadrados. Para el caso de funciones no lineales, la iteracin que emplea una
computadora es prctica.


E S T A D S T I C A Y P R O B A B I L I D A D
38 38

Conjunt os


2.I NOCINDE CONJUNTO

La palabra conjunto es un trmino primitivo, es decir, un concepto que todos entendemos
intuitivamente de la misma manera yque no requiere ser definido en trminos de conceptos
ms elementales.

As, en lugar de intentar definir dicho concepto presentamos a continuacin algunos ejemplos y
observaciones que contribuyen a precisar lo que entenderemos por conjunto.

El alfabeto espaol, por ejemplo, es un conjunto de letras, los alumnos presentes en una clase
determinada integran tambin un conjunto. Se habla, asimismo, del conjunto de requisitos que
se deben satisfacer para ingresar en la Universidad, o del conjunto de puntos de una lnea
recta.

Las letras, los alumnos, los requisitos ylos puntos son los elementos de los diversos conjuntos
mencionados.

Los conceptos conjunto yelemento se explican mutuamente yno es posible concebirlos
por separado: un conjunto est formado por elementos, y a la vez, ciertos elementos
constituyen un conjunto.

Una caracterstica importante de los conjuntos es la siguiente: siempre se debe poder afirmar,
categricamente, si un ente u objeto dado pertenece o no pertenece a un conjunto
determinado.

As, para nuestros fines, definamos a un conjunto como la coleccin de elementos que poseen
al menos una caracterstica en comn.

Captulo
2
E S T A D S T I C A Y P R O B A B I L I D A D
39 39

2.II 2.II SIMBOLOGAY NOTACIN SIMBOLOGAY NOTACIN

Generalmente usamos las letras maysculas para denotar a los conjuntos ylas minsculas
para sus elementos. Para simbolizar que un objeto, x, es elemento de un conjunto S (se dice
tambin que el elemento xpertenece al conjunto S) escribimos:

S x

mientras que, para expresar que x no es elemento del conjunto S (no pertenece a S) se
escribe:

S x

En general, la diagonal se emplea en Matemticas como smbolo de negacin. Por ello, bastar
con definir un smbolo para una proposicin determinada ysu negacin quedar expresada
mediante dicho smbolo cruzado por una diagonal.

De esta manera, si llamamos Val conjunto de las vocales del alfabeto espaol tendremos que:

etctera , , , V i V e V a

mientras que:

etctera , , , V d V c V b .

Para algunos conjuntos es posible hacer una lista completa de los elementos que lo integran.
En estos casos se acostumbra poner entre llaves dicha lista, separando los elementos por
medio de una coma, para describir al conjunto. Por ejemplo, para el conjunto V al que nos
acabamos de referir, en lugar de explicar: Ves el conjunto de las vocales del alfabeto
espaol, podemos escribir simplemente:

{ } u o i e a V , , , ,

que se lee Ves el conjunto cuyos elementos son a, e, i, o, u.

Cuando un conjunto est expresado de esta manera se dice que est descrito (o definido) por
extensin.

No siempre es posible, ni conveniente, describir un conjunto por extensin. En tales casos es
frecuente recurrir a otro tipo de descripcin, llamada por comprensin, que consiste en
representar a los elementos que integran al conjunto por medio de una literal o elemento
genrico, indicando en sta las condiciones que deben satisfacer los elementos. Por ejemplo,
el conjunto Vdel caso anterior puede quedar tambin definido de la siguiente manera:
E S T A D S T I C A Y P R O B A B I L I D A D
40 40
{ } espaol alfabeto del vocal una es x x V

La barra que est a continuacin del elemento genrico significa tal que y la expresin
anterior debe leerse Ves el conjunto de las xtales que xes una vocal del alfabeto espaol.
El elemento genrico no es siempre una literal. Por ejemplo, el conjunto:

{ } positivo entero un es y 1 2 n n x x I

puede quedar escrito ms brevemente como:

{ } positivo entero es 1 2 n n I

donde el elemento genrico es una expresin. El conjunto al que acabamos de referirnos es el
de los nmeros impares positivos.

2.III 2.III CARDINALIDAD CARDINALIDAD

El nmero de elementos contenidos en un conjunto determina la cardinalidad del conjunto. En
el caso del conjunto V, su cardinalidad ser de 5, yla expresamos:

( ) 5 V n
2.IV 2.IV CONJUNTOS FINITOS E INFINITOS CONJUNTOS FINITOS E INFINITOS

En el caso del conjunto V, hemos podido determinar con precisin el nmero de elementos que
lo integran, pero en el caso del conjunto I no es fcil decir cual es el nmero de elementos que
lo integran. Cuando sea posible determinar el nmero de elementos que forman un conjunto,
diremos que se trata de un conjunto finito. Cuando no sea posible enumerar el nmero de
elementos que contiene un conjunto, entonces nos referiremos a ellos como conjuntos
infinitos.

Los conjuntos infinitos generalmente se mencionan por medio de oraciones abiertas, ypara
presentarlos en forma enumerativa escribimos nicamente algunos de sus primeros elementos
y a continuacin tres puntos suspensivos que debemos entender como la sucesin de
elementos que cumplen con el modelo de los primeros. As, el conjunto Ves un conjunto finito,
mientras que I es infinito, ylo podemos expresar como:

{ } K , 9 , 7 , 5 , 3 , 1 I


E S T A D S T I C A Y P R O B A B I L I D A D
41 41
2.V 2.V CONJUNTOUNIVERSAL CONJUNTOUNIVERSAL

La totalidad de los elementos considerados para determinada operacin se denomina conjunto
universal yse representa con la letra U. As, para el caso del conjunto I, la totalidad de los
nmeros enteros positivos constituir el universo, o bien en el caso de V, el alfabeto espaol.
Por su definicin, entonces, el conjunto universal equivale al conjunto de reemplazamiento, es
decir, significan lo mismo.

2.VI 2.VI CONJUNTOVACO CONJUNTOVACO

Un concepto quiz no tan intuitivo, pero si indispensable, es el de conjunto vaco. Se llama as
a un conjunto sin elementos, el cual se representa mediante unas llaves vacas {}, o tambin
mediante el smbolo . La cardinalidad de es 0. Es importante hacer notar que los
trminos conjunto vaco ynmero cero son dos conceptos distintos yadems el conjunto vaco
se considera un conjunto finito.

2.VII 2.VII CONJUNTOS EQUIVALENTES CONJUNTOS EQUIVALENTES

Si dos conjuntos poseen la misma cardinalidad, se dice que son conjuntos equivalentes, ya que
tienen el mismo nmero de elementos, y puede establecerse entre ambos una
correspondencia de uno a uno, o biunvoca. As por ejemplo, los conjuntos
{ } { } 3 , 2 , 1 y rojo blanco, verde, F C son equivalentes, ya que se puede establecer la
correspondencia biunvoca:
{ } rojo blanco, verde,


{ } 3 , 2 , 1

2.VIII 2.VIII CONJUNTOS IGUALES CONJUNTOS IGUALES

Se dice que dos conjuntos AyB son iguales cuando cada elemento de Aes elemento de B y
cada elemento de B es elemento de A. En otras palabras, AyB son dos representaciones
distintas del mismo conjunto. Se simboliza B A que se lee Aes igual a B. Por ejemplo, A
representa al conjunto formado por las letras a, o, e, u, i. B representa al conjunto de vocales
del alfabeto:

{ }
{ }
B A
u o i e a B
i u e o a A

, , , ,
, , , ,


E S T A D S T I C A Y P R O B A B I L I D A D
42 42
Se considera que dos conjuntos son iguales cuando tienen los mismos elementos, sin importar
el orden en que estos se encuentren expresados o que alguno de ellos est considerado ms
de una vez. De acuerdo a esto ltimo, los conjuntos:

{ } { } b c a b a C c b a A , , , , y , ,

son iguales, ya que no importa que se repitan los elementos a yb.

Es muy importante que se entienda la diferencia entre conjuntos iguales y conjuntos
equivalentes; dos conjuntos son equivalentes cuando tienen la misma cardinalidad aunque sus
elementos sean diferentes, mientras que dos conjuntos iguales siempre son tambin
equivalentes, pues teniendo los mismos elementos tendrn la misma cardinalidad.

2.IX 2.IX SUBCONJUNTOS SUBCONJUNTOS

Consideremos nuevamente el conjunto de todas las letras del alfabeto espaol, al que
llamaremos A:

{ } espaol alfabeto del letra una es x x A

ytambin el conjunto de vocales:

{ } u o i e a V , , , ,

Es claro que cada uno de los cinco elementos de V es tambin elemento de A, puesto que
todas las vocales son letras del alfabeto. Se dice por ello que Ves un subconjunto de A(o que
est incluido en A), lo cual se representa mediante la expresin A V .

Con ayuda del smbolo (lase para todo o para cualquier), llamado cuantificador
universal, podemos enunciar una definicin de subconjunto en los siguientes trminos:

Sean AyB dos conjuntos, se dice que Aes subconjunto de B, yse escribe B A , si:

B a A a que cumple se

En el ejemplo anterior V es un subconjunto de A, pero adems este ltimo tiene otros
elementos que no pertenecen a V, por lo que se dice que es un subconjunto propio.

Acontinuacin se presenta una definicin de subconjunto propio haciendo uso del smbolo ,
llamado cuantificador existencial, que se lee existe un yse interpreta como existe al menos
un. Debe tenerse cuidado de no interpretar dicho smbolo como existe exactamente un.

E S T A D S T I C A Y P R O B A B I L I D A D
43 43
Sean AyB dos conjuntos, se dice que Aes un subconjunto propio de B, yse escribe B A ,
si:

A b B b B A que tal y

Un subconjunto que no es propio se denomina impropio. Pero como es fcil darse cuenta, el
nico subconjunto impropio de un conjunto dado es el mismo conjunto. Por otra parte, el
conjunto vaco se considera un subconjunto propio de cualquier otro subconjunto. Haytambin
que resaltar el hecho de que la cardinalidad de un subconjunto propio siempre es diferente de
la cardinalidad del conjunto en el que est incluido.

Apoyados en la definicin de subconjunto, podemos definir la igualdad de conjuntos de la
siguiente manera:

Sean AyB dos conjuntos, se dice que Aes igual a B, yse escribe B A , si B A y
A B .

La idea de subconjunto propio nos sirve tambin para establecer entre los conjuntos las ideas
de mayor que ymenor que pues si un conjunto Aes subconjunto propio de B, entonces A
est contenido en B, yB tiene por lo menos un elemento ms ypodemos decir con seguridad
que el conjunto B es mayor que el conjunto Alo cual simbolizamos B > Ao tambin que el
conjunto Aes menor que el conjunto B (A< B).

2.X 2.X DIAGRAMAS DE VENN DIAGRAMAS DE VENN

Los conjuntos pueden ser interpretados grficamente por medio de los llamados diagramas de
Venn. En tales diagramas los conjuntos estn representados por regiones cerradas del plano,
cuyos puntos interiores corresponden a los elementos del conjunto. Dichas regiones se dibujan
usualmente dentro de un rectngulo que representa al conjunto universal. De esta forma, los
conjuntos
{ } { }
{ } { } positivo entero un es 2 , , , ,
, , , , espaol alfabeto del letra una es
n n P e d c b a C
u o i e a V x x A



pueden quedar representados mediante el siguiente diagrama de Venn:


E S T A D S T I C A Y P R O B A B I L I D A D
44 44
2.XI 2.XI OPERACIONES CONCONJUNTOS OPERACIONES CONCONJUNTOS

Se definen las siguientes operaciones entre conjuntos: unin, interseccin, diferencia,
complemento y producto cruz.

Efectuar la unin de dos conjuntos es agrupar los elementos de ambos en un solo conjunto,
llamado la unin de estos, como se establece a continuacin.

Sean dos conjuntos AyB, la unin de AyB es el conjunto

{ } B x A x x B A o

En esta definicin la o est empleada en un sentido no excluyente, es decir, en la unin se
consideran tanto los elementos que pertenecen a alguno de los dos conjuntos como los que
pertenecen a ambos. En el siguiente diagrama de Venn, la unin de AyB est representada
por la regin sombreada.

La interseccin de dos conjuntos es el conjunto formado por los elementos que pertenecen a
ambos, es decir por los elementos comunes.

Sean dos conjuntos AyB, la interseccin de AyB es el conjunto:

{ } B x A x x B A y

En el siguiente diagrama la interseccin AyB corresponde al rea sombreada:

E S T A D S T I C A Y P R O B A B I L I D A D
45 45
La diferencia Amenos B de dos conjuntos AyB es el conjunto formado por todos los
elementos de Aque no pertenecen a B, como lo indica la siguiente definicin:

Sean dos conjuntos AyB, la diferencia Amenos B es el conjunto

{ } B x A x x B A y

Es importante observar que, en general, la diferencia A B yla diferencia B Ason conjuntos
diferentes. En el siguiente diagrama se representan ambas diferencias:



El complemento de un conjunto est constituido por todos los elementos que no pertenecen a
dicho conjunto (yque pertenecen, claro est, al conjunto universal). As, apoyndonos en la
definicin de diferencia podemos establecer el concepto de complemento de la siguiente
manera:

Sea Aun conjunto cualquiera yUel conjunto universal, el complemento de Aes el conjunto

A U A

El complemento de Aest representado en el siguiente diagrama por el rea sombreada





E S T A D S T I C A Y P R O B A B I L I D A D
46 46
Para ilustrar el empleo de las operaciones que acabamos de definir, consideremos los
conjuntos A, V, CyP definidos en la seccin X, yadems consideremos al universo Ucomo el
conjunto de todas las letras ytodos los nmeros. Para tales conjuntos se tiene que:
{ } u o i e d c b a C V , , , , , , ,
{ }
{ }
{ }
{ }
( )
( ) ( ) { } u o i V A C V
A A C V
C A
P P A
A P A
A P A
A V
x x V A
d c b V C
u o i C V
P A
V V A
A V A
e a C V
, ,
espaol alfabeto del consonante una es
, ,
, ,
ajenos) conjuntos son P y A que dice se que lo (por
,

















A continuacin se presenta un cuadro con las propiedades ms importantes de las
operaciones con conjuntos. Cada una de las siguientes igualdades se cumple para conjuntos A,
B y Ccualesquiera, por lo que dichas propiedades constituyen teoremas de la teora de
conjuntos.

( )






U U A A
B A B A A A A A
A A A A
A A A A A A
A U A U U A
A A A
, ,
, ,






Leyes conmutativas:

A B B A A B B A

Leyes asociativas:

E S T A D S T I C A Y P R O B A B I L I D A D
47 47
( ) ( ) ( ) ( ) C B A C B A C B A C B A


Leyes distributivas:

( ) ( ) ( ) ( ) ( ) ( ) C A B A C B A C A B A C B A

Leyes de De Morgan:

( ) ( )
( ) ( ) ( ) ( ) ( ) ( ) C A B A C B A C A B A C B A
B A B A B A B A





Se llama conjunto producto B A (lase Acruz B) de dos conjuntos AyB, al conjunto de
todas las parejas ordenadas que pueden formarse con un elemento de A como primer
elemento de la pareja y con uno de B como segundo. Recordemos que en una pareja
ordenada son importantes tanto los elementos como el orden en el que estn expresados, por
lo que en la pareja ordenada (a,b) la componente a recibe el nombre de primer elemento yla
componente b el de segundo. De esta manera, se considera que dos parejas ordenadas (a,b)
y(c,d) son iguales cuando a = c y b = d.

Sean AyB dos conjuntos, se llama conjunto producto Acruz B al conjunto

( ) { } B b A a b a B A y ,

As por ejemplo, para los conjuntos

{ } { } b a D u o i e a V , , , , ,

se tiene que

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) { } b u a u b o a o b i a i b e a e b a a a D V , , , , , , , , , , , , , , , , , , ,

mientras que

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) { } u b o b i b e b a b u a o a i a e a a a V D , , , , , , , , , , , , , , , , , , ,

Observe que la pareja (a,b), por ejemplo, pertenece a D V pero no a V D , mientras que
(a,a) es elemento de ambos conjuntos producto. Esto se debe a que el producto cruz no
conmuta, yen este caso, como el primer elemento de ambos conjuntos es a, pues coincide que
la primer pareja ordenada sea (a,a).

E S T A D S T I C A Y P R O B A B I L I D A D
48 48
El conjunto producto A A suele denotarse en forma abreviada, con
2
A . En forma anloga,
se define el producto de tres conjuntos A, B y Ccomo el siguiente conjunto de ternas
ordenadas:
( ) { } y , , , C c B b A a c b a C B A

y
3
A representa al producto A A A .

En general, el producto de n conjuntos S1, S2, ..., Sn se define como:

( ) { }
n n n
S e S e S e e e e S S S , , , , , ,
2 2 1 1 3 2 1 2 1
L L L

y
n
A representa el producto A A A L (n factores).

La representacin grfica de estos conjuntos producto no es sencilla, pero en el caso de
tratarse del conjunto producto de dos conjuntos, se puede representar mediante un plano
cartesiano x, y. Para el caso del producto de 3 conjuntos, una representacin posible es el
espacio tridimensional x, y, z.


49 49

Você também pode gostar