A. Probabilidad y Estadística Básica

.
ANTOLOGÍA
1
Material Compilado sin fines de lucro, en beneficio de la educación.
Prohibida su reproducción o distribución sin autorización de los
autores.
INTRODUCIÓN A LA ANTOLOGÍA
La antología “Probabilidad y estadística” es una compilación sin fines de lucro de

diferentes textos, pensada para ser una herramienta de apoyo que facilite a los
estudiantes el aprendizaje y desarrollo de habilidades relacionadas al contenido de esta
asignatura y por lo tanto se alcancen los objetivos planteados en el programa de estudios.
El objetivo de la asignatura “Probabilidad y estadística” es que los estudiantes sean

capaces de analizar estadísticamente con base a los fundamentos de la probabilidad y
los diferentes tipos muestreo.
Para lograr este objetivo el estudiante:
• Comprenderá las bases. aplicaciones y diferencias de la probabilidad y la

estadística.
• Conocerá los tipos de organización gráfica y resumen de datos.
• Comprenderá los fundamentos del análisis descriptivo.
• Identificará los elementos de probabilidad.
• Analizará las distribuciones de la probabilidad.
• Comprenderá la teoría general de muestreo.
2
autores.
.
CONTENIDO DE LA ASIGNATURA
1. Introducción a la probabilidad y estadística

1.1. Definición de estadística
1.2. Conceptos básicos
1.3 Aplicaciones de la estadística a la industria
2. Organización Gráfica y Resumen de los Datos

2.1. Tipos de datos
2.2 Descripción gráfica y numérica de datos
2.3 Descripción gráfica de datos cuantitativos
3. Análisis Descriptivo
3.1. Media, mediana y moda
3.2 Cuartiles, deciles y percentiles
3.3. Desviación media, varianza, desviación estándar y coeficiente de variación
4. Elementos de Probabilidad
4.1. Definición
4.2. Cálculo de probabilidades
4.3. Esperanza matemática
4.4. Ordenaciones, premutaciones y combinaciones
5. Distribuciones de probabilidad
5.1. Distribución binominal
5.2. Distribución normal y sus aplicaciones
5.3. Distribución de Poisson
5.4. Distribución multinomial
6. Teoría General de Muestreo

6.1. Teoría del muestreo
6.2. Tipos de muestreo
6.3. Estimación del tamaño de la muestra
3
autores.
1. INTRODUCCIÓN AL USO DE LA ESTADÍSTICA EN LAS EMPRESAS.
[1] La Probabilidad y la Estadística son dos campos distintos aunque relacionados entre
sí. Utilizando la Probabilidad se obtiene la frecuencia de un suceso determinado
mediante la realización de un experimento aleatorio, del que se conocen todos los
resultados posibles, bajo condiciones suficientemente estables. La teoría de la
probabilidad se usa extensamente en áreas tales como: Física, Matemática, Economía,
Ingeniería y Filosofía, para obtener conclusiones sobre la probabilidad de sucesos
potenciales y la mecánica subyacente sistemas complejos.
La Estadística es una ciencia formal que estudia la recolección, análisis e interpretación

de datos de una muestra representativa, ya sea para ayudar en la toma de decisiones o
para explicar condiciones regulares o irregulares de algún fenómeno o estudio aplicado.
Sin embargo, la Estadística es más que eso, es decir, es el vehículo que permite llevar
a cabo el proceso relacionado con la investigación científica.
La Probabilidad y Estadística puede utilizarse para optimizar el uso del material y la

fuerza de trabajo. Al investigar el desarrollo de nuevos productos, éstas permiten
comprender los fenómenos sujetos a distintas variaciones y predecirlos, así como
también controlarlos de manera eficiente.
La estadística, como toda ciencia, utiliza una terminología con la cual el lector debe estar
familiarizado. En este capítulo enunciaremos una serie de definiciones básicas; así como
también desarrollaremos procedimientos para la elaboración de tablas de datos y
representaciones gráficas de información recolectadas de situaciones particulares.
Definiciones básicas.
Datos. El dato es una representación simbólica (numérica, alfabética, algorítmica, entre

otros) de un atributo o característica de una entidad. Los datos describen hechos
empíricos, sucesos y entidades. Los datos aisladamente pueden no contener información
relevante. Sólo cuando un conjunto de datos se examina a través de un enfoque,
4
autores.
.
hipótesis o teoría se puede apreciar la información contenida en dichos datos. Los datos
pueden consistir en números, estadísticas o proposiciones descriptivas. Los datos
convenientemente agrupados, estructurados e interpretados se consideran que son la
base de la información relevante que se pueden utilizar en la toma decisiones, la
reducción de la incertidumbre o la realización de cálculos. Es de empleo muy común en
el ámbito informático y, en general, prácticamente en cualquier investigación científica.
En programación, un dato es la expresión general que describe las características de las

entidades sobre las cuales opera un algoritmo.
Un dato por sí mismo no constituye información, es el procesamiento de los datos lo que

nos proporciona información.
Sujeto. Es el objeto de investigación; el cual puede ser animado o inanimado. Personas,

objetos, medidas, etc., son ejemplos de sujetos.
Población. Conjunto de sujetos que poseen una característica común observable. El

investigador debe definir la población en estudio; la cual puede ser tan pequeña como
se quiera.
Muestra. Es un conjunto de sujetos tomados de una población. Ya que la muestra es

parte de una población, se debe tener cuidado que sea representativo de la población,
es decir que las características esenciales de la población estén reflejadas en la muestra.
Característica de los sujetos que puede tomar valores diferentes. Las variables a estudiar
son las variables discretas y las continuas. Las discretas tienen como caracteriza la
existencia de saltos o discontinuidades entre un valor y otro; además puede tomar sólo
valores enteros finitos o contables. Las continuas pueden tomar todos los valores
posibles dentro de un intervalo dado.
La estadística industrial es la rama de la estadística que busca implementar los

procedimientos probabilísticos y estadísticos de análisis e interpretación de datos o
5
autores.
características de un conjunto de elementos al entorno industrial, a efectos de ayudar en
la toma de decisiones y en el control de los procesos industriales y organizacionales.
Pueden distinguirse tres partes:
• El estudio de las series temporales y las técnicas de previsión, y la descripción de los

pasos necesarios para el establecimiento de un sistema de previsión operativo y
duradero en una empresa;
• El análisis multivalente, necesario para la extracción de información de grandes

cantidades de datos, una de las necesidades más apremiantes;
• El control de calidad y la fiabilidad. Se pueden distinguir varios aspectos:
• Serie temporal o cronológica es una secuencia de datos, observaciones o valores,

medidos en determinados momentos del tiempo, ordenados cronológicamente y,
normalmente, espaciados entre sí de manera uniforme. El análisis de series temporales
comprende métodos que ayudan a interpretar este tipo de datos, extrayendo información
representativa, tanto referente a los orígenes o relaciones subyacentes como a la
posibilidad de extrapolar y predecir su comportamiento futuro.
De hecho, uno de los usos más habituales de las series de datos temporales es su
análisis para predicción y pronóstico. Por ejemplo, los datos climáticos, las acciones de
bolsa, o las series pluviométricas. Resulta difícil imaginar una rama de las ciencias en la
que no aparezcan datos que puedan ser considerados como series temporales. Son
estudiadas en estadística, procesamiento de señales, econometría y muchas otras
áreas.
Control de calidad son todos los mecanismos, acciones, herramientas que se realizan
para detectar la presencia de errores. La función del control de calidad existe
primordialmente como una organización de servicio, para conocer las especificaciones
establecidas por la ingeniería del producto y proporcionar asistencia al departamento de
fabricación, para que la producción alcance estas especificaciones. Como tal, la función
6
autores.
.
consiste en la recolección y análisis de grandes cantidades de datos que después se
presentan a diferentes departamentos para iniciar una acción correctiva adecuada. Todo
producto que no cumpla las características mínimas para decir que es correcto, será
eliminado, sin poderse corregir los posibles defectos de fabricación que podrían evitar
esos costos añadidos y desperdicios de material.
Para controlar la calidad de un producto se realizan inspecciones o pruebas de muestreo

para verificar que las características del mismo sean óptimas. El único inconveniente de
estas pruebas es el gasto que conlleva el control de cada producto fabricado, ya que se
eliminan los defectuosos, sin posibilidad de ser reutilizable. La función principal es
asegurar que los productos o servicios cumplan con los requisitos mínimos de calidad.  
2. ORGANIZACIÓN GRÁFICA Y RESUMEN DE LOS DATOS
[2] Obtenidos a través de encuestas, experimentos o cualquier otro conjunto de medidas,

los datos estadísticos suelen ser tan numerosos que resultan prácticamente inútiles si no
son resumidos de forma adecuada. Para ello la Estadística utiliza tanto técnicas gráficas
como numéricas.
Podemos decir que existe una clasificación, un tanto artificial, de los datos, según se
refieran a una población tangible, en cuyo caso se conocerán todos los casos, o a una
población conceptual, en cuyo caso sólo se conocerá una muestra (aleatoria simple). Sin
embargo, esta clasificación no tiene ningún efecto en lo relativo a lo que vamos a estudiar
en este capítulo.
Los datos cuantitativos son los que representan una cantidad reflejada en una escala
numérica. A su vez, pueden clasificarse como datos cuantitativos discretos si se refieren
al conteo de alguna característica, o datos cuantitativos continuos si se re􏲙eren a una
medida.
Los datos cualitativos o categóricos se re􏲙eren a características de la población que no

pueden asociarse a cantidades con significado numérico, sino a características que sólo
7
autores.
pueden clasificarse.
La forma más sencilla de describir de forma numérica una variable cualitativa es

determinar su distribución de frecuencias. Por su parte, esta distribución de frecuencias
determina a su vez las representaciones gráficas más usuales.
Las representaciones gráficas más usuales son los diagramas de barras y los diagramas
de sectores.
Supongamos que tenemos una variable cualitativa, que toma una serie de posibles
valores (categorías). El número de veces que se da cada valor es la distribución de
frecuencias de la variable. Si en vez de dar el número de veces nos fijamos en la
proporción de veces, tenemos la distribución de frecuencias relativas.
Los diagramas de barras son una representación de cada una de las categorías de la
variable mediante una barra colocada sobre el eje X y cuya altura sea la frecuencia o la
frecuencia relativa de dichas categorías.
Los diagramas de sectores son círculos divididos en tantos sectores como categorías,
sectores cuyo ángulo debe ser proporcional a la frecuencia de cada categoría.
Métodos gráficos para describir datos cuantitativos
Si tenemos una variable cuantitativa discreta y ésta toma pocos valores, podemos tratarla
como si fuera una variable cualitativa, calcular su distribución de frecuencias y dibujar un
diagrama de barras.
Sin embargo, la mayoría de variables cuantitativas son de tipo continuo, de manera que
toman demasiados valores como para que la representación de su distribución de
frecuencias sea útil. Por ello el método gráfico más común y tradicional para datos
cuantitativos es el histograma.
Para obtener un histograma de forma manual deben seguirse los siguientes pasos:
8
autores.
.
1. Calculamos el número, N, de intervalos que vamos a utilizar. Se recomienda que sea
aproximadamente igual a la raíz cuadrada del número de datos. Sin embargo, los
programas estadísticos suelen utilizar otro método, llamado Método de Surges, en el que
N = ⌈log2 n + 1⌉, donde n es el número de datos y [] es la función parte entera.
Se construyen los N intervalos:
1. Calculamos el rango, R, del histograma, que será ligeramente más amplio que el
rango de los datos. El histograma debe comenzar en un número (xm) ligeramente por
debajo del mínimo de los datos y terminar en un número (xM) ligeramente por encima
del máximo. El rango del histograma será, por tanto, R=xM −xm.  
2. Calculamos la longitud, L, de los intervalos, como el cociente entre el rango del
histograma y el número de intervalos, es decir, L = R.  
I1 = [xm, xm +L)  I2 = [xm + L, xm + 2L) I3 = [xm + 2L, xm + 3L) ... IN = [xm+N×L, xM).
3. Para cada intervalo, contamos el número de datos que hay en él, es decir, la
frecuencia del intervalo.  
4. El histograma es un diagrama de barras donde en el eje X se colocan los intervalos

y sobre ellos se construyen barras cuya altura sea la frecuencia o la frecuencia
relativa del intervalo. En este caso, las barras deben dibujarse sin espacio entre ellas.
En ocasiones, en vez de tomar la frecuencia relativa como altura de las barras, se
toma dicha frecuencia relativa como área de las barras: en ese caso, se habla de un
histograma en escala de densidad.
3. ANÁLISIS DESCRIPTIVO
[3] Medidas de centralización
Entre las medidas características de una distribución destacan las llamadas medidas de
9
autores.
centralización, que nos indicarán el valor promedio de los datos, o en torno a qué valor
se distribuyen estos.
Media aritmética
Supongamos que tenemos una muestra de tamaño N, donde la variable estadística x

toma los valores x1, x2,. . ., xN.
Es decir, la media se calcula sencillamente sumando los distintos valores de x y

dividiendo por el número de datos. En el caso de que los diferentes valores de x
aparezcan repetidos, tomando entonces los valores x1, x2,. . ., xk, con frecuencias
absolutas n1, n2,. . ., nk.
 Una propiedad importante de la media aritmética es que la suma de las desviaciones

de un conjunto de datos respecto a su media es cero. Es decir, la media equilibra las
desviaciones positivas y negativas respecto
La media representa entonces una especie de centro de gravedad, o centro geométrico,

del conjunto de medidas. Una característica importante de la media como medida de
tendencia central es que es muy poco robusta, es decir depende mucho de valores
particulares de los datos. Si por ejemplo, en una muestra introducimos un nuevo dato
con un valor mucho mayor que el resto, la media aumenta apreciablemente (dados los
datos 1, 2, 1, 1,100, se tiene x = 21). La media aritmética es por tanto muy dependiente
de observaciones extremas.
Como el objetivo de la estadística descriptiva es describir de la forma m ́as simple y clara

la muestra obtenida, es importante siempre usar unas unidades que cumplan mejor dicho
fin. Por este motivo, a veces es muy útil realizar un cambio de origen y unidades para
simplificar los valores de la variable. Por ejemplo, supongamos que x es la altura en
́ entonces valores típicos x = 1.75, 1.80,
metros de una muestra de individuos. Tomar a
1.67,… Si efectuamos aquí un cambio a una nueva variable y definida como y =
100(x−1.65), los nuevos valores serán y = 10, 15, 2,. . . y, por tanto, el análisis ser ́a m ́as
10
autores.
.
sencillo y se usarán menos dígitos. A este proceso de cambio de origen y unidades se le
llama una transformación lineal.
Es decir, una vez calculada la media aritmética de la nueva variable y, se puede encontrar
la media de x.
Mediana
Una medida de centralización importante es la mediana. Se define esta como una medida
central tal que, con los datos ordenados de menor a mayor, el 50 % de los datos son
inferiores a su valor y el 50 % de los datos tienen valores superiores. Es decir, la mediana
divide en dos partes iguales la distribución de frecuencias o, gráficamente, divide el
histograma en dos partes de áreas iguales. Vamos a distinguir diversos casos para su
cálculo:
1. Supongamos en primer lugar que los diferentes valores de la variable no

aparecen, en general, repetidos. En este caso, y suponiendo que tenemos los
datos ordenados, la mediana ser ́a el valor central, si N es impar, o la media
aritmética de los dos valores centrales, si N es par.
2. En comparación con la media aritmética la mediana, como medida de
centralización, tiene propiedades muy distintas, presentando sus ventajas e
inconvenientes. Por un lado, la mayor ventaja de la media es que se utiliza toda
la información de la distribución de frecuencias (todos los valores particulares de
la variable), en contraste con la mediana, que solo utiliza el orden en que se
distribuyen los valores. Podría pues considerarse, desde este punto de vista, que
́ s fiable del valor central de los datos. Sin
la media aritmética es una medida m a
embargo, como hemos visto anteriormente, la media es muy poco robusta, en el
sentido de que es muy sensible a valores extremos de la variable y, por lo tanto,
a posibles errores en las medidas.
La mediana, por otro lado, es una medida robusta, siendo muy insensible a valores que
se desvíen mucho. Por ejemplo, supongamos que la variable x toma los valores x = 2, 4,
11
autores.
5, 7,8, la media y la mediana serían en este caso muy parecidas (x = 5.2, M e = 5). Pero
si sustituimos el último valor 8 por 30, la nueva media se ve muy afectada (x = 9.6), no
siendo en absoluto una medida de la tendencia central, mientras que el valor de la
mediana no cambia (Me = 5). Podríamos poner como contraejemplo el caso de las
longitudes de barras (en cm) inicialmente idénticas calentadas a temperaturas
desconocidas en distintos recipientes: 1.80/1.82/1.85/1.90/2.00, cuya media y mediana
son x = 1.874 y Me = 1.85. Si la temperatura de uno de esos recipientes varía, y la
longitud mayor aumenta de 2.00 a 2.20 cm, la mediana no varía, pero la media pasa a x
= 1.914 y nos informa del cambio.
En general, lo mejor es considerar media aritmética y mediana como medidas

complementarias. Es más, la comparación de sus valores puede suministrar información
muy útil sobre la distribución de los datos.
Moda
Se define la moda de una muestra como aquel valor de la variable que tiene una
frecuencia máxima. En otras palabras, es el valor que m ́as se repite. Hay que indicar
́ ica, es decir que aparezcan varios máximos
que puede suceder que la moda no sea u n
en la distribución de frecuencias. En ese caso diremos que tenemos una distribución
bimodal, trimodal, etc. Evidentemente, en el caso de una variable discreta que no toma
valores repetidos, la moda no tiene sentido. Cuando si existen valores repetidos su
cálculo es directo ya que puede leerse directamente de la tabla de distribución de
frecuencias.
Cuartiles, deciles y percentiles
Vamos a generalizar ahora el concepto de mediana. Vimos que ́esta era el valor de la
variable que dividía a la muestra (ordenada) en dos mitades iguales. Definimos ahora los
cuartiles como los tres valores que dividen la muestra en cuatro partes iguales. As í el
́ la medida tal que el 25 % de los datos sean inferiores a su valor
primer cuartil Q1/4 ser a
12
autores.
.
y el 75 % de los datos sean superiores. El segundo cuartil Q1/2 coincide con la mediana,
mientras que el tercer cuartil Q3/4 marcara ́ el valor tal que las tres cuartas partes de las
́ l y una cuarta parte sea superior.
observaciones sean inferiores a e
La forma de calcular los cuartiles es igual a la ya vista para la mediana pero sustituyendo
N/2 por N/4 y 3N/4 para Q1/4 y Q3/4 respectivamente.
Las medidas de centralización vistas anteriormente reducen la información recogida de

la muestra a un solo valor. Sin embargo, dicho valor central, o medio, ser ́a m ́as o menos
representativo de los valores de la muestra dependiendo de la dispersión que las
medidas individuales tengan respecto a dicho centro. Para analizar la representatividad
de las medidas de centralización se definen las llamadas medidas de dispersión. Estas
nos indicarán la variabilidad de los datos en torno a su valor promedio, es decir si se
encuentran muy o poco esparcidos en torno a su centro. Se pueden definir entonces,
́ stas fundamentales para la
diversas medidas de desviación o dispersión, siendo e
descripción estadística de la muestra.
Recorridos
Una evaluación rápida de la dispersión de los datos se puede realizar calculando el

recorrido (también llamado rango), o diferencia entre el valor máximo y mínimo que toma
la variable estadística. Con el fin de eliminar la excesiva influencia de los valores
extremos en el recorrido, se define el recorrido intercuartílico como la diferencia entre el
tercer y primer cuartil
RI = Q3/4 − Q1/4. (3.11) Está claro que este recorrido nos dar ́a entonces el rango que
ocupan el 50 % central de los datos. En ocasiones se utiliza el recorrido
semiintercuartílico, o mitad del recorrido intercuartílico Q3/4 − Q1/4
RSI = .
Desviación media
Otra manera de estimar la dispersión de los valores de la muestra es comparar cada uno
13
autores.
de estos con el valor de una medida de centralización. Una de las medidas de dispersión
m ́as usada es la desviación media, también llamada con m a
́ s precisión desviación
media respecto a la media aritmética. Se define esta como la media aritmética de las
diferencias absolutas entre los valores de la variable y la media aritmética de la muestra.
Medidas de dispersión
Evidentemente, en el caso de que la variable no tome valores repetidos, ni esté agrupada

en intervalos.
Hay que destacar la importancia de tomar valores absolutos de las desviaciones. Si no

se hiciese así unas desviaciones se anularían con otras, alcanzando finalmente la
desviación media un valor de 0, debido a la propiedad de la media aritmética.
En ocasiones se define una desviación media en términos de desviaciones absolutas en

torno a una medida de centralización diferente de la media aritmética.
́ s usada para estimar la dispersión de los datos es la

Sin lugar a dudas la medida m a
desviación típica. Esta es especialmente aconsejable cuando se usa la media aritmética
como medida de tendencia central. Al igual que la desviación media, está basada en un
valor promedio de las desviaciones respecto a la media. En este caso, en vez de tomar
valores absolutos de las desviaciones, para evitar as ́i que se compensen desviaciones
positivas y negativas, se usan los cuadrados de las desviaciones. Esto hace además que
los datos con desviaciones grandes influyan mucho en el resultado final.
Evidentemente la varianza no tiene las mismas unidades que los datos de la muestra.
Para conseguir las mismas unidades se define la desviación típica (algunas veces
llamada desviación estándar como la raíz cuadrada de la varianza
En muchas ocasiones se definen varianza y desviación típica utilizando N en vez de N −

1 en el denominador, representando entonces la varianza una verdadera media
aritmética del cuadrado de las desviaciones. Está claro que ambas definiciones llevan a
valores muy parecidos cuando N es grande. El motivo de haber optado aquí por la
14
autores.
.
definición con N − 1 es que esta da una mejor estimación de la dispersión de los datos.
́ ngase en cuenta que como la suma de las desviaciones xi − x es siempre 0. La
Te
desviación del último dato puede calcularse una vez que se conozcan las N − 1
anteriores. Es decir, sólo se tienen N − 1 desviaciones independientes (se dice que el
sistema tiene N − 1 grados de libertad) y se promedia entonces dividiendo por N −1, ya
que no tiene mucho sentido promediar N números no independientes. Nótese además
que cuando solo se tiene un dato (N = 1), en el caso de la definición con N en el
denominador se obtendría una varianza 0, que no tiene mucho sentido, mientras que en
la definición con N − 1 la varianza estaría indeterminada.
La expresión anterior es más fácil de aplicar ya que bastará con calcular los sumatorios
de los datos al cuadrado y de los datos, habiéndose calculado ya este último para la
media.
En cuanto a las propiedades de la desviación típica, es fácil ver que está será siempre
positiva y solo tendrá un valor nulo cuando todas las observaciones coincidan con el
valor de la media.
Se puede demostrar que dicha desviación cuadrática ser ́a mínima cuando a = x. Es

decir, la varianza (y, por tanto, la desviación típica) es la mínima desviación cuadrática.
Para demostrarlo derivamos la expresión anterior respecto a a, e igualamos la derivada
a 0 (condición necesaria para que D2 sea mínimo) como queríamos demostrar. Esta
́ s sentido a la definición de la desviación típica.
propiedad le da además m a
Hay que indicar que la desviación típica no es una medida robusta de la dispersión. El
hecho de que se calcule evaluando los cuadrados de las desviaciones hace que sea muy
sensible a observaciones extremas, bastante m ́as que la desviación media (dado que
aparece un cuadrado). En definitiva, la desviación típica no es una buena medida de
dispersión cuando se tiene algún dato muy alejado de la media. El rango intercuartílico
́ s aproximada de cuál es la dispersión de los datos.
nos daría en ese caso una idea m a
En la discusión sobre la media aritmética se vio cómo su cálculo se podía simplificar a

15
autores.
veces si se realizaba una transformación lineal de la variable x a una nueva variable. En
este caso, existe una relación muy sencilla entre las desviaciones típicas (s x y sy) de
ambas variables.
De esta forma, una vez calculada la desviación típica de y, se puede evaluar la de x

sy
haciendo sx = .
Se demuestra así además que, aunque la desviación típica depende de la unidades

elegidas (a través de b), es independiente de un cambio de origen (dado por a). 
Un problema que plantean las medidas de dispersión vistas es que vienen expresadas
en las unidades en que se ha medido la variable. Es decir, son medidas absolutas y con
el único dato de su valor no es posible decir si tenemos una dispersión importante o no.
Para solucionar esto, se definen unas medidas de dispersión relativa, independiente de
las unidades usadas. Estas dispersiones relativas van a permitir además comparar la
dispersión entre diferentes muestras (con unidades diferentes). Entre estas medidas hay
que destacar el coeficiente de variación de Pearson, definido como el cociente entre la
desviación típica y la media aritmética
4. ELEMENTOS DE PROBABILIDAD
[4]La teoría de la probabilidad es la parte de las matemáticas que se encarga del estudio
de los fenómenos o experimentos aleatorios. Por experimento aleatorio entenderemos
todo aquel experimento que cuando se le repite bajo las mismas condiciones iniciales, el
resultado que se obtiene no siempre es el mismo. El ejemplo m ́as sencillo y cotidiano
de un experimento aleatorio es el de lanzar una moneda o un dado, y aunque estos
experimentos pueden parecer muy sencillos, algunas personas los utilizan para tomar
decisiones en sus vidas. En principio no sabemos cuál será el resultado del experimento
aleatorio, así que por lo menos conviene agrupar en un conjunto a todos los resultados
posibles. El espacio muestral (o espacio muestra) de un experimento aleatorio es el
conjunto de todos los posibles resultados del experimento, y se le denota generalmente
16
autores.
.
por la letra griega Ω (omega). En algunos textos se usa también la letra S para denotar
al espacio muestral. Esta letra proviene del término sampling space de la lengua inglesa
equivalente a espacio muestral.
Llamaremos evento a cualquier subconjunto del espacio muestral y denotaremos a los

eventos por las primeras letras del alfabeto en mayúsculas: A, B, C, etc.
Ejemplo. Si un experimento aleatorio consiste en lanzar un dado y observar el número

que aparece en la cara superior, entonces claramente el espacio muestral es el conjunto
Ω = {1, 2, 3, 4, 5, 6}. Como ejemplo de un evento para este experimento podemos definir
el conjunto A = {2, 4, 6}, que corresponde al suceso de obtener como resultado un
número par. ◦
Si al lanzar un dado una vez obtenemos el número “4”, decimos entonces que se observó
la ocurrencia del evento A = {2, 4,6}, y si se obtiene por ejemplo el resultado “1” decimos
que no se observó la ocurrencia del evento A.
Puesto que los conceptos de espacio muestral y evento involucran forzosamente la

terminología de conjuntos, recordaremos a continuación algunas operaciones entre
estos objetos y algunas propiedades que nos serán de utilidad en el estudio de la
probabilidad y la estadística.
Supondremos entonces que el espacio muestral Ω de un experimento aleatorio es

nuestro conjunto universal y cualquier elemento de Ω lo denotaremos por ω (omega
minúscula). El conjunto vacío lo denotaremos por ∅. Otros símbolos usuales son los de
pertenencia (∈), o no pertenencia (∈/), de un elemento en un conjunto, y los de
contención (⊂, ⊆), o no contención (̸⊂), de un conjunto en otro. Si A es un conjunto,
denotamos la cardinalidad o número de elementos de ese conjunto por el símbolo #A.
Sean A y B dos subconjuntos cualesquiera de Ω. Recordamos a continuación las

operaciones básicas de unión, intersección, diferencia y complemento:
A∪B = {ω∈Ω:ω∈A o
́ ω∈B}, A∩B = {ω∈Ω:ω∈Ayω∈B}, A−B = {ω∈Ω:ω∈Ayω∈/B},
17
autores.
Ac = {ω∈Ω:ω∈/A}.
Cuando los conjuntos se expresan en palabras, la operación unión, A ∪ B, se lee “A o B”

y la intersección, A ∩ B, se lee “A y B”.
El complemento de un conjunto A se denota por A c y se define como la colección de

aquellos elementos de Ω que no pertenecen al conjunto A. Mediante un diagrama de
Venn ilustramos gráficamente las operaciones de diferencia y complemento.
Decimos que dos conjuntos A y B son ajenos (o disjuntos) si se cumple la igualdad A ∩

B = ∅, es decir, son ajenos cuando no existe un elemento que pertenezca tanto a A como
a B. Por ejemplo, si Ω = {1, 2, 3, 4, 5, 6}, entonces los conjuntos A = {1, 2} y B = {5, 6}
son ajenos pues no hay ningún elemento común entre ellos. Este concepto puede
extenderse al caso de varios conjuntos de la siguiente forma: Decimos que n conjuntos
A1, A2,. . ., An son ajenos dos a dos (o mutuamente ajenos) si A i ∩ Aj = ∅ para
cualesquiera valores de los índices i, j = 1,2,..., n, con i distinto de j.
Conjunto potencia
El conjunto potencia de Ω, denotado por 2 Ω, es aquel conjunto cuyos elementos son

todos los subconjuntos posibles de Ω. Por ejemplo, si Ω = {a, b, c} entonces el
Recordemos además las leyes de Morgan, (A∪B) c = Ac∩Bc,
Introducción
No es difícil demostrar que # (2Ω) = 2#Ω, es decir, el número de elementos en el conjunto
2Ω es exactamente 2 elevado a la potencia dada por el número de elementos en Ω. De
este hecho proviene la notación usada para el conjunto potencia: 2 Ω. Para el ejemplo
anterior se comprueba que efectivamente # (2Ω) = 2#Ω = 23 = 8.
18
autores.
.
Producto Cartesiano
Finalmente recordemos que el producto Cartesiano de dos conjuntos A y B, denotado

por A×B, se define como la colección de todas las parejas ordenadas (a, b), en donde a
es cualquier elemento de A, y b es cualquier elemento de B. En símbolos,
A × B = {(a, b): a ∈ A y b ∈ B}. Por ejemplo, si A = {a1, a2} y B = {b1, b2, b3}, entonces
A × B = {(a1, b1), (a1, b2), (a1, b3), (a2, b1), (a2, b2), (a2, b3)}.
En general los conjuntos producto A × B y B × A son distintos pues la pareja (a, b) es

distinta de (b, a), sin embargo ambos conjuntos tienen la misma cardinalidad, esto es,
ambos tienen el mismo número de elementos. Más aún, si la cardinalidad de A es el
número n, y la cardinalidad de B es m, entonces la cardinalidad del conjunto A × B es el
producto n · m. Más generalmente,
# (A1 ×A2 ×···×An)=#A1 ·#A2···#An.
Concluimos aquí nuestra rápida y breve revisión de conjuntos. Recordemos que estamos
interesados en calcular probabilidades de los diferentes eventos, es decir, de
subconjuntos del espacio muestral que se obtienen al estudiar experimentos aleatorios.
En la siguiente sección estudiaremos algunas formas de definir máteme ́ticamente la
probabilidad de un evento cualquiera.
La probabilidad de un evento A, es un número real en el intervalo [0, 1] que denotaremos

por P (A), y representa una medida de la frecuencia con la que se observa la ocurrencia
del evento A cuando se efectúa el experimento aleatorio en cuestión. Existen al menos
cuatro definiciones de probabilidad que explicamos a continuación.
Probabilidad clásica
Sea A un subconjunto de un espacio muestral Ω de cardinalidad finita. Se define la

́ sica del evento A como el cociente:
probabilidad cl a
19
autores.
#A
P(A) = , #Ω
En donde el símbolo #A denota la cardinalidad o número de elementos del conjunto A.

Claramente esta definición es sólo válida para espacios muestrales finitos, pues
forzosamente necesitamos suponer que el número de elementos en Ω es finito. Además,
el espacio Ω debe ser equiparable, pues para calcular la probabilidad de un evento A,
́ icamente necesitamos contar cuántos elementos tiene A respecto del total Ω, sin
un
importar exactamente qué elementos particulares sean. Por lo tanto, esta definición de
probabilidad presupone que todos los elementos de Ω son igualmente probables o tienen
el mismo peso. Este es el caso por ejemplo de un dado equilibrado. Para este
experimento el espacio maestral es el conjunto Ω = {1, 2, 3, 4, 5, 6}, y si deseamos
calcular la probabilidad (clásica) del evento A correspondiente a obtener un número par,
es decir A = {2, 4, 6}, entonces
# {2, 4,6} 3 1 # {1, 2, 3, 4, 5,6} 6 2

P(A) = = = .
Probabilidad frecuentita
Supongamos que realizamos n veces un cierto experimento aleatorio y sea A un evento

cualquiera. Denotemos por n(A) el número de ocurrencias del evento A, en la n
realizaciones del experimento. Se define entonces la probabilidad frecuentita de A como
n(A)
indica el siguiente límite P(A)= lím . n→∞ n
En este caso, debemos hacer notar que no es humanamente posible llevar a cabo una
infinidad de veces el experimento aleatorio, de modo que en la práctica no es posible
encontrar mediante este mecanismo la probabilidad de un evento cualquiera. Esta
limitación hace que esta definición de probabilidad no sea enteramente formal, pero tiene
algunas ventajas. Veamos un ejemplo concreto. Consideremos nuevamente el
experimento aleatorio de lanzar un dado equilibrado y registrar la ocurrencia del evento
A definido como el conjunto {2, 4, 6}. Después de lanzar el dado 20 veces obtuvimos los
20
autores.
.
siguientes resultados:
No. Resultado n(A)/n
1 3 0/1
2 6 1/2
3 2 2/3
4 1 2/4
5 4 3/5
6 6 4/6
7 3 4/7
8 4 5/8
9 2 6/9
10 5 6/10
No. Resultado n(A)/n
21
autores.
11 2 7/11
12 5 7/12
13 1 7/13
14 6 8/14
15 3 8/15
16 1 8/16
17 5 8/17
18 5 8/18
19 2 9/19
20 6 10/20
Probabilidad subjetiva
En este caso la probabilidad de un evento depende del observador, es decir, según lo

que el observador conoce del fenómeno en estudio. Puede parecer un tanto informal y
poco serio esta forma de definir la probabilidad de un evento, sin embargo en muchas
situaciones es necesario recurrir a un experto para tener por lo menos una idea vaga de
22
autores.
.
́ s y saber si la probabilidad de un evento
cómo se comporta el fenómeno de nuestro inter e
es alta o baja. Por ejemplo, ¿cuál es la probabilidad de que nuestro equipo favorito de
futbol gane en su próximo partido? Ciertas circunstancias internas del equipo, las
condiciones del equipo rival o cualquier otra condición externa, son elementos que so ĺ o
́ s exacta de esta
algunas personas conocen y que podrían darnos una idea m a
probabilidad.
Probabilidad axiomática
En la definición axiomática de la probabilidad no se establece la forma explícita de

calcular las probabilidades sino u ́nicamente se proponen las reglas que el cálculo de
probabilidades debe satisfacer. Los siguientes son tres postulados o axiomas1

establecidos en 1933 por el matemático ruso A. N. Kolmogorov.
No es difícil verificar que las definiciones anteriores de probabilidad satisfacen estos tres
axiomas. De hecho, estos postulados han sido tomados directamente del análisis
cuidadoso y reflexivo de las definiciones de probabilidad mencionadas anteriormente. En
particular observe que el tercer axioma es válido no so ́lo para dos eventos ajenos sino
para cualquier colección finita de eventos ajenos dos a dos. A cualquier función P que
satisfaga los tres axiomas de Kolmogorov se le llama medida de probabilidad, o
simplemente probabilidad. Como consecuencia de estos postulados es posible
demostrar que la probabilidad cumple, entre otras, con las siguientes propiedades.
Proposición. Para cualquier evento A, P (Ac) = 1 − P (A).
Demostración. De la teoría elemental de conjuntos tenemos que Ω = A ∪ Ac. Como A y
Ac son eventos ajenos, por el tercer axioma, P (Ω) = P (A) + P (A c). Finalmente, como
P(Ω) = 1, por el segundo axioma obtenemos P(Ac) = 1−P(A).
Proposición. P (∅) = 0.
23
autores.
Demostración. Como ∅ = Ωc, usando la propiedad anterior, tenemos que P(∅) = P(Ωc) =
1 − P(Ω) = 0.
Axiomas de la probabilidad
1. P(A)≥0. 2. P(Ω)=1. 3. P(A∪B)=P(A)+P(B)
Cuando A ∩ B = ∅.
Demostración. Primeramente escribimos B = A ∪ (B − A). Como A y B − A son eventos

ajenos, por el tercer axioma, P (B) = P (A) + P (B − A). Usando el primer axioma
concluimos que P (B) − P (A) = P (B − A) ≥ 0. De aquí obtenemos P (B) − P (A) ≥ 0. 􏲙
Proposición. Si A ⊆ B, entonces P (B − A) = P (B) − P(A). Demostración. Como B = A ∪

(B − A), siendo esta unión ajena, por el tercer axioma tenemos que P (B) = P(A) + P (B
− A).
Proposición. Para cualquier evento A, 0≤P(A) ≤1.
Demostración. Como A ⊆ Ω entonces P(A) ≤ P (Ω) = 1. La otra desigualdad, 0 ≤ P (A),

es simplemente el primer axioma. 􏲙
Proposición. Para cualesquiera eventos A y B,  P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Proposición. Si A ⊆ B, entonces P (A) ≤ P (B).
Demostración. Primeramente observamos que para cualesquiera eventos A y B se

cumple la igualdad A−B = A− (A∩B). Entonces escribimos a A∪B como la unión disjunta
de los siguientes tres eventos
A∪B = (A−B) ∪ (A∩B) ∪ (B−A)  = (A−A∩B) ∪ (A∩B) ∪ (B−A∩B).
Ahora aplicamos la probabilidad. Por el tercer axioma,  P (A ∪ B) = P (A − A ∩ B) + P (A

∩ B) + P (B − A ∩ B).
24
autores.
.
Pero A∩B ⊆ A de modo que P (A−A∩B) = P(A) −P (A∩B). Análogamente P (B − A ∩ B)
= P (B) − P (A ∩ B). Por lo tanto
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
El término P(A) abarca las primeras dos regiones de izquierda a derecha, P (B) abarca
la segunda y tercera región. Observe entonces que la región central ha sido contada dos
veces de modo que el término −P (A ∩ B) da cuenta de ello. De esta forma las tres
regiones son tomadas en cuenta una sola vez y el resultado es la probabilidad del evento
A ∪ B.
AB AB
ΩCΩ A∪B A∪B∪C
Observe que la fórmula anterior es válida para cualesquiera eventos A y B. En particular,

cuando son conjuntos ajenos, es decir, cuando A ∩ B = ∅, entonces la f fórmula
demostrada se reduce al tercer axioma de la probabilidad, es decir, P (A ∪ B) = P (A) +
P (B). El siguiente resultado es una generalización del anterior e involucra tres eventos
cualesquiera. La fórmula que a continuación se demuestra puede también “verificarse”
usando el diagrama de Venn que aparece arriba. Para ello siga los términos del lado
derecho de la fórmula y compruebe que cada región es contada una sola vez de modo
que el resultado final es la probabilidad del evento A ∪ B ∪ C.
Proposición. Para cualesquiera eventos A, B y C,
P(A∪B∪C) = P(A)+P(B)+P(C) −P (A ∩ B) − P (A ∩ C) − P (B ∩ C)
+P (A ∩ B ∩ C). Demostración. Usando la fórmula para dos eventos y agrupando

adecuadamente,
P(A∪B∪C) = = = =
25
autores.
P[(A∪B)∪C] P(A∪B)+P(C)−P((A∪B)∩C) P(A)+P(B)−P(A∩B)+P(C)−P((A∩C)∪(B∩C))
P(A)+P(B)+P(C)−P(A∩B)−P(A∩C)−P(B∩C) +P(A ∩ B ∩ C).
A manera de resumen presentamos a continuación una tabla con las propiedades de la

probabilidad que hemos demostrado.
Algunas propiedades de la probabilidad
a) P(Ac)=1−P(A).  
b) P(∅)=0.  
c) Si A ⊆ B entonces P(A) ≤ P(B).  
d) SiA⊆B entonces P(B−A)=P(B)−P(A).  
e) 0≤P(A)≤1.  
f) P(A∪B)=P(A)+P(B)−P(A∩B).  
g) P(A∪B∪C)=P(A)+P(B)+P(C) −P (A ∩ B) − P (A ∩ C) − P (B ∩ C)  +P (A ∩ B ∩
C).  
Esperamos que, a partir de las propiedades enunciadas y demostradas, el lector haya

desarrollado cierta habilidad e intuición para escribir la demostración de alguna otra
propiedad de la probabilidad. Otras propiedades sencillas pueden encontrarse en la
́ icas, y
sección de ejercicios. Debemos también decir que las demostraciones no son u n
que es altamente probable que el lector pueda producir alguna demostración diferente a
las que aquí se han presentado.
Análisis combinatorio
26
autores.
.
Es muy frecuente que en un experimento aleatorio el espacio muestral Ω sea un conjunto
finito y cada elemento de este conjunto tenga la misma probabilidad de ocurrir, es decir,
que el espacio Ω sea finito y equiparable. En estos casos hemos definido la probabilidad
cl ́asica de un evento A como sigue:
#A
P(A) = . #Ω
Para poder aplicar esta definición necesitamos saber contar cuántos elementos tiene un
conjunto A. Cuando podemos poner en una lista todos y cada uno de los elementos de
dicho conjunto, entonces es fácil conocer la cardinalidad de A, simplemente contamos
todos los elementos uno por uno. Sin embargo, es común enfrentar situaciones en donde
no es factible escribir en una lista cada elemento de A, por ejemplo, ¿Cuántos números
telefónicos existen que contengan por lo menos un cinco? Estoy seguro que nadie en su
sano juicio intentaría escribir uno a uno todos estos números telefónicos.
Principio de multiplicación
Si un procedimiento puede efectuarse de n formas distintas y un segundo procedimiento

puede realizarse de m formas diferentes, entonces el total de formas en que puede
efectuarse el primer procedimiento seguido del segundo es el producto n · m. Para ilustrar
el principio de multiplicación considere el siguiente ejemplo.
Ejemplo. Un experimento aleatorio consiste en seleccionar un dado y después

seleccionar al azar una letra del alfabeto. ¿Cuál es la cardinalidad del correspondiente
espacio maestral?
El experimento de lanzar un dado tiene 6 resultados posibles y consideremos que

tenemos un alfabeto de 26 letras. El correspondiente espacio muestral tiene entonces
cardinalidad 6 × 26 = 156. ◦
El principio de multiplicación es válido no solamente para dos procedimientos sino que

también vale para cualquier sucesión finita de procedimientos. Por ejemplo, si A1, A2, . .
27
autores.
. , Ak denotan k procedimientos sucesivos entonces el principio de multiplicación se
puede enunciar en símbolos de la forma siguiente:
#(A1 × · · · × Ak ) = #A1 · · · #Ak .
Muestras con orden y con reemplazo
Suponga que tenemos una urna con n objetos distintos. Deseamos realizar k
extracciones al azar de un objeto a la vez. Al efectuar una extracción, registramos el
objeto escogido y lo regresamos a la urna. De esta forma el mismo objeto puede ser
extra í do varias veces. El total de arreglos que se pueden obtener de esta urna al hacer
k extracciones es nk, pues en cada extracción tenemos n objetos posibles para escoger
y efectuamos k extracciones. Esta fórmula es consecuencia del principio de
multiplicación enunciado antes. A este número se le llama ordenaciones con repetición.
Muestras con orden y sin reemplazo
A veces no queremos ordenar todos los n objetos de un conjunto sino u ́nicamente k de

ellos (k ≤ n) y sin repetirlos. La respuesta al total de arreglos lineales que podemos
obtener de este modo es el número: n(n − 1)(n − 2)···(n − k + 1). Primeramente debemos
observar que hay k factores en la expresión anterior. El primer factor es debido a que
tenemos cualesquiera de los n objetos para ser colocado en primera posición, para la
segunda posición tenemos ahora n−1 objetos, para la tercera n − 2 objetos, etc. Este
razonamiento termina al escoger el k-ésimo objeto para cual tenemos u ́nicamente n − k
+ 1 posibilidades. Nuevamente por el principio multiplicativo, la respuesta es el producto
indicado. La expresión encontrada puede escribirse como sigue:
n!
P (n, k) = , (n−k)!
y se lee permutaciones de n en k.
Ejemplo. ¿De cuantas formas distintas pueden asignarse los premios primero, segundo
28
autores.
.
y tercero en una rifa de 10 boletos numerados del 1 al 10? Claramente se trata de una
ordenación sin repetición de 10 objetos en donde se deben extraer 3 de ellos. La
respuesta es entonces 10 × 9 × 8 = 720 distintas asignaciones de los tres primeros
lugares en la rifa. ◦
Permutaciones: Muestras exhaustivas con orden y sin reemplazo
La pregunta básica acerca del total de formas en que podemos poner en orden lineal
(uno detrás de otro y por lo tanto no hay repetición) n objetos distintos tiene como
respuesta el factorial de n, denotado por n! y definido como sigue:
n! = n(n − 1)(n − 2) · · · 3 · 2 · 1.
A este número también se le conoce como las permutaciones de n objetos y se usa la

notación P (n) = n!. Adicionalmente y por conveniencia se define 0! = 1.
Combinaciones: Muestras sin orden y sin reemplazo
Supongamos nuevamente que tenemos un conjunto de n objetos distinguibles y nos

interesa obtener una muestra de tamaño k. Supongamos ahora que las muestras deben
ser sin orden y sin reemplazo. Es decir, en la muestra no debe haber elementos
29
autores.
repetidos, pues no hay reemplazo, y además la muestra debe verse como un conjunto
pues no debe haber orden entre sus elementos.
¿Cuántas diferentes muestras podemos obtener de estas características?
Para responder a esta pregunta seguimos el razonamiento siguiente. Cuando el orden

importa hemos encontrado antes la fórmula
n!/(n−k)!
Ahora que no nos interesa el orden, observamos que cada uno de los arreglos de la
fórmula anterior, esta ́ siendo contado k! veces, las veces en que los mismos k elementos
pueden ser permutados unos con otros, siendo que el conjunto de elementos es el
mismo. Para obtener arreglos en donde el orden no importa, debemos entonces dividir
por k!. La fórmula a la que hemos llegado se llama combinaciones de n en k, que
denotaremos como sigue:
􏲙 􏲙
n/k n! / k!(n − k)!
=
A este número también se le conoce con el nombre de coeficiente binomial de n en k,

pues aparece en el famoso teorema del binomio:
Para los casos n = 2 y n = 3 el teorema del binomio se reduce a las siguientes
fórmulas que estoy seguro el lector conoce:
30
autores.
.
(a+b)2 = a2 +2ab+b2.  
(a+b)3 = a3 +3a2b+3ab2 +b3.  
Ejemplo. ¿Cu ́antas equipos distintos de tres personas pueden formarse de un grupo de
5 personas? Observe que el orden de las tres personas escogidas no importa de modo
que la respuesta es
El coeficiente binomial es también una forma de generar las entradas del así llamado
triángulo de Pascal, que puede observarse en la siguiente figura:
31
autores.
El n-ésimo renglón del triángulo de Pascal, iniciando desde cero, contiene los
coeficientes del desarrollo de (a + b)n. Existe una forma sencilla de construir este
triángulo observando que cada uno de estos números, exceptuando los extremos, es la
suma de los dos números inmediatos del renglón anterior.
La esperanza
32
autores.
.
5. DISTRIBUCIONES DE PROBABILIDAD
[5]Existen muchos experimentos que se ajustan exacta o aproximadamente a la siguiente

lista de requerimientos:
1. El experimento consta de una secuencia de n experimentos más pequeños

llamados ensayos, donde n se fija antes del experimento.  
2. Cada ensayo puede dar por resultado uno de los mismos dos resultados
posibles (ensayos dicotómicos), los cuales se denotan como éxito (E ) y falla (F).
33
autores.
 
3. Los ensayos son independientes, de modo que el resultado en cualquier
ensayo particular no influye en el resultado de cualquier otro ensayo.  
4. La probabilidad de éxito es constante de un ensayo a otro; esta probabilidad
se denota por p.  
Distribución de probabilidad binomial
Un experimento para el que se satisfacen las condiciones 1–4 se llama experimento

binomial.
El experimento no es binomial porque los ensayos no son independientes. En general,

si se muestrea sin reemplazo, el experimento no producirá ensayos independientes. Si
cada papelito hubiera sido reemplazado después de ser sacado, entonces los ensayos
habrían sido independientes, pero esto podría haber dado por resultado que el mismo
restaurante fuera inspeccionado por más de un inspector. ■
Un estado tiene 500 000 conductores con licencia, de los cuales 400 000 están
asegurados. Se selecciona una muestra de 10 conductores sin reemplazo. El ensayo i-
ésimo se denota S si el conductor i-ésimo seleccionado está asegurado.
Estos cálculos sugieren que aunque los ensayos no son exactamente independientes,
las probabilidades condicionales difieren tan poco una de otra que en la práctica los
ensayos se consideran independientes con la constante P(E ).
Se utilizará la siguiente regla empírica para decidir si un experimento “sin reemplazo”

puede ser tratado como experimento binomial.
Considérese muestreo sin reemplazo de una población dicotómica de tamaño N. Si el

tamaño de la muestra (número de ensayos) n es cuando mucho 5% del tamano
̃ de la
población, el experimento puede ser analizado como si fuera exactamente un
experimento binomial.
34
autores.
.
Variable aleatoria binomial y distribución
En la mayoría de los experimentos binomiales, lo que interesa es el número total de los

éxitos (E ), en lugar del conocimiento de qué ensayos dieron los éxitos.
La variable aleatoria binomial X asociada con un experimento binomial que consiste en

n ensayos se define como
X 􏲙 el número de los E entre los n ensayos
Utilización de tablas binomiales*
Incluso con un valor relativamente pequeño de n, el cálculo de probabilidades binomiales

es tedioso. La tabla A.1 del apéndice tabula la función de distribución acumulativa F(x)
=P(X = x) con n = 5, 10, 15, 20, 25 en combinación con valores seleccionados de p.
Varias otras probabilidades pueden entonces ser calculadas por medio de la proposición
sobre funciones de distribución acumulativas de la sección 3.2. Una anotación de 0 en la
tabla significa únicamente que la probabilidad es 0 a tres dígitos significativos puesto que
todos los valores ingresados en la tabla en realidad son positivos.
La media y varianza de X
Con n = 1, la distribución binomial llega a ser la distribución de Bernoulli. De acuerdo con

el ejemplo 3.18, el valor medio de una variable de Bernoulli es μ = p, así que el número
esperado de los S en cualquier ensayo único es p. Como un experimento binomial se
compone de n ensayos, la intuición sugiere que para X - Bin(n, p), E(X) 􏲙 np, el producto
35
autores.
del número de ensayos y la probabilidad de éxito en un solo ensayo. La expresión para
V(X) no es tan intuitiva.
Distribución binomial negativa
Las distribuciones hipergeométricas y binomiales negativas están relacionadas con la

distribución binomial. En tanto que la distribución binomial es el modelo de probabilidad
aproximada de muestreo sin reemplazo de una población dicotómica finita (E–F), la
distribución hipergeométrica es el modelo de probabilidad exacta del número de éxitos
(E ) en la muestra. La variable aleatoria binomial X es el número de éxitos cuando el
número n de ensayos es fijo, mientras que la distribución binomial surge de fijar el número
de éxitos deseados y de permitir que el número de ensayos sea aleatorio.
La variable aleatoria de interés es X 􏲙 el número de fallas que preceden al r-ésimo éxito;

X se llama variable aleatoria binomial negativa porque, en contraste con la variable
aleatoria binomial, el número de éxitos es fijo y el número de ensayos es aleatorio.
Distribución hipergeométrica
Las suposiciones que conducen a la distribución hipergeométrica son las siguientes:
1. La población o conjunto que se va a muestrear se compone de N

individuos, objetos o  elementos (una población finita).  
2. Cada individuo puede ser caracterizado como éxito (E ) o falla (F) y hay M
éxitos en la  población.  
36
autores.
.
3. Se selecciona una muestra de n individuos sin reemplazo de tal modo que
cada subcon junto de tamaño n es igualmente probable de ser seleccionado.  
La variable aleatoria de interés es X 􏲙 el número de éxitos en la muestra. La

distribución de probabilidad de X depende de los parámetros n, M y N, así que se
desea obtener P(X = x) = h(x; n, M, N).
Las distribuciones binomiales, hipergeométricas y binomiales negativas se derivaron

partiendo de un experimento compuesto de ensayos o sorteos y aplicando las leyes de
probabilidad a varios resultados del experimento. No existe un experimento simple en el
cual esté basada la distribución de Poisson, aun cuando en breve se describirá cómo
puede ser obtenida mediante ciertas operaciones restrictivas.
6. Teoría General de Muestreo
[6]La teoría de muestreo se refiere al estudio de las relaciones que existen entre un
colectivo o población y las muestras que se extraen de las mismas. El estudio de las
muestras permite hacer estimaciones de características desconocidas de la población
(tales como media, desviación típica, proporciones, etc). Estas estimaciones se hacen a
partir del conocimiento de las características de las muestras (media, desviación típica,
proporción, etc).
Las características o medidas obtenidas de una muestra se llaman estadísticos; y las

medidas correspondientes a la población parámetros. Cuando una medida muestral o
37
autores.
estadístico es utilizada como representante de una característica poblacional o
parámetro se denomina estimador.
Ventajas de la utilización de las muestras
1) El costo es menor y se puede obtener un mejor rendimiento del dinero invertido.
2) Se obtiene una disminución notable del tiempo necesario para alcanzar la información
Cuando una muestra posee 30 o más datos se denominan grandes muestras y si la

muestra tiene menos de 30 observaciones se denomina pequeñas muestras.
Al procedimiento utilizado para elegir una muestra se denomina Muestreo.
Necesidad del Muestreo.
1. Población Infinita
2. Población uniforme
3. Proceso de investigación destructiva
4. Economía de costos
5. Calidad
Muestreo con o sin reemplazamiento:
• Con reemplazamiento cuando un elemento de la población puede ser escogido varias

veces para formar parte de la muestra
Citas:
[1] Fragmento tomado de Depool Rivero, Ramón Monasterio, Dioscóro. (2013).

Probabilidad y estadística. Aplicaciones a la ingeniería. UNEXPO.
38
autores.
.
[2] Fragmento tomado de Antonio José Sáez Castillo. (2012). Apuntes de estadísitica para
ingenieros. Universidad de Jaen.
[3] Fragmento tomado de Javier Gorgas García, Nicolás Cardiel López, Jaime Zamorano
Calvo. (2011). Estadística básica para estudiantes de ciencias. Universidad Complutense
de Madrid.
[4] Fragmento tomado de Luis Rincón. (2006). Una introducción a la probabilidad y

estadística. Departamento de Matemáticas Facultad de Ciencias UNAM
[5] Fragmento tomado de JAY L. DEVORE. (2008). Probabilidad y Estadiś tica para
́ .y Ciencia. Cenage Learning
Ingenieria
[6] Fragmento tomado de Coordinación de investigación y posgrado. Material de curso:

teoría general de muestreo. Universidad Nacional Experimental de Guayana. Recuperado
de:
http://cigeg.uneg.edu.ve/documentos/curso/TEORIA%20ELEMENTAL%20DE%20MUES
TREO.pdf
39
autores.

A. Probabilidad y Estadística Básica

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

A. Probabilidad y Estadística Básica

Enviado por

Direitos autorais:

Formatos disponíveis

.

La antología “Probabilidad y estadística” es una compilación sin fines de lucro de

El objetivo de la asignatura “Probabilidad y estadística” es que los estudiantes sean

Para lograr este objetivo el estudiante:

• Comprenderá las bases. aplicaciones y diferencias de la probabilidad y la

1. Introducción a la probabilidad y estadística

2. Organización Gráfica y Resumen de los Datos

6. Teoría General de Muestreo

La Estadística es una ciencia formal que estudia la recolección, análisis e interpretación

La Probabilidad y Estadística puede utilizarse para optimizar el uso del material y la

Datos. El dato es una representación simbólica (numérica, alfabética, algorítmica, entre

En programación, un dato es la expresión general que describe las características de las

Un dato por sí mismo no constituye información, es el procesamiento de los datos lo que

Sujeto. Es el objeto de investigación; el cual puede ser animado o inanimado. Personas,

Población. Conjunto de sujetos que poseen una característica común observable. El

Muestra. Es un conjunto de sujetos tomados de una población. Ya que la muestra es

La estadística industrial es la rama de la estadística que busca implementar los

Pueden distinguirse tres partes:

• El estudio de las series temporales y las técnicas de previsión, y la descripción de los

• El análisis multivalente, necesario para la extracción de información de grandes

• El control de calidad y la fiabilidad. Se pueden distinguir varios aspectos:

• Serie temporal o cronológica es una secuencia de datos, observaciones o valores,

Para controlar la calidad de un producto se realizan inspecciones o pruebas de muestreo

2. ORGANIZACIÓN GRÁFICA Y RESUMEN DE LOS DATOS

[2] Obtenidos a través de encuestas, experimentos o cualquier otro conjunto de medidas,

Los datos cualitativos o categóricos se re􏲙eren a características de la población que no

La forma más sencilla de describir de forma numérica una variable cualitativa es

Métodos gráficos para describir datos cuantitativos

Se construyen los N intervalos:

2. Calculamos la longitud, L, de los intervalos, como el cociente entre el rango del

histograma y el número de intervalos, es decir, L = R.

4. El histograma es un diagrama de barras donde en el eje X se colocan los intervalos

[3] Medidas de centralización

Supongamos que tenemos una muestra de tamaño N, donde la variable estadística x

Es decir, la media se calcula sencillamente sumando los distintos valores de x y

Una propiedad importante de la media aritmética es que la suma de las desviaciones

La media representa entonces una especie de centro de gravedad, o centro geométrico,

Como el objetivo de la estadística descriptiva es describir de la forma m ́as simple y clara

1. Supongamos en primer lugar que los diferentes valores de la variable no

En general, lo mejor es considerar media aritmética y mediana como medidas

Cuartiles, deciles y percentiles

Las medidas de centralización vistas anteriormente reducen la información recogida de

Una evaluación rápida de la dispersión de los datos se puede realizar calculando el

Evidentemente, en el caso de que la variable no tome valores repetidos, ni esté agrupada

Hay que destacar la importancia de tomar valores absolutos de las desviaciones. Si no

En ocasiones se define una desviación media en términos de desviaciones absolutas en

́ s usada para estimar la dispersión de los datos es la

En muchas ocasiones se definen varianza y desviación típica utilizando N en vez de N −

Se puede demostrar que dicha desviación cuadrática ser ́a mínima cuando a = x. Es

En la discusión sobre la media aritmética se vio cómo su cálculo se podía simplificar a

De esta forma, una vez calculada la desviación típica de y, se puede evaluar la de x

Se demuestra así además que, aunque la desviación típica depende de la unidades

Llamaremos evento a cualquier subconjunto del espacio muestral y denotaremos a los

Ejemplo. Si un experimento aleatorio consiste en lanzar un dado y observar el número

Puesto que los conceptos de espacio muestral y evento involucran forzosamente la

Supondremos entonces que el espacio muestral Ω de un experimento aleatorio es

Sean A y B dos subconjuntos cualesquiera de Ω. Recordamos a continuación las

Cuando los conjuntos se expresan en palabras, la operación unión, A ∪ B, se lee “A o B”

El complemento de un conjunto A se denota por A c y se define como la colección de

Decimos que dos conjuntos A y B son ajenos (o disjuntos) si se cumple la igualdad A ∩

El conjunto potencia de Ω, denotado por 2 Ω, es aquel conjunto cuyos elementos son

Recordemos además las leyes de Morgan, (A∪B) c = Ac∩Bc,

No es difícil demostrar que # (2Ω) = 2#Ω, es decir, el número de elementos en el conjunto

Sujeto. Es el objeto de investigación; el cual puede ser animado o inanimado. Personas,

Población. Conjunto de sujetos que poseen una característica común observable. El

Muestra. Es un conjunto de sujetos tomados de una población. Ya que la muestra es

histograma y el número de intervalos, es decir, L = R.  

 Una propiedad importante de la media aritmética es que la suma de las desviaciones

1. P(A)≥0. 2. P(Ω)=1. 3. P(A∪B)=P(A)+P(B)

Proposición. Si A ⊆ B, entonces P (B − A) = P (B) − P(A). Demostración. Como B = A ∪

Proposición. Para cualesquiera eventos A y B,  P (A ∪ B) = P (A) + P (B) − P (A ∩ B).

A∪B = (A−B) ∪ (A∩B) ∪ (B−A)  = (A−A∩B) ∪ (A∩B) ∪ (B−A∩B).

Ahora aplicamos la probabilidad. Por el tercer axioma,  P (A ∪ B) = P (A − A ∩ B) + P (A

+P (A ∩ B ∩ C). Demostración. Usando la fórmula para dos eventos y agrupando

c) Si A ⊆ B entonces P(A) ≤ P(B).  

d) SiA⊆B entonces P(B−A)=P(B)−P(A).  

Permutaciones: Muestras exhaustivas con orden y sin reemplazo

Combinaciones: Muestras sin orden y sin reemplazo

(a+b)3 = a3 +3a2b+3ab2 +b3.