Escolar Documentos
Profissional Documentos
Cultura Documentos
ESTADÍSTICA
INTRODUCCIÓN
En las últimas décadas la estadística ha alcanzado un alto grado de desarrollo, hasta el
punto de incursionar en la totalidad de las ciencias.
La estadística es una ciencia auxiliar para todas las ramas del saber; su utilidad se entiende
mejor si tenemos en cuenta que los quehaceres y decisiones diarias embargan cierto grado
de incertidumbre y ayuda en la incertidumbre, trabaja con ella y nos orienta para tomar
las decisiones con un determinado grado de confianza.
Los críticos de la estadística afirman que a través de ella es posible probar cualquier cosa,
lo cual es un concepto profano que se deriva de la ignorancia en este campo y de lo
polifacético de los métodos estadísticos. Sin embargo muchos "investigadores"
tendenciosos han cometido abusos con la estadística, elaborando "investigaciones" de
intención, teniendo previamente los resultados que les interesan mostrar a personas
ingenuas y desconocedoras de los hechos. Otros, por ignorancia o negligencia, abusan de
la estadística utilizando modelos inapropiados o razonamientos ilógicos y erróneos que
conducen al rotundo fracaso de sus investigaciones.
1. DEFINICIÓN
Definir la estadística es una tarea difícil porque tendríamos que definir cada una de las
técnicas que se emplean en los diferentes campos en los que interviene. Sin embargo,
diremos, en forma general, que “La ESTADISTICA es la ciencia que le facilita al
hombre el estudio de datos masivos, proporcionando un conjunto de métodos
científicos para recolectar, resumir, clasificar, analizar e interpretar el
comportamiento de los datos con respecto a una característica, materia de estudio o
investigación, pasa de esa manera a sacar conclusiones valederas y efectuar
predicciones razonables de ellos y así mostrar una visión de conjunto clara y de más
fácil apreciación con respecto a la fuente de información que nos permiten tomar
decisiones optimas en casos de incertidumbre”
Estadística: Etimológicamente
El origen etimológico de la palabra “estadística” no está bien determinado, supuesto que
existen distintas opiniones y referencias. Para algunos viene de la voz griega STATERA
que significa “balanza”, otros sostienen que deriva del latín STATUS que significa
“situación” mientras que algunos autores afirman que procede del alemán STAAT que
significa “estado” pues era función principal de los gobiernos de los estados establecer
registros de población, nacimientos, defunciones, etc.
mucho antes de construir las pirámides en el siglo XXXI a.c. Los libros bíblicos de
Números y Crónicas incluyen, en algunas partes, trabajos de estadística. El primero
contiene dos censos de la población de Israel y el segundo describe el bienestar material
de las diversas tribus judías.
En China existían registros numéricos similares con anterioridad al año 2000 a.c. Los
griegos realizaban censos cuya información se utilizaba para cobrar impuestos hacia el
594 a.c.
El Imperio romano fue el primer gobierno que recopiló una gran cantidad de datos sobre
la población, superficie y renta de todos los territorios bajo su control. Durante la edad
media sólo se realizaron algunos censos exhaustivos en Europa. Los reyes visigodos
ordenaron hacer estudios minuciosos de las propiedades de la Iglesia en los años 758 y
762 respectivamente. Después de la conquista normanda de Inglaterra en 1066, el rey
Guillermo I de Inglaterra encargó un censo. La información obtenida con este censo,
llevado a cabo en 1086, se recoge en el Domesday Book. En 1662 apareció el primer
estudio estadístico notable de población, titulado Observations on the London Bills of
Mortality (Comentarios sobre las partidas de defunción en Londres). Un estudio similar
sobre la tasa de mortalidad en la ciudad de Breslau, en Alemania, realizado en 1691, fue
utilizado por el astrónomo inglés Edmund Halley como base para la primera tabla de
mortalidad. En el siglo XIX, con la generalización del método científico para estudiar
todos los fenómenos de las ciencias naturales y sociales, los investigadores aceptaron la
necesidad de reducir la información a valores numéricos para evitar la ambigüedad de las
descripciones verbales.
El desarrollo de la Estadística se fundamenta científicamente a partir de los años 30 a raíz
de los problemas planteados en la sociedad industrial, por el desarrollo de otras ramas de
las Matemáticas y de otros campos como la Biología, Medicina, Informática.
En nuestros días, la estadística se ha convertido en un método efectivo para describir con
exactitud los valores de datos económicos, políticos, sociales, psicológicos, biológicos y
físicos, y sirve como herramienta para relacionar y analizar dichos datos. El trabajo del
experto estadístico no consiste ya sólo en reunir y tabular los datos, sino sobre todo en el
proceso de interpretación de esa información. El desarrollo de la teoría de la probabilidad
ha aumentado el alcance de las aplicaciones de la estadística. Muchos conjuntos de datos
se pueden aproximar, con gran exactitud, utilizando determinadas distribuciones
probabilísticas; los resultados de éstas se pueden utilizar para analizar datos estadísticos.
La probabilidad es útil para comprobar la fiabilidad de las inferencias estadísticas y para
predecir el tipo y la cantidad de datos necesarios en un determinado estudio estadístico.
3. RAMAS DE LA ESTADÍSTICA
La estadística se divide en dos ramas que no son independientes; por el contrario, son
complementarias y entre ambas dan la suficiente ilustración sobre una posible realidad
futura, con el fin de que quien tenga poder de decisión, tome las medidas necesarias para
transformar ese futuro o para mantener las condiciones existentes.
En atención a su metodología, por sus procedimientos y alcances bien definidos, la ciencia
estadística se clasifica en:
interpretada cómoda y rápidamente y, por tanto, pueda utilizarse eficazmente para el fin
que se desee.
Permite la elaboración de cuadros, gráficos e indicadores bien calculados;
suficientemente claros, como para disipar las dudas y la oscuridad de los datos masivos.
El análisis se limita en sí mismo a los datos coleccionados y no se realiza generalizaciones
acerca de la totalidad de donde provienen esas observaciones (población).
La Estadística Descriptiva no es mas que el trabajo preliminar para el Estadística
Inferencial.
4. OBJETIVOS
Los objetivos de la estadística pueden ser clasificados en tres grandes capítulos:
descripción, análisis y predicción.
5. CONCEPTOS BÁSICOS
5.1 POBLACIÓN
Es el conjunto mayor o colección completa de todos los elementos (puntajes. personas,
mediciones, etc.) que posee al menos una característica común observable, cuyo estudio
nos interesa o acerca de los cuales se desea información.
La población debe estar perfectamente definida en el tiempo y en el espacio, de modo que
ante la presencia de un potencial integrante de la misma, se pueda decidir si forma parte o
no de la población bajo estudio. Por lo tanto, al definir una población, se debe cuidar que el
conjunto de elementos que la integran quede perfectamente delimitado.
La población puede ser según su tamaño de dos tipos:
Población finita: cuando se tiene un número determinado de elementos.
Población infinita: cuando el número de elementos es indeterminado, o tan grande
que pudiesen considerarse infinitos.
Tamaño de la Población: Es el número total de elementos que tiene la población estudiada
y se denota con la letra “N”
5.2 MUESTRA
Es un subconjunto de la población a la cual se le efectúa la medición con el fin de estudiar
las propiedades de la población de la cual es obtenida.
Una muestra debe ser representativa, esto es, guarda las mismas características de la
población de donde fue seleccionada y debe ser adecuada en cuanto a la cantidad de
elementos que debe tener con respecto a la población.
Existen diversos métodos para calcular el tamaño de la muestra y también para
seleccionar los elementos que la conforman, pero es importante que sea representativa de
la población y sus elementos escogidos al azar para asegurar la objetividad de la
investigación.
Tamaño de muestra: Es el número de elementos de la muestra y se denota con letra “n”
5.6 DATO
Es el valor, respuesta o registro que adquiere una característica o variable asociado a un
elemento de la población o muestra, como resultado de la observación, entrevista o
recopilación en general. Puede ser un número, una palabra o un símbolo.
6. VARIABLE
Es una característica estudiada de las unidades estadísticas.
b) Variables Cuantitativas
Cuando el valor de la variable se expresa por una cantidad, es de carácter
numérico. El dato o valor puede resultar de la operación de contar o medir, por
ejemplo; edad, número de hijos por familia, ingresos, viviendas por centro
poblado, niveles de desempleo, producción, utilidades de empresas, etc.
Las variables cuantitativas pueden ser: Discreta y Continua.
b.1) Variable Discreta
Cuando el valor de la variable resulta de la operación de contar, su valor esta
representado solo por números naturales (enteros positivos), Ejemplos; hijos
b) Estadísticas bidimensionales
Cuando se considera simultáneamente dos variables o aspecto en cada elemento
del conjunto o fenómeno que se estudia. La bidimensional requiere que las
variables tengan cierta asociación o relación, de modo que una variable pudiera
de alguna manera explicar el comportamiento de la otra. Por ejemplo; numero de
hijos según el nivel educativo de la madre, profesores por edad y tiempo de
servicios, producción por años, importaciones anuales, etc.
c) Estadísticas multidimensionales
Cuando se considera simultáneamente mas de dos variables o aspectos en cada
elemento de la población o muestra. La multidimensional también supone que
entre las variables exista alguna relación o interdependencia, entre los cuales es
posible determinar una variable dependiente y otras independientes. Por ejemplo;
el consumo según el ingreso y número de personas por familia, la demanda, el
precio, la inversión en propaganda; el nivel de fecundidad según la edad, nivel
educativo de la madre y área de residencia, etc.
b) Variables Ordinales
Aquellas variables que implican orden entre sus categorías, pero no grados de
distancia igual entre ellas, están referidas a un orden de jerarquía, donde las
categorías expresan una posición de orden. Ejemplo; grado de instrucción, clases
sociales, grado de simpatía, rango de agresividad, orden de merito, etc.
c) Variable de Intervalo
Son aquellas que suponen a la vez orden y grados de distancia iguales entre las
diversas categorías, pero no tienen origen natural, sino convencional, tiene un cero
relativo. Por ejemplo; coeficiente de inteligencia, temperatura, puntuación
obtenida en una escala, etc.
d) Variables de Razón
Estas variables comprenden a la vez todos los casos anteriores, distinción, orden,
distancia y origen único natural; el valor se expresa con un numero real tiene un
cero absoluto. Por ejemplo; edad, peso, ingresos, numero de hijos, producción,
accidentes de transito, etc.
a) Variables Individuales
Referida a características de individuos o personas, una empresa, centro
educativo. Son variables para estudio de casos, donde se pueden subdividir en
variables públicas y privadas.
a.1 Variable Pública
Aquella en que los valores individuales son conocidos por otras personas y
se saben que son conocidos. Ejemplos; edad, sexo, ocupación, estado civil,
etc.
a.2 Variable Privada
Cuando los valores individuales pueden ser conocidos por otros, una vez
averiguados. Ejemplos; el coeficiente de inteligencia, opiniones frente a la
política económica, conductas de consumo, etc.
b) Variables Colectivas
Aquellas que se refieren a características de las unidades cuando estas son
colectivas, conjuntos o grupos (empresas, ciudades, escuelas, etc.) Ejemplos; tasa
de mortalidad, urbanización, nivel educativo promedio, tasa de crecimiento
demográfico, etc.
a) Variables Dependientes
Son aquellas que se explican por otras variables, son los efectos o resultados
respecto a los cuales hay que buscar su motivo, causas o razón de ser. Es la
variable que traduce la consecuencia del efecto de una o varias razones de causas,
de otras variables.
b) Variables Independientes
Son las variables explicativas o predictivas, cuya asociación, relación o influencia
en la variable dependiente se pretende descubrir en la investigación, las variables
independientes (VI) son los que se traducen o explican las causas o razones de las
variaciones en la variable dependiente(VD).
Simplificando, en relación de variables, las causas o antecedentes serian las
variables independientes (VI) y el efecto o consecuente es la variable dependiente
(VD).
Ejemplo: En el caso más simple, para la relación de dos variables.
1.- El presupuesto familiar (VD) depende de los ingresos (VI).
2.- El volumen de ventas (VD) se explica por la inversión en propaganda (VI).
3.- El número de hijos por familia (VD) tiene relación con el nivel educativo de
los padres (VI).
4.- El analfabetismo (VD) tiene relación con el lugar de residencia (VI) y la
expansión del servicio educativo (VI).
7. FUENTES DE INFORMACIÓN
Las fuentes de información esta constituida por cada uno de los lugares de donde se toman
los datos. De acuerdo al tipo del lugar del cual procede esta información podemos
clasificarlo de la siguiente manera:
Fuentes de
recolección
de datos
Resultados de ventas
(clientes) Datos Fuentes estandarizados de Internet
Actividad de mercadotecnia publicados datos de mercadotecnia
(insumos)
Información de costos
Informes de distribuidores y
retroalimentación. Electrónic Impreso Auditorias a tiendas
Retroalimentación de los
os s Servicios de retiros de almacén
clientes Paneles de compra de
consumidores
Gobierno
Fuentes de datos individuales
Asociaciones
Servicios multimedia
comerciales
Publicaciones periódicas
Periódicos
Libros
Informes anuales
Estudios privados
Separata Nº 02
b. Definir su propósito
Una vez que se define el objetivo de la recolección de la información, también se
determina los tipos de comparación que se necesitan, y esto a su vez identifica el tipo de
datos que se deben de recoger.
1. METODOS
a. CENSO
Es un método de recolección de datos mediante el cual la información se obtiene analizando
a la totalidad de los elementos que componen la población o universo bajo estudio. Un censo
debe cumplir las condiciones de universalidad (censar a todos los elementos de la población)
y simultaneidad (realizarse en un momento determinado) Un censo es equivalente a una
fotografía de la población bajo estudio.
El término censo no sólo se aplica a aquellos análisis que comprenden todas las unidades de
todo un país y que se realizan con una frecuencia de recolección quinquenal o decenal, como
es el caso de los censos de población, económicos, agropecuarios, etc., sino también a todo
análisis, cualquiera sea su cobertura geográfica, número de unidades de información, o
frecuencia de su recolección, siempre que incluya todas las unidades que componen el
universo que se investiga.
b. OBSERVACION
Es un proceso permanente de la investigación, a través del cual se conocen las
propiedades, relaciones y conexiones internas de un fenómeno e incluye las experiencias
mas causales y menos reguladas, como los registros filmados mas exactos de las
experiencias llevadas acabo en laboratorio.
Es un proceso sistemático realizado con instrumentos y técnicas especificas para cada
caso. Para realizarla, es necesario que el observador tenga un marco teórico y conceptual
de referencia sobre los indicadores de las variables de la hipótesis que permita llegar a la
“obtención de conceptos con significación objetiva”.
b.1 Procedimientos
La observación científica debe realizarse considerando las siguientes pautas
Preparar estrategias orientadas a capacitar información concreta.
Determinar la forma como controlar las variables.
Planificarla
Determinar el método y el tipo de observación.
c. ENTREVISTA
Consiste en una interacción entre dos personas, una de las cuales el investigador fórmula
determinadas preguntas relativas al tema en investigación, mientras que la otra el
investigado proporciona verbalmente o por escrito la información que le es solicitada.
La entrevista tiene una ventaja principal que le acentúa y es que puede completarse con
la observación directa, también tiene como principal desventaja el hecho que la
c.1 Aplicación
Esta técnica se aplica a informantes claves. Se considera informante clave a las personas
representativas y previamente seleccionadas de un grupo social para prestar información
sobre el tema de investigación.
d. ENCUESTA
Es una técnica que permite obtener información de una muestra representativa de una
determinada población. Es un proceso a través del cual conseguimos datos de primera
mano y todos ellos que permitan especificar mejor el problema.
Dichos datos constituyen un aporte estadístico importante y son utilizados en los análisis
cualitativos-cuantitativos de las unidades encuestadas.
d.1 Organización
Organizar una encuesta implica:
Planear, dirigir, coordinar y controlar su aplicación.
Determinar por muestreo las unidades de análisis a encuestar.
d.2 Aplicación
Para lograr el éxito de la encuesta debemos aplicar las siguientes estrategias.
Comprometer el apoyo de las entidades sociales
Determinar la muestra numérica
Centrar la encuesta para captar la información deseada.
Crear en la población un clima favorable a la aplicación de la encuesta.
Encuesta prospectiva: comienza con una muestra de la población estudiando una o mas
características a través del tiempo.
CUESTIONARIO
1. Concepto
Un cuestionario es un plan formalizado para recolectar datos de los encuestados. La
función del cuestionario es la medición del comportamiento pasado, de las actitudes y de
las características del encuestado.
La medición de actitudes ha crecido en importancia, así como el número de técnicas para
su medición. Estas técnicas generalmente se incorporan al cuestionario. Los aspectos
involucrados en el diseño del cuestionario se relacionan directamente con el desarrollo y
administración de estas técnicas de medición de actitudes.
SI 1 NO 2
(Pase a la pregunta 26) (Pase a la pregunta 27)
4. Información solicitada: Constituye la parte más grande del cuestionario.
5. Datos de clasificación: Tratan sobre las características del encuestado. Estos datos los
suministra directamente el encuestado en el caso de una encuesta por correo. En las
personales y telefónicas el entrevistador recolecta los datos o, en algunos casos, puede estimar
tipos más sensibles de datos basado en la observación, por ejemplo, el ingreso.
a) decisiones previas: la etapa del diseño del cuestionario supone que el proyecto está
avanzado y que se han tomado muchas decisiones. Las decisiones relacionadas con el
diseño del cuestionario deben basarse en las decisiones relacionadas con otros aspectos
del proyecto de investigación y ser compatibles con ellas. Estas decisiones previas,
relacionadas al tipo de diseño de investigación y fuentes de información influyen
directamente sobre la característica y función del cuestionario dentro del proyecto. Es
esencial tener una visión clara de la población objetivo y conocer los detalles del plan de
muestreo. El diseño del cuestionario está muy relacionado con las características del
grupo de encuestados. Cuanto más heterogéneo sea ese grupo, más difícil será diseñar
sólo un cuestionario que sea apropiado para todos. Generalmente el cuestionario debe
diseñarse para que lo pueda comprender el menos capaz de los encuestados. Es necesario
especificar las escalas de medición y los medios de comunicación que se utilizarán. Se
deben visualizar las etapas del procesamiento y análisis de datos, así como la naturaleza
de los hallazgos de la investigación.
b) Vinculo entre las necesidades de información y los datos que van a recopilarse:
Antes de diseñar el cuestionario, el investigador debe tener una lista detallada de las
necesidades de información, así como una definición clara del grupo de encuestados. El
cuestionario es el vínculo entre la información que se necesita y los datos que van a
recolectarse.
a) habilidad para responder con precisión: suponiendo que los datos deseados sean
pertinentes al problema de decisión, el investigador debe estar consciente de la capacidad
del encuestado para proporcionar los datos. Muchos tipos de datos no se pueden recolectar
de manera exacta de los encuestados. Los datos inexactos pueden provenir de:
esta situación. Es posible que se les solicite que proporcionen datos sobre el ingreso bruto
mensual o acerca de las compras con tarjeta de crédito de su cónyuge cuando no poseen
los datos exactos. Es posible que se les formulen preguntas sobre anuncios publicitarios,
productos, marcas o tiendas minoristas que desconocen por completo. Muchas veces los
encuestados responden estas preguntas aunque desconozcan el tema, quizá debido a que
no desean admitir esta falta de conocimiento. Algunas veces, la manera en que se formula
la pregunta estimula al encuestado para que la responda, porque implica que debería
conocer la respuesta.
- El encuestado es olvidadizo: Con frecuencia se formulan preguntas que hace algún
tiempo podíamos contestar pero que ahora hemos olvidado. Los estudios de investigación
han demostrado que olvidamos rápidamente la mayor parte de las situaciones después de
que las conocemos. La tasa de olvido es veloz durante los primeros días. Por consiguiente,
cuanto más tiempo haya transcurrido desde el momento del suceso, mayor será la
posibilidad de olvido. Cuando las necesidades de información de un estudio requieran
preguntas que solicitan al encuestado recordar sucesos sin importancia o que ocurren con
poca frecuencia, el investigador se encuentra a un problema potencialmente grave en el
diseño del cuestionario. Cuando nos enfrentamos con la recolección de datos acerca de
sucesos sin importancia o poco frecuentes, se debe tratar de entrevistar a aquellos
encuestados que tengan mayores posibilidades de recordar, por ejemplo, los compradores
recientes. En segundo lugar, el cuestionario puede incluir técnicas que estimulen la
recordación del suceso por parte del encuestado. La ventaja de la recordación con ayuda
proviene de la clave utilizada para estimular la memoria del encuestado. El grado de
estimulación puede variar desde insinuaciones limitadas hasta la presentación del suceso
real. Este último enfoque hacia la recordación con ayuda recibe el nombre de método de
reconocimiento. Los crecientes intentos para estimular la memoria del encuestado van
acompañadas de la posibilidad de una sugerencia sesgada que resulta de la presentación
de las claves. Cuando se emplea este enfoque, generalmente los investigadores
recomiendan que es útil tener varios niveles de estimulación sucesiva. Esto permite que
el investigador analice la influencia de la secuencia de preguntas y seleccione un nivel de
estimulación más apropiado para el estudio.
b) Deseo de responder con precisión: La renuencia a responder con precisión puede
reflejarse en un rechazo para responder una pregunta o una serie de preguntas (error de
no respuesta por ítem), y suministrar deliberadamente una respuesta incorrecta o
distorsionada a una pregunta (error de medición).
Existen tres razones para no estar dispuesto a responder con exactitud:
- la situación no es apropiada para revelar los datos;
- revelar los datos sería algo embarazoso
- revelar los datos es una amenaza potencial al prestigio o a las normas de los
encuestados.
Es importante recordar que el encuestado tiene una motivación limitada para responder
con exactitud a las preguntas. En el caso de las entrevistas personal y telefónica, la
presencia del entrevistador puede dar como resultado una mayor preocupación del
encuestado hacia cómo reaccionaría el encuestador a las respuestas y no a la exactitud de
éstas. El resultado puede ser un error de no-respuesta por ítem o, lo que es peor, respuestas
inexactas.
La buena voluntad del encuestado para responder a una pregunta es también una función
de su comprensión sobre el propósito legítimo para el cual se utilizan los datos. La
recolección de datos de clasificación puede ser un serio problema en este caso. El
encuestado puede dudar sobre si debe proporcionar datos exactos cuando se enfrenta
Ventajas: Estas preguntas sirven como una excelente primera pregunta de un tema.
Permiten que se expresen las actitudes generales, lo que puede ser de gran ayuda para
interpretar las preguntas más estructuradas. Además, establecen una armonía y logran
obtener la cooperación del encuestado para que responda preguntas más específicas y
estructuradas. Las preguntas introductorias de respuesta abierta son especialmente
importantes en las encuestas por correo. Las preguntas de respuesta abierta influyen sobre
las respuestas en menor grado que las preguntas de selección múltiple o dicotómicas. Los
encuestados no están influenciados por un conjunto predeterminado de alternativas de
respuesta y pueden expresar libremente puntos de vista divergentes a las expectativas del
entrevistador. Esta característica hace que las preguntas de respuesta abierta sean útiles
para la investigación exploratoria. Además, estas preguntas pueden proporcionar al
investigador ideas, comentarios y explicaciones útiles para desarrollar un "tacto" para los
hallazgos de la investigación. El informe final puede incluir citas de las preguntas de
respuesta abierta para dar realismo y vida a los hallazgos más estructurados de la
investigación.
Desventajas: Una de las principales desventajas es el alto potencial de sesgo por parte del
entrevistador. Los entrevistadores rara vez registran al pie de la letra las respuestas de los
encuestados. Esto da como resultado que el entrevistador resuma la respuesta o suprima
aquellos aspectos de la pregunta que él considere poco importantes. Una segunda
desventaja radica en el tiempo y costo asociados con la codificación de las respuestas. En
el caso de una encuesta grande, se requieren procedimientos exhaustivos de codificación
para resumir las respuestas divergentes en un formato útil para el análisis y la presentación
de los datos. El tiempo y costo de este proceso puede representar una parte significativa
del costo total del proyecto de investigación.
Ventajas: Superan muchas de las desventajas asociadas con las preguntas de respuesta
abierta. Lo más importante es que reducen el sesgo del entrevistador y el costo y tiempo
asociados con el procesamiento de los datos. Normalmente el entrevistador encontrará
que este tipo de preguntas es más fácil y rápido de administrar. Finalmente, con
cuestionarios autoadministrados es difícil que los encuestados mantengan la cooperación
a menos que la mayor parte de las preguntas tengan un formato de respuesta estructurado.
incrementar la exactitud de los resultados. Sin embargo, puede surgir una fuente de sesgo
cuando los encuestados que no son neutrales seleccionan la alternativa neutral por razones
de conveniencia, confusión, etc. Si la proporción de encuestados verdaderamente neutral
es grande, es conveniente la inclusión de la alternativa neutral. Si se considera que la
proporción de encuestados neutrales es pequeña, es mejor forzar a los encuestados a que
seleccionen entre las dos posiciones de interés.
Puesto que no existe una forma única y correcta de redactar una pregunta, es importante
tener en cuenta qué efecto puede tener una determinada redacción sobre los resultados.
Para lograr este propósito puede emplearse la técnica de la división por balotas, la cual
selecciona los cuestionarios en grupos y asigna a preguntas alternativas a cada grupo. La
comparación entre las preguntas alternativas determina la forma como la redacción de la
pregunta afecta los resultados. Esta técnica permite una mejor interpretación de los
resultados de la encuesta, que cuando se utiliza una sola versión de la pregunta.
Los siguientes son nueve principios generales que se deben considerar al diseñar la
redacción de una pregunta:
1. Emplear palabras sencillas
2. Emplear palabras claras (las que tienen sólo un significado)
3. Evitar preguntas que sugieren la respuesta
4. Evitar preguntas sesgadas
5. Evitar alternativas implícitas
6. Evitar supuestos implícitos
7. Evitar estimaciones
8. Evitar preguntas de doble respuesta
9. Considerar el marco de referencia
10. El lenguaje utilizado en las preguntas debe ser adaptado a las características del
encuestado.
11. Las preguntas no deben de incomodar al receptor
7º Tamaño de un cuestionario
No existe una regla al respecto, si es muy corto se pierde información y se resulta largo
puede resultar tedioso de responder o al menos no completar el cuestionario. El tamaño
depende del número de variables y dimensiones a medir, el interés de los respondientes y
la manera como es administrado (de este punto se hablara en el siguiente inciso).
8º Aplicación de cuestionario
Los cuestionarios pueden se aplicados de diversas maneras:
a) Auto administrativo. En este caso el cuestionario se les proporciona directamente
a los respondientes, quienes lo contestan. No hay intermediarios y las respuestas
las marcan ellos.
b) Por la entrevista personal. En esta situación, un entrevistador aplica el
cuestionario a los respondientes (entrevistados). El entrevistador va haciéndole
las preguntas al respondiente y va anotando las respuestas.
c) Por entrevista telefónica. Esta situación es similar a la anterior, solamente que la
entrevista no es “cara a cara” sino a través del teléfono. El entrevistador la hace
las preguntas al respondiente por este medio de comunicación.
d) Auto Administrado y enviado por correo posta, electrónico o servicio de
mensajería. En este caso también los respondientes contestan directamente
cuestionario, ellos marcan o anotan las respuestas, no hay intermediario.
Solamente que no se entregan los cuestionarios directamente a los respondientes
(“en propia mano”) sino que se les envía por correo y otro medio, no hay
retroalimentación inmediata, si los sujetos tienen alguna duda o se les puede
aclarar en el momento.
Separata Nº 03
ORGANIZACIÓN DE DATOS
1. Clase: Es una división de la variable. Se denota como subíndice con la letra “i” y el
número total de clases con “m”
2. Frecuencia: Es las veces que se repite una clase de la variable. Estas son: Simples y
Acumuladas
2. 1 Frecuencias Simples: Son aquellas frecuencias que sólo correspondes a una clase
de la variable entre ellas tenemos:
f
i 1
i n
Obsérvese que fi es el tanto por uno de observaciones que están en la clase ci.
Multiplicado por representa el porcentaje de la población que comprende esa clase.
También cumple:
m
hi 1
i 1
p
i 1
i 100
2.2 Frecuencias Acumuladas: Aquellas frecuencias que se obtienen por la suma de dos
o más clases de la variable
Hi, se calcula sobre variables cuantitativas, siendo el tanto por uno de los elementos de
la población que están en alguna de las clases y que presentan una modalidad inferior o
igual a la ci, es decir:
i
Fi
Hi h1 h2 ... hi hk
n k 1
Pi, se calcula sobre variables cuantitativas, siendo el tanto por ciento de los elementos de
la población que están en alguna de las clases y que presentan una modalidad inferior o
igual a la ci, es decir :
i
Pi H i *100 p1 p2 ... pi pk
k 1
3. Distribución de Frecuencias
Variable cualitativa
CLASE Fi hi pi
C1 f1 h1 p1
C2 f2 h2 f2
C3 f3 h3 p3
C4 f4 h4 p4
.. . . .
. . . .
Cm Fm hm pm
Variable cuantitativa
CLASE fi Fi hi Hi pi Pi
C1 f1 F1 = f1 h1 H1 = h1 p1 P1 = p1
C2 f2 F2 = f1 + f2 h2 H2 = h1 + h2 f2 P2 = p1 + p2
C3 f3 F3 h3 H3 p3 P3
. . .
. . . .
Cm fm Fm = n hm Hm = 1 pm Pm = 100
Si las clases van a estar conformadas por intervalos se debe seguir los siguientes pasos:
1. Determinar el mínimo (Mín) y el máximo (Máx) del conjunto de datos
2. Calcular el Rango (R) de datos mediante: R = Máx – Mín
3. Elegir el número de clases (m): se puede utilizar la siguiente fórmula m 2.54 n
siempre es un valor entero, redondear según criterios de redondeo. El valor de m
se puede elegir también a criterio y necesidades del investigador en un intervalo
de 5<m<20
R
4. Se calcula la amplitud del intervalo (a) mediante: a siempre se redondea por
m
exceso (esto es siempre aumentar una unidad en la cifra de redondeo. Ejemplo si
a=1.23 y se desea redondear a 1 decimal el valor de a = 1.3)
5. Debido al redondeo por exceso que se realiza en el paso anterior, se debe realizar
el ajuste al rango (si el cociente de la amplitud es exacto no seguir este paso)
mediante los siguiente pasos:
5.1 Calcular el nuevo rango (R’) mediante R’ = a*m
5.2 Calcular el exceso del nuevo rango que estará dado por d=R’-R
[yi-1 – yi> fi Fi hi Hi pi Pi
Mín – Mín +a f1 F1 = f1 h1 H1 = h1 p1 P1 = p1
Mín+a – Mín+2a f2 F2 = f1 + f2 h2 H2 = h1 + h2 f2 P2 = p1 + p2
Mín+2a – Mín+3a f3 F3 h3 H3 p3 P3
f4 F4 h4 H4 p4 P4
4. El número de pasajeros diarios que viajaron a diferentes partes del país en una
línea aérea son los siguientes:
68 72 50 70 65 83 77 78 80 93
71 74 60 84 72 84 73 81 84 92
77 57 70 59 85 74 78 79 91 102
83 67 66 75 79 82 93 90 101 80
79 69 76 94 71 97 95 83 86 69
Construya la tabla de frecuencias.
7. Los tiempos de vida útil (en días) de un tipo de objeto, se tabuló en una
distribución de frecuencias de 5 intervalos de igual amplitud con frecuencias
relativas acumuladas: 0,10 0,25 0,55 0,80 1,00. Determine la distribución de
frecuencias, si la tercera frecuencia absoluta acumulada es 11 y la segunda marca
de clase es 6 y si el limite inferior del cuarto intervalo es 12. Construir la tabla de
distribución de frecuencias.
8. La demanda diaria de azúcar (en miles de kilogramos) recopilada durante 190 días
en un supermercado, se tabuló en una distribución de frecuencias simétricas de 5
intervalos de amplitud igual a 4. Si la marca de clase del intervalo central es igual
a 12 y si la curva de frecuencias absolutas satisface la relación:
f(xi) = -(xi – 12)2 + 70 Donde xi es marca de clase
Separata Nº 04
GRÁFICOS ESTADÍSTICOS
1. CONCEPTO
Una gráfica o diagrama es un dibujo complementario a una tabla o cuadro, que permite
observar las tendencias de un fenómeno en estudio y facilita el análisis estadístico de las
variables ahí relacionadas.
2.1 Título adecuado: Claro y conciso, que responda a las preguntas: ¿Qué relaciona?,
¿cómo?, ¿cuándo?, y ¿dónde se hicieron las observaciones?
2.2 El cuerpo: O gráfico en sí, cuya elección debe considerar el o los tipos de variables
a relacionar, el público a quien va dirigido y el diseño artístico del gráfico.
2.3 Notas de pie de gráfico: En ella se presentan aclaraciones respecto al gráfico, las
escalas de los ejes, o se otorgan los créditos a las fuentes respectivas. Esta componente es
opcional
Existe una gran cantidad de gráficos para la representación de datos estadísticos, entre los
principales tenemos:
1. Gráfico de Barras:
El gráfico de barras, como su nombre lo indica, está constituido por barras rectangulares
de igual ancho, conservando la misma distancia de separación entre sí. Se utiliza
básicamente para mostrar y comparar frecuencias de variables cualitativas o
comportamientos en el tiempo, cuando el número de ítems es reducido.
Se construye de la siguiente manera la base de las barra la conforman las categorías de la
variable y su altura se presenta con la frecuencias simples (absoluta, relativa o porcentual)
Se clasifican por:
Barras Simples: Compara valores entre categorías de una variable
Barras Dobles: Compara valores entre categorías de dos variables
Barras Múltiples Compara valores entre categorías de dos variables
Barra Verticales: Las categorías de la variable deben ubicarse en el eje X
Barras Horizontales: Las categorías de la variable deben ubicarse en el eje Y
Barras Apiladas: Compara entre categorías el aporte de cada valor en el total
4. Histograma de Frecuencias:
Es un gráfico de barra pero unidas. Se utiliza básicamente para mostrar la distribución de
frecuencias de variables cuantitativas. El histograma se construye dibujando barras
contiguas que tienen como base la amplitud de cada intervalo y como alturas las
frecuencias respectivas.
Para la construcción de un histograma de frecuencias de fácil interpretación y que no
falsee la información, debe disponerse de una distribución de frecuencias por intervalos
con amplitud igual para cada clase o intervalo. En el eje de las abscisas procedemos a
representar los intervalos de la variable, y en el eje de las ordenadas las frecuencias de
cada clase.
5. Polígono de Frecuencias:
Es un gráfico poligonal cerrado. Se utiliza básicamente para mostrar la distribución de
frecuencias de variables cuantitativas. Para la construcción de un polígono de frecuencias,
se marcan los puntos medios (marcas de clase) de cada uno los intervalos en la parte
superior de cada barra del histograma de frecuencias, los cuales se unen con segmentos
de recta.
Distribuidora Chespi S.A.: Ventas Diarias en Distribuidora Chespi S.A.: Ventas Diarias en
artículos de primera necesidad artículos de primera necesidad
Este tipo de gráfico es útil para representar la relación existente entre dos variables de
tipo cuantitativo
La representación gráfica de este tipo de variables es en realidad semejante a la
representación de puntos en el plano, usando unos ejes de coordenadas. Cada pareja de
valores da lugar a un punto en el plano y el conjunto de puntos que se obtiene se denomina
"diagrama de dispersión o nube de puntos".
V
e
n
t
a
Precio (Dólares)
8. Pictograma:
Tiene la característica de que las unidades de la variable se debe representar con símbolos
que lo identifique y su tamaño va en relación a la frecuencia de la categoría de la variable
9. Pirámide:
Se utiliza principalmente para presentar la distribución de la población por grupos etéreos
y género
10. Mapa:
Se utiliza principalmente para presentar información estadística por zonas geográficas de
un país, región, etc.
Ventas Días
(miles de $)
15 - 25 9
25 - 35 12
35 - 45 8
45 - 55 3
55 - 65 3
TOTAL 35
Separata Nº 05
MEDIDAS DESCRIPTIVAS
Las medidas de tendencia central, llamadas así porque tienden a localizarse en el centro
de la información.
De tendencia porque no necesariamente son valores que la distribución presenta, sino
valores hacia los cuales tiende o aproxima.
Centrales porque, normalmente, en el gráfico de frecuencias serán siempre valores
medios centrales.
Las medidas de tendencia central responden a la necesidad de describir una colectividad
en función de una sola medida que la caracterice y distinga, ya sea porque son los más
frecuentes (moda) o porque alrededor de ellos se agrupa la mayor parte de la población o
muestra (media o mediana),
Las medidas de tendencia central, son también medidas de posición ya que, de todas
maneras ocupan un lugar dentro de la información, los parámetros posicionales son muy
útiles en la interpretación porcentual de la información.
Este tipo de medidas son de gran importancia en el manejo de las técnicas estadísticas,
sin embargo, su interpretación no debe hacerse aisladamente de las medidas de dispersión,
ya que la representabilidad de ellas está asociada con el grado de concentración de la
información.
Las principales medidas de tendencia central y posición son:
Media aritmética.
Mediana
Moda.
Cuantiles
Media Ponderada
Media Geométrica
Media Armónica
MEDIA ARITMÉTICA
Cálculo de la Media
X
xi X
xi fi X xi hi
n n
Simbología:
Si la media muestral es calculada de una población se simboliza mediante
Si la media muestral es calculada de una muestra de una población se simboliza
mediante x
Propiedades de la media aritmética
1. La suma de las diferencias de los datos con respecto a la media aritmética es igual cero.
2. La suma de las diferencias cuadráticas de los datos, con respecto a la Media Aritmética,
es mínima.
3. La media aritmética de una constante es la misma constante.
4. Si a cada uno de los resultados le sumamos o le restamos una constante k , la Media
Aritmética queda alterada en esa constante.
5. Si cada uno de los datos se multiplica por una constante k, entonces la media aritmética
queda multiplicada por esa constante
6. La media aritmética de la suma o diferencia de dos variables es la suma o diferencia de
sus medias.
- Resulta tedioso calcular la media debido a que utilizamos cada uno de los puntos de dato
de nuestro cálculo.
- Somos incapaces de calcular la media para un conjunto de datos que tiene clases de
extremo abierto, ya sea en el inferior o en el superior de la escala.
MEDIANA
Simbología
Se simboliza con Me
Cálculo de la Mediana
50 Pj 1
0,5 H j 1 Me Li j a j
Me Li j a j pj
hj
MODA
Entendemos por moda el valor de la variable que más veces se repite, y en una
distribución de frecuencias el valor con mayor frecuencia absoluta simple
Simbología
Se simboliza con Mo
Cálculo de la Moda
Datos no agrupados
En este caso la determinación de la moda es inmediata por simple observación. Aquel
valor de la variable con mayor frecuencia absoluta simple es la moda.
Puede darse el caso de que no haya moda (amodal), sólo una (unimodal), dos modas
(bimodal) o varias modas (multimodal).
Datos Agrupados
f j f j 1
Mo Li j a j
h j h j 1 ( f j f j 1 ) ( f j f j 1 ) p j p j 1
Mo Li j a j Mo Li j a j
(h j h j 1 ) (h j h j 1 ) ( p j p j 1 ) ( p j p j 1 )
PERCENTILES
Los deciles: dividen la serie en 10 partes iguales cada una con el 10% de sus elementos.
El percentil 50 coincide con el decil 5, con el cuartil segundo y es lo que hasta ahora
hemos llamado mediana.
i 100 H j 1 i % Pj 1
Pi Li j a j Pi Li j a j
hj pj
MEDIA PONDERADA
Hemos visto que la Media Aritmética se calcula con base a la magnitud de los datos,
otorgándoles igual importancia a cada uno de ellos. Sin embargo en muchas ocasiones la
magnitud del dato esta ponderada con un determinado peso que lo afecta relativamente.
La media aritmética ponderada aparece cuando a cada valor de la variable se le otorga
una ponderación o peso, en función de su distinta importancia relativa.
La Media Aritmética ponderada tiene en cuenta la importancia relativa de cada uno de
los datos, para lo cual la definimos con la siguiente expresión:
xw
xi wi
wi
Media de Submuestras: Se utiliza cuando la muestra total está dividida en submuestras o
n i
MEDIA GEOMÉTRICA
xg n xi xg n x i
fi
MEDIA ARMÓNICA
1. El número de pasajeros diarios que viajaron a diferentes partes del país en una
línea aérea son los siguientes:
60 64 42 60 57 75 69 70 72 85 63 66 52
76 64 76 60 73 60 84 69 49 60 51 79 68
70 71 83 94
a. Calcular el promedio diario de pasajeros.
b. ¿Cuál es la cantidad máxima de pasajeros que viajaron el 50% de los días
observados?
c. Calcular la cantidad más frecuente de pasajeros diariamente
5. Los tiempos de vida útil (en días) de un tipo de objeto, se tabuló en una
distribución de frecuencias de 5 intervalos de igual amplitud con frecuencias
relativas acumuladas: 0,10 0,25 0,55 0,80 1,00. Determine la distribución de
frecuencias, si la tercera frecuencia absoluta acumulada es 11 y la segunda marca
de clase es 6 y si el limite inferior del cuarto intervalo es 12. Construir la tabla de
distribución de frecuencias.
a. Calcular el tiempo de vida promedio de dichos objetos.
b. Determine el tiempo de vida máximo 75% de los objetos producidos.
c. Calcular el tiempo de vida más frecuente de los objetos.
menos de S/735, 55% ganan menos de S/840, 90% ganan menos de S/945 y el
10% restante de empleados ganan a lo más S/1050.
a. Calcular el sueldo promedio de los empleados de esta compañía.
b. Determine el sueldo máximo de la mitad de los empleados de la compañía.
Si una empresa prestigiosa desea contratar los sólo a los titulados en MBA sólo
del 25% superior de su promoción. ¿cuál es el salario mínimo que debería ofrecer?
11. INEI da a conocer una gran cantidad de datos económicos y financieros, entre
ellos el PBI. A continuación se da el índice del PBI durante el año 1995 hasta el
1998
Período Indice
PBI
1995 1.0154
1996 1.0177
1997 1.0184
1998 1.0116
Calcular el incremento promedio del PBI.
700 – 900 10 3
900 – 1100 16 42
1100 – 1300 26 12
1300 – 1500 8 3
Calcular la medida más apropiada para decidir cual de las marcas debe
comprar.
14. En una empresa donde trabajan 500 obreros. El salario medio mensual alcanza a
1280 soles mensuales. Que sucede con este promedio si a cada trabajador:
a. se le aumentan 200 nuevos soles.
b. se le aumenta el 15% de su sueldo.
c. se le aumenta el 8% de sus sueldos, dándole además una bonificación de
120 nuevos soles por movilidad
15. Un grupo de 100 atletas viajan en dos aviones, el primero lleva 40 atletas y el
segundo los restantes. El peso medio de los 100 atletas es de 87,7 kgs. El peso
medio de los atletas que van en el segundo avión es de 4,6 kgs menos que el
primero. ¿Cuál es el peso medio de los atletas de cada avión?
16. El salario mensual pagado a los empleados de cierta empresa es de 1400 nuevos
soles. Los salarios medios mensuales pagados a los hombres y las mujeres de la
empresa son 1440 y 1350 nuevos soles respectivamente. Determine el porcentaje
de hombres y mujeres que trabajan en la empresa.
19. El histograma que se presenta a continuación, representa las ventas (en miles de
nuevos soles) de una empresa.
12
10
D 8
I
A 6
S
4
0
127 137 142 147 162
VENTAS
2. MEDIDAS DE DISPERSIÓN
Es la medida de dispersión mas sencilla ya que solo considera los dos valores extremos
de una colección de datos, sin embargo, su mayor utilización está en el campo de la
estadística no paramétrica.
Q = (Q3 - Q1)/2
Donde Q3 y Q2 son el primer y tercer cuartil de los datos. A veces se usa el “Recorrido
intercuartil Q3 – Q1 “
El recorrido semi-intercuartil o desviación cuartil, da una idea de la dispersión del 50%
de los datos centrales. Suele utilizarse cuando la mediana es el índice más representativo.
La desviación media, mide la distancia absoluta promedio entre cada uno de los datos, y
el parámetro que caracteriza la información. Usualmente se considera la desviación media
con respecto a la media aritmética:
xi x x i x fi
DM i 1
DM i 1
n n
2.4 VARIANZA
Cálculo de la Varianza
Para datos no agrupados Para datos agrupados
- Varianza de la Muestra - Varianza de la muestra
x i x x x f i
n m
2 2
i
s2 i 1
s2 i 1
n n
- Varianza de la población - Varianza de la población
x x
N m
x fi
2 2
i i
2 i 1
2 i 1
N N
Simbología
S2 : Varianza de la muestra
2 Varianza de la Población
Con lo que la desviación estándar o típica vendrá dada en las mismas unidades que los
valores de la variable.
- La desviación estándar o típica siempre es positiva porque la varianza también lo es.
- La desviación estándar o típica es la medida de dispersión óptima, más exacta, más
estable y más utilizada, sirviendo de base para las medidas de asimetría, estadísticos
típicas y correlación.
- Cuanto más se acerca a cero la desviación más concentrada es la serie.
- Suele decirse que cuando la desviación estándar o típica es menor que la media
aritmética la serie es concentrada y sí la desviación estándar o típica es mayor que la
media aritmética la serie es dispersa.
Para determinar la homogeneidad (tiene menor variabilidad) de dos o más muestras que
tienen diferente unidad de medida, se elige aquella que tenga el menor CV.
3. MEDIDAS DE ASIMETRÍA
Interpretación:
Si As = 0, La distribución es simétrica, esto es x Me Mo
Si As > 0, La distribución es asimétrica positiva, esto es Mo Me x
Si As < 0, La distribución es asimétrica negativa, esto es x Me Mo
4. MEDIDAS DE CURTOSIS
3. La demanda diaria de azúcar (en miles de kilogramos) recopilada durante 190 días
en un supermercado, se tabuló en una distribución de frecuencias simétricas de 5
intervalos de amplitud igual a 4. Si la marca de clase del intervalo central es igual
a 12 y si la curva de frecuencias absolutas satisface la relación:
f(x) = -(x – 12)2 + 70 Donde xi es marca de clase
d. Determine la Curtosis.
e. Calcule el coeficiente de variación
a. b. S c. CV d. Asimetría e. Curtosis
S2
Separata Nº 06
TEORIA DE PROBABLIDAD
1. HISTORIA.
En la sociedad francesa de 1650 el juego era un entretenimiento corriente, sin
demasiadas restricciones legales. En este entretenimiento están las raíces de la
teoría de la probabilidad, pues cada vez se introducido juegos mas complicados
que dejaron de sentir la necesidad de un método para calcularla probabilidad de
ganar en cada juego.
La probabilidad se obtiene dividiendo el número de casos favorables entre el
número de los casos posibles, por tanto la probabilidad de obtener oros al extraer
al azar una carta de una baraja es 10/40 = 1/4 y se admitían que al repetir la
fracción 400 veces, devolviendo la carta a la baraja tras cada extracción, sería muy
poco usual que la frecuencia relativa de los oros obtenidos estuviesen alejadas de
1/4.
Un jugador apasionado, el caballero De Méré, encontró un desacuerdo entre las
frecuencias relativas de la veces que ganaba - valores observados realmente - y el
valor de la correspondiente probabilidad de ganar que el mismo había calculado.
Consultó esta discrepancia en París con el famoso matemático y filósofo Pascal,
quien se interesó por los problemas que le proponía De Méré y comenzó una
correspondencia epistolar sobre cuestiones probabilísticas con otros matemáticos
amigos, sobre todo con Fermat. Esta correspondencia puede considerarse el origen
de la teoría de probabilidades.
Pronto Pascal y Fermat probaron el desacuerdo de De Méré se debía a que era
erróneo el calculo de probabilidad que había hecho, ya que De Méré se había
equivocado al considerar como equiprobables casos que no le eran, y sólo cuando
los casos posibles son equiprobables tiene sentido aplicar la definición dada de
probabilidad.
El desarrollo de la teoría de probabilidades tiene otro punto de referencia en 1713,
en que se publica la obra "Ars conjectandi" (El arte de la Conjetura) de J.
Bernoulli, donde estudia la distribución binominal y su célebre teoría que da para
esta distribución la expresión matemática de la propiedad de estabilidad de las
frecuencias relativas.
Otro hito es la segunda edición de la obra "The Doctrine of Chances" (La doctrina
de las probabilidades) aparecidas en 1738 y debida al hugonote francés De
Moivre, que por motivos religiosos huyó de Francia refugiándose en Inglaterra,
donde vivió de la resolución de problemas de juegos de azar. En la obra señalada
aparecen las primeras indicaciones sobre la distribución normal de probabilidades.
En 1812 Laplace publica su famosa "Theoríe Analytique des probabilités", que
contiene una exposición completa y sistemática de la teoría matemática de los
juegos de azar, además de una gran cantidad de aplicaciones de la teoría de la
probabilidad a muchas cuestiones científicas y prácticas.
Tras la obra de Laplace se extendieron las aplicaciones de su obra otras ramas de
la Ciencia durante el siglo XIX, y así, Gauss y Laplace independientemente
aplicaron la teoría de la probabilidad al análisis de los errores de medida en las
observaciones físicas y astronómicas, Maxwell, Boltzmann y Gibbs aplicaron la
probabilidad en su obra "Mecánica Estadística", que ha sido fundamental en
distintas partes de la Física moderna. Ya durante nuestro siglo las aplicaciones de
la teoría de la probabilidad se han extendido por los más variados campos, como
genética, economía, psicología...
También, y pese al éxito de las aplicaciones, se oyeron voces críticas a la
definición clásica de probabilidad, que exigía "a priori" saber, o suponer, que
todos los casos posibles eran igualmente favorables. Además en ciertos casos era
imposible aplicar la definición clásica de probabilidad, como puede suceder al
intentar calcular la probabilidad de que un chinche caiga con la punta hacia arriba,
o de que un hombre de 30 años muera el próximo año.
Si bien la matemática cambió profundamente de forma entre las dos guerras
mundiales, también es cierto que buena parte de la matemática que siguió a la
Segunda Guerra Mundial consistía en el comienzo de algo radicalmente nuevo
que anunciaba una nueva era. La teoría de conjuntos y la teoría de la medida han
ido invadiendo a lo largo del siglo XX una parte cada vez más extensa de la
matemática, pero pocas de sus ramas se han visto afectadas tan profundamente
por esta tendencia como la teoría de probabilidades, a la que Borel había dedicado
ya en 1909 sus "Eléments de la théorie des probabilités".
El primer año del nuevo siglo se anunciaba ya propicio para las aplicaciones de la
teoría de probabilidades tanto a la fisica como a la genética, puesto que en 1901
publicaba Glbbs su obra Elementary Principles in Statistical Mechanics, y el
mismo año fue fundada la revista Biometrika por Karl Pearson (1857-1936).
Francis Galton (1822-1911) fue muy precoz y un estadístico nato que estudió los
fenómenos de regresión; en 1900 Pearson en la universidad de Londres popularizó
el criterio de la «chi-cuadrado». Uno de los títulos de Poincaré había sido el de
2. CONCEPTOS BÁSICOS
Ejemplos
A = { Φ, {1}, {2}, {3}, {4}, {5}, {6}, {1,2}, {1,3}, {1,4}, {1,5}, {1,6}, {2,3},
{2,4}, {2,5}, {2,6}, {3,4}, {3,5}, {3,6}, {4,5}, {4,6}, {5,6}, {1,2,3},
Obsérvese que este conjunto contiene los sucesos sobre los que habitualmente se
tiene incertidumbre, como por ejemplo que salga un número par, {2,4,6}, o un
número mayor que cuatro, {5,6}, o simplemente que salga un seis, {6}, y que
como se ve es cerrado respecto de las operaciones entre conjuntos.
3. El último elemento del espacio probabilístico es la probabilidad, que como
antes dijimos está definida sobre A, asignando a cada suceso un número entre
0 y 1.
Por tanto, asociado a todo experimento aleatorio existen tres conjuntos: El espacio
muestral , la clase de los sucesos, es decir, el conjunto de los elementos con
incertidumbre asociados a nuestro experimento aleatorio A, y una función real,
P:A [0, l], la cual asignará a cada suceso (elemento de A) un número entre cero
y uno como medida de su incertidumbre.
No obstante, que la elección del espacio muestral asociado a un experimento
aleatorio no tiene por qué ser única, sino que dependerá de que sucesos
elementales queramos considerar como distintos y del problema de la asignación
de la probabilidad sobre esos sucesos elementales.
3. CONCEPTOS DE PROBABILIDAD
Obsérvese que esta definición no dice cómo asignar las probabilidades ni siquiera
a los sucesos elementales. Solo dice que cualquier asignación que hagamos debe
verificar estos tres axiomas para que pueda llamarse Probabilidad.
Toda probabilidad cumple una serie de propiedades, las cuales se obtienen como
consecuencia de los axiomas que debe de cumplir. A continuación vamos a demostrar
las más importantes:
1. P( ) = 0.
En efecto: Si consideramos la sucesión infinita
es
es decir,
P(A)=P(A) + P( A )
i2
i
de donde se deduce que P(Ai)= P( ), para todo i=2,...., no debe sumar nada, es
decir, debe ser
P( ) = 0.
si Ai Aj= , i j
En efecto: Basta considerar la sucesión
2. Resta de conjuntos
Se define el conjunto A-B como el que está formado por los elementos de A que no
están en B. Por tanto si quitamos a A los elementos comunes a A y B ( ) nos
queda A-B
3. Desigualdad de Boole
P( A1 A2 A3 ) P( A1 ) P( A2 ) P( A3 ) P( A1 A2 ) P( A1 A3 ) P( A2 A3 ) P( A1 A2 A3 )
Luego entonces para el cálculo de la probabilidad de un suceso o evento
A en un modelo uniforme, estará dado por:
Permutaciones de N elementos
PN = N! = N · (N - 1) · ... · 2 · 1
Permutaciones con repetición de N elementos, uno de los cuales se repite n1
veces, otro n2 veces, ..., otro nr veces
2. Cierto juego llamado craps se juega con dos dados. Un jugador lanza ambos dados
y gana incondicionalmente si produce un natural (la suma de los dos números a la
vista 7 u 11); pierde incondicionalmente si lanza craps (un 2, 3 o 12)
a. Determine la probabilidad de un jugador lanzará un natural en la primera
tirada de los dados.
b. Determine la probabilidad de un jugador no lance craps en la primera
tirada de los dados.
Acción/Consulta del N° de
operador Reglas
Planificación por lotes 139
Espacio de colas JES 104
Enlaces de C a C 68
Errores de Hardware 87
Gestión de SMF 25
Latencia e IPL 52
Desempeño 41
Monitor de segundo plano 32
a. Sea mujer
b. Sea un hombre del partido C
c. Sea del partido B o D
d. Sea al menos de alguno de los partidos C, E, F
e. Sea una mujer o pertenezca al partido D
f. Sea hombre que no pertenece al partido E
14. Se contrata los servicios de calificación de computadoras para encontrar las tres
mejores marcas de monitores SVGA. Se incluirá un total de 10 marcas en el
estudio. Si el servicio de calificación no puede distinguir diferencias entre las
marcas y por lo tanto obtener el ordenamiento final al azar. ¿cuál es la
probabilidad e que la marca de la compañía Z quede:
a. en primer lugar?
b. entre los tres primeros lugares?
16. Un comerciante tiene 12 unidades de cierto artículo de los cuales 4 tienen algún
defecto. Un cliente pide para comprar 3 de tales artículos pero que no tengan
defecto, si el comerciante escoge al azar y de una sola vez 4 de tales artículos
¿Cuál es la probabilidad de que con las cuatro unidades escogidas satisfagan el
pedido del cliente?
Separata Nº 7
Por ejemplo
Si se lanza un dado y sale un número par ¿cuál es la probabilidad que sea 4?
Solución:
Sea
1,2,3,4,5,6
B 2,4,6 entonces, P( B)
3 1
y
6 2
A B 4 entonces, P( A B)
1
6
calculando la probabilidad condiconalserá
1
P( A B) 6
P( A / B)
P( B) 1
2
1
P( A / B)
3
P( A1 A2 … An ) = P(A1).P(A2/A1)…P(An/A1 A2 … An-1)
Siempre que P(A1 A2 … An-1)>0
P(B) = P( B / A ).P( A )
n
n n
Ejemplo
Una población está formada por tres grupos étnicos: A (un 30%), B (un 10%) y C
(un 6O%). Además se sabe que el porcentaje de personas con ojos claros en cada
una de estas poblaciones es, respectivamente, del 20%, 40% y 5%. Por el teorema
de la probabilidad total, la probabilidad de que un individuo elegido al azar de
esta población tenga ojos claros es:
P(ojos claros) = P(A) ·P(ojos claros/A) + P(B) · P(ojos claros/B) + P(C) · P(0jos claros/C ) =
=0'3 · 0'2 + 0'1 · 0'4 + 0'6 · 0'05
= 0'13.
Este teorema tiene una interpretación intuitiva muy interesante. Si las cosas que
pueden ocurrir las tenemos clasificadas en los sucesos Ai de los cuales conocemos
sus probabilidaes P(Ai), denominadas a priori, y se observa un suceso B, la
fórmula de Bayes nos da las probabilidades a posteriori de los sucesos A,
ajustadas o modificadas por B.
17. Un lote consta de 10 artículos buenos, 4 con pequeños defectos y 2 con defectos
graves. Se elige al azar 2 artículos (sin sustitución) encuentre la probabilidad de
que:
a. ambos sean buenos.
b. Ambos tengan defectos graves.
c. por lo menos uno sea bueno.
d. a lo más uno sea bueno.
e. Exactamente uno sea bueno.
f. ninguno tenga defectos graves.
g. Ninguno sea bueno
18. Análisis S.A., una pequeña firma consultora, está negociando dos contratos. La
Gerencia piensa la probabilidad de ganar el primer contrato es de 60%, y que el
ganador tendrá ventaja definitiva en la negociación del segundo contrato. La
Gerencia cree, que si Análisis S.A. gana el primer contrato va a tener un 70% de
probabilidad de ganar el segundo, pero si pierde el primer contrato, la probabilidad
de ganar el segundo disminuirá a 0.10.
a. ¿cuál es la probabilidad de que Análisis S.A. pierda ambos contratos?
b. ¿Cuál es la probabilidad de que el Análisis S.A. gane el segundo
contrato?
20. Se mezclan dos microchips defectuosos con dos buenos. Se comienzan a probar
una a una hasta que se descubren las defectuosas. ¿Cuál es la probabilidad de que
el segundo microchip defectuoso, sea el tercero robado?
22. Del primer examen de estadística resulta que el 40% de los alumnos está
aprobado. Se estima en 70% los alumnos que no estarán aprobados en el segundo
examen y una probabilidad de ¾ que un alumno no esté aprobado en el segundo
examen si estuvo aprobado en el primer examen. Si se elige al azar un alumno,
calcular la probabilidad de que este aprobado en el segundo examen y este
desaprobado en el primer examen.
23. Considere los eventos A y B tales que P(A)=1/4, P(B/A)=1/2, P(A/B)=1/4. Diga,
si cada uno de los siguientes incisos son verdaderos o falsos (demuéstrelo)
a. Ay B son mutuamente excluyentes c. P(A’/B’) = ¾
b. A es sub evento de B d. P(A/B) + P(A/B’) = 1
el intruso sí fue detectado por el sistema, el clima estuvo despejado 75% del
tiempo, nublado 20% del tiempo y lluvioso 5% del tiempo. Cuando el sistema no
detectó al intruso, 60% de los días estuvieron despejados, 30% nublados y 10%
lluvioso. Utilice esta información para calcular la probabilidad de detectar un
intruso cuando el clima está lluvioso.
26. Todas las noches el señor Pérez llega tarde a su casa. La señora Pérez que es una
buena esposa, le deja encendida la luz de la entrada a la casa: LA probabilidad
que el señor Pérez llegue borracho es 0,6. Si llega borracho, hay una probabilidad
de 0,9 de que olvide apagar la luz, en tanto que ésta es de sólo 0,05 si llega sobrio.
Dado que el señor Pérez apagó la luz una cierta noche, ¿cuál es la probabilidad de
que haya llegado borracho?