Você está na página 1de 88

DISEO DE EXPERIMENTOS

Dr. Gerardo de Jess Sosa Santilln


Departamento de Biotecnologa
Facultad de Ciencias Qumicas
Universidad Autnoma de Coahuila.

1
II. PROCESAMIENTO ESTADSTIC0
BSICO DE DATOS.

2
Conceptos Bsicos.

Estadstica. La ciencia de recolectar, clasificar, describir


e interpretar datos numricos.

Estadstica Descriptiva. Parte de la estadstica dedicada a


la recoleccin, presentacin y descripcin de datos
numricos.

Estadstica inferencial. Parte de la estadstica encargada


de interpretar los valores que se obtienen a partir de las
tcnicas descriptivas para posteriormente tomar
decisiones en base a los resultados.

3
Poblacin.

Coleccin completa de individuos, objetos o medidas que


tienen una caracterstica en comn.

El concepto de poblacin es la idea fundamental ms importante


de la estadstica

La poblacin debe definirse cuidadosamente, en cada caso,


a fin de poder determinar la pertenencia a ella.

4
Muestra.

Es un subconjunto de la poblacin; es decir, una muestra


se compone de algunos de los individuos, objetos o
medidas de una poblacin.

Datos.

Comprenden el conjunto de valores asignados a la


variable de respuesta para cada elemento perteneciente
a la muestra.

5
Experimento.

Una actividad planificada cuyos resultados producen un


conjunto de datos.

Parmetro.

Una caracterstica medible de una poblacin


completa.

En estadstica se acostumbra asignar a los


parmetros un nombre simblico, representado por
una letra griega (como ).

6
Estadstico.

Es la medida de una caracterstica relativa a una muestra.

La mayora de los estadsticos muestrales se encuentran


por medio de una frmula y suele asignrseles nombres
simblicos que son letras del alfabeto latino (como X o S).

Variable.

Una caracterstica de cada elemento individual de una


poblacin o de una muestra.

El valor de la variable ser la medida de la caracterstica que


interesa. Tambin se le llama variable de respuesta.

7
CLASIFICACION DE
VARIABLES

CUALITATIVAS CUANTITATIVAS

ATRIBUTOS NUMERICO

NOMINAL ORDINAL DISCRETO CONTINUO

8
De acuerdo a la escala de medicin usada se
clasifica en:

VARIABLE CUALITATIVA O CATEGRICA.


Nominal
Ordinal

VARIABLE CUANTITATIVA O ESTADSTICA:

Contina

Discreta

9
VARIABLE CUALITATIVA

Son aquellas variables que no aparecen en forma


numrica, sino como categoras o atributos y tiene sentido
cuando se usa bajo escala nominal u ordinal.

EJEMPLOS:

Lugar de Residencia, Idioma, Sexo, Religin, Categora


Ocupacional, Nivel de Educacin de las PERSONAS.

Actividad Econmica, Condicin Jurdica, Ao de Inicio


Actividades de EMPRESAS.

Materiales de Techo, Piso y Paredes; Rgimen de Tenencia,


Estado de Conservacin y Tipo de las VIVIENDAS.

10
Ejemplo cualitativa nominal

Religin: Religion:
Catlica Ateo
Protestante Mormon
Ateo Catlica
Musulmana Protestante
Mormon Musulmana

Ntese que el orden de las religiones como se han


presentado no afectan en nada. Las dos presentaciones son
validas.

11
Ejemplo cualitativa ordinal

Nivel Educativo: Nivel Educativo:


Maestra Sin Estudio
Primaria Primaria
Sin Estudio Secundaria
Secundaria Universitaria
Universitaria Maestra
Doctorado Doctorado

Ntese que el orden del nivel educativo como se ve en el


primer cuadro si afecta la presentacin. En tanto en el
segundo hay un orden correlativo

12
VARIABLE CUANTITATIVA

Son las que tienen por modalidades cantidades numricas, por


lo que puede ser medida directamente en la prctica, usando
bajo un intervalo o de razn.

Ejemplo: La variable que a cada persona le hace corresponder


un INGRESO, es una variable cuantitativa.

DISCRETA, son las que al tomar valores, estos solamente


pueden ser representados con nmeros enteros y
generalmente es resultado de conteos.

CONTNUA, cuando la variable toma cualquier valor real


dentro de un intervalo dado, generado al efectuar
operaciones de medicin.

13
VARIABLE DISCRETA:

Ejemplos

Nmero de clientes por da de un Banco.


Nmero de ventas diarias de una Empresa.
Nmero de vuelos por da en el Aeropuerto.
Nmero de accidentes por da.
Nmero de personas por hogar.
Nmero de pacientes por hospital.
Nmero de hijos por mujer.
Nmero de cuartos por vivienda.
Nmero de nacimientos por da de maternidad.
Nmero de alumnos desaprobados por curso.

14
VARIABLE CONTNUA :

Ejemplos

Persona:
Estatura, peso, etc.
Ingreso, gastos, etc.
Hogar:
Ingresos por hogar.
Gastos por hogar en alimentacin.
Monto de alquiler por hogar.
Establecimiento comercial:
Valor de las ventas por establecimiento.
Valor de las compras por establecimiento.
Gastos (electricidad, agua, telfono)

15
REPRESENTACIN DE DATOS ESTADSTICOS

16
Textual.

Empleo de palabras y cifras combinadas en un texto para


informar los datos obtenidos. Es el ms difcil de seguir para el
lector; para el redactor tiene la ventaja de que puede influenciar
al lector.

Tabular.

Presentacin de los datos por medio de una tabla o cuadro. Es el


mtodo ms imparcial para presentar la informacin ya que
muestra los datos crudos, dejando al lector la tarea de
interpretarlos sin hacer sugerencias ni comentarios.

17
Grfico. Es el mtodo de presentacin de informacin ms simple para el lector,
porque se puede captar la tendencia de los datos de un solo vistazo. Su desventaja ms
notoria es la prdida de precisin y exactitud en comparacin con la tabla.

Al crear un grfico es importante seguir los consejos de los expertos:

Conviene hacer varios modelos diferentes en borrador antes del definitivo.


La disposicin del grfico debe ser de izquierda a derecha.
Debe colocarse siempre el cero de la escala.
Para la comparaciones conviene usar slo una dimensin, antes de dos o tres.
En los grficos de porcentaje acumulativo adems del nivel cero se debe colocar el
100%.
La lnea ms gruesa de todas debe ser la del grfico.
La lnea de ayuda visual del grfico debe ser la ms fina de todas.
Debe tener un ttulo claro, conciso y completo.
Debe colocarse siempre la escala empleada y las unidades de las magnitudes
mostradas.
La escala del grfico debe adaptarse para que incluya toda la informacin.
No se debe utilizar un grfico para mostrar la informacin de un modo tendencioso.
Si un grfico no resulta claro para el autor, mucho menos lo ser para el lector.

18
ESTADSTICA DESCRIPTIVA

DATOS CUALITATIVOS

Se miden en escala

Nominal Ordinal

Se representan en

Grficos Tablas

Diagramas de Barras Frecuencia

Diagramas de Sectores Contingencia


19
ESTADSTICA DESCRIPTIVA

DATOS CUANTITATIVOS

Se dividen en

Discretos Continuos

Se miden en escalas

Razn Intervalos

Se representan en Se resumen en medidas de

Grficos Tablas Centralidad Variabilidad

Frecuencia Media Varianza


Histogramas
Agrupada

Boxplot Mediana Rango


Frecuencia no
Agrupada Coeficiente de
Diagramas de Moda
Dispersin Variacin

20
REPRESENTACIN TABULAR

FRECUENCIA FRECUENCIA RELATIVA


CLASE FRECUENCIA FRECUENCIA RELATIVA
ACUMULADA ACUMULADA

Bachiller 40 0,33 40 0,33

Tcnico 27 0,23 67 0,56

Tecnlogo 27 0,23 94 0,78

Profesional 20 0,17 114 0,95

Posgrado 6 0,05 120 1,00

21
DIAGRAMA DE BARRAS

45

40

35

30

25

20

15

10

0
Bachiller Tcnico Tecnlogo Profesional Posgrado

22
Grfico circular

FRECUENCIAS RELATIVAS
0.05

0.17
0.33 Bachiller
Tcnico
Tecnlogo
Profesional
0.23 Posgrado

0.23

23
TABLAS DE CONTINGENCIA

La empresa del ejemplo anterior consta de tres plantas y


sus empleados estn distribuidos de la siguiente forma:

24
Diagrama de Barras:

18
16
14
12 Bachiller
Tcnico
10
Tecnlogo
8
Profesional
6 Posgrado
4
2
0
Planta A Planta B Planta C
25
Diagrama de Barras:

45
40
35
Posgrado
30 Profesional
25 Tecnlogo
20 Tcnico
15 Bachiller
10
5
0
Planta A Planta B Planta C

26
27
Grficos cronolgicos:

28
29
Abusos que se pueden cometer con la Estadstica

Conclusiones errneas debido a que los datos son


numricamente insuficientes.
Representaciones grficas engaosas (escalas).
Datos muestrales no representativos:
Muestra que no incluye a elementos de toda la
poblacin.
Ciertas categoras de personas no responden
correctamente.
Respuestas voluntarias (sesgadas).

30
Organizacin de los datos

Una vez que se ha


realizado la
recoleccin de los
datos, se obtienen
datos en bruto, los
cuales rara vez son
significativos sin una
organizacin y
tabulacin.

31
Formas de organizar los datos:
Un arreglo: es la forma ms sencilla de organizar
los datos en bruto, consiste en colocar las
observaciones en orden segn su magnitud:
ascendente o descendente.
Poco prctica cuando se tiene una gran cantidad
de datos.

32
Una distribucin de frecuencias: es un
arreglo de los datos que permite expresar la
frecuencia de ocurrencias de las
observaciones en cada una de las clases,
mostrando el patrn de la distribucin de
manera ms significativa.

Clase Pto. fi Fi fri FRi


Medio

33
La Distribucin de Frecuencias:
Se recomienda su uso cuando se tienen grandes
cantidades de datos (n).
Su construccin requiere, en primer lugar, la
seleccin de los lmites de los intervalos de
clase.
Para definir la cantidad de intervalos de clase
(k), se puede usar:
La regla de Sturges: k = 1 + 3.3log(n)

k = n

34
La cantidad de clases no puede ser tan pequeo
(menos de 5) o tan grande (ms de 20), que la
verdadera naturaleza de la distribucin sea imposible
de visualizar.

La amplitud de todas las clases deber ser la misma.


Se recomienda que sea impar y que los puntos
medios tengan la misma cantidad de cifras
significativas que los datos en bruto.

Los lmites de las clases deben tener una cifra


significativa ms que los datos en bruto.

35
Determinar:

Punto medio = (Li+Ls)/2.


Frecuencia absoluta de la clase (fi).
Frecuencia acumulada de la clase (Fi).
Frecuencia relativa de la clase (fri):
fri = fi/n

Frecuencia relativa acumulada de la clase (FRi).

36
23 60 79 32 57 74 52 70 82 36
80 77 81 95 41 65 92 85 55 76
52 10 64 75 78 25 80 98 81 67
41 71 83 54 64 72 88 62 74 43
60 78 89 76 84 48 84 90 15 79
34 67 17 82 69 74 63 80 85 61

a) Construya una distribucin de frecuencias.


b) Qu puede concluir de estos datos?

37
Los grficos permiten visualizar en forma global y
rpida el comportamiento de los datos.

Para datos cuantitativos agrupados en clases,


comnmente se utilizan tres grficos:

Histogramas.
Polgono de frecuencias.
Ojiva o Polgono de frecuencias acumuladas.

38
Los grficos permiten visualizar en forma global y
rpida el comportamiento de los datos.

Para datos cuantitativos agrupados en clases,


comnmente se utilizan tres grficos:

Histogramas.
Polgono de frecuencias.
Ojiva o Polgono de frecuencias acumuladas.

39
Histograma

40
Tema 2. Estadstica Descriptiva
Histograma y Polgono de Frecuencias

41
Ojiva

42
Medidas de tendencia central o posicin

Corresponden a valores que generalmente se ubican


en la parte central de un conjunto de datos.

Forma como los datos pueden condensarse en un


solo valor central alrededor del cual todos los datos
muestrales se distribuyen.

Las medidas de tendencia central ms importantes


son:
Media: Aritmtica y Aritmtica ponderada.

Mediana.

Moda.

43
Media Aritmtica

Es la suma de todas las observaciones dividida entre el


nmero total de observaciones.

Expresada de forma ms intuitiva, podemos decir que


la media aritmtica es la cantidad total de la variable
distribuida a partes iguales entre cada observacin.

Por ejemplo, si en una habitacin hay tres personas, la


media de dinero que tienen en sus bolsillos sera el
resultado de tomar todo el dinero de los tres y dividirlo
a partes iguales entre cada uno de ellos. Es decir, la
media es una forma de resumir la informacin de una
distribucin (dinero en el bolsillo) suponiendo que cada
observacin (persona) tendra la misma cantidad de la
variable.

44
Clculo de la media aritmtica

Para datos no agrupados:

x i
X i 1
n
Para datos agrupados:
k

m f i i
X i 1
n
Donde: mi: punto medio de la clase i
fi: frecuencia absoluta de la clase i
k: cantidad de clases
45
Mediana

Es el valor que ocupa la posicin central de un


conjunto de observaciones, una vez que han sido
ordenados en forma ascendente o descendente.

Divide al conjunto de datos en dos partes iguales.

Clculo de la mediana

Para datos no agrupados:


Si n es impar: posicin donde se ubica la
mediana es igual a (n+1)/2.
Si n es par: (n+1)/2 no es entero, por lo tanto la
mediana ser igual al promedio de las dos
posiciones centrales.

46
Datos agrupados: clase mediana es la que
contiene a la observacin que ocupa la posicin
n/2.

n 1
F ( xm1 )
Md Lm 2 Cm
f ( xm )

Donde: Lm: lmite inferior de la clase mediana.


F(xm-1): frecuencia acumulada de la clase
anterior a la clase mediana.
f(xm): frecuencia absoluta de la clase mediana.
Cm: amplitud de la clase mediana.

47
Moda

Observacin o clase que tiene la mayor frecuencia


en un conjunto de observaciones.

Un conjunto de datos puede ser unimodal, bimodal o


multimodal.

Es la nica medida de tendencia central que se


puede determinar para datos de tipo cualitativo.

48
Clculo de la moda

Para datos no agrupados: es simplemente la


observacin que ms se repite.
Para datos agrupados:

1
Mo Lim Cm
1 2
Donde: Lim: lmite inferior de la clase modal.
1: diferencia entre fi de la clase modal y la
anterior.
2: diferencia entre fi de la clase modal y la
posterior.
Cm: amplitud de la clase modal (clase de mayor
frecuencia).
49
Relacin entre la media,
la mediana y la moda

Cuando los datos son sesgados es mejor emplear la Md50


Propiedades, ventajas y desventajas de la media

Propiedades:

La suma de las diferencias entre las media muestral


y el valor de cada observacin es cero.

La media de una constante es la constante.

Si todas las observaciones xi se multiplican por una


constante a, la media tambin se debe multiplicar
por ese mismo valor constante.

51
Si se somete a una variable estadstica X a un
cambio de origen y escala, Y = a + bX, la media
aritmtica de dicha variable X vara en la misma
proporcin.

La media de la suma de dos variables es igual a la


suma de sus medias.

52
Ventajas:

Emplea en su clculo toda la informacin disponible.

Se expresa en las mismas unidades que la variable


en estudio.

Es el centro de gravedad de toda la distribucin,


representando a todos los valores observados.

Es un valor nico.

53
Se trata de un concepto familiar para la mayora de
las personas.

Es til para llevar a cabo procedimientos


estadsticos como la comparacin de medias de
varios conjuntos de datos.

54
Desventajas:

Se ve adversamente afectada por valores extremos,


perdiendo representatividad.

Si el conjunto de datos es muy grande puede ser


tedioso su clculo manual.

No se puede calcular para datos cualitativos.

No se puede calcular para datos que tengan clases


de extremo abierto, tanto superior como inferior.

55
Ventajas y desventajas de la mediana

Ventajas:

Fcil de calcular si el nmero de observaciones no es


muy grande.

No se ve influenciada por valores extremos, ya que


solo influyen los valores centrales.

Fcil de entender.

56
Se puede calcular para cualquier tipos de datos
cuantitativos, incluso los datos con clase de
extremo abierto.

Es la medida de tendencia central ms


representativa en el caso de variables que solo
admiten la escala ordinal.

57
Desventajas:

No utiliza en su clculo toda la informacin


disponible.

No pondera cada valor por el nmero de veces que


se ha repetido.

Hay que ordenar los datos antes de determinarla.

58
Ventajas y desventajas de la moda

Ventajas:

No requiere clculos.

Puede usarse para datos tanto cuantitativos como


cualitativos.

Fcil de interpretar.

No se ve influenciada por valores extremos.

Se puede calcular en clases de extremo abierto.

59
Desventajas:

Para conjuntos pequeos de datos su valor no tiene


casi utilidad, si es que de hecho existe. Solo tiene
significado en el caso de una gran cantidad de datos.

No utiliza toda la informacin disponible.

No siempre existe, si los datos no se repiten.

60
En ocasiones, el azar hace que una sola observacin
no representativa sea el valor ms frecuente del
conjunto de datos.

Difcil de interpretar si los datos tiene 3 o ms


modas.

61
Medidas de dispersin, variacin o
variabilidad.

Son valores numricos que indican o describen la


forma en que las observaciones estn dispersas o
diseminadas, con respecto al valor central.

Son importantes debido a que dos muestras de


observaciones con el mismo valor central pueden
tener una variabilidad muy distinta.

62
Las medidas de dispersin ms comunes son:

Rango.
Varianza.
Desviacin Tpica o estndar.
Coeficiente de variacin.

63
Rango (amplitud o recorrido):

Est determinado por los dos valores extremos de


los datos muestrales, es simplemente la diferencia
entre la mayor y menor observacin.

Es una medida de dispersin absoluta, ya que


depende solamente de los datos y permite conocer
la mxima dispersin.

R=Xmax-Xmin

64
Casi no se emplea debido a que depende
nicamente de dos valores.

No proporciona una medida de variabilidad de las


observaciones con respecto al centro de la
distribucin.

Notacin: R

65
Varianza

Es un valor numrico que mide el grado de


dispersin relativa porque depende de la posicin
de los datos x1,x2,,xn con respecto a la media.

Es el promedio al cuadrado de las desviaciones de


cada observacin con respecto a la media.

Notacin: s2, 2, var(X)

66
Si la varianza de un conjunto de observaciones es
grande se dice que los datos tiene una mayor
variabilidad que un conjunto de datos que tenga un
varianza menor.

x x
n
2
i

Para datos NO
s2 i 1

agrupados:
n
n

i
x 2
2
s
2 i 1
x
n

67
Para datos agrupados en una distribucin de
frecuencias:

k

i
m x 2
fi
s2 i 1

n
k

i fi
m 2

s2 i 1
x
2

68
Desviacin Tpica

Es la raz cuadrada de la varianza.


Notacin: s, .

s s 2

69
Coeficiente de Variacin

Es una medida de dispersin relativa que permite


comparar el nivel de dispersin de dos muestras de
variables estadsticas diferentes.
No tiene dimensiones.
Notacin: CV

s
CV 100%
x

70
Ventajas y Desventajas del Rango

Ventajas:

til cuando se quiere conocer la extensin de las


variaciones extremas (valor mximo de la
dispersin).

Fcil de calcular.

71
Desventajas:

No es una medida de dispersin con respecto al


centro de la distribucin.

Solo emplea dos valores en su clculo.

No se puede calcular en distribuciones de lmite de


clase abierto.

72
Propiedades, Ventajas y Desventajas de la Varianza

Propiedades:

1. Siempre es mayor o igual a cero y menor que


infinito.

2. La varianza de una constante es cero.

3. Si a una variable X la sometemos a Y=a+bX, la


varianza de Y ser Var(Y) = b2Var(X)

73
Ventajas:

Es til cuando se compara la variabilidad de dos o


ms conjuntos de datos.
Utiliza toda la informacin disponible.

Desventajas:

No proporciona ayuda inmediata cuando se estudia


la dispersin de un solo conjunto de datos.
Difcil de interpretar por tener sus unidades
elevadas al cuadrado.

74
Ventajas y Desventajas de la Desviacin Tpica

Ventajas:

Esta expresada en las mismas unidades que la


variable en estudio.
Utiliza todas las observaciones en su clculo.
Fcil de interpretar.

Desventajas:

No tiene.

75
Ventajas y Desventajas del Coeficiente de Variacin

Ventajas:

Es la nica medida de dispersin que permite


comparar el nivel de dispersin de dos muestras de
variables diferentes.

Emplea toda la informacin disponible en su clculo.

Fcil de calcular.

76
Desventaja:

No es una medida de dispersin con respecto al


centro de la distribucin de los datos.

77
Medidas de Forma

Son medidas numricas que permiten determinar la


forma que tiene la curva de los datos, por lo tanto,
sirven para corroborar lo que los grficos muestran.

Coeficiente de Pearson
-Asimetra
Medidas Coeficiente de Fisher
de forma
-Kurtosis o apuntamiento

78
Asimetra

Permiten estudiar la forma de la curva, dependiendo


de cmo se agrupan los datos.

79
Coeficiente de Asimetra de Pearson:

Fcil de calcular e interpretar.


Clculo:
3 X Md
ASP
s
o Interpretacin:

= 0, X=Md Simtrica

ASP > 0, X>Md Asimtrica Positiva

< 0, X<Md Asimtrica Negativa

80
Coeficiente de Asimetra de Fisher:

No es de fcil clculo, pero si su interpretacin.

x X
n
3
i
ASF i 1
3
Datos NO agrupados
ns

M
k
3
i x fi
ASF i 1 Datos Agrupados
ns 3

81
o Interpretacin:
= 0, Simtrica

ASF > 0, Asimtrica Positiva

< 0, Asimtrica Negativa

82
Kurtosis

Miden si los valores de la distribucin estn ms o


menos concentrados alrededor de los valores
medios de la muestra (zona central de la
distribucin).

Se definen tres tipos de distribucin segn su grado


de Kurtosis:

83
Mesocrtica: grado de concentracin medio alrededor
de los valores centrales de la variable.

Leptocrtica: grado de concentracin elevado.

Platicrtica: grado de concentracin reducido.

84
x X
n
4
i
CK i 1
4
3 Datos No Agrupados
ns

M
k
4
i X fi
CK i 1
4
3 Datos Agrupados
ns
Interpretacin:

=0 Mesocrtica

CK >0 Leptocrtica

<0 Platicrtica
85
Ejercicio 1

Supngase que 50 estudiantes han presentado su


examen de admisin a la U.A. de C. Las calificaciones
individuales se presentan en la siguiente tabla.

30 55 44 60 43 72 47 65 67 40
59 58 14 32 58 46 41 35 68 50
59 21 42 45 41 48 28 47 77 60
30 57 45 49 33 48 47 52 38 61
54 42 54 42 49 51 39 60 61 63

86
a) Construya una tabla de distribucin de frecuencias.

b) Construya un histograma de frecuencias, un polgono


de frecuencias relativas y una ojiva.

c) Calcule la media y la desviacin estndar para los


datos agrupados.

87
Ejercicio 2.

Dada la siguiente serie de datos.

23 60 79 32 57 74 52 70 82 36
80 77 81 95 41 65 92 85 55 76
52 10 64 75 78 25 80 98 81 67
41 71 83 54 64 72 88 62 74 43
60 78 89 76 84 48 84 90 15 79
34 67 17 82 69 74 63 80 85 61

a) Calcule la media aritmtica, la varianza, la desviacin


estndar y el coeficiente de variacin.

88

Você também pode gostar