Escolar Documentos
Profissional Documentos
Cultura Documentos
-1-
Estadstica: Ciencia que trata de la recopilacin, organizacin presentacin, anlisis e interpretacin de datos numricos (estadsticas), con el fin de realizar una toma de decisiones ms efectiva. Estadstica descriptiva Probabilidad Estadstica Inferencial Procedimientos estadsticos que sirven para organizar y resumir conjuntos de datos numricos. Mide la incertidumbre, deduce las leyes que rigen a los fenmenos que se investigan. Implica realizar inferencias acerca de la poblacin a partir de datos muestrales y requiere clculo de probabilidades.
Poblacin Conjunto de todos los posibles individuos, personas, objetos o mediciones de inters estadstico sobre el que estamos interesados en obtener conclusiones (hacer inferencia). Normalmente es demasiado grande para poder abarcarlo (Tamao poblacin: N) A las medidas de resmenes poblacionales como la media poblacional , desviacin estndar , se les denominan parmetros. Parmetro: Caracterstica numrica de la poblacin. Un parmetro es un valor que describe a toda una poblacin.
Ejemplo: La edad "promedio" () de los estudiantes de tercer ao de Ingeniera Civil Civiles. en Obras
Muestra: es un subconjunto de la poblacin al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones) Debe ser representativa se denota Tamao de la muestra: n Esta formado por miembros seleccionados de la poblacin (individuos, unidades experimentales).
A las medidas de resmenes muestrales como la media de la muestra x , desviacin estndar de la muestra s, se les denomina estadsticos.
Estadstico: Caracterstica numrica de una muestra. Una estadstica es un valor que describe a una muestra. x , desviacin estndar de la muestra s, , se les denomina estadsticos.
Ejemplo: El tiempo "promedio" ( x ) calculada a partir de un conjunto de 80 tiempos mximos (minutos) de barras planas de un tipo de acero que soportan antes de fragmentarse, cuando son sometidas a tensin. (n=80)
Unidad de observacin: Cada uno de los elementos que componen la poblacin en estudio
-2-
Variable:Es una caracterstica, atributo o propiedad que puede variar ( tomar diversos valores ) de una unidad de observacin a otra y cuya variacin es susceptible de medirse Notacin:- En vez de escribir la variable en cada oportunidad, se emplean smbolos, letras maysculas ltimas del abecedario
Ejemplo: Variable peso = X y xi la observacin i-sima; cuando se tiene que reemplazar por una observacin especfica, se cambia el subndice i por un nmero. Si en una familia cinco nios pesan 20, 18, 13, 40 y 52 kilos: x1 =20; x2=18;x3=13;x4=40 y x5=52
Qu significara Xi-1 si i = 3?
X2 = 18
Datos: Conjunto de valores de la variable, medidos a partir de cada uno de los elementos de una poblacin o muestra. Observacin estadstica: Conjunto de datos correspondientes a varias variables identificadas y pertenecientes a un mismo individuo o elemento. Ejemplo1:-Los siguientes valores expresan el nmero de veces que 22 consumidores compraron una determinada marca de un producto en los dos ltimos meses:
0, 2, 5, 0, 3, 1, 8, 0, 3, 1, 1, 9 4, 0 2, 2, 9 , 3, 0, 1, 9, 8
Construya la tabla que muestre estos datos en forma ordenada
Valores
RESPUESTA EJEMPLO 1
0 1 2 3 4 5 6 7 Total
N veces 5 4 3 3 1 1 2 3 22
Observe que la tabla tiene dos columnas (valores y n de veces que se compr determinada marca de un product , haciendo un total de 22 consumidores.
-3-
Ejemplo 2:- En la universidad Z, se desea cuantificar el gasto semestral de la educacin de los alumnos de primer ao. Uno de los gastos que hace un estudiante es la compra de sus libros de estudio, insumos del computador, fotocopias. Para este efecto, se realiza una encuesta a los alumnos de las carreras de Contador Auditor, Administracin Pblica, Ingeniera Comercial Ingeniera Civil en Obras Civiles, se les pregunta sobre el gasto realizado en la compra de estos tems durante el semestre. La poblacin en estudio es. La muestra est constituida por La variable en estudio es.. La unidad de observacin es. Un ejemplo de dato es.. Un ejemplo de observacin estadstica es
RESPUESTA EJEMPLO 2
La poblacin en estudio es: Todos los estudiantes de la universidad Z de los alumnos de 1 ao La muestra esta constituida por los estudiantes de las carreras de primer ao Contador Auditor , Administracin Pblica, Ingeniera Comercial e Ingeniera Civil en Obras Civiles La variable en estudio es: el gasto en $ de la compra de libros, insumos computacionales, fotocopias. La unidad de observacin es cada alumno de la universidad Dato: el precio de un libro, el precio de un CD. Observacin estadstica: Para el alumno Y, el gasto por comprar un libro de Fsica, Matemtica, Estadstica , 50 CD, 300 fotocopias etc
-4-
Ejemplo 3:- Continuando con el mismo ejemplo, el Departamento de Finanzas desea evaluar el gasto promedio en libros de todos los alumnos de la universidad; identific a 50 estudiantes y les solicit que tomaran nota de sus gastos en libros y que informaran cuanto gastaron en promedio.
El parmetro es el gasto promedio en libros de todos los alumnos de la universidad de primer ao La estadstica es el gasto promedio en libros de los 50 estudiantes
II.- CLASIFICACIN DE VARIABLES Segn su naturaleza, las variables se clasifican en: Variables cualitativas o categricas, son aquellas que slo pueden clasificarse pero no medirse. Variables cuantitativas, son aquellas cuyos valores se pueden expresar en cantidades numricas. Segn el recorrido, las variables se clasifican en: Variables dicotmicas: slo toma dos valores Variables discretas, solo pueden tomar determinados valores, en general, nmeros enteros adems el cero. Variables continuas, son aquellas que pueden tomar cualquier valor dentro de un intervalo dado.
-5-
Ejemplo 4:- Identifique en cada caso si la variable de inters es cualitativa o cuantitativa. Una empresa automotriz realiza un estudio de mercado para saber cual es la aceptacin que ha tenido un modelo especfico de sus automviles. Para ello se encuest a 20 personas que haban adquirido el vehculo , obtenindose la siguiente informacin: Aceptacin del vehculo (1 = excelente, 2 = bueno, 3 = regular y 4 = malo) Ingreso mensual en miles de pesos. Edad de las personas. Sexo de las personas (1 = masculino; 2 = femenino) N de meses que posee el vehculo. Kilmetros recorridos. Color del vehculo. De acuerdo con su naturaleza, a las variables se les puede asignar una escala de medicin, es decir, son las clases, categoras o intervalos que se le puede asignar Para las variables categricas, las escalas son: nominal u ordinal Para las variables cuantitativas, las escalas son: de intervalo y de razn Escala nominal: Cuando se utiliza nombres para establecer categoras en las cuales se clasifican exclusivamente los valores de las variables. Estas categoras no tienen orden lgico ni una relacin jerarqua. Categoras mutuamente excluyentes, son aquellas en que una persona, objeto o medicin se incluye solamente en una categora. Escala ordinal: Se compone de distintas categoras en las que hay implcito un orden en virtud de un determinado criterio. Escala Intervalar: Al igual que los dos tipos de escalas anteriores, esta escala permite establecer relaciones de igualdad /desigualdad y de orden entre los objetos que se miden. Establece la distancia entre una medida y otra. Este tipo de escala carece de un cero absoluto. Ejemplo: Los intervalos de la escala son iguales, se puede afirmar que la diferencia de temperatura que existe entre 25 y 28 grados es la misma que existe entre 30 y 33 grados. Sin embargo, dado que el punto 0 de la escala es arbitrario -no existe ausencia de temperaturano se puede afirmar, por ejemplo, que 20 grados es exactamente la mitad de 40 grados.
ESTADSTICA DESCRIPTIVA -- PROFESORA. FLOR SOLIS FLORES.
-6-
Escala de Razn: Es la escala que permite el nivel ms alto de medicin. Adems de las operaciones que permiten las escalas anteriores, en una escala de razn existe el cero (0) emprico, por lo cual se puede efectuar cualquier operacin aritmtica con los nmeros de la escala. El tiempo de reaccin, por ejemplo es una variable medida en escala de razn. No slo se puede afirmar que la diferencia entre 3 y 6 segundos es la misma que entre 6 y 9 segundos (afirmacin vlida tambin en la escala de intervalos), sino, adems, que 6 seg. es el doble de 3 seg. Afirmacin que es posible establecer gracias a que en la escala de tiempo de reaccin existe el cero absoluto: cero seg. Significa ausencia de tiempo de reaccin. En el esquema siguiente, se resume la clasificacin de las variables
ORGANIZACIN Y REPRESENTACIN DE LOS DATOS. Una vez que se dispone de los datos para cada individuo, la pregunta que surge es como presentarlos de manera resumida?, es decir cmo describir la informacin disponible de una manera clara y concisa? Una forma de describir los datos es mostrar la frecuencia con que se presentan o se repite cada uno de los valores, los que se agrupan en intervalos (en el caso de datos cuantitativos) o categoras (para datos cualitativos) de la o las variables consideradas. Frecuencia absoluta: el nmero de individuos que pertenecen a cada categora o el nmero de veces que un mismo valor se presenta en el conjunto de datos. Se designa por n i
ESTADSTICA DESCRIPTIVA -- PROFESORA. FLOR SOLIS FLORES.
-7-
Frecuencia relativa: proporcin de individuos que poseen la cualidad o que pertenecen a dicha categora. Se denota fi, y representa la posicin relativa que ocupa cada categora en el total (n). fi = (ni / n)*100 Frecuencia absoluta acumulada Ni: es la suma de las frecuencias absolutas. Frecuencia relativa acumulada Fi: es la suma de las frecuencias relativas. Distribucin de frecuencias de variables cuantitativas de nivel de medicin de razn o de recorrido continuo Modelo general de una tabla de distribucin de frecuencias
Nombre de la variable (X) k clases o categoras, o el recorrido de la variable en intervalos Total Frecuencia Absoluta ni n1 n2 . . . nk n Frecuencia Relativa fi f1 f2 . . . fk 1 Frecuencia Absoluta Acumulada Ni N1 N2 . . . Nk = n Frecuencia Relativa Acumulada Fi F1 F2 . . . Fk = 1
ni = n fi = n
Fi = fi
i=1,2,3,.........k
i = 1,2,3,.........k
i = 1,2,3,........ .k
-8-
Cmo se construira una tabla de frecuencias PROF.:FLOR SOLIS F. con esta informacin?
Respuesta
Tipo de procedimento (X)
ni 16 8 24
Ni 16 24
Fi 66,7 100
DS DI Total
PROF.:FLOR SOLIS F.
-9-
Una regla que puede ayudar a decidir el nmero de clases es la frmula de Sturges: de clases = [1 + 3,3 log n] (donde n = tamao de la muestra)
I MEDIDAS DE TENDENCIA CENTRAL O DE POSICIN Una de las caractersticas ms sobresaliente de la distribucin de datos es su tendencia a acumularse hacia el centro de la misma. Esta caracterstica se denomina tendencia central. Las medidas de tendencia central mas usuales son: Media Aritmtica o Promedio Aritmtico 1.- Es una medida totalmente numrica o sea slo puede calcularse en datos de caractersticas cuantitativas. 2.- En su clculo se toman en cuenta todos los valores de la variable. 3.- Es lgica desde el punto de vista algebraico. 4.- La media aritmtica es altamente afectada por valores extremos. 5.- No puede ser calculada en distribuciones de frecuencia que tengan clases abiertas. 6.- El promedio de una variable X se denota X
La media es una medida apropiada de tendencia central para muchos conjuntos de datos. La media de las observaciones X1, X2 , X3,...X n es el promedio aritmtico de estas y se denota:
ESTADSTICA DESCRIPTIVA -- PROFESORA. FLOR SOLIS FLORES.
- 10 -
x = x =
i =1 k
xi/n xini/n
i =1
ciertos
factores o
pesos
i=1
wx /
i = 1
Mediana (med(x):
Es aquel valor que divide a la muestra en dos partes iguales dejando bajo y
sobre ella el 50% de las observaciones. Si el nmero de observaciones es impar, la mediana es el valor central del conjunto ordenado. Si el nmero de datos es par se considera la mediana como el promedio aritmtico de los valores centrales del conjunto ordenado. Alternativamente la mediana puede
determinarse a partir de la distribucin acumulativa, es decir, la mediana es el percentil 50. 1.- En su clculo no se incluyen todos los valores de la variable. 2.- La Mediana no es afectada por valores extremos. 3.- Puede ser calculada en distribuciones de frecuencia con clases abiertas. 4.- La variable de una variable X se denota: med(x) La mediana se calcula de la siguiente forma: Para un nmero impar de datos:
M ed ( n impar de datos)=X n+1
2
- 11 -
med ( x )
n N J 1 = Li + Ci 2 nJ
Li: lmite inferior del intervalo mediano Ci: amplitud del intervalo n/2: mitad de la muestra Nj-1: frecuencia absoluta acumulada anterior a Nj nj : frecuencia absoluta en la posicin J; J > n/2
Ejemplo 5:.- En una sucursal bancaria , el monto de cheques cobrados por clientes de empresas por caja, en un da determinado, registran la siguiente distribucin de frecuencia:
Monto en M$ (X) 0 - 200 200 - 500 500 - 600 600 - 800 800 - 1000 total N de cheques ni 10 13 17 32 nj 18 n=90 n/2 = 45 Ni 10 23 40 Nj-1 72 Nj 90
Determine el monto mediano de cheques cobrados por clientes de empresas por caja.
R: $631.250
Moda 1.- En su clculo no se incluyen todos los valores de la variable. 2.- El valor de la moda puede ser afectado grandemente por el mtodo de designacin de los intervalos de clases. La moda es el valor ms frecuente de la variable . Para el caso de datos tabulados, la moda es la marca de clases del intervalo de mayor frecuencia. Hallar la moda en los siguientes datos 16, 18, 15, 20, 16 Solucin: moda = 16
CUARTILES, DECILES Y PERCENTILES Percentiles: son los valores que dividen a los datos en cien partes iguales, es un porcentaje y
se define como:
Pp = x
' j1
np100 N j1 + c j nj
- 12 -
Los Percentiles Pp son los valores que dividen un conjunto de datos ordenados de menor a mayor en 100 partes con igual (aproximadamente) nmero de datos.
p% | x(1) Mn. (100 - p)% | Pp | x(n) Mx.
Cuartil: es un valor que divide a los datos en cuatro partes iguales, y estn representados por Q1, Q2, Q3 se llaman primer, segundo y tercer cuartil respectivamente; el valor de Q2 es igual a la mediana. Decil: valores que dividen a los datos en diez partes iguales, y se representan por:
D1, D2, ......D9.
II MEDIDAS DE DISPERSIN Rango El rango de un conjunto de nmeros es la diferencia entre el mayor y el menor de todos ellos. Por ejemplo: R(x)= Xmax - Xmin Rango intercuartlico Se calcula este rango, cuando la distribucin posee intervalos abiertos, no tienen lmite superior o bien no tienen lmite inferior. Q = Q3 Q1 Rango semi-intercuartlico o desviacin cuartilca
Se define por: Q= (Q3 Q1)/2
el rango
de
los
nmeros
2,3,3,4,4,4,5,10,12
es
12-2=10
Varianza La varianza de un conjunto de datos se define como el cuadrado de la desviacin tpica o estndar, mide la dispersin que existe de los datos con respecto a su promedio, el resultado de la varianza es en unidades cuadrticas, por lo tanto para linealizar un conjunto al medir su
ESTADSTICA DESCRIPTIVA -- PROFESORA. FLOR SOLIS FLORES.
- 13 -
dispersin, le extraemos raz cuadrada llamada desviacin estndar, luego, para calcular la varianza tenemos. Para datos sin tabular: Para datos tabulados: Desviacin estndar
Es la raz cuadrada de la varianza dada por: =
2(x) = 2(x) =
i =1 n
i =1
Es decir, dado un conjunto de datos x1, x2, ...., xn de una variable X con nivel de medicin en escala de intervalos o de razn, se define la desviacin estndar o desviacin tpica: como el promedio de las desviaciones de los puntos xi respecto a su promedio aritmtico. La desviacin estndar toma valores no negativos y mide la dispersin: a mayor desviacin estndar mayor dispersin. El cuadrado de la desviacin estndar se denomina varianza S2
Observacin: S2 se llama varianza corregida (cuasivarianza), dividida por n 1 se utiliza en inferencia estadstica como la estimacin de la varianza poblacional (2)
Coeficiente de variacin El coeficiente de variacin es una medida que nos permite comparar dos o ms distribuciones con distintas unidades de medida. Diremos que mientras menor sea el coeficiente de variacin la distribucin es ms homognea, es decir, los datos estn menos dispersos con respecto al promedio: C.V( X ) =
X
X
*100
- 14 -
Ejemplo 6.- En un centro de computacin, el nmero de veces que el computador se detiene, por error de mquina, diariamente, fue recolectado por un perodo de 70 das. Los datos obtenidos fueron los siguientes.
1 1 0 2 0 0 7 3 2 1 2 5 1 0 6 ( X ) N de detenciones del computador por da. 0 0 0 3 3 0 0 1 0 0 4 3 0 6 2 0 1 0 1 0 1 7 0 2 4 0 1 2 1 2 0 0 4 3 3 1 2 4 0 2 0 2 2 5 1 0 3 1 2 0 0 0 0 1 4
6.1.- Tabule y grafique los datos adecuadamente. 6.2.- Cul es la proporcin de das en que ocurre por lo menos 2 detenciones 6.3.- Calcule una medida de tendencia central apropiada. (Justifique su respuesta). Ejemplo 7.- Con el propsito de estudiar si hay discriminacin en el sueldo de los profesionales hombres y mujeres en el rea de la administracin que entran a trabajar por primera vez, se tom una muestra en una gran empresa y se les consult sobre sus sueldos. La informacin obtenida se presenta en la siguiente tabla:
Sueldos M$ Hombres Mujeres
400 - 500 5 8 500 - 600 20 20 600 - 700 30 28 700 - 800 40 33 800 - 900 20 25 900 - 1000 1000 - 1200 15 18 10 8
7.1.- Construya un grfico que le permita comparar el sueldo de los profesionales, hombres y mujeres. Qu puede concluir de l? 7.2.- Qu porcentaje de los hombres tienen sueldo superior a $620.000? 7.3.- Se est estudiando dos alternativas para el prximo reajuste de sueldos a profesionales mujeres. i) ii) 4% de reajuste ,ms un bono mensual de $10.000 08% de reajuste
Con cul de estas dos alternativas la distribucin de sueldos reajustados resulta ser ms homognea que la original? Responda aplicando solo propiedades.
- 15 -
Tablas de contingencia o de asociacin Muestran la asociacin entre dos o ms variables; se recomienda que sean a lo ms tres, para facilitar la lectura de la tabla. Como hay ms de un criterio de clasificacin, se preferir colocar aquel con mayor nmero de categoras en la columna. Cuando el nmero de intervalos o categoras es el mismo, se colocar el antecedente en la columna y el consecuente en la fila. Ejemplo 8:- Se estudia el consumo diario (Y) en kwh de 180 consumidores de energa elctrica. Los consumidores se clasifican segn tipo en tres grandes grupos: consumidores habitacionales, industriales y empresas comerciales. La informacin obtenida se muestra en la siguiente tabla:
Tabla : Consumo diario de energa elctrica (kwh) segn tipo de consumidor Consumo Tipo de consumidor
diario (kwh) Habitacional N % Industriales N % Empresas comerciales N %
Total
20 10 5 35
5 40 60 105
5 20 15 40
30 70 80 180
Grficos: La presentacin grfica puede revelar de un vistazo las principales caractersticas de un conjunto de datos. Los grfico de barras y el de torta (o sectorial) son lo ms usados para datos cualitativos. Si la informacin se encuentra en una tabla de frecuencias con intervalos de clase, las
representaciones adecuadas son el histograma o el polgono de frecuencias, Diagrama de caja, Tallo y hojas se utilizan en datos de variables cuantitativas contnuas. Diagrama de Pareto
- 16 -
Samsung
Marca de celular
Sony
Histograma
Polgono de frecuencias
60,00%
40
n de personas
30
Porcentaje
38,1%
20
10
0 0 2 4 6 8
0,00% 12-19 19 - 26 26 - 33 33 - 40 40 - 47 47 - 54 54 - 61
ndice de temor
indice de temor
Este grfico consiste en una serie de barras adyacentes cuyas superficies son proporcionales a la frecuencia del intervalo sobre el cual se levantan.
Este grfico consiste en una lnea poligonal que resulta de unir los puntos medios o marcas de clases de la parte superior de los rectngulos del histograma
edad
25
n de personas
20 15 10 5 0
0 4 8 12 16 20 24 28 32 36 40 44 48 52 56 60 64 68 72 76 80 84 88 92
Media =44,21 Desviacin tpica =16,1 N =84
edad
- 17 -
DIAGRAMA DE PARETO
Sirve para mostrar actividades o categoras acumuladas; se usan con frecuencia en control de calidad. Es un grfico de barras simples ordenadas segn frecuencias de mayor a menor, al cual se le adiciona la frecuencia acumulada, como una manera de saber donde se concentra el 50% de las actividades.
60
Porcentaje
50
100
N DE PERSONAS
40
Diagrama de tallo y hojas (steam and leaf plot). Tukey 1977 Es un procedimiento semi-grfico para variables cuantitativas continuas que permite obtener simultneamente una distribucin de frecuencias de la variable y su representacin grfica. Para construirlo basta separar en cada dato el ltimo
Tiempo en minutos Frecuencia tallo & . . . . . . hoja 78 02444 56899 0122 5 01 (>=41)
- 18 -
DIAGRAMA DE CAJA(Box-Plot): La grfica describe la distribucin de un conjunto de datos en referencia a los valores de los cuartiles como medidas de tendencia central y al valor del rango intercuartlico como medida de variabilidad. Constituye un medio ideal para la observacin del grado de simetra de la distribucin, es una de las principales tcnicas del anlisis exploratorio de datos.
17 40
30
20
10
tiempo (minutos)
Medidas de resumen: Descripcin numrica de una variable Medidas de posicin o Tendencia Central: Media aritmtica, Mediana y Moda - Percentiles Medidas de Dispersin: Varianza, Desviacin Tpica, Coeficiente de variacin Medidas de Forma (distribucin): Asimetra, Curtosis
Descripcin Estadstica de una variable nominal Tabla de frecuencias Grficos (ms utilizados) Medidas de resumen
Nombre de la Var. . . . Total Nmero de unidades . . . n %
. . . 100
Moda
- 19 -
Descripcin Estadstica de una variable ordinal Tabla de frecuencias Grficos (ms utilizados) Medidas de resumen
Nombre Var. . . . Total Nm. de unidades . . . n Frec. Acum. . . n % . . . 100
Grficos (ms
utilizados)
Medidas de resumen
- Moda Tendencia - Mediana central - Promedio - Percentiles - Rango - Rango Intercuartlico - Desv. estndar
dispersin
Barras separadas
Posicin
- Coef. de variacin
Descripcin Estadstica de una variable cuantitativa contnua Tabla de frecuencias Grficos (ms Medidas de resumen
utilizados)
Nm. de unidades . . . n
Frec. Acum. . . n -
% . . . 100
- Moda Tendencia - Mediana central - Promedio - Percentiles - Rango - Rango Intercuartlico - Desv. estndar
dispersin
Posicin
- Coef. de variacin
- 20 -
Simtrica
10
Asimetra positiva
10
10
Asimetra Negativa
Simtrica
8
8
X = Me = Mo
Mo < Me < X
X < Me < Mo
Observaciones
-
Rango
Rango intercuartlico
La variable X debe ser por lo menos de intervalos. - Defectos. No permite hacer una interpretacin precisa de un valor mximo valor mnimo valor dentro de una distribucin. - No interviene en relaciones matemticas importantes en la inferencia estadstica. - La variable X debe ser por lo menos de intervalos. - RI se usa con mayor frecuencia acompaando a la mediana cuando la presencia de valores RI = Q3 Q1 = P75 P25 extremos hace poco Longitud del 50% central de la recomendable el uso del distribucin de datos promedio. - No interviene en relaciones matemticas importantes en la inferencia estadstica.
n
Varianza
s2 =
(x x)
i =1 i
s2 =
(x x)
i =1 i
n -1
n
n
Varianza corregida (se utiliza cuando la muestra del estudio es aleatoria simple)
n
(x
s=
i =1
- x)
(x
s=
i =1
- x)2
n-1
- 21 -
Ejemplo9:: Analizar si existe relacin lineal entre peso y estatura Grfico adecuado: Diagrama de dispersin Medida de resumen: Correlacin lineal. Pearson
Correlaciones Peso Correlacin de Pearson Sig. (bilateral) N Correlacin de Pearson Sig. (bilateral) N Peso 1 250 ,821** ,000 250 Estatura ,821** ,000 250 1 250
Estatura
DIAGRAMA DE DISPERSIN.
- 22 -
FORMULAS DE INTERS
n xi n xi2 i=1 n i =1 n-1
2
x=
xi
i =1
s2 = x
(x
i =1
x)2 =
n-1
Sx =
2
S2 x
x=
x i ni
i =1
s2 = x
(x
i =1
x) 2 ni
n-1
k x i ni k x i2 ni i=1 n i =1 n-1
CV x =
sx x
Cov(x,y) = s xy =
(x
i =1
- x)(y i - y) n -1
n n x i y i n x i y i i=1 n i=1 i =1 n -1
Pp = x
' j1
np100 N j1 + cj nj
r=
s xy
sxs y
Medidas de Dispersin
Media Aritmtica o Promedio Aritmtico Moda Mediana Frecuencia Percentiles Cuartiles Deciles
X
Q=Q3 Q1
- 23 -
Clasificacin de las variables Tamao del recorrido Discretas Escala de Medicin Nominal u ordinal
Asociacin entre variables (dos o ms) Barras Subdivididas Barras agrupadas Lineal Correlacin
Continuas
Intervalos o Razn
nc =
k * ni ci
RI = Q3 Q1 2 = (x - )2 ni N
2 X = X
med ( x )
n N j 1 = lim.inf . + ci ( 2 ) nj
Coeficiente de Correlacin:
Ejemplo10: Para determinada tarea en una fbrica, donde se necesita mucha destreza, se quiere investigar si la productividad en el trabajo debe ser mayor al aumentar los aos de experiencia. Se seleccionaron al azar diez empleados de entre lo que tienen ese trabajo. Los datos de aos de experiencia y medicin de productividad son los siguientes:
- 24 -
El coeficiente de correlacin nos permite analizar si existe una relacin lineal entre dos variables X e Y.
r(x,y) = Cov(x,y) Sx * Sy
90,0
1productividad = 77,36 + 1,10 * aos R-cuadrado = 0,85
Regresin lineal
productividad
90,0
87,5
produ ctividad
87,5
85,0
85,0
82,5
82,5
80,0
2,5
5,0
7,5
10,0
12,5
aos
aos
Correlaciones aos aos productividad Correlacin de Pearson n Correlacin de Pearson 1 10 ,920** productividad ,920** 10 1
r = 0.9197
91.97%
Entre las variables existe una correlacin positiva fuerte, se encuentran en relacin directa, a mayor aos de experiencia mayor productividad o vice-versa
- 25 -
-1