Você está na página 1de 112

UNIVERSIDAD DE VALPARASO - FACULTAD DE CIENCIAS DEPARTAMENTO DE ESTADSTICA

ESTADSTICA 1
ESTADSTICA DESCRIPTIVA

PROF. ALBERTO CARO MARTN V08

VALPARASO, MARZO DE 2008

PRESENTACIN
El material que se presenta a continuacin corresponde a los contenidos de Estadstica Descriptiva. En esta versin se ha incorporado el empleo de Excel para la presentacin de los temas, con la intencin que los estudiantes puedan emplear esta herramienta en su trabajo acadmico y no slo en la asignatura de Estadstica. Tambin se presentan ejemplos de aplicacin de las estadsticas bsicas en temas asociados a Evaluacin y Medicin, por medio de ejemplos de anlisis descriptivo de notas de alumnos, confiabilidad y estandarizacin. Si bien el enfoque central es descriptivo, en la medida que es posible, se incorpora el anlisis inferencial empleando grficos y tablas apropiadas. La finalidad de estos temas es incorporar el lenguaje inferencial y permitir que el alumno vislumbre la potencialidad des esta forma de anlisis, que se estudia en profundidad, ms adelante. Se espera ir complementando los ejercicios y agregando las soluciones de los mismos, para que sirvan de gua a los estudiantes que intentan su solucin.

Valparaso, marzo de 2008.

INDICE
1. La Estadstica 1.1. Definicin 1.2. Estadstica descriptiva e Inferencia 1.3. Estadstica y Mtodo Cientfico 1.4. Tipos de estudios 1.5. Seleccin de muestras aleatorias 2. Organizacin y Resumen de la Informacin 2.1. Variables y datos 2.2. Tabulacin de datos cualitativos o categricos 2.3. Tabulacin de datos cuantitativos discretos 2.4. Tabulacin de datos cuantitativos continuos 2.5. Grficos de frecuencias de datos continuos 2.6. Uso de Excel: funciones y Procedimiento Anlisis de datos 2.7. Uso de Excel para tabular datos 2.8. Uso de Excel para graficar datos 2.9. Ejercicios 3. Estadsticas de Posicin 3.1. Tipos de estadsticas de resumen 3.2. Media Aritmtica 3.3. Fractilas 3.4. Mediana 3.5. Grfico de "Caja" o "Cajn con Bigotes" 3.6. Percentiles y Puntos Centiles 3.7. Moda 3.8. Centro del Recorrido 3.9. Comparacin de la Media Aritmtica, la Mediana y la Moda 3.10 Ubicacin de Estadsticas de Posicin en Grficos 3.11. Ejercicios 4. Estadsticas de Dispersin 4.1. Varianza 4.2. Desviacin Estndar 4.3. Recorrido y Recorrido Intercuartlico 4.4. Coeficiente de Variacin 4.5. Error tpico (o de Muestreo) y Error de Estimacin 4.6. Grficos 4.7. Estadsticas de Resumen con Excel 4.8. Ejercicios 5. Estadsticas de Simetra y Apuntamiento 5.1. Momentos respecto a la Media. Definicin y Clculo 5.2. Caractersticas de Distribuciones Simtricas y Asimtricas 5.3. Anlisis Grfico de la Simetra 5.4. Coeficientes de Simetra 5.5. Tablas del Coeficiente de Simetra de Pearson 5.6. Estadsticas de Apuntamiento (Curtosis) 5.7. Coeficiente de Apuntamiento de Pearson (B2) y Tablas 5.8. Observaciones sobre Simetra y Apuntamiento 5.9. Coeficientes de Simetra y Apuntamiento con Excel 5.10. Ejercicios 1 1 1 2 3 4 6 7 9 11 16 19 22 31 34 35 38 38 40 41 43 44 44 44 45 47 49 50 50 51 51 53 55 56 57 57 58 59 60 60 61 61 62

5. Uso de las Estadsticas de Resumen 5.1. Ejemplo de Anlisis Descriptivo usando Excel 5.2 Ejercicio sobre Anlisis Descriptivo 5.3 Coeficiente de Confiabilidad 5.4. Ejercicios sobre Confiabilidad 5.5. Estandarizacin de Variables 5.6. Escalas Derivadas 5.7. Puntajes Estandarizados y Percentiles 5.8. Ejercicios sobre Estandarizacin 6. Correlacin 6.1. Datos Bivariantes y Relacin de Variables 6.2. La asociacin entre Variables 6.3. Coeficiente de Correlacin de Pearson 6.4. Propiedades del Coeficiente de Pearson 6.5. Clculo del Coeficiente de Correlacin de Pearson 6.6. Ejercicios 6.7. Significacin del Coeficiente de Correlacin 6.8. Otros Coeficientes Asociados con el de Pearson 6.9. Correlacin y Confiabilidad 6.10. Ejercicios 7. Regresin Lineal 7.1 Relaciones entre Variables 7.2 Modelo de Regresin Lineal 7.3. Estimacin de la Funcin de Regresin 7.4. Uso de Excel para estimar Recta de Regresin (de ajuste) 7.5. Uso de datos originales para estimar Recta de Regresin 7.6. Estimacin de valores con la Recta de Regresin 7.7. Grfico de Regresin usando Excel 7.8. Ejercicios 8. Tasas e ndices 8.1 Definicin de Tasa 8.2. Definicin de ndice Simple (de base fija) 8.3. Definicin de Serie Indexada 8.4. Ejercicios 9. BIBLIOGRAFA APNDICES Apndice 1: Formulario Apndice 2: Tablas de Coeficientes de Simetra y Apuntamiento Apndice 3: Tabla de Valores crticos del Coeficiente de Correlacin de Pearson Apndice 4: Valores de la Funcin de Distribucin Normal Estndar Apndice 5: Valores de la Funcin de Distribucin F

64 72 73 75 76 78 78 80 81 81 81 82 82 84 85 86 88 89 91 92 92 93 93 94 95 99 100 101 101 102 103 104 105 106 107 108

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 1

1. LA ESTADISTICA 1.1. DEFINICIN La palabra "estadstica" se ha asociado a listados de nmeros, grficos, oficinas recolectoras de informacin de tipo demogrfico (nacimientos, defunciones, etc.). Se afirma que el trmino deriva de "estado" y esa caracterizacin recuerda la funcin del estado como recolectora de informacin. Hay noticias de recuentos de este tipo desde el 2.000 A.C. en China y desde 1.200 A.C. entre los incas. Sin embargo, en la actualidad la Estadstica es una disciplina cientfica, que se clasifica como una rama de la Matemtica Aplicada. La Estadstica tiene como objeto el estudio de los fenmenos aleatorios, esto es, aquellos en que la ocurrencia de algn evento no puede ser predicho con certeza. Esta ocurre porque las conclusiones: a) Son inciertas pues se basan en datos incompletos (uso de muestras). b) Estn afectas a variabilidad, pues se han empleado observaciones repetidas de un suceso, como ocurre en la investigacin cuando se usan sujetos de las mismas o similares caractersticas (sexo, edad, peso, estatura, CI etc.) a los cuales se les aplica un test, o se les somete a algn estmulo especial. Una definicin de Estadstica indica que es "un cuerpo de conceptos y mtodos usados para recolectar e interpretar datos referentes a un rea particular de investigacin y extraer conclusiones en situaciones en que la incertidumbre y la variacin estn presentes". Otra definicin escueta indica que es "la ciencia que transforma los datos en informacin". Por su objetivo, la Estadstica encuentra aplicacin en todos los campos en que se realizan mediciones, esto es, todas las reas asociadas con la investigacin cientfica o tecnolgica como en la Psicologa, Biologa Marina, Educacin, Medicina, Economa, Sociologa, Meteorologa, Ingeniera, Bibliotecologa etc. Adems, las aplicaciones estadsticas en ciertas disciplinas han generado reas nuevas como: Psicometra, Econometra, Biometra, etc.. 1.2. ESTADSTICA DESCRIPTIVA E INFERENCIA Los datos brutos generalmente no permiten obtener conclusiones. Ellos deben procesarse mediante las tcnicas que suministra la ESTADISTICA DESCRIPTIVA para organizarlos y presentarlos en tablas y grficos y obtener informacin relevante y resumida mediante algunos valores o "estadsticas" representativos. Cuando los datos corresponden slo a una parte (son una "muestra") de un colectivo mayor que interesa estudiar (o "poblacin") se necesita la INFERENCIA, la cual se apoya en la teora de las PROBABILIDADES para obtener conclusiones sobre la "poblacin". 1.3. ESTADSTICA Y MTODO CIENTFICO Se afirma que la Estadstica es el soporte del mtodo cientfico, el cual caracteriza la ciencia y la tecnologa. En el mtodo cientfico pueden reconocerse diversas etapas. Una simplificacin de las mismas y del aporte de la Estadstica sera: a) Planteamiento del problema: Es ms responsabilidad del investigador. b) Formulacin de hiptesis. Hay aportes en el planteamiento de hiptesis estadsticas c) Obtencin de la informacin: La Estadstica suministra mtodos apropiados. c) Anlisis de los datos: Es responsabilidad de la Estadstica. d) Obtencin de conclusiones: Hay aportes tanto de la Estadstica como del investigador.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 2

R EA S D E LA ESTA D STIC A

D a to s
O R G A N IZ A C I N Y R ES U M EN ( E s t a d s t ic a D e s c r ip t iv a ) T a b la s G r fic o s M e d id a s d e R e s u m e n

In te rp re ta ci n

M U ESTRA
L o s d a to s so n to d a la p o b la c i n o s lo u n a m u e stra d e sta ?

M u estreo

- P r o b a b ilid a d e s -I n fe r e n c ia E s tim a d o re s m u e s tra le s X : M e d ia m u e s tra l S : D e s v . E s t n d a r S 2: V a ria n z a m u e s tra l

C enso P O B L A C I N
C o n c lu s io n e s r e f e r e n t e s a lo s P a r m e t r o s P o b la c io n a le s : M e d i a P o b l a c io n a l : D e s v . E s t n d a r P o b la c io n a l 2 : V a r i a n z a P o b l a c io n a l

1.4. TIPOS DE ESTUDIOS Existen diferentes formas de clasificar los estudios cientficos, los que requieren diversos mtodos para el anlisis de la informacin que generan. Entre ellos se encuentran los siguientes: a) Estudio Descriptivo. Es aquel cuyos datos provienen de toda una poblacin de inters (censo) y su objetivos es el describir el conjunto. Ej. Censo de Poblacin; Gasto semanal en transporte (tercera semana de marzo) de los alumnos del curso de Estadstica. b) Estudio Inferencial. Es aquel en que interesa obtener conclusiones sobre una poblacin empleando una muestra aleatoria de la misma. Las encuestas (polticas, opinin, marketing, audiencias, telefnicas, etc.) corresponden a esta clasificacin. Ej. Gasto semanal en transporte (en tercera semana de marzo) de los alumnos de la carrera usando como muestra a los alumnos de asignatura de Estadstica. c) Estudio Transversal. Es aquel que se realiza en un momento especfico y que planificadamente no se pretende replicar (o repetir) en el tiempo. El mencionado antes sobre estudio del gasto semanal en transporte de los alumnos de Estadstica o de la carrera. d) Estudio Longitudinal. Es aquel estudio que se realiza planificadamente en diferentes instantes de tiempo, generalmente para hacer comparaciones o evaluaciones temporales del fenmeno bajo anlisis. Hacer el estudio sobre gasto semanal en transporte durante la tercera semana de marzo, en los 5 aos a partir del actual.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 3

1.5. SELECCIN DE MUESTRAS ALEATORIAS En los estudios inferenciales o Encuestas es necesario seleccionar muestras aleatorias de la poblacin. Para que una muestra sea aleatoria debe cumplir con algunos requisitos. La forma ms simple corresponde al caso en que cada unidad de la poblacin tiene la misma opcin de ser seleccionada (muestreo aleatorio simple). Para realizar la seleccin se debe emplear algn procedimiento que garantice lo anterior, como por ejemplo tmbolas o nmeros aleatorios. La tmbola significa representar todos los elementos de la poblacin (por ejemplo con nmeros o nombres escritos en papelitos) los que se mezclan y de los cuales se extraen algunos que sern los elementos que integraran la muestra. Esto es til con poblaciones pequeas. Si la poblacin es grande es preferible el empleo de nmeros aleatorios, los que consisten en listados de nmeros que no se repiten cclicamente o no siguen algn patrn. Se pueden obtener en Tablas o se pueden generar con la calculadora, con la tecla RAN# Al pulsar la tecla RAN# de la calculadora, la pantalla presenta nmeros de tres dgitos decimales como los siguientes: 0,023 0,245 0,123 0,637 0,456 0,079 0,237 0,562 etc. Para el empleo, se consideran los dgitos de la parte decimal, decidindose por el empleo de uno, dos o tres (o ms) segn el tamao de la poblacin. Si la poblacin tiene 10 elementos se emplea 1 dgito aleatorio. Si la poblacin tiene 100 elementos se emplearn dos dgitos aleatorios. SI la poblacin tiene 1.000 elementos se emplearan tres dgitos aleatorios, etc. Ejemplo: Del listado siguiente se desea seleccionar una muestra aleatoria de tres integrantes 1. 2. 3. 4. 5. 6. 7. Juan Teresa Mara Tito Antonio Araceli Carla 8. 9. 10. 11. 12. 13. Martina Enrique Manuel Edgardo Csar Elisa

Si se decide emplear los dos primeros dgitos de los nmeros aleatorios anteriores, entonces los nmeros que se emplearan son: 02 Elige a persona N2: Teresa 24 No sirve 12 Elige a persona N12: Csar 63 No sirve 45 No sirve 07 Elige a persona N7: Carla 23 No sirve 56 No sirve Por lo tanto, la muestra aleatoria seleccionada estar integrada por Teresa, Csar y Carla.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 4

2. ORGANIZACIN Y RESUMEN DE LA INFORMACIN La organizacin de los datos comprende la tabulacin (obtencin de la distribucin de frecuencias emprica de los datos) y graficacin de los mismos. Algunas finalidades de este proceso son: a) Evidenciar la variable estudiada e identificar su forma. b) Analizar, controlar y mostrar las capacidades de los procesos de los que derivan sus datos. c) Ayudar a determinar las estadsticas de resumen respectivas. d) Ayudar a especificar la distribucin terica que se puede ajustar a la distribucin emprica de los datos. Las tabulacin facilita la comprensin intuitiva de la forma de una distribucin as como del estado de un proceso. Hay que prestar atencin a la interpretacin de las distribuciones, formulndose preguntas como:: a) Hay algunos huecos (espacios que faltan), o subidas y bajadas repentinas en la distribucin? b) Hay algunos puntos aislados fuera del cuerpo principal de la distribucin? c) Son aceptables los valores mximo y mnimo de la distribucin? d) La distribucin se aprecia simtrica o no? e) La distribucin es muy chata o muy apuntada? f) Est el promedio de la distribucin en una posicin adecuada? g) Cmo es la dispersin de la distribucin respecto al promedio? Despus de realizar la organizacin de los datos, se realiza el resumen que tiene dos propsitos: por una parte, obtener una expresin numrica (estadsticas de resumen) de las caractersticas ms importantes de una distribucin de datos, para facilitar la comparacin de esas caractersticas entre diversas distribuciones. Por otra parte, posibilitar que se puedan reproducir las caractersticas grficas de una distribucin a partir de la interpretacin de las estadsticas de resumen calculadas. Las estadsticas de resumen se pueden clasificar en: de posicin, de dispersin, de simetra y de apuntamiento. Tanto la organizacin como el resumen de la informacin se pueden facilitar mediante el empleo del software estadstico. Excel tambin permite realizar estas operaciones. En las pginas siguientes se describe el empleo de Excel con ese objetivo. 2.1. VARIABLES Y DATOS Una variable estadstica es cualquier caracterstica o atributo que es deseable conocer acerca de las unidades de anlisis (u.a.) y que se espera que vare de una unidad de anlisis a otra. Un dato estadstico es la medicin, observacin o conteo de una variable estadstica sobre la unidad de anlisis. Las variables pueden clasificarse segn diversos criterios. 2.1.1. Segn la Naturaleza VARIABLE CUALITATIVA o CATEGRICA: Se expresan como caractersticas de las unidades de anlisis. Se subdividen en: a) Variables nominales: Es aquella cuyos valores posibles definen categoras o clases excluyentes. Ej.: Sexo, carrera a la que pertenece un estudiante de la universidad b) Variables ordinales: Las categoras pueden ordenarse respecto a algn criterio. Ej.: respuesta a una pregunta de un cuestionario con alternativas de acuerdo, indiferente, en desacuerdo. Jerarquas administrativas (Gerente, Director, empleado), militares, religiosas. VARIABLE CUANTITATIVA o NUMRICA: Es aquella cuyos valores posibles se expresan por nmeros. Se clasifican en: a) Variable discreta: Es aquella cuyos valores posibles son un conjunto finito o infinito numerable. Ej.: nmero de hermanos, nmero de respuestas correctas en un test, nmero de zapato.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 5

b) Variable continua: Es aquella que puede tomar todos los valores en un intervalo de nmeros reales. Ej.: peso de estudiantes, tiempo empleado en realizar una prueba. 2.1.2. Segn Escala de Medicin ESCALA DE ATRIBUTOS: se expresan como caractersticas de las unidades de anlisis. Se subdividen en nominales y ordinales, y corresponden a las mismas clasificaciones de las variables cualitativas o categricas antes mencionadas. ESCALA DE VARIABLES: Se expresan en forma numrica. Se subdividen en: a) Escala de intervalos: Son variables que tienen un cero relativo. permiten comparaciones vlidas por diferencias. Ej. Temperatura, inteligencia, liderazgo. b) Escala de razn: Son variables que tiene un cero absoluto. permiten comparaciones vlidas tambin por cuociente. Ej. nmero de hermanos, peso, estatura, ingresos. 2.1.3. Segn el Orden de Ocurrencia Segn interese o no el orden en que ocurren y se registran las observaciones, se distinguen: SERIES TEMPORALES: Interesa el orden en que se registran los valores de la variable (ej. Asistencia a clases y fecha; Produccin nacional de cobre y ao) SERIES ATEMPORALES: No interesa el orden de ocurrencia de los valores de la variable (ej. Peso de los alumnos del curso, estatura de los alumnos, nmero de hermanos de los alumnos del curso, etc.). 2.1.4. Segn el Nmero de Variables A su vez, los datos pueden clasificarse segn el nmero de variables de inters que se consideran en las unidades de anlisis o de observacin: UNIVARIANTES: Interesa una sola variable. Ej.: peso, estatura, sexo, puntaje en la PAA de los alumnos universitarios, regin de la que provienen los mismos. BIVARIANTES: Interesan dos variables. Ej.: peso y estatura de estudiantes, sexo y puntaje PAA, promedio notas E. Media y puntaje PAA. Otros ejemplos: produccin de cobre en Chile y ao, total importaciones del pas y ao, IPC y mes). MULTIVARIANTES: Interesan ms de dos variables. Ej.: peso, estatura y sexo de estudiantes; puntaje en PAA, promedio notas de E. Media, tipo de establecimiento de egreso y sexo. 2.1.5. Ejercicios 1. Seale ejemplos de valores y clasifique las siguientes variables segn Naturaleza y segn Nivel de Medicin. Se indica la poblacin asociada como referencia: a. b. c. d. e. f. g. h. i. j. k. l. m. Personas: Profesin o actividad que desarrolla Estudiantes universitarios: Regin en que reside habitualmente Administrativos: Nmero de cursos de capacitacin realizados en los ltimos 5 aos Estudiantes universitarios: Nivel de inters en los estudios Administrativos. Tiempo que se demora la atencin de un trmite Dueas de casa: Marca de detergente para lavar ropa preferido Dueas de casa: Opinin sobre calidad del detergente marca XXX Alcaldes y concejales: Nivel de liderazgo medido por un test Valparaso: Temperatura diaria mxima registrada en los ltimos 3 aos Valparaso: Tonelaje anual movilizado por el puerto en los ltimos 10 aos Valparaso: Nmero de patentes de automviles vendidas en los ltimos 10 aos Estudiantes universitarios: Gasto semanal en transportarse a la universidad Estudiantes universitarios varones: Nmero de camisa

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 6

2. Clasifique las variables anteriores segn orden de ocurrencia, atendiendo a la forma en que se obtuvieron sus datos. 3. Empleando las variables anteriores, u otras, seale ejemplos de datos bivariantes y multivariantes. 4. Seale ejemplos, relacionados con su especialidad, de variables nominales, ordinales, discretas y continuas; de escala de intervalos y de razn; de series temporales y atemporales. 5. Para obtener los datos asociados con las variables del ejercicio 1, indique el tipo de estudio que seria necesario realizar considerando las clasificaciones excluyentes: Descriptivo o Inferencial y Transversal o Longitudinal. 2.2. TABULACIN DE DATOS CUALITATIVOS O CATEGRICOS La tabulacin de estos datos consiste en determinar el nmero de veces que se repite cada categora (frecuencias absolutas). El peso de cada categora se expresado como porcentaje del total de datos. Los grficos apropiados para representar las frecuencias son los de barra, sectores circulares. Ejemplo En una investigacin, a un grupo de 20 alumnos universitarios se les solicita que sealen su grado de acuerdo con la aseveracin Me gusta la carrera que estoy estudiando en que las respuestas son MA (Muy de acuerdo); A (De acuerdo); I (Indiferente); D (En desacuerdo); MD (Muy en desacuerdo). Los resultados son: A MA D I MA A MD MA MA A MA A I MA A A MA I D MA La tabulacin de los datos se presenta a continuacin:
ALUMNOS SEGN RESPUESTA A PREGUNTA Me gusta la carrera que estoy estudiando

RESPUESTAS (Variable) Muy de Acuerdo De Acuerdo Indiferente En Desacuerdo Muy en Desacuerdo TOTAL

N ALUMNOS Frec. Absoluta (fi) 8 6 3 2 1 20

PORCENTAJE (%) 40,0 30,0 15,0 10,0 5,0 100,0

Los grficos de Barras y de Sectores Circulares (o de Torta), elaborados en Excel, se presentan a continuacin:
Grfico de barras
ALUMNOS SEGN RESPUESTAS A "Me gusta la carrera que estoy estudiando"
Alumnos 0 Muy de Acuer. 2 4 6 8 10

Grfico de Sectores Circulares (Torta)

ALUMNOS SEGN RESPUESTAS A "Me gusta la carrera que estoy estudiando"

Muy de Acuerdo De Acuerdo Indiferente En Desacuerdo Muy en Desacuerdo

De Acuerdo

Indiferente

En Desacuerd.

Muy en Desac.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 7

Como interpretacin de los resultados anteriores se podra afirmar que los estudiantes, del grupo estudiado, manifiestan agrado con la carrera que estn estudiando. Esto puede concluirse al comparar los porcentajes de alumnos que sealan acuerdo con la aseveracin (70%) respecto a los que indican desacuerdos (15,0%). Si los Indiferentes, por el hecho de no manifestar desacuerdo explcito, se agregan a los acuerdos se tiene que el 85,0% estara de acuerdo con la carrera que estudia y slo el 15,0% manifiesta algn grado de desacuerdo. Preguntas: a. En qu circunstancias la la investigacin del ejemplo sera de tipo descriptivo? b. En qu caso sera inferencial?. c. Segn la descripcin, corresponde a una investigacin transversal o longitudinal?. Justifique. 2.3. TABULACIN DE DATOS CUANTITATIVOS DISCRETOS Sea una variable X entre cuyos "n" valores slo hay "m" distintos, los que se representan como X1, X2,...,Xm . Los valores diferentes se repiten respectivamente f1, f2,..., fm veces. Las repeticiones fi se denominan "frecuencias absolutas". A partir de stas se definen las siguientes frecuencias: "Frecuencia relativa i-sima" al cuociente hi= fi/n (i= 1, 2,...,m). "Porcentajes i-simo" de repeticiones a ci = 100.hi "Frecuencia absoluta acumulada i-sima" a la suma Fi = f1 + f2 ++ fi "Frecuencia relativa acumulada i-sima" a la suma Hi = h1 + h2 +...+hi = Fi /n "Porcentaje acumulado i-simo" a Ci = 100.Hi =(100.Fi )/n Ejemplo. En una investigacin sobre caractersticas sociales de los estudiantes universitarios interesaba medir la variable X: "nmero de hermanos". Con este objeto, se consult sobre el particular a los 25 alumnos de un curso, obtenindose las siguientes respuestas: 2 0 1 0 0 1 1 1 4 1 3 2 2 1 1 2 0 3 1 4 2 3 2 6 2 Se observa que m=6 pues slo hay 6 valores diferentes de la variable, que son: 0; 1; 2; 3; 4 y 6. Adems n=25 (nmero de observaciones). La tabla de frecuencias es la siguiente: ALUMNOS SEGN NMERO DE HERMANOS
NMERO HERMANOS (Variable) NMERO ALUMNOS Frec. Absol. % Porcent. NMERO ALUMNOS Frec. Absol. Acumulada % Porcent. Acumul. Frec. Relativa Frec.Relat. Acumulada

(Xi)
0 1 2 3 4 6 TOTAL

(fi)
4 8 7 3 2 1 25

(ci)
16 32 28 12 8 4 100

(Fi)
4 12 19 22 24 25

(Ci)
16 48 76 88 96 100

(hi)

(Hi)
0,16 0,48 0,76 0,88 0,96 1,00

0,16 0,32 0,28 0,12 0,08 0,04 1,00

Como ejemplos de interpretacin de las frecuencias, se puede decir que: f3 = 7 (tercer valor de las frecuencias absolutas). Significa que hay 7 alumnos que tienen 2 hermanos

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 8

c3 = 28% (tercer valor de los porcentajes). Significa que 28% de los alumnos que tienen 2 hermanos F3 = 19 (tercer valor de las frecuencias absolutas acumuladas). Significa que hay 19 alumnos que tienen 2 o menos hermanos C3 = 76% (tercer valor de los porcentajes acumulados). Significa que hay 76% de alumnos que tienen 2 o menos hermanos. Las frecuencias relativas as como las relativas acumuladas se expresan como tantos por uno y por ello se prefiere usar los porcentajes, que suministran la misma informacin y son de ms fcil lectura e interpretacin. Sirven para estimar probabilidades y se emplearn ms adelante. Por ltimo, es importante sealar que en un informe u otra presentacin de datos, corrientemente slo interesa presentar la tabla con las columnas de variable, frecuencias absolutas y porcentajes, las que contienen la informacin bsica y son valores simples de interpretar. Los grficos especficos que se emplean para presentar este tipo de datos son el Histograma (para frecuencias simples) y la Ojiva (para frecuencias acumuladas). Estos grficos se presentarn en el punto siguiente. Tambin puede emplearse el grfico de sectores. Histograma Ojiva Alumnos segn nmero de hermanos
N Alumnos 25

Alumnos segn nmero de hermanos


N Alumnos 10 8 6 4 2

20

15

10

N Hermanos

6
5

3
N Hermanos

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 9

2.4. TABULACIN DE DATOS CUANTITATIVOS CONTINUOS


Las variables continuas se caracterizan por presentar una diversidad de valores diferentes. Por ello, la tabulacin se realiza definiendo intervalos de valores de la variable y contar el nmero de observaciones que estn contenidas en dichos intervalos. Esta forma de tabular datos se empelar para variables que son de naturaleza continua as como para variables discretas que tengan muchos valores distintos (p.ej. puntajes en un test de 120 tems, cada uno de los cuales tiene respuesta correcta o incorrecta, siendo el puntaje el nmero de respuestas correctas)

2.4.1. Diagrama de Tallo y Hoja


Este diagrama permite un anlisis exploratorio de los datos para conocer la estructura de los mismos as como algunas caractersticas de agrupacin, que pueden emplearse para decidir como tabularlos. El diagrama consiste en la expresin de los datos tomando las cifras comunes de los mismos (que sern los tallos) y escribiendo las cifras diferentes en forma ms compacta (hojas). El proceso para realizar el diagrama se presenta a continuacin, mediante un ejemplo.

Ejemplo
Como parte de una investigacin sobre estudiantes de Educ. Media se obtuvo las estaturas (en cm) de un grupo de 40 de ellos, que se emplearan para desarrollar los ejemplos siguientes: . 138 164 150 132 144 125 149 157 146 158 140 147 136 148 152 144 168 126 138 178 163 116 154 165 146 173 142 147 135 153 140 135 161 145 135 142 150 156 145 128. Considerando como tallos los dos dgitos iniciales (11, 12,..) se pueden arreglar los datos como sigue:

11 12 13 14 15 16 17

6 5 8 4 0 4 8

6 2 9 7 3 3

8 8 6 8 5

5 6 4 1

5 2 0 8

6 2 6

5 5 3

0 2

Ordenando los datos dentro de cada fila de la hoja se obtiene el diagrama final:

11 12 13 14 15 16 17

6 5 2 0 0 1 3

6 5 0 0 3 8

8 5 2 2 4

5 2 3 5

6 4 4 8

8 4 6

8 5 7

5 8

Esta simple ordenacin de datos permite observar la concentracin de los mismos en el intervalo de 140 cm a 149 cm, as como la distribucin, relativamente simtrica, de los mismos en torno al intervalo sealado. Este diagrama es entregado por el software estadstico, como SPSS y otros, el que aporta ms informacin grfica con el diagrama.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 10

2.4.2. Tabulacin empleando Intervalos de Igual Amplitud


Para representar a los intervalos, se define la variable Xi denominada "marca de clase del intervalo isimo", la cual corresponde al punto medio del intervalo. Se define como "frecuencia absoluta del intervalo i-simo" al nmero de observaciones contenidas en el intervalo. Se representa como fi. Se emplean las definiciones dadas anteriormente para "frecuencias relativas", "porcentajes" y tambin para las frecuencias acumuladas (absolutas , relativas y porcentajes).

a. Clculo de Amplitud Comn de Intervalos


El proceso de definir la amplitud comn de los intervalos que se usarn consiste en: 1. 2. 3. 4. Determinar el NUMERO DE INTERVALOS que se utilizar (denotado como "m"). Determinar el RECORRIDO = Xmax - Xmin ; definido como la diferencia (Xmax) y el menor (Xmin) de los valores de los datos analizados. entre el valor mayor

Determinar la AMPLITUD comn "a" de los intervalos con: a = (Xmax - Xmin )/m Ajustar el valor obtenido para "C", de ser necesario, para utilizar un valor cmodo e interpretable. En este caso, si se modifica el recorrido de los datos, debe cuidarse de contener al recorrido original. Definir los lmites de los intervalos que se emplearn. Definir el criterio que se utilizar para clasificar a aquellas observaciones que coinciden con los extremos de los intervalos e indicarlo en la tabla que se realiza. Por ej. si extremos de intervalos son:116 - 125; 125 - 134; etc. a) Si se decide asignar 125 al segundo intervalo, la indicacin puede ser: 116-124,9; 125 133,9; etc. Tambin: 116 - 124; 125 - 133; etc. si los datos son enteros. b) Si se decide asignar 125 al primer intervalo, la indicacin puede ser: 116 - 125; 125,1 134; etc. Tambin: 116 - 125; 126 - 134; etc. si los datos son enteros.

5. 6.

Ejemplo (Variable Continua)


Empleando los datos de estaturas de 40 estudiantes de Educ. Media, del ejemplo anterior. En consideracin a la diversidad de valores, se tabularn en 7 intervalos de igual amplitud. Se observa que Xmax= 178 cm y que Xmin= 116 cm. La amplitud C, siendo m=7 entonces se tiene que C = (178 116)/7 = 62/7 Luego C= 8,875.. cm. Para facilitar la definicin de los intervalos, se aproxima C=9 cm. Para esto es necesario tener un Recorrido de 63 cm, por lo cual se emplear Xmax=179 cm manteniendo el valor de Xmin= 116 cm pues (179-116=63). Por lo tanto, los intervalos tendrn como extremos: 116-125; 125-134; 134-143; 143-152; 152-161; 161-170; y 170-179. Para evitar la ambigedad en la definicin de los intervalos, se adoptar el criterio de clasificar las observaciones que coinciden con el extremo superior del intervalo en dicho intervalo. La tabla de frecuencias terminada se presenta en pgina siguiente:

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 11

ALUMNOS SEGN ESTATURAS


ESTATURAS (cm) MARCA NMERO DE ALUMNOS CLASE (Variable)
(Variable Frec. Absol. )

NMERO ALUMNOS Frec. Absol. Acumulada

% Porcent. Acumul. Frec. Relativa Frec.Relat. Acumulada

Porcent.

Linf - Lsup 116,0 - 125,0 125,1 - 134,0 134,1 - 143,0 143,1 - 152,0 152,1 - 161,0 161,1 - 170,0 170,1 - 179,0

(Xi) 120,5 129,5 138,5 147,5 156,5 165,5 174,5

TOTAL

(fi) 2 3 10 13 6 4 2 40

(ci) 5,0 7,5 25,0 32,5 15,0 10,0 5,0 100,0

(Fi) 2 5 15 28 34 38 40

(Ci) 5,0 12,5 37,5 70,0 85,0 95,0 100,0

(hi) 0,050 0,075 0,250 0,325 0,150 0,100 0,050 1,000

(Hi) 0,050 0,125 0,375 0,700 0,850 0,950 1,000

b. Interpretacin del significado de las frecuencias.


La interpretacin de los resultados de la tabla es semejante a lo indicado para variable discreta. Como ejemplo se presenta la interpretacin para las frecuencias del tercer intervalo (134 a 143 cm): f3 = 10 (tercer valor de las frecuencias absolutas). Significa que hay 10 alumnos que tienen estaturas entre 134 y 143 cm. c3 = 25% (tercer valor de los porcentajes). Significa que 25% de los alumnos que tienen estaturas entre 134 y 143 cm. F3 = 15 (tercer valor de las frecuencias absolutas acumuladas). Significa que hay 15 alumnos que tienen estaturas de 134 cm o menos (o entre 116 cm y 134 cm). C3 = 37,5% (tercer valor de los porcentajes acumulados). Significa que hay 37,5% de alumnos que tienen estaturas de 134 cm o menos (o entre 116 cm y 134 cm.

2.4.3. Intervalos de Diferente Amplitud


En este caso, la amplitud de los intervalos es arbitraria pero se deben tener las mismas precauciones con la definicin de los extremos de los intervalos indicados antes. Las frecuencias se definen, calculan y grafican en forma anloga al caso de intervalos de igual amplitud.

2.5. GRFICOS DE LAS FRECUENCIAS DE DATOS CONTINUOS


Los grficos utilizados son: histograma, polgono de frecuencias (para frecuencias simples) y la ojiva (para frecuencias acumuladas). En todos los grficos, el eje de las abscisas (eje X) se emplea para representar la variable y el eje de las ordenadas (eje Y) se emplea para representar las frecuencias (simples o acumuladas).

2.5.1. Histograma
El HISTOGRAMA consiste en la representacin de las frecuencias simples mediante reas de rectngulos. Se debe definir un rea unitaria (correspondiente a la frecuencia unitaria), la que debe aplicarse tantas veces como sea la frecuencia que se desea representar. INTERVALOS DE IGUAL AMPLITUD. En este caso, el rea unitaria corresponde al rectngulo de base igual a la amplitud comn del intervalo y de altura igual a la frecuencia unitaria. La representacin de diferentes frecuencias se realiza variando la altura de los rectngulos de acuerdo a la frecuencia representada.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 12

Ejemplo de Histograma de Frecuencias Absolutas (Datos de estaturas)

N ALUMNOS 15

12

0 116 125 134 143 152 161 170 179


ESTATURA (cm)

2.5.2. Polgono de frecuencias


El Polgono de Frecuencias consiste en la representacin de frecuencias simples (absolutas, porcentajes o relativas) mediante una poligonal obtenida al unir los puntos definidos por los pares:

(Marca de clase; Frecuencia del intervalo).


Se completa la poligonal considerando intervalos adicionales al comienzo y al final de la distribucin con frecuencias cero. Esto permite hacer equivalentes el rea encerrada por la poligonal con aquella encerrada por el Histograma respectivo En el ejemplo siguiente, sobre estaturas de 40 estudiantes, se aprecia la concentracin de los datos en torno a la marca de clase 147,5 y la simetra de la distribucin respecto a ese valor. Ejemplo de Polgono de Frecuencias absolutas

ESTATURAS DE ALUMNOS
16 12 Alumnos 8 4 0 111,5

120,5

129,5

138,5

147,5

156,5

165,5

174,5

183,5

Estatura (cm)

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 13

2.5.3. Ojiva
Se emplea para representar frecuencias acumuladas. Consiste en la poligonal obtenida al unir los puntos definidos, en cada intervalo, por: (Extremo superiordel intervalo, Frecuencia acumulada del intervalo) Se completa la poligonal uniendo el extremo inferior del primer intervalo al grfico anterior. En el ejemplo siguiente, sobre estaturas de 40 estudiantes, se aprecia el aumento gradual de las frecuencias acumuladas a medida que aumenta la estatura, lo que es caracterstico de las distribuciones simtricas. Ejemplo de Ojiva de Frecuencias Absolutas Acumuladas

ESTATURAS DE ALUMNOS

40 Alumnos 30 20 10 0
107 116 125 134 143 152 161 170 179

Estatura (cm)

2.5.4. Grficos para Intervalos de Diferente Amplitud


Para graficar el Histograma es conveniente definir un rea de graficacin unitaria, como un rectngulo unitario cuya base es una fraccin comn de las amplitudes de los intervalos y cuya altura corresponde a la frecuencia unitaria. La altura de los otros rectngulos para representar las otras frecuencias puede determinarse por la relacin: Frecuencia del Intervalo ALTURA DEL RECTANGULO = N Amplitudes Unitarias del Intervalo Ejemplo: Los datos siguientes corresponden a pesos de 40 personas, tabulados en intervalos de amplitudes arbitrarias como se aprecia en la tabla:
PESO N PERSONAS

50,0 - 60,0 60,1 - 70,0 70,1 - 80,0 80,1 - 100,0 100,1 - 130,0

6 8 12 8 6

En el grfico del Histograma se emple un rectngulo unitario de 10 k. de base y 1 persona de alto Se aprecia que los rectngulos que representan frecuencias iguales tienen reas iguales, como ocurre en los intervalos de 50 a 60 k y de 100 a 130 k, que tienen frecuencia 6, pero la altura del rectngulo del intervalo de

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 14

100 a 130 es la tercera parte del primero. Algo similar ocurre con los intervalos de 60 a 70 k y de 80 a 100 k que tienen frecuencia 8, en que se represent el segundo con un rectngulo cuya altura es la mitad del primero. En el Polgono de Frecuencias se emple una base de 10 k con el objeto de compensar reas. Por ello los puntos empleados para realizar el grfico empleando (Marca de clase, Frecuencia absoluta) son: (45;0), (55;6), (65;8), (75;12), (85;4), (95;4), (105;3), (115;3), (125;3), (135;0). El primer y el ltimo punto emplean intervalos ficticios, noque no estn en la tabla y sirven para cerrar el grfico por ello tienen frecuencia 0.

N PERSONAS 15

N PERSONAS 15

12
12

0 50 60 70 80 90
PESO (K)

100

110

120

130

40

50

60

70

80
PESO (K)

90

100

110

120

130

140

Histograma

Polgono de Frecuencias

2.5.5. Empleo de la Ojiva para determinar Mediana y Cuartiles


Se puede emplear la Ojiva para estimar algunos valores de la variable caractersticos y representativos de la distribucin de la misma, como Mediana, Cuartiles y Percentiles. La MEDIANA es el valor de la variable tal que, dicho valor o menos, tienen el 50% de los datos. Para estimarlo mediante la Ojiva, se calcula el 50% de las frecuencias (0,5n) y se ubica dicho punto en el eje que representa frecuencias (eje Y o de abscisas). Por dicho punto, se traza una paralela al eje X (que representa la variable) hasta cortar la Ojiva. Desde dicha interseccin, se traza una paralela al eje Y (abscisas) hasta cortar el eje X (variable). El punto definido en el eje de la variable corresponde a la Mediana. En el ejemplo siguiente, sobre estaturas de los 40 alumnos, se aprecia que el 50% de los datos, o sea, 0,5n=(0,5)(40)=20 alumnos. La estimacin de la Mediana (Me) corresponde a 146,5 cm. El PRIMER CUARTIL es el valor de la variable tal que, dicho valor o menos, tiene el 25% de los datos. El TERCER CUARTIL es el valor de la variable tal que, dicho valor o menos, tiene el 75% de los datos. Para estimarlos se procede en forma anloga a lo indicado para la Mediana. En el grfico se presentan las estimaciones, que corresponden a 138,5 cm y 155 cm respectivamente. En forma anloga, se pueden estimar valores de la variable asociados con porcentajes de la distribucin, denominados PERCENTILES. Por ejemplo, la Mediana corresponde al Percentil 50. Tambin, es posible estimar la frecuencia acumulada asociada con un valor de la variable. En el grfico (flecha ancha, en verde) se aprecia que con 165 cm de estatura o menos hay 36 alumnos. Como 36 alumnos corresponden al 90% del total de los 40 alumnos, la estatura 165 cm se denomina el PERCENTIL 90 (denotndose como P(0,90)).

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 15

ESTATURAS DE ALUMNOS
Alumnos

45 40 35

36
0,75n=

30 25

o,5n=

20 15

0,25n=

10 5 0 107

116

125

134

143

152

161

170

Q1=138,5

Me=146,5

165
Q3=155

Estatura cm

179

2.5.6 Ejercicios
Usando el grfico anterior estime lo siguiente: a) b) c) d) Percentil 10, percentil 30, percentil 70 y percentil 90 El percentil asociado con estaturas 132 cm, con 138 cm, con 172 cm Estime el intervalo de estaturas entre el percentil 90 y el percentil 10; entre el percentil 70 y el percentil 30. Estime el nmero de alumnos entre 132 cm y 172 cm

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 16

2.6. USO DE EXCEL: FUNCIONES Y PROCEDIMIENTO ANLISIS DE DATOS


Para realizar la tabulacin y graficacin de datos, esto es la organizacin de los datos, se pueden utilizar diferentes funciones que tiene Excel implementadas, empleando alguna de las formas siguientes: a) Escribiendo textos de funciones estadsticas b) Insertando las funciones estadsticas b) Empleando Herramientas para Anlisis Antes de escribir o insertar una funcin se requiere tener escritos, en una pgina de Excel, el conjunto de datos que se desea analizar, pues las funciones emplean direcciones. Adems, el resultado aparecer en el lugar en que se encuentra ubicado el cursor al momento de insertar o escribir la funcin.

2.6.1. Escribir Funciones Estadsticas


Consiste en escribir el texto del comando respectivo (en mayscula o minsculas), algunos de los cuales se sealan a continuacin, empezando por el signo =. Es necesario indicar la direccin donde se encuentran los datos o escribir los datos. El resultado Excel lo escribe en la casilla donde se ubica el cursor. En Ayuda se pueden ver los textos de comandos en caso de duda. En el ejemplo siguiente se aplica la funcin PROMEDIO para obtener la Media Aritmtica o Promedio de un conjunto de datos:

En los ejemplos de comandos siguientes, con "nmero" o con "matriz" se indica un valor numrico (Ej:64) o un rango donde se encuentran los datos, Ej. c2:c26. Observe que las direcciones que requiere Excel slo corresponden a aquella de los datos y se excluye el nombre de las variables. a. Nmero de valores =CONTAR(ref1; ref2; ) =CONTARA(ref1; ref2; ) b. Suma de valores =SUMA(nmero1; nmero2; ) c. Mnimo y mximo =MIN(nmero1; nmero2; ) =MAX(nmero1; nmero2; ...) d. Media Aritmtica =PROMEDIO(nmero1; nmero2;...) e. Desviacion Estndar =DESVEST(nmerol; nmero2; ... ) =DESVESTP(nmerol; nmero2;...) f. Varianza =VAR(nmerol; nmero2; ... ) =VARP(nmerol; nmero2; ... ) g. Mediana =MEDIANA(nmerol; nrnero2;...) Desv. Est. Muestra Desv. Est. Poblacional Varianza muestra Varianza poblacional Cuenta la cantidad de nmeros en direccin indicada Cuenta el nmero de casillas ocupadas en direccin indicada Suna los valores de la referencia

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 17

h. Moda =MODA(nmerol; nmero2;...) i. Cuartiles =CUARTIL(matriz; cuartil) Matriz: rango de datos Cuartil: 0 = valor mnimo 1 = primer cuartil percentil 25 2 = Mediana, segundo cuartil, percentil 50 3 = tercer cuartil, percentil 75 4 = valor mximo Matriz: rango de datos k = valor decimal entre 0 y 1 Por ej. k=0,25 para Percentil 25

j. Percentiles =PERCENTIL(matriz; k)

k. Correlacin lineal =COEF.DE.CORREL(matriz 1; matriz 2) matriz 1 y matriz 2 son rangos numricos que deben contener el mismo nmero de valores

2.6.2. Insertar Funciones Estadsticas


Para insertar la funcin, se selecciona el men Insertar y dentro de este Funcin

Se presenta el men siguiente. En Seleccionar una Categora hay opciones de tipos de funciones. En el ejemplo se seleccion Estadsticas, dentro de l se destac el PROMEDIO, ya usada antes.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 18

Al pulsar ACEPTAR se presenta el men para calcular el promedio. Se debe ingresar la (o las) direccin de los datos que se analizan. En el ejemplo B3:B7. Se aprecia que el valor del promedio se presenta en este men (5,16). En la Barra de Frmulas se presenta el texto de la funcin, tal como se us antes.

Al pulsar Aceptar se obtiene el resultado del promedio en la casilla donde se encuentra el cursor.

2.6.3. Procedimiento Anlisis de Datos a. Activacin


La Herramienta Anlisis de Datos posibilita el empleo de diversos procedimientos estadstico en Excel de forma ms eficiente que empleando los comandos respectivos. Debe verificarse que la opcin est activa, desplegando el men Herramientas. Si aparece Anlisis de Datos, como se aprecia en el grfico siguiente, ello indica que esta activa. En caso que no aparezca Anlisis de Datos, se debe activar. Para ello, en el men de Herramientas, debe seleccionarse el men de Complementos. Dentro de las opciones que ofrece ste, debe activarse el Anlisis de Datos para lo cual se marca la alternativa respectiva, tal como se aprecia a continuacin. Segn la versin de Excel, este puede requerir el disco de Office para cargar dicho complemento.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 19

b. Empleo de Funciones Para Anlisis


Si en Herramientas se selecciona Anlisis de Datos se presenta un conjunto de Funciones para Anlisis disponibles, como se aprecia a continuacin:

En general, los mens de las Funciones para Anlisis tienen algunos elementos en comn. Se distinguen dos partes, la superior generalmente presenta las Opciones de entrada donde se pide ingresar el o los rangos donde se ubican los datos, si se usan rtulos, etc. La parte inferior presenta las Opciones de salida donde ubicar los resultados: rango (si es en la misma hoja activa), en una hoja nueva o en un libro nuevo. Hay otras opciones segn la funcin En lo que se sigue, se encontraran ejemplos del empleo de esta herramienta.

2.7. USO DE EXCEL PARA TABULAR DATOS


A continuacin se presenta el empleo de Excel para desarrollar algunos de los procedimientos presentados antes.

2.7.1. Uso de la funcin FRECUENCIA para Tabular datos discretos o continuos


Para tabular un conjunto de datos con Excel se puede emplear la funcin FRECUENCIA o la funcin para anlisis HISTOGRAMA Para tabular deben determinarse los intervalos que se usarn. En el ejemplo (el mismo del Apunte) se tabulan 40 estaturas (en cm) de estudiante. En primer lugar se definen los intervalos que se emplearn, como se ilustra a continuacin. Se usar una amplitud de 9 cm, definindose los intervalos a partir del valor mnimo, 115 cm. Para usar la funcin FRECUENCIA se requiere escribir los extremos de los intervalos en una columna, como se aprecia en ejemplo, entre A16 y A22. A continuacin se selecciona (ennegrece) un conjunto de casillas equivalente al de extremos escritos (esto se realiz entre B16 y B22). Luego se escribe funcin, sealndose donde se encuentran los datos (A6:G11) y los extermos de intervalos (A16:A22). Luego, se deben pulsar teclas: MAYSCULA+CONTROL+ENTER

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 20

El resultado es el siguiente, a partir del cual se pueden completar con porcentajes y frecuencias acumuladas, segn se requiera.

2.7.2. Uso de la Funcin HISTOGRAMA para Tabular datos discretos o continuos


Como se aprecia en la figura siguiente, previamente se han definido los extremos de los intervalos. Se escriben estos extremos en una columna. Se selecciona Anlisis de Datos del men de Herramientas. Dentro de ste, se selecciona la funcin HISTOGRAMA. Se completan los campos solicitados por el men, indicndose el rango donde se encuentran los datos (A6:G11) y donde est la definicin de los intervalos incluyendo su rtulo (A15:A22). Tambin se seala donde se escribirn los resultados (C15). Se activa Rtulos en men de Histograma para identificar los resultados.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 21

El proceso anterior se ilustra a continuacin.

La tabla se completa con Marcas de Clase y otras frecuencias

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 22

2.8. USO DE EXCEL PARA GRAFICAR DATOS 2.8.1. Graficacin del Polgono de Frecuencias a.. Diseo del Borrador del Grfico
Para realizar grficos en Excel es conveniente preparar una tabla con los datos que se usarn, a partir de la tabla de Frecuencias. El Polgono de Frecuencias es un grfico que emplea el rea encerrada para representar un conjunto de datos Para graficar el Polgono de Frecuencias se emplean las Marcas de Clase y frecuencias simples (en el ejemplo, la frecuencia absoluta). Como se aprecia en el ejemplo, se agregan dos Marcas de Clase con frecuencia 0, para cerrar el grfico.

Antes de seleccionar la opcin de grfico que se usar, se marcan los datos incluyendo rtulos, aunque ello no influye en el resultado.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 23

Se emplea el Asistente para Grficos del men. Entre los tipos de grficos, se selecciona XY (Dispersin), y entre los subtipos, se elige la ltima, como se aprecia en grfico siguiente:

El resto del proceso se ilustra con los grficos que siguen. El paso 2 permite seleccionar los datos:

El Paso 3 permite poner ttulos a ejes. Tambin permite eliminar la leyendaal seleccionar pestaa respectiva. El Paso 4 permite ubicar el grfico en una hoja nueva. Tambin se puede optar por insertarlo en la hoja de los datos, aunque esta opcin no es muy verstil para mejorar la apariencia del grfico (ttulos, fondos etc.) como se hace a continuacin.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 24

b. Diseo del Grfico Definitivo


Una vez ubicado el grfico en una hoja, se puede realizar el grfico definitivo mejorando la apariencia y presentacin del borrador. En general, al poner el cursor en cualquier sector del grfico (rea de trazado o rea del grfico) o elemento (ejes, ttulos) etc. se puede modificar dicho sector o elemento.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 25

Para mejorar la presentacin del Eje de valores X se ubica el cursor sobre algn valor del Eje. Se hace doble clic con el mouse y se presenta el men que se presenta a continuacin, en que se seleccion la pestaa Escala, la que muestra los valores que Excel emple para el borrador del grfico, los que se pueden modificar para mejorar la presentacin, como se aprecia en grfico siguiente.

Ah se aprecia que se cambiaron los valores para ajustarlos a las valores de marcas de clase, dejando espacio antes del primer valor y luego del ltimo de las marcas de clase efectivas. Por ello el mnimo se asigna el valor 102,5 que corresponde a 111,5-9; al mximo se le asigna el valor 192,5 que corresponde a 183,5+9. Como unidad mayor se usa 9, que es el valor de la amplitud de los intervalos y como unidad menor se usa 1.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 26

Los efectos de estos cambios se aprecian en grfico siguiente:

Para cambiar los fondos del grfico se modificaron las reas de Trazado (rea interior al polgono) y rea de Grfico (rea exterior a los ejes), usando texturas como se aprecian en figuras siguientes:

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 27

Para modificar el aspecto de la lnea de la poligonal se ubica cursor en ella y se ingresa al men respectivo, para cambiar el grosor de lnea y su color.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 28

c. Impresin del Grfico Definitivo


El diseo del grfico terminado es conveniente adecuarlo a la pgina para su impresin, pues si no ocupar una hoja completa. En el men Archivo empleando las opciones de Configurar Pgina se pueden asignar mrgenes adecuados para lograr una presentacin impresa conveniente. En las figuras siguientes se indican las modificaciones realizadas con ese objetivo.

El resultado final, para imprimir se presenta en la figura de pgina siguiente.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 29

2.8.2. Graficacin de la Ojiva a. Diseo del Borrador del Grfico


La Ojiva se emplea para representar frecuencias acumuladas. Se usan los extremos de los intervalos y las frecuencias acumuladas respectivas. Tambin se agregan dos intervalos falsos para completar el grfico. En el ejemplo se emplean las frecuencias absolutas acumuladas. La tabla con los datos que se usarn, a partir de la tabla de Frecuencias, es la que sigue:

En general, el procedimiento es el mismo indicado para el Polgono de Frecuencias. Los cambios importantes son en la definicin del eje X, para lo que se emplean los valores siguientes para que en el grfico se aprecien los extremos de los intervalos.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 30

La apariencia de la Ojiva resultante, para imprimirla, es la siguiente:

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 31

2.9. EJERCICIOS EJERCICIOS DE PRUEBAS


A. Para responder, marque alternativa V (verdadero) o F (Falso) que estime adecuada. (Se indica con X alternativa correcta) Para los siguientes datos sobre puntajes en un test (en puntos): 72 81 34 41 51 62 73 84 86 75 63 53 43 43 53 55 64 65 57 69 57 33 41 50 61 32 40 50 61 70 63 42 51 42 1. El diagrama de tallo y hoja (ordenado)de los datos anteriores tiene una fila 7| 0 2 3 5 2. El recorrido original de los datos es de 32 cm a 86 cm 3. Para tabular en siete intervalos de igual amplitud, los intervalos 4 y 5 podran Tener como extremos: 55,4 - 63,2 ; 63,2 71,0 4. Para tabular en 8 intervalos se podra usar una amplitud de 6,8 VX V VX VX F FX F F

B. Los ejercicios siguientes no se relacionan entre s ni tampoco con ejercicios anteriores, su objetivo es la comprensin de la terminologa y asociada con las frecuencias. 5. Una distribucin de frecuencias puede tener los valores siguientes H4 = 0,35 ; H5 = 0,25 ; n=80 6. Una distribucin de frecuencias puede tener los valores siguientes h2 = 0,40 ; n = 60 ; f1 = 15 8. La ojiva puede realizarse con datos discretos 9. El histograma se realiza empleando frecuencias y valores de los extremos de los intervalos. 10. El grfico de sectores circulares (torta) sirve para graficar frecuencias simples V VX VX VX VX Fx F F F F

C. La tabla siguiente corresponde a ingresos en miles de pesos (M$) de un grupo de personas INGRESOS PERSON 12. En la tabla anterior el quinto % es 25 (M$) AS 200,0 250 7 250,1 300 8 13. En la tabla anterior F4 tiene el valor de 37 300,1 350 10 350,1 400 12 14. La cuarta marca de clase es 375 M$ 400,1 450 30 450,1 500 25 15. Se puede afirmar que aproximadamente 31% de 500,1 550 18 las personas tiene ingresos de $400.000 o menos 550,1 600 10

VX VX VX VX

F F F F

EJERCICIOS PARA DESARROLLAR


1. Los datos siguientes corresponden a las respuestas a la pregunta "La Estadstica es muy importante en la formacin de los profesionales universitarios" formulada a un grupo de estudiantes universitarios. Las respuestas son en MA (Muy de acuerdo), A (De acuerdo), I (Indiferente), D (En desacuerdo), MD (Muy en descuerdo) y N (No responde). a. Identifique el tipo de variable. Tabule las respuestas, calcule % y grafique. b. Cmo pueden interpretarse los resultados respecto al acuerdo o no del grupo con la aseveracin? MA A A MA MA I D MD A MA I A A MA I I MD D A MD I A A MA D MD MA A MA D N MA A A D MD D I I N MA MA A A MA D MD D A D D A D A D D A A MA MD MD I I MD MA MA A A A N I N A A I N A D MD A

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 32

2.

Los siguientes son los resultados (en puntos) obtenidos por escolares en una prueba: 143 178 156 152 176 186 187 169 158 179 201 195 205 220 210 205 183 210 177 170 167 202 210 178 140 190 208 198 215 177 164 175 190 227 183 160 180 150 185 172 187 165 205 220 219 197 185 210 192 209 205 207 220 227 180 253 219 210 195 195 230 195 184 210 195 214 198 240 178 229 245 196 235 190 241 196 236 183 199 250 a. b. c. Tabule en 10 intervalos de igual amplitud los 80 datos. Calcule frecuencias simples y acumuladas. Los primeros 50 datos corresponden a escolares de 14 aos y los ltimos 30 datos a escolares de 16 aos. Tabule cada conjunto de datos empleando los mismos intervalos definidos en (a). Calcule frecuencias simples y acumuladas. Compare los resultados por edad empleando grficos. Estime Mediana y Cuarteles. Realice una apreciacin sobre las distribuciones: cual tiene valores mayores, cual es ms simtrica etc.

3.

En un estudio sobre el tiempo empleado en efectuar una tarea por 45 trabajadores se registraron los resultados siguientes (en segundos): 12,4 12,0 12,1 11,7 a. b. 13,1 11,5 12,4 10,9 12,0 11,6 11,0 12,5 11,9 10,7 11,2 11,3 11,0 11,4 10,9 9,6 11,0 11,5 10,9 10,7 10,9 12,6 12,5 12,8 12,9 13,2 9,8 10,6 12,1 13,0 11,8 10,9 11,2 12,5 9,9 9,6 11,7 12,2 10,3 11,2 11,5

Realice el diagrama de tallo y hoja. Tabule los datos en 8 intervalos de igual amplitud. Grafique histograma, polgono de frecuencias y ojiva. En los grficos ubique grficamente Mediana, Cuartiles y percentil 60.e interprete su significado.

5.

Los puntajes obtenidos por un grupo de estudiantes en un test fueron tabulados en la tabla siguiente, con 4 intervalos de igual amplitud. Calcule los valores de intervalos y frecuencias faltantes indicadas con letras desde A hasta T.

PUNTAJES (Intervalos)

Xi (Marca de Clase)

fi (Estudiantes)

ci (%) (Porcentaje)

Fi (Estudiantes)

Ci (%) (Porcentaje)

225 - A B - C D - E F - 425
5.

G H 350 I

J 20 K 10

L M 42,5 N

16 O P Q

R 45,0 S T

Determine para cada uno de los conjuntos de los valores siguientes si son posibles de ser obtenidos o no en una tabla de frecuencias. Justifique su respuesta. Cada conjunto es independiente de los otros n = 10 ; f3 = 31 a. H4 = 0,30 ; b. h1 = 4 ; h3 = 12 ; H4 = 15 f1= 20 c. h2 = 0,40 ; n = 50 ; f6= 3 ; H5 = 1 d. h 1 + h 2 + h 3 + h4 = 1 ; e. H4 = 0,20 ; H5 = 0,12 ; h5 = -0,08 La tabla siguiente corresponde a la distribucin de pesos (en k) de un grupo de personas. Pesos (k) 40,1 - 50,0 50,1 - 60,0 60,1 - 70,0 70,1 - 80,0 80,1 - 90,0 90,1 - 100,0 100,1 - 110,0 Total N Personas 10 13 35 38 16 15 9 136

6.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 33

Mediante interpolaciones o mediante algn grfico de frecuencias, estime lo siguiente: a. Personas que pesan menos de 52 k. b. Personas que pesan ms de 64,5 k. c. Personas que pesan entre 46 y 64 k. d. El peso que tiene el 25% de los ms delgados del grupo (Primer cuartil). e. El peso que tiene el 10% de los ms gordos del grupo (Percentil 90). f. Si Jorge pesa 63,4 k determine cual es su posicin relativa en el grupo. g. Realice una nueva tabulacin de los datos, empleando slo 5 intervalos de igual amplitud (14 k), cuyos lmites sean : 40 a 54; 54 a 68; 68 a 82; 82 a 96 y 96 a 110. 7. La tabla siguiente presenta la distribucin de los puntajes de un grupo de 50 personas, en los intervalos de diferente amplitud que se indican. Grfique el histograma, el polgono de frecuencias y la ojiva de los datos. (Recuerde los principios que se deben emplear para graficar los datos). Puntajes 50,0 - 60,0 60,1 - 70,0 70,1 - 90,0 90,1 - 110,0 110,1 - 140,0 Total 8. N Personas 5 8 12 10 15 50

Una distribucin simtrica se caracteriza por presentar frecuencias de valores iguales respecto al centro de la distribucin (que sera el eje de simetra). Reconstruya la distribucin simtrica de 5 intervalos si se sabe que (siendo Xi marcas de clase): X1= 10 X5= 90 f1= 4 f3= 20 f2 - f5= 2

9.

Una empresa desea modificar su sistema de compensaciones econmicas, reemplazando los incentivos basados en antigedad por incentivos basados en productividad. Los incentivos actuales segn la antigedad en la empresa, y que son acumulables, son: 1) Al cumplir 5 aos: asignacin mensual de un 10% del sueldo base. 2) Al cumplir 10 aos: financiamiento de estudios superiores. 3) Al cumplir 20 aos: asignacin de casa (pago de arriendo) 4) Al cumplir 25 aos: bono anual equivalente a 2 sueldos mensuales. 5) Al cumplir 30 aos: vacaciones pagadas por la empresa. El Departamento de Recursos Humanos debe realizar un estudio para medir el impacto del cambio. Las antigedades de los trabajadores (en aos) son las siguientes: 22 3 12 35 3 9 6 11 19 2 31 27 29 18 6 11 7 29 31 37 14 18 8 23 19 26 31 33 28 18 9 11 13 17 12 22 16 27 30 25 24 14 19 31 35 15 9 17 21 21 33 5 8 17 12 34 28 23 27 30 19 14 7 21 21 20 14 13 11 32 19 20 7 18 26 20 12 22 34 30 25 31 15 2 1 Tabule los datos en intervalos apropiados para responder lo siguiente (justifique su respuesta): a) b) c) d) e) Cuntos trabajadores no han obtenido actualmente algn beneficio por antigedad? Qu porcentaje de trabajadores perdera el beneficio de las vacaciones pagadas? Qu porcentaje de trabajadores perdera el beneficio de asignacin de casa? Cuntas personas perderan el beneficio del bono anual? Cuntas personas perderan algn beneficio y a qu % del total corresponden?

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 34

3. ESTADSTICAS DE POSICIN 3.1. TIPOS DE ESTADSTICAS DE RESUMEN


El resumen de la informacin tiene dos propsitos: por una parte, obtener una expresin numrica (estadsticas de resumen) de las caractersticas importantes de una distribucin de datos, para facilitar la comparacin de esas caractersticas entre diversas distribuciones. Por otra parte, posibilitar que se puedan reproducir las caractersticas grficas de una distribucin a partir de la interpretacin de las estadsticas de resumen calculadas. A continuacin se presentan las estadsticas de resumen de los datos del ejemplo que se ha utilizado en tabulacin, sobre Estaturas de 40 estudiantes, realizado con Excel y con SPSS. Ms adelante, se trata con detalle cada una de las estadsticas de resumen ms relevantes. Las estadsticas de resumen se pueden clasificar como: de posicin, de dispersin, de simetra y de apuntamiento. Las estadsticas de posicin (o de tendencia central) sirven para caracterizar una distribucin determinando valores representativos del conjunto de datos. Pertenecen a este grupo la Media Aritmtica y la Moda. La Mediana, los Cuartiles y los Percentiles si bien pertenecen a este grupo se les denomina estadsticas de orden por la forma en que se definen. Menos usadas son la Media Geomtrica y la Media Armnica. En su rol de representantes de los datos, las estadsticas de posicin tienen algunas propiedades generales, que son: 1. Se expresan en la misma unidad de la variable, pues son valores posibles de sta. 2. Su valor se encuentra entre el mnimo y el mximo de los datos (el recorrido de stos). Estas dos propiedades generales se aprecian, como ejemplo, en el resumen de la pgina siguiente donde se ha ubicado la Media Aritmtica y Mediana de los datos, como puntos del eje X , donde se presenta la variable Estatura. Las estadsticas de dispersin caracterizan una distribucin respecto a la variabilidad que presentan los datos respecto a alguna estadstica de posicin. Como ejemplos estn la Varianza y la Desviacin Estndar (asociadas con la media aritmtica), el Recorrido y el Recorrido Intercuartlico. Las estadsticas de simetra sirven para caracterizar la simetra de una distribucin respecto a un eje imaginario. Como ejemplos estn el coeficiente de Borden y el coeficiente de Pearson. Las estadsticas de apuntamiento sirven para comparar el grado de elevacin de la distribucin, esto es, si es ms alta o ms aplastada que la "distribucin normal" asociada (ver histograma de ejemplo). Un representante es el Coeficiente de Pearson.
Estadsticas de resumen con Excel
ESTATURAS M e d ia E rro r tp ic o M e d ia n a M oda D e s v ia c i n e s t n d a r V a ria n z a d e la m u e s tra C u rto s is C o e f ic ie n te d e a s im e tra R ango M n im o M x im o Sum a C u e n ta M a y o r (1 ) M e n o r(1 ) N iv e l d e c o n f ia n z a (9 5 ,0 % ) 1 4 6 ,7 8 2 ,1 1 1 4 6 ,0 0 1 3 5 ,0 0 1 3 ,3 4 1 7 7 ,9 2 0 ,1 0 0 ,1 6 62 116 178 5871 40 178 116 4 ,2 7
ESTATURAS Recuento Mximo Mnimo Media Mediana Moda Percentil 5 Percentil 25 Percentil 75 Percentil 95 Rango Desviacin tp. Error tpico de la media Varianza 40 178,00 116,00 146,78 146,00 135,00 125,05 138,00 155,50 172,75 62,00 13,34 2,11 177,92

Estadsticas de resumen con SPSS

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 35

3.2. MEDIA ARITMTICA 3.2.1. Definicin


Sea una variable X cuyos valores son X1, X2, X3,...,Xn. Se define como Media Aritmtica a: n 1 X + X 2 + X 3 + + X n Suma de los Datos = M(X)= X = Xi = 1 n i =1 n Numero de Datos Para datos agrupados: n n 1 M(X)= X = Xi fi = Xi hi con Xi=Marca de clase; fi= Frecuencia absoluta ; hi= Frecuencia relativa n i =1 i =1 La variable debe ser al menos de nivel de intervalo.

3.2.2. Ejemplos Ejemplo 1.


El nmero de hermanos de 6 alumnos son: 0, 2, 3, 1, 4, 1 La Media Aritmtica es : M(X)= X =(0+2+3+1+4+1)/6 = 11/6 = 1,83 hermanos Aunque la variable no admite valores fraccionarios, si los admite la Media Aritmtica. La interpretacin del resultado indica que su cada alumno tuviera 1,83 hermanos, entre todos renen tambin los 11 hermanos. (La Media Aritmtica es una medida que compensa los aportes, de modo que los valores altos reparten a los valores bajos para equilibrar los aportes de cada uno a la suma total).

Ejemplo 2. Empleando la tabulacin de las estaturas, realizada anteriormente: ALUMNOS SEGN ESTATURAS
ESTATURAS (cm) MARCA DE NMERO CLASE ALUMNOS FREC. RELATIVA

Linf - Lsup
116,0 - 125,0 125,1 - 134,0 134,1 - 143,0 143,1 - 152,0 152,1 - 161,0 161,1 - 170,0 170,1 - 179,0 TOTAL
n

(Xi)
120,5 129,5 138,5 147,5 156,5 165,5 174,5

(fi)
2 3 10 13 6 4 2

Xi fi
241,0 388,5 1.385,0 1.917,5 939,0 662,0 349,0 5.882,0

(hi) 0,050 0,075 0,250 0,325 0,150 0,100 0,050

Xi hi
6,03 9,71 34,63 47,94 23,48 16,55 8,73 147,07

40

1,000

M(X) = X = M(X) = X =

1 Xi fi = (5.882)/40 = 147,05 = 147,1 cm n i =1

Xihi
i =1

= 147,07 = 147,1 cm

Por lo tanto, la estatura media del grupo es 147,1 cm. Esto es (en teora) si cada alumno tuviera esa estatura, entre los 40 reuniran el mismo total de 5.882 cm que es la suma de todas las estaturas originales.

Ejemplo 3. Compruebe los resultados de los ejemplos anteriores empleando su calculadora.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 36

3.2.3. Propiedades de la Media Aritmtica


La Media Aritmtica tiene algunas propiedades interesantes, que pueden facilitar el clculo de la misma, o comprobar los resultados obtenidos. Prop. 1. La media aritmtica de una constante es igual a la constante:

M(c)=c

Esta propiedad seala que si todos los valores de los datos son iguales, la M.A. tambin tendr ese mismo valor. Por ejemplo, si un alumno tiene notas: 5, 5, 5, 5 la M.A. ser 5. Prop. 2. La media aritmtica de una suma de variables es igual a la suma de las medias aritmticas de las variables: M(X+Y) = M(X) + M(Y) Esta propiedad indica que si existe una variable tal que cada valor es la suma (o diferencia) de otros dos, la M.A. de la primera se puede obtener como suma (diferencia) de las M.A. de las partes de ese total. Por ejemplo, se tiene informacin de las horas extras trabajadas por dos secciones de una empresa (X e Y), durante cuatro semanas. El total de horas extras trabajadas en la empresa, durante ese perodo, es (T=X+Y):
Semana Horas extras seccin X Horas extras seccin Y Horas extras totales T=X+Y

1 2 3 4 Total
M.Aritmtica

30 20 80 50 180 X =180/4=45 h

40 10 20 10 80 Y =80/4=20 h

70 30 100 60 260 T =260/4=65 h

Prop. 3. La media aritmtica de una variable ms una constante es igual a la constante ms la media aritmtica de la variable: M(X + c)= M(X) + c Esta propiedad seala que si a cada valor de una variable se le suma (resta) una cantidad constante, entonces la M.A. de los valores modificados ser igual a la M.A. de los valores originales ms (menos) la constante. Por ejemplo, un grupo de personas tiene actualmente las edades que se indican (variable X). Dentro de 5 aos, cada uno tendr su edad actual ms 5 aos (variable Y=X+5). las M.A. resultantes se presentan en la tabla siguiente: Por lo tanto, Y =134/5=26,8 aos = X +5 Persona Matas Andrea Eduardo Alejandra Claudia Total M.Aritmtica Edad Actual X 10 26 28 20 25 109 X =109/5=21,8 aos Edad en 5 aos ms Y=X+5 15 31 33 25 30 134 Y =134/5=26,8 aos

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 37

Prop. 4. La Media Aritmtica de una variable por una constante es igual a la constante por la Media Aritmtica de la variable: M(c i X)= c i M(X) Esta propiedad seala lo que ocurre con la M.A. de un conjunto de valores si cada uno es multiplicado (dividido) por un valor constante. Como resultado se tiene que la M.A. de los datos originales resulta multiplicado (dividido) por la misma constante. Como ejemplo, consideremos los sueldos de un grupo de personas, los cuales son reajustados en el 10%. Por ejemplo, un sueldo de $100.000 aumentar en 10% (esto es $10.000) siendo el nuevo sueldo de $110.000.- esto es equivalente a multiplicar el sueldo original por el factor 1,1 (base 1 ms 10% o en decimal 0,1). En el ejemplo, (100.000)(1,1)=110.000 Persona Matas Andrea Eduardo Alejandra Claudia Total M.Aritmtica SUELDOS DE 5 PERSONAS (EN M$) Sueldo Reajustado Sueldo actual (M$) Reajuste Y=(1,1) i X X 0,1 i X 100 10,0 110,0 280 28,0 308,0 328 32,8 360,8 420 42,0 462,0 325 32,5 357,5 1.453 145,3 1.598,3 X =1453/5=290,6(M$) Y =1598,3/5=319,66 (M$)

Se aprecia que, Y =1598,3/5=319,66 (M$) = (1,1) i 290,6 = 1,1 i X Prop. 5. (Transformacin Lineal). Si la variable X sufre una transformacin lineal, entonces la media aritmtica de la variable transformada es: M(a i X+b)=a i M(X)+b En el ejemplo anterior, consideremos los sueldos de un grupo de personas, los cuales son reajustados en el 10% y adems tienen una bonificacin de $15.000. Por ejemplo, un sueldo de $100.000 aumentar en 10% (esto es $10.000) siendo el sueldo reajustado de $110.000.- Si se agrega la bonificacin, el sueldo final ser $125.000.-Esto es equivalente a multiplicar el sueldo original por el factor a=1,1 y al resultado agregarle b=15.000.Persona Matas Andrea Eduardo Alejandra Claudia Total M.Aritmtica SUELDOS DE 5 PERSONAS (EN M$) Sueldo actual (M$) Sueldo Reajustado Sueldo Reajustado ms bonificacin Y=(1,1) i X + 15 (M$) X (1,1) i X (M$) 100 110,0 125,0 280 308,0 323,0 328 360,8 375,8 420 462,0 477,0 325 357,5 372,5 1.453 1.598,3 1.673,3 319,66 (M$) X =290,6(M$) Y =1673,3/5=334,66 (M$)

Se aprecia que, Y =1673,5/5=334,66 (M$) = [(1,1) i 290,6 +15]= (1,1 i X +15) Prop. 6. (Media Ponderada). Si se tienen "k" muestras de tamaos n1, n2,...,nk y cuyas medias aritmticas son, respectivamente, X1, X 2 ,..., Xk entonces la media aritmtica del total de observaciones es:

X =

n1X1 +n2X2 ++nk Xk n1 +n2 +...+nk

Esta propiedad permite calcular la M.A. de un conjunto de observaciones conociendo la informacin de grupos que componen dicho conjunto. Como ejemplo, si se tiene informacin de los resultados de la aplicacin de un mismo test de conocimientos de Estadstica a tres cursos A, B y C como se muestras a continuacin. Interesa conocer la M.A. de los tres cursos en conjunto.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 38

CURSO A B C TOTAL

N Alumnos: ni 35 23 42 100

Media Aritm.: Xi 82 65 78

Productos: ni Xi 2.870 1.495 3.276 7.641 X =7641/100=76,41 ptos

La M.A. del conjunto de 100 alumnos es 76,41 puntos. Prop. 7. La suma de todos los desvos (diferencias) de los valores de la variable respecto de la media aritmtica es cero : (Xi X ) = 0
i =1 n

Esta es una importante propiedad de la M.A. motivada por el sentido distributivo que se indic para la M.A., motivo por el cual se producen diferencias positivas y negativas entre los valores de la variable y la M.A. los que se anulan. En el ejemplo sobre sueldos de 5 personas, se aprecia lo siguiente: SUELDOS DE 5 PERSONAS (EN M$) Persona Matas Andrea Eduardo Alejandra Claudia Total M.Aritmtica Sueldo (M$) X 100 280 328 420 325 1.453 X =1453/5=290,6(M$) Desvos Xi X 100-290,6 280-290,6 328-290,6 420-290,6 325-290,6
n

Desvos Xi X -190,6 -10,6 37,4 129,4 34,4 0

i =1

(Xi X ) = 0

3.3. FRACTILAS
Sea X una variable cuyos n valores se ordenan de modo que X1<X2<<Xn . Se define como Fractila de orden al valor de la variable cuya frecuencia relativa acumulada es igual a (siendo 0<<1) En general, es ms cmodo referirse a estas estadsticas en trminos de porcentajes, por lo tanto la Fractila de orden 0,30 corresponder al valor de la variable cuya frecuencia relativa acumulada es 0,30 (o cuyo porcentaje acumulado de frecuencias es del 30%). Lo anterior significa que la Fractila de orden 0,30 es el valor de la variable que supera al 30% de los datos (ordenados de menor a mayor) y es superado por el 70% de los mismos. Son importantes las Fractilas asociados con los valores de frecuencias relativas de 0,25 (llamada Primer Cuartil), de 0,50 (Mediana) y de 0,75 (Tercer Cuartil), que se denominan genricamente "Cuartiles" as como las asociadas a los valores de 0,01 a 0,99 que se denominan genricamente "Percentiles". A continuacin se har mencin a estas estadsticas.

3.4. MEDIANA (Me) 3.4.1. Definicin


Sea X una variable cuyos n valores se ordenan de modo que X1<X2<<Xn. Se define como Mediana a aquel valor de la variable cuya frecuencia relativa acumulada es igual a 0,5 ( o cuyo porcentaje acumulado de frecuencias es del 50%, o cuya frecuencia absoluta acumulada es igual a 0,5 i n). La variable debe ser al menos de nivel ordinal.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 39

3.4.2. Determinacin en Datos no Tabulados


Ordenando los datos de menor a mayor, la Mediana corresponde al valor que ocupa el lugar central. Si hay un nmero impar de datos, la Mediana es el que ocupa el lugar central. Por ejemplo: si los datos son las edades siguientes (en aos): 2, 3, 5, 8, 3, 6, 9, 1, 9. Luego de ordenados se tienen los valores: 1, 2, 3, 3, 5, 6, 8, 9, 9. Por lo tanto, la Mediana corresponde al valor central, o sea Me=5 aos. Si hay un nmero par de datos, la Mediana se define como la media aritmtica de los dos valores centrales.

Ejemplo: Para las edades siguientes (en aos) 2 3 5 8 3 6 9 1 9 8, determinar la Mediana. Luego de ordenados se tienen los valores 1 2 3 3 5 6 8 8 9 9 ; luego la Mediana es la media aritmtica de los valores centrales 5 y 6, esto es Me=(5+6)/2 = 5,5 aos. 3.4.3. Determinacin Empleando Ojiva
Siendo la Mediana el valor de la variable asociado a la Frecuencia Absoluta Acumulada igual a n/2 ( o a la Frecuencia Relativa Acumulada de 0,5 50%), para determinarla, en el eje Y, se ubica la Frecuencia Absoluta Acumulada de n/2. Por eses punto, se traza una paralela al eje X hasta intersecar la ojiva. Por el punto de interseccin se traza una paralela al eje Y hasta intersecar el eje X. Este ltimo punto define el valor de la Mediana (ver grfico de Ojiva, en tabulacin)

3.4.4. Determinacin con Datos Tabulados (TABLA DE FRECUENCIAS)


Se trata de interpolar el valor de la variable correspondiente a Fi=0,5n ( Hi=0,5) . El procedimiento es el siguiente, empleando la tabla de frecuencias: a) Ubicar el primer intervalo cuya frecuencia absoluta acumulada Fj es igual o mayor a (0,5n). b) Dicho intervalo se denominar "Intervalo de la Mediana" y se denota como "intervalo j-simo" Linf = Lmite inferior del intervalo de la Mediana Sea: C j = Amplitud del intervalo de la Mediana;

n j = Frecuencia absoluta del intervalo de la Mediana;


Fj 1 = Frec. absoluta acumulada del intervalo anterior al de la Mediana.

c)

La Mediana se determina como:

Me = Linf +
d)

C j (0,5n Fj 1 ) fj

En forma anloga, se pueden emplear frecuencias relativas acumuladas o % acum.

Ejemplo:
Para los datos sobre estaturas de 40 alumnos, la determinacin de la Mediana se realiza as: a) Siendo n/2 = 40/2 = 20 alumnos, se ubica en la columna de Frec. Abs. Acumuladas el primer valor que supera a 20, resultando ser 28. Por lo tanto, el cuarto intervalo (j=4) de 143 cm a 152 cm es el Intervalo de la Mediana. b) Valorizando los distintos elementos que contiene la expresin de la Mediana, se tiene que: cj = 9 cm ( =152 -143); Linf = 143 cm ; fj = 13 ; Fj-1 = 15 c) El valor de la Mediana es:
M e = L in f +
C j ( 0 ,5 n F j 1 ) fj

= 143 +

9(2 0 1 5 ) = 1 4 3 + 3, 4 = 1 4 6, 4 c m 13

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 40

ALUMNOS SEGN ESTATURAS


ESTATURAS (cm)
Linf - Lsup :Variable)

N ALUMNOS
fi:Frec. Absol.

N ALUMNOS
Fi :Frec. Absol. acum..

116,0 - 125,0 125,1 - 134,0 134,1 - 143,0 Linf =143,1 - 152,0 152,1 - 161,0 161,1 - 170,0 170,1 - 179,0 TOTAL

2 3 10 13 = fj 6 4 2 40 = n

2 5 15 = Fj-1 28 = Fj 34 38 40

Intervalo (j) de la Mediana

3.4.5. Determinacin Mediante Interpolacin (OPCION LR DE CALCULADORA)


Se trata de interpolar en el "intervalo de la Mediana" como se defini antes. El procedimiento es: a) b) Seleccione opcin LR (Regresin Lineal) en calculadora y limpie las memorias. Determinar "intervalo de la Mediana", esto es, el primer intervalo cuya frecuencia absoluta acumulada Fj es igual o mayor a (0,5n). En el ejemplo de estaturas de 40 alumnos es el intervalo 143 a 152 cm. c) d) Ingrese puntos (Linf; Fj-1) y (Lsup; Fj) del intervalo de la Mediana. En el ejemplo anterior, ingresar (143; 15) y (152; 28) Ingresar valor de Y (frecuencia acumulada) tal que Y=(0,5n) y obtener el valor de la variable ). Este valor es la estimacin de la Mediana (Me). estimado ( X = 146,4 cm = Mediana En el ejemplo, ingresar Y= 20 se obtiene que X

3.5. GRFICO DE "CAJA" O "CAJN CON BIGOTES" (box and whisker plot)
ESTATURAS DE ALUMNOS
190 180 170 160 150 140 130 120 110
N= 40

Para graficar la Mediana y los Cuartiles de una distribucin se emplea el grfico de "Caja" (creado por J.Tukey). Consiste en un rectngulo cuyos extremos representan los cuartiles y en cuyo interior se representa la Mediana, como un trazo que divide el cajn. Se dibujan trazos perpendiculares en cada extremo de la caja para representar el recorrido de los datos. Existen diversas variantes. Este grfico de la distribucin, permite apreciar estadsticas de posicin (Mediana, en la lnea que divide el cajn, y extremos que son los Cuartiles), simetra (segn si mitades del cajn son iguales o no) y dispersin (segn la extensin del cajn, que es el recorrido intercuartlico).

ESTATURA

El grfico del ejemplo anterior est realizado con SPSS. Otros software estadsticos tambin pueden realizarlo. Con EXCEL puede realizarse una aproximacin, empleando los Grficos de Cotizaciones, segunda opcin. Ah se presenta esta alternativa. Requiere cuatro valores en el orden siguiente: Primer Cuartil (Apertura), Mximo de los Datos (Mximo), Mnimo de los Datos (Mnimo) y Primer Cuartil (Cierre). En parntesis se indica el nombre asignado por EXCEL para identificar esos valores. No aparece la lnea de la Mediana.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 41

3.6. PERCENTILES Y PUNTOS CENTILES (P()) 3.6.1. Definicin


Los percentiles son fractilas en las cuales las frecuencias relativas acumuladas se expresan en centsimos desde 0,01 a 0,99 Por comodidad, los percentiles se expresan en porcentajes. Se denota como " P () " y se denomina "Percentil (100)" o "Punto centil (100)" a aquel valor de la variable cuyo porcentaje acumulado de frecuencias es (100)% (siendo 0<<1 ) As, el "Percentil 25", representado por P(0,25) o Q1 corresponde al valor de la variable cuya Frecuencia Relativa Acumulada es 0,25 o cuyo porcentaje acumulado de frecuencias es 25%. Corresponde al valor de la variable que supera al 25% de los datos y es superado por el 75% de los datos (Este valor se denomina "Primer Cuartil"). Anlogamente, el "Percentil 75", representado por P(0,75) o Q3 corresponde al valor de la variable cuya Frecuencia Relativa Acumulada es 0,75 o cuyo porcentaje acumulado de frecuencias es 75%. Corresponde al valor de la variable que supera al 75% de los datos y es superado por el 25% (Este valor se denomina "Tercer Cuartil"). El "Percentil 50" es la Mediana.

3.6.2. Determinacin Para Datos No Tabulados


Si los datos no estn tabulados se puede determinar el percentil asociado con cualquiera de ellos, luego de ordenarlos, calculando el % de datos a los que es igual o superior. Por ejemplo, si los datos (luego de ordenados) son: 2, 3, 3, 3, 5, 5, 7, 7, 9, 9 entonces los Percentiles asociados son: para el valor 2 es el P(0,1); para 3 es el P(0,4); para 5 es P(0,6); para 7 es el P(0,8) y para 9 es el P(1,0).

3.6.3. Determinacin para Datos Tabulados


La determinacin de un percentil cualquiera P() se realiza en forma anloga a lo indicado para la Mediana. As, en las definiciones sealadas, se reemplaza 0,5n por (n), la expresin "intervalo de la Mediana" por "intervalo del percentil (100)". La frmula de interpolacin es:

P () = Linf +

C j (n Fj 1 ) fj

Ejemplo (Determinacin del Percentil 25 P(0,25) que es el Primer Cuartil)


Para los datos sobre estaturas de 40 alumnos, la determinacin del Percentil 25 (o Primer Cuartil) se realiza as:

ALUMNOS SEGN ESTATURAS


ESTATURAS (cm)
Linf - Lsup : Variable

N ALUMNOS
fi :Frec. Absol.

N ALUMNOS
Fi: Frec. Absol. acum..

116,0 - 125,0 125,1 - 134,0 Linf =134,1 - 143,0 143,1 - 152,0 152,1 - 161,0 161,1 - 170,0 170,1 - 179,0 TOTAL

2 3 10 = fj 13 6 4 2 40 = n

2 5= Fj-1 15 = Fj 28 34 38 40

Intervalo (j) del Percentil 25

a) Siendo n/4 = 40/4= 10 alumnos, se ubica en la columna de Frec. Abs. Acumuladas el primer valor que supera a 15, resultando ser 28. Por lo tanto, el cuarto intervalo (j=3) de 134 cm a143 cm es el Intervalo del Percentil 25 o Primer Cuartil.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 42

b) Valorizando los distintos elementos que contiene la expresin del percentil, se tiene que: cj = 9 cm ( =143 -134); Linf = 134 cm ; fj = 13 ; Fj-1 = 15 c) El valor del Primer Cuartil es:
P (0, 2 5 ) = L in f +
C j ( 0,2 5 n F j 1 ) fj

= 134 +

9(1 0 5 ) = 1 3 4 + 4, 5 = 1 3 8, 5 c m 10

3.6.4. Determinacin Mediante Interpolacin (OPCION LR DE CALCULADORA)


Se trata de interpolar en el "intervalo del Percentil " como se defini antes. El procedimiento es: a) b) Seleccione opcin LR (Regresin Lineal) en calculadora y limpie las memorias. Determinar "intervalo del Percentil ", esto es, el primer intervalo cuya frecuencia absoluta acumulada Fj es igual o mayor a (n). En el ejemplo de estaturas de 40 alumnos, el Intervalo del Percentil 25 es el intervalo 134 a 143 cm. c) d) Ingrese puntos (Linf; Fj-1) y (Lsup; Fj) del intervalo de la Mediana. En el ejemplo anterior, ingresar (134; 5) y (143; 15)

Ingresar valor de Y (frecuencia acumulada) tal que Y=(0,5n) y obtener el valor de la variable ). Este valor es la estimacin de la Mediana (Me). estimado ( X = 138,5 cm = Percentil 25 = P(0,25) En el ejemplo, ingresar Y= 10 se obtiene X

3.6.5. Percentil asociado con un valor de la variable


A partir de la expresin anterior para estimar el valor de la variable que corresponde a un percentil, se puede estimar el porcentaje de datos a los que supera un determinado valor de la variable, (denominado X), esto corresponde al percentil asociado con dicho valor de la variable Para realizar la estimacin, se definen los elementos del intervalo al que pertenece el valor de la variable X (como se hizo para la Mediana), en la expresin anterior se reemplaza P() por X y se despeja n en la expresin anterior, para finalmente despejar . El resultado es:

=
Ejemplo

1 + F n j 1

f j (X Linf ) cj

En los datos de estaturas de los 40 estudiantes, determinar cual es el percentil asociado con la estatura X= 162 cm La estatura X=162 pertenece al intervalo 161-170. Por lo tanto los valores de los trminos de la frmula, obtenidos de la tabla de frecuencias de las estaturas, son: N=40; Linf= 161 ; Cj=9 ; fj= 4; Fj-1=34 . Reemplazando en expresin anterior se obtiene:

4(162161) 1 34 + 40 9

4(1) 1 34 + 9 40

1 [ 34,44 ] = 40

0,86

Por lo tanto, la estatura 162 cm corresponde al Percentil 86. La interpretacin del resultado natrior es as: un aluno con una estatura de 162 cm supera, en estatura, al 86% del grupo o sea a 35 alumnos app. (40*0,86=34,4 =35 alumnos). Cmo podra comprobarse la calidad de esta estimacin?. Esto es, en que medida esta prediccin es correcta o precisa.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 43

3.7. MODA (Mo) 3.7.1. Definicin


La Moda es el valor de la variable que ms se repite (corresponde a un "mximo relativo" de la distribucin). Se requiere que la variable sea al menos de nivel nominal.

3.7.2. Estimacin
Si los datos no estn tabulados la Moda correspondera al valor de la variable con mayor frecuencia relativa. Sin embargo, puede no tener sentido su determinacin en estos casos, especialmente si hay pocas repeticiones de los valores de la variable. Si los datos estn tabulados, puede estimarse la Moda como la marca de clase del intervalo que tiene la mayor frecuencia (absoluta o relativa). En el ejemplo, correspondera a Mo = 147,5 cm. Existen frmulas para estimar la Moda que consideran las frecuencias del intervalo que tiene la mayor frecuencia absoluta (o relativa o %), la que se denomina fj . Tambin se considera la frecuencia absoluta del intervalo anterior fj1 y del siguiente fj+1 al de mayor frecuencia. Una frmula para estimar la Moda es:

Mo = Linf + (f f j
j

C ( f j f j 1 ) ;otra es: j 1 )+( f j f j +1 )

Mo = Linf + (f

C j ( f j +1 )
j +1 )+( f j 1 )

Ejemplo: En el ejercicio sobre estaturas de 40 alumnos


M o = L in f +
C j ( f j f j 1 ) ( f j f j 1 )+ ( f j f j + 1 )

= 143 +

9 (1 3 1 0 ) 27 = 143 + = 1 4 3 + 2, 7 = 1 4 5, 7 c m (1 3 1 0 ) + (1 3 6 ) 3+ 7
9 (6 ) 54 = 143 + = 1 4 3 + 3, 3 7 = 1 4 6, 4 cm 6 + 10 16

M o = Lin f +

C j (f j +1 ) ( f j + 1 )+ ( f j 1 )

= 143 +

ALUMNOS SEGN ESTATURAS


ESTATURAS (cm)
Linf - Lsup :Variable

Marca de clase

N ALUMNOS

fi

Frec. Absol.

116,0 - 125,0 125,1 - 134,0 134,1 - 143,0 Linf =143,1 - 152,0 152,1 - 161,0 161,1 - 170,0 170,1 - 179,0 TOTAL

120,5 129,5 138,5 147,5 156,5 165,5 174,5

2 3 10= fj-1 13 = fj 6= fj+1 4 2 40 = n

Intervalo (j) con frecuencia mayor

3.7.3. Observacin
Una distribucin puede tener ms de una Moda relativa, caracterizada por intervalos con frecuencias mayores a las de los intervalos anterior y siguiente. En el ejemplo siguiente se aprecian 4 Modas.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 44

3.8. CENTRO DEL RECORRIDO 3.8.1. Definicin


Es el valor correspondiente a la media aritmtica entre la observacin mayor y menor de una variable: CR= ( XMAX + XMIN)/2

3.9. COMPARACIN DE LA MEDIA ARITMTICA, LA MEDIANA Y LA MODA


Las siguientes son algunas caractersticas de la Media Aritmtica, la Mediana y la Moda: a) b) c) d) e) f) g) h) La Media aritmtica es apropiada para variables de nivel intervalar al menos, la Mediana para nivel ordinal y la Moda para cualquier nivel. La Media Aritmtica es afectada por los valores extremos de los datos. La Mediana puede ser determinada si se desconocen algunos datos (por ejemplo, los extremos), siempre que se conozca la ubicacin relativa que tendran. Si la distribucin de la variable es simtrica coinciden las tres estadsticas. Si la distribucin es asimtrica positiva (cola derecha ms larga) entonces Mo<Me< X Si la distribucin es asimtrica negativa (cola izquierda ms larga) ser: X <Me<Mo. Si la variable X sufre una transformacin lineal, esto es , se transforma en la variable , tal que Y=aX+b (siendo a y b constantes) entonces las tres estadsticas sufren la misma transformacin. Las tres estadsticas son complementarias; ellas suministran diferente tipo de informacin. La siguiente tabla, que compara las caractersticas ms relevantes de la Media Aritmtica, Mediana y Moda, est adaptada de la que es presentada en el texto de Hopkins, K. D., Hopkins, B.R. y Glass, G. V. (1997) Estadstica Bsica para las Ciencias del Comportamiento. Mxico: Prentice-Hall Hisp.
MEDIA ARIT. MEDIA-NA MODA

CARACTERISTICA 1. Ms confiable (en distribuciones normales y muchas de tipo emprico) 2. Menos confiable 3. Requiere slo escalas nominales 4. Requiere slo observaciones clasificadas (ordenadas) 5. Punto debajo del cual y arriba cae la mitad de las observaciones 6. Centro de gravedad de una distribucin 7. Influye en ella el valor especfico de cada observacin 8. Tienen el mismo valor en una distribucin simtrica 9. Tienen el mismo valor en una distribucin normal 10. Tendr el valor mayor en una distribucin sesgada positivamente 11. Tendr el valor mayor en una distribucin sesgada negativamente 12. Su valor no es ni mayor ni menor en distribuciones asimtricas 13. Su definicin permite un mejor tratamiento algebraico 14. Se emplea ms ampliamente en mtodos estadsticos avanzados 15. Puede estimarse grficamente en la ojiva 16. Puede estimarse rpidamente en histogramas o polgonos de frec. 17. Es preferible para variables continuas con un fin descriptivo 18. Es igual a P(0,50) y Q2 19. Requiere conocer el valor de cada observacin 20. Requiere conocer n observaciones y valores centrales de stas

X X X X X X X X X X X X X X X X X X X X X

X X

3.10. UBICACIN DE ESTADISTICAS DE POSICIN EN GRFICOS


Las estadsticas de posicin se pueden ubicar en los grficos Histograma, Polgono de Frecuencias y Ojiva como puntos en el eje de valores de la variable, dado que estas estadsticas corresponden a valores de la variable. En el Polgono de Frecuencias de los datos de estaturas se presentan la ubicacin aproximada de la Media Aritmtica (146,b cm), la Mediana (146,0 cm) y la Moda (145,7 cm). En este grfico, la Media Aritmtica correspondera al punto de equilibrio de la distribucin, La Mediana se asocia al eje que dividira la distribucin en dos reas equivalentes (50% de frecuencias en cada una) y la

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 45

Moda es posible asociarla con el punto en que la figura tiene su frecuencia mxima (mayor apuntamiento en la figura).
ESTATURAS DE 40 ALUMNOS (EN CM)

14 12 10
ALUMNOS

8 6 4 2 0
102,5 111,5 120,5 129,5 138,5 147,5 156,5 165,5 174,5 183,5 192,5
ESTATURA (CM) Media Arit:. 146,8 Mediana: 146,0 Moda: 145,7

En la Ojiva se puede ubicar fcilmente la Mediana, Cuartiles o Percentiles en el eje de la variable dado que estas estadsticas estn asociadas con fracciones especficas de frecuencias acumuladas: 50% para la Mediana; 25% y 75% para Cuartiles, etc. Ver el punto 2.5.5 Empleo de la Ojiva para determinar Mediana y Cuartiles.

3.11. EJERCICIOS
1. 2. 3. Calcule las estadsticas de posicin para el Ejercicio N2 (para desarrollar de Tabulacin) para el total y para cada edad, 14 y 16 aos. Compare resultados. Calcule estadsticas bsica para los datos de Ejercicios para Desarrollar (de Tabulacin) nmeros 3, 4, 6, 7, 8, 9 y 10. Comente resultados de cada ejercicio. El grfico siguiente presenta los resultados obtenidos por 20 personas en un test de conocimientos de Estadstica. Estime (si es posible) la o las estadsticas o valores siguientes: 1. Nmero de personas que tienen puntajes entre 22 y 53 puntos 2. Media aritmtica 3. Mediana 4. Moda
p e rs o n a s
20

15

10

10

20

30

4 0

50 P u n ta je s

60

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 46

4. El grfico siguiente (realizado con SPSS), presenta las estaturas de tres grupos de estudiantes (en cm). Los puntos indican valores extremos. Los valores en los rtulos de grupo corresponden al nmero de observaciones da cada uno (40 en Grupo A, 32 en Grupo B y 35 en Grupo C) a) Identifique el tipo de grfico b) Estime los valores de las estadsticas presentadas. c) Compare los grupos respecto a sus estadsticas de posicin. Escriba un informe.

ESTATURAS DE ESTUDIANTES
200 190 180 170

ESTATURA

160 150 140 130 120 110 100


N= 40 32 35

GRUPO A

GRUPO B

GRUPO C

GRUPO

5. Vea otros ejercicios sobre Est. de Posicin en los ejercicios de Estadsticas de Dispersin

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 47

4. ESTADSTICAS DE DISPERSIN 4.1. VARIANZA (2, S2 ) 4.1.1. Definiciones


Sea una variable X cuyos valores son X1, X2,...,Xn. Se define como Varianza a la media aritmtica de los desvos, al cuadrado, de los valores de la variable respecto de la media aritmtica de la misma. 1 n V(X)= 2 = (Xi X )2 (Varianza Poblacional) n i =1 n 1 V(X)= S2 = (Xi X )2 (Varianza Muestral) (n 1) i =1

4.1.2. Ejemplos de clculo a) Datos no tabulados Se tiene informacin sobre ingresos de 5 personas. La varianza se calcula as:
SUELDOS DE 5 PERSONAS (EN M$) Persona Matas Andrea Eduardo Alejandra Claudia Total Sueldo (M$) X 100 280 328 420 325 1.453 X =290,6(M$) Desvos Xi X 100-290,6 280-290,6 328-290,6 420-290,6 325-290,6
n

Desvos Xi X -190,6 -10,6 37,4 129,4 34,4 0


i =1

(Desvos)2 (Xi X )2 36.328,36 112,36 1.398,76 16.744,36 1.183,36 55.767,20

(Xi X ) = 0

55.767, 2 = 11.153, 4 ( M $) 2 5 55.767, 2 La varianza muestral es S 2 = = 13.941,8 ( M $) 2 4

La varianza poblacional es: 2 =

b) Datos tabulados (Ejemplo de estaturas del apunte)


ESTATURAS (cm)
MARCA DE CLASE NMERO ALUMNOS FREC. RELATIVA Desvios Xi-147,05

Desvios

(Desvos)2fi (Xi-147,05)2fi

(Desvos)2hi (Xi-147,05)2hi

Linf - Lsup
-

(Xi)
120,5 129,5 138,5 147,5 156,5 165,5 174,5

(fi)
2 3 10 13 6 4 2 40

(hi) 0,050 0,075 0,250 0,325 0,150 0,100 0,050 1,00

(Xi-147,05)2

116,0 125,1 134,1 143,1 152,1 161,1 170,1

125,0 134,0 143,0 152,0 161,0 170,0 179,0

-26,550 -17,550 -8,550 0,450 9,450 18,450 27,450 3,150

704,90 308,00 73,10 0,20 89,30 340,40 753,50 2.269,42

1409,81 924,01 731,03 2,63 535,81 1361,61 1507,01 6.471,90

35,25 23,10 18,28 0,07 13,40 34,04 37,68 161,80

TOTAL

6.471, 9 = 161,8 cm 2 40 6.471,9 Varianza muestral: S 2 = = 165,95 cm 2 39

Varianza Poblacional: 2 =

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 48

4.1.3. Propiedades
Prop. 1: La varianza se expresa en el cuadrado de la unidad de la variable. Prop. 2: El valor de la varianza es mayor o igual a cero. Prop. 3: La varianza de una constante es igual a cero: V(c) = 0

Prop. 4: La varianza de una suma de variables independientes es igual a la suma de las varianzas de las variables: V(X+Y) = V(X)+V(Y) Prop. 5: La varianza de una variable ms una constante es igual a la varianza de la variable: V(X+c) = V(X)

Ejemplo: Se emplearn datos del ejemplo de esta propiedad para la Media Aritmtica, sobre edades de 5 personas:
Persona Edad Actual X
Edad en 5 aos ms

Desvos X (Xi-21,8)

Desvos X (Xi-21,8)
2

Desvos Y (Yi-26,8)

Desvos Y (Yi-26,8)
2

Y=X+5

Matas Andrea Eduardo Alejandra Claudia Total

10 15 26 31 28 33 20 25 25 30 109 134 X= 21,8 aos Y= 26,8 aos

-11,8 4,2 6,2 -1,8 3,2 0,00

139,24 17,64 38,44 3,24 10,24 208,8 2 2 X = 52,2 aos

-11,8 4,2 6,2 -1,8 3,2 0,00

139,24 17,64 38,44 3,24 10,24 208,8 2 2 Y = 52,2 aos

Prop. 6: La varianza de una variable por una constante es igual a la constante al cuadrado por la varianza de la variable: V(cX) = c2V(X)

Ejemplo: Se emplearn datos del ejemplo de esta propiedad para la Media Aritmtica, sobre sueldos de 5 personas:
Sueldo actual (M$) X Sueldo Reajustado Y=(1,1)X

Persona

Reajuste

Desvos X (Xi-290,6)

Desvos X (Xi-290,6)
2

Desvos Y (Yi-319,66)

Desvos Y (Yi-319,66)
2

0,1X

Matas Andrea Eduardo Alejandr Claudia Total

100 280 328 420 325 1.453 X =290,6(M$)

10,0 28,0 32,8 42,0 32,5 145,3

110,0 308,0 360,8 462,0 357,5 1.598,3 Y=319,66 (M$)

-190,6 -10,6 37,4 129,4 34,4 0,00


2 X=

36.328,36 112,36 1.398,76 16.744,36 1.183,36 55.767,20


11.153,44(M$)2

-209,66 -11,66 41,14 142,34 37,84 0,00


2 Y=

43.957,32 135,96 1.692,50 20.260,68 1.431,87 67.478,31


13.495,66(M$)2

2 2 2 = (1,1)2 X = 1,21X Se verifica que Y pues

2 Y = (1,1)2 (11.153, 44) = (1,21)(11.153, 44) = 13.495, 66

Prop. 7: Las propiedades anteriores se resumen en que si la variable X sufre una transformacin lineal, entonces la varianza de la variable transformada es: V( aX+b) = a2V(X)

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 49

Prop. 8. (Varianza ponderada). Si se tienen "k" muestras de tamaos n1, n2,...,nk y cuyas medias aritmticas son, respectivamente, X1, X 2 ,..., Xk y cuyas varianzas poblacionales son respectivamente 21, 22,, 2k entonces la media aritmtica del total de observaciones es: n2X 2 ++nk Xk 1 2 2 X = n1X1n+ y la varianza poblacional es: 2 = n + (X i X ) ni i i + n + + n ... i i 1 2 k n Si se conocen las varianzas muestrales, S21, S22,, S2k de cada muestra, entonces la varianza muestral del conjunto de observaciones es: 1 S2 = { (n 1)Si2 + i (Xi X )2 ni } (n 1) i i

Ejemplo: Se dispone de informacin sobre estaturas y varianzas muestrales de tres grupos de estudiantes. Se desea estimar la estatura media ( X ) y la varianza ( S 2 )del conjunto completo de alumnos (107 casos).
Alumnos MEDIA (cm) ( ni ) Xi VARIANZA Muestral (cm2)

GRUPO

Si2

ni X i

(ni 1)Si2

(Xi X)

(Xi X)2ni

Grupo A Grupo B Grupo C TOTAL

40 32 35 n=107

146,78 126,13 161,14 X = 145,30

177,92 291,79 152,36 2 S = 394,28

5.871,20 4.036,16 5.639,90 15.547,26

6.938,88 9.045,49 5.180,24 21.164,61

1,48 -19,17 15,84 -1,85

87,44 11.761,48 8.780,04 20.628,96

La estatura media del grupo total de n=107 alumnos es igual a: 15.547, 26 1 +n2X 2 +nk X k X = n1X = = 145, 30cm n1 +n2 +...+nk 107 La varianza muestral del grupo completo es igual a: 1 1 1 S2 = { (n 1)Si2 + i (Xi X)2ni } = 106 (21.164,61 + 20.628,96) = 106 (41.793,57) = 394,28 cm2 (n 1) i i

4.2. DESVIACIN ESTNDAR (; S) 4.2.1. Definicin


La Desviacin Estndar es la raz cuadrada positiva de la varianza.

4.2.2. Ejemplos a) Datos no tabulados


En ejemplo de varianza para datos no tabulados, 2 = 11.153,44(M$)2 Por lo tanto la desviacin estndar poblacional es = 2 =
11.153, 44 = 105,61 M$.

En forma anloga, siendo la varianza muestral S2 = 13.941,8 (M$)2. Entonces, la desviacin estndar muestral es S= 118,08 M$

b) Datos tabulados (Ejemplo de tabulacin estaturas de 40 alumnos)


La varianza poblacional es 2 =161,8 cm2, luego la desviacin estndar poblacional es igual a = 161,8 = 12,72 cm. La varianza muestral es S2 = 165,95 cm2, por lo tanto la desviacin estndar muestral corresponde a S= 165,95 = 12,88 cm.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 50

4.2.3. Propiedades
Prop. 1: La desviacin estndar se expresa en la misma unidad de la variable. Prop. 2: El valor de la desviacin estndar es mayor o igual a cero. Prop. 3: Si la variable X tiene desviacin estndar (X) y si esta variable experimenta una transformacin lineal, Y=aX+b entonces la desviacin estndar de la variable transformada es: (aX+b) = a(X)

4.2.3. Clculo con calculadora


La calculadora entrega el valor de la desviacin estndar poblacional (xn) o de la desviacin estndar muestral (x(n-1)) directamente.

4.3. RECORRIDO Y RECORRIDO INTERCUARTLICO 4.3.1. Definiciones


El "Recorrido" es la diferencia entre el mayor y el menor valor de una variable. Rec= XMAX - XMIN El "Recorrido intercuartlico" es la diferencia entre el tercer y primer cuartil. Ric = P(0,75) P(0,25) = Q3 Q1

Ejemplo: Para la distribucin de estaturas, el recorrido es Rec=178 - 116=62 cm Y el Recorrido Intercuartlico es Ric= 155,0 138,5 = 16,5 cm 4.3.2. Propiedades
a) El recorrido indica la cantidad de unidades de variable que separan las observaciones extremas de toda la distribucin, mientras que el recorrido Intercuartlico seala la cantidad de unidades que separa las observaciones que comprenden al 50% central de las mismas. Las dos medidas de variabilidad anteriores son fciles de calcular. Ambas no toman en cuenta los valores particulares de los datos de la distribucin. El recorrido es muy influenciado por la existencia de observaciones extremas. El recorrido intercuartlico es menos influenciado por los valores extremos.

b) c) d)

4.4. COEFICIENTE DE VARIACIN 4.4.1. Definicin


Es el cuociente entre la desviacin estndar y la media aritmtica de una distribucin. (CV= Para una poblacin, corresponde a CV=

S ) X

(=Esperanza o media aritmtica poblacional)

Ejemplo: Para la distribucin de estaturas, del ejemplo de Tabulacin, considerndola como una muestra, el
Coeficiente de Variacin es: CV=

1 2, 8 8 S = =0,0876 (o se expresa como 8,8%) X 1 4 7, 0 5

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 51

4.4.2. Propiedades
a) b) Es una medida de variabilidad relativa, mide la dispersin en unidades de media aritmtica. Se expresa en nmeros absolutos, sin unidades. Esto permite comparar CV de diversas distribuciones de variables expresadas en diversas unidades.

4.5. ERROR TPICO (O DE MUESTREO) Y ERROR DE ESTIMACIN (d)


El Error Tpico (o de Muestreo) de la Media se define como la Desviacin Estndar dividida por la raz S cuadrada del nmero de observaciones. E .T . = n Es una medida de variabilidad corregida por el tamao de la muestra. Se emplea para realizar estimaciones de la Media Poblacional. El Error de Estimacin (de la Media) se define como el error tpico multiplicado por un coeficiente asociado con la distribucin de los datos (Distribucin Normal o Distribucin t) tS d= n Tanto el Error Tpico como el Error de Estimacin (con el nombre de Nivel de Confianza), as como otras estadsticas, son entregadas por el software EXCEL en el procedimiento de Estadstica Descriptiva, de las Herramientas de Anlisis.

Ejemplo.
12, 88 12, 88 S = = =2,04 cm 6, 32 n 40 El error de estimacin es, considerando t=2 , d=2.(2,04)=4,08 cm

Para la distribucin de estaturas se tiene que: E .T . =

4.6. GRFICOS 4.6.1. Grfico de Media Aritmtica y Desv. Estndar


Se puede representar grficamente la Media Aritmtica y la Desviacin estndar mediante un grfico de trazos, horizontales o verticales, que representan intervalos. Para ello se ubica el punto que corresponde a la Media Aritmtica y que ser el centro del intervalo. A ese valor se le suma la Desviacin Estndar, lo que define el punto mayor del intervalo. A la Media Aritmtica se le resta la Desviacin Estndar y esa diferencia define el extremo inferior del intervalo. En resumen, los tres valores que definen el trazo representativo de una variable son: (Media Arit.+ Desv. Est.) ; (Media Arit.); (Media Arit.- Desv. Est.) Estos grficos de trazos son una excelente manera de representar Medias y Desviaciones Estndar de distintas muestras y poder comparar las caractersticas de posicin y dispersin de las distribuciones representadas. Los software estadsticos permiten representar trazos definidos con diversas medidas definir los extremos de los mismos. As, en vez de emplear la Desviacin Estndar, se puede emplear el Error Estndar para realizar este grfico. (Media Arit.+ Error Tpico) ; (Media Arit.); (Media Arit.- Error Tpico) Ejemplos: A continuacin se presentan los grficos (realizados con SPSS) de las estaturas de tres grupos de estudiantes, que se emplearon en la estimacin de la Varianza Ponderada. Tambin se puede emplear Excel para realizar estos grficos, con algunas limitaciones. Ms adelante, en un ejemplo de anlisis con Excel se indicar como se realizan los grficos

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 52

ESTATURAS DE TRES GRUPOS ALUMNOS Grfico de Media +- Desviacin Tpica)


180

ESTATURAS DE TRES GRUPOS ALUMNOS Grfico de Media +- Error Tpico)


170

160

ESTATURA (cm)

ESTATURA (cm)

160

150

140

140

120

130

120

100
N= 40 32 35

N=

40

32

35

GRUPO A

GRUPO B

GRUPO C

GRUPO A

GRUPO B

GRUPO C

4.6.2. Grfico de Media Aritmtica y Error de Estimacin


Si se emplea el Error de Estimacin, en vez de la Desviacin Estndar, el trazo definido por los puntos: (Media Arit.+Error de Estimacin); (Media Arit.); (Media Arit.-Error de Estimacin)

ESTATURAS DE TRES GRUPOS ALUMNOS Grfico Media +- Error de Estimac. de Media)


(Interv. de Confianza del 95% para Media)
170 160

ESTATURA (cm)

150 140 130 120 110


N= 40 32 35

GRUPO A

GRUPO B

GRUPO C

Este grfico se emplea en Inferencia, en el tema de Estimacin de parmetros poblacionales mediante Intervalos de Confianza construidos a partir de muestras tomadas de poblaciones. El intervalo definido por los puntos extremos anteriores tiene la propiedad de contener el conjunto de valores entre los cuales se espera se encuentre el verdadero valor de la Media Poblacional, esto es el promedio de la poblacin que est siendo estimada mediante la Media Aritmtica de la muestra seleccionada de dicha poblacin y que se emplea para definir el centro del intervalo respectivo. Si se representan varias muestras de poblaciones diversas mediante el grfico de trazos de medias y errores de estimacin, pueden realizarse inferencias acerca de las Medias Poblacionales respectivas. As, si dos trazos se superponen, esto es tienen algn punto comn, ello se interpreta en el sentido que las Medias Poblacionales respectivas son iguales (con un cierto nivel de seguridad controlado). En el ejemplo anterior, si los grupos corresponden a muestras de poblaciones, puede afirmarse entonces (con 95% de confianza), que la estatura media del Grupo C es mayor (significativamente, se dice) que la estatura media de los otros grupos. A su vez, la estatura media del grupo A es mayor (significativamente) que la estatura media del grupo B.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 53

4.7. ESTADSTICAS DE RESUMEN CON EXCEL 4.7.1. Clculo escribiendo funciones


A continuacin se presenta la forma de usar Excel para calcular las estadsticas de resumen de posicin de dispersin escribiendo los comandos de las funciones respectivos, considerando que los datos se ubican entre A4 y H8. Notar que el cursor destaca el calculo de la Media Aritmtica.

4.8.2. Usando Funciones para Anlisis


En Herramientas se activa Anlisis de Datos. Para usar este procedimiento los datos se deben ubicar en una sola columna o una sol fila. En el ejemplo, los datos se ubican entre A1 y A41. Se selecciona la opcin Estadstica Descriptiva

En la pantalla de Estadstica Descriptiva se llenan los campos que se indican en diagrama siguiente:

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 54

El resultado se presenta a continuacin

En el ejemplo sobre anlisis descriptivo empleando Excel (ms adelante) se presentan otros clculos usando funciones o el procedimiento de Anlisis de Datos.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 55

4.8. Ejercicios
1. Calcule Media Aritmtica y Desviacin Estndar para datos de Ej. 1 de Tabulacin (Para desarrollar) sobre puntajes obtenidos en una prueba por estudiantes de 14, 16 y total de casos. Grafique estadsticas, compare y comente resultados. Qu grupo presenta puntajes ms altos?Cual grupo presenta puntajes ms homogneos? (Intente usar Excel para calcular estadsticas) 2. En ejercicio anterior, compruebe que la Media Aritmtica ponderada de los resultados para 14 y para 16 aos es equivalente a la Media Aritmtica calculada directamente con todos los 80 datos. 3. En ejercicio anterior, compruebe que la Varianza ponderada de los resultados para 14 y para 16 aos es equivalente a la varianza calculada directamente con todos los 80 datos. 4. Si las calificaciones finales de un curso de 50 alumnos, cuya Media aritmtica es 5,3 y cuya varianza 2 muestral es 0,2 puntos , estudie el efecto que tendra en las Media Aritmtica y la Desviacin Estndar de las calificaciones si estas fueran modificadas mediante: a) Adicin de 1 punto a cada una de ellas b) Aumento de 5% a cada una de las calificaciones. 5. Se midi la estatura de 80 personas obtenindose una estatura media de 1,70 m y una Varianza de 7,4 m2. Posteriormente se verific que el instrumento empleado para medir tena un error de 3 cm. Esto es, una persona que media efectivamente 1,68 m el instrumento registraba 1,65 m. Indique cuales seran los valores correctos de la Media Aritmtica y la Varianza. 6. Se aplic una misma prueba a tres cursos A, B y C, que tienen 25, 35 y 40 alumnos respectivamente El curso A obtuvo un puntaje medio de 100 puntos con una Desviacin Estndar muestral de 15 puntos. El curso B obtuvo un puntaje medio de 90 puntos y Desviacin Estndar muestral de 10 puntos y el curso C obtuvo un puntaje medio de 115 puntos con una Desviacin Estndar muestral de 20 puntos. a) Qu curso presenta un mejor rendimiento medio? b) Qu curso presenta mayor homogeneidad en sus resultados? c) Qu curso tiene una menor variabilidad relativa? d) Cul es el rendimiento medio del total de 100 alumnos de cursos A, B y C? e) Cul es la Desviacin Estndar muestral del total de 100 alumnos? 7. En una empresa donde los salarios base de 20 trabajadores tienen una Media Aritmtica de $250.000.- y una Desviacin Estndar de $ 12.000.- el sindicato propone aumentarlos de modo que cada salario Xi se transforme en Yi mediante la relacin: Yi = 1,15Xi + 10.000 a) Cmo se interpretan los valores 1,15 y 10.000 de la transformacin propuesta? b) Si se realiza la transformacin indicada por el sindicato, estime el nuevo salario medio y la nueva Desviacin Estndar c) Compruebe que para la empresa el cambio de salarios propuestos por el sindicato significa destinar $950.000.- ms en la planilla de sueldos.. d) Si la empresa propone destinar slo $600.000.- para aumentar la planilla de sueldos, estudie que modificaciones se podran realizar (como bonificaciones, reajustes o ambos). En cada caso, estime los salarios medios y sus desviaciones estndar respectivas. e) Compare las Desviaciones Estndar para los salarios actuales, para los salarios con la propuesta del sindicato y para los resultantes con la propuesta de la empresa Cul de ellos significa lograr una mayor homogeneidad de los salarios? Realice lo mismo empleando los Coeficientes de Variacin de los salarios. 8. Los puntajes obtenidos por 50 alumnos se clasifican en una tabla de frecuencias con cuatro intervalos de igual amplitud, resultando un puntaje medio de 62,4 puntos. Si se dispone de la informacin siguiente, calcule la varianza (si es posible) o indique las razones en caso negativo: Marca de clase del 2 intervalo = y2 =50 puntos; f1= 4; f3= 25; F2= 20

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 56

5. ESTADSTICAS DE SIMETRA Y DE APUNTAMIENTO


Las estadsticas de simetra y apuntamiento, si bien no son tan empleadas como las de posicin o dispersin, entregan un resumen de caractersticas de las distribuciones que tienen importancia para el diseo de pruebas (test). La simetra y el apuntamiento permitiran estimar si la distribucin de los resultados de un test se parece a los de una variable con distribucin normal. Los coeficientes de simetra y apuntamiento se obtienen fcilmente cuando se emplea un software estadstico para procesar los datos, aunque las frmulas empleadas por stos no son simples pues, se basan en el concepto de momentos. Se presentaran estas frmulas y la forma de interpretarlas as como una frmula ms simple para medir la simetra, aunque poco empleda, basada en los cuartiles y mediana.

5.1. Momentos Respecto a la Media. Definicin y Clculo


Sea la variable X cuya media es X , se define como momento de orden r respecto a la media, simbolizado como mr, al promedio de los desvos de la media (Xi X ) elevados a la potencia r. Esto es, ;para datos agrupados: mr= i = 1 n Es fcil constatar que m1 =0 y que m2 = 2 (varianza poblacional). mr= i = 1

(X i X )r

(X i

X )r fi n

Se presenta el clculo de los momentos de orden 2, 3 y 4, de los datos del ejemplo de estaturas de 40 alumnos, pues se usarn para definir las estadsticas de simetra y apuntamiento. La estatura media es X = 147,05 cm. CLCULO DE MOMENTOS EJEMPLO ESTATURAS DE 40 ALUMNOS
ESTATURAS (cm) MARCA DE
CLASE NMERO ALUMNOS

Momento Orden 1
(X i X )
(Xi X )fi

Momento Orden 2
(X i X )2 (X i X )2 fi

Momento Orden 3
(X i X )
3

Momento Orden 4
( X i X )4 ( X i X ) 4 fi

Linf - Lsup
116,0 - 125,0 125,1 - 134,0 134,1 - 143,0 143,1 - 152,0 152,1 - 161,0 161,1 - 170,0 170,1 - 179,0

(Xi)
120,5 129,5 138,5 147,5 156,5 165,5 174,5 TOTAL

(fi)
2 3 10 13 6 4 2 40

( X i X )3 fi

-26,55 -17,55 -8,55 0,45 9,45 18,45 27,45

-53,10 -52,65 -85,50 5,85 56,70 73,80 54,90 0,00

704,903 308,003 73,103 0,202 89,302 340,403 753,502

1.409,81 -18.715,161 924,01 731,03 2,63 535,81 1.361,61 6.471,90 -5.405,444 -625,026 0,091 843,909 6.280,426

-37.430,32 496.887,535 -16.216,33 -6.250,26 1,18 5.063,45 94.865,540 5.343,976 0,041 7.974,937

993.775,07 284.596,62 53.439,76 0,53 47.849,62 463.495,45 1.135.532,04 2.978.689,08

25.121,70 115.873,862 41.367,29 567.766,018 11.656,71

1.507,01 20.683,644

Momento orden 2: n n i (Xi X )2 f = i (Xi m2= n Momento orden 3: n n (X i X )3 f i (Xi i m3= = n Momento orden 4: n n (X i X )4 f i (Xi i m4= = n

147, 05)2 fi
n

6.471, 90 =161,80 cm2 (= 2 varianza poblacional) 40 11.656, 71 =291,42 cm3 40 2.978.689, 08 =74.467,23 cm4 40

147, 05)3 fi
n

147, 05)4 fi

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 57

5.2. Caractersticas de Distribuciones Simtricas y Asimtricas.


La simetra es una caracterstica que pueden tener las distribuciones, y que se aprecia visualmente en que sta presenta dos partes iguales respecto a un eje. En el grfico de frecuencias, (Histograma o Polgono de Frecuencias), se puede reconocer fcilmente, pues presenta caractersticas similares a ambos lados de un eje que pasa por el centro de la distribucin. Si la cola a la derecha es ms alargada que la cola a la izquierda del eje, se dice que la distribucin tiene asimetra positiva. Si, por el contrario, la cola a la izquierda es ms alargada que la derecha, se dice que la distribucin tiene asimetra negativa En la tabla de frecuencias de una distribucin simtrica (ver ejemplo en pgina siguiente), se observar que las frecuencias son iguales, o muy parecidas, respecto a algn valor central de la variable o a algn intervalo central. La distribucin normal es un ejemplo de una distribucin simtrica perfecta, pero hay otras. a) b) En una distribucin simtrica unimodal se puede observar que: La Media Aritmtica, la Mediana y la Moda tienen el mismo valor. El primer cuartil (P0,25) y el tercer cuartil (P0,75) son simtricos respecto a la Mediana, esto es : Me - P0,25 = P0,75 Me (o, Me Q1 = Q3 Me) En una distribucin unimodal asimtrica hacia la derecha (asimetra positiva): Moda < Mediana< Media Aritmtica P0,75 Me > Me - P0,25 (o, Q3 Me > Me Q1 ) En una distribucin unimodal asimtrica hacia la izquierda (asimetra negativa): Media Aritmtica < Mediana < Moda Me - P0,25 > P0,75 Me (o, Me Q1 > Q3 Me )

a) b) a) b)

5.3. Anlisis Grfico de la Simetra


El Histograma o el Polgono de Frecuencias evidencian la simetra o la asimetra de la distribucin, segn lo indicado antes. Para el ejemplo de las estaturas de 40 alumnos, se aprecia que la distribucin es relativamente simtrica:
ESTATURA ALUMNOS

10

Recuento

120,00

130,00

140,00

150,00

160,00

170,00

ESTATURA

El Grfico de Cajn est basado en la representacin de la Mediana y los Cuartiles. Si una distribucin es simtrica, el cajn quedar ubicado al centro de los bigotes. Si tiene asimetra positiva, el bigote del lado derecho ser ms largo que el del lado izquierdo y la Mediana se desplazar a la izquierda dentro del cajn. Si una distribucin tiene asimetra negativa, el bigote izquierdo ser ms largo que el derecho y la Mediana se desplazar a la derecha dentro del cajn. Para los mismos datos de estaturas, se ratifica la apreciacin anterior.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 58


ESTATURAS DE ALUMNOS
190 180 170 160 150 140 130 120 110
N= 40

ESTATURA

La Ojiva, especialmente la construida con las frecuencias relativas acumuladas, puede emplearse para estudiar la simetra de una distribucin o para hacer comparaciones. Si una distribucin es simtrica, su ojiva presentar un crecimiento paulatino que se aprecia simtrico respecto a un eje imaginario diagonal. Si una distribucin tiene asimetra positiva, su ojiva presenta un ascenso brusco para valores bajos de la variable para despus continuar creciendo lentamente. Si una distribucin tiene asimetra negativa, su ojiva presenta un crecimiento lento en valores bajos de la variable para aumentar bruscamente en valores altos de la variable. Los ejemplos siguientes ilustran lo sealado:
DISTRIBUCIONES DE PUNTAJES
PUNTAJES SIMTRICA ASIMETRA POSITIVA ASIMETRA NEGATIVA

OJIVA Y SIMETRA
120 100 PORCENTAJES 80 60 40 20 0 5 15 25 35 PUNTAJES 45 55 65

15 - 20 20 - 25 25 - 30 30 - 35 35 - 40 40 - 45 45 - 50 50 - 55 55 - 60 TOTAL

1 2 5 7 10 7 5 2 1 40

5 10 8 7 4 3 1 1 1 40

1 1 1 3 4 7 8 10 5 40

SIMTRICA ASIM. POSITIVA ASIM. NEGATIVA

5.4. Coeficientes de Simetra


Se han definido diversos coeficientes de simetra. La interpretacin de los mismos puede apoyarse en los grficos como Histograma, Polgono de Frecuencias o Grfico de Cajn. Tambin se puede emplear la Ojiva, aunque puede ser ms difcil percibir la simetra de la distribucin. Los coeficientes se expresan en trminos absolutos, esto es, sin unidad (aunque variable se exprese en cm, k o $ etc.)

5.4.1. Coeficiente de BOWLEY


Esta basado en la relacin entre los cuartiles. Es fcil de calcular.
S1 = (P0,75 Me) (Me P0,25 ) (P0,75 2Me + P0,25 ) Q3 2Me + Q1 = = P0,75 P0,25 P0,75 P0,25 Q3 Q1

La interpretacin del coeficiente S1 es la siguiente: S1>0 S1=0 S1<0 La distribucin tiene asimetra positiva La distribucin es simtrica La distribucin tiene asimetra negativa

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 59

Ejemplo: Para el ejemplo de las estaturas de 40 alumnos:


Q1=138,5 cm
S1 =

; Me=146,46 cm; Q3=155,0

155, 0 2(146, 46) + 138, 5 155, 0 292, 92 + 138, 5 293, 5 292, 92 0, 58 = = = = 0, 035 155, 0 138, 5 155, 0 138, 5 155, 0 138, 5 16, 5

Dado que el valor de S1=0,035 es prximo a 0 y considerando lo que se aprecia en los grficos, se puede concluir que la distribucin de estaturas es simtrica.

5.4.2. Coeficiente de PEARSON (Basado en momentos)


El coeficiente de Pearson (basados en los momentos) se fundamenta en una propiedad del tercer momento respecto a la media (m3) que es 0 para las distribuciones simtricas. El coeficiente de simetra de Pearson se define como:

S2 =

m3
3 m2

m3
3/2 m2

m3 ( 2 )3/ 2

(con 2 varianza poblac.)

La interpretacin del coeficiente S2 es la siguiente (dado que el signo depende de m3): Si S2>0 La distribucin tiene asimetra positiva Si S2=0 La distribucin es simtrica Si S2<0 La distribucin tiene asimetra negativa En el ejemplo de las estaturas de 40 alumnos: m3=291,42 cm3 m2 =161,80 cm2
S2 = m3
3 m2

291, 42 161, 80
3

291, 42 291, 42 = = 0,142 2.058,11 4.235.801, 03

Por lo tanto, dado que S2=0,142>0 se concluira que la distribucin de estaturas tiene asimetra positiva. Sin embargo, este valor no es muy grande y ello plantea la duda acerca de la posibilidad que la distribucin pueda ser simtrica, dado que al observar los grficos de la misma (Histograma, Polgono, o Cajn) se aprecia bastante simtrica.

5.5. Tablas del Coeficiente de Simetra de Pearson


El problema, entonces, es hasta que valores del coeficiente S2 se puede aceptar que la distribucin es simtrica?. Si se estudia una poblacin, habra que emplear la pauta anterior para interpretar los valores S2. Si se trabaja con una muestra de datos, la respuesta la entrega Inferencia, que estudia el comportamiento de muestras y poblaciones de la cual provienen. La tabla (de Pearson, E. S. y Hartley, H. O.), que se presenta al final de esta seccin, condiciona la conclusin al tamao de la muestra estudiada, entregando mrgenes para la aceptacin de la simetra de la distribucin, con un riesgo de tomar una decisin incorrecta del 10%. Por ejemplo, para muestras de tamao 40, la tabla se interpreta as: la distribucin tiene asimetra negativa Si S2 <-0,587 Si -0.587< S2 <0,587 la distribucin es simtrica la distribucin tiene asimetra positiva Si S2> 0,587 Volviendo al ejemplo de las estaturas, si consideramos al conjunto de los 40 alumnos como una muestra, entonces se concluye que la distribucin de estaturas es simtrica pues S2= 0,142 est en el intervalo (-0.587< S2 <0,587), existiendo un riesgo del 10% de equivocarse al decidir lo anterior.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 60

5.6. Estadistica de Apuntamiento (Curtosis)


El apuntamiento, tambin denominado CURTOSIS, es una caracterstica de una distribucin que corresponde al grado de ajuste que esta presenta con respecto a una normal que tiene la misma media y desviacin estndar. Si la distribucin de frecuencias presenta frecuencias centrales ms altas que las correspondientes en la distribucin normal ajustada, se dice que la distribucin de frecuencias es MAS APUNTADA que la normal (leptocrtica). Si la distribucin de frecuencias presenta frecuencias centrales ms bajas que las correspondientes en la distribucin normal ajustada, se dice que la distribucion de frecuencias es MENOS APUNTADA que la normal (platicrtica). Si las frecuencias centrales son semejantes en la distribucin de frecuencias y en la normal se dice que tienen un apuntamiento SEMEJANTE (mesocrtica). El Histograma de la distribucin de estaturas, presentado para simetra, mostrara que sta es ms apuntada que la normal. Sin embargo, conviene corroborar este anlisis grfico con el apoyo de algn coeficiente.

5.7. Coeficiente de Apuntamiento de Pearson (B2) y Tablas


El coeficiente de apuntamiento de Pearson se basa en el cuarto momento respecto a la media. Se define el Coeficiente de Apuntamiento de Pearson como: m4 m4 B2 = = (siendo 2 la varianza poblacional) (m 2 )2 ( 2 )2 Este coeficiente, que no tiene unidad, alcanza el valor 3 para la distribucin normal. La interpretacin de los valores observados es la siguiente: Si B2 > 3 Si B2 = 3 Si B2 < 3 La distribucin es MS apuntada que la normal (Leptocrtica) La distribucin es IGUALMENTE apuntada que la normal (Mesocrtica) La distribucin es MENOS apuntada que la normal (Platicrtica)

Ejemplo: Para el ejemplo de las estaturas de 40 alumnos se tiene: ; m4=74.467,23 cm4 m2=161,80 cm2

B2 =

m4 74.467,23 74.467, 23 = = 2, 84 2 = = 2 26.179,24 (m2 ) (161, 80)

El valor obtenido, B2=2,84 es menor que 3, lo que se interpretara como que la distribucin de estaturas es menos apuntada que la normal. Si se observa el histograma con el ajuste de la normal (presentado en el tema de simetra) lo anterior no es tan evidente.

5.7.1. Tablas del Coeficiente de Apuntamiento de Pearson


Igual que para el coeficiente de Simetra, para decidir acerca del apuntamiento de la distribucin, cuando se emplean muestras, se puede utilizar una tabla para el coeficiente de Pearson que fija rangos en los cuales se puede aceptar que una distribucin es igualmente apuntada que la normal, dependiendo del tamao de la muestra, y considerando un error del 10% de tomar una decisin errnea. La tabla, que se presenta al final de la seccin, parte con muestras de tamao 50 pues en muestras menores las decisiones son ms riesgosas. Para una muestra de 50 casos, la interpretacin es as: La distribucin es MENOS apuntada que la normal (Platicrtica) Si B2 < 2,15 La distribucin es IGUALMENTE apuntada que la normal (Mesocrtica) Si 2,15 < B2 <3,99 La distribucin es MS apuntada que la normal (Leptocrtica) Si B2 > 3,99 Para el ejemplo de las estaturas de la muestra de los 40 alumnos, empleando los valores de referencia para n=50, dado que B2 =2,84 (es mayor que 2,15 y menor que 3,99) se concluye que la distribucin es igualmente apuntada que la normal (con un riesgo de equivocarse del 10%).

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 61

Desde el punto de vista grfico el apuntamiento puede analizarse ajustando una distribucin normal a la respectiva distribucin de frecuencias. Esto lo realizan los software estadsticos como SPSS y otros los cuales entregan, adems, estadsticas de apuntamiento. EXCEL tambin entrega estas estadsticas.

5.8. Observaciones sobre Simetra y Apuntamiento


Existe una nocin grfica de simetra y asimetra, as como de apuntamiento, que no siempre coincide con el aspecto cuantitativo, por lo tanto hay que tener presente ambos aspectos para tomar una decisin. Si una distribucin es muy asimtrica los signos (no los valores) de todos los coeficientes sern concordantes. Si una distribucin es slo ligeramente asimtrica, los signos de los coeficientes pueden no coincidir. En este caso, el empleo de la tabla puede ayudar a tomar una decisin, especialmente si se emplea el coeficiente de Pearson. En general, los software estadsticos entregan valores para coeficientes de Simetra y Apuntamiento que no siempre son los mismos. En el caso especfico de Excel es recomendable revisar la Ayuda para conocer las frmulas y la forma de interpretar los resultados de los coeficientes.

5.9. Coeficientes de Simetra y Apuntamiento con Excel


Excel permite calcular el Coeficiente de Simetra (o asimetra) de Pearson. La funcin que se puede emplear para calcular el coeficiente es: =COEFICIENTE.ASIMETRIA( rango datos) Para el caso del Apuntamiento, Excel calcula el Coeficiente de Apuntamiento o Curtosis. La funcin es: =CURTOSIS( rango datos) En EXCEL, as como en algn otro software estadstico, el apuntamiento se entrega como CURTOSIS que es en esencia el coeficiente de Pearson al cual se le ha restado 3, esto es: COEF. CURTOSIS B2 - 3 La interpretacin es: CURTOSIS > 0 CURTOSIS = 0 CURTOSIS < 0 indica una distribucin MS apuntada que la Normal. indica una distribucin IGUALMENTE apuntada que la Normal. indica una distribucin MENOS apuntada que la Normal.

Por lo tanto, para usar las tablas de Pearson y Hartley debe sumarse 3 al valor entregado por Excel para compararlo con el de la tabla. Ejemplo: Usando Excel, las funciones son, si los datos se ubican como se indican en tabla siguiente Para Simetra: =COEFICIENTE.ASIMETRIA(A1:C5) Para Apuntamiento: =CURTOSIS(A1:C5)

La interpretacin sera, para el coeficiente de Simetra 0,55 que los datos tienen Asimetra Positiva, esto es, que tienden a concentrarse en los valores bajos. El Coeficiente de Apuntamiento -0,80 indica que la distribucin sera ms aplastada que la distribucin normal respectiva.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 62

5.10. Ejercicios a) Ejercicio de Prueba


Un Psiclogo est desarrollando un test para medir creatividad de estudiantes de trabajadores. Ha desarrollado diversas versiones, que han sido aplicadas a muestras distintas de trabajadores con los resultados siguientes. Indique la versin (A, B, ..G) que presenta las caractersticas que se sealan.
JUSTIFIQUE SU RESPUESTA, EMPLEANDO TABLAS RESPECTIVAS. SEALAR VALORES DE REFERENCIA USADOS.

CARACTERSTICAS N Casos Mnimo Mximo Media Aritmtica Momento 2 Momento 3 Momento 4


SIMETRIA PEARSON APUNTAM. PEARSON
CARACTERSTICA

VERSIN VERSIN VERSIN VERSIN VERSIN VERSIN VERSIN F A B C D E G 101 79 98 76 98 57 102 145 110 105 145 150 110 105 217 190 185 217 238 180 186 183,99 153,10 138,47 181,00 200,62 138,68 144,53 293,64 367,28 408,88 286,70 356,80 212,74 174,56 -906,82 -825,10 4.421,92 -201,43 -2.778,36 2.072,31 -469,96
194.497,57 308.433,95 368.564,89 182.823,13 323.809,99 128.266,36 129.501,41

-0,180 2,256

-0,117 2,286
VERSION

0,535 2,205

-0,041 2,224

-0,412 2,544

0,668 2,834
JUSTIFICACIN

-0,204 4,250

15. Asimetra negativa e igualmente apuntada que la normal 16. Mayor simetra 17. Simtrica y con la menor variabilidad

(A) (B) (C) (D) (E) (F) (G) (NA) : No se puede determinar (A) (B) (C) (D) (E) (F) (G) (NA) : No se puede determinar (A) (B) (C) (D) (E) (F) (G) (NA) : No se puede determinar

b) Ejercicios Propuestos
1. 2. Indique que significa la simetra y el apuntamiento de una distribucin. Indique que utilidad pueden tener estas estadsticas para el diseo de un test. Los siguientes son los resultados obtenidos por un de grupo de 50 estudiantes en tres pruebas de condicin fsica. "Test de Cooper", se mide en metros recorridos; "30 metros planos", se mide en segundos y "Extensiones de tronco" que se mide en repeticiones.
TEST COOPER 30 m PLANOS EXTENS. TRONCO
Media Aritmtica Desv. Estndar Coef. Variacin Mediana Q1 Q3 Simetra Pearson Apuntamiento Pearson

2.075,0 5,7 54,5

390,0 0,9 20,5

0,188 0,158 0,376

2.120,0 5,9 53,0

2.850,0 5,3 43,0

2.460,0 5,4 67,0

-0,321 -0,653 0,678

1,57 4,57 1,90

a) b) c)

Indique las unidades en que se expresa de cada una de las estadsticas indicadas en la tabla Realice esquemas (polgono de frecuencias) de las distribuciones de las tres pruebas y compare las caractersticas de las distribuciones que pueden compararse. Identifique las estadsticas de las distribuciones, indicadas en la tabla anterior, que pueden compararse. Justifique su respuesta. Analice las distribuciones respecto a dichas estadsticas.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 63

3.

Los datos siguientes corresponden a puntajes obtenidos en un Inventario de Ajustamiento por hombres y mujeres alcohlicos y no. Interesa determinar la influencia del sexo y de la condicin de alcohlico o no en los puntajes obtenidos. Un mayor puntaje indica mayor problema de ajustamiento. Se emple la misma escala para comparar resultados.
PU N T AJE A J U S T A M IE N T O HOMBRES A lc o h lic o s N o A lc o h lic o s M U JER ES A lc o h lic o s N o A lc o h lic o s

0 6 12 18 24 30 36 42 48 54 60 66

- 6 - 12 - 18 - 24 - 30 - 36 - 42 - 48 - 54 - 60 - 66 - 72

TO TAL

1 7 24 23 32 32 33 17 13 13 6 1 202

25 43 36 16 9 2 3 3 1 1

2 2 5 11 8 12 11 10 2 3 66

21 49 40 26 17 8 1 1 1 1

139

165

a) b) c) d) e) f)

Teniendo presente el objetivo del estudio, calcule y compare los puntajes medios, mediana, cuartiles, recorrido intercuartlico, desviacin tpica, varianza, coeficientes de variacin para cada una de las cuatro distribuciones. Grafique las ojivas de las distribuciones de modo que pueda compararlas. Grafique los "cajones con bigotes" de modo que pueda compararlos Analice la simetra de las distribuciones empleando los grficos anteriores. Calcule estadsticas de simetra de Bowley y analcelas. Realice un informe de resumen de sus clculos y grficos. Exprese sus conclusiones sobre el objetivo del estudio.

4.

Para los datos del ejercicio anterior compruebe los siguientes resultados:
GRUPO
Hombres Alcohlicos Hombres No Alcohlicos Mujeres Alcohlicas Mujeres No Alcohlicas Momento Orden 2 Momento Orden 3 Momento Orden 4 Coef. Simetra Pearson Coef. Apuntamiento Pearson

193,97 108,72 159,83 92,43

751,89 1.776,01 -277,84 1.038,55

91.877,86 70.026,11 64.814,20 43.981,49

0,278 1,567 -0,137 1,169

2,44 5,92 2,54 5,15

a) b) c)

Para cada grupo, analice las caractersticas de simetra y apuntamiento Interpretando los coeficientes de Pearson mediante el empleo de las tablas de Pearson y Hartley. Compare sus conclusiones sobre simetra con los grficos apropiados y con los respectivos coeficientes de Bowley. Se llega a las mismas conclusiones? Compare sus conclusiones sobre apuntamiento con los grficos apropiados.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 64

5. USO DE LAS ESTADSTICAS DE RESUMEN 5.1. EJEMPLO DE ANLISIS DESCRIPTIVO USANDO EXCEL
Mediante el empleo de Excel se pueden calcular las estadsticas reseadas antes. A continuacin se presentar una aplicacin de Excel agregndose funciones nuevas y grficos que se pueden utilizar para presentar los resultados y analizarlos.

Ejemplo. Los datos siguientes corresponden a las calificaciones de actividades realizadas en la asignatura de Estadstica, consistentes en tres pruebas y tres talleres. El curso tiene 16 alumnos y no todos los alumnos realizaron todos los talleres (obviamente los datos son ficticios, diseados para resaltar ciertas caractersticas, pues en la realidad siempre son mejores) 5.1.1. Tabulacin y Grfico de Polgono de Frecuencias
En la figura siguiente se presentan las notas (con la estructura de una base de datos) y los resultados de la tabulacin para cada actividad. Se graficaron los Polgonos de Frecuencia excepto para Taller 1, pues todos las notas son iguales. Para tabular los datos se emple la funcin FRECUENCIA. Los grficos se realizaron empleando la opcin de grfico XY(Dispersin) usando las marcas de clase y agregando filas con frecuencia 0 para cerrarlos polgonos. Dada la naturaleza de los datos (notas) la graficacin en intervalos bajo 1 o sobre 7 se realiz para cerrar los grficos Se aprecia que Prueba 3 tiene notas ms bajas (Asimetra positiva) pues estn ms concentradas hacia la izquierda y Prueba 2 tiene mejores resultados, presentndose en forma ms simtricos y ubicados ms a la derecha del eje X..
NOTAS DE LAS ACTIVIDADES ASIGNATURA ESTADSTICA NOMBRE 1. Acevedo, Ana 2. Alvarez, Andrea 3. Araya, Csar 4. Ast, Enrique 5. Bravo, Juana 6. Canales, Marcos 7. Donoso, Carolina 8. Figueroa, Gladys 9. Fuentes, Hctor 10. Gatica, Joaqun 11. Leiva, Claudina 12. Marn, Jos 13. Ponce, Eduardo 14. Pozo, Rosario 15. Ramos, Juan 16. Veliz, Rodrigo
PRU_1 PRU_2 PRU_3 TALL1 TALL2 TALL3

2,4 3,1 2,1 3,5 3,7 4,5 2,7 1,0 6,3 4,1 4,6 2,0 1,6 5,3 5,6 3,0

4,3 7,0 6,2 5,6 4,4 4,5 3,0 6,8 6,3 4,5 6,7 5,7 4,0 6,2 4,0 3,3

3,4 3,6 2,8 1,9 1,0 1,3 2,8 3,0 2,0 3,9 1,6 3,9 2,2 3,4 2,0 3,1

5,0 5,0 5,0 5,0 5,0 5,0 5,0 5,0 5,0 5,0 5,0 5,0 5,0 5,0 5,0

4,6 2,0 3,0 5,9 4,8 4,4 3,6 4,3 5,2 3,3 5,3 2,3 2,3

2,2 2,6 2,5 4,9 5,3 1,1 3,1 3,0 6,5 5,8 5,6 1,9 3,3 6,7

ALUMNOS SEGN INTERVALOS DE NOTAS NOTAS 1,0 a 1,9 2,0 a 2,9 3,0 a 3,9 4,0 a 4,9 5,0 a 5,9 6,0 a 7,0
M. de C. PRU_1 PRU_2 PRU_3 TALL2 TALL3

1,5 2,5 3,5 4,5 5,5 6,5

2 4 4 3 2 1

0 0 2 6 2 6

4 5 7 0 0 0

0 3 3 4 3 0

2 3 3 1 3 2

El taller 3 presenta una mayor dispersin pues abarca todos los intervalos de la distribucin (lo mismo ocurre con Prueba 1.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 65


CALIFICACIONES DE ACTIVIDADES EN ASIGNATURA DE ESTADSTICA (Grficos Polgonos de Frecuencias) 8 7 6 5 ALUMNOS 4 3 2 1 0 0 1 2 3 4 NOTAS 5 6 7 8
PRU_1 PRU_2 PRU_3 TALL2 TALL3

5.1.2. Anlisis por Actividad (Empleando Escritura o Insercin de Funciones)


Para mejorar el anlisis grfico de la informacin y facilitar la comparacin realizada con los polgonos de frecuencia, se calculan las estadsticas bsicas de las distribuciones de notas de las actividades. En la figura siguiente se presentan los datos y los resultados de la Media Aritmtica, la Desviacin Estndar y el Recorrido. Se usaron las funciones respectivas (escritas o insertas), excepto para el Recorrido que se calcul mediante la diferencia del valor mximo menos el valor mnimo.
CALIFICACIONES DE ACTIVIDADES ASIGNATURA DE ESTADSTICA NOMBRE 1. Acevedo, Ana 2. Alvarez, Andrea 3. Araya, Csar 4. Ast, Enrique 5. Bravo, Juana 6. Canales, Marcos 7. Donoso, Carolina 8. Figueroa, Gladys 9. Fuentes, Hctor 10. Gatica, Joaqun 11. Leiva, Claudina 12. Marn, Jos 13. Ponce, Eduardo 14. Pozo, Rosario 15. Ramos, Juan 16. Veliz, Rodrigo
N DATOS MNIMO MXIMO RECORRIDO MEDIA ARITMTICA DESVIACIN ESTND. PRU_1 PRU_2 PRU_3 TALL1 TALL2 TALL3

2,4 3,1 2,1 3,5 3,7 4,5 2,7 1,0 6,3 4,1 4,6 2,0 1,6 5,3 5,6 3,0
16 1,0 6,3 5,3 3,5 1,5

4,3 7,0 6,2 5,6 4,4 4,5 3,0 6,8 6,3 4,5 6,7 5,7 4,0 6,2 4,0 3,3
16 3,0 7,0 4,0 5,2 1,3

3,4 3,6 2,8 1,9 1,0 1,3 2,8 3,0 2,0 3,9 1,6 3,9 2,2 3,4 2,0 3,1
16 1,0 3,9 2,9 2,6 0,9

5,0 5,0 5,0 5,0 5,0 5,0 5,0 5,0 5,0 5,0 5,0 5,0 5,0 5,0 5,0
15 5,0 5,0 0,0 5,0 0,0

4,6 2,0 3,0 5,9 4,8 4,4 3,6 4,3 5,2 3,3 5,3 2,3 2,3
13 2,0 5,9 3,9 3,9 1,3

2,2 2,6 2,5 4,9 5,3 1,1 3,1 3,0 6,5 5,8 5,6 1,9 3,3 6,7 TODAS
14 1,1 6,7 5,6 3,9 1,8 90 1,0 7,0 6,0 4,0 1,5

Para aplicar Excel, se escribieron las funciones para la primera actividad (Prueba 1) y luego se arrastr la definicin anterior para copiarlas y aplicarlas en las otras actividades. El anlisis de la informacin anterior permite ratificar las apreciaciones del grfico de polgonos pues:

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 66

a) La actividad con mejores resultados es la Prueba 2 pues su Media Aritmtica (5,2) es mayor que las otras y la con peores resultados es la Prueba 3 con Media Aritmtica 2,6. b) La actividad con calificaciones ms concentrada (o de resultados ms homogneos o parecidos entre s) es el Taller 1 con Desviacin Estndar 0 (igual que su recorrido) pues todos los alumnos tienen nota 5. La actividad con resultados ms dispersos (ms heterogneos o ms diferentes entre s) es el Taller 3, con Desviacin Estndar 1,8 (y con mayor recorrido 5,6). c) Se observa que el promedio general de todas las calificaciones es 4,0 con una Desviacin Estndar de 1,5. Estos resultados son importantes como resumen (y tienen sentido) siempre que todas las calificaciones tengan la misma importancia.

5.1.3. Grfico de Trazos (Media Aritmtica y Desviacin Estndar)


El Grfico de Trazos se realiza empleando Media Aritmtica y Desviacin Estndar. Se usa el tipo de grfico de COTIZACIONES y el primer subtipo de ellos. La tabla que debe preparase para realizar el grafico es la siguiente, en que Lim Sup=Media+Des.Est , Lim Inf=Media-Des.Est. Para graficar se seleccionan slo las primeras 4 columnas (se excluye Desviacin Estndar). El Grfico de Trazos permite comparar las distribuciones empleando una estadstica de posicin (Media Aritmtica) y otra de dispersin (Desviacin Estndar).
PRUEBA
PRU_1 PRU_2 PRU_3 TALL1 TALL2 TALL3

LIM SUP 5,1 6,2 3,3 5,0 4,8 5,0

LIM INF 2,3 4,2 1,4 5,0 2,4 1,8

MEDIA 3,7 5,2 2,4 5,0 3,6 3,4

DESV. EST 1,4 1,0 0,9 0,0 1,2 1,6

PROMEDIOS Y DESV. ESTNDAR DE ACTIVIDADES EN ASIGNATURA DE ESTADSTICA (Grfico de Trazos)

7 6 5
NOTAS

4 3 2 1 0
PRU_1 PRU_2 PRU_3 TALL1 TALL2 TALL3 ACTIVIDADES

5.1.4. Grfico de Caja (Mediana, Cuartiles y Recorrido)


Para evidenciar la simetra o asimetra de las distribuciones se emplea la Mediana y los Cuartiles y el Grfico de Caja (o Cajn con Bigotes), que corresponde al segundo subtipo dentro del grfico tipo COTIZACIONES. A continuacin se presentan los resultados respectivos, obtenidos usando las funciones estadsticas en Excel:

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 67

RESUMEN CALIFICACIONES DE ACTIVIDADES ASIGNATURA DE ESTADSTICA ESTADSTICA


N DATOS MNIMO MXIMO RECORRIDO MEDIANA CUARTIL 1 CUARTIL 3 REC. INTERCUART. PRU_1 16 1,0 6,3 5,3 3,3 2,3 4,5 2,2 PRU_2 16 3,0 7,0 4,0 5,1 4,2 6,2 2,0 PRU_3 16 1,0 3,9 2,9 2,8 2,0 3,4 1,4 TALL1 15 5,0 5,0 0,0 5,0 5,0 5,0 0,0 TALL2 13 2,0 5,9 3,9 4,3 3,0 4,8 1,8 TALL3 14 1,1 6,7 5,6 3,2 2,5 5,5 3,0

A partir de los resultados anteriores se prepara la siguiente tabla para graficar:


PRUEBA PRU_1 PRU_2 PRU_3 TALL1 TALL2 TALL3

CUARTIL 1 2,3 4,2 2,0 5,0 3,0 2,5

MXIMO 6,3 7,0 3,9 5,0 5,9 6,7

MNIMO 1,0 3,0 1,0 5,0 2,0 1,1

CUARTIL 3 4,5 6,2 3,4 5,0 4,8 5,5

Para completar el grfico se agregaron las lneas divisorias de las cajas, las que representan las Medianas, empleando la opcin Lneas del men de Dibujo de Excel.
CUARTILES DE NOTAS ACTIVIDADES ASIGNATURA DE ESTADSTICA (Grfico de Caja) 8 7 6 5 NOTAS 4 3 2 1 0
PRU_1 PRU_2 PRU_3 TALL1 TALL2 TALL3

ACTIVIDADES

Este grfico representa con la caja el recorrido intercuartlico (tercer cuartil y primer cuartil), la Mediana se representa con la lnea dentro de la caja. Los trazos (bigotes) representan el mximo y mnimo de los datos. Segn la ubicacin de los elementos se evidencia la simetra o no de la distribucin de valores de las notas. Este grfico permite, por lo tanto, apreciar una estadstica de posicin (Mediana), otra de dispersin (Recorrido Intercuartlico) y la Simetra de la distribucin. Se observa en la figura que la Prueba 2 es la que tiene los resultados mayores, pues el valor de su Mediana es mayor que el de las otras actividades, y que la Prueba 3 es la que tiene los resultados ms bajos ( lo que ratifica lo observado antes)

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 68

El Taller 3 es el que presenta la mayor dispersin evidenciada por la caja de mayor extensin, esto significa que su recorrido intercuartlico es mayor. Respecto a simetra, la Prueba 2 es la que presenta una distribucin de notas ms simtrico, lo que se aprecia pues la Mediana esta al centro de la caja y los bigotes tambin son de longitudes parecidas. El Taller 3 y la Prueba 1 presentan cierto grado de asimetra positiva pues el bigote ms largo se prolonga hacia los valores mayores de las notas. La asimetra positiva significa que las notas tienden a concentrarse en los valores ms bajos de estas, o sea, hay ms valores bajos que altos en ese grupo La Prueba 3 y el Taller 2 presentan cierto grado de asimetra negativa pues el bigote ms largo se prolonga hacia los valores de las notas ms bajas. La asimetra negativa significa que las notas tienden a concentrarse en los valores ms altos de estas, o sea, hay ms valores altos que bajos en la distribucin de notas de la actividad. El Taller 1 se grafica como un punto ubicado en la nota 5 pues todas las notas son iguales.

5.1.5. Estadsticas de Simetra y Apuntamiento


Los resultados de los Coeficientes de Simetra y Apuntamiento obtenidos con Excel son los siguientes:
RESUMEN CALIFICACIONES DE ACTIVIDADES ASIGNATURA DE ESTADSTICA ESTADSTICA
COEF. SIMETRA COEF. APUNTAMIENTO PRU_1 0,27 -0,71 PRU_2 -0,09 -1,38 PRU_3 -0,22 -1,14 TALL1 TALL2 -0,15 -1,23 TALL3 0,21 -1,44

Segn los coeficientes anteriores, la Prueba 2 tiene un coeficiente de simetra cercano a 0, por lo que se estima tiene una distribucin simtrica. La Prueba 1 y el Taller 3 presentan cierto grado de asimetra positiva pues el bigote ms largo se prolonga hacia los valores mayores de las notas. La asimetra positiva significa que las notas tienden a concentrarse en los valores ms bajos de estas, o sea, hay ms valores bajos que altos en ese grupo La Prueba 3 y el Taller 2 presentan el mayor grado de asimetra negativa pues tiene los coeficientes de simetra negativos mayores, lo que concuerda con la apreciacin grfica. En cuanto al Apuntamiento, todas las distribuciones seran menos apuntadas que la normal, aunque la Prueba 1 tiene el valor menor en este aspecto. Se puede mejorar la interpretacin mediante el empleo de las tablas de Pearson y Hartley.
5.1.6. Anlisis por Actividad (Empleando Herramienta Anlisis de Datos)

Los valores de las estadsticas empleados en los anlisis anteriores o para realizar los grficos, pueden obtenerse directamente mediante la Funcin para Anlisis ESTADISTICA DESCRIPTIVA, del submen Anlisis de datos de la opcin Herramientas del men principal .En las figuras siguientes se describe el proceso para obtener esos valores.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 69

En la figura siguiente se aprecia el llenado del men de la funcin. Entre las opciones de salida es necesario marcar Resumen de Estadsticas para obtener resultados. Las otras opciones, como se indica en la figura, pueden dejarse vacas.

Los resultados que entrega Excel son los siguientes:

Finalmente, los resultados editados (eliminados textos repetidos, revisando la presentacin de decimales, etc.) son los siguientes:
ESTADSTICAS PRU_1 PRU_2 PRU_3 TALL1 Media 3,47 5,16 2,62 5,00 Error tpico 0,38 0,33 0,23 0,00 Mediana 3,30 5,05 2,80 5,00 Moda 6,20 3,40 5,00 Desviacin estndar 1,51 1,30 0,92 0,00 Varianza de la muestra 2,29 1,69 0,85 0,00 Curtosis -0,71 -1,38 -1,14 Coeficiente de asimetra 0,27 -0,09 -0,22 Rango 5,3 4,0 2,9 0,0 Mnimo 1,0 3,0 1,0 5,0 Mximo 6,3 7,0 3,9 5,0 Suma 55,5 82,5 41,9 75,0 Cuenta 16 16 16 15 TALL2 3,92 0,35 4,30 2,30 1,27 1,61 -1,23 -0,15 3,9 2,0 5,9 51,0 13 TALL3 3,89 0,49 3,20 1,84 3,40 -1,44 0,21 5,6 1,1 6,7 54,5 14

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 70

5.1.7. Anlisis por Estudiante (Empleando Escritura o Insercin de Funciones)

El anlisis de los resultados tambin se puede realizar por estudiante, esto es, por filas. Este anlisis permitir presentar combinaciones interesantes en el empleo de funciones estadsticas.
a. Anlisis Considerando Igual Ponderacin Para Todas las Actividades

El anlisis siguiente considera el promedio de notas de pruebas y talleres. El uso de las funciones asegura que se considere en el clculo el nmero efectivo de notas. La funcin empleada en el clculo del promedio de notas de pruebas y talleres, para primer caso 1. Acevedo Ana (pues el resto se obtiene mediante Arrastre) es, como se aprecia en Barra de Frmulas: =PROMEDIO(B5:G5) La figura siguiente presenta los datos, la Media Aritmtica y Desviacin Estndar para cada estudiante.Se observa que el alumno con el mejor rendimiento medio (4,9) es el N10 Gatica quien, adems, tiene la menor Desviacin Estndar (0,9) por lo que sera el estudiante de rendimiento ms parejo. Por el contrario, el alumno que tiene el rendimiento medio ms bajo (3,2) es el N7 Donoso. Sin embargo, el alumno con el rendimiento ms heterogneo es el N8 Figueroa pues tiene la mayor Desviacin Estndar (2,0).

b. Anlisis Considerando Todas las Notas de Pruebas y Promedio de Talleres

El anlisis siguiente considera las notas de las pruebas y el promedio de los talleres. Para ello la funcin empleada en el clculo del promedio de talleres, para primer caso 1. Acevedo Ana pues el resto se obtiene mediante Arrastre: =PROMEDIO(E5:G5) La funcin empleada en el clculo del promedio de notas (tres pruebas y promedio de talleres) es (para primer caso 1. Acevedo Ana) tal como se aprecia en la Barra de Frmulas de Excel: =PROMEDIO(B5:D5;H5) El resultado es el siguiente:

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 71

Se observa que el alumno con el mejor rendimiento medio (4,6) es el N9 Fuentes. Por el contrario, los alumnos que tienen el rendimiento medio ms bajo (3,0) es el N7 Donoso y el N13 Ponce. El N7 Donoso es el que tiene el rendimiento ms homogneo, pues su Desviacin Estndar (0,4) es la menor. Nuevamente, el alumno con el rendimiento ms heterogneo es el N8 Figueroa pues tiene la mayor Desviacin Estndar (2,4).
c. Anlisis Considerando Todas las Notas de Pruebas y Promedio de Dos Talleres Mejores

El anlisis siguiente considera las notas de las pruebas y el promedio de los dos talleres con mejores notas. Para ello la funcin empleada en el clculo del promedio de talleres, para primer caso 1. Acevedo Ana pues el resto se obtiene mediante Arrastre es: =PROMEDIO(K.ESIMO.MAYOR(E5:G5;1);K.ESIMO.MAYOR(E5:G5;2)) La funcin K.ESIMO.MAYOR(E5:G5;1) selecciona el valor ms alto del grupo que se ubica entre E5 y G5 (talleres de alumna Acevedo), la funcin K.ESIMO.MAYOR(E5:G5;2) selecciona el segundo valor ms alto del grupo que se ubica entre E5 y G5 (talleres de alumna Acevedo) y la funcin PROMEDIO calcula la Media Aritmtica de los dos. La funcin empleada en el clculo del promedio de notas (tres pruebas y promedio de dos talleres mejores) es (para primer caso 1. Acevedo Ana) la misma del caso anterior: =PROMEDIO(B5:D5;H5) El resultado se presenta en la pgina siguiente. Ah se observa que los alumnos con el mejor rendimiento medio (4,6) es el N9 Fuentes, el N10 Gatica y el N11 Leiva. Por el contrario, los alumnos que tienen el rendimiento medio ms bajo (3,2) es el N13 Ponce. El N7 Donoso y el N10 Gatica son los alumnos que tienen el rendimiento ms homogneo, pues su Desviacin Estndar (0,9) es la menor. Nuevamente, el alumno con el rendimiento ms heterogneo es el N8 Figueroa pues tiene la mayor Desviacin Estndar (2,4). Comparando los tres esquemas de promedios de actividades, se aprecia que la primera y la ltima de las alternativas producen un rendimiento medio general de 4,0 con Desviacin Estndar de 1,6.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 72

5.2. Ejercicio sobre Anlisis Descriptivo

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 73

5.3. COEFICIENTE DE CONFIABILIDAD (APLICACIN DE VARIANZA)

Un tema importante en investigacin (en particular en Investigacin de Mercados, en Diseo de Encuestas, en Psicometra, etc.) es el referente a la validacin de instrumentos, esto es, la valoracin de algunas caractersticas que se espera deben poseer los instrumentos aplicados en la medicin de constructos (psicolgicos o de otro tipo). Dentro de ese tema se encuentra el referente a la Confiabilidad, que corresponde a la capacidad de un instrumento (escala, test, prueba, etc.) para medir un rasgo en forma consistente, esto es, estable. Se espera que un instrumento que se aplica a un sujeto, pueda entregar resultados semejantes (no necesariamente idnticos) cada vez que se le aplica. Se han desarrollado diversos coeficientes para medir la confiabilidad. Uno de los ms populares es el llamado Alfa de Cronbach que sirve para medir la confiabilidad en instrumentos en que las preguntas se puntan en alguna escala (1 a 3 1 a 5) como ocurre en las Escalas de Actitudes (tipo Likert), o pueden ser codificadas como Correctas (1) o Incorrectas (0) como en las prtuebas de conocimientos. Pueden emplearse otras escalas adems (como notas de 1 a 7 etc.) Las escalas tipo Likert se caracterizan por consistir en aseveraciones (por ejemplo: Creo que la posicin del gobierno ante el conflicto con Irak refleja la opinin de los chilenos). Se espera que el sujeto manifieste su grado de acuerdo con la aseveracin planteada, seleccionando entre las alternativas de respuesta que son del tipo Muy de Acuerdo, De Acuerdo, Ni de Acuerdo ni en Desacuerdo, En Desacuerdo y Muy en Desacuerdo. Puede haber ms alternativas o menos. Se asignan puntajes segn el sentido que se espera de la respuesta. Si se desea medir el grado de adhesin a la posicin gubernamental, en el ejemplo, la asignacin de puntajes debe realizarse de modo que un mayor puntaje refleje un mayor grado de adhesin. As, el Muy de Acuerdo tendra 5 puntos y el Muy en Desacuerdo tendra 1 punto. Si la escala se aplica a un grupo de personas, interesa medir la consistencia de la misma para medir el constructo en estudio. Los datos que genera la aplicacin de la escala consistirn en respuestas a las aseveraciones de cada una de los sujetos. Con ello se tiene informacin con la cual se puede construir una base de datos, la cual consiste en un arreglo bidimensional (filas y columnas como una hoja EXCEL) ubicando en las columnas las variables (aseveraciones de la escala) y en las filas a los sujetos, con las respuestas a las diversas aseveraciones El coeficiente Alfa de Cronbach ( ) se define como:
= k (1 k 1

i Si2 ) siendo k = Nmero de tems, S 2 =Varianza del tem i-simo,


2 ST i 2 ST = Varianza de puntajes totales de sujetos

Ejemplo (Alfa de Cronbach):

Se aplic una escala tipo Likert para conocer las opiniones de un grupo de estudiantes acerca de las caractersticas del curso de Estadstica. Los resultados y el clculo del coeficiente Alfa de Cronbach se presentan a continuacin:
k = Nmero de tems= 7 i Si2 =Suma de Varianza de tems = 2,26+0,60++2,03 = 10,24
2 ST = Varianza de puntajes totales de sujetos = 28,69

k (1 k 1

i Si2 )
2 ST

7 10, 24 7 7 (1 ) = (1 0, 3569) = (0, 6431) = 0, 75 6 28, 69 6 6

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 74


R E S U L T A D O S D E E S C A L A L IK E R T ALUM NO 1 .A L F O N S O 2 . A N T O N IO 3. CARM EN 4 . E L A S 5. G ASPAR 6 . IS A B E L 7 .J O S E 8 . J O S E F IN A 9 . M A R IA 1 0 . P A U L IN A 11. P E D R O 12. R O B E R TO 13. R O S A SUM A M E D IA V A R IA N Z A M . ASEV1 5 5 2 4 5 3 3 4 5 4 5 1 1 47 3 ,6 2 2 ,2 6 ASEV2 4 4 2 4 4 4 4 4 2 4 4 3 3 46 3 ,5 4 0 ,6 0 ASEV3 4 4 2 3 5 3 2 2 2 2 4 2 3 38 2 ,9 2 1 ,0 8 ASEV4 3 4 2 3 5 5 2 2 5 4 4 3 2 44 3 ,3 8 1 ,4 2 ASEV5 3 4 4 5 5 5 3 4 2 4 3 1 2 45 3 ,4 6 1 ,6 0 ASEV6 4 3 2 3 3 3 1 1 3 1 4 2 4 34 2 ,6 2 1 ,2 6 ASEV7 5 3 3 3 4 1 2 5 4 5 4 1 2 42 3 ,2 3 2 ,0 3 TOTAL 28 27 17 25 31 24 17 22 23 24 28 13 17 296 2 2 ,7 7 2 8 ,6 9

(5: Muy de Acuerdo; 4: De Acuerdo; 3: Ni de Acuerdo ni en Desacuerdo; 2: En Desacuerdo; 1: Muy en Desacuerdo)

Un caso especial de este coeficiente es aquel en que los tems del instrumento (test, prueba) son dicotmicos (verdadero o falso; correcto o incorrecto, etc.). En este caso, se representa con 1 la respuesta correcta y con 0 la respuesta incorrecta. El coeficiente es llamado Kuder-Richardson 20.
Ejemplo 2 (Kuder-Richardson 20):

Se aplic una prueba de conocimientos de Estadstica Descriptiva a un grupo de estudiantes. Los resultados son los siguientes:
RESULT ADO S DE PRUEBA DE CO NO CIM IENT O S ALUM NO 1. ALFO NSO 2. ANTO NIO 3. CARM EN 4. ISABEL 5. JO SE 6. JO SEFINA 7.M ARIA 8. PEDRO 9. RO BERTO 10. RO SA SUM A M EDIA VARIANZA M . PREG 1 1 1 1 1 0 1 1 1 1 1 9 0,9 0,10 PREG 2 0 1 1 1 0 1 0 0 0 0 4 0,4 0,27 PREG 3 1 1 1 1 1 1 0 1 0 1 8 0,8 0,18 PREG 4 1 0 1 1 1 0 0 1 1 0 6 0,6 0,27 PREG 5 1 0 1 1 0 0 0 0 1 1 5 0,5 0,28 PREG 6 1 0 1 1 1 0 0 1 1 1 7 0,7 0,23 TO TAL 5 3 6 6 3 3 1 4 4 4 39 3,9 2,32

El clculo del coeficiente Alfa de Cronbach es:


k = Nmero de tems= 6 i Si2 =Suma de Varianza de tems = 0,10+0,27++0,23 = 1,33
2 ST = Varianza de puntajes totales de sujetos = 2,32

S2 k 6 1, 33 6 6 i i = (1 ) = (1 ) = (1 0, 5732) = (0, 4268) = 0, 512 2 k 1 5 2, 32 5 5 ST


5.4. Ejercicios sobre Confiabilidad (pg. Siguiente)

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 75

Ejercicios sobre Confiabilidad 1. Para los datos siguientes, obtenidos en de una prueba de 6 tems con una sola respuesta correcta (indicada con 1) aplicada a un grupo de 12 alumnos, verifique que la confiabilidad de la prueba, estimada con el coeficiente de confiabilidad Alfa de Cronbach, es 0,36.

ALUMNO PEDRO JOSE ANTONIO MARIA ALFONSO CARMEN MATAS CLAUDIA JOSEFINA ROBERTO ISABEL ROSA 2.

PREG1 1 1 1 1 1 1 1 1 1 1 1 1

PREG2 0 0 1 0 0 1 1 1 1 0 1 0

PREG3 1 1 1 0 1 1 0 1 1 0 1 1

PREG4 1 1 0 0 1 1 1 0 0 1 1 0

PREG5 0 0 0 0 1 1 1 1 0 1 1 1

PREG6 1 1 0 0 1 1 0 0 0 1 1 1

Los siguientes son los resultados obtenidos en la aplicacin de una escala para medir opiniones sobre el Reglamento de Evaluacin de la Carrrera. La escala contena 9 aseveraciones como Estimo que el sistema de Evaluacin aplicado en la carrera favorece a los alumnos con cuatro alternativas de respuesta cada una (Muy de Acuerdo=4, De Acuerdo=3, En Desacuerdo=2 y Muy en Desacuerdo=1). La escala se aplic a un grupo de 10 alumnos de dicha carrera. Verifique que la confiabilidad de la escala, estimada con el coeficiente Alfa de Cronbach, es igual a 0,53.

ALUMNO ALFONSO ANTONIO CARMEN ROSA GASPAR ISABEL JOSE JOSEFINA MARIA PAULINA

ASEV-1 ASEV-2 ASEV-3 ASEV-4 ASEV-5 ASEV-6 ASEV-7 ASEV-8 ASEV-9 4 4 4 3 3 4 4 4 1 4 4 4 4 4 3 3 2 2 2 2 2 2 4 2 3 4 1 4 4 3 3 4 3 3 3 2 4 4 4 4 4 3 4 4 4 3 4 3 4 4 3 1 1 4 3 4 2 2 3 1 2 2 2 4 4 2 2 4 1 4 3 2 4 2 2 4 2 3 4 4 4 4 4 2 4 4 1 4 4 3

3. Compruebe que el clculo del coeficiente Alfa de Cronbach tiene el mismo resultado si se emplean las varianzas poblacionales en vez de las muestrales.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 76

5.5. ESTANDARIZACIN DE VARIABLES (Aplicacin de Media Arit. y Desv. Estndar)

Otro tema de inters lo constituye la estandarizacin de variables, procedimiento mediante el cual se posibilita la comparacin de resultados individuales de variables que pueden expresarse en unidades diferentes y en escalas distintas. Este procedimiento, por ejemplo, permitira comparar las posiciones relativas de alumnos respecto al peso y respecto a la estatura. La estandarizacin de una variable X consiste en restar, a cada valor de la variable, la Media Aritmtica poblacional (llamada Esperanza y simbolizada por ) de la variable ( X ) y la diferencia dividirla por la Desviacin Estndar poblacional respectiva ( ). La variable transformada (estandarizada) se acostumbra a designarla con Z. Por lo tanto: X Z=

Si se tienen valores muestrales de una distribucin (Media Aritmtica X y Desviacin Estndar S) la expresin para la variable estandarizada es:
Z=

a) b) c)

X X S La importancia de esta transformacin radica en el hecho que los valores transformados: a) Respetan el orden de los elementos originales. Se expresan en una escala sin unidad, esto es, de nmeros relativos. La escala Z generalmente flucta entre -4 y 4 (enteros o fraccionarios). Pueden existir valores fuera de ese rango. Permiten comparar variables expresadas en unidades o escalas diferentes. Por ejemplo, se pueden comparar resultados expresados en metros con otro expresado en segundos; se pueden comparar puntajes asignados por distintos "jueces" los que pueden tener criterios diferentes para calificar (ms exigentes o menos), y se pueden comparar resultados de test en escalas distintas (por ejemplo, uno de 0 a 100 con otro de 300 a 500).

Ejemplo 1: A un curso de capacitacin, de 40 alumnos, se le aplicaron pruebas en tres asignaturas, con los siguientes resultados de Medias Aritmticas y Desviaciones Estndar de notas (escala 1 a 7). Se indican los resultados (notas) obtenidos por dos alumnos en ellas, Pedro y Mara, as como los puntajes estandarizados en cada asignatura, para los dos alumnos.

Por ejemplo, el puntaje estandarizado para Pedro en Psicologa se calcul as: 4, 5 4, 2 0, 3 = = 0, 23 Z1(Psic ) = 1, 3 1, 3 Tambin, el puntaje estandarizado para Mara en Psicologa se calcul as: 4, 0 4, 2 0, 2 = = 0,15 Z 2(Psic ) = 1, 3 1, 3 NOTAS Y PUNTAJES ESTANDARIZADOS EN TRES ASIGNATURAS
ASIGNATURA MEDIA ARITMTICA DESVIACIN ESTANDAR S NOTAS DE PEDRO X1 NOTAS DE MARA X2 PUNTAJES ESTNDAR DE PEDRO Z1 PUNTAJES ESTNDAR DE MARA Z2

Psicologa Estadstica Computacin

4,2 1,3 5,6 0,9 3,1 1,2 SUMA MEDIA ARITMETICA

4,5 4,5 4,5 13,5 X1 =4,5

4,0 5,8 3,7 13,5 X 2 =4,5

0,23 -1,22 1,17 0,18 Z1 =0,06

-0,15 0,22 0,50 0,57 Z 2 =0,19

Los resultados anteriores se pueden interpretar de diversos puntos de vista:

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 77

a) Los resultados medios de las notas en las asignaturas sealan que el mejor rendimiento lo obtuvo, el grupo, en Estadstica con una nota media de 5,6 puntos. El rendimiento ms bajo se aprecia en Computacin, donde el grupo obtuvo una nota media de 3,1 puntos. Por lo tanto, Computacin es la asignatura que result ms difcil al curso, siendo Estadstica la que result ms fcil. b) Considerando las notas, se aprecia que Pedro tiene un rendimiento parejo (4,5) en las tres asignaturas, mientras Mara tiene un rendimiento ms variable. Sin embargo, el promedio de las notas es igual para ambos (4,5). c) Considerando los puntajes estandarizados de Pedro se aprecia que tiene un desempeo relativo al curso que es variable. As, su mejor desempeo lo logr en Computacin (Z=1,17) pues su puntaje bruto (4,5) es bastante ms alto que el puntaje medio del grupo en esa asignatura (3,1). Su rendimiento relativo ms deficiente lo obtuvo en Estadstica con (Z =-1,22), pues el puntaje bruto de Pedro (4,5) en esa asignatura es muy inferior al puntaje medio del curso (5,6). d) Se aprecia que Mara tambin tiene un desempeo relativo al curso que es variable. As, su mejor desempeo lo logr en Computacin (Z=0,50) y el ms deficiente ocurri en Psicologa (Z=-0,15). e) Para resumir los rendimientos relativos de Pedro y Mara, se pueden calcular los promedios de sus puntajes estandarizados. Se aprecia que Mara tiene un mejor rendimiento medio ( Z 2 =0,19) que el logrado por Pedro ( Z1 =0,06) a pesar que sus puntajes brutos medios son iguales (4,5).
Ejemplo 2:

Con el objeto de distribuir incentivos, a un grupo de empleados se les aplicaron tres test, con los siguientes resultados de Medias Aritmticas y Desviaciones Estndar. Se indican los resultados (Puntajes Brutos) obtenidos en ellos por dos empleados, Pedro y Mara, as como los respectivos puntajes estandarizados de ellos: Por ejemplo, el puntaje estandarizado para Pedro en Liderazgo se calcul as: 30 22 8 = = 0, 79 Z1(Lid ) = 10,1 10,1 El puntaje estandarizado para Mara en Autonoma se calcul as: 48 43 5 = = 0, 59 Z 2(Aut ) = 8, 5 8, 5 PUNTAJES BRUTOS Y ESTANDARIZADOS EN TRES TEST
TEST Y ESCALA DE PUNTAJES MEDIA ARITMTICA DESVIACIN ESTANDAR S PUNTAJES BRUTOS DE PEDRO X1 PUNTAJES BRUTOS DE MARA X2 PUNTAJES ESTNDAR DE PEDRO Z1 PUNTAJES ESTNDAR DE MARA Z2

Liderazgo (0 a 50) Autonoma (20 a 60) Creatividad (50 a 150)

22 10,1 43 8,5 110 23,2 SUMA MEDIA ARITMETICA

30 56 92

20 48 127

0,79 1,53 -0,78 1,54 Z1 =0,51

-0,20 0,59 0,73 1,12 Z 2 =0,37

Los resultados anteriores se pueden interpretar comparando los puntajes dentro de cada test o mediante los puntajes estandarizados, puesto que las escalas tienen recorridos diversos. a) Comparando los puntajes dentro de cada test, se aprecia que Pedro tiene mejor desempeo que Mara en el test de Liderazgo (30 y 20 puntos respectivamente) y en Autonoma (56 y 48 puntos respectivamente) y Mara supera a Pedro en Creatividad (127 y 92 puntos respectivamente).

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 78

b)

En trminos de rendimientos relativos se ratifica lo antes indicado, como es natural. Pedro supera a Mara en Liderazgo (Z=0,79 mayor que Z=-0,20) y Autonoma (Z=1,53 supera a Z=0,59) y Mara tiene un mejor desempeo en Creatividad (Z=0,73 mayor que Z=-0,78). En trminos de los puntajes brutos, no se puede resumir el desempeo en los test pues las escalas son distintas. Sin embargo, los puntajes estandarizados posibilitan una apreciacin global de los desempeos en los tres rasgos, pues ellos si tienen una escala comn. Suponiendo que tenga sentido dicho resumen, se aprecia que Pedro tiene un mejor desempeo relativo medio ( Z1 =0,51) que Mara ( Z 2 =0,37).

c)

5.6. ESCALAS DERIVADAS 5.6.1. La Escala T

Los puntajes estandarizados o puntajes Z" se expresan en una escala con valores negativos y positivos, enteros o fraccionarios, lo que dificulta su interpretacin. Es posible presentar los puntajes estandarizados en escalas de valores enteros y positivos, para lo cual se realiza una transformacin de los valores Z. Las escalas derivadas mantienen las posiciones relativas de los puntajes Z. Una escala muy empleada es la escala T definida como: T= 10z + 50 As, en el Ejemplo 1 anterior, en Psicologa Pedro tiene puntaje estandarizado Z=0,23. El puntaje T que le corresponde ser: T= 10z + 50 = 10(0,23)+50 = 2,3 + 50 = 52,3 52 puntos Mara tiene puntaje estandarizado Z=-0,15 en Psicologa. Por lo tanto, su puntaje T ser: T= 10z + 50 = 10(-0,15)+50 = -1,5 + 50 = 48,5 = 49 puntos Se observa que Pedro tiene un puntaje T mayor que Mara, lo mismo que ocurra con los puntajes Z.
5.6.2. La Escala PAA

Otra escala empleada en nuestro medio es la empleada en la Prueba de Aptitud Acadmica, la cual se define como: PAA= 100z + 500 As, en el Ejemplo 1 anterior, en Estadstica, Pedro tiene puntaje estandarizado Z=-1,22. El puntaje PAA respectivo ser: PAA= 100z + 500 = 100(-1,22)+500 = -122 + 500 = 378 puntos Mara tiene puntaje estandarizado Z=0,22 en Estadstica. Luego, su puntaje PAA ser: PAA= 100z + 500 = 100(0,22)+500 = 22 + 500 = 522 puntos Se observa que Mara tiene un puntaje PAA mayor que Pedro, lo mismo que ocurre con los puntajes estandarizados.
5.7. PUNTAJES ESTANDARIZADOS Y PERCENTILES (Distribucin Normal Estndar)

Los puntajes estandarizados pueden asociarse con percentiles. Si la variable que se ha estandarizado queda bien representada por una distribucin Normal (si es as, se dice que la variable se distribuye como una Normal) entonces, pueden emplearse los valores tabulados de las probabilidades acumuladas para la distribucin Normal Estandarizada (que se pueden asociar a las frecuencias absolutas acumuladas). La tabla de la Distribucin Normal (con el ttulo de Tabla de la Funcin de Distribucin de la Normal Estandarizada) presenta las probabilidades acumuladas desde Z=-3,90 hasta Z=3,90 en dos pginas. La primera contiene los valores desde Z=-390 hasta Z=0 y la segunda, desde Z=0 hasta Z=3,90.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 79

En cada tabla se aprecian filas y columnas. En la primera columna (indicada con Z) se presentan los valores de Z con un decimal. En las restantes columnas, sealadas con 0, 1, 2,, 9 e identifican al segundo decimal de los valores de Z. En el cuerpo de la tabla se presentan los valores de las probabilidades acumuladas asociadas con valores especficos de Z. Por ejemplo, para determinar la probabilidad acumulada hasta Z=1,62 (lo que denota como (1,62)) se ubica en la primera columna (Z) la fila correspondiente a 1,6. En esa fila, avanzar hasta ubicar columna marcada 2. En la interseccin de fila 1,6 y columna 2 se lee el valor 0,9474 que es la probabilidad acumulada hasta Z=1,62. Luego, (1,62)=0,9474.
TABLA: Valores de la funcin de distribucin normal estndar

z 1,5 1,6 1,7

0,9474

Para obtener los percentiles asociados con un valor de Z basta multiplicar la probabilidad acumulada por 100. Por ejemplo, siendo (1,62)=0,9474 el percentil asociado con Z=1,62 es 94,7495.
Ejemplo

Determine los percentiles asociados con los resultados de Pedro y Mara en ejemplo anterior sobre notas, en tres asignaturas del curso de 40 alumnos.
NOTAS, PUNTAJES ESTANDARIZADOS Y PERCENTILES EN TRES ASIGNATURAS
MEDIA ARIT. ASIGNATURA Psicologa Estadstica Computacin SUMA MEDIA ARITM DESV. EST.

RESULTADOS PARA PEDRO


NOTAS

RESULTADOS PARA MARA


PERCENTIL NOTAS PUNT. ESTND. PROBAB. ACUMUL. (Z1) PERCENTIL

X
4,2 5,6 3,1

S
1,3 0,9 1,2

X1
4,5 4,5 4,5 13,5 4,5

PUNT. ESTND.

Z1
0,23 -1,22 1,17 0,18 0,06

PROBAB. ACUMUL. (Z1)

X2
4,0 5,8 3,7 13,5 4,5

Z2
-0,15 0,22 0,50 0,57 0,19

0,5910 0,1112 0,8790 1,5812 0,5239

59 11 88 158 52

0,4404 0,5871 0,6915 1,7190 0,5753

44 59 69 172 57

En la tabla anterior se presentan las estimaciones de probabilidades acumuladas y percentiles para Pedro y Mara, en las tres asignaturas. Las conclusiones son las mismas detalladas antes pues percentiles mantienen las posiciones relativas de los rendimientos, en las asignaturas y de resumen. Empleando los percentiles, podra estimarse que Pedro, en la asignatura de Psicologa, supera al 59% de los 40 alumnos del curso, esto es aproximadamente 24 alumnos, y es superado por los restantes 16. Anlogamente, Mara supera slo al 44% de los 40 alumnnos, esto es, 18 alumnos aproximadamente, y es superada por los restantes 22 alumnos. Lo anterior ratifica que Pedro tiene un mejor rendimiento que Mara en esa asignatura.
Observaciones (olvidables):

a)

Por problemas de aproximacin, se observa para Pedro (y tambin para Mara) una pequea discrepancia en los resultados medios (ltima fila) pues la probabilidad acumulada para 0,06 es (0,06)=0,5239 (y percentil 52 como se indica) pero el promedio de las probabilidades acumuladas es igual a 1,5812/3 = 0,5270 (que corresponde al percentil 53). Se puede comprobar que la nota media del curso en las tres asignaturas es 4,3 y la desviacin estndar global, para las tres asignaturas, es 1,53. Como el promedio de Pedro y Mara es 4,5 el puntaje estandarizado respectivo es Z= (4,5-4,3)/1,53 = 0,13 siendo la probabilidad acumulada (0,13)=0,5517 lo que corresponde al percentil 55. Este valor es diferente a los otros. En sntesis,

b)

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 80

los tres valores de percentiles son estimaciones de resumen para lograr una interpretacin global de la informacin. c) La tabla de la Distribucin Normal Estandarizada contiene puntajes estandarizados Z entre -3,9 y 3,9. Sin embargo, Z puede tener otros valores. Por ello, se considera que la probabilidad acumulada para Z<-3,9 es cero y cuando Z>3,9 es uno. Esto es (Z<-3,9)=0 y (Z>3,9)=1. La Distribucin Normal, aqu presentada, es muy importante en Estadstica, en los temas de Probabilidades y de Inferencia.

d)

5.8. EJERCICIOS SOBRE ESTANDARIZACIN

1.

Los resultados en los test de conocimientos de los exmenes de tres asignaturas, de un curso de 60 alumnos, as como los del alumno Matas, son los siguientes puntajes. ASIGNATURA ALGEBRA FSICA INGLS a) b) c) MEDIA 48 40 80 DESV. ESTANDAR 12 8 15 MATAS 54 45 108

Obtenga los puntajes estandarizados para Matas, en las asignaturas. Obtenga los puntajes T y PAA para Matas, para las asignaturas. Suponiendo normalidad para la distribucin de los rendimientos, estime los percentiles que ocupa Matas en las asignaturas. d) Estime cuntos alumnos superan a Matas en cada asignatura e) Estime el rendimiento medio de Matas en las tres asignaturas. (Resp. para lgebra: Z=0,5 ; T=55; PAA=550; Percentil 69,1569; N alumnos que superan a Matas en lgebra=41,441 alumnos; Rendimiento medio, en las tres asignaturas, de Matas Z =1,00, percentil 84). En un test de conocimientos de Historia, Claudia obtuvo 50 puntos, que equivalen a un puntaje T=60 y Eduardo obtuvo 44 puntos, que equivalen a un puntaje T=55. Estime el puntaje medio y la desviacin estndar del test de Historia. (Resp: Media=38 puntos y Desviacin Estndar=12 puntos). Se tiene la informacin siguiente sobre Peso y Talla de una muestra estudiantes hombres de 14 y 17 aos de estudiantes de establecimientos municipalizados de Valparaso. Tambin se tiene el peso y talla de dos estudiantes Antonio (14 aos) y Cristin (17 aos).
14 AOS Peso (k) Talla (cm 56,0 164,9 8,95 6,62
62,3 169 63,4 176

2.

3.

CARACTERSTICA

Media Aritmtica Desviacin Estndar


Antonio (14 aos) Cristin (17 aos)

17 AOS Peso (k) Talla (cm) 66,9 173,1 11,54 6,02

b) c)

Determine la posicin relativa de Antonio y Cristin respecto a su grupo, tanto en peso como en talla, empleando puntajes estndar y percentiles (Cul es ms alto?, Cul es ms delgado?). Suponiendo que tiene sentido resumir las caractersticas de peso y talla, promediando sus posiciones relativas (puntajes estndar o percentiles), determine dichas posiciones promedio e intente caracterizarlas.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 81

6. CORRELACION 6.1. DATOS BIVARIANTES Y RELACIN DE VARIABLES

Los datos bivariantes son aquellos en que dos variables (de cualquier tipo) son medidas en cada una de las unidades de observacin o de anlisis. Esto es, se dispone de un conjunto de n pares ordenados de valores para las unidades de observacin, del tipo (Xi;Yi) (i=1,2,..,n) en que X e Y representan las variables, esto es : (X1, Y1), (X2, Y2), (Xn, Yn).
Ejemplo 1: Para cada alumno de la carrera, se registran su talla (cm) y su peso (kg); Ejemplo 2: Para cada mes desde 2000 a la fecha se registra el nmero de prstamos a domicilio de la Biblioteca Severn Ejemplo 3: Para nios de 8 a 10 aos, se registra la edad (en meses) y el tiempo (seg) empleado en leer un texto determinado. Ejemplo 4: Para la ciudad de Valparaso entre 1950 y 2002, los totales de agua cada en el ao (en mm) y el total de alumnos inscritos en Primer ao de Ed. Bsica.

La representacin de los pares de valores se realiza mediante los grficos de dispersin. stos semejan nubes de puntos, pues corresponden a la representacin de los puntos definidos por los pares ordenados que definen el conjunto de valores estudiado. Estos grficos permiten evidenciar si existe o no relacin entre las variables. Si sta existe, el grfico pone en evidencia el sentido y, en menor medida, la magnitud de la relacin entre las variables (tengan o no sentido lgico). Si existe relacin entre las variables, sta puede ser lineal (en forma de una recta) o no lineal (o curvilnea, en forma de una curva como una parbola, o exponencial etc.). Nos interesarn las relaciones lineales, pues son ms sencillas de estudiar e interpretar. Los problemas de inters, estudiados por la Estadstica, generados por los datos bivariantes son de dos tipos: a) la asociacin o correlacin, y b) la regresin. La asociacin o correlacin corresponde al estudio del grado la magnitud y direccin de la relacin que existe entre las variables. La regresin corresponde a la definicin de la expresin matemtica (ecuacin) que representa la relacin de las variables.
6.2. LA ASOCIACIN ENTRE VARIABLES

En Economa, Administracin, Psicologa, as como en muchas otras reas del conocimiento, se considera importante medir la magnitud as como la direccin de la relacin o asociacin que puede existir en las variables que forman el par de los datos bivariantes, partiendo del supuesto que dicha relacin tiene sentido. As ocurre en los tres primeros ejemplos. En el cuarto ejemplo, no se aprecia que pueda existir alguna relacin o asociacin lgica entre las variables. Si existe relacin lgica entre las variables, es interesante cuantificar la magnitud as como la direccin de la asociacin. La magnitud se traduce en la asignacin de un valor a la misma, de modo que un mayor valor correspondera a un mayor grado de asociacin entre las variables. La direccin corresponde a la caracterizacin del sentido de la misma, esto es, si al aumentar una variable la otra tambin aumenta (direccin positiva o directa) o al aumentar una variable la otra disminuye (direccin negativa o inversa). En los ejemplos anteriores se puede apreciar que en los casos de Ejemplo 1 y Ejemplo 2 la asociacin es directa. En el Ejemplo 3, la asociacin es inversa.
6.3. COEFICIENTE DE CORRELACIN DE PEARSON

El grado de la relacin lineal existente las variables que definen los datos bivariantes se mide con un coeficiente denominado "COEFICIENTE DE CORRELACION LINEAL". Existen diferentes coeficientes, dependientes de la naturaleza de las variables involucradas. Uno de los ms importantes es el Coeficiente de Correlacin Lineal de Pearson.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 82

El Coeficiente de Correlacin de Pearson es una medida de asociacin entre variables X e Y, medidas en una escala intervalar al menos. Si bien tiene una definicin terica, la siguiente corresponde a su definicin operativa, basada en los resultados observados (muestrales), y por ello el coeficiente se designa por "r"

r=

Z
i =1

Xi

ZYi

n 1

r=

(X
i =1 n i =1

X )(Yi Y )
2

(Xi X )

(Yi Y )
i =1

=
2

X Y nXY
i =1 i i

X Y nXY
=
2 2

i =1

i i

( X nX ) ( Yi nY )
i =1 2 i 2 i =1

2 2 (n 1) S X (n 1) SY

6.4. PROPIEDADES DEL COEF. DE PEARSON

Las propiedades ms notables del Coeficiente de Correlacin de Pearson son: 1. 2. El valor del coeficientes flucta entre: -1 r 1 El valor r>0 significa que las variables estn asociadas directamente (en forma lineal). r=0 significa que las variables no estn asociadas linealmente. r<0 significa que las variables estn asociadas inversamente (en forma lineal).
r = 1 cuando todos los puntos muestrales caen en la recta de prediccin.

3. 4. 5.

Mientras mayor es el valor absoluto de r, ms fuerte es el grado de asociacin lineal de las variables. El valor de r no depende de las unidades en que se miden las variables. 6. 7. r es una medida simtrica. Esto es, no importa que se desee la relacin de X con Y o de Y con X puesto que el valor de r ser el mismo. El coeficiente de correlacin es apropiado slo cuando el modelo de relacin lineal entre las variables es apropiado (pues r es proporcional a la pendiente de la ecuacin de regresin que mide la fuerza de la asociacin lineal entre X e Y). Si hay una relacin curvilnea entre las variables, r puede fallar en detectarla. En tal caso, un valor bajo de r no implica que las variables no estn asociadas, slo que la asociacin no es lineal. Cabe hacer notar, que cualquier coeficiente de correlacin puede ser calculado numricamente ante cualquier par de observaciones del tipo (Xi; Yi); no obstante carece de sentido en todos aquellos casos que se prefije de antemano una de las variables - usualmente X - para observar el resultado de la otra variable Y.

8.

6.5. CALCULO DEL COEFICIENTE DE CORRELACIN DE PEARSON 6.5.1. Clculo con Calculadora y Excel

El clculo de r con calculadora es la forma ms simple de obtener su valor, adems de otros valores asociados con el tema de Regresin. Este mtodo requiere de una calculadora que pueda operar con datos bivariantes. En el Apndice sobre uso de la calculadora se indica el procedimiento de clculo. En general, las calculadoras sealan con r el valor del coeficiente de correlacin lineal de Pearson. Con Excel se puede obtener el valor del Coeficiente de Correlacin con el comando =COEF.DE.CORREL(Ubicacin var. X; Ubicacin var. Y).

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 83

Por ejemplo si X esta en columna B desde B2 a B6 y la variable Y esta en columna C desde C2 a C6 la instruccin que debe escribirse es =COEF.DE.CORREL(B2:B6;C2:C6). El valor del Coeficiente de Correlacin Excel lo ubica donde se encuentre el cursor, al momento de escribir el comando, en el ejemplo es r=0,93
Ejemplo: Se emplear datos de pesos y estaturas de 5 personas, que se presentan a continuacin, as como el Grfico de Dispersin realizado con Excel
GRFICO DE DISPERSIN (datos de Peso yTalla)

CASO 1 2 3 4 5

X: PESO (K)

Y: TALLA (cm)

170 165 TALLA (cm) 160 155 150 145 140 30 40 PESO (K) 50 60

32 55 45 44 51

144 165 150 158 162

El resultado observado para el Coef. de Correlacin r=0,93 se puede interpretar como la existencia de gran asociacin entre el peso y la talla de las personas. Observar que en el comando de Excel se indica slo donde estn los datos de varables X e Y , sin considerar los rtulos de identificacin que los acompaan.
b) Clculo con los datos originales

Cuando no se dispone de Excel o una calculadora apropiada, se puede calcular el Coef. de Correlacin manualmente. El procedimiento es el siguiente.
Persona A B C D E TOTAL Media Arit. Desv. Estndar Varianza X: PESO (k) 32 55 45 44 51 227 45,40 8,73 76,30 Y: TALLA (cm) 144 165 150 158 162 779 155,80 8,67 75,20 XY 4.608 9.075 6.750 6.952 8.262 35.647

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 84

2 2 (n 1) S X (n 1) SY 35.647 5(45, 4)(155,8) 35.647 5(7.073,32) 35.647 35.366, 60 280, 4 = = = = = 0,9254 302,99 (4)(76,3) (4)(75, 2) (305, 2) (300,8) 91.804,16

r=

X Y nXY
i =1 i i

6.6. EJERCICIOS

1. En el ejemplo anterior, verifique los resultados empleando la frmula no utilizada. 2. Los datos siguientes corresponden a resultados en una prueba (X) y en el examen final (Y), obtenidos por un grupo de 20 estudiantes. Compruebe clculos parciales y que r=0,29.
ALUMNO 1 2 3 4 5 6 7 8 9 10

X:PRUEBA 1 84 70 87 68 81 96 90 82 89 70

Y:EX.FINAL

ALUMNO 11 12 13 14 15 16 17 18 19 20

66 77 84 56 86 81 79 82 81 84

X:PRUEBA 1 88 65 87 89 69 80 75 84 76 74

Y:EX.FINAL

81 74 74 74 74 71 94 83 68 69

CALCULOS PARCIALES X = 1.604 Y = 1.538 XY = 123.759 X2 = 130.124 Y2 = 119.632 Media X = 80,2 Desv. Est. X = 8,835 Media Y = 76,9 Desv. Est. Y = 8,46

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 85

6.7. SIGNIFICACIN DEL COEFICIENTE DE CORRELACIN

La interpretacin del significado del valor del Coeficiente de Correlacin r es simple cuando tiene los valores 1, -1 o cero. Sin embargo, en otros casos esto no es tan simple. Por ello, para lograr alguna interpretacin del valor de r se recurre a la Inferencia. Si se considera una poblacin de N datos bivariantes, esto es (Xi;Yi) (i=1,2,..,N), el Coeficiente de Correlacin lineal de Pearson se designa con la letra griega (ro). Si las variables que conforman la poblacin de pares ordenados son independientes, esto es, no existe alguna relacin entre las mismas su Coeficiente de Correlacin vale 0 (o sea, =0). Sin embargo, si se seleccionan muestras de n datos de esa poblacin, los Coeficientes de Correlacin muestrales (r) no necesariamente tendrn el valor 0, si no que pueden tomar otros valores (cercanos o alejados de 0). El problema se plantea, entonces, del modo siguiente. Si se tiene un Coeficiente de Correlacin r calculado a partir de una muestra de datos bivariantes, puede provenir de una poblacin en que las variables son independientes y, por lo tanto, su Coeficiente de Correlacin poblacional =0?. Si la respuesta es positiva ello significar que las variables no tienen relacin (lineal). Si la respuesta es negativa, ello indicar que existe algn grado de relacin (lineal9 entre las variables. En Inferencia se estudian tcnica que pueden responder adecuadamente al problema. Sin embargo, tambin se puede obtener una conclusin al usar la Tabla para la Valores Crticos del Coeficiente de Correlacin de Pearson (al final de la seccin). Dicha tabla entrega, para un valor de g.l. grados de libertad el valor absoluto mximo del Coeficiente de Correlacin muestral r que podra observarse siendo el Coeficiente de Correlacin poblacional igual a cero (=0). El valor de g.l. es igual al tamao de la muestra menos 2, esto es, g.l.=n-2. El riesgo de tomar una decisin incorrecta corresponde al Nivel de Significacin y se presentan cuatro niveles de riesgo, 0,10 ( o 10%); 0,05 (o 5%); 0,02 (2%) y 0,01 (1%). Por ejemplo, anteriormente se calcul la correlacin entre peso y talla para 5 personas obtenindose r=0,9254. La hiptesis planteada es Existe realmente correlacin entre Peso y Talla para la poblacin de la cual se obtuvo la muestra anterior?, o Estn asociadas linealmente las variables peso y talla en la poblacin en estudio?. Buscando en la tabla, como n=5 se emplea el valor de g.l=5-2=3. En esa fila y bajo la columna 0,05 (nivel de significacin del 5%) se lee 0,878.
Valores Crticos para el Coeficiente de Correlacin g.l.=n-2 0,10 0,05 0,02 0,01 1 2 0,878 3 4

La interpretacin de lo anterior es (para g.l.=3), siendo r el valor observado de la correlacin: Si 0,878<r<0,878 se acepta que =0, luego, no existe relacin lineal entre las variables en la poblacin. Si r<-0,878 se concluye que <0, esto es, existe asociacin inversa entre las variables. Si r>0,878 se concluye que >0, esto es, existe asociacin directa entre las variables. Como en el ejemplo se obtuvo r=0,9254, que es mayor a 0,878, por lo tanto se rechaza la hiptesis que =0, concluyndose que >0, esto es, que existe una relacin lineal directa entre las variables peso y talla (suponiendo un riesgo del 5% que la conclusin anterior es incorrecta). La tabla presenta los valores de g.l. entre 1 y 30. Despus cada 5, cada 10 etc. hasta 250. Si el valor de g.l para un ejemplo particular no se encuentra, se tomar el ms prximo.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 86

6.8. OTROS COEFICIENTES ASOCIADOS CON EL DE PEARSON

En Psicologa, como en otras reas, se emplean diversos coeficientes para medir la asociacin entre variables. Presentaremos algunos que pueden calculares con las frmulas o tcnicas presentadas para el Coeficiente de Correlacin de Pearson (calculadora, computador, etc) aunque tambin tienen frmulas especficas para su clculo.
6.8.1. Coeficiente de Correlacin por Rangos, de Spearman

Se entiende por rango de las observaciones a la ubicacin relativa de stas, como lugar que ocupa en el grupo 1, 2, 3, etc. Los rangos pueden ser la forma natural de una clasificacin como en el caso de un juez que evala a participantes de una competencia (1, 2, 3 etc.), o de postulantes a un cargo. Tambin los rangos pueden ser inducidos por los valores de los datos (ordenar estaturas por la magnitud de menor a mayor: el ms bajo ocupa el rango 1, el siguiente el 2 etc.).
Ejemplo: Dos jefes califican el desempeo de 7 secretarias, asignando lugares al desempeo (1, 2,, 7). Se desea conocer el grado de concordancia entre las calificaciones entregadas por los jefes. Compruebe que la correlacin entre calificaciones de los jefes es r=0,7857 EJECUTANTE JEFE 1=(Xi) 1 2 3 4 5 6 7 JEFE 2=(Yi) 2 4 1 3 6 5 7

Alejandra Mara Rosa Doris Juana Estela Carmen

Para interpretar del valor obtenido, si se considera al grupo de secretarias como una muestra aleatoria, se puede emplear la Tabla de Valores Crticos del Coeficiente de correlacin. Para =0,05 y fila 5 se obtiene el valor crtico de r=0,755. Como el valor obtenido para r=0,786 que es superior al anterior, se concluye que existe correlacin significativa entre las ordenaciones de los jueces, por lo tanto son concordantes sus criterios de ordenacin (con un riesgo del 5%).
6.8.2. Coeficiente de Correlacin Biserial Puntual

El nombre de Coeficiente de Correlacin Biserial Puntual se ha reservado para la medida de la correlacin cuando una variable es dicotmica y la otra es continua. En Psicometra se emplea para medir la DISCRIMINACIN de un tem o pregunta de un test o prueba (suponiendo que el tem slo tiene respuesta correcta o incorrecta, como los del tipo verdadero o falso, seleccin mltiple, etc.). Se dice que un tem Discrimina o tiene poder discriminatorio si aquellos que contestan bien el tem obtienen puntajes altos en el test y aquellos que contestan mal el tem obtienen puntajes bajos en el test. Si un tem discrimina, entonces la correlacin (r) entre el tem y el puntaje total debe ser alta y positiva. Este coeficiente puede calcularse empleando la frmula de Pearson (o calculadora o computador).
Ejemplo:

Se aplic un test para medir el nivel de conocimientos sobre los aspectos legales de una reparticin pblica a los asistentes a un curso de capacitacin sobre ese tema.Los siguientes son los resultados en un tem (1: respuesta correcta; 0= respuesta incorrecta) y en la prueba completa obtenidos por 10 participantes. Compruebe (con calculadora, frmula de Pearson) que la discriminacin del tem es r=0,6798 y que es significativa (considerando el 5% de nivel de significacin).

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 87

ALUMNO

Alejandra Andrea Carmen Claudia Cristin Eduardo Enrique Mara Pedro Tito
6.8.3. Coeficiente de Correlacin Phi ()

Datos originales ITEM (X) PUNT.TOTAL (Y) 1 52 1 47 0 22 1 56 0 42 1 36 0 38 1 49 0 25 1 38

El Coeficiente se emplea para estimar la correlacin cuando las dos variables son dicotmicas. Por ejemplo, sexo (femenino, masculino) o respuesta a un tem (correcto o incorrecto).
Ejemplo: En el test del ejemplo anterior, se desea estudiar la relacin entre las respuestas dadas por 10 participantes a dos tems de una prueba (que se presentan a continuacin). Con 1 se indica respuesta correcta y con 0 respuesta incorrecta. - Compruebe que la correlacin de Pearson es 0,2182 y que no es significativa al 5%. Interprete el resultado.
Datos de respuesta a tems ALUMNO ITEM 1 ITEM 2 (X) (Y) Alejandra 1 0 Andrea 1 1 Carmen 0 1 Claudia 1 1 Cristin 0 1 Eduardo 0 0 Enrique 0 0 Mara 1 1 Pedro 0 1 Tito 1 1

Para estudiar la significacin se emplea la tabla para el Coeficiente de Correlacin con g.l.=10-2=8. El valor crtico para el 5% de significacin es 0,632. Dado que el valor de r=0,2182 es menor que el de significacin de la tabla (0,632) se acepta que =0. La interpretacin es que las respuestas a los tems son independientes, esto es, la respuesta a un tem no influye en la respuesta al otro.
6.8.4. Coeficiente de Correlacin Biserial

El nombre de Coeficiente de Correlacin Biserial se ha reservado para la medida de la correlacin cuando una variable es continua y la otra se dicotomiza, aunque su naturaleza no es dicotmica. . Por ejemplo, se podra correlacionar el peso (continua) con talla (tambin continua) pero dicotomizada en alto con valor 1 (si talla es superior a 168 cm.) o bajo con valor 0 (si talla es inferior a 168 cm.). Este coeficiente no es un caso especial del coeficiente de Pearson, aunque se puede emplear dicho coeficiente como una estimacin del mismo. Tambin se emplea para medir Discriminacin.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 88

6.9. CORRELACIN Y CONFIABILIDAD

La Confiabilidad corresponde a la capacidad de un instrumento (test) para medir un rasgo en forma consistente, esto es, estable. Se espera que un instrumento que se aplica a un sujeto, pueda entregar resultados semejantes (no necesariamente idnticos) cada vez que se le aplica. Anteriormente se present el Coeficiente de Confiabilidad denominado Alfa de Cronbach el que se defini en funcin de las varianzas de los puntajes de los tems y puntajes totales. Ese coeficiente tambin se puede calcular en funcin de las correlaciones entre los tems, segn la frmula siguiente: Si se tienen k tems y se calculan las correlaciones entre ellos, siendo r el promedio de dichas correlaciones, entones, el coeficiente Alfa de Cronbach se define como:

k r 1 + (k 1)r

6.9.1. Ejemplo (el mismo visto en Medidas de Dispersin):

Se aplic una escala tipo Likert (con 7 aseveraciones) para conocer las opiniones de un grupo de 13 estudiantes acerca de las caractersticas del curso de Estadstica. Los resultados del clculo del Coeficiente de Confiabilidad Alfa de Cronbach ( ) se presentan a continuacin:
RESULTADOS DE ESCALA LIKERT ALUMNO 1.ALFONSO 2. ANTONIO 3. CARMEN 4. ELAS 5. GASPAR 6. ISABEL 7.JOSE 8. JOSEFINA 9. MARIA 10. PAULINA 11. PEDRO 12. ROBERTO 13. ROSA ASEV1 5 5 2 4 5 3 3 4 5 4 5 1 1 ASEV2 4 4 2 4 4 4 4 4 2 4 4 3 3 ASEV3 4 4 2 3 5 3 2 2 2 2 4 2 3 ASEV4 3 4 2 3 5 5 2 2 5 4 4 3 2 ASEV5 3 4 4 5 5 5 3 4 2 4 3 1 2 ASEV6 4 3 2 3 3 3 1 1 3 1 4 2 4 ASEV7 5 3 3 3 4 1 2 5 4 5 4 1 2

ASEV2 ASEV3 ASEV4 ASEV5 ASEV6 ASEV7

Correlaciones entre los items ASEV1 ASEV2 ASEV3 0,407 0,514 0,469 0,554 0,118 0,430 0,408 0,489 0,346 0,202 -0,029 0,689 0,708 0,180 0,182

ASEV4

ASEV5

ASEV6

0,259 0,307 0,091

-0,099 0,213

-0,044

Se tiene que el n de tems es k=7 , luego hay 21 correlaciones cuyo promedio es


r =
0, 407 + 0,514 + ... + (0, 044) 6,393 = = 0,3044 21 21

El valor del Coeficiente de Confiabilidad Alfa de Cronbach ( ) es:

k r 7 (0,3044) 2,1308 2,1308 2,1308 = = = = = 0, 7538 1 + (k 1)r 1 + (7 1)(0,3044) 1 + 6(0,3044) 1 + 1,8264 2,8264

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 89

6.9.2. Observacines

a) b) c) d)

El valor de =0,754 coincide con el obtenido antes. La tabla de correlaciones anteriores permite apreciar que la correlacin ms alta y directa se produce entre los tems 1 y 7 (r=0,708) y la ms baja entre los tems 2 y 6 (r=-0,029) la que adems es inversa. A medida que la correlacin entre los tems es ms alta, mayor resulta ser el valor de . Si la correlacin para cada uno de los pares de tems es la mxima (r=1) entonces =1. Esto corresponde a la consistencia mxima del test. Si la correlacin para cada uno de los pares de tems es nula (r=0) entonces =0. Esto corresponde a la consistencia mnima del test. Pueden obtenerse valores de negativos, lo que a veces ocurre en test aplicados a una muestra pequea de individuos o que tienen un nmero reducido de tems.

6.10. EJERCICIOS

1.

Los siguientes son los resultados de una prueba aplicada a 10 alumnos. Con 1 se indica respuesta correcta y con 0 respuesta incorrecta, Total seala el total de respuestas correctas de cada alumno. (Este es el mismo ejemplo de Confiabilidad presentado en Estadsticas de Dispersin):
R E S U L T A D O S E N P R U E B A D E C O N O C IM IE N T O S ALUM NO 1. A LFO N SO 2 . A N T O N IO 3. C AR M EN 4 . IS A B E L 5. JO S E 6 . J O S E F IN A 7 .M A R IA 8. PED R O 9. R O BER TO 10. R O SA PREG1 1 1 1 1 0 1 1 1 1 1 PREG2 0 1 1 1 0 1 0 0 0 0 PREG3 1 1 1 1 1 1 0 1 0 1 PREG4 1 0 1 1 1 0 0 1 1 0 PREG5 1 0 1 1 0 0 0 0 1 1 PREG6 1 0 1 1 1 0 0 1 1 1 TOTAL 5 3 6 6 3 3 1 4 4 4

C o r re la c io n e s e n tre re s p u e s ta s a P re g u n ta s y c o n e l P u n ta je T o ta l
PREG1 PREG 1 PREG 2 PREG 3 PREG 4 PREG 5 PREG 6 TO TAL PREG2 PREG3 PREG4 PREG5 PREG6 TOTAL

1 ,0 0 0 0 ,2 7 2 -0 ,1 6 7 -0 ,2 7 2 0 ,3 3 3 -0 ,2 1 8 0 ,2 0 8

1 ,0 0 0 0 ,4 0 8 -0 ,1 6 7 0 ,0 0 0 -0 ,3 5 6 0 ,3 3 9

1 ,0 0 0 0 ,1 0 2 0 ,0 0 0 0 ,2 1 8 0 ,4 8 4

1 ,0 0 0 0 ,4 0 8 0 ,8 0 2 0 ,6 4 9

1 ,0 0 0 0 ,6 5 5 0 ,7 6 1

1 ,0 0 0 0 ,7 0 9

1 ,0 0 0

a. Compruebe los valores de las correlaciones entre las preguntas (indicadas en la tabla, calculadas con Excel). b. Considerando slo las 15 correlaciones entre preguntas distintas, compruebe que el promedio de las correlaciones es 0,1346 y que el valor del coeficiente Alfa de Cronbach es 0,483. c. Estudie la discriminacin de los tems mediante significacin de las correlaciones entre pregunta y puntaje total. Compruebe que discriminan, pues son significativas al 5%, las correlaciones en negrita. (Verifique: Valor crtico para el 5% de significacin es r=0,632) d. Identifique los tem que presentan asociacin en sus respuestas al 5% de significacin. (Resp.: Preg. 4 con 6 y 5 con 6). Y asociacin al 1% ((Resp.: Preg. 4 con 6 con valor crtico r=0,765) e. Identifique el tipo de correlacin al que corresponde la correlacin entre tems y la de los tems con el total. 2. Los siguientes son los puntajes obtenidos por 12 adolescentes sordomudos en la escala WAIS (Weschler Adult Intelligence Scale) y 4 escalas de orientacin vocacional profesional. Un puntaje mayor significa una mayor aptitud. a. Compruebe las correlaciones indicadas, obtenidas con Excel.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 90

b. c. d. e.

Determine aquellas correlaciones que son significativas al 5%. Determine aquellas correlaciones que son significativas al 1%. Identifique las escalas vocacionales que presentan mayor correlacin entre s, y las que presentan la menor correlacin entre s. Interprete esos resultados. Identifique la escala vocacional que presenta la mayor correlacin con la escala WAIS, as como aquella en que la correlacin es ms baja. Interprete los resultados.
PUNTAJES EN LAS ESCALAS
CASO PUNTAJE W AIS ADMINISTRACIN COMERCIO TCNICA ARTESANIA

1 2 3 4 5 6 7 8 9 10 11 12

99 103 111 116 127 117 114 113 122 113 120 108
PUNT. W AIS

15 24 17 5 9 5 14 13 24 15 14 12
ADMINIST.

33 20 37 42 40 48 34 33 20 32 43 36
COMERCIO

16 20 13 8 6 3 7 13 16 12 10 11
TCNICA

25 40 21 20 18 17 31 35 35 27 17 28
ARTESANIA

Correlaciones entre pruebas PUNT. W AIS ADMINIST. COMERCIO TCNICA ARTESANIA


1,000 -0,293 0,322 -0,587 -0,401

1,000 -0,900 0,857 0,723

1,000 -0,846 -0,892

1,000 0,708

1,000

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 91

7. REGRESIN LINEAL 7.1 RELACIONES ENTRE VARIABLES

El "Anlisis de Regresin" es una herramienta estadstica que estudia la relacin entre dos o ms variables cuantitativas seleccionando el mejor modelo matemtico que permita expresar dicha relacin mediante una ecuacin. Dicha ecuacin, adems de modelar una situacin posibilita la prediccin. En Economa, Administracin, Psicologa etc. es importante este tema pues posibilita relacionar variables, puntajes en pruebas y obtener medidas de presencia de ciertos atributos o rasgos o desempeos. Por ejemplo, es interesante estudiar la relacin entre incentivos y productividad; inversin en publicidad y ventas, entre el precio del cobre promedio mensual y mes, entre los puntajes de la PAA y el desempeo en la universidad. Si se encuentra la relacin entre estas variables, se podra predecir el desempeo de un alumno analizando su resultado en la PAA. Es interesante, tambin, estudiar el desempeo de dos test que miden el mismo constructo para seleccionar aquel que sea ms simple o eficiente. Siendo un objetivo de la ciencia modelar la realidad, el tema de la Regresin es una herramienta importante pues estudia la relacin entre variables y suministra tcnicas para para encontrar y seleccionar los mejores modelos que permitan explicar dicha relacin. Respecto a la relacin que puede existir entre las variables, conviene distinguir entre la "relacin funcional" y la "relacin estadstica". Una "relacin funcional" entre dos o ms variables se expresa mediante una frmula matemtica del tipo Y=f(X1,X2,...,Xp). Esta frmula expresa una relacin perfecta entre las variables, de modo que su representacin ser una curva (o una superficie). Para el caso de dos variables, un ejemplo es la ecuacin de la recta: Y= a +bX ; otro, la de la parbola: Y=a+bX+cX2 (siendo a, b y c constantes). En ambos casos, los puntos P(X,Y) del plano que cumplen la condicin de la ecuacin se ubican en la curva que esta relacin define. Adems, cualquier punto que pertenece a la curva cumple la condicin de la ecuacin (la satisface). Una "relacin estadstica" entre dos o ms variables expresa la relacin de valores reales observados (datos) de dichas variables y por lo tanto, no se espera que se asocie perfectamente a un modelo matemtico (recta, parbola etc.). Por esto, las observaciones de las variables involucradas no pertenecen a alguna recta o curva en forma perfecta. El modelo (recta, curva etc.), si existe, servir para mostrar la tendencia de las observaciones. La variable Y se denomina "dependiente" o de "respuesta", la variable X se denomina "independiente" o "predictora". A pesar de estos nombres no debe suponerse que entre las variables necesariamente hay una relacin de causa-efecto. El grfico de los puntos (Xi,Yi) es el denominado "diagrama de dispersin" y es importante para determinar la naturaleza de la relacin entre las variables y la seleccin de un "modelo de regresin" que pueda representarla. Un "modelo de regresin" es una manera formal de expresar los dos ingredientes esenciales siguientes de una relacin estadstica: a) b) La tendencia de la variable dependiente Y de variar con la variable (o variables) independientes de una manera sistemtica. La dispersin de las observaciones alrededor de la curva de la relacin estadstica.

Estas dos caractersticas estn incorporadas en el modelo de regresin en los postulados: a) En la poblacin de observaciones asociadas con el proceso de muestreo, hay una distribucin (de probabilidad) de Y para cada nivel de X.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 92

b)

Las medias de esas distribuciones de probabilidad varan de una manera sistemtica con la variacin que experimenta X.

La construccin de un modelo de regresin supone varias etapas. Entre ellas: a)


Seleccin de variables independientes. Dado que no se pueden incluir todas las variables, debe seleccionarse el conjunto que mejor representa el problema en estudio. Para esto ayuda la teora respectiva y el modelo de anlisis de las relaciones entre variables utilizado, as como la bibliografa pertinente. Forma funcional de la ecuacin de regresin. La funcin seleccionada como ecuacin de regresin depende de las variables independientes. La teora puede indicar la funcin apropiada. Frecuentemente, la frmula debe decidirse a partir del anlisis de los datos, para lo que ayuda el "diagrama de dispersin". Alcance del modelo. Corresponde al rango de valores cubierto por las variables independientes. Puede determinarse por el diseo de la investigacin o por el intervalo de valores empleados en el estudio.

b)

c)

El anlisis de Regresin tiene tres propsitos: a) b) c) Descripcin de las relaciones existentes entre variables. Control de una variable conociendo el comportamiento de las otras. Prediccin de valores de una variable, ms all del alcance del modelo.

7.2 MODELO DE REGRESIN LINEAL

El modelo de Regresin Lineal que relaciona las variables X e Y segn una recta es el ms sencillo y se expresa como:
Yi = + Xi + i
(i =1, 2,...,n).

Siendo:

Yi : valor de la variable de respuesta para el i-simo intento (conocido) Xi : valor de la variable independiente para el i-simo intento (conocido) i: error aleatorio con E(i)=0; varianza (i)=2; con i y j no correlacionados , : parmetros del modelo, coeficientes de regresin (desconocidos) : representa la pendiente. Indica el cambio que experimenta la variable Y cuando la variable X vara en una unidad. : representa el intercepto de la recta. Cuando =0 la recta pasa por el origen. Por lo indicado antes, es importante tener presente que la ecuacin del modelo representa el comportamiento de los valores medios de los respectivos valores de Y para cada uno de los valores de X.
7.3. ESTIMACIN DE LA FUNCIN DE REGRESIN

Como se expreso anteriormente, los datos que corresponden a las observaciones empricas de las variables no se ajustan exactamente a un modelo, mostrando ms bien tendencias. Por ello es importante especificar el modelo que corresponde a dicha tendencia lo que implica una seleccin dentro de un conjunto de posibilidades. Por ejemplo, para determinar que modelo expresa la relacin entre el peso y la talla de estudiantes, si la tendencia es una lnea recta, podra considerarse diversas rectas para tal fin, y por ello diversas ecuaciones de rectas. Para obtener soluciones nicas (una recta especfica, por ejemplo) es necesario definir algn criterio para seleccionar el modelo. En el caso de Regresin, el criterio ms empleado es el de los mnimos cuadrados. Este criterio consiste en considerar los desvos (i) al cuadrado ,de cada valor observado Yi , y determinar los estimadores de y que hacen mnima la suma respecto de aquel que entrega el modelo, Y i de los cuadrados de esos desvos para los n valores de los datos de la muestra. Los estimadores se designan respectivamente como "a" y "b". As, se puede demostrar que las ecuaciones de la Pendiente (b) e Intercepto (a) son:

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 93

b=

n i

( X i X )(Yi Y )
n i

( X i X )2

n i

n n 1 X iYi ( i X i )( i Yi ) n = n n 1 2 2 ( ) X X i i n i i

n i

X iYi nXY

2 (n 1) S X

a = Y bX

La ecuacin de la recta de ajuste mnimo cuadrtica es Y=a+bX


7.4. USO DE EXCEL PARA ESTIMAR RECTA DE REGRESIN (DE AJUSTE)

Con Excel se puede estimar los coeficientes de la Recta de Regresin empleando los comandos siguientes: Para el Intercepto, se usa: =INTERSECCION.EJE(Valores_de_X; valores_de_Y) Para la Pendiente se usa: =PENDIENTE(Valores_de_X; valores_de_Y)
Ejemplo: Usando los datos de Peso y Talla de cinco personas empleados antes se obtienen los valores siguiente: Intercepto a = 114,09 y Pendiente b= 0,92 .

= 114, 09 + 0,92 X Luego, la recta de ajuste tiene la ecuacin: Y talla peso

7.5. USO DE LOS DATOS ORIGINALES PARA ESTIMAR RECTA DE REGRESIN

Se puede estimar los valores del Intercepto y de la Pendiente empleando las frmulas sealadas y los datos originales, como se presenta en ejemplo siguiente usando los mismos datos de Peso y Talla
Ejemplo

Considerando los datos de peso y estatura de 5 personas, que se presentan en la tabla de la pgina siguiente: El clculo del intercepto a y la pendiente b de la recta de ajuste es el siguiente

b=

n i

X iYi nXY
2 X

(n 1) S

35.647 5(45, 4)(155,8) 35.647 5(7.073,32) 35.647 35.366, 6 280, 4 = = = = 0,9187 4(76,3) 305, 2 305, 2 305, 2

a = Y bX = 155,80 (0,9187)(45, 4) = 155,80 41, 71 = 114, 09

= 114, 09 + 0,919 X Luego, la recta de ajuste tiene la ecuacin: Y talla peso

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 94

Peso y Talla de 5 personas


P erso n a A B C D E T O T AL M ed ia Arit. Desv. Estn d ar Varian za X: PESO (k) 32 55 45 44 51 227 45,40 8,73 76,30 Y: T ALL A (cm ) 144 165 150 158 162 779 155,80 8,67 75,20 XY 4.608 9.075 6.750 6.952 8.262 35.647

GRAFICO DE DISPERSIN DE PESO Y TALLA DE 5 PERSONAS 170 TALLA (cm) 165 160 155 150 145 140 30 40 PESO (K) 50 60

Observaciones

a)

La pendiente b representa la variacin (aumento o disminucin) que experimenta la variable Y cuando la variable X aumenta en una unidad. As, en el ejemplo, por cada kg de aumento del peso la estatura aumenta en 0,9187 cm. El intercepto representa el valor de Y cuando X=0. En el ejemplo sera 114,09 cm. Por lo anterior, conviene tener presente el rango de valores de X para los que tiene sentido la ecuacin que se ha ajustado. En el ejemplo sera para pesos entre 32 kg y 55 kg. Si bien se ha presentado el desarrollo de los estimadores a y b as como la forma de calcularlos a partir de las observaciones muestrales, ellos se pueden obtener fcilmente mediante la calculadora en el modo LR (Vea instrucciones sobre Uso de la Calculadora).

b) c) d)

7.6. ESTIMACIN DE VALORES CON LA RECTA DE REGRESIN

Un objetivo de la seleccin de un modelo que explique la relacin entre las variables X e Y es poder realizar predicciones, esto es, dado un valor de la variable X estimar un valor para la variable Y. Por ejemplo, en = 114, 09 + 0,919 X la relacin entre peso y estatura, se determin que la ecuacin que las relaciona es Y talla peso Por lo tanto, para estimar cual es la estura que corresponde a un peso de 45 kg, se reemplaza este valor por X en la ecuacin y se obtiene:
= 114,09 + (0,919)(45) = 114,09 + 41,355 = 155,445 = 155,4 cm Y talla

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 95

Entonces, segn los datos del ejemplo, para el peso de X=45 kg cuyo valor observado de la estatura es =155,4 cm. Y=150 cm el valor estimado de la misma es: Y talla Es fcil apreciar que, si se tuviera una muestra ms grande de personas, podra haber varias con el mismo peso (45 kg) pero sus estaturas podran ser diferentes. Existira por lo tanto una distribucin de estaturas =155,4 cm representara para el peso 45 kg. En ese contexto, la estatura estimada por la recta de regresin Y el promedio terico de las estaturas de todos aquellos con un peso de X=45 kg. Como esta situacin puede por la repetirse para cada valor de X (por ejemplo para X=44 X=51 etc), los respectivos valores estimados Y recta de regresin representan los valores medios estimados de las distribuciones de valores de Y asociados con cada valor de X.
Observaciones

a) En la tabla de la pgina anterior se han calculado los valores estimados para todos los datos de la =155,433 cm que difiere del calculado antes (145,445). muestra. Se aprecia que para X=45 el valor Y talla Esto se debe a que la tabla se calcul con Excel y no se aproximaron los resultados parciales. b) Cuando se emplea la calculadora, los valores estimados para Y son entregados por sta en forma (Vea instrucciones sobre Uso de la Calculadora). directa, mediante tecla Y c) Para graficar la recta de regresin, en el diagrama de dispersin, slo basta representar dos puntos. respectivos. Para hacer un buen grfico es Estos se definen con valores de X y valores de Y conveniente usar los puntos asociados con los valores de X extremos (esto es el menor y el mayor). En el ejemplo, los puntos utilizados podran ser A(32;143,5) y B(55;164,6). d) Si se cambia el rol de las variables, esto es, se emplea como variable independiente (X) la Talla y como variable dependiente (Y) al Peso la ecuacin de Regresin cambia, no as el Coeficiente de Correlacin que mantiene su valor. Compruebe que se obtiene: = 99,83 + 0,932 X Y peso talla
7.7. GRFICO DE REGRESIN USANDO EXCEL

Excel permite graficar la recta de regresin y obtener la ecuacin junto al grfico. El procedimiento consiste en graficar el diagrama de dispersin primero, lo que activa las opciones para grfico, de las que se emplea Agregar Lnea de Tendencia. Esta opcin permite completar el diagrama de dispersin con la recta y ecuacin respectiva, as como posibilita emplear y seleccionar otros modelos de ajuste. El procedimiento se detalla en los grficos siguientes, que ilustran el proceso usando los mismos datos de Peso y Talla ya empleados, los que conviene resaltar antes de seleccionar el grfico de dispersin, como se ilustra en el diagrama siguiente
a. Seleccin del Grfico de Dispersin del Ayudante Grfico

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 96

b.

Escritura de ttulos y eliminacin de leyenda

c.

Ubicacin del grfico en hoja y formato de eje X para mejorar aspecto Poniendo el Mouse sobre eje X se puede mejorar el formato del mismo, para aprovechar mejor el rea del grfico

d.

Agregar Lnea de Tendencia

Luego de mejorar aspecto del grfico (ubicando Mouse en elemento que se desea arreglar: eje X, eje Y, rea del grfico, rea de trazado, puntos del grfico etc.) se selecciona el men Grafico y en el, seleccionar la opcin Agregar lnea de tendencia como se muestra a continuacin:

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 97

e.

Seleccionar el TIPO de Lnea de Tendencia.

En el ejemplo se ha seleccionado la primera opcin Lineal, para ajustar una lnea recta.

f.

Opciones de Lnea de Tendencia

Seleccionando Opciones se tiene pantalla que se presenta a continuacin. De ella se activa Presentar ecuacin en el grfico y Presentar el valor de RCuadrado en el grfico. Todo lo anterior se presenta en pantalla siguiente:
R2 es el Coeficiente de Determinacin siendo una medida de la calidad del ajuste del grfico a los datos respectivos. Su valor flucta entre 0 (psimo ajuste) a 1 (ajuste perfecto).

Cuando se ajusta una recta a los datos, hay una relacin entre el Coeficiente de Correlacin de Pearson ( r ) y el Coeficiente de Determinacin (R2) tal que el cuadrado del Coeficiente de Correlacin es igual al Coeficiente de Determinacin. r2=R2

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 98

g.

Grfico de dispersin con Ecuacin y Lnea de Tendencia El grfico resultante presenta la ecuacin de regresin Y = 114,09 + 0,9187X y el valor del Coeficiente de Determinacin R2= 0,8564

h.

Mejorando el Grfico Como se aprecia en ltimo grfico, esas leyendas se pueden cambiar la fuente (ennegreciendo y cambiando fuente del men) y mover de posicin, (con el Mouse) para mejorar presentacin del grfico.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 99

7.8. EJERCICIOS

1. 2.

Emplee los datos de los ejercicios de correlacin. Obtenga rectas de regresin y analice su significacin en ejercicios 1 y 2. Se tiene la siguiente informacin sobre horas de estudio y calificaciones de cinco estudiantes. a) Ajuste una recta a los datos (Use calculadora o Excel) b) Determine las calificaciones estimadas empleando la recta ajustada. c) Dibuje el diagrama de dispersin con la recta ajustada. d) Si Tito estudia 7 horas, cul sera su calificacin esperada?Cmo se interpreta ese valor?. e) Qu representan las calificaciones estimadas por la recta de regresin? f) Calcule el error de estimacin. g) Compruebe que la correlacin entre las variables es 0,84 y estudie su significacin.
ALUMNO HORAS DE ESTUDIO (X) CALIFICACIONES (Y) Eduardo 0 52 Rosa 10 95 Matas 6 83 Claudia 8 71 Andrea 6 64

3.

En un estudio se investigaba sobre la relacin entre el grado de empata (escala 0 a 100) que lograban los Psiclogos y el grado de satisfaccin de los pacientes (escala 0 a 10). En un muestra piloto de 4 parejas de Psiclogos y pacientes se obtuvieron los datos siguientes. Realice lo pedido en el ejercicio 1. a) Si un Psiclogo tiene un nivel de empata de 65, cul sera el grado de satisfaccin esperado del paciente?, Cmo se interpreta ese valor?. b) Compruebe que la correlacin es 0,90. Determine si es significativa.
PAREJA EMPATIA PSICOLOGO (X) SATISFACCIN PACIENTE (Y) 1 70,58 4,58 2 94,58 5,58 3 36,58 2,58 4 48,58 1,58

3.

Los siguientes son los puntajes obtenidos por 12 adolescentes sordomudos en la escala WAIS (Weschler Adult Intelligence Scale) y 4 escalas de orientacin vocacional profesional. Un puntaje mayor significa una mayor aptitud. a. Estime las 4 rectas de regresin siendo X la Escala WAIS. Use Excel b. Grafique las rectas. usando Excel., en un mismo grfico c. Usando los valores de los Coeficientes de Determinacin estudie que recta presenta un mejor ajuste. d. Calcule los Coeficientes de Correlacin para las 4 rectas. Verifique la relacin entre los Coeficientes de Correlacin y Determinacin.

PUNTAJES EN LAS ESCALAS


CASO PUNTAJE WAIS ADMINISTRACIN COMERCIO TCNICA ARTESANIA

1 2 3 4 5 6 7 8 9 10 11 12

99 103 111 116 127 117 114 113 122 113 120 108

15 24 17 5 9 5 14 13 24 15 14 12

33 20 37 42 40 48 34 33 20 32 43 36

16 20 13 8 6 3 7 13 16 12 10 11

25 40 21 20 18 17 31 35 35 27 17 28

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 100

8. TASAS E NDICES

Cuando se dispone de datos de dos o ms variables, medidas en las mismas unidades de anlisis (personas, instituciones, aos etc.) otra forma de compararlos es mediante el clculo de tasas e ndices Las tasas y los ndices son muy utilizados en la administracin, como indicadores de gestin etc.
8.1. Definicin de Tasa

Una tasa es una comparacin de dos valores (de dos variables diferentes usualmente, medidas en las mismas unidades de anlisis) mediante cuociente. El resultado se multiplica por 10, por 100 o por 100 u otra potencia de 10 para hacerlo ms claro. Valor Variable 1 Tasa= Valor Variable 2 Ejemplos son la velocidad (que compara distancia con tiempo), por ejemplo: Kilmetros/hora. Otra tasa es: N libros/ N estudiantes (en la universidad por ejemplo); etc. Como ejemplos de tasas se presentan los siguientes extrados del Balance de Gestin Integral 2005 de la DIBAM. Se indica el valor de la tasa para el ao 2005 y la interpretacin: a)
250 = (N usuarios en Archivos)/(Dotacin efectiva en Archivos)

Esta tasa indica que se atendieron 250 usuarios en el ao, por cada trabajador de la Seccin Archivos. b)
35.417 = (N usuarios en Bib. Pblicas)/(Dotacin efectiva en Bib. Pblicas)

Esta tasa indica que se atendieron 35.417 usuarios en el ao, por cada trabajador de las Bibliotecas Pblicas. c)
12,7 = (N obras consultadas por usuarios presenciales Biblioteca Nacional)/ (Total de usuarios presenciales Biblioteca Nacional)

Esta tasa corresponde a un promedio, esto es, indica que cada usuario presencial de la Biblioteca Nacional consult un promedio 12,7 obras durante 2005.
Ejemplo (Prstamos en Sala y Prstamos a Domicilio) Los datos siguientes, tomados del Balance de Gestin Integral 2005 de la DIBAM, corresponden a la cantidad de prstamos en sala y a domicilio de las Bibliotecas Pblicas del pas. Se calculo la tasa: (N Prstamos en sala)/(N Prestamos a domicilio). Por ejemplo, la tasa para 2000, que es 4,3 se obtiene dividiendo (6.174.485)/(1.437.121). Prstamos en sala y a Domicilio de las Bibliotecas Pblicas
AO N N TASA: Prestamos Prestamos a Prest.sala/Pr est. Dom. en sala domicilio

2000 2001 2002 2003 2004 2005

6.174.485 6.567.537 6.866.544 7.852.453 8.522.425 8.417.808

1.437.121 1.998.039 1.565.613 2.114.480 2.685.531 3.075.045

4,30 3,29 4,39 3,71 3,17 2,74

Interpretacin: Se aprecia que entre el ao 200 y el 2005 han aumentado tanto los prstamos en sala como a domicilio. Sin embargo, la relacin entre Prstamos en sala respecto a los prstamos a domicilio ha disminuido a travs de los aos, pues en 2000 se realizaban 4,3 prstamos en sala por cada Prstamo a domicilio, mientras que en 2005 esta relacin disminuy a 2,74 prstamos en sala por cada prstamo a domicilio.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 101

Lo anterior se produce, en trminos numricos, por el hecho que el aumento de los prstamos en sala ha aumentado en menor proporcin que los prstamos a domicilio, en los aos indicados. Este aspecto se analizar mediante el empleo de los ndices. Del punto de vista profesional, para entender y explicar este fenmeno habra que analizar las razones de su ocurrencia (polticas de las instituciones, incentivo a la lectura etc.) 8.2. Definicin de ndice Simple (de base fija) Si se dispone de un conjunto de valores de dos variables, una de las cuales corresponde al tiempo, se define como nmero ndice simple al cociente expresado como porcentaje, del valor de la serie para el perodo k (pk) respecto a uno que es el periodo base (p0).
Ik = pk *100 p0

El valor de la variables en estudio para el perodo de tiempo base sirve como el punto estndar de comparacin, mientras que los valores en otros periodos de tiempo se usan para mostrar el cambio porcentual en valor con respecto al valor estndar del perodo base. 8.3. Definicin de Serie Indexada Una serie de tiempo indexada es una lista de nmeros ndices para dos o ms perodos de tiempo, en donde para cada nmero se usa el mismo ao base. Una serie de tiempo indexada es simplemente una transformacin de la serie original a otra que presenta el valor para cada ao (o periodo de tiempo) como porcentaje del valor del ao base. Ejemplo : Se emplearn los mismos datos de Prstamo en Sala y Prstamos a Domicilio
Prstamos en sala y a Domicilio de las Bibliotecas Pblica

PRSTAMOS EN SALA AO N 2000 2001 2002 2003 2004 2005 6.174.485 6.567.537 6.866.544 7.852.453 8.522.425 8.417.808 INDICE 2000=100 100,0 106,4 111,2 127,2 138,0 136,3 Variacin 0,0 6,4 11,2 27,2 38,0 36,3

PRSTAMOS A DOMICILIO N 1.437.121 1.998.039 1.565.613 2.114.480 2.685.531 3.075.045 INDICE 2000=100 100,0 139,0 108,9 147,1 186,9 214,0 Variacin 0,0 39,0 8,9 47,1 86,9 114,0

El ejemplo anterior presenta la informacin sobre prstamos en sala y a domicilio. Se han calculado los ndices usando como base el ao 2000. Por lo tanto, para prstamos en sala se usa el valor 6.174.485 y para prstamos a domicilio se sale valor 1.437.121 para comparar los valores de los otros aos.

Por ejemplo, el ndice para 2001 con base en 2000 para prstamos en sala se calculo as:

I 2001 =

N Prestamos en Sala ao 2001 6.567.537 100 = 100 = 106, 4 N Prestamos en Sala ao 2000 6.174.485

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 102

Por su parte, el ndice para 2001 con base en 2000 para prstamos a domicilio es:

I 2001 =

N Prestamos a Domicilio ao 2001 1.998.039 100 = 100 = 139, 0 N Prestamos a Domicilio ao 2000 1.437.121

Para los aos 2002, 2003, 2004 y 2005 se sigue el mismo procedimiento. La diferencia entre el valor del ndice para un ao determinado y el periodo base (100) se denomina VARIACIN e indica el aumento o disminucin experimentado en el periodo analizado. Por ejemplo, en 2001 se aprecia un aumento del 6,4% de los Prstamos en Sala y de 39% de los Prstamos a Domicilio. Los ndices presentados en la tabla anterior, permiten apreciar que los prstamos en sala y a domicilio van aumentando cada ao respecto al ao 2000, que es el perodo base. Sin embargo, tambin se aprecia que el porcentaje de aumento de los prstamos en sala es menor al porcentaje de aumento de los prstamos a domicilio. Por ello, en el ao 2005 los prstamos en sala presentan un aumento del 36,3% respecto al ao 2000. Pero los prstamos a domicilio presentan un aumento del 114,0% respecto al ao 2000, el cual es tres veces mayor que el experimentado por los prstamos en sala en ese ao. 8.4. Ejercicios 1. 2. 3. 4. 5. Empleando los datos para Prstamos en Sala y a Domicilio calcule la correlacin entre dichos valores. Usando los valores de los aos (variable X) y Prestamos en Sala (variable Y) ajuste una recta a dichos datos. Usando los valores de los aos (variable X) y Prestamos a Domicilio (variable Y) ajuste una recta a dichos datos. Compare las pendientes de las rectas (y los grficos de las rectas). Qu le sugieren los valores de las pendientes y los grficos? Los datos siguientes corresponden a los visitantes a los Museos Nacionales de Bellas Artes, de Historia Natural e Histricos, entre los aos 2000 y 2005. Con Excel, calcule ndices con base en el ao 2000 para los visitantes a los museos y para el total de visitantes. a) Compare y determine que Museo ha experimentado mayor variacin (en porcentaje) en el nmero de visitantes. b) Compare las variaciones (en porcentaje) de los visitantes a los museos respecto a las variaciones del Total de Visitantes.
MUSEO 2000 2001 2002 2003 2004 2005

Museo Nacional de Bellas Artes Museo Nacional de Historia Natural Museo Histrico Nacional Total Visitantes

419.465 173.319 120.527 713.311

309.216 159.578 114.873 583.667

414.051 199.602 126.348 740.001

262.161 222.640 124.155 608.956

421.383 247.297 97.186 765.866

673.132 232.414 146.758 1.052.304

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 103

9. BIBLIOGRAFA (complementaria) AGRESTI Alan & AGRESTI, Barbara F. (1979) Statistical Methods for the Social Sciences. San Francisco: Dellen Pub. Co. ARON, Arthur y ARON, Elaine N. (2001) Estadstica para Psicologa. Buenos Aires: Pearson Education. DIBAM (2006) Balance de Gestin Integral 2005. (on line). Disponible en: http://www.dibam.cl (Visitado 01.08.06) DOANE, David (1985) Exploring Statistics with the IBM PC. Reading, Mass.: Addison-Wesley Pub. Co. DOWNIE, N. M., HEATH, R. W (1973) Mtodos estadsticos aplicados. Mxico: Harla ELORZA, Haroldo (1987) Estadstica para ciencias del comportamiento. Mxico: Harla ESCALANTE, Eduardo y CARO, Alberto (2002) Anlisis y Tratamiento de Datos en SPSS. Valparaso: Ediciones Univ. de Playa Ancha de Cs. de la Ed. GARNER, Robert C. (2003) Estadstica para Psicologa usando SPSS para Windows. Mxico: Pearson Educacin. GUILFORD, J. P. y FRUCHTER, B. (1984) Estadstica aplicada a la Psicologa y la Educacin. Mxico: Mc Graw-Hill. HOPKINS, Kenneth D., HOPKINS, B. R. y GLASS, Gene V. (1997) Estadstica Bsica para las Ciencias Sociales y del Comportamiento (3 Ed.). Mxico: Prentice-Hall Hispanoamericana S. A. LOPES, Paulo Alfonso (2000) Probabilidad & Estadstica. Conceptos, modelos, aplicaciones en Excel. Santa F de Bogot: Pearson Educacin de Colombia Ltda. MARQUES DE CANT, Mara Jos (1990) Probabilidad y Estadstica para ciencias QumicoBiolgicas. Mxico: McGraw-Hill. NORMAN, G. R. y STREINER, D. L. (1996) Bioestadstica. Madrid: Mosby/Doyma Libros S. A. PREZ, Csar (2001) Tcnicas Estadsticas con SPSS. Madrid: Pearson Educacin. PREZ, Csar (2002) Estadstica Aplicada a travs de Excel. Madrid: Pearson Educacin. SPIEGEL, Murray R. (1987) Estadstica. Serie Schaum (2 Ed.) Panam: McGraw-Hill.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 104

APENDICE 1

FRMULARIO OBS: Este formulario y tablas se pueden emplear en las pruebas. No agregar informacin o ejemplos

X=

X
i =1

n S X

Me = Linf +

C j (0,5n Fj 1 ) fj
i

= Fj 1 + n

f j ( X Linf ) n

CV =

S2 =

(X
i =1

X )2 S2 =

(X
i =1

X ) 2 fi

n 1

n 1

S = S2

X =

n1X1 +n2X2 ++nk Xk n1 +n2 +...+nk


C j ( fj fj 1 ) j fj 1 )+( fj fj +1 )

Mo = Linf + ( f

Mo = Linf + ( f

C j ( fj +1 ) j +1 )+( fj 1 )

k = (1 k 1
Z= XX S

i Si2 )
2 ST

k r 1 + (k 1)r

T= 10z + 50

PAA= 100z + 500

W=15z+100

r=

(X
i =1

X )(Yi Y )
2

(X
i =1

X)

(Y Y )
i =1 i

=
2

X Y nXY
i =1 i i

( X nX ) ( Yi nY )
i =1 2 i 2 2 2 i =1

X Y nXY
i =1 i i 2 2 (n 1) S X (n 1) SY

b=

( X i X )(Yi Y ) i

n i

(Xi X )

n i

n n 1 X iYi ( i X i )( i Yi ) n = n n 1 2 i X i n ( i X i ) 2

n i

X iYi nXY

2 (n 1) S X

a = Y bX

Y= a+bX
r2 = R2 Tasa= Valor Variable 1 Valor Variable 2 Ik = pk *100 p0

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 105

APENDICE 2 TABLAS DE COEF. DE SIMETRIA Y APUNTAMIENTO de Pearson y Hartley

TABLA DE INTERVALOS DE CONFIANZA DEL COEFICIENTE DE SIMETRA DE PEARSON (Con 90% confianza)
POBLACIN Asimtrica Negativa POBLACIN SIMETRICA POBLACIN Asimtrica Positiva

Lmite Inferior
TAMAO MUESTRA 25 30 35 40 50 75 100 150 200 300 400 500 LMITE INFERIOR -0,711 -0,662 -0,621 -0,587 -0,534 -0,446 -0,389 -0,321 -0,280 -0,230 -0,200 -0,179

Lmite Superior
LMITE SUPERIOR 0,711 0,662 0,621 0,587 0,534 0,446 0,389 0,321 0,280 0,230 0,200 0,179

TABLA DE INTERVALO DE CONFIANZA DEL COEFICIENTE DE APUNTAMIENTO DE PEARSON (Con 90% de confianza)
POBLACIN POBLACIN POBLACIN

Platicrtica Mesocrtica Leptocrtica (Menos Apuntada que Normal) (Igual que Normal) (Ms Apuntada que Normal)

Lmite Inferior
TAMAO MUESTRA 50 75 100 150 200 300 400 500 LMITE INFERIOR 2,15 2,27 2,35 2,45 2,51 2,59 2,61 2,67

Lmite Superior
LMITE SUPERIOR 3,99 3,87 3,77 3,65 3,57 3,47 3,41 3,37

Tablas adaptadas de DOANE, David (1985) Exploring Statistics with the IBM PC. Reading, Mass.:Addison-Wesley Pub. Co. Que cita como fuente a: Pearson, E. S. & Hartley, H. O. (1970) Biometrika Tables for Statisticians (3th. Ed.). Cambridge University Press (Pag. 207-208).

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 106

APENDICE 3

VALORES CRTICOS DEL COEFICIENTE DE CORRELACIN DE PEARSON g.l. =n-2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 55 60 70 80 90 100 125 150 175 200 250 Nivel de significacin ( Bilateral) 0,10 0,05 0,02 0,01 0,988 0,997 0,9995 0,9999 0,900 0,950 0,980 0,990 0,805 0,878 0,934 0,959 0,729 0,811 0,882 0,917 0,669 0,755 0,833 0,874 0,621 0,707 0,789 0,834 0,582 0,666 0,750 0,798 0,549 0,632 0,715 0,765 0,521 0,602 0,685 0,735 0,497 0,576 0,658 0,708 0,476 0,553 0,634 0,684 0,458 0,532 0,612 0,661 0,441 0,514 0,592 0,641 0,426 0,497 0,574 0,623 0,412 0,482 0,558 0,606 0,400 0,468 0,543 0,590 0,389 0,456 0,529 0,575 0,378 0,444 0,516 0,561 0,369 0,433 0,503 0,549 0,360 0,423 0,492 0,537 0,352 0,413 0,482 0,526 0,344 0,404 0,472 0,515 0,337 0,396 0,462 0,505 0,330 0,388 0,453 0,496 0,323 0,381 0,445 0,487 0,317 0,374 0,437 0,479 0,312 0,367 0,430 0,471 0,306 0,361 0,423 0,463 0,301 0,355 0,416 0,456 0,296 0,349 0,409 0,449 0,275 0,325 0,381 0,418 0,257 0,304 0,358 0,393 0,243 0,288 0,338 0,372 0,231 0,273 0,322 0,354 0,220 0,261 0,307 0,339 0,211 0,250 0,295 0,325 0,195 0,232 0,274 0,302 0,183 0,217 0,257 0,283 0,173 0,205 0,242 0,267 0,164 0,195 0,230 0,254 0,147 0,174 0,206 0,228 0,134 0,159 0,189 0,208 0,124 0,147 0,175 0,193 0,116 0,138 0,164 0,181 0,104 0,124 0,146 0,162

Adaptada de: Norman, G. R y Streiner D. L. (1996) Bioestadstica. Madrid: Mosby/Doyma Libros, S.A.

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 107

APENDICE 4

VALORES DE LA FUNCIN DE DISTRIBUCIN NORMAL ESTNDAR (Z) = P(Z<z)


Z -3,0 -2,9 -2,8 -2,7 -2,6 -2,5 -2,4 -2,3 -2,2 -2,1 -2,0 -1,9 -1,8 -1,7 -1,6 -1,5 -1,4 -1,3 -1,2 -1,1 -1,0 -0,9 -0,8 -0,7 -0,6 -0,5 -0,4 -0,3 -0,2 -0,1 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 0,00 0,0013 0,0019 0,0026 0,0035 0,0047 0,0062 0,0082 0,0107 0,0139 0,0179 0,0228 0,0287 0,0359 0,0446 0,0548 0,0668 0,0808 0,0968 0,1151 0,1357 0,1587 0,1841 0,2119 0,2420 0,2743 0,3085 0,3446 0,3821 0,4207 0,4602 0,5000 0,5398 0,5793 0,6179 0,6554 0,6915 0,7257 0,7580 0,7881 0,8159 0,8413 0,8643 0,8849 0,9032 0,9192 0,9332 0,9452 0,9554 0,9641 0,9713 0,9772 0,9821 0,9861 0,9893 0,9918 0,9938 0,9953 0,9965 0,9974 0,9981 0,9987 0,01 0,0010 0,0018 0,0025 0,0034 0,0045 0,0060 0,0080 0,0104 0,0136 0,0174 0,0222 0,0281 0,0351 0,0436 0,0537 0,0655 0,0793 0,0951 0,1131 0,1335 0,1562 0,1814 0,2090 0,2389 0,2709 0,3050 0,3409 0,3783 0,4168 0,4562 0,4960 0,5438 0,5832 0,6217 0,6591 0,6950 0,7291 0,7611 0,7910 0,8186 0,8438 0,8665 0,8869 0,9049 0,9207 0,9345 0,9463 0,9564 0,9649 0,9719 0,9778 0,9826 0,9864 0,9896 0,9920 0,9940 0,9955 0,9966 0,9975 0,9982 0,9990 0,02 0,0007 0,0018 0,0024 0,0033 0,0044 0,0059 0,0078 0,0102 0,0132 0,0170 0,0217 0,0274 0,0344 0,0427 0,0526 0,0643 0,0778 0,0934 0,1112 0,1314 0,1539 0,1788 0,2061 0,2358 0,2676 0,3015 0,3372 0,3745 0,4129 0,4522 0,4920 0,5478 0,5871 0,6255 0,6628 0,6985 0,7324 0,7642 0,7939 0,8212 0,8461 0,8686 0,8888 0,9066 0,9222 0,9357 0,9474 0,9573 0,9656 0,9726 0,9783 0,9830 0,9868 0,9898 0,9922 0,9941 0,9956 0,9967 0,9976 0,9982 0,9993 0,03 0,0005 0,0017 0,0023 0,0032 0,0043 0,0057 0,0075 0,0099 0,0129 0,0166 0,0212 0,0268 0,0336 0,0418 0,0516 0,0630 0,0764 0,0918 0,1093 0,1292 0,1515 0,1762 0,2033 0,2327 0,2643 0,2981 0,3336 0,3707 0,4090 0,4483 0,4880 0,5517 0,5910 0,6293 0,6664 0,7019 0,7357 0,7673 0,7967 0,8238 0,8485 0,8708 0,8907 0,9082 0,9236 0,9370 0,9484 0,9582 0,9664 0,9732 0,9788 0,9834 0,9871 0,9901 0,9925 0,9943 0,9957 0,9968 0,9977 0,9983 0,9995 0,04 0,0003 0,0016 0,0023 0,0031 0,0041 0,0055 0,0073 0,0096 0,0125 0,0162 0,0207 0,0262 0,0329 0,0409 0,0505 0,0618 0,0749 0,0901 0,1075 0,1271 0,1492 0,1736 0,2005 0,2296 0,2611 0,2946 0,3300 0,3669 0,4052 0,4443 0,4840 0,5557 0,5948 0,6331 0,6700 0,7054 0,7389 0,7704 0,7995 0,8264 0,8508 0,8729 0,8925 0,9099 0,9251 0,9382 0,9495 0,9591 0,9671 0,9738 0,9793 0,9838 0,9875 0,9904 0,9927 0,9945 0,9959 0,9969 0,9977 0,9984 0,9997 0,05 0,0002 0,0016 0,0022 0,0030 0,0040 0,0054 0,0071 0,0094 0,0122 0,0158 0,0202 0,0256 0,0322 0,0401 0,0495 0,0606 0,0735 0,0885 0,1056 0,1251 0,1469 0,1711 0,1977 0,2266 0,2578 0,2912 0,3264 0,3632 0,4013 0,4404 0,4801 0,5596 0,5987 0,6368 0,6736 0,7088 0,7422 0,7734 0,8023 0,8289 0,8531 0,8749 0,8944 0,9115 0,9265 0,9394 0,9505 0,9599 0,9678 0,9744 0,9798 0,9842 0,9878 0,9906 0,9929 0,9946 0,9960 0,9970 0,9978 0,9984 0,9998 0,06 0,0002 0,0015 0,0021 0,0029 0,0039 0,0052 0,0069 0,0091 0,0119 0,0154 0,0197 0,0250 0,0314 0,0392 0,0485 0,0594 0,0721 0,0869 0,1038 0,1230 0,1446 0,1685 0,1949 0,2236 0,2546 0,2877 0,3228 0,3594 0,3974 0,4364 0,4761 0,5636 0,6026 0,6406 0,6772 0,7123 0,7454 0,7764 0,8051 0,8315 0,8554 0,8770 0,8962 0,9131 0,9279 0,9406 0,9515 0,9608 0,9686 0,9750 0,9803 0,9846 0,9881 0,9909 0,9931 0,9948 0,9961 0,9971 0,9979 0,9985 0,9998 0,07 0,0001 0,0015 0,0021 0,0028 0,0038 0,0051 0,0068 0,0089 0,0116 0,0150 0,0192 0,0244 0,0307 0,0384 0,0475 0,0582 0,0708 0,0853 0,1020 0,1210 0,1423 0,1660 0,1922 0,2206 0,2514 0,2843 0,3192 0,3557 0,3936 0,4325 0,4721 0,5675 0,6064 0,6443 0,6808 0,7157 0,7486 0,7794 0,8078 0,8340 0,8577 0,8790 0,8980 0,9147 0,9292 0,9418 0,9525 0,9616 0,9693 0,9756 0,9808 0,9850 0,9884 0,9911 0,9932 0,9949 0,9962 0,9972 0,9979 0,9985 0,9999 0,08 0,0001 0,0014 0,0020 0,0027 0,0037 0,0049 0,0066 0,0087 0,0113 0,0146 0,0188 0,0239 0,0301 0,0375 0,0465 0,0571 0,0694 0,0838 0,1003 0,1190 0,1401 0,1635 0,1894 0,2177 0,2483 0,2810 0,3156 0,3520 0,3897 0,4286 0,4681 0,5714 0,6103 0,6480 0,6844 0,7190 0,7517 0,7823 0,8106 0,8365 0,8599 0,8810 0,8997 0,9162 0,9306 0,9429 0,9535 0,9625 0,9699 0,9761 0,9812 0,9854 0,9887 0,9913 0,9934 0,9951 0,9963 0,9973 0,9980 0,9986 0,9999 0,09 0,0000 0,0014 0,0019 0,0026 0,0036 0,0048 0,0064 0,0084 0,0110 0,0143 0,0183 0,0233 0,0294 0,0367 0,0455 0,0559 0,0681 0,0823 0,0985 0,1170 0,1379 0,1611 0,1867 0,2148 0,2451 0,2776 0,3121 0,3483 0,3859 0,4247 0,4641 0,5753 0,6141 0,6517 0,6879 0,7224 0,7549 0,7852 0,8133 0,8389 0,8621 0,8830 0,9015 0,9177 0,9319 0,9441 0,9545 0,9633 0,9706 0,9767 0,9817 0,9857 0,9890 0,9916 0,9936 0,9952 0,9964 0,9974 0,9981 0,9986 1,0000

Estadstica 1 Prof. Alberto Caro M. v.08 Pg. 108

APENDICE 5

DISTRIBUCIN F
Grados de Libertad del Denominador

Nivel de significacin ( =0,05)


Grados de Libertad del Numerador

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120

1 161,40 18,51 10,13 7,71 6,61 5,99 5,59 5,32 5,12 4,96 4,84 4,75 4,67 4,60 4,54 4,49 4,45 4,41 4,38 4,35 4,32 4,30 4,28 4,26 4,24 4,22 4,21 4,20 4,18 4,17 4,08 4,00 3,92 3,84

2 199,50 19,00 9,55 6,94 5,79 5,14 4,74 4,46 4,26 4,10 3,98 3,88 3,80 3,74 3,68 3,63 3,59 3,55 3,52 3,49 3,47 3,44 3,42 3,40 3,38 3,37 3,35 3,34 3,33 3,32 3,23 3,15 3,07 2,99

3 215,70 19,16 9,28 6,59 5,41 4,76 4,35 4,07 3,86 3,71 3,59 3,49 3,41 3,34 3,29 3,24 3,20 3,16 3,13 3,10 3,07 3,05 3,03 3,01 2,99 2,98 2,96 2,95 2,93 2,92 2,84 2,76 2,68 2,60

Grados de Libertad del Denominador

Nivel de significacin ( =0,01)


Grados de Libertad del Numerador

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120

1 2 3 4.052,00 4.999,00 5.403,00 98,49 99,01 99,17 34,12 30,81 29,46 21,20 18,00 16,69 16,26 13,27 12,06 13,74 10,92 9,78 12,25 9,55 8,45 11,26 8,65 7,59 10,56 8,02 6,99 10,04 7,56 6,55 9,65 7,20 6,22 9,33 6,93 5,95 9,07 6,70 5,74 8,86 6,51 5,56 8,68 6,36 5,42 8,53 6,23 5,29 8,40 6,11 5,18 8,28 6,01 5,09 8,18 5,93 5,01 8,10 5,85 4,94 8,02 5,78 4,87 7,94 5,72 4,82 7,88 5,66 4,76 7,82 5,61 4,72 7,77 5,57 4,68 7,72 5,53 4,64 7,68 5,49 4,60 7,64 5,45 4,57 7,60 5,42 4,54 7,56 5,39 4,51 7,31 5,18 4,31 7,08 4,98 4,13 6,85 4,79 3,95 6,64 4,60 3,78

Adaptada de: Agresti, Alan &Agresti, Barbara F. (1979) Statistical Methods for the Social Sciences San Francisco: Dellen Pub. Co. Que cita como fuente a: Fisher, R. A. & F. Yates, F. (1974) Statistical Tables for Biological, Agricultural and Medical Research London: Longman Group Ltd.

Você também pode gostar