Escolar Documentos
Profissional Documentos
Cultura Documentos
Tema de referencia: Introduccin a los conceptos estadsticos: poblacin, muestra variables Discretas y continuas, series simples y agrupadas en clases y frecuencias.
Competencias a formar: a) Interpreta la informacin obtenida de una serie simple b) Emite criterios personales frente a la informacin obtenida de una serie simple.
MISION DE LA UNIVERSIDAD
FORMAR PROFESIONALES COM ALTO SENTIDO CRITICO Y ETICO CON CAPACIDAD DE AUTOFORMACIN Y APTOS PARA RESOLVER PROBLEMAS MEDIANTE SOLUCIONES TCNICO CIENTIFICA Y ADECUADAS AL CONTEXTO SOCIAL
1. INTRODUCCIN
R es un sistema para anlisis estadsticos y grficos creado por Ross Ihaka y Robert Gentleman. R tiene una naturaleza doble de programa y lenguaje de programacin y es considerado como un dialecto del lenguaje S creado por los Laboratorios AT&T Bell.R se distribuye gratuitamente bajo los trminos de la GNU General Public Licence; su desarrollo y distribucin son llevados a cabo por varios estadsticos conocidos como el Grupo Nuclear de Desarrollo de R. R est disponible en varias formas: el cdigo fuente est escrito principalmente en C (y algunas rutinas en Fortran), esencialmente para mquinas Unix y Linux, o como archivos binarios precompilados para Windows, Linux (Debian, Mandrake, RedHat, SuSe), Macintosh y Alpha Unix. Los archivos necesarios para instalar R, ya sea desde las fuentes o binarios precompilados, se distribuyen desde el sitio de internet Comprehensive R Archive Network (CRAN) junto con las instrucciones de instalacin. Para las diferentes distribuciones de Linux (Debian, . . . ), los binarios estn disponibles generalmente para las versiones ms actualizadas de stas y de R; visite el sitio CRAN si es necesario. R posee muchas funciones para anlisis estadsticos y grficos; estos ltimos pueden ser visualizados de manera inmediata en su propia ventana y ser guardados en varios formatos (jpg, png, bmp, ps, pdf, emf, pictex, xfig; los formatos disponibles dependen del sistema operativo). Los resultados de anlisis estadsticos se muestran en la pantalla, y algunos resultados intermedios (como valores P-, coeficientes de regresin, residuales,...) se pueden guardar, exportar a un archivo, o ser utilizados en anlisis posteriores. El lenguaje R permite al usuario, por ejemplo, programar bucles (loops en ingls) para analizar conjuntos sucesivos de datos. Tambin es posible combinar en un solo programa diferentes funciones estadsticas para realizar anlisis ms complejos. Usuarios de R tienen a su disponibilidad un gran nmero de programas escritos para S y disponibles.
2. OBJETIVO GENERAL.
El objetivo de esta prctica es iniciar a los alumnos en el uso del lenguaje de programacin R. as como adquirir soltura con el manejo de los comandos de R.
3. OBJETIVO DE RENDIMEINTO.
Utilizar R para llevar a cabo la descripcin de un conjunto de datos as como hacer conjeturas sobre una o vararas poblaciones.
4. MARCO TEORICO.
Concepto de Estadstica de Estadstica Descriptiva e Inferencia Estadstica.
La estadstica actual se puede definir de muchas formas, por ejemplo conjunto de mtodos que permiten recolectar presentar y analizar informacin o anlisis cientfico de datos basados en fenmenos naturales (Sokal & Rholf, 1969). Sin embargo una definicin til en el contexto de su aplicacin en las ciencias es: La Estadstica: Es una ciencia que estudia las caractersticas de un conjunto de casos para hallar en ellos regularidades en el comportamiento, que sirven para describir el conjunto y para efectuar predicciones. La Estadstica: Tiene por objeto recolectar, organizar, resumir, presentar y analizar datos relativos a un conjunto de objetos, personas, procesos, etc. A travs de la cuantificacin y el ordenamiento de los datos intenta explicar los fenmenos observados, por lo que resulta una herramienta de suma utilidad para la toma de decisiones. La estadstica tiene aspectos claramente diferentes que se correlacionan con el desarrollo histrico: I) II) III) Estadstica Descriptiva: cuyo fin es describir datos. Estadstica Matemtica: que constituye la base terica de toda la estadstica. Inferencia Estadstica: que tiene dos sub-captulos con objetivos diferentes: a) Estimacin: cuyo fin es aproximar el valor de ciertos parmetros b) Docimasia o prueba de Hiptesis: cuyo objetivo es probar hiptesis.
Poblacin:
Es el conjunto total de individuos, objetos o medidas que poseen algunas caractersticas comunes observables en un lugar y en un momento determinado. Cuando se vaya a llevar a cabo alguna investigacin debe de tenerse en cuenta algunas caractersticas esenciales al seleccionarse la poblacin bajo estudio. Entre stas tenemos: Homogeneidad - Que todos los miembros de la poblacin tengan las mismas caractersticas segn las variables que se vayan a considerar en el estudio o investigacin. Por ejemplo, si se fuera a investigar la incidencia de la drogadiccin entre jvenes mujeres adolescentes, entonces hay que definir claramente las edades que comprenden la adolescencia y cuando se seleccione la poblacin asegurarse de que todas las personas entrevistadas sean de la edad determinada y del sexo femenino. (La adolescencia se define operacionalmente como el periodo comprendido de edad que flucta entre 12 y 21 aos.)
Muestra -
la muestra es un subconjunto fielmente representativo de la poblacin. Hay diferentes tipos de muestreo. El tipo de muestra que se seleccione depender de la calidad y cun representativo se quiera sea el estudio de la poblacin.
Aleatoria: Cuando se selecciona al azar y cada miembro tiene igual oportunidad de ser
incluido.
variables o caractersticas que se pretenden investigar. Cada estrato debe corresponder proporcionalmente a la poblacin.
Escalas de Medicin
Llamaremos medicin al proceso de atribuir nmeros a las variables. El conjunto de reglas o modelos desarrollados para la asignacin de nmeros a las variables es lo que se denomina escala. La clasificacin de las escalas ms usada es la propuesta por Stevens (1946) que divide las escalas en: nominales, ordinales, de intervalo y de razn.
Escala nominal: nos permite identificar sujetos como "iguales" o "diferentes". Usando una
escala nominal podemos decidir si un sujeto es igual o diferente a otro, pero no podemos establecer relaciones de orden respecto a esa caracterstica, ni relaciones de cantidad ni de diferencia. Por ejemplo: si medimos el color de los ojos podemos establecer la siguiente escala: A- azul, V - verde, M - marrn y N- negro. No podemos ordenar los sujetos de mayor a menor o viceversa, simplemente podemos asegurar si dos sujetos tienen el mismo o distinto color de ojos. Otros ejemplos: nacionalidad, sexo, profesin. A este tipo de variables medidas con escala nominal se les puede asignar a cada categora cualquier tipo de smbolos. En el ejemplo hemos asignado letras pero podamos haber optado por nmeros: 1- azul, 2 - verde, 3 - marrn y 4 negro.
Escala ordinal: Esta escala no slo permite la identificacin y diferenciacin de los sujetos
sino que adems permite establecer relaciones del tipo "mayor que" o "menor que". Es decir, de los sujetos se puede decir cual presenta una mayor o menor magnitud de la caracterstica medida, los objetos se pueden ordenar. Ejemplo: nivel de estudios se puede asignar 1 a estudios primarios, 2 a estudios secundarios, 3 a estudios universitarios. Podemos ordenar a los sujetos segn el nivel de estudios, el valor 3 es mayor que el 2 y el 1. Aunque no podemos afirmar que la diferencia existente entre el 2 y el 1 sea la misma que la que existe entre el 3 y el 2. Ni que el que tenga nivel 3 tenga 3 veces ms de nivel de estudios que el que tiene nivel 1. Otros ejemplos de escala ordinal: posicin relativa en la clase, escala de dureza de los minerales.
Escala de intervalo: Con esta escala, adems de poder identificar un objeto y establecer
relaciones del tipo mayor que y menor que, tambin podemos hacer afirmaciones acerca de las diferencias en la cantidad del atributo de unos y otros objetos. Es decir, disponemos de una unidad de medida, aunque en este caso el cero sea un punto arbitrario en la escala. Es decir, no indica ausencia total de la cantidad de atributo. Un ejemplo tpico es el calendario, podemos afirmar que ha transcurrido el mismo tiempo entre 1960 y 1966 que entre 1980 y 1986 porque contamos con una unidad de medida llamada ao. Pero no podemos afirmar que hasta el ao 1000 haya pasado el doble de tiempo que hasta el ao 500, porque el valor cero no representa el comienzo del tiempo sino que, en nuestro calendario se eligi el ao del nacimiento de Cristo como ao 1. Otros ejemplos: la medicin de las temperaturas en grados Celcius la escala de los test de inteligencia.
5. FUENTES DE INFORMACION
Tanto el programa como manuales estn disponibles en la direccin
Cmo introducimos datos? Para introducir una serie simple lo hacemos con el siguiente comando Por ejemplo
En un curso de 40 alumnos, se desea estudiar el comportamiento de la variable estatura, registrndose los siguientes valores: 1,52 1,59 1,62 1,71 1,64 1,53 1,60 1,72 1,54 1,60 1,64 1,72 1,64 1,60 1,54 1,55 1,73 1,61 1,65 1,73 1,55 1,61 1,62 1,73 1,56 1,65 1,66 1,75 1,57 1,63 1,76 1,67 1,58 1,79 1,70 1,78 1,58 1,63 1,69 1,63
3) max(x) max(x)=1.79
4) min(x) Min(x)=1.59
5) sort(x) sort(x)
1.52 1.53 1.54 1.54 1.55 1.55 1.56 1.57 1.58 1.58 1.59 1.60 1.60 1.60 1.61 1.61 1.62 1.62 1.63 1.63 1.63 1.64 1.64 1.64 1.65 1.65 1.66 1.67 1.69 1.70 1.71 1.72 1.72 1.73 1.73 1.73 1.75 1.76 1.78 1.79
6) rev(sort(x)) rev(sort(x))
1.79 1.78 1.76 1.75 1.73 1.73 1.73 1.72 1.72 1.71 1.70 1.69 1.67 1.66 1.65 1.65 1.64 1.64 1.64 1.63 1.63 1.63 1.62 1.62 1.61 1.61 1.60 1.60 1.60 1.59 1.58 1.58 1.57 1.56 1.55 1.55 1.54 1.54 1.53 1.52
muy fcil
Si vemos la serie simple inicial sin ordenar y buscamos la posicin 19 veremos que esta justamente el mximo de la serie el cual ya calculamos con el comando max(x) que era justamente 1.79
8) which.min(x) which.min(x)= 1
Nmero de elementos en x
1.5 1.6 1.5 1.6 1.7 1.6 1.6 1.6 1.6 1.6 1.6 1.5 1.6 1.6 1.6 1.6 1.6 1.6 1.8 1.6 1.6 1.6 1.6 1.5 1.6 1.6 1.7 1.8 1.7 1.7 1.7 1.7 1.7 1.6 1.7 1.7 1.8 1.7 1.8 1.6
8. DESARROLLO DE LA PRACTICA
Practiquemos ahora lo expuesto obteniendo la informacin de la siguiente serie de datos
43.3534, 51.2123, 46.6133, 32.5674, 41.8234, 45.9756, 60.6424, 39.4323, 41.2312, 60.2545, 49.0234, 40.5552, 58.3867, 42.7435, 53.3121, 58.7656, 46.4234, 39.1232, 63.9222, 51.5756, 53.3423, 55.4342, 60.5452, 47.6563, 39.7768, 46.8544, 64.7864, 57.6565, 44.53458, 65.3453, 69.5457, 50.4090, 54.2009, 39.4423, 46.656, 61.8432, 44.3654, 48.554, 53.9434, 61.4434, 38.1423, 47.8323
Se solicita 1) 2) 3) 4) 5) 6) 7) Ordenar los datos en forma ascendente y descendente Calcular el mximo y el mnimo de la serie Determinar el rango de la serie Observar cual es el datos que mas se repite por simple inspeccin Determinar la suma de los datos de la serie Identificar el producto de todos los elementos de la serie Redondear la serie a dos desimantes y repetir desde 1 hasta 5
Estas son las concurso: 3.8 5.1 7.1 6.2 1.6 6.2 5.5 3.8 1.3 9.2 6.3 2.8 9.8 5.1 1.2 4.2 1.8 2.2 3.3 5.2
notas obtenidas por los 100 candidatos que se presentaron a un 3.2 5.0 5.0 4.6 3.7 3.6 6.2 3.4 7.0 1.4 6.5 3.7 3.7 1.6 4.3 1.9 3.0 6.8 3.4 4.0 2.5 8.0 4.0 7.2 5.8 5.6 1.7 7.7 5.0 3.8 2.8 2.4 1.7 6.4 5.2 8.4 4.3 4.5 5.9 5.4 3.4 1.9 7.5 6.1 8.8 3.8 4.7 6.0 2.0 5.0 1.2 4.7 9.4 3.3 2.7 6.0 5.4 3.1 6.8 1.1 2.9 8.1 6.0 5.9 7.4 4.2 5.8 7.2 5.5 4.1 4.3 5.3 2.5 2.1 6.6 5.0 2.6 2.3 4.9 7.6
a) b) c) d) e) f)
Cul es la nota mnima? Cual es la nota mxima? Ordenar las notas de mayor a menor Cul es el rango de estas notas? Cul es el valor de la suma de esta serie de datos? Investigar un comando en R que me permita saber la nota que deja el 25% de la serie por debajo de ella. g) Investigar un comando en R que me permita saber la nota que deja el 50% de la serie por debajo de ella. h) Investigar un comando que me calcule en R la media de dicha serie simple. Fecha de entrega: Prximo laboratorio