Escolar Documentos
Profissional Documentos
Cultura Documentos
- MATRIZ DE DATOS
Conceptos datos primarios y secundarios datos directos e indirectos datos cualitativos y cuantitativos datos agrupados y derivados distribucin muestral y distribucin normal
As, los datos correspondientes a una investigacin llevada a cabo para el estudio de una posible contaminacin radioactiva en un determinado lugar produjeron como resultado la matriz de datos, en donde se recogen las observaciones de los caracteres "edad", "sexo", "cncer", "cada anormal del cabello" y "profesin" en los 100 individuos seleccionados en la muestra. edad 32 29 ... 61 sexo masculino femenino ... masculino cncer no no ... si cada cabello poco no ... mucho profesin agricultor maestra ... agricultor
Para los datos cuantitativos simplemente se coloca dentro la matriz el nmero correspondiente, las unidades sern las mismas para todos los datos de esa variable, por lo cual no hace falta agregrsela a cada uno Por ejemplo: edad (aos) = 32 o peso (kilos)= 80 Para los datos cualitativos se podra proceder como en la matriz anterior en el caso de sexo y profesin y cada de cabello, colocando simplemente la palabra que indica la informacin. Esto puede ser muy engorroso para el llenado de la matriz y adems es muy comn que se cometan errores y no se utilice exactamente el mismo trmino, con los cual luego sern analizados como si fueran datos diferentes. Estas razones hacen que lo ms til sea codificar previamente los datos Por ejemplo: sexo masculino = 1 y sexo femenino = 2 Consejos para el armado de una base de datos No deje lneas en blanco, ni lneas donde coloque algn ttulo, los paquetes estadsticos no trabajan as. Revise el sistema si utiliza coma o puntos para los decimales, y escriba todos los datos de igual manera. Si luego va a transportar sus datos a un paquete estadstico use en su base la misma manera que el paquete utiliza Revise como escribe la fecha en el sistema espaol o americano. Fecha dd/mm/aa 25/05/1810 o mm/dd/aa 05/25/1810 y escriba todas las fechas de igual modo Utilice siempre las mismas unidades, todo en cm. o todo en metros, etc., etc. No ponga dos datos en la misma celda, cree una celda para cada uno. Sera un error colocar de esta manera la presin sangunea 150/80 En este caso deberan armar dos columnas una que dijera presin diastolita y sistlica y en cada uno colocar el dato correspondiente
29
Datos derivados: Suponga que usted quiere obtener diferencia de peso luego de una dieta; para ellos deber armar dos columnas una que diga peso anterior y otra que diga peso actual. Luego una tercera que llamar diferencia cuya informacin obtendr luego de restar los datos de la segunda columna al de la primera. Siempre que esto sea posible no haga usted la cuenta hgala utilizando la misma base que puede ser un Excel, as no habr error, pero recuerde que ese ser un dato derivado de las otras celdas. Eso tiene algo bueno, no bien cambie usted un datos en las otras columnas se cambiar en la tercera, pero no olvide este detalle, si usted, luego de hacer las cuentas decidiera borrar las columnas anteriores, se borraran tambin la tercera. A pesar de los consejos anteriores es muy comn cometer errores en el volcado de datos, por eso antes de comenzar a trabajar con los datos, se debe ser muy riguroso en su revisin. Los errores encontrados se pueden deber a un inadecuado registro de los datos en las planillas previas, y otras veces en el pasaje a la base de datos. Se pueden evitar con acciones previas y / o posteriores Prevencin: Para evitar estos inconvenientes se puede actuar antes poniendo lmites en la base, para que no acepte valores mayores que los posibles Por ejemplo: no permitiendo que se acepten valores que excedan el valor mximo que puede tomar la variable. Por ejemplo, en los datos sobre edad no permitir que se coloque un valor que exceda las dos cifras Posteriormente: De todas formas siempre se debe proceder a una limpieza de datos corroborando de acuerdo a conceptos lgicos de datos imposibles Verificacin visual: a veces es muy til simplemente mirar toda la base de datos y rpidamente corregir los errores muy llamativos que se observan, inclusive verificar si las celdas vacas se deben a datos faltantes en los registros o aun dficit en el volcado de datos Verificacin de rangos La verificacin de rango compara cada dato con un conjunto de valores permitidos y usuales para esa variable. La verificacin de rango se usa para: -Detectar y corregir valores no vlidos: por ejemplo si codifique sexo en valores 1 y 2 no puede parecer el valor 11 -Identificar e investigar valores inusuales: revisar datos de kilos muy altos o de alturas extremas Verificacin de la consistencia La verificacin de la consistencia examina cada par (a veces ms) de datos relacionados, en relacin con el conjunto de valores habituales y permitidos de las variables como par. Por ejemplo, los hombres no pueden tener datos sobre nmero de abortos Los estudiantes universitarios habitualmente tienen por lo menos 18 aos aunque podra haber alguno menor excepcionalmente. La verificacin de la consistencia se usa para: - Detectar y corregir las combinaciones no permitidas: hombres y abortos - Sealar e investigar combinaciones inusuales: estudiantes menores de 18 aos
30
Si se traza una lneas uniendo los puntos medios de cada intervalos (intervalo medio de clase), en este caso, quedara dibujada una figura con forma de campana invertida simtrica, que representara la distribucin de esos datos. Existen diversos tipo de curvas que pueden adoptar una distribucin de datos pero este formato es el ms conocido y se llama distribucin normal, distribucin de Gauss o distribucin gaussiana, porque es una de las distribuciones de probabilidad de variable continua que con ms frecuencia aparece en fenmenos reales. La importancia de esta distribucin radica en que permite modelizar numerosos fenmenos naturales, sociales y psicolgicos. Algunos ejemplos de variables asociadas a fenmenos naturales que siguen el modelo de la normal son: variables biolgicas como el peso, la altura, la presin sangunea, etc. 1. 2. 3. 4. 5. Los valores de la curva son positivos ya que son frecuencias. La curva tiene un valor mximo representado por el valor central. La curva es simtrica con respecto al valor central La curva tiene puntos de inflexin a partir de los cuales disminuye notablemente su rea Las dos colas (extremos) de la curva se extienden de manera indefinida y nunca tocan el eje horizontal, o sea en el eje de las abscisas es asntota horizontal. 6. El rea bajo la curva es la unidad. 7. Para definir una curva de gauss se necesitan dos medida que indique cual es el valor central (la media) y otra que indique la dispersin de los datos (el desvo standard) Igual medida central y diferentes dispersin Igual dispersin y diferente medida central 31
Esta curva tiene una particularidad muy utilizada en estadstica El desvo estndar es una medida de dispersin muy utilizado por tener la siguiente cualidad. En un curva gaussiana el 100% de los datos se encuentran localizados debajo de la curva Y en el rea comprendida: -entre la media y +/- aproximadamente un desvo estndar se encuentra el 68 % de los datos -entre la media y +/- aproximadamente dos desvos estndar se encuentra el 95% de los datos -entre la media y+/- aproximadamente tres desvos estndar se encuentra el 99 % de los datos
Si la distribucin de datos no es simtrica porque tiene desplazado su valor central, se denomina curva sesgada .
32