Trabajo Parasistente de Tesisa Ascender

Repblica Bolivariana de Venezuela
Ministerio del Poder Popular para la Educacin Universitaria

Instituto Universitario de Tecnologa Cuman
Cuman Estado Sucre
Una aplicacin de Estadstica Espacial al

Crimen: Especficamente al delito tipificado:
Robo a Personas, en la zona
Ejido-Mrida-Tabay
Trabajo presentado por el Profesor Linis B. Guerrero P. como requisito

parcial para ascender a la categora de Asistente
Cuman, Venezuela
Diciembre, 2010
Universidad de los Andes

Facultad de Ciencias Econmicas y Sociales
Instituto de Estadstica Aplicada y Computacin

Ejido-Mrida-Tabay
Autor: Linis B. Guerrero P.

Tutor:Dr. Arnaldo Goita
TRABAJO DE GRADO
Mrida, Venezuela
Octubre, 2010
Universidad de los Andes

Facultad de Ciencias Econmicas y Sociales
Instituto de Estadstica Aplicada y Computacin

Ejido-Mrida-Tabay
Autor: Linis B. Guerrero P.

Tutor:Dr. Arnaldo Goita
TRABAJO DE GRADO
Presentado ante la ilustre Universidad de los Andes
Como requisito final para optar al grado Acadmico de
Magister Scientiae en Estadstica
Mrida, Venezuela
Octubre, 2010
RECONOCIMIENTO
A los profesores Jos Arnaldo Goitia y Jos Manuel Hernndez, por su

valioso aporte al desarrollo de este trabajo.
A la polica del Estado Mrida, y a su Departamento de Estadstica bajo
la Direccin del Lcdo. Carlos Mesa, por su excelente aporte en la realizacin
de este trabajo.
A la Corporacin de los Andes (CorpoAndes) por su valioso aporte prestado para desarrollar este trabajo.
Al Instituto de Investigaciones Econmicas y Sociales de la Universidad
de los Andes, bajo la direccin del Dr. Gerardo Colmenares, por su iniciativa
en los cursos de sistemas de informacin geogrficos (SIG).
A la Universidad de Oriente (UDO), por su valioso aporte con el Sistema
de informacin geogrfico ArcGIS.
AGRADECIMIENTOS
A nuestro Padre Celestial, por permitirme otro xito. Gracias Seor.

Al Instituto de Tecnologa Cuman, por brindarme la oportunidad de
cursar estudios de Maestra en el rea de Estadstica en la Universidad de los
Andes.
A la Universidad de los Andes y a la Facultad de Ciencias Econmicas y
Sociales, por permitirme una vez ms en sus aulas de clases.
Al Instituto de Estadstica Aplicada y Computacin, a sus profesores y
al personal administrativo por su gran ayuda y paciencia.
DEDICATORIA
A mi familia, padres, hermanos.

A mis sobrinos y los primos, que sigan el camino a la Universidad, que
con esfuerzo y constancia se logran pasar poco a poco todas las barreras, y
al final te espera el xito.
RESUMEN
En este trabajo se analiza la data proporcionada por el departamento de

estadstica de la Polica del estado Mrida del delito tipificado como: Robo a
Personas, ocurridos en el ESTADO MRIDA, especficamente en los Municipios CAMPO ELAS, LIBERTADOR Y SANTOS MARQUINA, durante
el PERIODO 2007 - 2008, mediante las tcnicas de anlisis exploratorio de
datos espaciales que el software CrimeStat ofrece, conjuntamente con el Sistemas de Informacin Geogrfica ArcView; este ltimo como Sistemas de
Informacin Geogrfica, para visualizar la informacin en el mapa digitalizado de la zona.
En el anlisis descriptivo de la data espacial, se presenta el mapa del
delito, los estadsticos descriptivos de tendencia central y de dispersin; donde
se visualiza claramente que la distribucin de la data presenta forma alargada
con direccin sur-oeste al nor-este, y con mayor concentracin en el centro
de la ciudad; adems, las medidas centrales se ubican ms al sur-oeste del
centro de la ciudad, alrededor del viaducto Miranda.
En el anlisis de dependencia espacial en la data, result con autocorrelacin espacial positiva altamente significativo, en distancias cortas, indicando
la existencia de clusters; basndose en esta informacin se desarrolla la bsqueda exploratoria y confirmatoria con las tres tcnicas de CrimeStat para
detectar los clusters; resultando los siguientes clusters de primer orden, distribuidos en la zona como sigue: tres ubicados en el centro de Mrida: uno
entre las calles 19 y 21, y entre las Av. 1 y 4, entrada del Barrio Simn Bolvar y Pueblo Nuevo; el segundo entre las calles 21 y 23, entre las Av. 3 y 7,
cerca de la Plaza el Espejo; y el tercero entre las Avenidas 2 y 4 con Calles
32 y 34. Y otros dos clusters, uno en la Av. Prceres, frente al C.C. Alto
Prados, entrada a El Campito; y el otro en la Av. Las Amricas (C.C. Canta
Claro). Adems dos clusters, uno en Ejido y el otro en la Parroquia; en Ejido

se ubica en entre las Av. Bolvar y Fernndes Pea, entre las calles Rangel
y Jauregui, cubriendo tambin la vereda uno y la calle el Ceibal. Y en La
Parroquia, cubre la entrada a Los Curos, Parque la Aviacin, y parte baja
de la Parroquia.
Se identifican tambin los sectores o zonas con mayor riesgo, distribuidos
en cinco grupos pequeos en el centro de la ciudad de Mrida, dos clusters
muy cercanos (uno del otro), se localizan entre las calles 19 y 22 y las Avenidas
2 y 3, incluyendo final de la Av. 1 (entrada Barrio Simn Bolvar); otro entre
las Av. 4 y 6, y calles 25 y 27(parte baja del viaducto Campo Elas); y el otro
entre las esquinas de la Av. 4 con calle 28 y la Av. 5 con calle 30, este cluster
de forma alargada. Y el cluster que se ubica en la Av. Los prceres, frente al
C.C. Alto Prado.
El cluster de segundo orden, identificados como zonas de mayor riesgo,
cubre casi todo el casco central, desde la calle 17 hasta la 32, todo el viaducto
Campo Elas, y la zona donde se ubican los Barrios Simon Bolvar, Pueblo
Nuevo, San Jos de la Flores, residencias Las Maras, y el Campito, Cruz
Verde y Santo Domingo.
Adems, se investiga la interaccin entre el espacio y el tiempo en la data,
mediante los ndices de Knox y Mantel, resultando negativa la interaccin
entre espacio y tiempo.
Palabras claves: Autocorrelacin, Cluster, Interaccin Espacio-Temporal.
ndice general
1. Planteamiento del Problema
1.1. Formulacin del Problema . . . . . . . . . . . . . . . . . . . .
1.2. Antecedentes de la investigacin . . . . . . . . . . . . . . . . .
1.3. Justificacin . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4. Objetivo General . . . . . . . . . . . . . . . . . . . . . . . . .
1.4.1. Objetivos Especficos . . . . . . . . . . . . . . . . . . .
1.5. Metodologa . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2. Marco terico
2.1. Introduccin general a la teora de estadstica espacial
8
. . . .
2.1.1. Descripcin general del modelo espacial . . . . . . . . .
2.2. Estadsticos descriptivos espaciales . . . . . . . . . . . . . . . 11

2.2.1. Estadsticos espaciales de tendencia central y
dispersin . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.2. Grficos y medidas que ayudan a describir la distribucin geogrfica . . . . . . . . . . . . . . . . . . . . . . 19
2.3. Autocorrelacin espacial . . . . . . . . . . . . . . . . . . . . . 21
2.3.1. ndices de autocorrelacin espacial . . . . . . . . . . . 22
2.3.2. ndices de autocorrelacin espacial basados en la distancia . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.4. Herramientas estadsticas para analizar Zonas Calientes . . 49
2.4.1. La Moda . . . . . . . . . . . . . . . . . . . . . . . . . . 49
NDICE GENERAL
iii
2.4.2. La moda difusa (Fuzzy) . . . . . . . . . . . . . . . . . 49

2.4.3. Cluster Jerrquico del vecino ms cercano . . . . . . . 50
2.4.4. Ajuste del cluster jerrquico del vecino ms
cercano al riesgo del crimen . . . . . . . . . . . . . . . 63
2.4.5. Tcnica Anlisis Espacial Temporal del Crimen . . . . 72
2.4.6. Cluster K- medias . . . . . . . . . . . . . . . . . . . . . 80
2.5. Anlisis espacio-tiempo . . . . . . . . . . . . . . . . . . . . . . 88
2.5.1. El ndice de Knox . . . . . . . . . . . . . . . . . . . . . 90
2.5.2. El ndice de Mantel . . . . . . . . . . . . . . . . . . . . 95
3. Anlisis de resultados
100
3.1. Anlisis descriptivo
. . . . . . . . . . . . . . . . . . . . . . . 101
3.2. Anlisis de autocorrelacin espacial . . . . . . . . . . . . . . . 106

3.2.1. Anlisis del estadstico de Moran . . . . . . . . . . . . 107
3.2.2. Anlisis del estadistico C de Geary . . . . . . . . . . . 107
3.2.3. Correlograma de Moran . . . . . . . . . . . . . . . . . 109
3.2.4. ndice del vecino ms cercano . . . . . . . . . . . . . . 113
3.2.5. Anlisis del K-simo vecino ms cercano . . . . . . . . 114
3.2.6. Estadstico de Ripley . . . . . . . . . . . . . . . . . . . 115
3.2.7. Conclusin obtenida con los indicadores de autocorrelacin espacial . . . . . . . . . . . . . . . . . . . . . 117
3.3. Anlisis de cluster o zonas calientes
. . . . . . . . . . . . . . 117
3.3.1. Anlisis de cluster mediante la tcnica k-medias . . . . 117

3.3.2. Anlisis de clusters mediante STAC
. . . . . . . . . . 121
3.3.3. Anlisis exploratorio de cluster, con la tcnica de Cluster jerrquico del vecino ms cercano . . . . . . . . . . 125
3.3.4. Anlisis exploratorio con la tcnica del Cluster jerrquico del vecino ms cercano con Ajuste del riesgo . . . 129
3.4. Anlisis espacio temporal
. . . . . . . . . . . . . . . . . . . . 132
3.4.1. ndice de Knox . . . . . . . . . . . . . . . . . . . . . . 132
NDICE GENERAL
iv
3.4.2. ndice de Mantel . . . . . . . . . . . . . . . . . . . . . 134

3.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
3.6. Recomendaciones . . . . . . . . . . . . . . . . . . . . . . . . . 139
A. Anexo
140
A.1. Tablas de resultados estadsticos . . . . . . . . . . . . . . . . . 140

Bibliografa
147
ndice de figuras
2.1. Medianas en el plano . . . . . . . . . . . . . . . . . . . . . . . . 14
3.1. Mapeo del delito tipificado: Robo a Personas . . . . . . . . . . . . 101
3.2. Medidas de tendencia central . . . . . . . . . . . . . . . . . . . . 102
3.3. Medidas de dispersin . . . . . . . . . . . . . . . . . . . . . . . 103
3.4. Comparacin de las medidas de dispersin de la data en estudio,
con la data de delitos ocurridos en el Municipio Libertador y Campo
Elas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
3.5. Comparacin de las medidas de dispersin de la data en estudio,

con la data de los delitos ocurridos slo en el Municipio Libertador
(Mrida) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
3.6. Resumen estadstico del test de Moran . . . . . . . . . . . . . . . 107

3.7. Resumen estadstico C de Geary . . . . . . . . . . . . . . . . . . 108
3.8. Resumen estadstico Moran ajustado y Geary ajustado . . . . 109
3.9. Correlograma de moran con 20 intervalos y una simulacin igual a
1000 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
3.10. Correlograma de Moran . . . . . . . . . . . . . . . . . . . . . 110

3.11. Correlograma ajustado de moran con 20 intervalos y una simulacin
igual a 1000
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
3.12. Correlograma de Moran ajustado . . . . . . . . . . . . . . . . . . 112

3.13. ndice del vecino ms cercano . . . . . . . . . . . . . . . . . . . 113
3.14. ndice del k-simo . . . . . . . . . . . . . . . . . . . . . . . . . 115
NDICE DE FIGURAS
vi
3.15. Ripley sin correccin y corregido . . . . . . . . . . . . . . . . . . 116

3.16. K-medias: 12 clusters con una distancia de separacin igual a 1 . . 118
3.17. K-medias: k=8 cluster con una distancia de separacin igual a 10 . 119
3.18. K-medias: k=8 cluster con una distancia de separacin igual a 4 . . 120
3.19. STAC: cluster con distancia 600 m y 4 puntos . . . . . . . . . . . 121
3.20. Cluster generados por la tcnica STAC con un radio de bsqueda
igual a 600 m y una simulacin igual a 1000 . . . . . . . . . . . . 122
3.21. STAC cluster con distancia 250 m y 5 puntos . . . . . . . . . . . 123

3.22. Tcnica STAC con 150m y 100m . . . . . . . . . . . . . . . . . . 124
3.23. Cluster generados por la tcnica del vecino ms cercano con distancia esperada . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
3.24. Cluster de segundo orden generado . . . . . . . . . . . . . . . . . 127

3.25. Cluster generados por la tcnica del vecino ms cercano fija . . . . 128
3.26. Cluster de segundo orden generado . . . . . . . . . . . . . . . . . 129
3.27. Clusters generados por la tcnica NnhJ con distancia fija de 400 m 130
3.28. Cluster de primer y segundo orden,
. . . . . . . . . . . . . . . . 131
3.29. Knox: Ejecucin 7 das con 500 y 1000 metros . . . . . . . . . . . 132

3.30. Knox: Ejecucin con 15 das con 1000 y 2000 metros . . . . . . . . 133
3.31. Knox: Ejecucin Mediana y Media . . . . . . . . . . . . . . . . . 134
3.32. Salida de la rutina ndice de Mantel . . . . . . . . . . . . . . . . 135
A.1. Tabla correspondiente a la rutina del K-simo vecino ms cercado . 140
A.2. Suma de los cuadrados medios y cuadrados del error (SCM y SCE): 141
A.3. Suma de los cuadrados medios y cuadrados del error (SCM y SCE) 141
A.4. Suma de los cuadrados medios y cuadrados del error (SCM y SCE) 142
A.5. Clusters generados por la tcnica Nnh con distancia esperada y una
simulacin igual a 1000 . . . . . . . . . . . . . . . . . . . . . . . 142
A.6. Clusters generados por la tcnica Nnh con distancia esperada y una
simulacin igual a 1000 fija . . . . . . . . . . . . . . . . . . . . . 143
A.7. Clusters generados por la tcnica STAC con un radio de bsqueda

NDICE DE FIGURAS
vii


Captulo 1
Planteamiento del Problema
1.1.
Formulacin del Problema
Actualmente en casi todos los pases se han incrementado los delitos comunes en gran escala, y adems las modalidades criminales son cada vez ms
complejas y dinmicas. En las grandes metrpolis, la enorme cantidad de
informacin criminal dificulta ms el proceso de investigacin criminal y muchas veces hace imposible que los analistas del crimen logren reunir la informacin adecuada, en un momento determinado, para la toma de decisiones.
Bajo esta situacin se hace necesario el uso de herramientas de informtica
y tcnicas de estadstica espacial para el tratamiento y anlisis de la informacin criminal.
El aporte de la informtica en este campo abarca un amplio espectro que
va desde la simple visualizacin de los hechos en un mapa mediante Sistemas
de Informacin Geogrfica (SIG), hasta el uso de tcnicas sofisticadas para
analizar datos espaciales o geogrficos (minera de datos o anlisis exploratorio de datos espaciales). El anlisis estadstico de datos geogrficos denominado en la literatura cientfica como anlisis exploratorio de datos espaciales
(AEDE), es una disciplina relativamente nueva en el rea de estadstica, y
ha sido diseado especficamente para gestionar grandes volmenes de da-
Formulacin del Problema
tos espaciales o geogrficos. El AEDE es aplicado casi en todos los campos

de investigacin. En la geologa, la edafologa, el tratamiento de imgenes,
la epidemiologa, la agronoma, la ecologa, la silvicultura, la astronoma, el
estudio de la atmsfera, la economa, en el rea social, incidencia criminal,
etc. En general en cualquier disciplina donde la medicin y recopilacin de
datos es afectada por el lugar y el tiempo. En el campo de la investigacin
criminal se han desarrollado varios paquetes para anlisis estadstico espacial
de los delitos, uno de los primeros fue STAC (Spatial and Temporal Anlisis
of Crime), desarrollado por la Autoridad de Justicia del Estado de Illinois en
EEUU (Criminal Justice Information Authority). Luego le siguieron CompStat y CrimeStat. Este ltimo es un programa de distribucin gratuita, con
plataforma independiente que corre bajo el Sistema Operativo Windows (98,
NT, 2000, XP, Vista), y con la mayora de interfaces para programas de Sistemas de Informacin Geogrfica (SIG). Fue Desarrollado por Dr. Ned Levine
y Asociados. El propsito de CrimeStat es proporcionar algunas herramientas de estadsticas espacial complementarias de ayuda a los investigadores y
organismos encargados de hacer cumplir la ley y mantener el orden.
Este trabajo plantea usar los paquetes CrimeStat y el software ArcGis
(ArcView) para analizar los delitos geo-referenciados y tipificados como: Robo a personas, en la zona Ejido-Mrida-Tabay, tres municipios del estado
Mrida. Con esta metodologa de trabajo se proyecta dar a conocer el AEDE, y abrir la posibilidad de incorporar estas tcnicas en la investigacin
criminal en el pas, como en otras reas de investigacin, a fin de que ayude a
las instituciones del Estado y a los investigadores encargados de mantener el
orden y la paz social. Aunque este es un trabajo ms estadstico, que de investigacin criminal, se hace un esfuerzo por mostrar como se puede aplicarse
la estadstica espacial en el rea del crimen.
Antecedentes de la investigacin
1.2.
El anlisis exploratorio de datos espaciales (AEDE) aplicado al mbito

criminal es un campo relativamente nuevo y ha tenido un gran impulso en
los ltimos aos, sobre todo en EEUU tanto en la creacin de software, como
en la aplicacin. A continuacin citamos algunos proyectos y aplicaciones:
El Proyecto COPLINK fue creado en el ao 1997 en el Laboratorio de Inteligencia Artificial de la Universidad de Arizona, en Tucson, con el objetivo
de servir de modelo para ser llevado a nivel nacional. Coplink est compuesto
por dos sistemas integrados: Coplink Connect y Coplink Detect. El primero
busca compartir informacin criminal entre distintos departamentos policiales, mediante un fcil acceso y una interfase sencilla, integrando distintas
fuentes de informacin. El segundo esta diseado para detectar de forma automtica distintos tipos de asociaciones entre las bases de datos mediante
tcnicas de minera de datos.
El Proyecto OVER comenz en el ao 2000 en el Reino Unido como una
iniciativa conjunta de la Polica de West Midlands y el Centro de Sistemas
de Adaptacin y Divisin de Psicologa de la Universidad de Sunderland. El
proyecto est enfocado en los casos de robo a domicilios particulares. Sus
principales objetivos son identificar los recursos crticos para establecer estrategias de prevencin y deteccin ms eficientes; analizar la distribucin
espacio-temporal de los hechos y confirmar las suposiciones sobre tendencias
y patrones.
El programa Compstat comenz en Nueva York en 1994, bajo la conduccin del comisario William Bratton. Hoy, el Departamento de Polica de la
ciudad lo reconoce como uno de los factores ms importantes en la merma en
la cantidad de crmenes. El sistema realiza un mapeo del crimen segn horas
y lugares precisos y ofrece luego estadsticas diarias que permiten realizar una
planificacin estratgica. Se proyectan mapas en pantallas grandes, con los
lugares y horarios exactos en donde se cometieron los crmenes, especificando
tambin el tipo de delito que se cometi.
CrimeStat es un programa de estadsticas espaciales diseado especficamente para el anlisis de la ocurrencia de incidentes criminales, desarrollado
por Ned Levine bajo el auspicio del Instituto Nacional de Justicia de Estados
Unidos de Amrica. Sin embargo, la mayora de los mtodos del programa
CrimeStat tienen aplicacin en otras ciencias, como en el anlisis de datos
espaciales en ciencias de la salud pblica, epidemiolgicos, botnicos o geolgicos. Su propsito es brindar a investigadores y agencias encargadas de
mantener el orden, un conjunto de herramientas estadsticas complementarias, que le faciliten la manipulacin de los grandes volmenes de informacin
criminal, y le permitan una accin rpida y efectiva en la lucha contra la delincuencia.
El software no tiene capacidad para la visualizacin de mapas ni funciones de SIG, su diseo se ha centrado en los mtodos de anlisis de datos
espaciales; sin embargo, los resultados pueden ser utilizados por programas
de SIG. El programa utiliza la ubicacin de incidentes criminales, como datos de entrada, en archivos en formato dBase (.dbf), cartogrficos Shapefile
(shp.) o de Texto ASCII. A partir de estos datos, permite aplicar los mtodos de estadstica espacial, produciendo los resultados en archivos de formato
cartogrfico que pueden ser utilizados directamente por diferentes programas
R MapInfo,
R Atlas*GISTM, Surfer
R for Windows,
de SIG como ArcView,
c
y ArcView Spatial Analyst.
En la actualidad CrimeStat se est empleando en forma creciente en los

departamentos de Polica en Estados Unidos de Amrica. Su distribucin es
Justificacin
gratuita, pudiendo ser descargado de Internet. Es un programa de plataforma

independiente que corre sobre el Sistema Operativo Windows (98, NT, 2000,
XP, Vista).
1.3.
Justificacin
Muchos de los fenmenos sociales son espacialmente autocorelacionados,

por ejemplo en las grandes metrpolis, la mayora de las caractersticas sociales e indicadores, como nmero de personas, niveles de ingreso, educacin,
empleo, ubicacin de instalaciones, son espacialmente dependientes. Los incidentes criminales tambin son espacialmente dependientes, esta caracterstica es bien conocida por los investigadores y cuerpos encargados del orden
pblico. Generalmente, los delitos ocurren en espacios cercanos, lo que se
conoce como zonas rojas o zonas calientes; sin embargo, las grandes cantidades de delitos (registros criminales) pueden dificultar o retardar el proceso
de la investigacin; las tcnicas de estadstica espacial aplicadas a la informacin criminal referenciada, permiten encontrar patrones espaciales ocultos
con gran rapidez y efectividad dentro de esas grandes cantidades de datos, y
localizar los sectores o lugares de mayor concentracin relativa, denominados
zonas calientes; adems de explicar mediante estadsticos si estos grupos son
o no producto de la aleatoriedad, como tambin verificar si existe autocorrelacin entre las regiones donde ocurren los eventos. En el caso de crmenes
realizados por delincuentes seriales, estos puede ser para el investigador un
verdadero desafo dentro su carrera policial, sin embargo, mediante el uso de
estas tcnicas, las teoras criminales, y la habilidad del investigador, puede
actuar efectivamente resolviendo el ilcito cometido, y realizar la prevencin
requerida; por ejemplo, CrimeStat ofrece un modelo para estimar la direccin
o residencia del delincuente serial.
Objetivo General
En el campo de la criminologa, el mapeo del crimen es la tcnica espacial ms comn, sencilla, y antigua, que desde hace tiempo se ha empleado
(mapas de alfileres), en la actualidad es parte integral del proceso de investigacin delictiva, y ahora gracias al la implementacin de los SIG y AEDE,
se incorpora el tiempo y su interaccin con el espacio (Espacio -Tiempo).
Estas son unas de las tcnicas del anlisis exploratorio de datos espaciales conjuntamente con los sistema de informacin geogrfico, que pueden
aplicarse a la informacin delictual, con la finalidad de que los cuerpos e instituciones del estado encargados del orden y la paz en la sociedad, puedan
usar estas herramientas para lograr mayor efectividad tanto en las medidas
correctivas, como en el diseo de polticas y planes de prevencin del delito.
1.4.
Objetivo General
Analizar el delito tipificado como: Robo a Personas, ocurridos en el Estado

Mrida, especficamente en los Municipios Libertador, Campo Elas y Santos
Marquina, durante el periodo 2007 - 2008, mediante las tcnicas de estadstica
espacial.
1.4.1.
Objetivos Especficos
Referenciar los delitos Robo a Personas.

Aplicar las tcnicas descriptivas (estadsticos centrogrfico) del anlisis
espacial al delito tipificado como Robo a Personas.
Analizar los estadsticos descriptivos del delito.
Calcular los ndices de autocorrelacin espacial.
Analizar los ndices de autocorrelacin espacial para descartar o determinar estadsticamente la existencia.
Metodologa
Aplicar las tcnicas que ofrece el software CrimeStat, para obtener los
clusters (en caso de existir).
Grficar con el SIG ArcView (ArcGis) los clusters obtenidos con el
software CrimeStat.
Analizar clusters.
Analizar relacin espacio tiempo en la variable: Robo a Personas.
1.5.
Metodologa
En este trabajo de investigacin se plante analizar la base de datos de los

DELITOS OCURRIDOS EN EL ESTADO MRIDA MUNICIPIOS CAMPO ELAS, LIBERTADOR Y SANTOS MARQUINA, durante el PERIODO
2007 - 2008, mediante las tcnicas de anlisis exploratorio de datos espaciales
(AEDE) que el software CrimeStat ofrece, adems, graficar esta informacin
en el mapa de la zona digitalizado, empleando el Sistema de Informacin
Geogrfica ArcGis. La base de datos proporcionada por el departamento de
estadstica de la Polica del estado Mrida, es organizada, y se referencian los
delitos tipificados como: Robo a persona. Para desarrollar este trabajo se emple el equipo Gps Garvin, el mapa digitalizado bajo ArcView proporcionado
por la Corporacin de los Andes (CorpoAndes) y los programas Microsoft
Excel, y el manejador de base de datos DBF Viewer 2000. El AEDE se desarroll a partir de los estadsticos descriptivos de los datos espaciales (robo a
personas geo-referenciado) calculados con CrimeStat; igualmente se calculan
los indicadores de autocorrelacin, y se procede a calcular los cluster en caso
de que los indicadores confirmen estadsticamente la existencia; finalmente
se plante, en este trabajo un estudio para analizar la correlacin espacio
tiempo, en la variable robo a persona geo-referenciada.
Captulo 2
Marco terico
2.1.
Introduccin general a la teora de estadstica espacial
En este captulo, se presenta una introduccin general a la teora de estadstica espacial, como definiciones bsicas, y algunas herramientas fundamentales para llevar a cabo un estudio descriptivo de la distribucin espacial de
un proceso o fenmeno espacial. En este trabajo el fenmeno espacial a tratar
es la delincuencia, siguiendo la estructura establecida en el software CrimeStat, desarrollado por el Dr. Ned Levine, del Intituto Nacional de Justicia De
Estados Unidos, para estudiar la distribucin espacial de la delincuencia.
Se us el programa CrimeStat, y algunas herremientas de Argis.9.2, este ltimo para mapear los delitos referenciados y graficar los clusters que
aparecen.
2.1.1.
Descripcin general del modelo espacial
Sea s Rd , una localizacin genrica del dato en el espacio Euclideo de

dimensin d, y suponga que la potencia del dato en la localizacin s, simbolizada por Z(s), es una cantidad aleatoria. Considere ahora s variando
en un conjunto ndice D Rd , de esta forma el conjunto {Z(s) : s D}

es comparable con un campo aleatorio multivariante o un proceso aleatorio.
Una realizacin del experimento es denota por {z(s) : s D}, o simplemente
z(s). Generalmente D se asume como un conjunto fijo no aleatorio de Rd ; sin
embargo el Dr. Noel Cressie considera el caso ms general, donde D es aleatorio; y basandose en esta estructura simple, expone en su libro el problema
en tres situaciones, atendiendo la naturaleza de la regin de observacin, y
el patrn espacial de puntos del proceso {Z(s)}.
Data geoestadstica: D Rd ; es un conjunto fijo que contiene un rectngulo d-dimensional de volumen positivo; y Z(s) un vector aleatorio
en la localizacin s D.
Datos reticulares: D es una coleccin (regular o irregular) numerable
de puntos de Rd , y Z(s) un vector aleatorio en la localizacin s D;
en nuestro caso, Z(s) es una variable aleatoria en la posicin s D y
D R2 .
Patrones de puntos: D es un proceso puntual en Rd o un subconjunto
de Rd , y Z(s) es un vector aleatorio, localizado en s D.
El conjunto espacial ndice D, es clasificado en dos perspectivas; en una
es tratado como una muestra de una distribucin continua, llamado Datos
geoestadsticos, y en otro caso, como un conjunto discreto o localizaciones
espaciales discretas (puntos o polgonos), denominado datos reticulares (en
ingls, lattice data).
En general el anlisis geoestadstico se encuentra en el entorno de las
ciencias relacionadas con el medio ambiente (geologa, fsica, hidrologa, etc.)
y se centra en una muestra de datos puntuales procedentes de distribuciones
10
geogrficas continuas. Mientras que el anlisis de datos reticulares, generalmente estn asociados con regiones, por lo que tambin se denominan datos
regionales o datos de reas. La tcnica para analizar esta perspectiva es llamada Econometra Espacial. Y generalmente analiza localizaciones geogrficas
discretas de puntos o polgonos (provincias, municipios, etc.) de fenmenos
socioeconmicos (distribucin de la renta, clientes, votantes, crecimiento econmico, delitos, etc.).
Un proceso puntual espacial en palabras sencillas est dado por un conjunto de localizaciones D Rd (normalmente 2 3 dimensiones), irregularmente distribuidas en cierta regin del espacio y generada por un mecanismo
estocstico.
Denotando la localizacin de los sucesos como
{s1 , s2 , ..., sn } = D,
y su intensidad o marca (vector aleatorio) por
{Z(s)} = {z(s1 ), z(s2 ), ..., z(sn )}
el proceso puntual se puede escribir como
N = {[s, Z(s)]} = {[si , z(si ); i = 1, 2, ..., n]}
De manera ms formal, los patrones puntuales son mapeos de un espacio
de probabilidad (, A, P ) sobre un dominio D Rd , en los que las realizaciones son conjuntos de puntos. El comportamiento del fenmeno se supone
est dado en base a la funcin de intensidad (marca) Z(s), algn mecanismo
estocstico. Ejemplo de aplicaciones: Epicentros de terremotos, posicin de
nidos de aves migratorias, posicin de burbujas en piezas de metal, entre
otros.
Estadsticos descriptivos espaciales
11
Un espacio que se caracteriza por la ausencia de estructura en la data, se

dice que es un espacio completamente aleatorizado (EAC).
En este trabajo, un patrn de puntos espacial con distribucin aleatorizada espacial completa (EAC) es tratado como un Proceso Homogneo de
Poisson, es decir, aleatoriedad espacial completa es sinnimo del Proceso
Homogneo de Poisson.
El proceso hbrido entre espacio y tiempo, o proceso espacio-temporal es
tratado como un proceso dinmico que ocurre en el tiempo como en el espacio; considerando la localizacin y tiempo (s; t), y su respectiva intensidad o
marca Z(s; t) se denota por {Z(s; t) : s D(t); t T }, donde Z(s; t) y D(t)
y T son posiblemente aleatorios.
El trabajo que se proyecta desarrollar est dentro de la perspectiva del
anlisis de datos reticulares, donde s es un elemento de R2 considerado aleatorio, especficamente para localizaciones del delito, y Z(s) la intensidad (ponderacin o marca) de s D R2 .
2.2.
En cualquier anlisis espacial, las medidas descriptivas constituyen el primer paso, y pueden ser herramientas muy potentes, dependiendo de la habilidad del analista. A continuacin, se presentan las definicones de las medidas
descriptivas de tendencia central y de dispersin, conocidas en ingls como
medidas Centrographic o Centrography.
2.2.1.
12
Estadsticos espaciales de tendencia central y

dispersin
La media central, la mediana central y centro de la distancia mnima son

estadsticos que describen la tendencia central de la distribucin espacial;
mientras que la desviacin estndar de las coordenadas X e Y , la desviacin
estndar de distancia y el elipse de desviacin estandar, son estadsticos que
describen la dispersin de la distribucin espacial. Estos estadsticos espaciales pierden algunas propiedades importantes que poseen en una dimensin,
por esta razn han sido modificados en forma apropiada.
Definicin 2.1 La medida descriptiva ms simple de la distribucin espacial, es la Media Central; y esta dada por la frmula:
x=
n
X
xi
k=i
y=
n
X
yi
k=i
donde xi y yi son las coordenadas del i-simo lugar, y n es el nmero

total de puntos.
Observe que esta medida no es ms que la media de las coordenadas X e
Y . Algunas veces esta medida es llamada centro de gravedad debido a que s
todos los puntos de la distribucin se colocan en un plano, y la media central
como punto de apoyo, esta representara el punto de equilibrio.
Para una variable unidimensional, la media es el punto en que la suma de
todas las diferencias entre la media y todos los dems puntos es igual a cero;
es decir, la media es el punto de mnima distancia a los dems puntos. Desafortunadamente, esta propiedad se pierde para el caso bidimensiones, tales
como la ubicacin de los incidentes de crimen. En este caso no necesariamente la media central es el punto de mnima distancia a los dems puntos.
13
Es importante mencionar que esta propiedad (en el espacio) se atribuye al

estadstico centro de distancia mnimo. Sin embargo, la media central es el
punto en que, tanto la suma de todas las diferencias entre la media de la
coordenada x y todas las dems coordenadas X es cero, como la suma de
todas las diferencias entre la media de la coordenada y con todas las dems
coordenadas Y es cero.
Definicin 2.2 Media central ponderada, es la media central ponderada por

otra variable, denotada por W . Su frmula esta dada por:
x=
n
X
w i xi
k=i
y=
n
X
wi yi
k=i
donde xi , yi son las coordenadas, wi la ponderacin del i-simo lugar, y

n es el nmero total de puntos.
Observe que es el promedio de la sumatoria total de la multiplicacin
simple del valor de cada una de las coordenadas por su respectivo valor de
ponderacin wi .
La ventaja de una media central ponderada se debe a que los puntos
estn relacionados con su reas, es decir, tienen incluidas las caractersticas
del rea. De esta forma la ponderacin origina un nuevo centro de gravedad
diferente a la media central.
CrimeStat permite calcular la media ponderada, usando la variable ponderacin o la variable intensidad. Sin embargo, para el uso de ponderaciones
debe ser cuidadoso para evitar confusin al momento de analizar los resultados. Si existe una distincin explcita entre las variables ponderadas, se
pueden usar los dos, de lo contrario es recomendable usar la ms apropiada.
14
Definicin 2.3 La Mediana Central es el punto que se obtiene de la interseccin entre la mediana de las coordenadas X y la mediana de las coordenadas
Y.
Sin embargo, esta medida no es estrictamente una mediana, como en el
caso unidimensional, donde la mediana es el nico punto en que el 50 % de los
casos caen por debajo de ella y el otro 50 % caen por arriba; y adems, para
localizaciones (bidimensinales) sobre el plano bidimensional, esta medida no
es nica, debido a que la ubicacin de la mediana es definida por la forma en
que los ejes son dibujados. Por ejemplo, en la figura 2.1, hay una muestra de
8 puntos; y se han trazado cuatro lneas, cada lnea de esta divide al grupo
Figura 2.1: Medianas en el plano

en dos grupos de cuatro cada uno, y ninguna de las cuatro lneas identifica
exactamente una mediana. En su lugar, se observa un rea en que cualquier punto puede ser considerado la mediana central. Como consecuencia la
propiedad bsica de unicidad de la mediana en este caso no se cumple. No
obstante, siempre que los ejes no sean rotados, la mediana central puede ser
un estadstico til.
15
En CrimeStat, la rutina de la mediana central da una salida de tres estadsticas: El tamao de la muestra, la mediana de X y la mediana de Y .
Definicin 2.4 Centro de mnima distancia: Esta medida o estadstica tiene

la propiedad de unicidad, ya que se define como el punto C en que la suma
de las distancias a todos los dems puntos es mnima; es decir:
Centro de mnima distancia = C = C(xc , yc ) =
n
X
dic es mnima,
k=i
donde dic la distancia entre el punto i, y el centro de distancia mnima

C = C(xc , yc ) con coordenadas xc e yc .
Esta medida realmente es un estadstico de tendencia central (centragraphic), y se aproxima al centro geogrfico de la distribucin, sin embargo, no
hay una frmula que calcule la ubicacin de este punto con exactitud. CrimeStat utiliza un algoritmo iterativo.
Algunas veces esta medida es llamada mediana central, lo que puede generar una confusin por usar el mismo nombre de la mediana central definida
anteriormente. Claramente, hay una diferencia notable en estos dos estadsticos, centro de distancia mnima es nica, mientras que la mediana central
depende de la seleccin de los ejes.
Definicin 2.5 Media Geomtrica es la medida que se obtiene de la interseccin de las medias geomtricas de las coordenadas X y Y respectivamente:
1
Media geomtrica de X = GM (x) = ni=1 (xi ) n

1
Media geomtrica de Y = GM (y) = ni=1 (yi ) n
16
donde es el producto de los valores de las coordenadas de X Y , y n es

el tamao de la muestra.
De manera semejante, esta medida puede ser evaluada como la media de

los logaritmos de cada coordenada, es decir:
ln(GMx ) =
ln(x1 ) + + ln(xn )
n
ln(y1 ) + + ln(yn )
n
De esta forma la media geomtrica es el antilogaritmo de la media de los
ln(GMy ) =
logaritmos:
GMx = eln(GMx )
y GMy = eln(GMy )
Definicin 2.6 Media Armnica: Esta medida se define como:

Media armnica de X = HMx = P
n
(1/xi )
n
Media armnica de Y = HMy = P
(1/yi )
donde n es el tamao de la muestra.
En otras palabras, la media armnica de X y Y , respectivamente, es la
inversa de la media de los valores invertidos de X y Y , respectivamente.
Tanto la media geomtrica como la media armnica son medias que reducen el efecto de los valores extremos, aunque con diferentes mtodos.
En CrimeStat la media Geomtrica y la media Armnica se obtiene como
parte de la rutina de la media central (Mcsd).
17
Definicin 2.7 La medida ms sencilla que nos indica el grado de dispersin

de la distribucin, es simplemente la desviacin estndar Sx y Sy , de las
coordenadas X e Y respectivamente. Las frmulas utilizadas son las comunes
de la desviacin estndar univariante, es decir:
v
u n
uX (xi x)2
Sx = t
n1
i=1
v
u n
uX (yi y)2
Sy = t
n1
i=1
donde xi y yi son las coordenadas de X e Y para cada uno de los puntos, x

y y son la media de X y Y , y n el nmero total de puntos.
En CrimeStat la salida grfica de esta medida es un rectngulo, siendo la
longitud de sus lados Sx y Sy para X y Y respectivamente.
Estas medidas aportan informacin sobre la dispersin de los incidentes
en las coordenadas X e Y , pero no es un estadstico que proporcione informacin de la dispersin de localidad del incidente; en realidad son dos
estadsticos separados; adems proporciona los resultados en unidades del
sistema de coordenadas. Una medida que supera estos poblemas es la desviacin estndar de la distancia, que se define a continuacin.
Definicin 2.8 Desviacin estndar de distancia: Esta medida es la desviacin estndar de la distancia de cada punto a la media central, y se expresa
en unidades de medida (pies, metros, millas). La frmula de este estadstico
est dada por:
Sxy
v
sP
u n
n
2
2
uX (diM C )2
i=1 [(xi x) + (yi y) ]
t
=
=
n2
n2
i=1
donde diM C es la distancia del punto i a la media central M C, y n el total

nmero de puntos.
18
Esta medida es equivalente a la desviacin estndar univariante, y se puede representar como un nico vector en lugar de dos vectores, como sucede
con la desviacin estndar de las coordenadas X e Y.
En CrimeStat la salida grfica es un crculo alrededor de la media central.
Este estadstico es una buena medida de dispersin de incidentes o puntos
en torno a la media central. Sin embargo, con dos dimensiones, las distribuciones generalmente son sesgadas en una u otra direccin (una condicin
llamada anisotropa), para tratar esta condicin se propone otro estadstico
conocido como elipse de desviacin estndar, que se presenta a continuacin.
Definicin 2.9 Elipse de desviacin estndar: Esta medida de dispersin se

deriva de la distribucin bivariante, definida por:
r
x2 + y2
Distribucin bivariante =
2
Las desviaciones estndar x2 y y2 , de las coordenadas X e Y respectivamente son ortogonales entre s (en direccin de X y en direccin de Y ) y
definen una elipse. El procedimiento consiste en hace girar los ejes X e Y de
tal forma que la suma de los cuadrados de distancias entre los puntos y los
ejes sea mnima.
Las frmulas de estas estadsticas son las siguientes:
1. El eje X es rotado en sentido horario un ngulo , definido por:
P
= Arctan( (
(xi x)2
(xi x)2 )+[(
P
P
2
2 2
2
(x
Pi x) (yi y) ) +4( (xi x)(xi x) ) ] )
2 (xi x)(xi x)
donde todas las sumas son de i = 1 a n .
19
2. Las desviaciones estndars Sx y Sy se calculan mediante las siguientes

frmulas:
r P
P
[ (xi x)Cos() [(yi x)Sen()]2
Sx = 2
n2
y
r P
P
[ (xi x)Sen() [(yi x)Cos()]2
Sy = 2
n2
donde n es el nmero total de puntos.

Observe que se le resta 2 al nmero de puntos en cada estimador, debido
a las dos constantes (media de X y media de Y ) para obtener una estimacin
insesgada de la elipse de desviacin estndar.
La salida grafica de esta medida es por convenio una elipse; la longitud
de los ejes se define como:
Eje X : Logitudx = 2Sx
Eje Y : Logitudy = 2Sy ,
y el rea de la elipse es dada por: rea = Sx Sy .
2.2.2.
Grficos y medidas que ayudan a describir la distribucin geogrfica
CrimeStat ofrece un grfico llamado Cpsula Convexa que indica una

frontera alrededor de la distribucin de puntos. Se trata de un concepto relativamente simple, al menos en la superficie (R2 ). Intuitivamente, representa
un polgono que circunscribe todos los puntos, de manera que ningn queda
fuera del polgono.
Definicin 2.10 Un polgono cerrado que circunscribe todos los puntos de

tal forma que ninguno queda fuera del polgono es llamado Cpsula Convexa.
20
Hay diferentes maneras de definir una cpsula convexa. CrimeStat implementa el algoritmo conocido como envoltorio de regalo "gift wrap". Comienza
con el punto de mnimo valor en la coordenada Y , digamos A, y busca otro
punto B, de tal manera que todos los dems puntos se encuentran a la izquierda de la lnea AB. Luego encuentra otro punto, C, de tal forma que los
dems puntos se encuentran a la izquierda de la lnea BC; este procedimiento contina hasta que llegue al origen, es decir al punto A. De esta forma el
polgono es comparado con un envoltorio de regalo "gift wrap", encerrando
todos los puntos. Esta rutina calcula tres estadsticos: El tamao de la muestra, el nmero de puntos en la cpsula convexa, y las coordenadas X e Y de
los puntos de la cpsula convexa.
La salida grfica de la Cpsula Convexa es un polgono, que se pueden
guardar como un archivo cartogrfico de extensin .shp.
Definicin 2.11 Densidad media: Esta es una medida que indica el promedio de eventos ocurridos por unidad de rea, algunas veces es llamada
intensidad.
En CrimeStat, el rea para calcular la densidad media puede ser introducida por el investigador, y en su defecto el software usa el rea definida por
el rectngulo formado por los valores mnimos y mximos de X e Y .
Usos y limitaciones de la Cpsula Convexa
Una cpsula convexa puede ser til para mostrar la extensin geogrfica
de una distribucin. Y hacer simples comparaciones, entre distribuciones para
verificar cual tiene mayor extension. Adems, una cpsula convexa puede ser
til para describir la distribucin geogrfica de los puntos calientes del delito.
Autocorrelacin espacial
21
Por otra parte, es importante observar que la cpsula convexa es definida

por los puntos extremos, de aqu que es muy vulnerable a los valores extremos. Si un valor es extremo (aislado), la cpsula convexa ser alargada por
este valor. La media central, tambin es influenciada por valores extremos,
pero no en la misma medida, ya que es el promedio de las ubicaciones de los
puntos.
Utilizando la cpsula convexa es posible comparar distintos tipos de delitos, comparaciones del mismo delito en diferentes pocas o aos, sin embargo
slo es posible mostrar la variabilidad de los valores extremos, ms que cualquier propiedad central de distribucin, debido a la definicin de la cpsula
convexa. Por lo tanto, se debe ser cuidadoso al interpretar el resultado de la
cpsula.
2.3.
Introduccin
La "primera ley de la geografa" afirma que en el espacio todo est relacionado con todo, pero las entidades cercanas estn ms relacionadas entre s,
que las entidades lejanas (Tobler, 1979). En estadstica espacial este fenmeno
es llamado autocorrelacin espacial o dependencia espacial. La autorrelacin
espacial analiza la falta de independencia entre los incidentes u observaciones z(s) de una variable en sus diferentes localizaciones. Puede interpretarse
como una disposicin de localizaciones de incidentes de tal forma que de los
puntos estn relacionados entre s, (es decir, no son estadsticamente independientes entre s); y por supuesto, la condicin opuesta es independencia
espacial, un arreglo o disposicin de localizaciones de incidentes, de tal forma
que no existe relacin espacial alguna entre ellos, (en otra palabras, singnifica que la ubicacin de un incidente no est relacionada con la ubicacin de
22
cualquier otro incidente).

De una manera sencilla y clara podemos definir la autocorrelacin espacial como la concentracin o dispersin de los valores z(s) de una variable en
el espacio IRd . Cuando los valores z(s) de una variable son agrupados, se dice
que hay presencia de autocorrelacin espacial positiva; y en caso contrario,
en que los valores se encuentran dispersos, se dice que existe autocorrelacin
espacial negativa.
Muchos fenmenos sociales son espacialmente autocorrelacionados, aunque no todos. Por ejemplo; en las grandes reas metropolitanas, la mayora de
las caractersticas sociales e indicadores, tales como, el nmero de personas,
niveles de ingresos, la etnia, la educacin, el empleo, la ubicacin de instalaciones, son espacialmente dependientes; es decir, tienden a concentrarse. Los
cuerpos encargados del orden pblico (la polica) y los analistas del crimen,
conocen por experiencia que los incidentes criminales ocurren en espacios
cercanos, lo que se denomina "zonas calientes". Este argumento permite a la
polica orientar las polticas de seguridad en reas o zonas con mayor concentracin, y dar prioridad a zonas de acuerdo con la intensidad de los delitos.
Adems muchos de los incidentes son cometidos por los mismos individuos.
Por ejemplo, si en una vecindad particular ocurren una concentracin de robos durante un perodo de tiempo, (por ejemplo, un ao), muchos de esos
robos son cometidos por las mismas personas. Por lo general, la dependencia
estadstica entre eventos a menudo tiene causas comunes.
2.3.1.
ndices de autocorrelacin espacial
Hay varios estadsticos formales que intentan medir la autocorrelation espacial. Entre estos se incluyen los ndices como el estadstico I de Moran, el
estadstico C Geary, considerados estos los estadsticos ms sencillos; y los
ndices derivados, como el estadstico k de Ripley, y la aplicacin del ndice
23
de Moran en zonas individuales. Estos ndices intentan identificar si existe o

no autocorrelacin espacial en la variable.
En este trabajo se analiza el patrn de puntos con dos ndices generales,
los estadsticos I de Moran y el C de Geary; adems, de una aplicacin del
I de Moran a intervalos de distancia diferentes. Estos indicadores son muy
similares y se usan a menudo en conjuncin; aunque el estadstico de Moran
es ligeramente ms robusto que el de Geary.
Estadstico I de Moran
El estadstico I de Moran es uno de indicadores ms antiguos de autocorrelacin espacial. El mismo contrasta la hiptesis nula de no existencia de
autocorrelacin, versus la hiptesis alternativa de presencia de un esquema
de dependencia espacial, esto es:
H0 : no existe autocorrelacin V s. Ha : existe autocorrelacin
Es aplicado a data de puntos que tienen variables continuas asociadas con
ellos, como intensidad o ponderacin Z(s). El estadstico de Moran, compara
el valor de la variable en cualquier localizacin i, con los dems valores en
todas las dems localizaciones j.
Definicin 2.12 El estadstico de Moran es definido como:

I=
ni j wij (zi z)(zj z)

,
(i j wi j )i (zi z)2
i 6= j
donde n es el nmero de casos, zi el valor de la variable en la i-sima localizacin, z la media de la variable, y wij la ponderacin aplicada a la
comparacin entre las localizaciones i y j.
24
La ponderacin de la variable Wij en la formulacin inicial de Moran, fue

una matriz de contigidad; definida de la siguiente manera, si la zona j
es adyacente a la zona i, la interaccin recibe una ponderacin igual a 1,
en cualquier otro caso, recibe una ponderacin igual a 0. Esta definicin fue
generalizada por Cliff y Ord (1973), donde Wij puede tomar cualquier ponderacin. Caso particular, la ponderacin se basa en la distancia, tomando
wij igual a la distancia inversa 1/dij entre las localizaciones i y j.
CrimeStat utiliza esta interpretacin, y esencialmente el estadstico I de
Moran, trata la ponderacin como una distancia inversa.
La ponderacin del ndice de Moran, es similar al coeficiente de correlacin, en el sentido de que compara la suma de los productos cruzados de los
valores en diferentes lugares, con la varianza de la variable ponderada por
el inverso de la distancia entre las localizaciones. Al igual que el coeficiente
de correlacin, el ndice I de Moran vara entre 1 y +1. Sin embargo, esto
no es absoluto; ya que para valores similares de puntos cercanos, el ndice es
alto, y para valores distintos y puntos cercanos, el ndice es bajo. En consecuencia, para ambos casos indica autocorrelacin. Por otro lado, a diferencia
del coeficiente de correlacin, el valor terico esperado del ndice de Moran
para la falta de dependencia espacial, no es cero, sino un valor negativo muy
cerca de cero:
1
.
n1
Los valores de I por encima del valor terico esperado E(I), indican auE(I) =
tocorrelacin espacial positiva, mientras que los valores de I por debajo del
valor terico esperado indican autocorrelacin espacial negativa.
Ajuste para pequea distancias
CrimeStat calcula el ndice de Moran utilizando la ponderacin Wij igual
25
a la inversa de la distancia (1/dij ) entre las localizaciones i y j; sin embargo,

para puntos muy prximos donde la distancia entre ellos es casi cero, la ponderacin Wij se hace muy grande. Esta situacin puede distorsionar el ndice
I de Moran.
Para evitar este problema, CrimeStat incluye un ajuste para distancias
pequeas, de manera que la ponderacin mxima no sea mayor que 1. El
ajuste adapta las distancias a una milla, que es una unidad de distancia tpica en la medicin de incidentes criminales. Cuando el ajuste est activado,
la distancia mnima automticamente es convertida a una milla. La frmula
utilizada para en este convenio es: wij =
una milla
,
una milla+dij
calculado en las uni-
dades especificadas; por ejemplo, si las unidades son dadas en pie, entonces
wij =
5,280
,
5,280+dij
donde 5,280 es el nmero de pies en una milla.
Este argumento asegura que la ponderacin generada por un par de localizaciones cercanas no distorsionen el estadstico I.
Prueba significancia de la ponderacin de ndice de Moran:
Mediante la estandarizacin del ndice de Moran, la distribucin emprica
se puede comparar con la distribucin terica, esto es,
Z(I) =
I E(I)
SE(I)
donde el I es el valor emprico calculado a partir de la muestra, E(I) el valor

terico esperado, y SE(I) es la desviacin estndar terica de E(I).
Existen varias interpretaciones de la desviacin estndar terica que afectan el estadstico utilizado en el denominador, as como la interpretacin de
la significancia del estadstico. La hiptesis ms comn es asumir que la normalizacin de la variable Z(I), sigue una distribucin de muestreo normal,
26
este supuesto es llamado hiptesis de normalidad. Una segunda interpretacin, asume que cada valor observado puede ocurrir en cualquier lugar, es
decir, no hay correlacin espacial; este supuesto es conocido como: hiptesis
de aleatorizacin. Bajo estos supuestos, la frmula de la desviacin estndar
es ligeramente diferente, lo que hace variar tambin el ndice I. CrimeStat da
las salidas para ambos supuestos, los Z-valores y p-valores para los supuestos
de normalidad y aleatoriedad, respectivamente.
El estadstico C de Geary
La C de Geary es el segundo estadstico de contraste de autocorrelacin
espacial, es semejante al estadstico I de Moran. Sin embargo, el ndice de
Moran obtiene la interaccin como el producto cruzado de las desviaciones
de la media (covarianzas); mientras que la C de Geary obtiene la interaccin
a partir de la intensidad de todas las desviaciones, es decir, cada observacin
con las dems.
Definicin 2.13 Se define como:

C=
(n 1)i j wij (zi zj )

, i 6= j
2(i j wij )i (zi z)2
donde n es el nmero de casos, zi el valor de la variable en la i-sima localizacin, z la media de la variable, y wij la ponderacin aplicada a la comparacin
entre las localizaciones i y j.
Al igual que en el caso anterior, la hiptesis nula del estadstico C de
Geary es la no existencia de autocorrelacin, frente a la hiptesis alternativa
de presencia de un esquema de dependencia espacial. El valor terico esperado de C es 1; es decir, si los valores de una zona no estn correlacionados con
los valores de cualquier otra zona, entonces el valor esperado de E(C) = 1.
27
Los valores de C varan entre 0 y 2, aunque 2 no es un lmite superior

estrictamente. Valores menores que 1 (es decir, entre 0 y 1) indican autocorrelacin espacial positiva, mientras que valores mayores que a 1 indican
autocorrelacin espacial negativa. Observe que al contrario de lo ocurrido con
el I de Moran, en donde un valor positivo (negativo) indica autocorrelacin
positiva (negativa).
Ajuste para distancias pequeas
Al igual que el estadstico I de Moran, las ponderaciones Wij se definen
como el inverso de la distancia entre los pares de puntos asociados, esto es,
wij =
1
.
dij
En este caso, aparece el mismo problema que presenta el ndice de
Moran con puntos muy cercanos; donde la ponderacin tiende a aumentar

considerablemente a medida que la distancia entre ambos puntos disminuye.
En consecuencia, CrimeStat usa un ajuste para distancias pequeas. Este
ajuste permite garantizar que la ponderacin no sea superior a 1. El ajuste
adapta las distancias pequeas a una milla. Cuando el ajuste est activado,
la distancia mnima automticamente es convertida a una milla. La frmula utilizada para en este convenio es: wij =
un milla
,
una milla+dij
calculado en las
unidades especificadas.
En CrimeStat esta es una condicin por defecto, sin embargo el usuario
puede calcular otras ponderaciones desactivando el ajuste.
Prueba de significancia del C de Geary
La distribucin emprica de C puede ser comparada con la distribucin
terica dividiendo la diferencia, por la desviacin estndar terica:
Z(C) =
C E(C)
SE(C)
donde el C es el valor emprico, calculado a partir de la muestra, E(C) el
28
valor terico esperado, y SE(C) es la desviacin estndar terica de E(C).

El Test para este ndice, supone que el estadstico Z(C) sigue una distribucin normal estndar (hiptesis de normalidad). CrimeStat slo calcula el
Test bajo la hiptesis de normalidad, no obstante es posible calcular el error
estndar bajo hiptesis de aleatorizacin.
Correlograma de Moran
Los ndices de Moran y Geary son conocidos como ndices de autocorrelacin espacial global o test de autocorrelacin global, en el sentido de
que estos resumen toda la informacin suministrada en la data en un valor (el ndice), sin proporcionar informacin acerca de la existencia o no de
distintos subgrupos. Un grfico que da informacin acerca de cmo est distribuida la autocorrelacin espacial, se conoce como correlograma de Moran.
El correlograma de Moran grfica el ndice I de Moran por intervalos de distancia, e indica cmo se concentra o se distribuiye la autocorrelacin espacial.
Esencialmente, es una serie de crculos concntricos superpuestos sobre los
puntos, y luego el estadstico I, es calculado slo para los puntos incluidos en
el crculo. El radio del crculo va cambiando de pequeo a muy grande, y a
medida que el radio aumenta, el ndice I se aproxima al valor de ndice global.
En CrimeStat se puede especificar el nmero de intervalos (es decir, crculos) de distancia a ser calculados. Por defecto es 10, pero se puede escoger
cualquier otro valor de entero. La rutina toma la distancia mxima entre
puntos, y la divide por el nmero de intervalos de distancia especificados,
luego calcula el valor del ndice I para los puntos que caen dentro de cada
crculo.
29
Ajuste para pequeas distancias

CrimeStat ajusta las distancias pequeas de manera que la mxima ponderacin sea igual a 1, como se indic antes, asegurando que los valores del
ndice I de Moran no sea afectado por puntos muy cercanos. Por defecto el
corrrelograma es calculado sin ajuste.
Simulacin de Intervalos de confianza
Mediante una simulacin de Monte Carlo se estiman los intervalos de
confianza alrededor del valor del ndice I. Cada simulacin selecciona una
muestra aleatoria de la data, y calcula el valor del ndice I. La distribucin
aleatoria de los valores I, producen un intervalo de confianza del verdadero
valor del ndice. Para ejecutar la simulacin, se debe especificar el nmero de
simulaciones a correr (por ejemplo, 100, 1000, 10000). Por defecto, CrimeStat
no ejecuta la simulacin.
La salida del correlograma incluye:
Tamao de la muestra, distancia mxima nmero de bin (intervalos), el
punto medio de la distancia del bin, el I valor del ndice de la distancia bin
(I[B]). Adems, si se ejecuta la simulacin, la salida incluye: El mnimo y el
mxima valor de I de las distancia bin; los percentiles 0,5, 2,5 97,5, y 99,5,
de las distancia bin. Los pares de percentiles (2.5 y 97.5) y (0.5 y 99.5), crean
intervalos de 95 % y 99 % de confianza.
Grfico del correlograma de Moran:
CrimeStat dibuja un grfico donde se muestran los valores de I en el eje
Y , y la distancia bin en el eje X. Haciendo clic en el botn "Graph". El
30
grfico muestra la autocorrelacin espacial respecto a la distancia.

El grfico es til para seleccionar el tipo kernel(simple o dual) para interpolar, cuando la variable principal es la ponderacin.
Usos y Limitaciones del correlograma de Moran
El correlograma de Moran ofrece informacin acerca de la magnitud de
autocorrelacin, a travs del rea. Esto puede ser til para evaluar si las
zonas calientes son concentraciones aisladas, o si son productos de cluster
espacial en un rea ms grande. El correlograma ofrece un resumen rpido
de la magnitud de autocorrelacin espacial en funcin de la distancia. Sin
embargo, como todos los estadsticos de autocorrelacin espacial global, el
correlograma slo indica la existencia, no indican que exista una agrupacin
o dispersin especfica.
2.3.2.
ndices de autocorrelacin espacial basados en la

distancia
En la seccin anterior se estudiaron las herramientas estadsticas para

medir en forma global la autocorrelacin espacial con los ndices basados en
la desviacin de los valores de la variable respecto de la media central o sobre
todos los valores, y el correlograma de Moran que describe la autocorrelacin
espacial local.
En esta seccin, se tratan las propiedades de autocorrelacin espacial
conocidas como locales o de segundo orden; stas se refieren a los patrones
regionales (sub-regionales), o patrones de cercana espacial dentro de la distribucin de la data (cercano en distancia). Los estadsticos a tratar miden
la autocorrelacin espacial basados en la distancia entre la localizacin de los
incidentes.
31
El ndice del vecino ms cercano es un estadstico que mide la autocorrelacin espacial en forma global; sin embargo, CrimenStat incluye dos estadsticos para describir la distribucin de la autocorrelacin espacial, conocido
como el k-simo vecino ms cercano, y el estadstico k de Ripley.
Estos estadsticos indican s existe autocorrelacin espacial o no, en la
sub-regin, permitiendo identificar s existen ambientes particulares donde
se concentra mayor cantidad de delitos (zonas calientes).
ndice del vecino ms cercano (Nna)
El ndice del vecino ms cercano es uno de los estadsticos de distancia
ms antiguos. Fue desarrollado por los Botnicos Clark y Evans en 1950,
especficamente para su trabajo, sin embargo, se ha usado en muchos otros
campos de investigacin en una gran variedad de problemas (Cressie 1991).
Tambin ha servido de base para muchos otros tipos de estadsticos de distancia, algunos implementados en CrimeStat.
La distancia del vecino ms cercano, es calculada para cada punto (localizacin del incidente) y se determinar el promedio.
Distancia del vecino mas cercano = d(N N ) = ni=1
min(dij )
n
donde min(dij ) = mini6=j {dij }, es la distancia mnima entre cada punto y su

vecino (vecino ms cercano), y n el nmero de puntos.
En CrimeStat, la distancia de un punto a los dems es calculada y seleccionada la ms pequea; luego, se toma el siguiente punto y se calcula la
distancia a los dems puntos (incluyendo el primer punto), y se selecciona
la distancia ms pequea. Este proceso es repetido hasta que se halla encontrado el vecino ms cercano a cada punto. Luego, la suma total de las
distancias mnimas es dividida por n, el tamao de la muestra; y el resultado
32
es el promedio de las distancias mnimas.

Si el patrn de puntos presenta distribucin espacial completamente aleatorizada, el valor esperado de la distancia del vecino ms cercano o distancia
media esperada es definida por:
r
Distancia media esperada = 0,5
A
n
donde A es la rea de la regin y n es el nmero de puntos o incidentes.

Una distribucin espacial completamente aleatorizada de puntos se interpreta de manera sencilla como un proceso homogneo de Poisson con media
, caracterizado por:
1. El nmero de eventos en cualquier regin acotada A tiene una distribucin de Poisson con media .
2. Dados n eventos en A, stos son independientes, y se distribuyen uniformemente en A.
En CrimeStat esta medida puede ser calculada, usando el rea definida
por el investigador en la ventana parmetros(measurement parameters), o
en su defecto usa el rea definada por el rectngulo formado por los puntos
mximo y mnimo de X e Y .
El ndice del vecino ms cercano compara las distancias entre puntos ms
cercanos observadas con las distancias esperadas, es simplemente una rata o
proporcin entre las dos medidas.
33
Definicin 2.14 EL ndice de la distancia del vecino ms cercano es la rata

o proporcin obtenida del cociente entre la distancia del vecino ms cercano
y la distancia media esperada, es decir:
NNI =
d(N N )
d(ran)
y d(ran) la distancia media esperada.

De esta forma,si la distancia del vecino ms cercano es ms pequea que
la distancia media esperada, el ndice es menor que 1, indicando la existencia
de clusters (los puntos estn en realidad ms cerca de lo esperado); en caso
contrario, si la distancia del vecino ms cercano es ms grande que la distancia media esperada, entonces el ndice ser mayor que 1, indicando dispersin
(los puntos estn ms dispersos de lo esperado).
El valor esperado terico del ndice es igual a uno (bajo aleatoriedad espacial completa).
Prueba de la significancia del ndice del vecino ms cercano:
El valor prctico del ndice de la distancia del vecino ms cercano, bajo
estricta aleatoriedad debe estar muy cerca de 1, lo que significa, la existencia de una cierta diferencia con el valor terico esperado del ndice. Clark y
Evans en 1954, propusieron un test (Z-test) para probar si valor del ndice
era significativamente diferente del valor terico esperado del ndice.
En el test interviene el promedio de distancia mnima del vecino ms
cercano observada y la distancia media esperada, se define como:
Z=
d(N N ) d(ran)
SEd(ran)
y SEd(ran) el error estndar de la distancia media esperada est dado por:
34
r
SEd(ran) =
(4 )A
0,26136
p
2
4n
n2 /A
donde A es rea de regin y n el nmero de puntos.

Hay otros test sugeridos tanto para la distancia del vecino ms cercano,
como para efectos correccin de borde. Sin embargo, estas dos ecuaciones
son frecuentemente las ms usadas para probar o evaluar el promedio de la
distancia del vecino ms cercano.
Clculo de los estadsticos
Una vez seleccionado la rutina del anlisis del vecino ms cercano. El
programa imprime 10 estadsticos:
1. El tamao de muestra.
2. La distancia media de vecino ms cercano.
3. La desviacin estndar de la distancia media de vecino ms cercano.
4. La distancia mnima, y la distancia mxima.
5. La distancia media esperada tanto para el rectngulo acotado, como
para el rea suministrada por el usuario.
6. El ndice del vecino ms cercano, tanto para el rectngulo acotado,
como para el rea suministrada por el usuario.
7. El error estndar del ndice del vecino ms cercano, tanto para el rea
del rectngulo, como el rea suministrada por el usuario.
8. El test (Z-test) de significancia del ndice del vecino ms cercano.
9. El p-valor asociado con la significancia de una y dos colas.
35
El K-simo vecino ms cercano

El ndice del vecino ms cercano es slo un indicador de aleatoriedad
espacial de primer orden. Este compara el promedio de la distancia de los
vecino ms cercanos con el valor esperado distancia (bajo aleatorizacion espacial completa). Pero no dice nada del segundo vecino ms cercano, o del
tercero vecino ms cercano, y en general del K-simo vecino ms cercano.
CrimeStat formula un ndice para obtener informacin del K-simo vecino ms cercano o el vecino ms cercano de orden K; el software permite
seleccionar el orden del vecino ms cercano, y calcular el K-simo ndice para
cada orden.
La rutina del K-simo vecino ms cercano produce cuatro resulatos:
1. El orden, comenzando por el primero.
2. La media de la distancia del vecino ms cercano para cada orden, medida en metros.
3. El valor esperado de la distancia del vecino ms cercano, para cada
orden, medido los metros.
4. El ndice del vecino ms cercano para cada orden.
Para cada orden, CrimeStat calcula la distancia esperada del k-simo
orden del vecino ms cercano para cada observacin y toman el promedio.
Definicin 2.15 El valor esperado de la distancia del K-simo vecino ms
cercano, esta dado por:
d(Kran ) =
k(2k)!
p
n/A
(2k k!)2
donde k es la orden y el smbolo ! es la operacin de factorial.
36
Observe que el K-simo ndice de vecino ms cercano, es la razn o proporcin entre la distancia observada del K-simo vecino ms cercano y el
valor de la K-sima distancia esperada.
No hay ninguna restriccin sobre el orden del k-simo vecino ms cercano
que puede ser calculado. Sin embargo, el promedio la distancia aumenta con
orden, y en consecuencia el potencial del sesgo para efectos de borde tambin
aumentar; para efectos prcticos, se sugiere un orden no mayor de 100.
Es importante sealar, que hasta ahora no existe un buen test de significacin para el K-simo ndice del vecino ms cercano, debido a la no
independencia de los rdenes. Por consiguiente, CrimeStat no provee una
prueba de significacin para este ndice. Sin embargo, el k-simo orden de la
distancia del vecino ms cercano y el ndice, pueden ser tiles para comprender las distribuciones espaciales en forma general. En otras palabras, aunque
no existe un buen test de significancia para el K-simo ndice del vecino ms
cercano, un grfico de los ndices de orden K (o de las distancias de orden
K) permite visualizar qu tan agrupados estn los datos; as, como tambin
es posible hacer comparaciones con los diferente tipos de delitos, o con un
mismo delito en dos perodos de tiempo diferentes.
Grfica del K-simo ndice del vecino ms cercano
CrimeStat proporciona una salida para almecenar como un archivo .dbf,
que puede ser importado a una hoja de clculo, o programa para graficar.
No obstante, en la ventana de salida de la rutina hay un botn para obtener
una grfica rpida de la curva descrita por el ndice; sta es til para revisar
las tendencias.
37
Efectos de borde
Es importante observar que existen efectos de borde potenciales, que pueden sesgar el ndice. Un incidente que ocurra cerca de la frontera, puede tener
su vecino ms cercano realmente al otro lado de la frontera. Sin embargo, debido a que generalmente no hay datos en la distribucin de los incidentes
fuera de la rea de estudio, el programa escoge otro punto dentro del rea
de estudio como el vecino ms cercano al punto de frontera. Por lo tanto,
existe un potencial que puede exagerar la distancia del vecino ms cercano,
es decir, la distancia observada del vecino ms cercano es probablemente ms
grande que lo que debe ser, de aqu, puede existir una sobreestimacin de la
distancia del vecino ms cercano. En otras palabras, los incidentes probablemente estn ms agrupados que lo que refleja el ndice.
Correccin de borde del vecino ms cercano
CrimeStat por defecto calcula el ndice sin correccin de borde. Sin embargo, una forma de corregir un posible efecto de borde en la distancia de
vecino ms cercano, es asumir que para cada punto observado hay otro punto
justo al borde de la frontera ms cercano en distancia. Si la distancia de un
punto a la frontera es ms pequeo que la distancia del vecino ms cercano,
entonces el punto tericamente ms cercano es tomado como una aproximacin del vecino ms cercano. Esta correccin tiene el efecto de reducir el
promedio de la distancia del vecino ms cercano. Ya que asume que siempre
hay otro punto en el borde, esto probablemente subestima el verdadero valor
de la distancia.
CrimeStat tiene dos correcciones de borde, que pueden ser aplicadas a
dos modelos geomtricos diferentes. El primero asume que el rea en estudio
es un rectngulo, mientras el segundo supone que el rea de estudio es cir-
38
cular. Dependiendo de la forma del rea de estudio, se elige el modelo ms

apropiado.
rea en estudio rectangular
En el ajuste rectangular, primero se calcula el rea A en estudio, a partir
del rea introducida por el usuario en la pestaa medida de parmetros (measurement parameters), o el rectngulo acotado por el mnimo y el mximo
de los valores X e Y . Si se introduce el rea A, el rectngulo es proporcionalmente re-escalado, de tal modo que el rea del rectngulo es igual A.
Segundo, para cada punto, se calcula la distancia al punto ms cercano. Esto
es, la distancia observada al vecino ms cercano del punto i.
En tercer lugar, la distancia mnima al borde ms cercano del rectngulo
es calculada, y comparada con la distancia observada del vecino ms cercano
del punto i. Si la distancia observada de vecino ms cercano al punto i es
menor o igual que la distancia mnima al borde ms cercano, se retiene. Por
otro lado, si la distancia observada del vecino ms cercano es mayor que la
distancia al borde ms cercano del rectngulo, la distancia al borde es usada
como una aproximacin de la distancia observada del vecino ms cercano al
punto i.
rea en estudio circular
En el ajuste circular, primero se calcula el rea en estudio; a partir del
rea introducida en la pestaa de medida de parmetros (measurement parameters), o del rectngulo acotado por el mnimo y el mximo de los valores
p
X e Y . Luego, el radio del crculo es calculado por la frmula R = A/.
Segundo, para cada punto, la distancia del vecino ms cercano es calculada;
esto es, la distancia observada del vecino ms cercano al i-simo punto. En
39
tercer lugar, para cada punto i, se calcula la distancia a la media central

Ri . En cuarto lugar, se calcula la distancia mnima al borde ms cercano
del crculo usando: RiC = R Ri . En quinto lugar, para cada punto i, la
distancia mnima observada es comparada con la distancia ms cercana al
borde del crculo, RiC . Si la distancia observada del vecino ms cercano del
punto i, es menor o igual que la distancia al borde ms cercano, se retiene.
Por otro lado, si la distancia observada del vecino ms cercano del punto i,
es mayor que la distancia al borde ms cercano, la distancia usa la distancia
al borde ms cercano, como una aproximacin a la distancia del vecino ms
cercano al punto i.
El estadstico k de Ripley
El estadstico k de Ripley es un ndicador de la no aleatoriedad medida en diferentes escala de valores o diferentes regiones. En este sentido, es
un estadstico superior al ndice del vecino ms cercano; adems provee una
prueba (test) de aleatoriedad para las distancias, desde la ms pequea, hasta el lmite de rea especificado. Tambin es llamado medida de reduccin
de segundo momento, insinuando que ha sido diseado para medir la tendencia segundo-orden, es decir, de cluster local. Sin embargo, este estadstico
tambin est sujeto a los efectos de primer orden; es decir, no indica dnde
ocurre el cluster, as que no es estrictamente una medida segundo orden.
Suponga una distribucin espacial completamente aleatorizada de n puntos; al trazar un crculo de radio ts , alrededor de cada punto i, donde s es
el orden del radio (de menor a mayor), y se procede a contar el nmero de
puntos distintos de i, que se encuentran dentro de cada crculo de radio ts ,
al promediar sobre todos los puntos (permitiendo duplicacin), entonces el
nmero esperado de puntos dentro del crculo de radio ts es igual a
donde n es el tamao de muestra, A es la rea total de estudio.
n
t2s ,
A
40
En general, el nmero esperado de puntos dentro de una distancia ts , bajo

completa aleatorizacin espacial est dado por
E(nmero de puntos dentro de la distancia di ) =
n
k(ts )
A
donde n es el tamao de muestra, A es el rea total de estudio, y k(ts ) es el

rea de un crculo definida por el radio ts .
Por otro lado, si el nmero promedio de puntos dentro de un crculo de
radio ts sobre cada punto, es mayor que el nmero esperado, es un indicador de cluster, es decir, los puntos estn ms cerca de lo esperado; en caso
contrario, si el nmero promedio de puntos dentro del crculo sobre cada
punto, es menor que el nmero esperado, es un indicador de dispersin. En
este sentido, el estadstico k de Ripley, es similar al estadstico del vecino
ms cercano, ambos proveen informacin acerca de la distancia media entre
puntos. Sin embargo, el estadstico de Ripley es ms robusto que el vecino
ms cercano, por dos razones. Primero, es aplicable a todo orden acumulado
y en segundo lugar, es aplicable a toda distancia hasta el lmite del rea en
estudio, ya que los clculos van incrementando sucesivamente el radio.
Definicin 2.16 Bajo aleatoriedad espacial completa, el estadstico K de
Ripley es definido como:
K(ts ) =
A
i j6=i I(tij )
n2
(2.1)
donde I(tij ) es el nmero de puntos distintos de i, que se encuentran dentro

de la distancia, ts y sumados sobre todos los puntos.
En otras palabras, un crculo de radio ts , es colocado sobre cada punto
i, y se cuenta el nmero de puntos distintos de i, dentro del crculo. Luego,
el crculo es colocado en un prximo punto, y el proceso es repetido. As,
la doble sumatoria cuenta todos los puntos distintos de i, dentro del crculo,
41
para cada i. Terminado este proceso, el radio del crculo es incrementado, y el

proceso es repetido. Los radios de crculos crecen con incrementos pequeos.
CrimeStat, usa 100 intervalos (radios), basado en
ts =
R
,
100
donde R es el radio del crculo con rea igual al rea de estudio.

Se puede representar grficamente el estadstico K(ts ) versus la distancia
ts , para visualizar con mayor facilidad la existencia cluster o dispersin en
ciertas distancias (si existe cluster en alguna distancia, tambin debe haber
dispersin en otras). El grfico no es lineal, y aumenta generalmente de manera exponencial, en consecuencia, K(ts ) es transformado en una funcin raz
cuadrada L(ts ), para hacerla ms lineal. De esta forma el estadstico L(ts ) es
definido como:
Definicin 2.17 El estadstico L(ts ), tambin llamado estadstico K se define como:
r
L(ts ) =
K(ts )
ts .
(2.2)
Es decir K(ts ) es dividido por y se le extrae la raz cuadrada, y luego

se le resta la distancia ts .
En la prctica, slo se usa el estadstico L, aunque con el nombre de estadstico K, debido a que se deriva de K. Generalmente, el estadstico L(ts )
se usa para analizar distancias cortas, debido a que es una medida de cluster
de segundo orden.
Bajo aleatoriedad espacial completa, el estadstico L(ts ) se muestra como
una lnea horizontal, es decir, L = 0.
42
Comparacin con una distribucin espacial aleatorizada

Para comprender si la distribucin de K observada sigue un patrn no
aleatorio, se usa generalmente una distribucin aleatoria. Sin embargo, debido
a que la distribucin muestral de L(ts ) es desconocida, se emplean simulaciones para asignar puntos aleatorizados al rea en estudio. No obstante, la
simulacin puede generar cluster o dispersin bajo estricta aleatorizacin, por
este motivo es conveniente repetir la simulacin varias veces, generalmente
100 o ms.
Para cada simulacin el estadstico L es calculado por cada intervalo de
distancia, y despus que todas las simulaciones han sido calculadas, el valor
ms alto y ms bajo son tomados por cada intervalo de distancia. Por lo
tanto, comparando la distribucin de L con el intervalo aleatorio, formado
por los valores mximo y mnimo, se puede evaluar si el patrn observado es
o no aleatorio.
Especificar el nmero de simulaciones
El clculo de simulacin puede tomar mucho tiempo, razn por la cual en
CrimeStat el nmero de simulaciones es igual a cero, es decir, por defecto es
cero. Sin embargo, el usuario puede indicar el nmero de simulaciones. La rutina ejecuta el nmero de simulaciones y adems calcular el lmite superior
y lmite inferior del intervalo de distancia, para los coeficientes de confianza
del 0,5, 1, 2,5, 5, 95, 97,5, y 99 %. ste estadstico tienen sentido slo si
se corre un nmero considerablemente grande de simulaciones.
En CrimeStat, la simulacin es ejecutada de la siguiente manera: Toma el
mximo rectngulo de la distribucin, es decir, el rectngulo constituido por
el mximo y mnimo de X e Y , luego el rectngulo es rescalado hasta que
se hace igual al rea de estudio, y asigna n puntos en ese rectngulo, usando
43
un generador uniforme de nmeros aleatorios, y se calcula el estadstico L.

El experimento se repite el nmero de veces especificado, y se calculan los
estadsticos.
En la prctica, ste estadstico tambin presenta sesgo relacionado con
los bordes, y difiere del L terico bajo condiciones de aleatoriedad espacial
completa, donde L es una lnea horizontal recta, el estadstico L tambin
declina con el incremento de la distancia entre puntos.
Para comparacin con poblaciones como punto de partida
Para la mayora de las distribuciones con caractersticas de tipo social,
como los incidentes de crimen, la aleatoriedad no es muy significativo. La
mayora de estas caractersticas son no aleatorias. Por consiguiente, ocurre
que la cantidad de clusters existente es ms grande de lo que se espera bajo
completa aleatorizacin espacial, y no es muy til para los analistas. Sin embargo, es posible comparar la distribucin de L1 de los incidentes de crimen
con la distribucin L2 de otra caracterstica usada como base o punto de
partida.
CrimeStat permite el uso de las variables intensidad y ponderacin en el
clculo del estadstico K. El usuario debe definir la intensidad o ponderacin,
o ambos en circunstancias especiales. La rutina de K usa la intensidad (o
ponderacin) en el clculo del estadstico L.
Correccin de borde para el estadstico K de Ripley
El estadstico L es propenso a los efectos de borde semejante como el
estadstico del vecino ms cercano. Es decir, para puntos ubicados cerca de
la frontera del rea de estudio, el nmero de puntos para cualquier crculo es
44
menor que los ubicados en el centro del rea de estudio, porque los puntos
fuera de la frontera no cuentan. Un grfico de L versus la distancia muestra
una curva decreciendo con los aumentos de distancia.
1
Ripley propuso una ponderacin simple wij
para explicar la proporcin
del crculo (centrado en cada punto) que est dentro del rea de estudio; as,
la ecuacin 2.1 se escribe como:
K(ts ) =
A
1
i j wij
I(tij )
N2
1
donde wij
es el inverso de la proporcin de la circunferencia del crculo de
radio ts , colocado sobre cada punto dentro del rea en estudio. Por lo tanto,
si un punto est cerca de la frontera, recibir mayor ponderacin, debido a
que una pequea proporcin del crculo es colocada fuera del rea de estudio.
CrimeStat, presenta dos correcciones de borde. Uno asume que el rea de
estudio es un rectngulo, y el segundo supone que el rea es circular.
Correccin rectangular
En la correccin de borde rectangular del K de Ripley, el radio del crculo
Ri , es comparado con el borde del rectngulo del rea de estudio supuesto A,
centrado en la media central. Primero, si se especfica el rea de estudio en
la pestaa parmetros de medicin, el valor para A es tomado. El rectngulo
definido por los valores de X e Y (mnimo y mximo) es tomado y reescalado
proporcionalmente igual al rea A; si no se especfica el rea, entonces el
rectngulo definido por el mnimo y mximo de X e Y , es tomado como el
rea A. Segundo, para cada punto, la distancia mnima del borde ms cercano
de este rectngulo se calcula en ambas direcciones (horizontal y vertical),
d(minRX ) y d(minRY ). En tercer lugar, cada distancia mnima es comparada
con el radio de crculo Ri .
45
Si el radio Ri del crculo de bsqueda, es menor que las distancias

mnimas en direccin X (d(minRX )), y en direccin Y (d(minRY )),
entonces el crculo cae completamente dentro del rectngulo y el valor
esperado es igual a uno E(w1 ) = 1.
Si el radio Ri del crculo, es menor que una de las distancias mnimas, en
direccin X (d(minRX )), o en direccin Y (d(minRY )), entonces parte
del crculo cae fuera del rectngulo y un ajuste es necesario. Se hace
un ajuste inversamente proporcional al rea del crculo de bsqueda
dentro del rectngulo. Los valores de E(w1 ) varan entre 1 y 2, ya que
hasta la mitad del crculo puede caer fuera del rectngulo.
Si el radio Ri del crculo de bsqueda es mayor que ambas distancias
mnimas, en direccin X (d(minRX )) y en direccin Y (d(minRY )),
entonces un ajuste mayor se requiere, E(w1 ) puede variar de 1 y 4, ya
que hasta tres cuartos del crculo puede quedar fuera del rectngulo.
Las frmulas usadas para calcular la ponderacin son:
Caso en que el radio no se extiende ms all del borde del rectngulo:
1
wij
=1
Caso en que el radio se extiende un borde ms all del rectngulo (pero

no en ambos):
1
wij
=
2
2 [cos1 (min{d(minRX ), Ri }/Ri ) + cos1 (min{d(minRy ), Ri }/Ri )]
Caso en que el radio se extiende ms all de los dos borde del rectngulo:
1
wij
=
2
3/2
cos1 (d(minRx)/R
i)
cos1 (d(minRy)/Ri )
46
1
El peso wij
, es propenso a causar una tendencia de crecimiento positivo
(hacia arriba) en la funcin K, de aqu, se usa la transformacin logaritmo:

0
1
wij1 = ln(wij
) + 1; esta transformacin tiene el efecto de moderar la ten-
dencia un poco.
Correccin circular
En la correccin circular del estadstico K de Ripley, el radio de bsqueda del crculo Ri , es comparado con el borde del rea circular supuesta A,
ubicado en la media central. Primero, si se ha especificado el rea de estudio
en la pestaa de parmetros de medicin, entonces este valor es tomado. El
radio del crculo, Rj , es calculado por la ecuacin
R=
A/.
(2.3)
Si no se ha especificado el rea de estudio en la pestaa parmetros de

medicin, entonces A es calculada como el mximo rectngulo y el radio
del crculo es calculado por la ecuacin (2.3). Segundo, para cada punto, la
distancia del punto a la media central Ri , es calculada. La distancia ms
cercana del punto al borde del crculo est dada por RiC = R Ri .
En tercer lugar, el radio de crculo de bsqueda Ri , es comparado con el
borde ms cercano del crculo RiC . La ponderacin vara entre 1 y 2.3834 (1
el punto y radio totalmente dentro del rea de estudio; 2.3834 el punto est
exactamente ubicado sobre el borde del crculo de rea). La frmula para la
correccin circular es:
r2 + t2c R2
1
= /
) con wij
2 r tC
donde r es el radio de bsqueda, R es el radio del rea de estudio circular, y
= Cos1 (
tC la distancia del punto al centro del rea de estudio circular.
47
Algunas advertencias al usar el estadstico K de Ripley

El estadstico K de Ripley es una herramienta poderosa para analizar
autocorrelacin espacial (generalmente cluster, ms que dispersin), sin embargo, est propenso a sesgo igual que cualquier estadstico; como el sesgo
por efecto de borde, y otros que no se discuten, como es el tamao de la
muestra, etc.
La rutina en CrimeStat calcula 100 valores distintos de L(t), uno para
cada intervalo de distancia. Sin embargo, la precisin de cualquier valor L(t)
depende del tamao de muestra. Con una muestra pequea, hay insuficientes
datos para calcular 100 valores independientes de L(t).
En las versiones previas de CrimeStat fue condicionada a ms de 100 datos para clculos aproximados de L(t), y fueron truncados en otros casos. En
esta versin, todos los intervalos son permitidos para cualquier tamao de
muestra. Sin embargo, hay una advertencia estricta. Los usuarios deben ser
muy cautelosos con las conclusiones sobre las diferencias en la funcin L, con
muestras pequeas. Incluso con muestras mayores que 100, la imprecisin
de cualquier valor L(t) es considerable. Hasta los tamaos de muestra obtenidos en cientos, la precisin es un asunto para especificar los valores de L(t).
Una segunda advertencia es la escala de interpretacin. Un conjunto de
datos con una fuerte propiedead de primer orden (es decir, un alto grado de
concentracin de incidentes al centro) ejercern un sesgo sobre el estadstico
K de Ripley. Por lo tanto, cualquier conjunto de datos que est correlacionado
con poblaciones humanas muy probablemente tiene una tendencia central. Y
presentan un alto grado de concentracin en los valores de L para distancias
muy cercanas. El estadstico K fue creado para estimar la autocorrelacin
espacial de segundo orden, concretamente cluster local. Sin embargo, si el
efecto de primer orden es dominante, entonces es difcil revelar un efecto segundo orden. Es decir, no es claro si el cluster observado en el K de Ripley
48
es atribuible a cluster de primer orden, o al de segundo orden. Razn por el

cual el estadstico K generalmente es usado para distancias cortas y no para
distancia grandes. Para grandes distancias, es casi imposible decir si el efecto
es atribuible a la concentracin central de la poblacin o si hay interacciones
entre vecindades a gran escala. El usuario debe estar consciente de los efectos
de la interaccin entre el segundo y el primer order.
La tercera precaucin se refiere la interpretacin del estadstico K, luego de aplicada de una correccin de borde, la correccin puede modificar la
interpretacin comparndola con el L no corregido, a menos que el rea en
estudio sea realmente un rectngulo. El L emprico es obtenido de los puntos
dentro de la rea de estudio, cuya geografa generalmente es irregular. Sin
embargo, la aleatoriedad de L, es calculada en un rectngulo o un crculo. Por
lo tanto, las comparaciones de esta forma podran dar algunas diferencias. La
incertidumbre de la funcin corregida depende de la variabilidad subyacente
de las suposiciones. Si es probable que hayan puntos fuera de la rea de estudio, entonces una correccin puede producir una interpretacin ms objetiva
de la funcin de L. Por otro lado, si la densidad de los puntos fuera del rea
de estudio es inferior, la ponderacin exagerar la funcin en comparacin
con qu debe ser; por ejemplo, si el rea de estudio es un rea metropolitana,
entonces el exterior del rea es ms probable que sea una zona suburbana
o rural y donde la densidad de poblacin es baja. En el caso extremo, si el
rea de estudio es una isla, entonces no hay ningn punto fuera de la rea de
estudio y ningn peso est justificado. Incluso, cuando la correccin es justificada, el lmite verdadero probablemente no es un rectngulo o cuadrado,
as que la correccin geomtrica anterior podra distorsionar la funcin L. En
resumen, es necesario algn conocimiento del sesgo ocasionado posiblemente
por el peso, para producir una funcin razonable de L.
Herramientas estadsticas para analizar Zonas Calientes
2.4.
49
Herramientas estadsticas para analizar

Zonas Calientes
En esta seccin se describen siete herramientas que usa CrimeStat para

el anlisis de cluster o zonas calientes. La Moda (Modo) y la Moda Fuzzy,
incluidas en la categora localizaciones puntuales o tcnicas de localizacin.
El cluster jerrquico del vecino ms cercano y cluster del vecino ms cercano
ajustado, incluidos en las tcnicas jerrquicas. El mdulo de anlisis EspacialTemporal, conocido como STAC por sus siglas en ingls, y cluster de Kmedias, incluidos en la tcnica particin. Y la tcnica asociada al estadstico
de Moran y Anselin.
2.4.1.
La Moda
La moda es la medida ms sencilla e intuitiva de cluster. Se trata simplemente de la localizacin (punto) con mayor nmero de incidentes. La rutina
en CrimeStat, calcula la frecuencia de los incidentes ocurridos en cada localizacin (punto con coordenadas X e Y) del archivo principal, y los ordena
de manera descendente en una lista, y los resultados pueden ser guardados
en un archivo de extensin .dbf.
2.4.2.
La moda difusa (Fuzzy)
La moda difusa de una localizacin consiste simplemente en el nmero de

incidentes (puntos) que caen dentro de un crculo centrado en la localizacin.
En CrimeStat, la rutina de la Moda difusa permite definir un radio alrededor de cada una de las localizaciones, para incluir los eventos que ocurren
alrededor de cada localizacin. Por ejemplo, si se selecciona un radio igual a
100 metros, la rutina calcular el nmero de incidentes que ocurren en cada
localizacin alrededor de 100 metros de radio.
50
Definicin 2.18 La moda difusa de una localizacin, se define como el nmero de incidentes o puntos que caen dentro de un circulo de radio (r > 0,
radio de bsqueda) centrado en la localizacin.
La salida de la rutina moda difusa en CrimeStat, es un archivo .dbf, con
cuatro variables en la salida:
Las coordenadas X y Y de la localizacin.
El orden (Rank) de la localizacin, comenzando con 1, para la localizacin con mayor frecuencia; seguido por 2, para la localizacin con
la segunda frecuencia mayor, y as sucesivamente hasta que todos las
localizaciones son evaluadas.
La frecuencia de incidentes en cada localizacin. Es el nmero de incidentes que ocurren alrededor de esta localizacin.
La moda difusa cuenta una sla vez cada punto que cae dentro del radio
de bsqueda, para cada localizacin, sin embargo, permite contar varias veces
un punto si este cae dentro del radio de bsqueda de varias localizaciones.
Si se usa cuidadosamente puede permitir la identificacin de localizaciones
de pequeas reas con alto ndice de incidentes o zonas calientes, con lugar
de ubicacin exacta.
2.4.3.
Cluster Jerrquico del vecino ms cercano
El cluster jerrquico es una rutina que agrupa los puntos de acuerdo a un

criterio. Entre los criterios de agrupacin que se conocen tenemos el mtodo
del vecino ms cercano, el vecino ms lejano, el mtodo de centroide, grupos
de mediana (Gowers1967), los promedios de grupo (Sokal y Michener1958),
y el error mnimo (Ward 1967).
51
En CrimeStat, la rutina del cluster jerrquico del vecino ms cercano

(Nnh por sus siglas en ingls), identifica los grupos de incidentes que estn
espacialmente cerca, de acuerdo a dos criterios. El mtodo define una distancia umbral como primer criterio, y como segundo criterio un nmero mnimo
de puntos que deben incluirse en cada cluster. El primer criterio, compara las
distancias de todos los pares de puntos con la distancia umbral, y selecciona
solamente los puntos que tienen menor distancia que la umbral para formar
grupos de acuerdo con el segundo criterio (nmero mnimo de puntos que
deben incluirse en cada cluster). Los clusters de primer orden, o grupos que
se encuentran en el primer nivel de agrupacin, estn formados por puntos
que cumplen con los dos criterios. La rutina ejecuta una segunda agrupacin
(posterior a la primera), para producir una jerarqua de grupos. Los grupos
de primer orden son agrupados en cluster de segundo orden. Una vez ms,
solamente grupos que estn espacialmente a menor distancia que la umbral
(calculada nuevamente para el segundo nivel) son incluidos en la agrupacin.
Los grupos de segundo orden, a su vez, se agrupan en un grupo de tercer
orden; este proceso de agrupamiento se repite hasta que todos los puntos son
agrupados en un slo grupo o probablemente el criterio de agrupacin falla.
Criterio 1: Distancia Umbral
El primer criterio para la identificacin de clusters, consiste en agrupar
los puntos que estn situados a menor distancia que la distancia umbral especificada. Hay dos opciones para seleccionar la distancia umbral: la primera
opcin por defecto, es la distancia esperada del vecino ms cercano (aleatorio), y la segunda es una distancia fija.
La distancia esperada del vecino ms cercano
La opcin por defecto usa la distancia esperada del vecino ms cercano,
52
para la primera agrupacin (cluster de primer orden). Se debe especificar

un intervalo de confianza para el valor esperado de la distancia del vecino
ms cercano. La eleccin del intervalo se hace por medio de la barra de
probabilidad. La distribucin correspondiente a este intervalo de confianza
es la t-Student, bajo el supuesto de que los grados de libertad es al menos
es igual a 120; el t-valor (p-valor) es seleccionado en la barra de probabilidad.
La distancia media esperada (d(ran)) se define como:
r
A
N
donde A es el rea de la regin y N es el nmero de incidentes.
Distancia media esperada = d(ran) = 0, 5
(2.4)
El intervalo de confianza alrededor de la distancia media esperada (IC),

se define como:
IC = d(ran) t SEd(ran)
r
IC = 0, 5
A
0, 26136
t p
N
N 2 /A
(2.5)
donde A es el rea de la regin y N es el nmero de incidentes, y t es el valor

asociado al nivel de probabilidad de la distribucin t-Student.
El intervalo de confianza define la probabilidad para la distancia entre
cualquier par de puntos. Por ejemplo, para una cola de probabilidad p especfica, al menos el p % de los incidentes tendran distancias del vecinos
ms cercanos, menor a este lmite de probabilidad seleccionado, claramente
bajo el supuesto de que la distribucin espacial es aleatorizada completa.
Igualmente, si la data proviene de una poblacin con distribucin espacial
completamente aleatorizada, y la distancia media esperada es seleccionada
como criterio (posicin por defecto sobre la barra deslizante), aproximada-
53
mente el 50 % de los pares de distancia estarn ms cerca de esta distancia.

En otras palabras, la distancia umbral es el nivel de probabilidad para seleccionar un par de puntos sobre la base de una distribucin de probabilidad.
La barra deslizadora tiene 12 niveles, y asociado con el nivel de probabilidad
para la distribucin t-Student, para un tamao de muestra igual o mayor a
120. De a izquierda a derecha, los p-valores son:
Cuadro 2.1: Niveles de la barra de probabilidad
Posicin escalar
de la barra
Probabilidad
Descripcin
0,00001
Primero de la izquierda
0,0001
Segundo a la izquierda
0,001
Tercero a la izquierda
0,01
Cuarto a la izquierda
0,05
Quinto a la izquierda
0,1
Sexto a la izquierda
0,5
Sexto a la derecha, valor por defecto
0,75
Quinto a la derecha
0,9
Cuarto a la derecha
10
0,95
Tercero a la derecha
11
0,99
Segundo ala derecha
12
0,999
El primero a la derecha
En una data con N puntos, hay
N (N 1)
2
combinaciones de pares de puntos,
si su distribucin espacial es completamente aleatorizada, al menos p % de

las parejas de puntos (distancia) ser inferior a la distancia umbral. Sin embargo, esto no significa, que la probabilidad de encontrar un cluster es igual
a esta probabilidad, slo indica la probabilidad de seleccin de dos puntos
(un par), basado en la aleatoriedad de la distribucin espacial.
54
Es importante que las unidades de rea definidas en la casilla de parmetros de medicin, concuerden con la de los datos, pues la rutina Nnh usa este
valor para calcular la distancia umbral. Si no se define el rea en la casilla de
parmetros de medicin, la rutina calcula el rea a partir del rectngulo acotado por los valores del mxima y el mnimo de X e Y . En cualquier caso, la
rutina es capaz de calcular la distancia umbral. Sin embargo, si las unidades
de rea se definen incorrectamente en la pestaa de medicin parmetros, la
rutina calcula la distancia umbral errneamente. Es necesario que el rea y
las unidades de rea concuerden con la de los datos para que la rutina para
funcione correctamente.
Distancia fija
La segunda opcin para seleccionar la distancia umbral es elegir una distancia fija (en metros, kilmetros, pie, millas, millas nuticas). En la casilla
"distancia fija" (Fixed distance) se selecciona la distancia umbral.
La principal ventaja de este mtodo es que el radio de bsqueda puede
ser especificado exactamente. Es til para comparar el nmero de clusters
en diferentes distribuciones. La principal desventaja de este mtodo es que
la eleccin de la distancia umbral es subjetiva. Cuanto mayor es la distancia
seleccionada, mayor es la probabilidad de encontrar cluster por casualidad,
es decir, debido al azar. Por supuesto, esto se puede comprobar mediante una
simulacin de Monte Carlo.
Criterio 2: Mnimo nmero de puntos
Cualquiera sea el mtodo utilizado para seleccionar la distancia umbral, el
segundo criterio es el nmero mnimo de puntos que se requiere para formar
55
cada grupo. Este criterio es utilizado para reducir el nmero de grupos pequeos; con una data muy grande (cientos o miles), pueden formarse muchos
grupos si son seleccionados slo con la de distancia umbral. Para reducir el
nmero de grupos pequeos, as como tambin para reducir la probabilidad
de encontrar clusters por casualidad, se selecciona la restriccin del nmero mnimo de puntos. Por defecto este valor es igual a diez. Claramente al
reducir este nmero, se producen ms grupos, y al aumentarlo se reduce el
nmero de grupos.
Cluster de primer orden: Usando estos criterios, CrimeStat construye los
cluster de primer orden, las primeras agrupaciones de puntos. Para cada
cluster de primer orden, el centro de la distancia mnima es el centro del
cluster.
Cluster de segundo orden y de orden superior: El procedimiento para formar los clusters de segundo orden es similar al del primer orden, salvo que
los centros de cluster son tratados como puntos, y estos ahora son agrupados.
El proceso se repite hasta que todos los sub-grupos convergen en un nico
grupo, o el criterio de la distancia umbral falla, o hay menos de cuatro grupo
de orden superior.
Salida grfica de los clusters: Para identificar aproximadamente la localizacin de los clusters, CrimeStat permite la salida de los mismos como elipses,
o cpsulas convexas, o ambos.
Salida como Elipse: El elipse de desviacin estndar es calculado para cada
grupo. Se elige entre una 1X, una y media 1,5X, dos 2X desviacin estndar, generalmente, una desviacin estndar cubrir ms del 50 % de los
casos; desviacin estndar y media cubrir ms del 90 % de los casos, y dos
desviaciones estndar cubrir ms del 99 % de los casos, aunque el porcentaje
56
exacto depender de la distribucin.

Se debe especificar el formato para guardar como elipses (ArcView .shp,
MapInfo .mif, o Atlas*GIS .bna), y el nmero de desviaciones estndar. No
obstante, se recomienda usar una desviacin estndar 1X, ya que, 1,5X y 2X
pueden crear una idea exagerada de los cluster. La elipse, despus de todo, es
una abstraccin de los puntos en el grupo que pueden que estn dispuestos
en forma irregular.
Salida como Cpsula Convexa: La rutina calcula una cpsula convexa para
cada grupo. La Cpsula convexa dibuja un polgono alrededor de los puntos
en el grupo. Esta es una definicin literal del cluster, diferente al elipse que
es una abstraccin. La Cpsula convexa se puede guardar en formatos como
ArcView .shp, MapInfo .mif, o Atlas*GIS.
Ventajas y desventajas del elipse y cpsula convexa
La cpsula convexa tiene la ventaja de ser un polgono que corresponde
exactamente con la forma del grupo, dada sta por los puntos fronteras del
grupo; y para un anlisis a nivel de vecindades ste grfico es ms claro que
los elipses, ya que los elipses son una abstraccin de los grupos, mientras
que la Cpsula sigue el contorno de los incidentes. Por otra parte, cualquier
Cpsula convexa se basa en una muestra, y al igual que cualquier muestra
puede variar de un lugar a otro; es posible que no capture toda la asociacin
espacial con las zonas de puntos calientes, mientras que el elipse suele ser
ms estable de un ao a otro.
La mayor desventaja del elipse es la imposicin de cierta forma sobre la
data, haya o no incidentes en cada lugar. As que, en casos extremos, se encuentran elipses que estn fuera de lmites de rea en estudio, o se extienden
57
hasta lagos, represas o las otras caractersticas que son lgicamente imposibles.
Directrices para la seleccin de los parmetros
En la rutina del vecino ms cercano se definen tres parmetros: la distancia umbral, el nmero mnimo de puntos, y la salida grfica de las zonas
calientes. Para una distancia umbral fija, se debe seleccionar un p valor significativo; adems es importante tener presente que para los incidentes criminales, la distancia umbral recomendada es prxima a media milla (0, 5), y
preferiblemente menor.
En caso de usar la distancia esperada del vecino ms cercano como distancia umbral, el p-valor a seleccionar con la barra deslizadora de probabilidad
indica la probabilidad de obtener un par de puntos por casualidad es p % (la
barra tiene un rango de p-valores de 0,00001 a 0,999, ver tabla en cuadro
2.1); por ejemplo, para un p = 0, 001 (tercera posicin a la izquierda) indica
la probabilidad de obtener un par de puntos por casualidad es igual a 0, 1 %.
La barra deslizadora realmente controla el valor de t de la ecuacin 2.5,
que vara de 3,719 a +3,090. As, para un t-valor pequeo, la distancia
umbral es pequea, pocos grupos son extrados, y generalmente suelen ser
ms pequeos, aunque no siempre.
Si los datos fueran realmente aleatorios, y se seleccionara el valor de p
igual a 0,5, aproximadamente la mitad de los pares seran seleccionados por
casualidad; sin embargo, debido a que hay un nmero mnimo de puntos requeridos por cluster, la probabilidad de encontrar un grupo con el mnimo de
puntos es mucho ms pequea. Adems, con un nmero mnimo requerido
mayor, la probabilidad de obtener un grupo por casualidad es menor.
58
Por lo tanto, se puede pensar que la barra deslizadora de probabilidad

acta como un filtro para agrupar los puntos. Se puede hacer el filtro ms
pequeo (moviendo la barra de probabilidad a la izquierda) o ms amplio
(moviendo la barra de probabilidad a la derecha). Habr algn efecto sobre
el nmero final de grupos, pero la probabilidad de obtener un grupo por
casualidad general es baja. Estadsticamente, hay ms certeza con las distancias umbral pequeas que con las ms grandes al usar esta tcnica. Por lo
tanto, se debe evaluar el nmero de grupos y el tamao del rea que define
el cluster con la probabilidad de que haya sido elegido al azar.
Esta eleccin depender de las necesidades del usuario. Para las intervenciones alrededor de localizaciones particulares, el uso de una pequea
distancia umbral puede ser ms apropiada.
El segundo criterio es el nmero mnimo de puntos que se necesitan para
definir un cluster. Si los grupos no tienen este nmero mnimo, CrimeStat los
ignorar. Sin este criterio, la rutina del Nnh podra identificar grupos de dos
o tres incidentes cada uno, y un cluster con este tamao no es muy til. En
consecuencia, se puede aumentar el nmero para garantizar que los grupos
identificados sean significativos. El valor por defecto es 10, pero se puede
colocar en cualquier otro valor.
En general, el criterio del nmero mnimo de puntos es ms crtico que el
de la distancia umbral, aunque este ltimo tambin influye en los resultados.
El tercer criterio es el grfico para visualizar los grupos. La cpsula convexa es un polgono alrededor de los puntos del grupo. La elipse, por otra parte,
requiere la decisin por parte del investigador para seleccionar el nmero de
desviaciones estndar que se van a mostrar. Entre 1X, 1,5X y 2X, siendo una
desviacin estndar por defecto. Adems, una desviaciones estndar cubrir
ms del 50 % de los casos, una desviaciones estndar y media cubren ms del
59
90 % de los casos, y dos desviaciones estndar cubrir ms del 99 % de los

casos, aunque el porcentaje exacto depender de la distribucin.
En general, se usa una desviacin estndar, ya que 1,5X y 2X elipse de
desviaciones estndar puede crear una idea exagerada de los clusters.
Salida de la rutina del Cluster jerrquico del vecino ms cercano
La rutina del vecino ms cercano da seis resultados. En primer lugar,
cada grupo es identificado, por el orden jerrquico y nmero del grupo. En
segundo lugar, CrimeStat calcula la media central de cada cluster, que puede
guardarse como archivo .dbf. En tercer lugar, las elipses de desviacin estndar de los grupos se muestran como objeto grfico, ya sea como elipse o
cpsula convexa. El tamao de las elipses es determinado por el nmero de
las desviaciones estndar. En cuarto lugar, el nmero de puntos en el cluster.
Quinto, el rea de la elipse y, sexto, la densidad del grupo, calculado como
la cantidad de puntos dividido por el rea.
Ventajas de la agrupacin jerrquica
La tcnica tiene algunas ventajas; en primer lugar, se pueden identificar
ambientes geogrficos ms pequeos donde hay concentracin de incidentes.
Esto puede ser til para especificar objetivos, como polticas de despliegue o
intervencin policial. Generalmente, hay ambientes pequeos generados por
incidentes criminales, que la tcnica tiende a identificar, usando el lmite inferior del intervalo de confianza de la distancia media esperada. Los tamaos de
los grupos pueden ser ajustados a conveniencia, para agrupaciones de casos
especiales; controlando el tamao del rea de agrupacin mediante el ajuste
la distancia umbral o el nmero mnimo de puntos requeridos.
60
En segundo lugar, la tcnica puede aplicarse a cualquier conjunto de datos por grande que sea, permitiendo con mayor facilidad las comparaciones
entre diferentes reas, sin tener que limitar arbitrariamente la data.
En tercer lugar, los vnculos entre pequeos grupos se pueden ver a travs de los clusters de segundo orden y de orden superior. Frecuentemente, las
zonas calientes se encuentran cerca de otras zonas calientes. Por ejemplo, en
grandes metrpolis, generalmente hay zonas calientes y dentro de algunas de
esas zonas calientes, pueden haber zonas ms pequeas. En otras palabras,
hay diferentes escalas en la agrupacin de los puntos, en diferentes niveles
geogrficos. La tcnica del cluster jerrquico puede identificar estos niveles
de agrupacin.
En cuarto lugar, cada uno de los niveles implican diferentes polticas y
estrategias de policiales. Por ejemplo, para niveles pequeos, los funcionarios
pueden intervenir eficazmente, como en pequeas vecindades; y para los grupos de segundo orden, tal vez son ms adecuados para patrullar. As pues,
la tcnica jerrquica permite dirigir las diferentes estrategias de seguridad de
manera coherente hacia las comunidades.
Test de significancia para las agrupaciones
La prueba de significancia de las agrupaciones de la rutina del cluster jerrquico del vecino ms cercano no es muy simple. Supongamos,que se emplea
la distancia esperada como la distancia umbral, definida por la probabilidad
p; la prueba debe ser para obtener un intervalo de confianza alrededor de la
distancia del vecino ms cercano de primer orden. Bajo una distribucin aleatoria, si el nivel de probabilidad es p, entonces, el intervalo debera contener
aproximadamente el p % de todos los pares de puntos. En virtud de esta situacin, es necesario saber si el nmero de grupos (pares) que se encontraron
61
es significativamente mayor que el valor esperado.

El problema que se presenta es que la rutina no slo agrupa pares de
puntos, sino que agrupa todos los puntos que caen dentro de la distancia de
umbral, adems, de cumplir con el requisito adicional del nmero mnimo
de puntos definido por el usuario. Bajo estas condiciones la distribucin de
probabilidad es desconocida. Razn por lo cual se recurre a una simulacin
aleatoria de Monte Carlo, bajo las condiciones del test del cluster jerrquico
del vecino ms cercano.
CrimeStat incluye una rutina de simulacin de Monte Carlo que produce
intervalos de confianza slo para los grupos de primer orden del Nnh, pues
los grupos de orden superior dependen de los grupos del primer orden. Esencialmente, la rutina atribuye N casos al azar a un rectngulo con rea igual
al rea de estudio; y evala el nmero de clusters de acuerdo a las condiciones del Nnh (distancia umbral, el p-valor, y el nmero mnimo de puntos).
Este proceso se repite k veces, siendo k definida por el usuario. Corriendo la
simulacin varias veces, el analista puede evaluar los intervalos de confianza
del nmero de clusters de primer orden.
Limitaciones de la tcnica
Tambin hay ciertas limitaciones de la tcnica, algunas de carcter tcnico
y otras tericos. En primer lugar, el mtodo slo grupa incidentes (puntos),
la variable de intensidad y ponderacin no tienen ningn efecto.
En segundo lugar, cuando se usa como criterio de la distancia umbral,
el intervalo de confianza en torno a la distancia media esperada, el tamao
del rea de la agrupacin depende del tamao de la muestra ( ecuacin 2.5).
Para distribuciones de crimen con muchos incidentes, la distancia umbral
ser ms pequea, que para distribuciones con pocos incidentes. En teora,
una zona caliente depende del ambiente y no del nmero de incidentes; por lo
62
tanto, este enfoque no da una consistencia estricta con la definicin de zona

caliente. El uso de la distancia fija como distancia umbral puede ayudar en
parte a solucionar este problema. Sin embargo, la distancia fija es subjetiva,
y necesita ser probada por la aleatoriedad usando la simulacin de Monte
Carlo.
En tercer lugar, existe cierta arbitrariedad en la tcnica, debido a la regla
del mnimo nmero de puntos. Esta requiere implcitamente que el tamao
del cluster sea significativamente definido por el investigador, mediante la
seleccin del nmero mnimo de puntos, 5, 10, 15 cualquier otro. Con uno
o dos incidentes no se percibe el patrn; sin embargo, tan pronto como el
nmero de los incidentes aumenta, por ejemplo a 10 ms, se puede percibir
el patrn, en caso de existir. Este procedimiento, no es una tcnica estadstica para definir la regularidad, pero es una forma emprica para obtener el
patrn. Sin embargo, debido a esta arbitrariedad, puede suceder que dos investigadores interpreten una zona caliente con diferente tamao. De manera
similar, la seleccin del p valor, de la distribution t student, puede permitir
variabilidad entre investigadores. En resumen, la tcnica produce un resultado sujeto a la manipulacin del investigador.
Las tcnicas jerrquicas no son los nicos procedimientos de agrupacin
que permite ajustar parmetros, casi todas las tcnicas de cluster tienen esta
propiedad. Esta caracterstica es una debilidad estadstica, en lo que respecta
a involucrar la subjetividad y no es necesariamente una aplicacin consistente entre investigadores.
Los clusters son resultados empricos de procedimientos. Muchas son tcnicas de agrupacin empricas y no tienen ninguna teora explicativa. Sin
embargo, si el objetivo es encontrar una zona caliente definida por un vnculo
con uso de la regin o algn tipo de actividad, la tcnica no provee argumentos del por qu los grupos existen o por qu podan estar relacionados.
2.4.4.
63
Ajuste del cluster jerrquico del vecino ms

cercano al riesgo del crimen
La rutina del vecino ms cercano identifica grupos de puntos cercanos,

de acuerdo con la distancia umbral y cumpliendo con el requisito del nmero
mnimo de puntos. Muchos de estos grupos se forman debido a la alta concentracin de incidentes en los centros poblados (en este caso, la ubicacin no es
un fenmeno social aleatorio), en consecuencia existe una alta probabilidad
de la ocurrencia de incidentes en zonas con mayor concentracin.
Las polticas de prevencin del crimen son destinadas a reducir el nmero
de los crmenes que ocurren en cada rea en la que son aplicados. Para stos
propsitos, la rata de crecimiento en el nmero de los crmenes es el principal
enfoque. De manera semejante, los programas educativos estn dirigidos a
vecindades con un riesgo alto del crimen, tengan o no alta concentracin de
incidentes criminales. En otras palabras, para muchos propsitos, el riesgo
del crimen es la importancia primordial, ms que el volumen del mismo. Si
el objetivo es evaluar dnde existen grupos de alto riesgo, la rutina Nnh no
es apropiada.
CrimeStat incluye una rutina para tratar el alto riesgo del crimen mediante un ajuste al cluster jerrquico del vecino ms cercano (Rnnh por sus
sigla en ingls); el mismo define los grupos de puntos que estn ms cerca de
lo esperado sobre la base de la poblacin. Esto se hace por medio del ajuste
de la distancia umbral en la rutina Nnh, de acuerdo con la distribucin de
una segunda variable de referencia. A diferencia de la rutina de Nnh donde
la distancia umbral es constante en todo el rea de estudio (es decir, sta es
usada sin tener en cuenta el lugar de la zona dnde se encuentran los puntos),
la rutina Rnnh ajusta la distancia umbral de acuerdo con el valor esperado
basado en la variable de referencia. Esta es una medida de riesgo, ms que
una medida de volumen.
64
Dinmica de ajuste de la distancia umbral

Para entender cmo funciona esta tcnica, supnganse un rea metropolitana tpica, en la que hay ms personas que viven el centro que en la periferia.
Hay factores topogrficos y sociales que pueden modificar esta situacin (por
ejemplo, un ocano, una cordillera, un lago), pero en general la densidad de
poblacin es mayor el centro que en los Suburbios. Si se seleccionara una variable como punto de partida diferente a la poblacin, por ejemplo, el empleo,
se encontrara incluso que las concentraciones ms altas de empleo estn en
el casco urbano, en comparacin con el empleo suburbano.
Por lo tanto, si la poblacin o el empleo (o cualquier variable correlacionada con la densidad de poblacin) es tomado como variable referencia,
entonces se esperara mayor densidad en el centro que en la periferia, y como
consecuencia ms incidentes. En otras palabras, todos los dems eventos se
comportan de igual forma, debera haber ms robos, ms homicidios, ms
robos de vehculos, y generalmente, cualquier otro evento ocurre con mayor
frecuencia en el centro de una zona urbana que en la periferia.
Basndose en esta idea de formacin de los clusters de incidentes en los
centros urbanos, la distancia umbral es ajustada de acuerdo a la densidad
de poblacin. De esta forma, en el centro la distancia umbral debe ser ms
pequea, ya que se espera que haya ms personas, mientras que en la periferia
o suburbios la distancia umbral debe ser mayor, pues se espera hay menos
personas por unidad de rea.
En otras palabras, la dinmica del ajuste de la distancia umbral para
cluster implica cambiar la distancia inversamente proporcional a la densidad
de poblacin en la localidad, una densidad alta representa una distancia
umbral pequea, y en la periferia, una densidad baja representa una distancia
umbral mayor.
65
Ajuste del kernel de la distancia umbral

Para implementar esta idea, CrimeStat superpone una cuadrcula estndar y usa un algoritmo de interpolacin, basado en el mtodo de densidad
de kernel, para calcular el nmero esperado de los incidentes por celda de
cuadrcula, de acuerdo con la distribucin de los eventos de la variable referencia (densidad de poblacin).
Metodologa de la rutina Rnnh
La rutina Rnnh funciona de la siguiente manera:
1. Se requiere de dos archivos. El primer archivo corresponde a las localizaciones de los incidentes (por ejemplo, robos), mientras que el secundario
es el archivo de la variable referencia (por ejemplo, la poblacin de las
zonas, todos los crmenes como referencia). Si la variable referencia son
las zonas, el usuario debe definir la coordenadas X e Y , as como la
variable asignada a la zona (por ejemplo, la poblacin), la cual suele
ser la variable intensidad o ponderacin.
2. Una rejilla se define, en el archivo de referencia, en la pestaa de configuracin de datos. La rutina Rnnh toma los limites inferior y el superior
de la rejilla, pero usa un nmero estndar de columnas (50).
3. El rea del estudio se define en la pestaa parmetros de medicin de
configuracin data. Si no se define el rea, la rutina la utiliza toda la
rejilla.
4. Se marca o selecciona la casilla de ajuste de riesgo bajo la rutina Nnh.
La variable de riesgo es estimada con los parmetros definidos en la
casilla parmetros de riesgo. Los parmetros del kernel a definir son:
66
a) El mtodo de interpolacin, definido por el tipo de kernel a usar:

normal, uniforme, quartic, triangular o exponencial negativo. Por
defecto la rutina usa la distribucin normal.
b) El Ancho de banda, ya sea fijo o adaptable (variable). Para un
ancho de banda fijo, se debe definir el tamao del intervalo (por
ej. 1 Km). Y para un ancho de banda adaptable, se debe elegir
el tamao de muestra mnimo a ser incluido en el crculo que
define el ancho de banda. Por defecto, la rutina usa un ancho de
banda adaptable con un tamao de muestra mnimo igual a 100
incidentes.
c) Las unidades de salida se refiere a los puntos por unidad de superficie: milla cuadrada, millas nuticas cuadradas, pies cuadrados,
kilmetros cuadrados, o metros cuadrados. Por defecto, la unidades son millas cuadradas.
d ) Si la variable intensidad o ponderacin sera usada, deben ser seleccionada en la casilla intensidad o ponderacin.
5. Una vez que la variable referencia (archivo secundario) ha sido interpolada (mediante la rejilla y los parmetros), es convertida en densidad
absoluta (puntos por celda de rejilla) y re-escalada al mismo tamao
de muestra del archivo principal. Por ejemplo, si hay 1000 incidents
en el archivo principal, la interpolacin del segundo archivo se reajustar a fin de que todas las cuadrculas se aadan los 1000 puntos, sin
tener en cuenta el nmero de unidades que la variable secundaria representa. Creando una distribucin para el archivo principal proporcional
al archivo secundario (la variable punto de partida). Y as, es posible comparar la distribucin observada de la variable incidente con la
distribucin esperada, siendo sta similar a la variable de referencia.
6. Una vez que los parmetros de riesgo han sido definidos, la seleccin
de parmetros es similar a la rutina Nnh con su excepcin.
67
a) La distancia umbral de probabilidades es seleccionada con la barra

de escala. La probabilidades son idnticas a las del cuadro 2.1.
b) Sin embargo, para cada celda, una nica distancia umbral es definida utilizando las frmulas similares a la ecuacin 2.5. La diferencia est en que las frmulas son aplicadas a cada celda de rejilla
con una distancia nica, segn las frmulas 2.6 y 2.7:
Distancia media esperada de cada i-sima celda = d(rani )
r
d(rani ) = 0, 5
Ai
Ni
(2.6)
donde Ai es el rea de la cada celda y Ni es el nmero de puntos

estimados por la interpolacin de densidad del kernel. As, cada
celda tiene su propio nmero de puntos esperado, Ni , y su propia
rea Ai , (aunque, en general, todas las cuadrculas tienen igual
rea).
El intervalo de confianza para la distancia media esperada de la
i-sima celda ICi , se define como:
ICi = d(rani ) t SEd(rani )
r
ICi = 0, 5
Ai
0, 26136
t p 2
Ni
Ni /Ai
(2.7)
donde el t es el valor asociado al nivel de probabilidad de la distribucin t-Student (definido por la barra de probabilidad).
c) Adems, se debe definir el mnimo de puntos para cada grupo,
como en la rutina Nnh.
68
7. Los puntos identificados en la celda son los que caen dentro de ella,
y la nica distancia umbral (intervalo de confianza) para cada celda.
Cada par de puntos se compara con la distancia umbral, y adems, la
distancia umbral no necesariamente es la misma para en cada celda.
Por lo tanto, la rutina del Rnnh requiere que la distancia entre cada
par de puntos sea ms corta que la distancia entre los puntos.
8. Una vez que los pares de puntos han sido seleccionados, la rutina procede en la misma forma que la rutina Nnh.
En otras palabras, los puntos se agrupan de acuerdo con dos criterios. En
primer lugar, son seleccionados los que estn a menor distancia que la distancia umbral. Sin embargo, la distancia umbral vara con el rea de estudio,
y es inversamente proporcional a la variable referencia. Slo los puntos que
estn a menor distancia que el valor esperado de la variable referencia, son
seleccionados para el cluster. En segundo lugar, las clusters requieren de un
nmero mnimo de puntos, definido por el investigador. El resultado son los
grupos que estn ms concentrados de lo esperado, no slo por aleatoriedad
de la distribucin de los mismos, sino tambin, por el efecto de la distribucin
de la variable referencia. Estos son los grupos de alto riesgo.
El rea debe ser definida correctamente
Es muy importante que el rea sea definida correctamente para esta rutina. Si se define el rea en la pestaa parmetros de medicin, la rutina usa
ese valor para calcular el rea de cada celda, y a su vez, especfica la distancia
umbral. Si no es definida el rea en la pestaa parmetros de medicin, la
rutina calcula el rea total definida por los valores mximos y mnimos de X
e Y , y utiliza ese valor para calcular rea de cada celda, y a su vez, especfica
la distancia umbral. En cualquier caso, la rutina ser capaz de calcular la distancia umbral de cada celda. Sin embargo, si las unidades de rea se definen
69
incorrectamente en la pestaa parmetros de medicin, la rutina calcula la

distancia umbral errada. Por ejemplo, si los datos estn medidos en metros,
y el rea definida en la pestaa en kilmetros cuadrados, muy probable que
la rutina no encontrar ningn punto, pues estn ms lejos que cualquier
distancia umbral sobre la celda de rejilla.
En otras palabras, es esencial que las unidades de rea sea consistente
con la data para que la rutina funcionar correctamente.
Definicin del ancho de banda del kernel
Otra preocupacin es el ancho de banda a definir para generar un clculo
aproximado de densidad estable de la variable, a partir de la variable referencia. Un ancho de banda muy pequeo puede generar el efecto de crear
grupos en los bordes del rea de estudio o clusters muy grandes en reas
con densidad de poblacin muy bajas. Por lo tanto, es recomendable usar
un ancho de banda no muy pequeo, de tal forma que genere grupos ms
estables.
Salida de la rutina Rnnh
La rutina Rnnh presenta tres resultados. En primer lugar, las localizaciones, y parmetros de las elipses de desvo estndar de cada grupo seleccionado. En segundo lugar, por cada orden CrimeStat calcula la media central del
cluster. En tercer lugar, ya sea elipse de desvo estndar o cpsulas convexas
se pueden graficar.
Test de significancia estadstica
Debido a que la distribucin de muestreo del mtodo de clusters no se
conoce, la rutine Rnnh permite simulaciones de Monte Carlo para la aproxi-
70
macin de intervalos de confianza, similar a la rutina Nnh.

La salida es idntica a la rutina Nnh. En esencia, se produce una aproximacin al intervalo de confianza para el nmero de clusters de primer order,
para el rea de lo clusters, para el nmero de puntos en cada grupo, y para
la densidad de cada grupo.
Los clusters de segundo orden y de orden superior no son simulados, ya
que su estructura depende de las agrupaciones de primer orden.
Pautas para la seleccin de los parmetros
Las directrices para la seleccin de los parmetros de la rutina Rnnh son
similares al de la rutina Nnh, exceptuando que el usuario debe usar el modelo
de interpolacin de Kernel utilizando la variable referencia. El proceso es parecido a sintonizar una onda corta de radio, se va ajustando el dial hasta que
la seal es detectada. Sugerimos que el usuario desarrolle un buen modelo
de densidad para la variable de referencia. El usuario tiene que desarrollar
un modelo que compense lo alto y lo bajo de la concentracin de poblacin,
para producir una estimacin estable.
Hay dos tipos de ajuste. El primero, consiste en la variacin de fondo
que se ha sintonizado en la variable referencia. Esto se hace a travs de la
interpolacin de densidad de kernel. Si se ha seleccionado un ancho de banda
demasiado estrecho, la densidad de la superficie tendr numerosas ondulaciones (pequeos picos y valles); esto poda causar los clculos aproximados de
riesgo irreales e inestables. Una celda con un valor de densidad muy pequeo
poda producir la distancia umbral extremadamente grande, mientras que
una celda con una densidad muy baja puede generar una distancia umbral
sumamente pequea. Por el contrario, si se selecciona un ancho de banda
demasiado grande, la superficie de densidad no diferenciar bien y en cada
celda de la cuadrcula habr ms o menos la misma distancia umbral. En
71
este caso, la rutina de Rnnh producira un resultado no muy diferente de la

rutina de Nnh.
En segundo lugar, la sintonizacin de los grupos a travs de ajuste de
la distancia umbral y el criterio del nmero mnimo. Si es seleccionado una
distancia umbral (probabilidad) grande, demasiados incidentes pueden ser
agrupados, mientras que si la distancia umbral seleccionada es pequea, el
resultado puede ser muy restringido. Del mismo modo, si se usa un nmero
mnimo pequeo para las agrupaciones, podran encontrarse muchos grupos
pequeos; si ocurre lo contrario, es decir, si el nmero mnimo seleccionado
es grande, tal vez ninguno o pocos grupos pueden ser seleccionados por la
rutina. El usuario debe experimentar con ambos tipos de ajuste para producir una buena solucin de cluster que capture las reas de alto riesgo, pero
no ms.
Limitaciones de la tcnica
Hay algunas limitaciones tcnicas que la rutina de Rnnh que comparte
con la rutina Nnh. Primero, el mtodo solamente agrupa incidentes (puntos);
una variable intensidad o peso no tienen ningn efecto.
Segundo, el tamao del rea de la agrupacin est en funcin del intervalo de
confianza de la distancia media esperada, usada como criterio de distancia
umbral. Sin embargo, debido a que la distancia umbral es dinmicamente
ajustada, esta tiene menor efecto en Nnh, debido a que la comparacin es
relativa y no una distancia absoluta.
En tercer lugar, hay una cierta arbitrariedad en la tcnica debido a la
regla del mnimo. Diferentes investigadores pueden definir distintos mnimos,
lo que puede generar conclusiones diferentes sobre la localizacin de grupos
de alto riesgo.
No osbtante, la rutina de Rnnh es una tcnica til para identificar que
72
grupos estn ms concentrados que el valor esperado de la distribucin de

poblacin.
2.4.5.
Tcnica Anlisis Espacial Temporal del Crimen
En esta seccin se discute la tcnica denominada Anlisis del EspacioTemporal del Crimen, STAC por sus siglas en ingls; sta tcnica fue desarrollada por Illinois Criminal Justice Information Authority, para identificar
cluster; e integrada en la versin 2 del software CrimeStat.
Los autores de la rutina STAC, fueron Richard Block Carolyn, Catedrtico de Sociologa, Criminal Justice Loyola University Chicago, IL. y Carolyn
Rebecca Block, Analista de investigacin superior, Illinois Criminal Justice
Information Authority, Chicago, IL.
En 1989, el departamentos de polica en Illinois solicita a Illinois Criminal Justice Information Authority, desarrollar una tcnica para identificar
reas con Zonas Calientes (grupos de puntos muy densos sobre un mapa). El
resultado fue STAC, el primer programa para identificar Zona Caliente de
crimen. A travs de los aos, se han aadido algunos cambios a STAC, pero
el algoritmo sigue siendo el mismo. STAC es un programa rpido y de fcil
uso que permite identificar y visualizar reas de zonas calientes.
En CrimeStat la rutina STAC, busca identificar los cluster ms densos,
basndose en la distribucin de los puntos sobre el mapa, identifica las principales concentraciones de puntos. Se puede representar las zonas calientes
por elipses de desviacin estndar o cpsulas convexas, o en ambas formas.
STAC es un algoritmo de cluster tipo bsqueda, en sentido de que un
crculo es colocado sobre cada uno de los nodos de una rejilla, y se cuenta
el nmero de puntos dentro cada crculo. Esta rutina comparte con otras
rutinas de bsqueda la propiedad de pruebas mltiples, pero difiere en que la
73
superposicin de los grupos se combinan en el grupo ms grande hasta que

ya no hay superposicin de los crculos. Por lo tanto, los grupos en STAC
pueden ser de tamaos diferentes. La rutina, combina algunos elementos de
la tcnica cluster particionado (los crculos de bsqueda) con cluster jerrquico (combina clusters pequeos en clusters ms grandes).
STAC fue diseado para ayudar al analista del crimen a resumir la gran
cantidad de informacin geogrficas, con el propsito de facilitar la aplicacin
de polticas estratgicas en prevencin y control del crimen. Una aplicacin
inmediata es la identificacin de reas en mapas, que contienen grupos muy
densos(zonas calientes).
Metodologa de STAC para identificar las Zonas Calientes
El programa implementa un algoritmo de bsqueda, para identificar zonas
calientes, la idea general se expone a continuacin:
STAC coloca una estructura de cuadrcula de 20 x 20 (triangular o
rectangular, definido por el investigador) sobre el plano de rea acotada
definida por el investigador.
STAC pone un crculo sobre cada nodo de la cuadrcula, con un radio
igual a 1.414 veces del radio de bsqueda especificado (donde 1,414 es la
raz cuadrada aproximada de 2). Por lo tanto, los crculos se trasladan.
STAC cuenta el nmero de puntos que caer dentro de cada crculo, y
clasifica los crculos en orden descendiente.
Para un mximo de 25 crculos, STAC almacena todos crculos con al
menos dos puntos dentro de cada crculo. Las coordenadas X e Y de
cualquier nodo con al menos dos incidentes dentro del radio de bsqueda es grabado, al mismo tiempo que el nmero de puntos encontrados
para cada nodo.
74
Estos crculos son clasificados de acuerdo con el nmero de puntos y

un mximo de 25 reas seleccionadas.
Si un punto pertenece a dos crculos diferentes, los puntos dentro de
los crculos lo son combinados. Este proceso es repetido hasta que no
hayan crculo traslapados. Esta rutina evita el problema de que hayan
puntos que pertenezcan a ms de uno grupo. El resultado es llamado
zonas calientes.
Usando los puntos de la data en cada cluster, el programa calcular el
mejor ajuste de la elipse de desviacin estndar o Cpsula convexa.
stos son llamados reas de zona calientes. Ya que un elipse desviacin
estndar es un resumen estadstico de los puntos de zona caliente, stos
pueden contener reas que no tienen puntos. Por otro lado, la cpsula
convexa forman un polgono alrededor de todos puntos del grupo.
En CrimeStat la rutina STAC se encuentra disponible en la pestaa anlisis espacial de zonas calientes II.
En general, la rutina STAC en CrimeStat ha mantenido toda la funcionalidad y la velocidad de las versiones anteriores, presentando algunas mejoras
(ver manual anexo en digital).
Los parmetros de la tcnica STAC, en CrimeStat
Los parmetros ms importantes para el funcionamiento de STAC son
los lmites del rea de estudio (rea de referencia) y el radio de bsqueda. A
continuacin se muestra una descripcin de los parmetros de STAC.
Radio de bsqueda: El radio de bsqueda es la clave en la ejecucin de
STAC. En general, cuanto mayor sea el radio de bsqueda, mayor ser el
nmero de incidentes que se incluirn en cada cluster, y mayor la elipse que
75
se mostrar. Y para radios de bsqueda pequeos generalmente, traen consigo ms grupos de menor tamao. Una buena estrategia es comenzar con un
radio ms amplio y analizar las reas puntos calientes, siguiendo con radios
de bsqueda ms pequeas.
Las unidades para el radio de bsqueda deben ser especificadas. El valor
por defecto de la unidad es la milla y con un valor para el radio de bsqueda
igual a 0,5 millas. Se recomienda ser cuidadoso al usar un radio de bsqueda
mayor, puede generar elipses muy grandes y poco til. Es recomendable experimentar para determinar un radio apropiado.
Nmero mnimo de puntos por cluster: El nmero mnimo de puntos a incluir en cada cluster debe ser especificado. El lmite mnimo de puntos en un
grupo es dos. Por defecto es un mnimo de 10.
rea delimitada: Se debe elegir el lmite de la data (es decir, los valores
mnimo y mximo de X e Y ) o el lmite de referencia. Se recomienda usar el
archivo de referencia. Si el conjunto de datos se usa para definir los lmites
de referencia, se utilizar el rectngulo ms pequeo que cubre todos los incidentes .
Tipo de exploracin: Se elige el tipo de bsqueda o exploracin (scan type)
para la rejilla. Si el rea de anlisis tiene mayormente un patron de calles
tipo cuadrcula, elija rectangular; por el contrario, si el rea de anlisis generalmente tiene un patrn irregular de calles, elija triangular.
Salida grfica: La rutina genera la salida grfica como elipse de desvo estndar o como Cpsula convexa, o ambas a la vez. Para elipses, debe elegir el
nmero de desviaciones estndar (1X, 1.5X, y 2X desviaciones estndar).
Seleccionando elipse con una desviacin estndar, los clusters obtenidos raras
76
veces se solapan, mientras que las elipse de 1.5 y 2 desviaciones estndar generalmente se traslapa. Una elipse grande puede incluir ms puntos de los que
forman la cluster; mientras que una elipse pequea identificar ms eficientemente los grupos. El usuario debe trabajar en equilibrio con la definicin de
cluster y el tamao, permitiendo identificar el inicio de uno y el final del otro.
La rutina en CrimeStat permite la salida un documento para copiar o
imprimir, este documento no tiene un nombre definido, y la mejor manera
de guardarlo es colocar el cursor dentro de la ventana de salida y seleccionar
todo, luego copiar y pegar la seleccin en un documento texto. El documento
de salida presenta la siguiente informacin:
1. La salida, en la primera seccin muestra el tamao de archivo principal, y los parmetros seleccionados para ejecutar la rutina. Tipo de
distancia, directa o indirecta. Tipo de bsqueda, indica el tipo de rejilla rectangular o triangular. Unidades de entrada, indica las unidades
de las coordenadas especificadas en la configuracin, grados (en caso
de latitud y longitud) o en metros o pies (en caso de proyecciones).
Las unidades de salida, indican las unidades de densidad y longitud
especificada en la configuracin para la salida de elipses. Generalmente, las unidades de salida son en millas o kilmetros, para el radio de
bsqueda, rea limitada por los lmites de las coordenadas (esquina inferior izquierda y esquina superior derecha del rea de estudio) nmero
de puntos en el interior del rea limitada (contados dentro del archivo
referencia); cuando el rea del archivo de referencia es menor que la
utilizada en el anlisis, este nmero puede ser menor que el nmero de
puntos en el archivos principal. Si la simulacin es ejecutada, se indica
el nmero de corridas especificadas en la configuracin.
2. En la segunda seccin, STAC proporciona un resumen estadstico de
cada cluster encontrado, o zona caliente.
77
a) El nmero de identificacin de cada Cluster o elipse, correspondiente a su orden en la tabla en ArcView o MapInfo.
b) Las coordenadas de la media central X e Y, de cada elipse.
c) Los grados de rotacin de cada elipse (0 es horizontal; 90 se vertical).
d ) La longitud del eje X, y el eje Y, de cada elipse (en las unidades
de salida seleccionada).
e) El rea de cada elipse en unidades cuadradas. Elipses estn ordenados en funcin de su tamao.
f ) El nmero de puntos de cada cluster.
g) La densidad de cada cluster, el nmero de puntos por unidad de
rea. El mayor grupo no es necesariamente el ms denso. Puede
suceder que el grupo ms pequeo, tenga la mayor densidad.
3. La tercera seccin muestra los resultados de la simulacin, si sta ha
sido ejecutada. La salida incluye el nmero de clusters ordenados con
los percentiles, el rea, el nmero de puntos, y la densidad.
Test de significancia de las agrupaciones
CrimeStat incluye una rutina de simulacin de Monte Carlo en STAC, que
produce la aproximacin a los intervalos de confianza del nmero de clusters
encontrados, bajo el modelo particular de STAC que se ha ejecutado.
La diferencia entre la densidad de los incidentes en elipses de STAC en
una data espacia completamente aleatorizada y las elipses de STAC de la
data observada, es una prueba de la fortaleza de la agrupacin detectada por
STAC. Esencialmente, la simulacin de Monte Carlo asigna aleatoriamente
n puntos en un rectngulo con la misma superficie que el rea de estudio
como se ha especificado, y evala el nmero de cluster de acuerdo con los
78
parmetros definidos. La prueba se repite k veces, siendo k definida por el

usuario (por ejemplo, 100, 1.000, 10.000). Al ejecutar la simulacin k veces,
el investigador puede evaluar la aproximacin de los intervalos de confianza
del nmero de clusters y la densidad.
Por defecto la simulacin no es calculada, es opcional y generalmente aumenta el tiempo de clculo considerablemente.
Metodologa a seguir para usar STAC:
1. STAC requiere del archivo primario y un archivo del referencia. Opcionalmente se ejecuta una simulacin, STAC requiere el rea del archivo
referencia (measurement parameters).
2. Definir el archivo de referencia. El analista puede hacer un anlisis
en diferentes reas de jurisdiccin, mediante el uso de un archivo de
referencia. Por ejemplo, definir el archivo de referencia para localizar los
sectores de toda la ciudad, como tambin definir el archivo referencial
cada uno de los municipios como reas de referencia adicionales. As ,
el mismo archivo de incidentes puede ser utilizado para el anlisis de
las diferentes reas utilizando varios archivos de referencia.
3. Definir el radio de bsqueda. En general, un anlisis en dos etapas es
mejor. Comience con un radio de bsqueda mayor y analice reas de
puntos calientes, luego continue con un radio de bsqueda menor.
4. Ajuste la salida de las unidades en kilmetros o millas.
5. Debe especificar el nombre de archivo de salida para los elipses o cpsulas convexas.
6. Haga clic en el botn parmetros STAC.
79
Ventajas de STAC
La tcnica STAC tiene un buen nmero de ventajas como algoritmo de
agrupacin:
STAC puede analizar un gran nmero de casos rpidamente. Es muy
rpido usando Proyecciones Euclidianas como UTM o State Plane, y
un poco ms lento usando coordenadas esfricas (longitud/latitud).
En STAC el usuario controla el tamao aproximado de las elipses por
medio del radio de bsqueda, el nmero mnimo de puntos por elipse,
y el rea de estudio. Estas caractersticas permiten una bsqueda ms
amplia para reas de zonas calientes en una ciudad entera, y una segunda bsqueda se centra en un rea ms pequea (locales) y obteniendo
zonas calientes de uso tctico.
STAC y el cluster jerrquico son complementarios. El cluster jerrquico
calcula elipses pequeos y luego los agrega a los de mayor tamao. El
procedimiento en STAC, recomienda en primer lugar obtener a gran
escala elipses y luego analizar stos para uso tctico.
La salida grfica de STAC, puede ser como elipses o cpsulas convexas.
No es necesario limitar los puntos calientes a un nico tipo de delito o
incluso lugar. Es decir, se pueden comparar diferentes tipos de delitos
con elipses. Por ejemplo, elipses de robos callejeros con las ventas de
licor.
STAC combina las caractersticas de la estructura jerrquica con mtodos de particin, y adapta el tamao de los grupos.
A diferencia de la rutina Nnh, que tiene una distancia umbral constante
(radio de bsqueda), STAC puede crear grupos de tamao diferentes,
80
porque los grupos que se traslapan son combinados hasta que no se

traslapen.
Limitaciones en STAC
Existen algunas limitaciones en STAC:
La distribucin de los incidentes dentro de los grupos no es necesariamente uniforme. El usuario debe tener cuidado de no suponerlo.
STAC est basado en la distribucin de puntos de datos. No se toma en
cuenta uso de sectores geogrficos o los factores de riesgo. Es eleccin
del analista identificar las caractersticas que generan una zona caliente.
En STAC, cambios pequeos en el rea de estudio puede generar diferente representaciones por elipses. Este es el caso de cualquier rutina
de cluster. Para anlisis repetidos, manteniendo el mismo archivo referencia se supera este problema.
STAC es una poderosa herramienta para la deteccin de grupos y le permitirle al analista experimentar con diferentes radios de bsqueda y reas
de referencia. Por ejemplo, la rutina ejecutada para diferentes radios de bsqueda, sobre la misma rea, encontrar ligeramente diferentes nmero de
cluster.
2.4.6.
Cluster K- medias
La rutina de la agrupacin K-medias (por sus siglas en ingls K-means)

es un procedimiento en el que los datos se agrupan en K grupos, siendo K
un valor definido por el investigador. La rutina intenta encontrar la mejor
posicin de los k centros y luego asigna cada uno de los puntos al centro
ms cercano. Al igual que la rutina Nnh, en k-medias un punto es asignado
a un nico grupo. Sin embargo, a diferencia del procedimiento del cluster
81
jerrquico del vecino ms cercano (Nnh), todos los puntos son asignados a
algn cluster. Por lo tanto, no existe una jerarqua en la rutina, es decir, no
hay clusters de segundo orden o de orden superior.
La tcnica es til cuando el investigador necesita controlar el nmero de
grupos. Por ejemplo, si hay 10 casillas en una jurisdiccin, y el analista debe
identificar los 10 grupos ms compactos, uno por cada distrito.
Por definicin, la tcnica es algo arbitraria debido a que el investigador
debe definir el nmero de agrupaciones que se esperan encontrar.
La teora del procedimiento de la rutina K-media relativamente sencillo,
es ms complicada la aplicacin. Las K-medias representa un intento por
definir el nmero de lugares ptimos, donde la suma de la distancia de cada
punto a cada uno de los K centros es mnima. Es una variante del viejo paradigma de la teora de la localizacin de cmo ubicar K instalaciones dada
la distribucin de poblacin; por ejemplo, estaciones de polica, hospitales,
centros comerciales, etc.; es decir, cmo se identifican las localizaciones de
suministro en relacin con la demanda de lugares. En teora, la solucin de
esta cuestin es una solucin emprica, lo que es llamado frecuentemente optimizacin global. Se intentan todas las combinaciones de k objetos, donde
k es un subconjunto de la poblacin total de los N incidentes, y mide la
distancia de cada punto a todos los k lugares. La combinacin particular que
da la suma mnima de todas las distancias (todas las distancias al cuadrado)
es considerada la mejor solucin. Sin embargo, en la prctica, si N es grande,
esta solucin es computacionalmente casi imposible. Por ejemplo, con 6.000
incidentes agrupados en 20 particiones (agrupaciones), no se puede solucionar
con cualquier computador normal, pues hay
6000!
20! 5980!
= 1456 1057 combina-
ciones. Ningn computador puede solucionar ese nmero y pocas hojas de

clculo pueden calcular el factorial de N cuando es superior a 127. En otras
palabras, es casi imposible de resolver computacionalmente.
82
En la prctica, las distintas implementaciones de la rutina K-medias hacen conjeturas acerca de las K localizaciones iniciales, y luego optimizan estas
localizaciones en relacin con los puntos cercanos. Esto se llama optimizacin
local. Desafortunadamente, cada rutina de K-media tiene una manera diferente de definir las primeras localizaciones, motivo por el cual dos ejecuciones
de K-medias, generalmente no producen los mismos resultados, incluso si K
es idntica.
La rutina K-medias en CrimeStat
La rutina K-medias en CrimeStat tambin hace una primera suposicin
acerca de la localizacin de las K agrupaciones, y optimiza la distribucin a
nivel local. El procedimiento hace estimaciones iniciales de la localizacin de
los K grupos (K semillas), asigna todos los puntos a su ms cercana localizacin (semilla), re-calcula un centro para cada cluster que se convierte en una
nueva semilla, y repite el procedimiento. El procedimiento se detiene cuando
hay muy pocos cambios en la composicin del cluster.
Por defecto la rutina de K-medias sigue un algoritmo para agrupar cada
puntos en un nica grupo. Hay dos pasos generales: primero: la identificacin
de una semilla inicial para la localizacin de los K grupos; y el segundo, la
optimizacin local el cual asigna cada punto al cluster ms cercano de los K.
La metodologa de seleccin de los K lugares consiste en colocar una rejilla
superpuesta sobre la data, y el nmero de puntos que caen dentro de cada
celda de la rejilla es contado. La celda con el mayor nmero de puntos es el
primer grupo inicial. A continuacin, el segundo grupo inicial es la celda con
el segundo nmero mayor de puntos, que se encuentre separada al menos por
83
una distancia definida por:

r
Separacin = 0,5 t
A
N
(2.8)
donde t es el valor de la distribucin t-Student para el nivel de significacin

de 1 % (2.358), A el rea de la regin, y N el tamao de la muestra.
Un tercer grupo inicial es seleccionado, el cual es la celda con el tercer
mayor nmero de puntos, y que est separado de las dos primeras celdas de
la rejilla, al menos igual al valor de la separacin definida por la ecuacin
(2.8). Este proceso se repite hasta que todas las K semillas de localizaciones
iniciales son seleccionadas.
El algoritmo, asigna cada punto a la localizacin (semilla) ms cercana
para formar un cluster inicial. Para cada cluster inicial, se calcula el centro
de distancia mnima, y a continuacin se vuelve a asignar todos los puntos al
cluster ms cercano, ahora en funcin del centro de distancia mnima. Este
proceso se repite hasta que no haya cambio de puntos en las agrupaciones.
Para aumentar la flexibilidad de la rutina, la rejilla que es superpuesta
sobre la data, es redimensionada de tamao para dar cabida a diferentes
estructuras de grupo, aumentando o disminuyendo en tamao para tratar de
encontrar los K grupos. Despus, iterando a travs de diferentes tamaos de
rejillas al final se produce ms agrupaciones. Finalmente, para cada grupo, la
rutina calcula el elipse de desviacin estndar, y opcionalmente los resultados
pueden salir como objetos grficos, ya sea como elipses de desviacin estndar
o como cpsula convexa.
84
Control sobre la seleccin inicial de Clusters

1. Cambiando la separacin entre las agrupaciones.
Los incidentes de crimen en reas metropolitanas, presentan el problema
con altas concentraciones, y debido a esta situacin la separacin entre las
agrupaciones no podrn ser lo suficientemente grandes para detectar posibles agrupaciones que se encuentran ms alejadas de la zona metropolitana,
el algoritmo tender a subdividir las concentraciones de incidentes en varios
grupos, ms que buscar los grupos que estn menos concentrados, y generalmente ms lejos. Para aumentar la flexibilidad de la rutina, CrimeStat
permite modificar la seleccin inicial de grupos, debido al efecto que genera ste en la agrupacin final. Hay dos formas en que la seleccin inicial de
centros de los grupos pueden ser modificados. Primero, se puede aumentar
o disminuir el factor de separacin. La frmula (2.8) es usada para separar
cada uno de los primeros grupos, sin embargo, el usuario puede seleccionar
un valor de t entre 1 y 10, escribiendo en la casilla cualquier nmero de
separacin, incluyendo fracciones, para aumentar o disminuir el separacin
entre los primeros grupos. Por defecto el valor es igual a 4.
2. Seleccin de las localizaciones iniciales de las semillas
Alternativamente, los grupos iniciales pueden ser modificados definiendo
las localizaciones centrales de los clusters iniciales. En CrimeStat, las localizaciones son definidas por el usuario en un archivo secundario que lista las
localizaciones iniciales de las agrupaciones. La rutina lee el archivo secundario y usa el nmero k de puntos del archivo y las coordenadas X/Y de
cada punto como las semillas iniciales. Y seguidamente procede de la misma
manera con la optimizacin.
La salida de K-medias es similar a las rutinas anteriores. Incluye los pa-
85
rmetros del elipse de desviacin estndar de cada grupo en una tabla, y

pueden presentarse grficamente cada grupo como una elipse o cpsula convexa.
Cuadrado medio del error
Adems, de la salida de cada grupo, tambin se muestran cuatro estadsticos adicionales: Suma de los cuadrados del cluster C (SSEC ), Cuadrados
medios del error del cluster C (CM EC ), Suma total de los cuadrados de los
cluster y el Total de los cuadrados medios del error de los cluster T CM EC ,
definidos como:
SSEC
NC
X
=
[(XiC X C )2 + (YiC Y C )2 ]
(2.9)
i=1
CM EC =
SSEC
(NC 1)
(2.10)
donde XiC e YiC son los valores de las coordenadas Y e Y de los punto que
pertenece al grupo C; X C y Y C son las coordenadas de la media de los puntos
que pertenece al grupo C, y NC es el nmero de puntos en el grupo C.
Suma total de los cuadrados de los cluster =
SSEC
(2.11)
Total de los cuadrados medios del error
X
C
donde
P
C
SSEC
(2.12)
(N k 1)
SSEC es la suma de los cuadrados sobre todos los grupos C, N
es el tamao total de la muestra, y k es el nmero de agrupaciones.

La suma de los cuadrados es el cuadrado de las desviaciones de cada punto del grupo al centro de distancia mnima, y los cuadrados medios del error
86
es el promedio de las desviaciones al cuadrado de cada grupo.

La suma de los cuadrados de los errores generalmente se usa como un
criterio para evaluar la bondad de ajuste.
En general, para un nmero k de grupos, estn mejor definidos aquellos
con la menor suma de cuadrados, y en consecuencia con cuadrados medios
del error menor, que los grupos con mayor suma de cuadrados y mayor valor de los cuadrados medios del error. De manera similar, una solucin de
K-medias que produce una suma de cuadrados menor, es una agrupacin
ms concentrada, que una que produce una suma de cuadrados mayor. Sin
embargo, puede haber excepciones, como puntos atpicos y concentraciones
muy altas. Si hay puntos atpicos, obviamente estos no deben caer dentro
de ningn grupo, sin embargo, si son asignados en algn grupo, puede distorsionar el estadsticos de la suma de los cuadrados. Si es el caso de una
distribucin con concentraciones muy altas, como ocurre con los incidentes
criminales, puede aparecer una suma de cuadrados muy baja y muy densa,
un criterio para tratar este caso consiste en dividir las concentraciones centrales, en grupos menos densos. CrimeStat utiliza la distancia ms cercana a
la localizacin del cluster semilla, para formar los clusters, en lugar de una
solucin que minimice la suma de los cuadrados de las distancias, ya que esta
puede ignorar los clusters en la periferia.
Visualizacin del cluster
La salida grfica de la rutina K-medias (K-means), es similar a las dems
rutinas de cluster, es decir, en elipses o cpsula convexa. Para las elipses,
se puede elegir entre 1X, 1,5X, 2X desviaciones estndar. Es importante
sealar, que las elipses son una abstraccin de los clusters. Los clusters no
necesariamente estn dispuestos como elipses; estos son slo para propsitos
87
de visualizacin. Para las cpsulas convexas, la rutina crea un polgono alrededor de los puntos en cada grupo.
Ventajas y desventajas de la rutina K-medias
El procedimiento K-medias divide la data en k de grupos especificados
por el usuario. En consecuencia, el sentido de estos grupos depender de la
eleccin del nmero de agrupaciones; la eleccin de un nmero muy grande
puede conducir a patrones que no existe realmente, mientras que la eleccin
de un nmero pequeo no permitir la diferenciacin entre vecindades o
sectores que son claramente diferentes.
El procedimiento K-medias puede utilizarse como una herramienta de
exploracin para determinar posibles zonas calientes, ya que le permite al
investigador cierto control sobre el tamao de los clusters; mientras que otras
rutinas no son flexibles en este sentido; por ejemplo, el mtodo jerrquico del
vecino ms cercano, genera una solucin basada en la proximidad geogrfica,
y la mayora de las agrupaciones son pequeas.
Sin embargo, esta caracterstica que permite el control sobre el tamao
de los grupos, tambin deja a la tcnica propensa al mal uso. No se debe elegir en forma arbitraria el nmero de cluster, y esperar a obtener resultados
significativos.
La tcnica es vista tanto como una herramienta de exploracin, como un
instrumento para refinar la bsqueda de zonas calientes. Si se conoce con
cierta certeza posiblemente donde puede haber zonas calientes (basado por
ejemplo, en la experiencia o en informes de oficiales), entonces la tcnica puede ser utilizada para comparar si los hechos corresponden a la percepcin.
Tambin puede ayudar identificar las zonas calientes que no son fcilmente
percibidas o identificadas por los agentes.
Anlisis espacio-tiempo
2.5.
88
Introduccin
En los departamentos de polica, generalmente, se conoce que los delitos
o incidentes criminales no ocurre uniformemente a lo largo del ao, estos a
menudo ocurren en perodos de tiempo, y algunas veces en ciertas vecindades
o zonas especficas. Esta situacin hace necesario reflexionar sobre la relacin
que puede existir entre el tiempo y el espacio, el estudio de esta relacin ha
sido desarrollada sobre todo en el campo de epidemiologa, donde se han desarrollado tcnicas para describir la relacin, sin embargo, la mayor parte de
estas tcnicas son aplicables al anlisis de crimen.
En esta seccin, se estudian las tcnicas para analizar la relacin (interaccin) entre el espacio y tiempo. Hasta ahora, se ha analizado la distribucin
de incidentes independientemente del orden o perodo de tiempo en que suceden.
CrimeStat incluye cuatro tcnicas de espacio-tiempo: el ndice de Knox,
el ndice de Mantel, el promedio de mvil espacial temporal, y el anlisis de
caminata correlacionada. Sin embargo, en este trabajo se exponen slo los
dos primeros ndices.
Interaccin entre Espacio-tiempo
Hay diferentes tipos de interaccin que podra ocurrir entre el espacio y
el tiempo. A continuacin se describen algunos:
Primero, puede haber Cluster espacial todo el tiempo. Algunas comunidades son propensas a ciertos acontecimientos; por ejemplo, los robos, a
menudo son concentrados en localizaciones particulares, como son robos de
vehculo. Si este es el caso, las herramientas para identificar zonas caliente,
89
tratados en la seccin anterior, son tiles para identificar estas concentraciones. En este caso, no hay interaccin alguna entre espacio-tiempo, puesto
que el cluster ocurre siempre (todo el tiempo).
Segundo, podra haber cluster espacial dentro de un perodo de tiempo
especfico. Las zonas calientes pueden ocurrir durante ciertos perodos de
tiempo. Por ejemplo, los choques de automvil tienden a ocurrir con mayor
frecuencias en la tarde y primeras horas de la noche, como consecuencia de la
congestin en las carreteras; claramente las zonas calientes de choques tienden aparecer en ciertas horas debido a la alta concentracin, mientras que
en la mayor parte del tiempo no ocurre, porque los niveles de congestin son
inferiores.
En tercer lugar, puede haber cluster en espacio-tiempo. Una serie de eventos pueden ocurrir dentro de un corto perodo de tiempo en un rea concentrada. Este tipo de efecto es muy comn con robos de vehculos. Por ejemplo,
una banda de ladrones de autos puede decidir un ataque en una zona, y luego
de un cierto nmero de robos, se trasladan a otra zona. En este caso, existe
una serie de robos que se producen dentro de un perodo de tiempo limitado,
en un rea limitada. El cluster o grupo se desplaza de un lugar a otro. Esta
situacin presenta interaccin espacio-tiempo, en el espacio las zona calientes
aparecen en determinados momentos, es decir, son temporales. La capacidad
de detectar este tipo de cambio es muy importante para los departamentos
de policas, ya que afecta a su capacidad de respuesta.
Cuarto, puede haber interaccin espacio-tiempo donde la relacin entre el
espacio y el tiempo es ms complejo. La interaccin podra ser concentrada,
como en el cluster espacial mencionado anteriormente, o esto podra seguir
un modelo ms complejo. Por ejemplo, podra haber una difusin de ventas
de droga de una localizacin central a un rea ms dispersa. Mientras que
90
inicialmente, el negocio de drogas es concentrado en pocas localizaciones, y

luego comienza a difundirse a otras reas. Sin embargo, la difusin puede
ocurrir en diferentes periodos del ao, por ejemplo, en Navidad y Ao nuevo,
vacaciones, etc. Como tambin, los robos de vehculo o cualquier otro delito,
pueden cambiar hacia comunidades donde se facilite el modo operandi, por
ejemplo, durante los meses de vacaciones en algunas comunidades reciben
gran cantidad de turistas, esta situacin puede motivar el movimiento de delincuentes a la zona.
stas distinciones son importantes ya que muchas de las pruebas que
existen miden la interaccin espacio-tiempo, en lugar de medir los clusters
de espacio-tiempo. Por ejemplo, las pruebas de Knox y Mantel miden la interaccin espacio-tiempo. La interaccin puede ser el resultado de un cluster
espacial, pero no necesariamente tiene que ser as. De todos modos, la capacidad de identificar la interaccin es un paso importante en la planificacin
de una estrategia de la intervencin.
Medida de Tiempo en CrimeStat
Para cualquiera de estas tcnicas, en CrimeStat, el tiempo debe ser medido como un nmero entero o variable real. El tiempo no se debe definir en
formato de fecha, en caso de ser definido en formato de fecha, la rutina ejecutada har clculos incorrectos. El tiempo puede ser definido en horas, das,
semanas, meses, o aos; si la unidad de tiempo es das, la transformacin usa
el nmero de das desde el 1 de enero de 1900.
2.5.1.
El ndice de Knox
El ndice de Knox es una simple comparacin de la relacin entre los incidentes, en los trminos de distancia (espacio) y tiempo. Es decir, cada par de
individuos es comparado en trminos de distancia y en trminos de intervalo
91
de tiempo. Dado que cada par de puntos es comparado, hay N (N 1)/2

pares. La distancia entre los puntos se divide en dos grupos, cerca y no cerca
en distancia, y el intervalo de tiempo entre los puntos, igualmente, se divide
en dos grupos, cerca en el tiempo y no cerca. Las definiciones de proximidad
y no prximo, se dejan al investigador o usuario.
Una tabla de contingencia 2x2, produce las comparaciones entre las cercanas en distancia y cercanas en el tiempo.
Cuadro de estructura lgica del ndice de knox
Cercano en tiempo
No cercano en tiempo
O1
O2
S1
O3
O4
S2
S3
S4
Cercano en
distancia
No cercano
de distancia
Cuadro 2.2: Estructura lgica del ndice Knox

donde
N = O1 + O2 + O3 + O4
S1 = O1 + O3
S2 = O3 + O4
S3 = O1 + O3
S4 = O2 + O4
El nmero de observaciones que cae en cada una de las cuatro celdas son
comparados, con el nmero esperado, como si no existiera alguna relacin
entre la cercana en distancia y cercana en tiempo.
El nmero esperado de pares en cada celda bajo estricta independencia
entre la cercana en distancia y el intervalo de tiempo se obtiene por los
productos cruzados de los totales de las columnas y las filas.
92
Tabla de frecuencias esperadas para ndice Knox

Cercano en tiempo
No cercano en tiempo
E1
E2
E3
E4
Cercano en
distancia
No cercano
de distancia
Cuadro 2.3: Frecuencias esperadas para ndice Knox

donde E1 = S1 S3 /N, E2 = S1 S4 /N, E3 = S2 S3 /N, E4 = S2 S4 /N.
La diferencia entre el nmero observado y el nmero esperado de pares
en cada celda es medido con el estadstico Chi-cuadrado
2 =
(Oi Ei )2
, con 1 grado de libertad
Ei
(2.13)
Simulacin de Monte Carlo de Chi cuadrada crtico

La prueba usual de probabilidad asociada con el estadstico Chi-cuadrado
lamentablemente no se puede aplicar en este caso, debido a que las observaciones no son independientes. La interaccin entre espacio y tiempo tiende
a complicarse cuando se calcula el estadstico Chi-cuadrado. Por ejemplo,
se ha notado que el Chi-cuadrado tiende a ser ms grande con aumento
de tamao de la muestra, condicin que normalmente no es cierto bajo observaciones independientes. Para manejar este aspecto de interdependencia,
CrimeStat propone una simulacin de Monte Carlo para calcular el valor del
chi-cuadrado del ndice de Knox, bajo distribucin aleatoria entre espacio y
tiempo.
El ndice de Knox contrasta la hiptesis nula de la distribucin de la
data en espacio y tiempo es aleatoria (no interaccin entre espacio y tiempo),
93
versus a la hiptesis alternativa de presencia de un esquema de interaccin

entre espacio y tiempo, es decir:
H0 : no existe no interaccin entre espacio y tiempo
V s.
Ha : existe interaccin entre espacio y tiempo
Esta en una prueba de una cola, donde un valor alto indica interaccin
entre espacio y tiempo. Por ejemplo, si el valor observado del estadstico Chicuadrado es mayor que el valor asociado al percentil de 95 %, la hiptesis nula
distribucin de la data aleatoria es rechazada.
Si se ejecuta una simulacin, la rutina selecciona aleatoriamente M pares,
de una distancia y un intervalo de tiempo, donde M es el nmero de parejas
en el conjunto de datos (M = N (N 1)/2), y calcula el Index Knox y el test
de chi-cuadrado. Cada par de distancia e intervalo de tiempo son seleccionados entre los valores mnimos y mximos, para la distancia y el tiempo del
conjunto de datos, usando un generador aleatorio con distribucin uniforme.
La simulacin aleatoria se repite K veces, siendo K especificada por el
investigador o usuario. Es recomendable ejecutar un simulacin igual a 1000
o ms veces.
La salida incluye:
1. El tamao de la muestra.
2. El nmero de pares
3. El valor calculado del chi cuadrado del ndice de Knox de los datos.
4. El chi cuadrado mnimo valor del ndice de Knox de la simulacin.
94
5. El mximo valor de chi cuadrado del ndice de Knox de la simulacin.

6. Diez percentiles de la simulacin:
0, 5 %, 1 %, 2, 5 %, 5 %, 10 %, 90 %, 95 %, 97, 5 %, 99 %, 0, 5 %, 99, 5 %.
Mtodos para dividir la distancia y tiempo
Para la aplicacin del ndice de Knox en CrimeStat, el investigador o
usuario puede dividir la distancia y el intervalo de tiempo basadose en tres
criterios:
1. La media (la media de la distancia y el intervalo de tiempo). Este es el
criterio por defecto.
2. La mediana (la mediana de la distancia y el intervalo de tiempo).
3. Y un criterio para la distancia y el intervalo de tiempo por separado,
definidos por el investigador.
Hay ventaja para cada uno de estos mtodos. La media es el centro de la
distribucin (un punto el equilibrio). La mediana divide, tanto la distancia
como el tiempo intervalo, en un nmero de pares aproximadamente igual. La
divisin es aproximada, dado que los datos no pueden fcilmente dividirse en
dos grupos de nmeros iguales. Los criterios definidos por el analista pueden
ser ajustados a su necesidad particular. Por ejemplo, un departamento de
polica pueden estar interesado slo en los incidentes que ocurren dentro de
dos millas uno de otro, en un perodo de una semana. Esos criterios seran la
base para dividir la muestra en cercano y no cercano en distancia y tiempo.
Problemas con el ndice de Knox
El ndice de Knox es una medida de cluster sencilla de espacio-tiempo.
Sin embargo, debido a que es slo una tabla 2x2, pueden resultar diferentes
95
valores del test, para distintos puntos de corte en distancia o tiempo.

Un segundo problema se puede presentar con la interpretacin. En cualquier prueba Chi cuadrado, las diferencias entre las frecuencias observadas y
esperadas podran ocurrir en cualquier celda o cualquier combinacin de celdas. Encontrar una relacin significativa, no significa automticamente que
eventos que se encuentren cerca en distancia tambin estarn muy cerca en
tiempo, puede ser lo contrario de la relacin. Sin embargo, una simple inspeccin en la tabla puede indicar si la relacin es como se esperaba o no.
2.5.2.
El ndice de Mantel
El ndice de Mantel en esencia es una correlacin de Pearson entre la

distancia y intervalo de tiempo para los pares de incidentes (Mantel, 1967).
Es una prueba general para medir la correlacin entre dos matrices de disimilitud, que resume las comparaciones entre pares de puntos. Se basa en un
producto cruz de dos variables (la distancia e intervalo de tiempo):
N
T = N
i=1 j=1 (xij x) (yij y)
(2.14)
donde xij es un ndice de similitud entre dos observaciones, i y j, de una

misma variable (distancia), y yij es un ndice de similitud entre dos observaciones, i y j, de la otra variable (intervalo de tiempo).
El producto cruz es normalizado dividiendo por cada una de las desviaciones estndar:
r=
es decir,
1
N
N
i=1 j=1 (xij x)/Sx (yij y)/Sy
N 1
N
N
i=1 j=1 zx zy
,
r=
N 1
(2.15)
96
donde xij y yij son las variables originales para comparar las dos observaciones, i, j, y zx y zy son las variables normalizadas.
Simulacin Monte Carlo para obtener un intervalo de confianza
A pesar de que el ndice de Mantel es un producto de correlacin de Pearson entre el momento de distancia y el intervalo de tiempo, las medidas no
son independientes, de hecho, son dependientes. Por consiguiente, la prueba
de significacin habitual para un coeficiente de correlacin no es apropiado.
En su lugar, la rutina de Mantel ofrece una simulacin para los intervalos de
confianza alrededor del ndice.
El ndice de Mantel contrasta la hiptesis nula de la distribucin de la
data en espacio y tiempo es aleatoria (no interaccin entre espacio y tiempo),
versus a la hiptesis alternativa de presencia de un esquema de interaccin
entre espacio y tiempo, es decir:
H0 : no existe no interaccin entre espacio y tiempo
V s.
Ha : existe interaccin entre espacio y tiempo
Es una prueba de dos cola, donde un valor muy bajo o muy alto indica interaccin entre espacio y tiempo. Por ejemplo, para un nivel de significancia
de 5 %, si el valor observado del estadstico de Mantel es menor que el valor
asociado al percentil de 2.5 %, si el valor observado del estadstico es mayor
que el valor asociado al percentil de 97.5 %, la hiptesis nula distribucin
aleatoria es rechazada.
Al ejecutar una simulacin, la rutina selecciona aleatoriamente M pares
de distancia e intervalo de tiempo, donde M es el nmero de parejas en el
97
conjunto de datos (M = N (N 1)/2), y calcula el ndice de Mantel.

Cada par de distancia e intervalo de tiempo es seleccionado entre los valores
mnimo y mximo de la distancia y el intervalo de tiempo, en el conjunto de
datos, usando un generador aleatorio con distribucin uniforme.
La simulacin es repetida K veces, siendo el nmero K especificado por
el analista. Es recomendable ejecutar una simulacin igual o mayor a 1000.
La salida incluye:
1. El tamao de la muestra.
2. El nmero de pares.
3. El ndice calculado de Mantel de los datos.
4. El valor mnimo de Mantel de la simulacin.
5. El valor mximo de Mantel de la simulacin.
6. Diez percentiles de la simulacin:
0, 5 %, 1 %, 2, 5 %, 5 %, 10 %, 90 %, 95 %, 97, 5 %, 99 %, 0, 5 %, 99, 5 %.
Para un nivel de confianza igual a p %, se usan dos puntos crticos de corte
(percentiles), debido a que el ndice de Mantel es una prueba de dos colas;
por ejemplo, para un 5 % se calculan los percentiles 2,5 y 97,5. Indicando
que aproximadamente el 5 % de los casos estn por debajo o por arriba de
estos puntos. Si el ndice de Mantel observado es menor que punto mnimo o
mayor que el punto mximo, la hiptesis nula debe ser rechazada (hiptesis
nula: no hay interaccin entre el espacio y el tiempo). Si el valor observado se
encuentra entre los dos puntos crticos, no podemos rechazar la hiptesis nula.
En caso de existir interaccin debemos explorar con las tcnicas anteriores.
98
Limitaciones del ndice de Mantel

El ndice de Mantel es una medida de la interaccin entre espacio y tiempo con ciertas limitaciones. En primer lugar, como es un tipo de coeficiente de
correlacin de Pearson est propenso a los mismos problemas que presentan
esas correlaciones, como el caso de valores extremos (en las variables espacio
o tiempo) puede distorsionar la relacin, ya sea en forma positiva o negativa.
En forma positiva, si hay una o dos observaciones extremas, tanto en la distancia como en tiempo; y en forma negativa, si hay una o dos observaciones
extremas, ya sea en distancia en tiempo (en una de las dos).
En segundo lugar, como la prueba es una comparacin de todos los pares
de observaciones, las correlaciones tienden a ser pequeas, debido al gran
tamao de la muestra. Esto hace que sea menos intuitiva que la medida
tradicional de coeficiente de correlacin, que vara entre -1 y 1, y donde se
esperan valores altos. Para la mayora de los analistas, no es muy intuitivo
tener un ndice de 0,05 como un valor alto.
En tercer lugar, al igual que con cualquier coeficiente de correlacin, el
tamao de la muestra tiene que ser grande para producir una estimacin
estable. Generalmente, en cualquier tipo de crimen, podemos calcular el coeficiente midiendo el tiempo por mes, por semana o, incluso, por da. Sin
embargo, el nmero de casos se reducir considerablemente (una muestra de
36, es pequea). Los analista del crimen se interesan por conocer cundo se
produce un cluster espacio-tiempo, por ejemplo, en un perodo corto de tiempo de una semana, este puede ser un intervalo de tiempo til, sin embargo,
este perodo de tiempo genera un tamao de muestra pequea, y el ndice se
vuelve inestable; y por otro lado, en la simulacin de Monte Carlo el tamao
de muestra vara considerablemente de una semana a otra. El analista tendr que ejecutar la simulacin varias veces para ajustar el tamao de muestra.
99
Una forma de evitar este efecto, es usar un promedio mvil en el tiempo,

que consiste en ajustar un plazo, digamos un nmero constante de das (por
ejemplo, una media mvil de 14 das). La ventaja de este criterio, es que el
tamao de la muestra tiende a permanecer ms estable (varan poco), por
lo tanto, se podra reducir el nmero de clculos de los lmites, ya que no
varan mucho de un da a otro. Para realizar este trabajo, la base de datos
debe ser creada para producir el nmero de incidentes de una media mvil
para el anlisis.
No obstante, el ndice de Mantel sigue siendo una herramienta til para
los analistas. Es ampliamente usado para anlisis del espacio-tiempo, y se
ha generalizado a muchos otros tipos de anlisis de disimilitud en espacio y
tiempo.
Si se utiliza con cuidado, el ndice puede ser un poderosa herramienta
para detectar clusters que estn concentrados en el tiempo.
Captulo 3
Anlisis de resultados
Introduccin
En este captulo, se analiza mediante las tcnicas de estadstica espacial
el delito tipificado como Robo a persona, ocurridos en el Estado Mrida, especficamente en los Municipios: Campo Elas (Ejido), Libertador (Mrida)
y Santos Marquina (Tabay), durante el perodo 2007 - 2008: empleando para
ste fin, el software CrimeStat, y el software ArcGis (ArcView), este ltimo
como sistema de informacin geogrfico.
Para desarrollar el anlisis exploratorio de datos espaciales, como primer paso se presenta el mapa del delito, que consiste simplemente en ubicar
los delitos en el mapa de la zona en estudio. Seguidamente se calculan los
estadsticos descriptivos, de tendencia central y de dispersin (estadsticos
centrogrfico). Luego se estudia si existe alguna relacin espacial, Autocorrelacin Espacial; esta caracterstica se analiza mediante los estadsticos de
Moran, el C de Geary, el correlogama de Moran, el k de Ripley, y el ndice
del vecino ms cercano. La seccin 2.4 se dedica al anlisis exploratorio de
clusters (zonas calientes): que consite en la localizacin y anlisis de conglomerados, mediante las tcnicas de K-means, mtodo Jerrquico de vecinos
Anlisis descriptivo
101
ms cercanos y su modificacin para ajuste del riesgo, y la rutina Anlisis

espacial-temporal de Crmenes (STAC por sus siglas en ingls).
Se finaliza el estudio con un anlisis espacio-temporal utilizando los ndices de Knox y Mantel, que permiten detectar la asociacin de incidentes en
tiempo y espacio.
3.1.
Anlisis descriptivo
La figura (3.1) muestra el mapa del delito tipificado como Robo a Persona, en este mapa se puede apreciar que la mayor concentracin de robo a
persona se presenta en el centro de la Ciudad de Mrida, sin embargo, esta
Figura 3.1: Mapeo del delito tipificado: Robo a Personas

situacin no es alarmante, pus es lo que se espera en casi todos las carac-
Anlisis descriptivo
102
tersticas asociadas al fenmeno social, es decir, tienden a concentrase en la

zonas con mayor densidad de poblacin, o mayor actividad econmica.
En la figura (3.2) se presentan los estadsticos descriptivos de tendencia
central, Media Central, la Media Geomtrica, la Media Armnica, la Mediana Central, y el Centro de distancia mnima.
Figura 3.2: Medidas de tendencia central

Se observa que estos estadsticos se ubican en el centro del rea en estudio, especficamente la media central y la media geomtrica coinciden en la
Av. Las Amricas, a cien metros abajo de la entrada los Sausales; al igual
que la mediana central y el centro de distancia mnima coinciden en la Calle
34 con Av. 2 Lora; y a cuatro cuadras se ubica la media armnica, en la Calle
37 al nor-oeste de la Av. 2 Lora, en el Barrio La Vega.
Anlisis descriptivo
103
En la figura (3.3) se muestran los grficos correspondientes a las medidas

de dispersin, como la desviacin de las coordenadas X e Y , la desviacin
de la distancia, y la elipse de desvo estndar, adems se muestra tambin
la cpsula convexa; sta ltima es simplemente un polgono en torno a los
puntos exteriores de la distribucin. til para ver la forma de la distribucin
de los datos en el rea de estudio.
Figura 3.3: Medidas de dispersin

En la misma se observa la cpsula convexa, sobre el rea en estudio, presentando forma alargada del sur-oeste al nor-este, y cubre una zona muy
amplia; igualmente se observa que las elipses de desviacin estndar presentan la misma forma alargada; claramente esta informacin permite inferir
sobre la forma general de la distribucin de este delito.
Anlisis descriptivo
104
Es importante sealar que la elipse con dos desviaciones cubre zonas no

pobladas, como la zona comprendida desde la vuelta de Lola hasta el sector
El Arenal Parroquia Arias del Municipio Libertador, va a Tabay, zona con
muy poca poblacin, adems en sta rea no se registra ningn delito, slo
se registran delitos en Tabay (considerados puntos extremos). Mientras que
la elipse con una desviacin estndar, presenta la misma forma, cubriendo la
zona del centro de la Ciudad de Mrida.
El rectngulo formado por las desviaciones de las coordenadas X e Y ,
presenta mayor dispersin en direccin este-oeste, que en direccin norte-sur.
Estos grficos dan informacin general de la distribucin del delito en la
zona, claramente indica que estos se distribuyen a lo largo de la ciudad en
direccin sur-oeste al nor-este, y con gran concentracin en el centro de la
ciudad; adems, las medidas centrales se ubican ms al sur-oeste del centro
de la ciudad (unas cuadras abajo del viaducto Campo Elas).
Comparacin de los estadsticos de dispersin
Para visualizar la influencia de los eventos ocurridos en el Municipio Santos Mquina, considerados puntos aislados o extremos, se calcul los estadsticos de dispersin, la desviacin de las coordenadas, la desviacin de la
distancia y el elipse de desviacin estndar. En donde se observa que la influencia en los tres estadsticos por estos puntos es muy pequea, como se
visualiza en la figura 3.4. Sin embargo, se observa el sesgo en los tres estadsticos en direccin a la localizacin de los delitos ocurridos en Tabay.
Igualmente, se calcul los estadsticos de dispersin para la data de los
delitos ocurridos slo en el Municipio Libertador, y se compara con la data
en estudio. Bajo esta restriccin se observa claramente que los nuevos estadsticos presentan cambios en tamao, sin embargo en forma y direccin
Anlisis descriptivo
105
Figura 3.4: Comparacin de las medidas de dispersin de la data en estudio, con

la data de delitos ocurridos en el Municipio Libertador y Campo Elas
Figura 3.5: Comparacin de las medidas de dispersin de la data en estudio, con

la data de los delitos ocurridos slo en el Municipio Libertador (Mrida)
Anlisis de autocorrelacin espacial
106
presentan gran similitud. En lo que se refiere a los estadsticos de dispersin

de la distancia, se aprecia la gran diferencia en tamao, observndose tambin una pequea desviacin hacia el este, producto del corrimiento de la
Media central; respecto de la desviacin de las coordenadas, esta presenta la
misma caracterstica de la data en estudio, por supuesto en menor tamao.
En cuanto al elipse de desviacin estndar, este presenta un pequeo cambio
en la direccin, adems de presentar menor tamao el eje mayor, y permaneciendo casi igual el eje menor. Estos son resultados esperados debido a la
localizacin de los delitos no considerados ocurridos en Ejido y Tabay, pues
se encuentran al Sur-oeste y al Nor-oeste del centro de la ciudad, respectivamente.
De esta situacin, se puede decir que la data de los delitos ocurridos en
el Municipio Libertador, tiene prcticamente la misma forma que la data
completa, es decir los delitos ocurridos en los tres Municipios considerados,
Libertador, Campo Elas y Santos Mquina.
3.2.
Para analizar la presencia o ausencia de autocorrelacin espacial (AE) en

la data robos a personas, se usan los ndices de Moran y Geary; estos ndices
dan informacin de AE en forma global, es decir, no indica los grupos, lugares
o regiones donde est presente la AE, slo indica la existencia o no de AE en
la data; sin embargo, el software CrimeStat incluye la rutina conocida como
correlograma de Moran, que permite obtener una idea de la AE de acuerdo
con la distancia, y considera un test de significacin local o ndice regional.
3.2.1.
107
Anlisis del estadstico de Moran
La ejecucin de la rutina ndice de Moran gener el resumen estadstico

presentado en la Figura 3.6; en la misma se observa el valor esperado del
ndice de Moran igual a 0,003831, y el valor del ndice es igual a 0,642649;
este resultado indica la existencia de autocorrelacin espacial positiva de los
datos. Adems, bajo supuesto de normalidad y aleatorizacin, los test de significacin reportados por la rutina, confirma la existencia de autocorrelacin
espacial, con un nivel de significacin del 0,01 % (p = 0,0001) para una y dos
colas.
Figura 3.6: Resumen estadstico del test de Moran
3.2.2.
Anlisis del estadistico C de Geary
La siguiente Figura 3.7 corresponde al resumen estadstico de la rutina del

C de Geary. El mismo reporta el valor terico esperado de C (bajo aleatorizacin espacial completa) igual a 1, y C de Geary con un valor igual a 0.757962,
indicando la existencia de autocorrelacin espacial positiva en la data. Este
resultado confirma la informacin aportada por el ndice de Moran. Adems,
108
el test de significacin, bajo supuesto de normalidad es significativo al 0, 1 %

y 0, 01 % (p = 0,001, p = 0,0001) para una y dos cola respectivamente,
afirma la existencia de autocorrelacin espacial en los datos.
Figura 3.7: Resumen estadstico C de Geary
Ajuste de los ndices de Moran y Geary

Las distancias muy cortas pueden distorsionar el valor de los ndices tanto
el de Moran, como el de Geary, para evitar estos posibles efectos la rutina
usa una ponderacin wij =
una milla
una milla+d(xi ,xj )
El resumen estadstico de las rutinas del ndice de Moran y el C de Geary,

que se muestra en las figuras 3.8, report un valor del ndice de Moran (con
ajuste) igual a 0.173389, este valor indica existencia de autocorrelacin espacial en los datos. Adems, los test de significacin, bajo supuesto de normalidad y aleatorizacin, son significativos al nivel de 0,01 % (p = 0,0001) para
dos colas, confirmando la existencia de autocorrelacin espacial de los datos.
En el caso del C de Geary, el valor terico esperado es igual a 1, y el ndice C
de Geary es igual a 0.960582, aunque el ndice esta prximo a 1, indica la existencia de autocorrelacin espacial positiva. Mas an, el test de significacin,
109
Figura 3.8: Resumen estadstico Moran ajustado y Geary ajustado

bajo supuesto de normalidad es significativos al 10 % (p = 0,1) para una cola.
De estas dos pruebas, se puede afirmar que la autocorrelacin espacial
indicada por los ndices de Moran y Geary no se debe a puntos muy cercanos
o muy distantes que hallan distorsionado los ndices; es decir, la autocorrrelacin es estadsticamente significativa.
3.2.3.
Correlograma de Moran
En la tabla 3.9 se muestra el resumen estadstico del correlograma de

Moran con 20 intervalos, calculados con una simulacin de Montecarlo igual
a 1000. Donde se aprecia que el ndice cae de 0.923968, calculado para un
intervalo de distancia igual a 1377.302858 m (1,377 Kl.), hasta un valor igual
a 0.642786 para todo el rea en estudio. Se muestra tambin los intervalos de
confianza del ndice en cada uno de los 20 intervalos de distancia. En donde
se observa que el ndice es mayor que el valor mximo de la simulacin en
cada uno de los 20 intervalos de distancia, indicando que la autocorrelacin
espacial es positiva y altamente significativa. Esta descripcin se observa
claramente en el grfico 3.10.
110
Figura 3.9: Correlograma de moran con 20 intervalos y una simulacin igual a

1000
Figura 3.10: Correlograma de Moran
111
Este resultado permite afirmar la existencia de autocorrelacin espacial

positiva en la data. Adems para distancias mayores a 1377.30 m, el ndice decrece a partir de 0.923968, hasta alcanzar el valor global del ndice 0.642786;
indicando la existencia de mayor autocorrelacin positiva en concentraciones
ms pequeas y posiblemente aisladas (pequeos grupos ms densos, menor
rea y distancia).
Igualmente, como todos los indicadores estadsticos globales de autocorrelacin espacial, el correlograma de Moran no indica los clusters, slo indica
la existencia de ellos.
Correlograma ajustado
En la siguiente tabla 3.11, se muestra el resumen estadstico del correlograma de Moran ajustado para distancias cortas. En este caso se observa que
Figura 3.11: Correlograma ajustado de moran con 20 intervalos y una simulacin

igual a 1000
112
para el primer intervalo con distancia igual a 1377.30 m el valor del ndice
es igual a -1.678522, este valor est fuera del rango, debido posiblemente a
puntos extremos en la frontera que generan este resultado; sin embargo, para distancias mayores a 2754.60 m, el ndice indica autocorrelacin positiva,
comenzando en 0.3303, para 2754.60 m, y luego cae hasta estabilizase en
0.173370, para todo el rea de estudio; adems en cada intervalo de distancia
el valor emprico del ndice es mayor que el valor mximo de la simulacin.
Indicando lo muy poco probable que el ndice obtenido en cada intervalo a
partir de primero, sea debido al azar o a valores extremos, es decir, la autocorrelacin espacial positiva es significativa en cada intervalo de distancia, y
no se debe a puntos muy cercanos que hallan distorsionado el ndice.
Esta descripcin se puede visualizar claramente en la figura 3.12, que se
presenta a continuacin.
Figura 3.12: Correlograma de Moran ajustado

con 20 intervalos y una simulacin igual a 1000
3.2.4.
113
ndice del vecino ms cercano
El ndice del vecino ms cercano es un cociente o rata entre el promedio de

la distancia mnima de los datos y la distancia esperada bajo aleatorizacin
espacial completa. La rutina del vecino ms cercano en CrimeStat calcula,
adems, del ndice del vecino ms cercano, el k-simo vecino ms cercano,
que es un estadstico o ndice de segundo orden.
En la tabla 3.13 se muestra el resumen estadstico correspondiente al
ndice del vecino ms cercano. Donde se observa que el valor del ndice del
Figura 3.13: ndice del vecino ms cercano
114
vecino ms cercano es igual a 0,39390, calculado en el rectngulo de rea

mxima; en ste caso el ndice indica la existencia de cluster, adems el test
de significacin normal Z es igual a -18,7683, con un p-value igual a 0.0001
para una y dos colas, indicando que el valor del ndice es estadsticamente
diferente del valor terico esperado al nivel de 0, 01 % de significacin.
Por otra parte, el valor del ndice del vecino ms cercano calculado en
un rea igual a 65000000 m2 , arroj un valor igual a 0.8728, en este caso,
el ndice tambin indica existencia de cluster, aunque en menor intensidad;
adems, el test de significacin normal Z es igual a -3.9379, con un p-value
igual a 0.0001 para una y dos colas, indicando diferencia estadsticamente
significativa al nivel de 0, 01 %.
Estos resultados confirman las observaciones obtenidas con los ndice de
Moran y el C de Geary, es decir, se revlida la existencia de cluster espacial.
3.2.5.
Anlisis del K-simo vecino ms cercano
Una ampliacin del anlisis del vecino ms cercano que puede generar
mayor informacin de las caractersticas de la distribucin de una data espacial, es el ndice conocido como el k-simo vecino ms cercano, que consiste
en usar las distancias del segundo, tercero, ..., el k-simo vecino ms cercano. sta tcnica, generalmente, se realiza cuando se ha concluido que la
distribucin no es aleatoria, y presenta algn patrn de cluster.
La Figura 3.14, corresponde al grfico del k-simo vecino ms cercano, en
el mismo se visualiza cluster para los primeros 28-simo vecinos ms cercanos; del primer ndice con valor igual a 0.872831, hasta el cuarto se observa
crecimiento del ndice, alcanzando un mximo con un valor igual 0.979421,
inmediatamente cae alcanzando un mnino valor del ndice igual a 0.891, en
el 18-simo vecino ms cercano, luego sigue un rpido incremento del ndice
superando el valor esperado, sta situacin indica la no existencia cluster a
115
Figura 3.14: ndice del k-simo

vecino ms cercano
partir del 30-simo vecino ms cercano (ver tabla en figura A.1).

sta informacin expresa que la mayor concentracin de cluster respecto
a su valor esperado se presenta en el primero y en el 18-simo vecino ms
cercano. Adems, de indicar cierta semejanza en el comportamiento de concentracin de los clusters sealados por el k-simo ndice, entre el 11 y el
21-simo vecino.
De acuerdo con esta observacin, se concluye que los clusters se presenta
slo en las distancias cortas (k-simo ndice), menor a 1055 m; igualmente la
existencia de posibles vnculos entre los clusters de menor tamao.
3.2.6.
Estadstico de Ripley
Para aplicar y analizar el estadstico L de Ripley a la data espacial en estudio, se ejecut una simulacin con 250 iteraciones, los resultados se muestran
en la Figura 3.15, donde se ve claramente la presencia de cluster espacial (autocorrelacin o patrn no aleatorio) altamente significativo, alcanzando un
116
valor mximo igual a 889.86 para una distancia prxima a 1209.3m (1.2Km);
luego el ndice decrece a partir de 1209.3m, hasta alcanzar un valor del ndice
igual 245.3, calculado en una distancia de 2687.4m. El comportamiento que
presenta el estadstico L, tambin lo presentan los ndices calculados a partir
de la simulacin, comportamiento sesgado debido a la falla de borde.
Figura 3.15: Ripley sin correccin y corregido

Para contrarrestar el efecto de borde (eliminar el sesgo), se calcula el
estadstico con correccin de borde figura 3.3.1. En este caso se emplea la
correccin de borde rectangular, por la forma geogrfica del espacio de trabajo. El resultado es semejante, sin embargo, se muestra que el ndice se
mantiene para distancias ms grandes (de 1200 a 2600mts), con tendencia
moderada a bajar; el ndice calculado a partir de la simulacin presenta el
mismo comportamiento de la data, sin embargo, el estadstico se encuentra
muy distante del ndice calculado a partir de la simulacin. Lo que indica
la existencia de cluster altamente significativo, en distancias cortas 1200m
(concentracin de robos, en distancias cortas 300m a 2500m).
Anlisis de cluster o zonas calientes
3.2.7.
Conclusin
obtenida
117
con
los
indicadores de
autocorrelacin espacial
De acuerdo con los ndices Moran, Gerary y el ndice del vecino ms cercano existe autocorrelacin global significativa, es decir, la existencia de un
patrn no aleatorio en la data. Al aplicar el estadstico del k-simo vecino
ms cercano, se observa la existencia de cluster significativa en los 28 primeros vecinos ms cercanos, sin embargo, se presenta un fenmeno en el 4,
5, 6-simo vecinos, indicando debilidad estos clusters respecto de los dems,
con valores 0.97942, 0.953, 0.97226, respectivamente. El estadstico de ripley,
confirma el resultado obtenido con el estadstico del k-simo vecino mas cercano, es decir, la existencia de cluster local.
En la siguiente seccin se explora la data espacial en estudio, mediante
las tcnicas para el anlisis de zonas calientes.
3.3.
Con la certeza de que existen clusters en la data, confirmada con los

ndices estudiados, el siguiente paso es encontrar cuntos cluster existen y
dnde se localizan.
La bsqueda exploratoria de las zonas calientes o concentraciones no aleatorias, se comienza con la tcnica K- medias. Siguiendo la exploracin con la
tcnica STAC, mdulo de anlisis Espacial-Temporal, la tcnica del vecino
ms cercano y su modificacin para el riesgo.
3.3.1.
Anlisis de cluster mediante la tcnica k-medias
Esta tcnica se aplic mediante procedimiento emprico bajo ensayo y

error. Basado en los sectores donde posiblemente existen zonas calientes, se
seleccion un nmero k igual a 12 cluster, y variando la distancia de separa-
118
cin entre clusters, resultaron las siguientes agrupaciones:

Con un k igual a 12, y una distancia de separacin igual a 1; el resultado
fue 12 grupos (ver figura 3.16), distribuidos como se describe a continuacin:
Tres grupos en Ejido, de los cuales uno es muy grande, localizado el sector
conocido como Aguas Calientes; un cluster que cubre la zona de la Parroquia,
Los Curos y parte baja de La Pedregosa; otro cluster que se ubica en la zona
de los sectores Pie del Llano y las Av. Urdaneta y 16 de Septiembre; y en
el Centro de la ciudad se ubican cuatro grupos, de los cuales dos estn por
debajo del Viaducto Campo Elas, y los otros por arriba; se presenta un
cluster muy grande en la parte alta (zona norte) de la Ciudad que abarca
los Barrios Santa Anita, la Milagrosa, Hoyada de milla, y Vuelta de Lola,
este cluster es muy grande; y se observa tambin dos clusters pequeos, uno
ubicado en la Av. Los Prceres altura C.C Alto Prado, y el otro en la Av.
Las Amricas, a la altura C.C. Canta Claro (Ver figura 3.16).
Figura 3.16: K-medias: 12 clusters con una distancia de separacin igual a 1

En este intento, se observan algunos clusters muy grandes, y en consecuencias cubren zonas muy amplias que dificultan la ubicacin real de las
zonas calientes; estos son poco tiles para el estudio y aplicacin de polticas
preventivas; como los clusters en el sector de agua caliente y el ubicado en
119
la zona norte; tal vez son cluster de segundo orden. Sin embargo, los clusters
en el centro de la ciudad, son ms claros y posibles clusters reales.
Una segunda prueba con un k igual a 8 grupos , y distancia de separacin
igual a 10, la rutina calcul cuatro grupos (ver figura 3.17), distribuidos de
la siguiente forma: uno en Ejido, el segundo centrado en sector los Curos y
La Parroquia; el tercero centrado en el Pie del Llano, cubriendo parte de las
Av. 16 de septiembre, Urdaneta, Andrs Bello, y Av. Las Amricas; el cuarto
grupo se encuentra ubicado en el centro de la ciudad (figura 3.17), estos
grupos corresponden a clusters de segundo orden, y posiblemente dentro
de estos grupos se encuentran los clusters ms pequeos y reales, adems
estos cuatros clusters cubren sectores con caractersticas indicadoras de zonas
calientes.
Figura 3.17: K-medias: k=8 cluster con una distancia de separacin igual a 10
Una tercera prueba con un k igual a 8 grupos, y una distancia de separacin igual a 4, la rutina calcul 8 grupos, distribuidos de la siguiente forma:
120
Uno en Ejido, un segundo grupo ubicado sobre la parroquia y los Curos,

un tercer grupo centrado en La Pedregosa parte baja, final Av. Los Prceres,
un cuarto grupo con menor dimensin ubicado en la Urb. El Chama, un
quinto grupo ubicado sobre las Av. Urdaneta y 16 de septiembre, cubriendo
el Barrio Campo de Oro, y dos clusters en el centro de la Cuidad, uno por
debajo de la calle 25 (el Viaducto) y el otro por arriba, altura entrada Barrio
Simn Bolvar, Av.2 con la calle 19; y el cluster con mayor dimensin, ubicado
en la zona Hoyada de Milla, Andrs Eloy, vuelta de Lola, santa Ana y Santa
Anita, adems cubre la va a Tabay, (figura 3.18) este ltimo no muy confiable
debido a que cubre zonas de muy poca densidad poblacional, tal vez incluye
puntos aislados que causan el tamao exagerado.
Figura 3.18: K-medias: k=8 cluster con una distancia de separacin igual a 4
En una cuarta ejecucin de la rutina K-media, con 7 cluster y una distancia de separacin igual a 4, se observ la distribucin semejante a la anterior,
con la diferencia que los dos clusters ubicados en el centro de la ciudad, se
unen para forman un solo cluster.
121
Respecto a los cuadrados de los errores, la ejecucin con menor error es

la que gener 12 clusters, con un error 24656,87; mientras que las otras dos
ejecuciones, con cuatro grupos result con un error igual a 53797,37; y con
ocho grupos result con un error de 27870,30; esta informacin refleja que los
12 grupos estn ms concentrados que los 8 (ver tablas en figuras A.2, A.4,
A.3 en anexo).
3.3.2.
Anlisis de clusters mediante STAC
La aplicacin de esta tcnica se desarroll mediante ensayo y error; de

esta forma se inici la bsqueda de los clusters, con un radio de bsqueda
igual a 600 m, en un rea igual a 65000000 m2 , y un mnimo de 4 puntos por
Figura 3.19: STAC: cluster con distancia 600 m y 4 puntos

cluster; los resultados obtenidos con estos criterios, fue de cuatro clusters (ver
122
figura 3.19), distribuidos en los siguiente sectores: uno en Ejido; otro en La

Parroquia; en la Av. Los Prceres, entre el Parque Jardines La Inmaculada
(Cementerio) y la entrada de La Pedregosa; el otro grupo se localiza en el
centro de Mrida, este ltimo muy grande. Se ejecut una simulacin igual a
1000 (bajo estos criterios de agrupacin), resultando que los cuatro clusters
son estadsticamente significativos al 5 %; para el percentil 2,5 % se generan
6, y para el percentil 97,5 se generan 14, (ver tabla 3.20). Es decir, es poco
probable que los cuatro clusters se deban al azar.
Figura 3.20: Cluster generados por la tcnica STAC con un radio de bsqueda
igual a 600 m y una simulacin igual a 1000
Despus de varios ensayos, los resultados ms confiables de acuerdo con

esta tcnica se obtuvieron con un mnimo de 5 puntos y una combinacin de
distancias igual a 250m, 150m y a 100m.
La ejecucin de la rutina con 5 puntos mnimos y 250 m de radio de bs-
123
queda, result con 5 clusters, distribuidos uno en Ejido, otro en La Parroquia,

en el centro de Mrida, y un cluster ubicado al inicio de la Av. Universidad,
Barrio Andrs Eloy, y un cluster que aparece en la Av. Prceres, frente al
C.C. Alto Prado (Ver figura 3.21). La simulacin igual a 1000, gener que
al 5 % la agrupacin no es estadsticamente significativa; para el percentil
2,5 % se generan 1 y para percentil 97,5 % result 5 clusters.
Figura 3.21: STAC cluster con distancia 250 m y 5 puntos

La ejecucin de la rutina con 5 puntos mnimos y 150 m de radio de bsqueda, result con 4 clusters (Ver figura 3.22), tres ubicados en el centro de
Mrida: uno entre las calles 19 y 21, entre las Av. 1 y 4, entrada al Barrio
Simn Bolvar; otro entre Avenidas 2 y 4, entre las Calles 32 y 34; y entre las
calles 28 y 24, entre las Av. 3 y 7; y el otro en la Av. Prceres, frente al C.C.
Alto Prados, entrada El Campito. La simulacin igual a 1000, gener que
124
al 5 % la agrupacin es estadsticamente significativa (ver anexo A.8); para

el percentil 2,5 % y para el percentil 97,5 %, se gener uno y dos clusters
respectivamente.
Esta informacin indica que los cuatro clusters obtenidos son producidos
por algn patrn no aleatorio.
Igualmente se ejecut la rutina con 5 puntos mnimos y un radio de bsqueda igual a 100 m, y resultaron seis clusters (Ver figura 3.22), de los cuales
Figura 3.22: Tcnica STAC con 150m y 100m

un cluster aparece en la Av. Las Amricas, altura C.C. Canta Claro (Ver
figura 3.22), y los otros cinco se distribuyen en el centro de Mrida: uno en
la Av. 4 entre las Calles 33 y 35; entre las Av. 2 y 4 en la Calle 30; entre las
Calles 24 y 27 con Av. 2; en la Calle 22 entre las Avenidas 6 y 8; entre las
Calles 19 y 21 con Av. 2, entrada al Barrio Simn Bolvar.
Se ejecut la simulacin igual a 1000, y gener que al 5 % los seis clusters
son estadsticamente significativos (ver anexo, tabla A.9); para los percentiles
2,5 % y 97,5 % un nico cluster. Esta situacin indica que los seis clusters
125
obtenidos bajo estos criterios son producidos por un patrn no aleatorio.

En la figura 3.22, puede observarse que los tres grupos en el centro de la
ciudad obtenidos con una distancia de 100 m, aparece como un slo grupo
obtenido con una distancia de 150 m; sin embargo, los resultados de estas
ejecuciones son diferentes, pues hay dos grupos no comunes en estas dos
agrupaciones; uno en la Av. los prceres y el otro en la Av. Las Amricas.
3.3.3.
Anlisis exploratorio de cluster, con la tcnica de

Cluster jerrquico del vecino ms cercano
En CrimeStat, la rutina del cluster jerrquica del vecino ms cercano,

Nnh por sus siglas en ingls, identifica los grupos de incidentes que se encuentran espacialmente cerca, de acuerdo a dos criterios. El criterio de una
distancia umbral, empleado como el primer criterio, y un nmero mnimo de
puntos a incluir en cada cluster como segundo criterio.
De acuerdo con estos criterios, la rutina forma los clusters que se encuentran en el primer nivel de agrupacin, llamados clusters de primer orden.
Luego de esta agrupacin, la rutina ejecuta una segunda agrupacin, generando una jerarqua en la agrupacin. Los grupos de primer orden son agrupados en clusters de segundo orden; este proceso de agrupamiento se repite
hasta que todos los puntos son agrupados en un slo grupo o probablemente
el criterio de agrupacin falla.
Anlisis exploratorio de cluster
Con la tcnica del Cluster jerrquico del vecino ms cercano (Nnh), se
desarrolla la bsqueda exploratoria de los clusters, mediante la combinacin
de los criterios de la distancia umbral y el nmero de puntos, en un rea de
65000000 m2 . En un primer intento de agrupacin se utiliza como distancia
126
umbral, la distancia esperada (aleatoria), y un mnimo de cinco puntos como

el segundo criterio para formar clusters. Despus de varias ejecuciones de la
rutina, se observ que la mejor agrupacin se obtiene con un p = 0, 05. Con
estos criterios de agrupacin se generaron 10 clusters; y la simulacin igual
1000 (ejecutada bajo estos criterios) indica que el nmero de clusters obtenido con esta tcnica es altamente significativo (ver anexo, tabla A.6); en
efecto, 2 clusters como mximo y uno como mnimo. En otras palabras, los
diez grupos obtenidos bajo estos criterios son estadsticamente significativos;
no se deben al factor casualidad, son producto de algn patrn no aleatorio.
La distribucin de los diez cluster se visualiza en la figura 3.23, y se
Figura 3.23: Cluster generados por la tcnica del vecino ms cercano con distancia
esperada
describe seguidamente: Ocho de los diez, se sitan en el centro de la ciudad

de Mrida, de los cuales 6 se ubican lo largo de las Av. 2 y 3, hasta el viaducto
de la 26 (Viaducto Campo Elas), observndose un giro en direccin al Parque
las Heronas, donde se ubican dos clusters. Y en la parte alta del centro de la
ciudad se observan dos clusters, especficamente en la Av. 1 en direccin con
calle 19, entrada Barrio Simn Bolvar se ubica un cluster, y el segundo se
127
ubica entre las Av. 7 y 8 con calle 17 y 18, alrededores de la Plaza Beln. Los
otros dos clusters se ubican uno por la Av. Los Prceres, al frente del centro
comercial Alto Prado, y el otro en Ejido, a lo largo de la calle Ayacucho,
entre las Av. Fernndez Pea y la Av. Bolvar.
Respecto a los Clusters de segundo orden, se forma un slo cluster que se
ubica en el centro de la ciudad de Mrida, centrado en la calle 30 con Av. 3,
como se muestra en la Figura 3.24; cubriendo a la zona comprendida entre
Figura 3.24: Cluster de segundo orden generado

por la tcnica del vecino ms cercano
las calles 22 y 37, y parte de la Av. Las Amricas entre los Viaductos Campo
Elas y Miranda. El rea o zona que cubre el cluster de segundo orden, es un
poco exagerado, debido a que la zona es dividida por el ro y su cause, sin
embargo, el cluster cubre toda la zona y se presenta como uno slo.
Con distancia umbral fija
Despus de hacer varias pruebas, se elige una distancia igual a 400 m,
con un p = 0, 05, y un mnimo de cinco puntos, en un rea de 65000000 m2 ,
128
considerando que sta seleccin gener los mejores resultados en las pruebas.
Con estos criterios y una simulacin igual a 1000, se ejecut la rutina,
resultando 11 grupos; y la simulacin gener para un nivel de confianza del
5 % (dos colas), un mnimo de un grupo y un mximo de 8 ocho grupos (uno
y ocho grupos, para los percentiles 2, 5 % y 97, 5 % respectivamente, ver en
anexo figura A.6); este resultado indica que once clusters obtenidos son esta-
Figura 3.25: Cluster generados por la tcnica del vecino ms cercano fija
dsticamente significativos; adems, es importante resaltar, que hay grupos
que se observan en lugares que se conocen por experiencia como zonas rojas
o zonas crticas, como los clusters ubicado en la Av. 16 de septiembre; el
cluster ubicado en la entrada del Barrio Simn Bolvar, entre calles 17 y 21;
y en la plaza Beln. Los dems se distribuyen como siguen, uno en la Av.
Las Amricas, alrededor del C.C. Canta Claro, salida Cruz Verde; y el otro
en la Av. Los Prceres, frente del CC Alto Prado; y tres clusters ubicado en
el centro de Mrida, entre la calle 26 y 36, a lo largo de las Av. 2 y 3. En
la parte alta, salida del centro se presenta otro cluster, especficamente en la
Av. Universidad, entrada Barrio Andrs Eloy, que se extiende hasta la parte
baja de la Hoyada de Milla, como se observa en la figura 3.25. Adems en
129
Ejido resultaron dos cluster, uno muy grande que cubre parte del centro, el
sector conocido como El Palmo, y parte de Aguas Calientes, y el segundo en
la Av. Bolvar, entre las calles Rangel y Jauregui. Y cluster que aparece en
el sector La Parroquia, como se observa en la figura 3.25.
Figura 3.26: Cluster de segundo orden generado

por la tcnica del Nnh con distancia fija
El cluster de segundo orden que se gener con estos criterios, se ubica

en el centro de la ciudad Mrida, centrado en la calle 22 con Av. 4, como se
muestra en la Figura 3.26; cubriendo prcticamente todo el casco central de
la ciudad, especficamente la zona comprendida entre las calles 12 y 32.
3.3.4.
Anlisis exploratorio con la tcnica del Cluster

jerrquico del vecino ms cercano con Ajuste del
riesgo
Combinando los distintos criterios y ejecutando varias pruebas con esta

tcnica; se seleccionaron los criterios considerados como los que mejor resul-
130
tados generaron: Un mnimo de tres puntos por cluster, con un p igual a

5 %, y una distancia fija de 400 m, con un ancho de banda fijo igual a 1000
m, utilizando las variables intensidad y ponderacin para la ejecucin de la
rutina.
De esta forma la rutina encontr cinco clusters de primer orden y uno de
segundo orden; adems con una simulacin igual a 1000, result un cluster
como mximo; esta informacin indica que los cuatro cluster obtenidos bajo
Figura 3.27: Clusters generados por la tcnica NnhJ con distancia fija de 400 m
estos criterios son estadsticamente significativos (ver tabla en figura 3.27),
es decir, son producidos por un patrn no aleatorio.
La distribucin de estos clusters se muestra en la figura 3.28, y se describe
a continuacin: cuatro de ellos se distribuyen en el casco central, entre las
calles 19 y 31; uno entre las Av. 4 y 6, y calles 25 y 27; entre las calles 19 y
131
21 con Av. 2 Lora, se localizan dos clusters muy cercanos (uno del otro), uno
entre las calles 21 y 22, entrada Barrio Simn Bolvar, y el otro se encuentra
Figura 3.28: Cluster de primer y segundo orden,

generado por la tcnica del NnhJ con distancia fija
entre las calles 19 y 21, entrada Pueblo Nuevo-Simn Bolvar; y cuatro en el

casco central con densidad muy baja entre las esquinas Av. 4 con calle 28 y
la esquina Av. 5 con calle 30, este cluster es poco claro, debido a su forma
alargada. Y un cluster que se ubica en la Av. Los prceres, frente al C.C.
Alto Prado.
El cluster de segundo orden generado con estos criterios cubre casi todo
el casco central, la calle 26 (viaducto Campo Elas) y la zona donde se ubican
los Barrios Simon Bolvar, Pueblo Nuevo, San Jos de la Flores, residencias
las Maras, y parte del Campito. Es un cluster amplio.
Anlisis espacio temporal
3.4.
132
En esta seccin se evala la interaccin entre el espacio y el tiempo de

la data correspondiente al delito Robo a Personas, mediante los ndices de
Knox y Mantel. Se ejecuta las rutinas de Knox y Mantel con una simulacin
igual a 1000, y se evala en diferentes intervalos de tiempo y distancia; en la
bsqueda de algn posible patrn de interaccin espacio-temporal.
3.4.1.
ndice de Knox
Se ejecuta la rutina de Knox con intervalos de distancia igual a 500 metros y 7 das para el tiempo, con una simulacin igual a mil, donde resulta
un ndice de Knox igual a 0,05545 no significativo en ningn nivel, como
se observa en la figura 3.29. Nuevamente se ejecuta la rutina de Knox con
Figura 3.29: Knox: Ejecucin 7 das con 500 y 1000 metros

intervalos de distancia igual a 1000 metros y 7 das, y se obtiene resultados
semejantes, un ndice de Knox igual a 0,50262 (ver figura 3.29).
133
Este resultado indica, que al 5 % no existe interaccin espacio-temporal

estadsticamente significativa, en una distancia de 1000 metros y un perodo
de tiempo de 7 das.
La rutina se vuelve a ejecutar, ahora con intervalos de distancia igual a
1000 metros, un periodo de tiempo igual 15 das, y una simulacin igual a
1000. En este caso, el ndice de Knox resulta igual a 0,65371, semejante al
Figura 3.30: Knox: Ejecucin con 15 das con 1000 y 2000 metros
caso anterior, al 5 % es estadsticamente no significativo, como se muestra en
la figura 3.30. Nuevamente se repite la prueba, ahora con distancia igual a
2000 metros, con un intervalo de tiempo igual 15 das, y la simulacin igual a
1000. Los resultados son semejantes a los casos anteriores, el ndice de Knox
igual a 0.83567, es estadsticamente no significativo al 5 %.
Se ejecut la rutina de Knox con intervalos de distancia y perodo tiempo igual a la mediana y a la media (ver figura 3.31), y en ambos casos los
resultados fueron estadsticamente no significativos.
134
Figura 3.31: Knox: Ejecucin Mediana y Media
De acuerdo con la informacin obtenida por el ndice de Knox en las

diferentes ejecuciones, se concluye que no existe interaccin espacio tiempo
en la data Robo a Persona.
3.4.2.
ndice de Mantel
Para verificar la informacin aportada por el ndice de Knox, se procede

a calcular el ndice de Mantel. sta es una prueba general para medir la
correlacin entre dos matrices de disimilitud, y se basa en el producto cruz
de las dos variables: distancia y tiempo.
Se ejecuta la rutina ndice de Mantel, con el tiempo expresado en das y
la distancia en metros, y una simulacin igual a 1000; resultando el ndice
de Mantel con un valor igual a 0.00829 (ver figura 3.32), contenido en un
intervalo del 95 % de confianza obtenido por simulacin con lmites igual a
-0.02589, 0.02667; de aqu se afirma con un 95 % de confianza, que no existe
interaccin espacio tiempo.
135
Figura 3.32: Salida de la rutina ndice de Mantel

Esta informacin confirma el resultado obtenido con el ndice de Knox.
De acuerdo con los resultados obtenidos por los ndices Knox y Mantel,
concluimos que al 5 % no existe interaccin estadsticamente significativa,
entre espacio y tiempo.
Conclusiones
3.5.
136
Conclusiones
El uso de las tcnicas de estadstica espacial conjuntamente con el software ArcGIS (sistema de informacin geogrfica) permiti con gran facilidad
la exploracin y bsqueda de clusters estadsticamente significativos, en la
data Robo a Personas referenciada, y ocurridos en el Estado Mrida, especficamente en las Municipios Campo Elas, Libertador y Santos Marquina,
durante el periodo 2007 - 2008. De esta forma se concluye:
En el mapa del delito Robo a Personas, se observa mayor concentracin
en el centro de la ciudad de Mrida; situacin que no debe causar
alarma, pues es lo que se espera en casi todas la variables que miden o
indican una caracterstica o fenmeno social.
Los estadsticos descriptivos de tendencia central, se ubican cerca del
centro de la ciudad de Mrida; en direccin a la lnea Nor-este al Suroeste, especficamente en la Av. 2 Lora entre las calles 34 y 38, se
encuentra la mediana central, el centro de distancia mnima, y la media
armnica; y en la Av. Las Amricas, al rededor del C.C. El Rodeo, se
ubica la media central y la media geomtrica.
Los estadsticos de dispersin indican que la distribucin de la data es
alargada en direccin Nor-este al Sur-oeste.
Los ndices de Moran, Geary, el vecino ms cercano, y Ripley, indican la

existencia de autocorrelacin espacial positiva altamente significativa.
El estadstico L de Ripley indica la existencia de cluster altamente
significativo, en distancias entre 700 m a 1600 m. El correlograma de
Moran y la tcnica del k-simo vecino ms cercano, indican que para
distancias cortas al rededor de 466 m (posiblemente menor), y entre
877 y 1310 m, la autocorrelacin positiva es muy alta. Igualmente la
Conclusiones
137
existencia de posibles vnculos entre los cluster de menor tamao.
Las tcnicas de clusters generaron resultados semejantes: Un cluster

considerado de segundo orden, con cuatro grupos, distribuidos en Ejido, en La Parroquia, en el sector Av. Los Prceres (entrada Pedregosa),
y en el Centro de Mrida. Y los clusters considerados de primer orden,
estadsticamente significativo, con la siguiente distribucin: tres ubicados en el centro de Mrida: uno entre las calles 19 y 21, y entre las Av.
1 y 4, entrada del Barrio Simn Bolvar y Pueblo Nuevo; otro entre las
calles 21 y 23, entre las Av. 3 y 7, cerca de la Plaza el Espejo; entre
las Avenidas 2 y 4, y las Calles 32 y 34. Y dos clusters, uno en la Av.
Prceres, frente al C.C. Alto Prados, entrada El Campito; y el otro en
la Av. Las Amricas (C.C. Canta Claro). Uno en Ejido, ubicado sobre
las Av. Bolvar y Fernndez Pea, entre las calles Rangel y Jauregui,
adems cubre la vereda uno y la calle el Ceibal. Y uno en La Parroquia,
que cubre la entrada a Los Curos, Parque la Aviacin, y parte baja de
la Parroquia.
Los sectores identificados como zonas de mayor riesgo se ubican en en el

centro de la ciudad de Mrida, distribuidos en cinco grupos pequeos,
dos clusters muy cercanos (uno del otro), se localizan entre las calles 19
y 22 y las Avenidas 2 y 3, incluyendo final de la Av. 1 (entrada Barrio
Simn Bolvar); otro entre las Av. 4 y 6, y calles 25 y 27(parte baja del
viaducto Campo Elas); y el otro entre las esquinas de la Av. 4 con calle
28 y la Av. 5 con calle 30, este cluster de forma alargada. Y el cluster
que se ubica en la Av. Los prceres, frente al C.C. Alto Prado.
El cluster de segundo orden identificado como zona de mayor riesgo
cubre casi todo el casco central, desde la calle 17 hasta la 32, todo el
viaducto Campo Elas, y la zona donde se ubican los Barrios Simon
Conclusiones
138
Bolvar, Pueblo Nuevo, San Jos de la Flores, residencias Las Maras,

y el Campito, Cruz Verde y Santo Domingo.
Se concluye que la data Robo a Personas no presenta interaccin significativa entre espacio y tiempo.
Recomendaciones
3.6.
139
Recomendaciones
Basndose en la informacin obtenida, se recomienda a los entes encargados de aplicar las polticas de prevencin del delito y a los cuerpos policiales
prestar mayor atencin y vigilancia en los sectores que resultaron identificados como zonas Calientes. Y particularmente en los sectores que resultaron
con alto riesgo, como en los alrededores de la Av. 2, en la entrada a los Barrios Pueblo Nuevo y Simn Bolivar; en la Av. Los prceres, frente al C.C.
Alto Prado; y entre las Av. 4 y 6, y calles 25 y 27.
Con este trabajo se muestra la utilidad y gran ayuda que puede prestar la implementacin de las tcnicas de estadstica espacial en el campo de
la criminologa, tanto a los entes encargados de mantener el orden, como a
los analistas del crimen, adems que permite fcilmente la manipulacin de
gran volumen de informacin. En tal sentido, se recomienda la implementacin de la estadstica espacial, conjuntamente con un sistema de informacin
geogrfica (GIS), en el anlisis del crimen.
A
Anexo
A.1.
Tablas de resultados estadsticos
Figura A.1: Tabla correspondiente a la rutina del K-simo vecino ms cercado
141
Figura A.2: Suma de los cuadrados medios y cuadrados del error (SCM y SCE):
Cluster con k igual a 12 y p igual a 1
Figura A.3: Suma de los cuadrados medios y cuadrados del error (SCM y SCE)
142
Figura A.4: Suma de los cuadrados medios y cuadrados del error (SCM y SCE)
Figura A.5: Clusters generados por la tcnica Nnh con distancia esperada y una
simulacin igual a 1000
143
Figura A.6: Clusters generados por la tcnica Nnh con distancia esperada y una
simulacin igual a 1000 fija
144
Figura A.7: Clusters generados por la tcnica STAC con un radio de bsqueda
145
146
Bibliografa
[1] Cressie C. Noel A. 1993. Statistics for Spatial Data. Wiley J. & Sons,
Inc. New York.
[2] Levine Ned & Asociates. 2009. A Spatial Statistcs Program for the
Analysis of Crime Incident Locations. The National Institute of Justice.
Washinton, Dc.
http://www.icpsr.umich.edu/icpsrweb/CRIMESTAT/download.jsp
[3] Moreno Serrano R.; Vay Valcarce E. 2000. Tcnicas economtricas para el tratamiento de datos espaciales: La economa espacial. Universitat
de Barcelona. Espaa.
[4] Vilchez Villalobos J. G. 2000. Introduccin a los Sistemas de Informacin Geoespacial. Universidad de los Andes. Mrida-Venezuela.
[5] Crujeiras Casais Rosa Mara. Modelos de Estadstica Espacial:
Procesos reticulares. Universidad de Santiago de Compostela.
http://eio.usc.es/pub/Crujeiras/apuntes/apuntes-master.pdf
[6] Ivn Santiago. 2007. Fundamentos de ArcGIS versin ArcView 9.1.
rea de Tecnologas de Informacin, Gubernamental Oficina de Gerencia y Presupuesto. San Juan, Puerto Rico.
http://www.gobierno.pr/G2GPortal/Inicio/ComunidadIT/SIG/ ApoyoTecnico.htm
BIBLIOGRAFA
[7] Mapeo del Crimen. Principio y Prctica.

http://www.dnp.gov.co/archivos/documentos/DJS-DocumentosPublicaciones
[8] Gabriel J.Ortiz Rico. Sistemas de informacin geogrfica.
http://www.gabrielortiz.com/
148

Trabajo Parasistente de Tesisa Ascender

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Trabajo Parasistente de Tesisa Ascender

Enviado por

Direitos autorais:

Formatos disponíveis

Repblica Bolivariana de Venezuela

Ministerio del Poder Popular para la Educacin Universitaria

Una aplicacin de Estadstica Espacial al

Trabajo presentado por el Profesor Linis B. Guerrero P. como requisito

Universidad de los Andes

Una aplicacin de Estadstica Espacial al

Autor: Linis B. Guerrero P.

Universidad de los Andes

Una aplicacin de Estadstica Espacial al

Autor: Linis B. Guerrero P.

A los profesores Jos Arnaldo Goitia y Jos Manuel Hernndez, por su

A nuestro Padre Celestial, por permitirme otro xito. Gracias Seor.

A mi familia, padres, hermanos.

En este trabajo se analiza la data proporcionada por el departamento de

Claro). Adems dos clusters, uno en Ejido y el otro en la Parroquia; en Ejido

Palabras claves: Autocorrelacin, Cluster, Interaccin Espacio-Temporal.

1.1. Formulacin del Problema . . . . . . . . . . . . . . . . . . . .

1.2. Antecedentes de la investigacin . . . . . . . . . . . . . . . . .

1.4. Objetivo General . . . . . . . . . . . . . . . . . . . . . . . . .

1.4.1. Objetivos Especficos . . . . . . . . . . . . . . . . . . .

2.1.1. Descripcin general del modelo espacial . . . . . . . . .

2.2. Estadsticos descriptivos espaciales . . . . . . . . . . . . . . . 11

2.4.2. La moda difusa (Fuzzy) . . . . . . . . . . . . . . . . . 49

3.1. Anlisis descriptivo

3.2. Anlisis de autocorrelacin espacial . . . . . . . . . . . . . . . 106

3.3.1. Anlisis de cluster mediante la tcnica k-medias . . . . 117

3.4.1. ndice de Knox . . . . . . . . . . . . . . . . . . . . . . 132

3.4.2. ndice de Mantel . . . . . . . . . . . . . . . . . . . . . 134

A.1. Tablas de resultados estadsticos . . . . . . . . . . . . . . . . . 140

3.5. Comparacin de las medidas de dispersin de la data en estudio,

3.6. Resumen estadstico del test de Moran . . . . . . . . . . . . . . . 107

3.10. Correlograma de Moran . . . . . . . . . . . . . . . . . . . . . 110

3.12. Correlograma de Moran ajustado . . . . . . . . . . . . . . . . . . 112

3.15. Ripley sin correccin y corregido . . . . . . . . . . . . . . . . . . 116

3.21. STAC cluster con distancia 250 m y 5 puntos . . . . . . . . . . . 123

3.24. Cluster de segundo orden generado . . . . . . . . . . . . . . . . . 127

3.29. Knox: Ejecucin 7 das con 500 y 1000 metros . . . . . . . . . . . 132

A.7. Clusters generados por la tcnica STAC con un radio de bsqueda

A.8. Clusters generados por la tcnica STAC con un radio de bsqueda

A.9. Clusters generados por la tcnica STAC con un radio de bsqueda

Formulacin del Problema

Formulacin del Problema

tos espaciales o geogrficos. El AEDE es aplicado casi en todos los campos

El anlisis exploratorio de datos espaciales (AEDE) aplicado al mbito

En la actualidad CrimeStat se est empleando en forma creciente en los

gratuita, pudiendo ser descargado de Internet. Es un programa de plataforma

Muchos de los fenmenos sociales son espacialmente autocorelacionados,

Analizar el delito tipificado como: Robo a Personas, ocurridos en el Estado

Referenciar los delitos Robo a Personas.

En este trabajo de investigacin se plante analizar la base de datos de los

Introduccin general a la teora de estadstica espacial

Descripcin general del modelo espacial

Sea s Rd , una localizacin genrica del dato en el espacio Euclideo de

Introduccin general a la teora de estadstica espacial

en un conjunto ndice D Rd , de esta forma el conjunto {Z(s) : s D}

Introduccin general a la teora de estadstica espacial

Estadsticos descriptivos espaciales

Un espacio que se caracteriza por la ausencia de estructura en la data, se

Estadsticos descriptivos espaciales

Estadsticos descriptivos espaciales

Estadsticos espaciales de tendencia central y

La media central, la mediana central y centro de la distancia mnima son

donde xi y yi son las coordenadas del i-simo lugar, y n es el nmero