Análisis de Contenido de Textos Políticos

2-PRINCIPAL español.
qxp 22/6/12 12:02 Página 11
1
El análisis de contenido de los textos
políticos
Los textos políticos son la fuente de evidencia empírica sobre la política y los
políticos más accesible que hay. Casi todo lo que se hace en política se regis-
tra en protocolos o actas, se publica como directivas o leyes, se presenta como
deliberaciones de comités o cuerpos legislativos, o incluso se retransmite. Las
causas políticas se defienden en discursos y entrevistas grabados, en folletos,
pósteres y, por supuesto, en plataformas y programas electorales.
1.1. La historia del análisis de contenido en ciencia política

Copyright © 2012. CIS - Centro de Investigaciones Sociológicas. All rights reserved.
El análisis de contenido es una metodología con una larga historia. Sus pasos
iniciales como enfoque metodológico tuvieron lugar en el campo de la inves-
tigación de los medios de comunicación y la comunicación política (Berelson,
1952). El objetivo fundamental era leer de un modo sistemático textos publi-
cados por los medios de comunicación de masas, concretamente por los perió-
dicos, para obtener datos empíricos con los que evaluar hipótesis científicas.
El análisis de contenido se extendió rápidamente más allá de estas raíces pe-
riodísticas a varios campos de investigación social, entre otros la ciencia polí-
tica, donde, ya en la década de los cuarenta, la atención centrada en los perió-
dicos dio paso al análisis de las campañas presidenciales, los discursos
presidenciales inaugurales y la propaganda política. Según Holsti, «en los años
cuarenta, la investigación política que usaba material de propaganda repre-
sentaba casi el 25 por ciento de todas las investigaciones empíricas de análisis
de contenido» (Holsti, 1969: 21). En ese momento, la influencia del análisis
de contenido en los estudios de ciencia política era tan dominante que Kaplan
definió el análisis de contenido como «la semántica estadística del discurso
político» (Kaplan, 1943: 230). The Language of Politics (1949), de Lasswell, re-
presenta, en este sentido, la cumbre del análisis de contenido centrado en do-
cumentos políticos. A finales de los años sesenta, el 75 por ciento de toda la in-
Alonso, Sonia, et al. Análisis de contenido de textos políticos: un enfoque cuantitativo (Colección Cuadernos Metodológicos, 47), CIS - Centro
de Investigaciones Sociológicas, 2012. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/bibliousachsp/detail.action?docID=3222853.
Created from bibliousachsp on 2018-07-19 06:52:07.
2-PRINCIPAL español.qxp 22/6/12 12:02 Página 12
12 CUADERNOS METODOLÓGICOS 47
vestigación basada en el análisis de contenido trabajaba en tres disciplinas:

antropología social, comunicación general y ciencia política (Holsti, 1969).
Un momento crucial en este desarrollo fue la introducción de los ordena-
dores. El primer análisis de contenido informatizado fue presentado por Se-
beok y Zeps en 1958 (Krippendorff, 2004: 13). Hasta finales de los años se-
senta, el trabajo más coordinado en análisis de contenido por ordenador fue
realizado con un programa denominado The General Inquirer, desarrollado
por el psicólogo social Philip J. Stone (Janda, 1967: 13). El sesgo a favor del in-
glés de The General Inquirer fue superado más tarde por versiones nuevas y
más generales, como Textpack 1 (Mochmann, 1980; Klingemann, 1984).
Sin embargo, el desarrollo de la codificación informatizada mediante orde-
nador se ralentizó durante los años ochenta debido a la limitada disponibili-
dad de documentos políticos en formatos legibles por el ordenador (esto es, do-
cumentos en formato de texto: Word, etc.). Tal como Monroe y Schrodt
expusieron, «la entrada manual de textos era como mínimo tan costosa y con-
sumía tanto tiempo como codificarlos de forma directa del papel o microfilme
[…] y, por lo tanto, la codificación humana siguió siendo la norma» (2009:
352). La situación cambió con la llegada de internet. La web «revolucionó la
disponibilidad de textos» (Monroe y Schrodt, 2009: 352) y, como resultado, el
análisis de contenido informatizado ha crecido de forma considerable durante
la última década.
En la actualidad, el análisis de contenido —el informatizado y el manual—
es un método consolidado en la investigación de los medios de comunicación.
En los másteres sobre comunicación se imparten cursos regulares sobre aná-
lisis de contenido, y cada vez son más las publicaciones basadas en este método
(Neuendorf, 2002). En ciencia política, en cambio, el período comprendido
entre los años cuarenta y los años setenta fue la época dorada del análisis de
contenido. Después se dieron a conocer pocos enfoques basados en el análisis
de contenido más allá de públicos altamente restringidos en subcampos de la
profesión, con escasas excepciones. En primer lugar, uno de estos subcampos
es el del análisis del establecimiento de la agenda política (agenda-setting), sur-
gido en EE. UU. (Schattschneider, 1960; Bachratz y Baratz, 1962; Cobb y Elder,
1983; Baumgartner y Jones 1993; Kingdon, 1995; Jones y Baumgartner, 2005),
pero ha habido pocos intentos de hacer estos análisis de contenido compara-
bles entre países (Baumgartner, Green-Pedersen y Jones, 2006). En segundo
lugar, el análisis de contenido tiene una tradición de investigación bien des-
arrollada en Alemania, quizá debido a la prolongada influencia de los herma-
nos Grimm. En la lista de bibliografía comentada al final del libro citamos dos
libros de texto alemanes muy relevantes para aquellos lectores que puedan leer
en alemán (no existen traducciones al español). En tercer lugar, el análisis de
contenido es una técnica ya consolidada para determinar las posiciones de los
1
Para un libro de texto en español que explique cómo aplicar TextPack, véase Alaminos y
Penalva (1995).
ANÁLISIS DE CONTENIDO DE TEXTOS POLÍTICOS. UN ENFOQUE CUANTITATIVO 13
partidos en el espacio político. Las publicaciones dedicadas de forma especí-

fica a valorar las posiciones de los partidos están muy extendidas (Budge et
al., 2001; Electoral Studies, 2006; German Politics, 2009; Klingemann et al.,
2006; Laver, 2001). La razón del éxito de esta aplicación del análisis de conte-
nido a la ciencia política es que las posiciones de los partidos tienen un papel
básico en muchas teorías normativas y analíticas de la democracia represen-
tativa. Hay muchas preguntas de investigación relacionadas a las que el aná-
lisis de contenido de los programas electorales puede ofrecer respuestas. En
cuarto lugar, aunque en menor medida, el análisis de contenido es una técnica
aplicada en la investigación empírica del discurso político.
1.2. El análisis de contenido: algunas definiciones

importantes
Existen tantas definiciones de análisis de contenido como libros de texto se
han escrito sobre el tema. La mayoría de estos libros comienzan con la famosa
fórmula de Lasswell (1948) o, por lo menos, se refieren a ella: «¿Quién dice
qué? ¿A través de qué canal? ¿A quién? ¿Con qué efecto?». Aunque Lasswell es-
taba interesado en el estudio de los medios de comunicación de masas y de la
propaganda política, esta fórmula puede aplicarse al análisis de todo tipo de
comunicación. La fórmula de Lasswell centra nuestra atención sobre los cinco
elementos básicos de la comunicación —el emisor, el mensaje, el canal, el re-
ceptor y el efecto de la comunicación— y, en consecuencia, sobre cinco áreas
de investigación de la comunicación basadas en estos elementos. Por esta

razón, toda investigación que pretenda aplicar el análisis de contenido co-
mienza con una teoría sobre el mensaje analizado: «Por qué se crearon los tex-
tos disponibles, qué significan y para quién, cómo median entre las condicio-
nes antecedentes y las resultantes…» (Krippendorff, 2004: 82). Estos aspectos
se denominan contextos del texto.
En este libro nos centraremos en el análisis de contenido de textos políti-
cos. La ciencia política se interesa principalmente en tres tipos de análisis: el
análisis interno de un texto, las causas del texto y los efectos del texto. El pri-
mer tipo de análisis, y el más obvio, es el análisis interno del mensaje. Las pre-
guntas típicas de ciencia política sobre el análisis interno son: ¿qué posiciones
toman los autores en el texto? y ¿qué importancia tienen estas posiciones para
los autores? Estas preguntas descriptivas adquieren un cariz más analítico una
vez que entran en juego las causas o los efectos. Teóricamente, las causas pue-
den estar relacionadas con el emisor, el canal o el receptor del mensaje. Por
ejemplo, podemos partir de una hipótesis según la cual la posición defendida
en el texto depende de la ideología de derechas o de izquierdas del político, o
de si el mensaje ha sido redactado para una reunión interna del partido o para
un discurso en una campaña electoral, o de si va dirigido a los votantes fieles
o a los votantes flotantes en el espectro ideológico. Siguiendo con este ejemplo,
los efectos pueden ser simplemente si el receptor ha comprendido el mensaje

o si el mensaje tiene repercusión sobre el comportamiento electoral. Como
vemos por este ejemplo, cuando las causas o los efectos entran en juego, el
análisis de contenido del texto político se amplía con información adicional
sobre el emisor y/o sobre el receptor del mensaje, o incluso con datos adicio-
nales como el comportamiento electoral.
Aunque estas preguntas en torno al contenido de los mensajes políticos, sus
causas y sus efectos son preguntas que nos podemos hacer todos en cualquier
conversación informal sobre política de nuestra vida diaria, hay una distin-
ción decisiva entre esta aproximación cotidiana y el método del análisis de
contenido. La mayoría de los analistas de contenido están de acuerdo con
Holsti (1969) cuando describe el análisis de contenido como un análisis obje-
tivo, sistemático y general. El método es objetivo debido a las reglas y procedi-
mientos que tienen que formularse en cada paso del proceso de investigación
y registrarse en un manual; es sistemático porque siempre tienen que aplicarse
las reglas; y es general porque el análisis debe tener relevancia teórica. Expli-
caremos con detalle estas tres características en los siguientes apartados de
este capítulo.
Krippendorff ofrece la definición más técnica del análisis de contenido:
«[Una] técnica de investigación para formular inferencias válidas y reproduci-
bles a partir de ciertos textos (u otro material con significado) en los contex-
tos de su uso» (2004: 18). Destacamos esta definición sobre las muchas exis-
tentes por dos razones: en primer lugar, en su definición, Krippendorff nos
recuerda que el análisis de contenido es una técnica que necesita aprenderse
antes de poderse aplicar; y, en segundo lugar, la definición de Krippendorff

contiene dos de los términos técnicos más importantes del análisis de conte-
nido: fiabilidad y validez. En la vida cotidiana, el número de inferencias o in-
terpretaciones que se pueden obtener de un texto es equivalente al número de
lectores. El análisis de contenido, en cambio, es una técnica de investigación
que requiere formular inferencias reproducibles y válidas a partir de los textos
analizados. Reproducible significa que todos los que aplican la técnica deben
llegar a los mismos resultados. Por tanto, la fiabilidad describe el grado en el
que se consigue que esto sea así. La validez se refiere al grado en el que los re-
sultados del análisis de contenido se corresponden con los conceptos teóricos
y con la realidad que se pretenden medir mediante este tipo de análisis. La va-
lidación es el proceso de medición mediante el cual los resultados del análisis
de contenido se comparan con los hechos. La fiabilidad y la validez diferencian
el análisis de contenido de la interpretación de textos en la vida cotidiana y
serán, por consiguiente, el objeto de discusión de un apartado en este capí-
tulo.
El objetivo general que se persigue mediante el análisis de contenido es la
reducción de los datos contenidos en el texto analizado. La reducción de los
datos se refiere a la representación estructurada de un gran volumen de datos,
es decir, a la cuantificación. Los practicantes del análisis de contenido discre-
pan sobre si el método debe ser siempre cuantitativo o puede ser también cua-
litativo. En este libro no consideramos los enfoques cualitativos porque en
ciencia política el método se emplea para reducir grandes cantidades de tex-
tos a cifras manejables. Aun así, estamos de acuerdo con Berelson (1952: 114-
134), quien reconoce los aspectos cualitativos de todo análisis de contenido,
inherentes al proceso de pasar palabras a números, pero quien defiende a su
vez que el objetivo final del procedimiento es la cuantificación de los conteni-
dos de los textos. Puesto que no es este el lugar donde profundizar en este
debate metodológico, remitimos al lector interesado a un artículo clásico de
Kracauer (1952).
En el análisis de contenido, la reducción de datos sigue tres pasos. El pri-
mero consiste en la identificación de las unidades de texto y la asignación a las
mismas de un código numérico. Veámoslo con un ejemplo. Armony y Armony
(2005) analizaron en su trabajo los diálogos en un foro de internet para estu-
diar la forma en la que los argentinos concebían la identidad nacional durante
la crisis política y financiera de 1991. En un primer paso, marcaron —entre
otras, y con ayuda de ordenadores— la palabra «Argentina» en todos los tex-
tos de un foro específico sobre identidad nacional. La identificación de esta pa-
labra clave es, en este ejemplo, el primer paso en la reducción de datos de una
discusión que duró una semana: cada vez que la palabra clave aparecía en la
discusión se codificaba con el número (1).
En el segundo paso, la cantidad de números generados en el primer paso es
reducida aún más. Existen muchas posibilidades de reducción. El método más
utilizado es calcular la frecuencia de aparición (absoluta o relativa) del código
(es decir, de la unidad de texto codificada). En nuestro ejemplo, se trataría de

contar cuántas veces aparece la palabra «Argentina» en la contribución de cada
participante. Sin embargo, el uso de frecuencias se basa en dos supuestos im-
plícitos: en primer lugar, que la frecuencia con la que aparece la palabra es un
indicador válido de la importancia de este término para la persona que lo uti-
liza, que también se denomina su relevancia (saliency). La importancia y la re-
levancia son equivalentes al interés, al foco de atención o a la intensidad de un
asunto, dependiendo de la interpretación. En segundo lugar, se parte del su-
puesto según el cual cada vez que aparece la palabra clave, en nuestro caso
«Argentina», tiene siempre la misma importancia, es decir, cada caso de apa-
rición cuenta lo mismo que otro, incluso aunque en algunos casos un adjetivo
o atributo en la frase dé a la palabra especial importancia. Los investigadores
que defienden un enfoque más cualitativo del análisis de contenido cuestio-
nan estos supuestos y, por consiguiente, también el uso de la frecuencia como
el método más adecuado para reducir los datos conseguidos mediante la co-
dificación.
Una vez que los datos se han resumido con un método como la frecuencia,
el análisis de contenido pasa al tercer paso: se analizan las hipótesis de inves-
tigación (es decir, los pautas de relación entre variables que se observan en los
resultados) por medio de diversas técnicas como tabulaciones cruzadas, aso-
ciaciones y correlaciones. En nuestro ejemplo, los análisis multivariados, tales

como el análisis de factores, la escala multidimensional, el análisis de contin-
gencia y de grupos, los nudos semánticos y los perfiles (Krippendorff, 2004:
191-211), son posibles una vez que han sido marcadas varias palabras clave y
calculada su frecuencia. Este tercer paso podría concluir, por ejemplo, con una
tipología de las identidades nacionales (la identificación de las dimensiones
principales de la identidad nacional y los porcentajes de cada tipo de identidad
nacional encontrados entre los participantes del foro de discusión).
1.3. El análisis de contenido paso a paso

El análisis de contenido de un texto político conlleva decisiones sobre el mues-
treo de los textos, sobre la descomposición en unidades de codificación y sobre
la técnica específica de codificación que se aplicará. En el nivel más general,
la última se refiere a la elección entre un análisis de contenido realizado ma-
nualmente por codificadores o mediante ordenador 2. En primer lugar, abor-
daremos el muestreo y la descomposición en unidades de codificación, ya que
estos pasos son comunes tanto a la codificación manual como a la informati-
zada. Posteriormente, pasaremos a explicar los procesos de codificación y
cuantificación, diferenciando entre la codificación manual y la informatizada.
1.3.1. MUESTREO
El muestreo es el proceso mediante el cual el investigador limita el número de

observaciones a analizar a un «subgrupo de unidades que es representativo, es-
tadística o conceptualmente, del conjunto de todas las unidades posibles, el
grupo o el universo de interés» (Krippendorff, 2004: 83). Desafortunadamente,
no hay una regla sencilla que nos indique cuántas unidades hay que seleccio-
nar, sino que depende de la pregunta de investigación. Cuanto menos especí-
fica en tiempo y casos sea la hipótesis, más necesitaremos seleccionar subgru-
pos de textos de un universo amplio de textos.
Por ejemplo, imaginemos que queremos analizar la cuestión de los benefi-
cios o costes políticos que tiene para los partidos A y B ser socios de una coa-
lición de gobierno en el país X. Si tenemos la suerte de que esta coalición se
constituyó tan solo en dos ocasiones diferentes, podemos seleccionar el uni-
verso completo de documentos de interés (esto es, dos acuerdos de coalición
y dos veces dos programas electorales, del partido A y del partido B) para pro-
ceder a analizar su contenido y compararlo. Sin embargo, si estamos interesa-
2
Un tipo de análisis de contenido utilizado raramente, el enfoque en red, clasifica las relacio-
nes entre objetos o personas en grupos como «se une» o «no se une»; véase Carley (1997), para una
introducción a este método específico, y Kleinnijenhuis, Ridder y Rietberg (1997), como ejemplo
de aplicación.
dos en examinar una hipótesis más general sobre los beneficios y costes polí-
ticos en los que incurren los partidos que forman coaliciones de gobierno, en-
tran en juego las reglas del muestreo (necesitamos seleccionar una muestra
representativa de documentos) y de la significación estadística (se necesitan
como mínimo treinta unidades para aproximarse a una distribución normal).
Por lo tanto, tendremos que hacer algo más que seleccionar de forma alea-
toria treinta acuerdos de coalición del universo de todos los acuerdos de coa-
lición de cada país y época. Debus (2008), por ejemplo, seleccionó 35 acuerdos
de coalición siguiendo dos criterios: tomó solo los acuerdos de coalición de
países en los que se había demostrado previamente que la competición parti-
dista tenía como base la política económica y social y eligió países que repre-
sentaban tres tipos diferentes de competición partidista, concretamente la
competición unipolar, la bipolar y la multipolar. De este modo, mezcló un di-
seño de sistemas más similares, referente a las dimensiones de la competición,
con un diseño de sistemas más diferentes, referente a los tipos de competición
(Anckar, 2008). En términos técnicos, mantuvo las dimensiones de la compe-
tición partidista constantes para investigar la repercusión de los diferentes
tipos de competición partidista en los beneficios/costes políticos de los socios
de una coalición.
Si bien es cierto que, en este ejemplo, la elección de los acuerdos de coali-
ción como los textos que es necesario analizar para el estudio de los beneficios
y los costes políticos de las coaliciones es clara y sencilla, las decisiones sobre
muestreo pueden ser más difíciles si no hay un documento directamente de-
dicado al concepto que interesa al investigador. ¿Qué haríamos si quisiéramos
analizar la repercusión de la globalización sobre la competición partidista en

las campañas electorales estatales? El proyecto de investigación «Cambio po-
lítico nacional en un mundo globalizado» (Kriesi et al., 2008) seleccionó como
documentos para el análisis de contenido dos periódicos, uno de primera línea
y otro sensacionalista, durante los dos meses previos al día de las elecciones en
cuatro campañas electorales de seis países diferentes. El objetivo era localizar
una nueva línea de división política que se suponía en aumento como resultado
de la globalización. En los seis países se incluyeron tres campañas, desde los
años noventa a los primeros años de la década de 2000, y una de mediados de
los años setenta. La campaña de los años setenta representaba unas elecciones
anteriores al proceso de globalización, permitiendo una comparación entre el
período anterior a la globalización y la época de la globalización. En la mues-
tra se incluyeron todos los artículos sobre política de estos dos periódicos du-
rante los dos meses previos a las elecciones.
La mezcla de periódicos de primera línea y periódicos sensacionalistas es
una característica habitual en los estudios sobre medios de comunicación, que
tratan así de englobar todo el abanico de contenidos de los medios de comu-
nicación. Sin embargo, se puede cuestionar la decisión de limitar el análisis a
los dos meses antes de cada elección. ¿Por qué no un mes, tres o cuatro? Des-
pués de todo, la duración de las campañas electorales varía mucho entre unos
países y otros, e incluso dentro de un mismo país en períodos históricos dife-

rentes. Si es necesario tener en cuenta estas variaciones para realizar una se-
lección de los casos, y lo es, tenemos que asegurarnos de no equivocarnos por
ambos lados del mismo problema: si elegimos un período de campaña corto,
podríamos pasar por alto partes importantes de la campaña electoral; pero si
elegimos un período muy largo, correríamos el riesgo de incluir casos que per-
tenecen al período anterior a la campaña propiamente dicha.
El tipo de textos seleccionados como base del análisis de contenido es de la
máxima importancia ya que va a determinar todo el resto de lo que hagamos,
incluidos nuestros resultados. La importancia de esta decisión se puede ilus-
trar con un ejemplo reciente de un análisis sobre la importancia del populismo
en los discursos de 41 jefes de Estado y de Gobierno en diferentes países (Haw-
kins, 2009). En este análisis, Hawkins distingue cuatro tipos de discursos: los
pronunciados durante campañas electorales, los discursos inaugurales de pro-
yectos de infraestructuras, los pronunciados en encuentros internacionales y
los discursos emblemáticos a los que se atribuye una importancia especial por
alguna razón. El resultado de esta comparación entre países muestra que los
presidentes con una inclinación populista realizaron dos veces más llamamien-
tos populistas en discursos de campaña que en discursos inaugurales, interna-
cionales o emblemáticos. Evidentemente, si los discursos de campaña no se
hubieran incluido en el análisis, Hawkins habría subestimado el nivel de po-
pulismo en los discursos políticos de los países analizados. Por otro lado, si
Hawkins se hubiera fijado solo en discursos de campaña, habría sobreesti-
mado el grado de populismo. Este resultado pone de relieve la influencia que
ejerce sobre el contenido de los textos políticos el tipo de receptor al que van
dirigidos. El contexto del texto afecta al contenido del texto. El corolario inter-
pretativo es que los presidentes utilizan el populismo para movilizar a los elec-
tores; el populismo puede ser una estrategia de conexión de las élites con las
masas. Pero solo podemos llegar a esta conclusión si hemos hecho una co-
rrecta selección de los textos a analizar.
1.3.2. DESCOMPOSICIÓN EN UNIDADES DE CODIFICACIÓN
Se entiende por descomposición en unidades de codificación la designación de

las unidades de texto que van a ser posteriormente codificadas. Las unidades
de codificación más empleadas en ciencia política son la palabra aislada (o
símbolo), la frase (o partes de ella) y el documento entero u objeto (el discurso,
artículo, película, libro, etc., completos). Una vez más, no existe una regla sen-
cilla que pueda decirnos cuándo elegir una unidad de codificación determi-
nada. La única recomendación que podemos dar sin conocer la pregunta de in-
vestigación concreta es probar con diferentes unidades.
Las palabras aisladas, por ejemplo «medio ambiente», se emplean principal-
mente en el análisis de contenido por ordenador. En muchas hipótesis de
investigación todo lo que el investigador necesita saber es el número de apari-

ciones de palabras aisladas. Consideremos una simple hipótesis referida a la
amenaza electoral que suponen los partidos emergentes, que tratan nuevos
temas políticos, sobre los partidos largamente establecidos: cuando un par-
tido ecologista logra entrar en el Parlamento el resto de partidos se ven obli-
gados, por la dinámica de la competición electoral, a ocuparse también ellos
del tema clave del nuevo partido ecologista, la protección medioambiental. Su-
pongamos que disponemos de todas las versiones en formato de texto de todos
los discursos parlamentarios en dos períodos diferenciados, antes y después de
la llegada del partido ecologista. A partir de ahí podríamos proceder a utilizar
un programa informático que identificara todas las apariciones de los térmi-
nos «protección» y «medio ambiente» y que las contara, con el fin de usar estas
cifras para testar nuestra hipótesis sobre la relevancia de este tema en los dis-
cursos políticos en el Parlamento.
Sin embargo, la elección de palabras aisladas como unidades de codifica-
ción para este ejemplo específico es más problemática de lo que parece a sim-
ple vista. Hay muchas formas de abordar un tema. Por lo tanto, tendremos
que identificar todas las variaciones posibles del término «medio ambiente».
Para hacer esto, la palabra debe reducirse a su raíz y, a partir de ahí, le pedi-
mos al ordenador que localice todas las apariciones de la raíz de la palabra.
Tendremos también que identificar todas las formas diferentes de expresar in-
terés por el tema. Por ejemplo, en vez de hablar sobre «protección ambiental»,
el Gobierno puede estar «interesado por la naturaleza». Además, podría ser
erróneo contabilizar todas las apariciones de la palabra «ambiente», ya que
esta palabra también se usa en frases como «un ambiente de globalización» o

«el ambiente laboral». Por lo tanto, las palabras como unidades de codifica-
ción a veces se analizan dentro de unidades contextuales más amplias a las
que pertenecen (key words in context, KWIC), principalmente la frase, para
asegurarse de que su significado queda recogido de forma correcta. Teniendo
en cuenta estas salvedades, tomar las palabras como unidades de codificación
es una forma muy eficaz de abordar numerosas preguntas de investigación,
especialmente si hay que enfrentarse a grandes cantidades de textos.
A menudo, sin embargo, los politólogos están interesados no tanto en las
frecuencias de aparición de ciertas palabras como en las posiciones manteni-
das respecto a un tema y en su justificación, es decir, en temas direccionales y
en los argumentos en los que se encuadran dichos temas. Continuando con el
ejemplo anterior, el investigador puede querer saber si el partido en el gobierno
defiende una mayor protección del medio ambiente. Evidentemente, ninguna
palabra aislada recoge esta posición 3. Por lo tanto, los politólogos a menudo
recurren a la frase como unidad natural para la codificación de argumentos.
Debido a que las frases largas pueden contener más de un argumento, se divi-
den a veces en cuasi-frases.
3
Koopmans y Ersanilli (2011) lo denominan demandas de toma de posición.
Un método de descomposición en unidades que utiliza la cuasi-frase como

unidad de análisis es el denominado método de la frase-núcleo, muy extendido
entre los politólogos en los últimos años (Kriesi et al., 2008; Dolezal, Helbling
y Hutter, 2010). A continuación vamos a exponer un ejemplo basado en la in-
vestigación de Helbling, Höglinger y Wüst para demostrar las ventajas de uti-
lizar la cuasi-frase como unidad de análisis. El siguiente texto está extraído de
un artículo de periódico que describe la posición de un partido político en
torno a la Unión Europea:
El Partido Demócrata apoya la nueva Constitución de la Unión Europea por-

que aumenta la eficiencia en la toma de decisiones, pero se opone a la adhe-
sión de Turquía a la Unión Europea porque teme un aumento de las tasas de
desempleo (2010: 508).
Esta frase contiene dos posiciones diferentes y, por lo tanto, dos frases-nú-
cleo. Lo que vamos a codificar, en consecuencia, es cada una de estas frases-
núcleo por separado.
TABLA 1.1
EJEMPLO DE CODIFICACIÓN MEDIANTE FRASES-NÚCLEO
Frase-
núcleo Agente Tema Dirección Marco argumentativo
1 Partido Demócrata Constitución +1 Eficiencia en la toma

Unión Europea de decisiones
2 Partido Demócrata Adhesión de Turquía –1 Aumento del desempleo

a la Unión Europea
3 … … … …
Fuente: Helbling, Höglinger y Wüst (2010: 508).
Para cada una de las dos cuasi-frases los autores identifican el agente, el
tema y la dirección de la preferencia. La dirección se establece a favor (+1) o
en contra (–1) de la Unión Europea. Este método es preferible para textos con
más de un agente, como sucede a menudo en los medios de comunicación.
Los temas y las direcciones pueden asignarse entonces a diferentes agentes.
Este método ilustra también la flexibilidad y la versatilidad del enfoque de la
frase-núcleo. En este caso se usó como un primer paso para el análisis del po-
sicionamiento de los partidos. El segundo paso consistió en codificar la formu-
lación o el marco argumentativo detrás de cada posición. Una ventaja adicio-
nal del enfoque de la frase-núcleo resultará evidente cuando expliquemos el

sistema de codificación. Es un método que permite utilizar, de forma repetida,
las unidades de análisis estandarizadas para estudiar diferentes aspectos de
los argumentos.
El documento entero —el artículo de prensa, el discurso, el programa elec-
toral, etc.— se utiliza poco como unidad de análisis, al menos si lo compara-
mos con la ubicuidad de los métodos basados en la palabra o en la cuasi-frase.
Cuando el investigador opta por el documento entero como unidad de análi-
sis, también denominado codificación holística, lo hace sobre todo como forma
de ahorrar costes y tiempo. Así, siguiendo con el ejemplo anterior, una forma
de ahorrar tiempo y dinero de codificación sería utilizando el artículo de
prensa entero como unidad de codificación, asignándole una posición a favor
o en contra de la Unión Europea.
El estudio de Hawkins sobre el discurso populista que hemos presentado
antes nos ofrece un ejemplo reciente de codificación holística utilizada por ra-
zones sustantivas y no como forma de ahorrar costes. Hawkins (2009) sostiene
que el populismo es un concepto multidimensional que no puede recogerse en
frases aisladas, sino que necesita ser clasificado por expertos cualificados que
analicen con cuidado el texto completo. Volveremos a este ejemplo más adelante.
1.3.3. CUANTIFICACIÓN Y CODIFICACIÓN
La codificación es el proceso conforme al cual «datos sin procesar se transfor-

man y agregan de forma sistemática en unidades que permiten una descripción

precisa de las características esenciales del contenido» (Holsti, 1969: 94). Evi-
dentemente, esta definición es una variación de las tres características princi-
pales del análisis de contenido mencionadas antes: objetividad, método y ge-
neralidad. Por lo tanto, el análisis de contenido y la codificación a menudo
son intercambiables.
Como ya hemos dicho anteriormente, existen dos métodos principales de
análisis de contenido: uno basado en la codificación manual por medio de co-
dificadores y el otro basado en la codificación mediante ordenador. En la co-
dificación manual el investigador elabora primero un sistema de codificación,
operacionalizando el concepto teórico que pretende analizar. Una vez creado
el sistema de codificación, con sus diferentes categorías o códigos, el investi-
gador (o sus codificadores) asigna cada unidad de análisis (sea una palabra,
una frase, un párrafo o el documento entero) a una de las categorías del sis-
tema de codificación. A menudo, un primer paso en la definición del sistema
de codificación es analizar una muestra de los textos de interés desde los que
definir las categorías del sistema de codificación. En la codificación por orde-
nador, un paso previo por parte del investigador es la elaboración de dicciona-
rios que definen distintas unidades de análisis con el mismo significado como
pertenecientes a una única categoría o código.
Con frecuencia, los enfoques de análisis de contenido son una combina-

ción de análisis manual y análisis por ordenador (computer-aided text análisis,
CATA). Hay dos tipos de combinaciones básicas. Una es equivalente a la codi-
ficación completamente informatizada, con la diferencia de que hay un pri-
mer paso manual en el que una muestra pequeña de los textos es codificada
manualmente. Con la información así obtenida se elaboran diccionarios y des-
pués el programa de ordenador aplica al resto de los textos los diccionarios
previamente elaborados. En el segundo tipo de combinación, a diferencia de
la primera, la codificación es manual, pero el codificador se sirve del ordena-
dor para facilitar la tarea de codificar, en vez de hacerlo todo sobre el papel. Los
ordenadores pueden hacer la codificación manual más eficiente una vez que
los documentos a analizar se pasan a formato de texto, el único legible por el
ordenador.
Los dos métodos —manual e informatizado— presentan ventajas e incon-
venientes (Volkens, 2006; Volkens, Bara y Budge, 2009). Los defensores de la
codificación manual destacan la validez de este tipo de codificación y muestran
su desconfianza hacia los enfoques completamente informatizados porque los
textos presentan intenciones y significados que solo pueden captar los huma-
nos (Bara, Weale y Bicquelet, 2007). Solo las personas son capaces de interpre-
tar el significado de un argumento y decidir si una forma específica de abor-
dar un problema político se refiere al concepto que el investigador tiene en
mente. Sin embargo, el análisis de contenido manual necesita mucho tiempo
y la fiabilidad es un problema persistente. No hay forma de conseguir resulta-
dos idénticos entre las personas. En la codificación manual, las ventajas de
conceptos más rigurosos y válidos se contrarrestan con las deficiencias en fia-

bilidad. La codificación informatizada tiene la ventaja de que se pueden pro-
cesar grandes cantidades de textos de forma rápida (Laver y Garry, 2000; Bara,
2006), y que la fiabilidad no supone ningún problema, ya que los programas
informáticos siempre llegan al mismo resultado. Sin embargo, tal como nos ad-
vierte acertadamente Krippendorff, los ordenadores no leen textos, aunque
usemos esta analogía humana para describir lo que hacen: «Los ordenadores
no saben lo que hacen, quiénes son sus usuarios o el significado de las cade-
nas de caracteres que están procesando para las personas, no son sensibles a
los contextos culturales cambiantes en relación con las personas que leemos y
comprendemos el texto» (Krippendorff, 2004: 259). Además, aprender el uso
del software y su aplicación lleva más tiempo de lo que puede parecer a primera
vista.
Hay dos reglas generales sencillas para decidirse entre una metodología
manual o una informatizada. La elección del método depende, en primer
lugar, de la complejidad del contexto del texto y de la complejidad de los con-
ceptos analíticos. Los conceptos susceptibles de representarse con pocas pa-
labras o expresiones pueden captarse de forma rigurosa mediante una codifi-
cación informatizada. Sin embargo, para analizar conceptos complejos, sin
un conjunto de palabras fijo que los identifique, los programas de ordenador
aún no son capaces de mejorar la fiabilidad humana. En segundo lugar, la

elección depende de la existencia de datos con los que testar la validez de los
resultados obtenidos. Puesto que el método por ordenador acarrea problemas
de validez, es muy importante antes de optar por él que existan ya datos ob-
tenidos mediante el método manual con los que compararlos. Por lo tanto,
cuando se examina un concepto para el que no existe aún evidencia cuantita-
tiva, el primer paso debería ser siempre aplicar el método manual sobre una
selección de los textos a analizar, para asegurarnos de tener datos con los que
comparar los resultados obtenidos mediante el programa de ordenador y com-
probar así su validez.
1.3.3.1. Codificación manual
En el análisis de contenido manual, la fiabilidad depende de la destreza, la in-

tuición y la experiencia de los codificadores, por una parte, y de la claridad de
las categorías y de las reglas de codificación que guían su uso, por otra (Holsti,
1969: 135). El conocimiento y las aptitudes de los codificadores tienen un im-
pacto enorme sobre la calidad del análisis de contenido que realicemos (Vol-
kens, 2007: 117). En este sentido, el método es un enfoque cualitativo. Una falta
de correspondencia entre los códigos aplicados por dos codificadores distintos
a un mismo texto (algo que afectaría a la fiabilidad del método) podría ser el
resultado no solo de falta de preparación o capacidad de los codificadores, sino
también de una mala descripción o especificación de los códigos o categorías
que tienen que aplicarse. Si queremos mejorar los niveles de fiabilidad de los
datos obtenidos mediante el método manual, podemos concentrarnos bien en
mejorar la formación de los codificadores, bien en mejorar la definición de las
categorías o bien en ambas al mismo tiempo. La formación de los codificado-
res, la calidad del manual de codificación y la definición de las categorías son,
por lo tanto, componentes esenciales del análisis de contenido manual.
El esquema de clasificación
Los esquemas de clasificación, también denominados sistemas de codifica-

ción, son conjuntos de categorías conceptuales. La selección y definición de los
códigos o categorías en los que se clasifican las unidades de análisis que com-
ponen el texto son esenciales en el proceso de codificación. El uso final que sea
capaz de realizar el investigador con los datos dependerá de la selección y de-
finición de estas categorías. Tal como Berelson ha señalado: «El análisis de
contenido triunfa o fracasa por sus categorías» (1952: 147).
Las categorías tienen que reflejar de forma adecuada la pregunta de inves-
tigación. Por consiguiente, el investigador tiene que definir claramente sus va-
riables y tiene que especificar los indicadores que determinan si una unidad de
análisis pertenece a una categoría concreta. Según Holsti, una buena definición
operacional satisface dos requisitos: «Es una representación válida de los con-
ceptos del analista, y es suficientemente precisa para guiar a los codificadores
en la creación de juicios fiables» (Holsti, 1969: 95).
En la elaboración del esquema de clasificación, el investigador necesita es-
pecificar todos los aspectos de la pregunta de investigación. El sistema de co-
dificación necesita ser lo suficientemente diferenciado como para incluir todos
los significados relevantes del concepto, es decir, necesita contener suficientes
categorías o códigos para recoger todos los detalles importantes. Sin embargo,
los principiantes cometen a menudo el error de diseñar esquemas de codifica-
ción demasiado complejos. En este caso, su esquema comprende más detalles
de los necesarios para analizar la hipótesis que quieren testar (Früh, 2007: 79).
Lo hacen así porque los textos siempre tienen significados que son interesan-
tes para cuestiones que no son las que les ocupan en ese momento, pero pien-
san que en el futuro quizá quieran ampliar su investigación a estos otros aspec-
tos. El problema de esta actitud es que los esquemas de clasificación demasiado
complejos contienen más categorías de las que pueden deducirse del concepto.
Por lo tanto, la descripción de las categorías suele ser, por necesidad, poco pre-
cisa. En este caso, las categorías tienden a superponerse, por lo que es difícil
para los codificadores decidir qué categoría, de las varias posibles, debe asig-
nar a la unidad de texto que se está codificando. A menudo, los esquemas de
clasificación demasiado complejos son de baja fiabilidad. Además, cuanto más
diferenciado es un sistema de codificación, más caro es el proceso de codifi-
cación. En resumen, nuestra recomendación es que el investigador se centre
en la pregunta de investigación que tiene entre manos y que elabore sus cate-
gorías de análisis basándose en la teoría y los conceptos que enmarcan dicha
pregunta de investigación.
Las categorías de un sistema de codificación tienen que ser inclusivas y ex-
clusivas al mismo tiempo. Una categoría es inclusiva si identifica todos los ele-
mentos que pertenecen a una categoría de significado. En este caso, se dice
también que una categoría es comprehensiva. Una categoría es exclusiva si no
incluye ningún elemento que pertenezca a otra categoría de significado.
Cuando todas las categorías de un sistema de codificación son inclusivas y ex-
clusivas en el sentido que acabamos de definir, el sistema de codificación sa-
tisface dos requisitos básicos: es claro y diferenciado.
Vamos a utilizar el ejemplo de antes, tomado de Helbling, Höglinger y Wüst
(2010: 508), para explicar de manera simplificada la elaboración de un sistema
de codificación. Consideremos la siguiente hipótesis: al hacer referencia a la
Unión Europea en los discursos de campaña, los partidos mencionan exclusi-
vamente temas de políticas concretas de la UE y los enmarcan solo en térmi-
nos de políticas públicas. Esto es así porque a los votantes no les interesa la
Unión Europea como sistema político ni les interesa tampoco la política euro-
pea; solo muestran interés por los resultados, por las políticas públicas que se
llevan a cabo.
En lo que respecta a la elaboración de un sistema de codificación, el primer

paso es siempre la definición de los conceptos y, por lo tanto, la definición de
lo que queremos decir con esas categorías. Siguiendo con este ejemplo, defi-
nimos «sistema político» como los enunciados o frases que se refieren a la di-
mensión institucional de un sistema político, incluyendo instituciones políti-
cas como las Constituciones, las normas electorales y las reglas para la toma
de decisiones. Definimos «política» como los enunciados que se refieren a los
procesos de intermediación de intereses entre los diversos actores políticos,
sociales y económicos. Definimos «políticas públicas» como las acciones que
emprenden los gobiernos desde el poder. A continuación codificamos la frase
a analizar.
TABLA 1.2
EJEMPLO DE CODIFICACIÓN MEDIANTE FRASES-NÚCLEO
Frase-
núcleo Agente Tema Dirección Marco argumentativo
1 Partido Demócrata Constitución +1 Toma de decisiones

Unión Europea eficiente
Fuente: Helbling, Höglinger y Wüst (2010: 508).

De acuerdo a nuestras definiciones y al resultado de nuestro análisis (en

este ejemplo, basado en la codificación de una sola frase, para simplificar),
nuestra hipótesis, según la cual los partidos en campaña hablan de la UE en
términos exclusivos de políticas públicas, tendría que ser rechazada. Por una
parte, el tema «Constitución de la Unión Europea» pertenece a la categoría
«sistema político»; por otra parte, el marco argumentativo «adopción de deci-
siones eficiente» es un asunto que pertenece al ámbito de la política europea,
no de las políticas públicas europeas 4.
Pero esto no es todo. Para tener un sistema de codificación comprehensivo,
además de definir los conceptos, necesitamos reglas claras que guíen al codi-
ficador. Para comprenderlo mejor, consideremos las siguientes frases:
El proceso de toma de decisiones de la Unión Europea necesita ser más efi-

ciente. Por lo tanto, necesitamos una nueva Constitución.
En el contexto del programa electoral completo de un partido a las eleccio-

nes europeas, es evidente que la segunda frase se refiere a la Constitución de
4
Se puede encontrar más material con ejemplos de sistemas de codificación en el siguiente
sitio web: http://academic.csuohio.edu/kneuendorf/content/hcoding/hcindex.htm.
la Unión Europea, no a la Constitución del país de origen del partido. Sin em-
bargo, tomadas como unidades de análisis separadas (recordemos que en este
ejemplo la unidad de análisis es la frase-núcleo), la primera frase se refiere a
la Unión Europea, mientras que la segunda no. Para abordar esta situación te-
nemos que contar con reglas apropiadas incluidas en el manual de codifica-
ción. Una regla de decisión que pide al codificador «señalar todas las frases en
las que se haga referencia a la Unión Europea» llevaría a este a excluir de forma
equivocada la segunda frase del ejemplo. La regla correcta para el codificador
debería ser: «Seleccione todas las frases en las que se haga referencia a la
Unión Europea o que estén conectadas directamente con la Unión Europea en
las frases precedentes y posteriores». Es posible, además, que el codificador no
sepa lo que queremos decir con la frase «directamente conectado con la Unión
Europea». Aparte de la definición, se tienen que ofrecer también ejemplos,
para que todo el mundo sea capaz de clasificar de forma fiable las frases rela-
tivas al sistema político de la Unión Europea, a la política europea o a las po-
líticas públicas europeas.
El manual de codificación y la formación del codificador
En general, los investigadores formulan instrucciones de codificación que con-

tienen reglas explícitas y detalladas que los codificadores pueden aplicar de
forma fiable. Este conjunto de reglas se denomina libro o manual de codifica-
ción. Como alternativa, en el caso de una codificación informatizada, los inves-
tigadores elaboran una explicación completa de los diccionarios empleados

por el programa informático de análisis de contenido y del método para apli-
carlos. Esto es equivalente al manual de codificación para codificadores hu-
manos.
El manual de codificación es la herramienta fundamental para la forma-
ción de los codificadores. Tiene que explicar todas las decisiones tomadas por
los investigadores sobre el muestreo, la descomposición en unidades de análi-
sis y la clasificación en categorías o códigos que el codificador tiene que apli-
car en la codificación del texto. Incluso aunque no se tenga intención de con-
tratar a codificadores, sino que queramos aplicar nosotros mismos el método,
debemos asegurarnos de que el manual cumple todos los criterios menciona-
dos en este apartado. La posibilidad de generalizar los resultados es un requi-
sito básico de la ciencia. Por lo tanto, la transparencia de todos los aspectos del
proceso de análisis de contenido es un imperativo.
Dependiendo de la complejidad del tipo de análisis de contenido que vaya-
mos a realizar, los manuales pueden tener desde unas pocas páginas hasta más
de cien. Esto no significa que se deba intentar redactarlo tan extenso como se
pueda; un manual debe ser conciso. Tiene que ser exhaustivo, pero evitar las
repeticiones, ya que estas tienden a confundir a los codificadores. En cual-
quier caso, los manuales son mucho más detallados que las pocas explicacio-
nes y apéndices técnicos que se encuentran en las publicaciones de resultados.

Si se conoce algún enfoque similar al que se pretende realizar, siempre es
buena idea contactar con el autor de ese enfoque y pedirle su manual. No hay
ninguna necesidad de inventar la rueda. Hay que tener en cuenta el valor de en-
foques y metodologías ya existentes y utilizarlos en la medida de lo posible.
Los manuales de codificación completos comienzan con una introducción
de la pregunta de investigación, de la/s hipótesis y de las explicaciones de los
conceptos (Rössler, 2005). Cuanto más sepan los codificadores sobre nuestras
intenciones, mejor seguirán después las instrucciones. En segundo, tercer y
cuarto lugar, se recogen las secciones sobre el muestreo, la descomposición en
unidades de codificación y las reglas y definiciones de la clasificación. Los
apéndices ofrecen a los codificadores toda la información fundamental en un
listado compacto que muestra las categorías, las definiciones y las hojas de có-
digos para una codificación eficiente. Aunque los códigos no estén escritos a
mano en hojas de papel, sino pasados al ordenador directamente, en Excel o
en alguna otra hoja de cálculo relacionada, la versión impresa de las hojas
ayuda al codificador a tener una visión de conjunto del proceso de codificación.
Ofreceremos ejemplos de manuales de codificación y de hojas de codificación
en el segundo capítulo del libro, cuando expliquemos la metodología del Ma-
nifesto Project.
Si se quiere contratar a los codificadores, la mejor forma de proceder es
distribuir una primera versión del manual de codificación antes de invitarles
a un día o dos de formación presencial, basada en la codificación colectiva de
un número pequeño de textos de muestra. Se les pedirá a los codificadores que
codifiquen ellos mismos una pequeña parte y después se discutirán las solucio-
nes en grupo. La experiencia demuestra que esta es la mejor forma de asegu-
rar una comprensión común de las definiciones y de las reglas. Hay que ave-
riguar si todos los codificadores están de acuerdo sobre la codificación de las
unidades de análisis. Para los casos concretos en los que no hay acuerdo sobre
qué código debe aplicarse a una unidad de texto específica, se considerará si
el problema reside en la definición de la categoría, en las reglas de codificación
o en la falta de experiencia de los codificadores. Además, durante las sesiones
de formación presencial con los codificadores, el investigador tendrá la opor-
tunidad de descubrir qué partes del manual de codificación necesitan explica-
ciones más detalladas o cambios sustanciales. Después de la formación presen-
cial, es buena idea pedir a los codificadores que repitan la codificación de los
textos de muestra que ya codificaron el primer día del período de formación.
Con la comparación de los resultados del mismo codificador antes y después
de la formación se obtendrá un indicador empírico muy valioso del aumento
de fiabilidad conseguido mediante la formación.
Este período de formación presencial finaliza con un texto de prueba, lla-
mado test de fiabilidad, que deben codificar todos los potenciales codificado-
res de forma individual. Aquellos con los mejores resultados, es decir, aquellos
cuyas codificaciones sean las más parecidas a la copia maestra (se supone que
el texto codificado por el investigador es el resultado «correcto»), serán contra-

tados para llevar a cabo la codificación.
1.3.3.2. Codificación por ordenador
El análisis de la frecuencia de palabras concretas es la forma más sencilla de

análisis de contenido por ordenador. La mayor parte de los programas infor-
máticos de análisis de contenido pueden realizarlo. Incluso los sistemas ope-
rativos (por ejemplo, Unix/Linux, Mac OSX y versiones recientes de Windows)
tienen herramientas para contar palabras y clasificarlas (Lowe, 2003: 2). El
problema de este tipo de análisis es que puede resultar en algo más bien super-
ficial: «Evidentemente, el lenguaje ofrece una variación estilística considera-
ble y muchas formas alternativas de expresiones» (Krippendorff, 2004: 283;
véase también Sedelow, 1967). Es decir, los resultados pueden estar recogiendo
no tanto el mensaje en sí mismo como el estilo de escritura del autor del do-
cumento.
El análisis de la frecuencia de categorías representaría el siguiente nivel de
complejidad. En este caso se necesita incluir un diccionario. Tal como explica
Lowe: «Contar categorías hace posible un análisis ligeramente más sofisticado,
ya que permite ofrecer al usuario un modelo más explícito del contenido im-
plícito del texto» (2003: 2). La mayor parte de las aplicaciones informáticas de
análisis de contenido reducen las palabras a un vector de categorías.
Considerando la frecuencia de categorías como el mínimo común denomi-
nador del análisis de contenido por ordenador, los programas informáticos

pueden realizar cuatro operaciones principales de análisis de contenido (Alexa
y Zuell, 2000: 300-301):
1) Importación y gestión de textos: importar, abrir y guardar un texto; agru-

par textos; unir textos codificados; etc.
2) Diccionarios, esquemas de categorización y codificación: crear, importar
y mantener un esquema de categorización o un diccionario para su uso
en la codificación; definir las relaciones entre las categorías del esquema
de codificación; codificar el texto completo o segmentos de un texto, de
forma manual, interactiva o automática.
3) Exploración: información sobre palabras o series de palabras; búsqueda
y recuperación de información sobre las categorías empleadas para un
segmento de texto específico y sobre los segmentos de texto codificados.
4) Operaciones de exportación: guardar (solo el texto, solo la codificación o
ambos; también el esquema de categorización y/o el diccionario) en di-
ferentes formatos de archivo.
No todos los programas informáticos actuales de análisis de contenido

ejecutan las operaciones enumeradas más arriba de forma simultánea. La ma-
yoría de ellos, sin embargo, realizan las operaciones de codificación (dicciona-

rios, esquemas de categorización y codificación) con dos de las tres operacio-
nes restantes como mínimo. Los programas informáticos de análisis de con-
tenido se están desarrollando con rapidez, y los nuevos programas están
incorporando un creciente número de operaciones.
Los programas informáticos de análisis de contenido pueden dividirse en
dos grupos principales, según el tipo de enfoque en el que se basen: programas
para análisis cuantitativos y programas para análisis cualitativos. El software
para análisis cualitativos se originó en el campo de la etnográfica y la antro-
pología cultural e interpretativa. Admite modos de codificación manual y/o
interactiva. La mayoría de los paquetes de software cualitativos ofrecen una
variedad de técnicas avanzadas para la codificación de búsqueda y explora-
ción. En cambio, el software para análisis cuantitativos es más deficiente en tér-
minos de operaciones de búsqueda y exploración. El software cuantitativo
ofrece principalmente una codificación automática, y solo en algunos casos
una codificación interactiva. La codificación automática se produce cuando «el
ordenador asigna los códigos a los textos, basándose en una lista de palabras,
en un diccionario o en varios de ellos» (Alexa y Zuell, 2000: 317).
Diccionarios
Un «diccionario» es equivalente al esquema de categorías empleado en la codi-

ficación manual. Puede definirse como la «asignación de un conjunto de pala-
bras o frases a una sola palabra; esa palabra es la etiqueta de una categoría sus-
tantiva» (Lowe, 2003: 2). Por ejemplo, el diccionario desarrollado por el
programa Linguistic Inquiry and Word Count (LIWC, sitio web en español:
http://www.liwc.net/liwcespanol/index.php) incluye las palabras «apartamento»,
«cocina» y «familia» como parte de la categoría «casa». El número total de pa-
labras que asigna el diccionario a la categoría «casa» asciende a 93 5.
Los paquetes de software que incluyen diccionarios preestablecidos, cerra-
dos y ocultos impiden la validación semántica del diccionario por el investiga-
dor. Para validar un diccionario, el investigador tiene que comparar los resul-
tados que obtiene al aplicar el diccionario del ordenador con los obtenidos por
otros medios. Según Krippendorff, la validación semántica de un diccionario
de software requiere, como mínimo, que tenga validez nominal (es decir, que
las categorías tengan sentido para el investigador), pero mejor que este requi-
sito mínimo es que las categorías del diccionario «mantengan su validez al ser
5
«La codificación manual, o el registro de unidades de texto en categorías abstractas que in-
cluyen una diversidad de ejemplos más específicos de textos, no es tan diferente de lo que hacen
un thesaurus informático y un diccionario, representando grandes cuerpos de texto en pocos y sen-
cillos términos; la diferencia está en que el diccionario informático se aplica a cadenas de carac-
teres que nadie lee» (Krippendorff, 2004: 284).
juzgadas por los codificadores o los usuarios de los textos» (Krippendorff,

2004: 288). No recomendamos la utilización de paquetes de software que ten-
gan diccionarios ocultos; la validación semántica de un diccionario es un re-
quisito previo para su uso en el análisis de contenido.
Programas informáticos
Existe una amplia variedad de programas informáticos para el análisis de con-

tenido en diferentes disciplinas, que ofrecen herramientas de contenido ana-
lítico muy variadas. El investigador debe, por lo tanto, escoger la que mejor se
adapte a su pregunta de investigación. En esta sección limitaremos nuestro
análisis al software que se centra en material escrito, dejando de lado el análi-
sis de contenido de los mensajes multimedia.
Ofrecemos a continuación una lista de los programas informáticos de aná-
lisis de contenido más utilizados en las ciencias sociales, ordenados desde el
más reciente al más antiguo (Alexa y Zuell, 2000; Lowe, 2003; Krippendorff,
2004).
A) Programas para análisis cuantitativos
HAMLET II
Hamlet es un programa informático de análisis de contenido elaborado por

Alan Brier y Bruno Hopp. El objetivo fundamental de Hamlet II es el de encon-
trar palabras y/o categorías y después calcular sus frecuencias de aparición
dentro de cualquier unidad de texto que se desee (párrafos, frases o conjunto
de palabras concatenadas). Hamlet requiere la definición previa de un diccio-
nario por parte del investigador, pero esta tarea viene facilitada por la posibi-
lidad de transferir términos del documento a analizar directamente al diccio-
nario. Hamlet ofrece listas de palabras clave en su contexto (key words in
context, KWIC) y también permite comparar pares de textos. Hamlet ofrece la
visualización gráfica de los análisis estadísticos realizados. La documentación
está en inglés. Sitio web: http://apb.newmdsx.com/hamlet2.html.
WORDFISH
Wordfish es un programa informático elaborado por Jonathan Slapin y Sven-

Oliver Proksch para obtener posiciones políticas a partir de documentos de
textos. Wordfish realiza sus cálculos contando las frecuencias de las palabras.
A diferencia de Wordscores (véase a continuación), Wordfish cuenta con un
modelo estadístico de conteo de las palabras. La aplicación actual presupone
una distribución Poisson de las frecuencias de las palabras. Wordfish presu-

pone que la elección de las palabras en el documento a analizar está determi-
nada por la posición política del autor del texto, y nada más. Como consecuen-
cia, las frecuencias de las palabras se usan para identificar documentos en una
dimensión única. Algunos autores han criticado el supuesto de que los docu-
mentos solo difieren entre sí por su posición a lo largo de esta única dimensión
política (Strijbis y Leonisio, sin publicar). Según esta crítica, el vocabulario
personal de los autores y el contexto específico en el que estos escriben los do-
cumentos tienen también una fuerte repercusión sobre las palabras elegidas y,
por lo tanto, sobre los cálculos de Wordfish (Strijbis y Leonisio, sin publicar).
Wordfish no diferencia entre idiomas, así que se puede usar con cualquiera.
Sitio web: http://www.wordfish.org.
WORDSCORES
Wordscores es un conjunto de herramientas de software para el paquete de es-

tadística Stata, que aplica las técnicas informatizadas de análisis de contenido
descritas en Extracting Policy Positions from Political Texts Using Words as Data,
de Michael Laver, Kenneth Benoit y John Garry (APSR 97, 2, 2003). Wordsco-
res selecciona posiciones políticas de textos políticos, basándose en porcenta-
jes de palabras derivadas de documentos con porcentajes conocidos (Lowe,
2008). No parte de ningún supuesto estadístico sobre la distribución de los
datos, pero su principal desventaja es que una considerable parte del texto
tiene que ser codificado previamente de forma manual por un codificador

(Hopkins y King, 2010). Wordscores no diferencia entre idiomas, así que se
puede usar con cualquiera. Sitio web: http://www.wordscores.com.
YOSHIKODER
Yoshikoder es un programa informático de análisis de contenido multilingüe

desarrollado por Will Lowe como parte del Identity Project en el Harvard’s
Weatherhead Center for International Affairs. Con él se pueden cargar docu-
mentos, crear y aplicar diccionarios de análisis de contenido, examinar pala-
bras clave dentro de su contexto y realizar análisis de contenido básicos en
cualquier idioma. El Yoshikoder ofrece resúmenes de documentos en forma de
tablas de frecuencia de las palabras o en función de un diccionario de análisis
de contenido. Se puede aplicar también un análisis de diccionarios a los resul-
tados de una concordancia, lo que ofrece una forma flexible de analizar los
contextos locales de las palabras. El formato original de los archivos de Yoshi-
koder es XLM. El sitio web es http://www.yoshikoder.org.
CONCORDANCE
Concordance es un software de análisis de contenido elaborado por Rob Watt

y de uso generalizado en la investigación literaria. Concordance ofrece listas
de palabras clave en su contexto, que son fácilmente legibles. Esto permite al
usuario seleccionar una palabra de una lista alfabética de palabras y ver des-
plegados todos los contextos y referencias en los que aparece la palabra. Junto
a Wordstat (véase a continuación), es el único software de análisis cuantitativo
que permite listas fácilmente legibles de palabras clave en su contexto. Sitio
web: http://www.concordancesoftware.co.uk.
WORDSTAT
Wordstat es un software de análisis de contenido desarrollado por Normand Pé-

ladeau. Incluye muchas herramientas exploratorias, como el análisis de grupos
y las escalas multidimensionales, para el análisis de respuestas abiertas y de
otros textos. Permite la creación de diccionarios personales por parte del usua-
rio y crea frecuencias de palabras y listas alfabéticas, palabras clave en su con-
texto, archivos de datos multiunidades y comparaciones bivariables entre sub-
grupos. Es un módulo del paquete de estadística SinStat (parecido a SPSS). La
reducción de todos los lemas de una palabra a su raíz es posible en cuatro idio-
mas (inglés, francés, italiano y español). El thesaurus integrado está solo en in-
glés. Wordstat incluye una herramienta de construcción de diccionarios que

usa la base léxica de datos WordNet y otros diccionarios (en inglés, francés,
portugués, alemán y latín, con una versión rusa en fase de desarrollo). Sitio
web: http://www.provalisresearch.com/wordstat.
TEXTSMART
TextSmart es un software de análisis de contenido complementario al paquete

de estadística SPSS, que permite el análisis estadístico de respuestas a pregun-
tas abiertas. TextSmart organiza respuestas abiertas cualitativas, creando bases
de datos que pueden analizarse usando métodos cuantitativos. Puede aplicarse
solo a textos en inglés. No tiene sitio web propio; se puede acceder a enlaces
desde el sitio web principal de SPSS.
LINGUISTIC INQUIRY AND WORD COUNT (LIWC)
El LIWC es un software de análisis de contenido elaborado por James Penne-

baker para estudiar los diferentes componentes emocionales, cognitivos y es-
tructurales presentes en las muestras de discursos escritos y verbales. Se ori-

ginó como parte de un estudio exploratorio sobre el lenguaje y la publicidad
(Francis y Pennebaker, 1993). La idea inicial era identificar un grupo de pala-
bras que utilizara las dimensiones emocionales y cognitivas básicas, estudia-
das a menudo en psicología social, psicología de la salud y psicología de la per-
sonalidad. Con el tiempo, el dominio de las categorías de palabras se amplió
de forma considerable. El usuario puede también crear sus propios dicciona-
rios. Los diccionarios integrados en el LIWC se han traducido a varios idiomas,
entre ellos español, alemán, holandés, noruego, italiano y portugués. Se están
preparando diversas traducciones a otros idiomas, entre otros árabe, coreano,
turco y chino. Sitio web: http://www.liwc.net
KEDS
El Kansas Event Data System (KEDS) está diseñado para la codificación de in-
formes de noticias en inglés y la creación de datos sobre asuntos políticos.
También admite una codificación interactiva. Codifica datos sobre asuntos in-
ternacionales (principalmente interacciones entre agentes), empleando un re-
conocimiento de modelos y un análisis gramatical. Integra varios diccionarios
de nombres propios y frases verbales para codificar los agentes y los asuntos
que encuentra en el texto fuente. Si se pretenden codificar asuntos políticos,
probablemente será más fácil modificar los diccionarios que han sido desarro-
llados en otros proyectos que comenzar con un diccionario nuevo. Sitio web:
http://web.ku.edu/~keds.
TEXTPACK
Aunque se diseñó originalmente para el análisis de preguntas abiertas en en-

cuestas (Klingemann, 1984; Mochmann, 1980), Textpack ha sido ampliado a lo
largo de los años para hacer frente a muchos aspectos del análisis de texto asis-
tido por ordenador. Es posible la personalización del diccionario. Puede ser
usado en otros idiomas, como alemán y español. La codificación automática
de los programas electorales realizada por Laver y Garry (2000) es una apli-
cación de Textpack en ciencia política. Sitio web: http://www.gesis.org/en/
services/methods/software/textpack. Un manual en español sobre cómo aplicar
TextPack se puede consultar en Alaminos y Penalva (1995).
DICTION
Diction es un software de análisis de contenido elaborado por Roderick Hart

y diseñado para inferir, según sus propias palabras, «el tono de un mensaje
verbal». Se ha utilizado para analizar la retórica de los discursos políticos.

Contiene una serie de diccionarios integrados que buscan documentos de tex-
tos para cinco atributos semánticos principales (actividad, optimismo, certeza,
realismo y aspectos comunes) y 35 subatributos, entre otros tenacidad, culpa,
ambivalencia, movimiento y comunicación. Permite al usuario la creación
de diccionarios propios. Solo está disponible en inglés. Sitio web: http://www.
dictionsoftware.com.
THE GENERAL INQUIRER
El General Inquirer es el primer software de análisis de contenido que usó un

diccionario. Sus orígenes se remontan a la psicología social (Stone et al., 1966)
y, por lo tanto, definió sus categorías originalmente según una teoría del sig-
nificado específica. En la actualidad, el programa cuenta con 182 categorías in-
tegradas, que son el resultado de unificar varios diccionarios actuales de aná-
lisis de contenido. El usuario puede crear sus propios diccionarios, aunque
esta tarea no es sencilla, y el autor del Inquirer no lo recomienda (Lowe, 2003:
7). Este software puede aplicarse solo a textos en inglés. Sitio web: http://www.
wjh.harvard.edu/~inquirer.
B) Programas para análisis cualitativos

PROFILER PLUS
Profiler Plus es una combinación de análisis de contenido cualitativo y cuan-

titativo. Además de la funcionalidad general del análisis de contenido, per-
mite también el análisis de rasgos latentes (latent trait analysis), de mapas cog-
nitivos y códigos operacionales. Entre sus aplicaciones, el esquema de
codificación Behavior and Events from News se utiliza con Profiler Plus para
crear datos de eventos a partir de un alimentador de noticias en inglés (nor-
malmente, BBC Monitoring), con el objetivo de responder a la pregunta:
¿Quién hizo qué, a quién, dónde y cuándo? Está disponible en varios idiomas
(inglés, árabe, español, ruso y chino). Sitio web: http://socialscience.net/tech/
ProfilerPlus.aspx.
ATLAS/ti
Atlas/ti es un programa informático diseñado para el análisis cualitativo de

grandes cuerpos de datos textuales, gráficos y de audio y vídeo. Atlas/ti permite
extraer conocimiento conceptual de los documentos. Es un programa muy va-
lorado entre los investigadores cualitativos (Wilson, 2001). Sin embargo, su
funcionalidad en el análisis de contenido automático es limitada. Trabaja en

diferentes idiomas. Sitio web: http://www.atlasti.com.
CODE-A-TEXT
Code-a-text es un software elaborado por Alan Cartwright cuyo objetivo pri-

mordial es ayudar a entrenar psicoterapeutas. Se creó para analizar conversa-
ciones terapéuticas. En la actualidad se aplica a otros tipos de textos, por ejem-
plo respuestas a preguntas abiertas. Está en inglés. Sitio web: http://www.
code-a-text.co.uk.
NUD*IST/NVivo
NUD*IST responde a Non-numerical, Unstructured, Data: Indexing, Searching

and Theorising. Su funcionalidad es similar a la de Atlas/ti. Tras la versión
NUD*IST 6 se transformó en un nuevo software denominado NVivo 8. La úl-
tima versión existente de NVivo en el momento de enviar este libro a imprenta
es la 9. Solo trabaja en inglés. Sitio web: http:// www.qsrinternational.com.
Para una lista más exhaustiva de los programas informáticos de análisis de

contenido existentes, véase el sitio web sobre análisis de contenido de la Univer-
sidad de Alabama (http://www.car.ua.edu), el sitio web sobre análisis de textos

(http://textanalysis.info) o el complemento en internet a The Content Analysis
Guidebook, de Kimberly Neuendorf (http://academic.csuohio.edu/kneuendorf).
1.4. Validez y fiabilidad

Un método de investigación es fiable si se obtienen los mismos resultados siem-
pre que se aplique el método, independientemente de las circunstancias de su
aplicación. La fiabilidad completa es imposible de alcanzar. Siempre hay po-
sibilidad de error, aunque este puede ser grande o pequeño. Lo que tenemos
que procurar es la máxima consistencia posible entre las codificaciones.
Cuanto más consistentes sean los resultados obtenidos a partir de análisis re-
petidos, mayor será la fiabilidad. La fiabilidad es un componente decisivo del
análisis de contenido; sin ella, las medidas del análisis de contenido no sirven
(Neuendorf, 2002: 141). Un método de investigación es válido si cumple su
propósito o, en otras palabras, si los resultados derivados del método pueden
ser corroborados tanto por los resultados obtenidos por otros métodos como
por los hechos mismos. La validez, como la fiabilidad, es también una cuestión
de grado.
Fiabilidad y validez están interconectadas. Una baja fiabilidad haría dudo-

sos los resultados del análisis de contenido y, por lo tanto, reduciría su validez.
Pero la fiabilidad, por sí misma, tampoco garantiza la validez. Dos codificado-
res pueden aplicar un esquema de codificación a un texto de una manera muy
fiable, llegando exactamente a los mismos resultados, y los resultados pueden
ser inválidos si el esquema de categorías es demasiado artificial para reflejar la
realidad objetiva que intenta representar. De nada nos sirven resultados obte-
nidos con la máxima fiabilidad si después la realidad desmiente nuestras con-
clusiones. «Incluso instrumentos mecánicos perfectamente fiables, como los
ordenadores, pueden equivocarse de forma fiable» (Krippendorff, 2004: 213).
Esto lleva al investigador a tener que encontrar un equilibrio entre fiabili-
dad y validez. A menudo, una mayor fiabilidad solo se consigue a costa de re-
ducir la validez. Con categorías y unidades de análisis más complejas (hasta un
límite), los resultados del análisis serán más útiles, porque reflejarán mejor la
realidad que se quiere medir, pero probablemente menos fiables (Holsti, 1969).
Krippendorff llama nuestra atención sobre el hecho que el uso de ordenado-
res, tan elogiado por su aumento en la fiabilidad de los resultados, ha puesto
de manifiesto este dilema o trade-off más que nunca, ya que los ordenadores
procesan secuencias de caracteres, no significados:
En el análisis de contenido, los investigadores deberían aproximarse a los

procedimientos altamente fiables con la misma precaución con la que se apro-
ximan a interpretaciones fascinantes que nadie puede reproducir (la cursiva
es nuestra) (Krippendorff, 2004: 214).
No se puede renunciar completamente a la importancia de las categorías y

las unidades de análisis en aras de una mayor fiabilidad. «El coeficiente de fia-
bilidad no puede ser el único criterio para tomar tales decisiones [sobre las
categorías y las unidades de análisis]» (Holsti, 1969: 142).
Existen tres tipos principales de medidas de fiabilidad: la estabilidad, la re-
producibilidad y la exactitud (Krippendorff, 2004). La estabilidad es el grado
en el que un proceso permanece inmutable a lo largo del tiempo. Los datos
para medir la estabilidad provienen de la repetición del mismo proceso en dos
puntos temporales (test y retest). Aplicado a la codificación manual, esto sig-
nifica que un codificador realiza la codificación de un mismo texto dos veces,
la segunda vez algunos días (o semanas) después de la primera. Las variacio-
nes entre la primera codificación y la segunda se denominan inconsistencias
individuales. La medición de la estabilidad es el primer paso para el estableci-
miento de la fiabilidad de los datos, aunque sea una medida de fiabilidad débil.
La reproducibilidad se refiere al grado en el que un proceso puede ser repro-
ducido por diferentes investigadores, obteniendo el mismo o similares resul-
tados. Los datos para medir la reproducibilidad provienen de dos codificado-
res que realizan el mismo test, es decir, que codifican el mismo texto pero
trabajando de forma independiente (test-test). Las variaciones encontradas
entre estos test se denominan diferencias entre observadores (o entre codifica-

dores). Esta es una medida sólida de fiabilidad y la más viable de realizar
(Hayes y Krippendorff, 2007). Desgraciadamente, no hay una medida estándar
de fiabilidad entre codificadores que sea universalmente aceptada por los in-
vestigadores. Entre las medidas de uso más generalizado están el acuerdo por-
centual, el método de Holsti, la pi de Scott, la kappa de Cohen y la alpha de
Krippendorff. Aunque el acuerdo porcentual parece usarse ampliamente y es
sencillo de calcular, los expertos en metodología advierten de forma continua
que es una medida engañosa, que sobreestima el acuerdo real entre los codi-
ficadores. Nosotros recomendamos el uso de la alpha de Krippendorff, que pa-
rece estar ganando un creciente número de partidarios.
La alfa (α) de Krippendorff es un coeficiente de fiabilidad desarrollado para
medir el acuerdo entre observadores, codificadores, expertos, evaluadores o
instrumentos de medición. Cuando los observadores están completamente de
acuerdo, el desacuerdo observado es Do = 0 y α = 1, lo que indica una fiabili-
dad perfecta. Cuando los observadores están de acuerdo como si los resulta-
dos fueran producto del azar, Do = De y α = 0, lo que indica ausencia de fiabi-
lidad. La alpha de Krippendorff se aplica a cualquier número de observadores
(no solo a dos), a cualquier número de categorías, valores de escala o medidas,
a cualquier unidad o nivel de medición (nominal, ordinal, intervalo, ratio y
más), a datos que faltan o incompletos y a tamaños de muestras grandes y pe-
queños, no requiriéndose un mínimo. Una descripción detallada del cálculo
de la alpha de Krippendorff puede encontrarse en su página web: http://www.
asc.upenn.edu/usr/Krippendorff. Hayes y Krippendorff (2007) han creado una
macro que calcula la alfa de Krippendorff en SPSS y SAS, y está disponible en

http://www.comm.ohio-state.edu/ahayes/macros.htm.
Determinar un nivel aceptable de fiabilidad es el siguiente paso en el esta-
blecimiento de la fiabilidad de los datos. Desafortunadamente, no hay una res-
puesta sencilla y universalmente aceptada para esto. Mencionamos a conti-
nuación la recomendación de Krippendorff, que es ampliamente compartida
(2004: 241):
— Confíe solo en variables con fiabilidades por encima de α = 0,800.

— Considere variables con fiabilidades entre α = 0,667 y α = 0,800 solo
para extraer conclusiones provisionales.
Finalmente, la exactitud es el grado en el que un proceso se ajusta a un es-

tándar dado. Los datos provienen de la comparación entre los resultados ob-
tenidos de la codificación de un texto realizada por el codificador y de la codi-
ficación estándar (test estándar). Las variaciones entre ellas son desviaciones
de un estándar dado. Esto es lo que se denomina test de fiabilidad y es la prueba
de fiabilidad más sólida posible. Sin embargo, presenta el problema de la de-
finición de la codificación estándar (o test estándar) con respecto a la cual se
medirán todo el resto de codificaciones. En el análisis de contenido, algunas
veces no es fácil encontrar estándares de exactitud adecuados, ya que las inter-

pretaciones de un texto concreto pueden compararse solo con otras interpre-
taciones.
El test de fiabilidad es una de las maneras más comunes de seleccionar a
los codificadores, cuando el investigador tiene la intención o la posibilidad de
contratarlos para la investigación. Tras el período de formación, como ya
hemos explicado más arriba, los codificadores deben pasar el test de fiabilidad
antes de ser aceptados y pasar al proceso de codificación de textos.
Con respecto a la validez, podemos diferenciar tres tipos fundamentales:
validez nominal, validez social y validez empírica. La validez nominal se refiere
a las conclusiones que son «obvias», que podemos creer de forma inmediata,
porque «tienen sentido». La validez nominal es «la garante de todos los otros
tipos de validez» (Krippendorff, 2004: 314). La validez social se refiere al grado
en el que las categorías y resultados de investigación del análisis de contenido
tienen importancia y significado para la sociedad en su conjunto. Finalmente,
la validez empírica es «el grado en el que los datos disponibles y la teoría es-
tablecida confirman varias etapas de un proceso de investigación, el grado en
el que las inferencias específicas resisten el reto de datos adicionales, de las
conclusiones de otros trabajos de investigación» (Krippendorff, 2004: 315).
La validez empírica puede diferenciarse analíticamente en varios compo-
nentes. Cada investigador crea su propia lista. A continuación mostramos la
lista de componentes de Krippendorff (2004: 318-338):
— Validez muestral: el grado en el que una muestra de textos representa a

la población de interés.
— Validez semántica: el grado en el que las categorías del análisis se corres-
ponden con los significados de estos textos en el contexto en el que se
crean.
— Validez estructural: el grado en el que los datos disponibles o la teoría es-
tablecida se corresponden con las relaciones basadas en modelos que el
análisis de contenido está empleando.
— Validez funcional: la correspondencia entre lo que examina el análisis
de contenido y lo que ya han examinado otros análisis con éxito.
— Validez correlativa (que puede dividirse, a su vez, en validez discrimi-
nante y convergente). Dedicaremos más espacio a este importante tipo de
validez en una sección separada.
— Validez predictiva: está relacionada con la capacidad del análisis para
predecir acontecimientos sobre los que aún no hay datos disponibles.
1.4.1. VALIDEZ CORRELATIVA (VALIDACIÓN CRUZADA)
Para comprobar si los resultados de un método de análisis de contenido son

válidos en relación con otras medidas del mismo fenómeno base necesitamos
comparar estos dos métodos entre sí. Esto es lo que se denomina validez co-
rrelativa o correlacional. La idea principal es que la validez «viaja en altas co-
rrelaciones» (Krippendorff, 2004: 333) o, dicho con otras palabras, que cuanto
mayor es la correlación entre dos medidas del mismo fenómeno base, más vá-
lidas son las mediciones.
La validez correlativa implica dos tipos de validación. Por una parte, nece-
sitamos ver el grado de correlación entre las conclusiones de nuestro análisis
de contenido y otros métodos que intentan medir el mismo fenómeno. Esto se
denomina validez convergente. Por otra parte, necesitamos confirmar que no
hay correlación entre los resultados de nuestro análisis de contenido y las me-
didas conocidas para medir fenómenos que son claramente diferentes. Esto
se conoce como validez discriminatoria.
Una forma muy utilizada de evaluar la validez correlativa es el método co-
nocido como Matriz Multiconcepto-Multimétodo (MCMM), desarrollado por
Campbell y Fiske (1959). Supongamos que queremos comparar tres métodos
y tres características (conceptos o fenómenos) medidos mediante estos tres
métodos. Necesitamos calcular la matriz de correlaciones que cruza todos los
métodos y todos los conceptos (gráfico 1.1).
Para construir una MCMM es necesario organizar la matriz de correlacio-
nes por características o conceptos que están, a su vez, anidados dentro de mé-
todos. El gráfico 1.1 muestra tres características (A, B y C), cada una de las
cuales ha sido medida mediante tres métodos diferentes (1, 2 y 3). La matriz
está desplegada en bloques por método. La MCMM es como una matriz de co-
rrelación normal entre las medidas obtenidas por los distintos métodos, con
una excepción: en vez de unos a lo largo de la diagonal, como sucedería en

una matriz de correlación típica, lo que tenemos son estimaciones de la fiabi-
lidad de cada medida.
Las correlaciones de la MCMM están agrupadas en tres formas diferentes:
diagonales, triángulos y bloques (Campbell y Fiske, 1959: 82).
1) La diagonal principal, marcada en gris oscuro, es la diagonal de la fia-

bilidad (monoconcepto-monométodo). En realidad, se trata de tres dia-
gonales de fiabilidad, una por método. Hay tantas correlaciones en la
diagonal de la fiabilidad como hay medidas (en el ejemplo, tenemos un
total de nueve medidas y, por tanto, nueve coeficientes de correlación).
La primera casilla en el gráfico 1.1 viene dada por la correlación de la ca-
racterística A del método 1 con la característica A del método 1 (para
abreviar, A1A1). Se trata, por tanto, de una correlación de la medida con-
sigo misma.
2) Las diagonales de validez, marcadas en gris claro, representan correla-
ciones entre la misma característica medida mediante distintos méto-
dos (monoconcepto-multimétodo). Puesto que se trata de dos medidas
del mismo concepto, es de esperar que las correlaciones a lo largo de la
diagonal de validez sean altas.
40
2-PRINCIPAL español.qxp
GRÁFICO 1.1
LA MATRIZ MULTICONCEPTO-MULTIMÉTODO DE CAMPBELL Y FISKE (1959: 82)

22/6/12
Método 1 Método 2 Método 3

Con A Con B Con C Con A Con B Con C Con A Con B Con C
12:02
Método 1 Concepto A (.89)

Concepto B .51 (.89)
Concepto C .38 .37 (.76)
Página 40
Método 2 Concepto A .57 .22 .09 (.93)

Concepto B .22 .57 .10 .68 (.94)
Concepto C .11 .11 .46 .59 .58 (.84)
Método 3 Concepto A .56 .22 .11 .67 .42 .33 (.94)
Concepto B .23 .58 .12 .43 .66 .34 .67 (.92)
Concepto C .11 .11 .45 .34 .32 .58 .58 .60 (.85)
Fuente: Campbell y Fiske (1959).
CUADERNOS METODOLÓGICOS 47
3) Los triángulos multiconcepto-monométodo, en blanco, son las correla-

ciones entre medidas que se han obtenido por el mismo método. Si las
correlaciones en los triángulos son altas es porque medir diferentes con-
ceptos mediante el mismo método da como resultado medidas correla-
cionadas.
4) Los triángulos multiconcepto-multimétodo, puntuados en gris, son las
correlaciones que difieren tanto en concepto como en método. Por ejem-
plo, la correlación entre la característica A obtenida mediante el método
2 y la característica B obtenida mediante el método 1 (A2-B1). Puesto
que estas correlaciones no comparten ni el concepto ni el método, es de
esperar que sean las más bajas de la MCMM.
5) Los bloques monométodo están formados por todas las correlaciones
que comparten el mismo método.
6) Los bloques heterométodo están formados por todas las correlaciones
que no comparten el mismo método.
Un método tiene validez correlativa cuando se cumplen las siguientes con-

diciones, tal y como muestra la matriz de correlaciones del gráfico 1.1:
1) Los coeficientes de correlación en la diagonal de fiabilidad son los más

altos de la matriz de correlaciones.
2) Los coeficientes de correlación en las diagonales de validez deberían ser
significativamente diferentes de cero y lo suficientemente altos como
para merecer la atención del investigador.
3) El coeficiente de correlación en la diagonal de validez debería ser más

alto que los valores de la misma columna y fila dentro del mismo bloque
heterométodo.
4) El coeficiente de correlación en la diagonal de validez debería ser más
alto que todos los coeficientes de correlación en los triángulos hetero-
concepto-monométodo. Dicho en otras palabras: el efecto de los con-
ceptos debería ser más fuerte que el efecto de los métodos.
5) En todos los triángulos debería verse una pauta similar de interrela-
ciones.
Veamos cómo funciona la validez convergente con un ejemplo concreto.

Helbling y Tresch (2011) quieren validar de forma cruzada cuatro métodos di-
ferentes elaborados para determinar las posiciones políticas de los partidos
políticos: datos de encuestas individuales, encuestas a expertos, análisis de
contenido de programas electorales y análisis de contenido de debates en me-
dios de comunicación. Concretamente, las medidas a comparar son las siguien-
tes: los European Election Studies, las encuestas a expertos elaboradas por Ray
(1999) para el año 1996 y por el grupo Chapel Hill para el año 2002, el Politi-
cal Claims Analysis (análisis de contenido de medios de comunicación), el Core
Sentence Approach (análisis de contenido de medios de comunicación) y el
Manifesto Project. Para hacer esto siguen dos pasos: primero, correlacionan
las posiciones políticas resultantes de cada método; después, realizan un aná-
lisis exploratorio de factores. Para simplificar, aquí describimos solo la pri-
mera parte de su procedimiento de validación. Los lectores interesados en más
detalles pueden consultar el artículo completo.
Tras la descripción de cada base de datos que se va a comparar detallada-
mente, Helbling y Tresch llegan a los siguientes resultados de correlación.
TABLA 1.3
VALIDEZ CONVERGENTE DE LAS POSICIONES POLÍTICAS DE LOS PARTIDOS:

CORRELACIONES (N en paréntesis)
Casos CSA Casos PCA
EES Expertos CSA EES Expertos PCA
Expertos 0,541*** Expertos 0,643***

(31) (45)
CSA 0,401* 0,714*** PCA 0,478*** 0,592***
(31) (31) (45) (45)
Manifiesto 0,654*** 0,878*** 0,648*** Manifiesto 0,521*** 0,650*** 0,722***
(31) (31) (31) (45) (45) (45)
Niveles de significación estadística: * p < 0,05; ** p < 0,01; *** p < 0,001. Abreviaciones: Core Sen-
tence Approach (CSA), European Elections Studies (EES), Political Claims Analysis (PCA).
Fuente: Helbling y Tresch (2011).
Como puede observarse en estos resultados, todos los coeficientes son po-
sitivos y altamente significativos. Los autores encuentran la correlación más
alta entre el Manifesto Project y los datos de las encuestas a expertos, confir-
mando las pruebas de validez cruzada realizadas anteriormente por otros
investigadores (Ray, 2007). Además, no parece existir una diferencia impor-
tante entre los dos métodos de análisis de contenido de los medios de comu-
nicación. Tal como se muestra en la tabla 1.3, el CSA se correlaciona alta-
mente con las opiniones de los expertos, mientras que el PCA se correlaciona
altamente con los programas electorales de los partidos (Helbling y Tresch,
2011: 179).
1.5. El círculo virtuoso del análisis de contenido

Después de analizar los términos y los procedimientos básicos empleados en
el análisis de contenido de los textos políticos, en este último apartado del pri-
mer capítulo procedemos a resumir todos los pasos de la metodología del aná-
lisis de contenido.
Los diagramas de flujo en los que habitualmente se representan los pasos
del análisis de contenido muestran estos pasos como si se produjeran de ma-
nera directa y consecutiva del anterior al siguiente, sin retrocesos ni alteracio-
nes, hasta llegar a la presentación de los resultados. En el diagrama de flujo que
nosotros mostramos a continuación, sin embargo, hemos incluido flechas (es
decir, pasos) que van hacia atrás con el fin de indicar que a veces, en el análi-
sis de contenido, es necesario volver sobre nuestros pasos antes de poder pro-
gresar. Más aún, el análisis de contenido es un proceso iterativo. Esto quiere
decir que una vez que se alcanzan resultados se tendrán que volver a analizar
todas las fases realizadas como mínimo una vez más.
Continuemos con un ejemplo que muestra la importancia de comenzar con
la definición de los conceptos y continuar con el análisis de las definiciones.
Jagers y Walgrave (2007) analizan el populismo en el discurso político de los
partidos en Bélgica. Antes de entrar en detalles sobre su análisis de contenido,
tenemos que subrayar que no criticamos en absoluto a estos dos autores. Pre-
sentan un análisis válido del populismo, que modificamos en interés del argu-
mento. Jagers y Walgrave ofrecen la siguiente definición operativa de popu-
lismo: «El populismo siempre se refiere a la gente y justifica sus acciones

haciendo un llamamiento al pueblo e identificándose con el pueblo» (2007:
322). Al aplicar esta definición, los investigadores se dieron cuenta de que
todos los partidos belgas son, en cierta medida, populistas. Aunque se espera-
ban diferencias en los grados, su definición «débil» resultó ser insuficiente
para distinguir entre los tipos de partidos. Por lo tanto, Jagers y Walgrave tam-
bién ofrecieron una definición «fuerte». La definición fuerte afirma que el
populismo es una combinación de tres elementos: 1) referencias a la gente;
2) ideas anti establishment, y 3) exclusión de determinadas categorías de la
población (Jagers y Walgrave, 2007: 322). La segunda ronda en la aplicación
de la definición fuerte les permitió distinguir entre partidos populistas y no po-
pulistas.
La lección que hay que aprender de este ejemplo es que el análisis de con-
tenido de los textos políticos es un proceso de investigación iterativo. Por lo ge-
neral, esto significa que se entra en el círculo de definir el concepto, analizarlo
y revisarlo. Con frecuencia, nos moveremos en torno a este círculo muchas
veces, antes de poder estar seguros de la validez y fiabilidad del análisis. Esto
significa que nunca se debe realizar el análisis del universo total de textos al
mismo tiempo, sino que se debe comenzar testando nuestras ideas en una pe-
queña muestra del universo total de textos a analizar.
GRÁFICO 1.2
EL ANÁLISIS DE CONTENIDO PASO A PASO
Pregunta de investigación
Conceptualización e hipótesis
Selección de textos relevantes: Validez estructural

muestreo y descomposición en unidades de análisis
Esquema de clasificación:
categorías mutuamente excluyentes y exhaustivas
Categorías derivadas Categorías derivadas

empíricamente empíricamente
Validez semántica
Codificación de los textos
Codificación por ordenador: Codificación manual:
- Descomposición en unidades - Descomposición en unidades Fiabilidad

- Diccionarios pre-establecidos - Manual de codificación:
- Diccionarios originales: esquema de clasificación,
codificación manual de muestras, definiciones y reglas de
frecuencias de categorías, listas aplicación
de palabras clave, etc. - Formación de codificadores:
- Programa informático ejercicios de codificación y test
de fiabilidad
- Hoja de códigos
Validez nominal
Informe de resultados y comprobación de hipótesis Validez correlativa
Validez predictiva

Análisis de Contenido de Textos Políticos

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Análisis de Contenido de Textos Políticos

Enviado por

Direitos autorais:

Formatos disponíveis

2-PRINCIPAL español.

qxp 22/6/12 12:02 Página 11

1.1. La historia del análisis de contenido en ciencia política

vestigación basada en el análisis de contenido trabajaba en tres disciplinas:

ANÁLISIS DE CONTENIDO DE TEXTOS POLÍTICOS. UN ENFOQUE CUANTITATIVO 13

partidos en el espacio político. Las publicaciones dedicadas de forma especí-

1.2. El análisis de contenido: algunas definiciones

de investigación de la comunicación basadas en estos elementos. Por esta

los efectos pueden ser simplemente si el receptor ha comprendido el mensaje

antes de poderse aplicar; y, en segundo lugar, la definición de Krippendorff

ANÁLISIS DE CONTENIDO DE TEXTOS POLÍTICOS. UN ENFOQUE CUANTITATIVO 15

(es decir, de la unidad de texto codificada). En nuestro ejemplo, se trataría de

ciaciones y correlaciones. En nuestro ejemplo, los análisis multivariados, tales

1.3. El análisis de contenido paso a paso

El muestreo es el proceso mediante el cual el investigador limita el número de

ANÁLISIS DE CONTENIDO DE TEXTOS POLÍTICOS. UN ENFOQUE CUANTITATIVO 17

analizar la repercusión de la globalización sobre la competición partidista en

países y otros, e incluso dentro de un mismo país en períodos históricos dife-

1.3.2. DESCOMPOSICIÓN EN UNIDADES DE CODIFICACIÓN

Se entiende por descomposición en unidades de codificación la designación de

ANÁLISIS DE CONTENIDO DE TEXTOS POLÍTICOS. UN ENFOQUE CUANTITATIVO 19

investigación todo lo que el investigador necesita saber es el número de apari-

esta palabra también se usa en frases como «un ambiente de globalización» o

Un método de descomposición en unidades que utiliza la cuasi-frase como

El Partido Demócrata apoya la nueva Constitución de la Unión Europea por-

EJEMPLO DE CODIFICACIÓN MEDIANTE FRASES-NÚCLEO

1 Partido Demócrata Constitución +1 Eficiencia en la toma

2 Partido Demócrata Adhesión de Turquía –1 Aumento del desempleo

Fuente: Helbling, Höglinger y Wüst (2010: 508).

ANÁLISIS DE CONTENIDO DE TEXTOS POLÍTICOS. UN ENFOQUE CUANTITATIVO 21

nal del enfoque de la frase-núcleo resultará evidente cuando expliquemos el

1.3.3. CUANTIFICACIÓN Y CODIFICACIÓN

La codificación es el proceso conforme al cual «datos sin procesar se transfor-

man y agregan de forma sistemática en unidades que permiten una descripción

Con frecuencia, los enfoques de análisis de contenido son una combina-

conceptos más rigurosos y válidos se contrarrestan con las deficiencias en fia-

ANÁLISIS DE CONTENIDO DE TEXTOS POLÍTICOS. UN ENFOQUE CUANTITATIVO 23

aún no son capaces de mejorar la fiabilidad humana. En segundo lugar, la

1.3.3.1. Codificación manual

En el análisis de contenido manual, la fiabilidad depende de la destreza, la in-

Los esquemas de clasificación, también denominados sistemas de codifica-

ANÁLISIS DE CONTENIDO DE TEXTOS POLÍTICOS. UN ENFOQUE CUANTITATIVO 25

En lo que respecta a la elaboración de un sistema de codificación, el primer

EJEMPLO DE CODIFICACIÓN MEDIANTE FRASES-NÚCLEO

1 Partido Demócrata Constitución +1 Toma de decisiones

Fuente: Helbling, Höglinger y Wüst (2010: 508).

De acuerdo a nuestras definiciones y al resultado de nuestro análisis (en

El proceso de toma de decisiones de la Unión Europea necesita ser más efi-

En el contexto del programa electoral completo de un partido a las eleccio-

El manual de codificación y la formación del codificador

En general, los investigadores formulan instrucciones de codificación que con-

tigadores elaboran una explicación completa de los diccionarios empleados

ANÁLISIS DE CONTENIDO DE TEXTOS POLÍTICOS. UN ENFOQUE CUANTITATIVO 27

nes y apéndices técnicos que se encuentran en las publicaciones de resultados.

el texto codificado por el investigador es el resultado «correcto»), serán contra-

1.3.3.2. Codificación por ordenador

El análisis de la frecuencia de palabras concretas es la forma más sencilla de

nador del análisis de contenido por ordenador, los programas informáticos

1) Importación y gestión de textos: importar, abrir y guardar un texto; agru-

No todos los programas informáticos actuales de análisis de contenido

ANÁLISIS DE CONTENIDO DE TEXTOS POLÍTICOS. UN ENFOQUE CUANTITATIVO 29

yoría de ellos, sin embargo, realizan las operaciones de codificación (dicciona-

Un «diccionario» es equivalente al esquema de categorías empleado en la codi-

juzgadas por los codificadores o los usuarios de los textos» (Krippendorff,

Expertos 0,541* Expertos 0,643*