Você está na página 1de 273

Revue de lInstitut Royal de la Culture Amazighe

Numro 9 2014

sinag-Asinag est une revue scientifique et culturelle marocaine ddie lamazighe avec

ses composantes linguistique et civilisationnelle. Elle est plurilingue et multidisciplinaire et


comprend des dossiers thmatiques, des articles, des entretiens, des comptes rendus, des
rsums de thses et des crations littraires. La revue sinag-Asinag est dote dun comit
scientifique et ouverte la communaut scientifique nationale et internationale.

IRCAM
Dpt lgal : 2008 MO 0062
ISSN : 2028-5663
Imprimerie El Maarif Al Jadida Rabat 2014

Sommaire
Prsentation ........................................................................................................ 7
Patrick Andries
Normalisation et tat des lieux de la prise en charge de lamazighe et des
tifinaghes ........................................................................................................ 11
Ataa Allah Fadoua & Siham Boulaknadel
La promotion de lamazighe la lumire des technologies de
linformation et de la communication .............................................................. 33
Carlo Zoli
'Smallcodes', A Unified Computational Linguistics Toolbox for Minority
Languages ....................................................................................................... 49
Nora Tigziri
La ralisation de grands corpus linguistiques berbres normaliss interoprables :
enjeux culturels et enjeux dingnierie linguistique .......................................... 75
Mohamed Outahajala, Lahbib Zenkouar, Yassine Benajiba & Paolo Rosso
Utilisation des CACs et des ressources externes pour lamlioration des
performances de ltiquetage morphosyntaxique .............................................. 91
Violetta Cavalli-Sfortza
Characterizing the Evolution of Arabic Learners Texts: A Mostly Lexical
Perspective ..................................................................................................... 105
Ali Rachidi
Reconnaissance automatique de caractres et de textes amazighes : tat des lieux
et perspectives ............................................................................................... 119
Abdenbi Abnaou, Fadoua Ataa Allah & Nsiri Benayad
Vers un systme de reconnaissance automatique de la parole en amazighe bas
sur les transformations orthogonales paramtrables ........................................ 133

Fadili Hammou & Chakiri Malika


Conception et peuplement d'une ontologie modlisant la notion de contexte
enrichie par les fonctions lexicales pour la dtection du sens dans le texte. Parler
du Maroc central ............................................................................................ 147
Fadoua Ataa Allah, Siham Boulaknadel et Hamid Souifi
Jeu dtiquettes morphosyntaxiques de la langue amazighe ............................. 171
Robert Bibeau
Eurka un dpt dobjets dapprentissage compatible avec le profil dapplication
Normetic (LOM) ........................................................................................... 185
Entretien avec Patrick Andries & Lahbib Zenkouar
Ralis par le Comit de Rdaction ................................................................ 197

Comptes rendus
Fouad Brigui : Revitalisation de la langue amazighe : Dfis, enjeux et
stratgies dAhmed Boukous ........................................................................ 209

Rsums de thses ............................................................................... 213

Prsentation

Dmocratiser loutil informatique : telle est en fait lune des proccupations


majeures des dcideurs en matire de technologies de linformation et de la
communication (TICs). En tmoigne la tendance actuelle de ces technologies,
savoir lorientation de l'utilisation des nouvelles productions technologiques
(logicielles et matrielles) dans le sens de faciliter au grand public l'accs
l'information et ce, en prenant en considration les spcificits locales de
lutilisateur : langue, culture, niveau intellectuel, etc.
Les communauts et organisations (nationales et internationales) uvrant dans
le domaine de linformation et de la communication ont bien saisi les enjeux de
la valorisation de la langue et de la culture dans les TICs. Les langues naturelles
peu dotes sur le plan informatique telles que la langue amazighe, ont vu
merger plusieurs plates-formes et projets de recherche nationaux et
internationaux qui favorisent le dveloppement de la langue et de la culture sur
la base des nouvelles technologies de linformation.
Le prsent numro de la revue sinag-Asinag, constitu de douze articles (huit
en franais, deux en anglais et deux en arabe) exclusivement consacrs au
domaine des technologies appliques la langue, vise la mise en exergue des
avances ralises dans ce champ de recherche.
La contribution de Patrick Andries dresse un tableau panoramique propos de
lintroduction de lamazighe dans les nouvelles technologies lchelle
internationale. Il retrace les diffrentes tapes en commenant par le niveau le
plus basique quest le codage du systme de lalphabet tifinaghe. Ensuite, il
aborde lintgration du clavier amazighe dans les systmes dexploitation
(Windows, en particulier), les polices de caractres et la prise en charge du
tifinaghe dans les langages Web pour arriver au stade le plus avanc. Cest-dire le renseignement du registre Unicode CLDR (Common Locale Data
Repository) et la reconnaissance du systme graphique tifinaghe dans les
bibliothques logicielles.
Dans leur article, Fadoua Ataa Allah et Siham Boulaknadel traitent du rle des
technologies de linformation dans la promotion de lamazighe au niveau
national. La technologie, procd de sauvegarde du patrimoine culturel, y est
considre comme un vecteur de lamnagement linguistique de lamazighe
(diffrentes oprations de codification, gestion des ressources, etc.). Cette
technologie offre galement des moyens qui facilitent lenseignement de la
langue en permettant la promotion de lamazighe par lexploitation de la

technologie ducationnelle, de lapprentissage distance et des outils du TAL


amazighe. Aussi les auteurs proposent-elles une mthode labore pour
linformatisation de lamazighe court, moyen et long termes.
Le projet de bote outils unifis de la linguistique computationnelle
SmallCodes , spcialement conu pour les langues peu dotes, est prsent
par Carlo Zoli. Celui-ci explique lobjectif du projet en montrant les dmarches
des champs disciplinaires mobilises dans sa recherche et prsente une
dmonstration des performances du systme dvelopp. Il propose ensuite une
analyse des approches existantes et essaie une projection de son approche sur
lamazighe.
Nora Tigziri et Henri Hudrisier exposent le projet Humanit DigitMaghreb qui
vise la construction dune bibliothque de corpus multilingues (oraux, littraires
et linguistiques), synergiques et normaliss pouvant garantir la communisation
inter-langues. Ils expliquent lutilisation de la norme historique TEI (Text
Encoding Initiative) en vue de raliser leurs objectifs de dpart et soulignent les
difficults rencontres au niveau des Sciences humaines.
Dans le domaine de la construction des corpus annots, Mohamed Outahajala et
al. proposent damliorer le rendement de leur tiqueteur morphosyntaxique par
lexploitation des processus CACs (Champs Alatoires Conditionnels). Sur un
texte prtrait, ils exprimentent leur systme ainsi augment et comparent les
rsultats obtenus par le choix des donnes dauto-apprentissage ayant une
valeur de confiance leve ceux obtenus sur la base de donnes alatoires.
Larticle de Violetta Cavalli Sfortza traite deux aspects de la pertinence des
textes et leur degr de facilit dans le processus de lecture pour la langue arabe.
Il sagit de la lisibilit du texte, indpendamment de lapprenant ou du
programme d'enseignement, et du degr dappropriation du texte dpendant des
connaissances et du vocabulaire de lapprenant. Aprs avoir pass en revue la
littrature existant sur la question, lauteur propose un modle prdictif de cette
pertinence et met en uvre des outils techniques pour une partie de lanalyse
(e.g. MADA). Elle essaie une projection sur la lisibilit de la langue amazighe,
suite quoi elle prsente les limites de ltude.
La reconnaissance optique des caractres tifinaghes est souleve par Ali
Rachidi. Ce dernier prsente une synthse des travaux raliss dans ce domaine
au niveau national et procde leur comparaison la lumire des bases de
donnes des caractres tifinaghes utilises.
La reconnaissance de la parole est souleve par Abenaou et al. Les auteurs
dtaillent les mthodes et algorithmes adopts pour la synthse des mots en
amazighe en proposant des techniques pour optimiser les donnes et augmenter
la vitesse de la reconnaissance. Ils concluent par la prsentation de rsultats
exprimentaux et une valuation de la performance du systme.

La contribution conjointe de Hammou Fadili et Malika Chakiri expose la


conception et llaboration dun modle dontologies de domaines ; modle
enrichi par des liens lexico-smantiques associs aux fonctions lexicales de la
Thorie Sens-Texte (Melcuk, 1997) et la notion du contexte. Les auteurs
fournissent quelques dfinitions des outils de travail utiliss tels que les
ontologies, les langages informatiques utiliss et la relation contexte-ontologie.
Ils abordent la constitution du corpus ontologique et notent des difficults dans
le cas de lamazighe, auxquelles ils proposent des solutions linguistiques et
technologiques.
La contribution de F. Ataa Allah, S. Boulaknadel et H. Souifi est consacre
llaboration dun Jeu dtiquettes morphosyntaxiques de la langue amazighe. Le
travail se fonde sur les recommandations EAGLES qui visent la rutilisation des
corpus et la comparaison des langues dans le domaine du traitement automatique
du langage naturel.
Le domaine des technologies appliques lapprentissage est au centre de
larticle de Robert Bibeau. Y sont traites les problmatiques daccessibilit et
de normalisation des ressources denseignement et dapprentissage, notamment
dans le cas de plusieurs instances, utilisant diffrentes langues, sous divers
environnements technologiques. Le profil NORMETIC, variante dapplication
de la norme IEEE 1484.12.1 (LOM) des mtadonnes dobjets dapprentissage,
est conu pour rpondre ces exigences. Eurka, banque des ressources
dapprentissage, suffisamment dcrite dans le prsent article, est un exemple de
bases de donnes compatibles avec le profil NORMETIC.
Le volet en langue arabe contient deux contributions. Dans lune, Mohamed
Lguensat aborde la graphie du tifinaghe et propose une approche pour son
amnagement. Il appuie sa thse par des modles concrets et souligne les dfis
lis, dune part, aux dterminants techniques et informatiques et, dautre part,
aux lments de la communication visuelle. Dans lautre, Hassan Jaa et
Youssef Ait Ouguengay brossent un panorama gnral des travaux qui ont
accompagn, au cours de la dernire dcennie, lintroduction de lamazighe
dans les nouvelles technologies de linformation ; notamment les efforts
consentis au niveau national et lIRCAM.
Le dossier est agrment dun entretien avec Lahbib Zenkouar et Patrick
Andries sur des questions relatives la promotion de lamazighe dans les TICs
ainsi qu la recherche scientifique dans ce domaine.
Le prsent numro comprend galement un compte rendu labor par Fouad
Brigui sur louvrage dAhmed Boukous intitul : Revitalisation de la langue
amazighe : Dfis, enjeux et stratgies, publi par lInstitut Royal de la Culture
Amazighe en 2012.
La rubrique Rsums de thses est destine faire connatre des travaux
acadmiques rcents et indits sur lamazighe. Y sont livrs deux rsums

portant sur la reconnaissance automatique des caractres tifinaghes imprims et


manuscrits. Le premier, d Youssef Es-saady, traite de deux approches
disjointes : lune, syntaxique, utilise les automates finis ; lautre, neuronale.
Lauteur analyse les rsultats des deux approches et conclut leur pertinence.
Le second, de Moustapha Amrouche, propose, dabord, une modlisation
markovienne complmente par une technique de caractrisation de caractres
isols, et, ensuite, la combinaison d'analyses par chemins discriminants (DPHMM) et des caractristiques morphologiques de la graphie amazighe. Le test
de rendement et les rsultats des deux thses sont effectus sur une base de
donnes nomme AMHCD, labore dans le cadre du travail de Youssef Essaady.
La Direction et le Comit de rdaction de la Revue tiennent exprimer leurs
plus vifs remerciements toutes les personnes qui ont apport une quelconque
contribution la ralisation de ce numro : Patrick Andries, Fadoua Ataa Allah,
Acha Bouhjar, Belad Bouikhalene, Siham Boulaknadel, El Houssine
Bouyakhf, Violetta Cavalli-Sfortza, Abdelkrim El Moukhtari, Lahbib Fouad,
Abdelfattah Hamdani, El Mehdi Iazzi, Rachid Laabdalaoui, Mohamed
Maamouri, Kamal Nat-Zerrad, Patrice Pognan, Mohamed Yeou, Abdellah
Yousfi et Lahbib Zenkouar.

sinag-Asinag

10

sinag-Asinag, 9, 2014, p. 11-31

Normalisation et tat des lieux de la prise en charge de


lamazighe et des tifinaghes1
Patrick Andries
Conseils Hapax, Qubec, Canada
Membre du consortium Unicode

In this paper, we look at the progress made since Tifinagh characters were
encoded in ISO/IEC 10646 and Unicode in 2005. Eight years ago, it was
impossible to send documents written in Tifinagh without reference to a private
encoded font. Today, you can create HTML pages, XML documents, email in
Tifinagh. Now, There is a standard keyboard approved by the Moroccan
standard body to enter Tifinagh text, a standard for sorting Tifinagh strings,
and Microsoft provides by default in its newest versions a font that supports the
Tifinagh. users can now view HTML pages without having to explicitly install a
Tifinagh font on their system. Software libraries like ICU also support Tifinagh
and it is possible in theory to have internet domain names in Tifinagh.
Dans cette contribution, nous nous pencherons sur le chemin parcouru depuis
le codage des caractres tifinaghes dans lISO 10646 et Unicode en 2005. Il y a
huit ans, il tait impossible denvoyer des documents en tifinaghes sans se
rfrer un codage de police priv. Aujourdhui, on peut crer des pages
HTML, des documents XML en tifinaghes, envoyer des courriels. Il existe un
clavier normalis pour saisir des textes tifinaghes, une norme de tri, Microsoft
fournit une police qui prend en charge les tifinaghes. Lutilisateur peut
dsormais voir des pages HTML sans quil nait explicitement installer de
polices tifinaghes sur son systme. Des bibliothques logicielles comme ICU
prennent galement en charge les tifinaghes et il est possible, en thorie,
davoir des noms de domaine Internet en tifinaghes.

Nous tenons vivement remercier lIRCAM et plus particulirement le directeur du


CEISIC, Youssef At Ouguengay, pour leur accueil chaleureux et lorganisation du
colloque international Rabat au cours duquel une premire version de cet article a t
prsente. Nous voulons galement ici rendre hommage au prdcesseur de M. At
Ouguengay, le professeur Lahbib Zenkouar, sans lequel la normalisation informatique du
tifinaghe naurait t ni aussi rapide ni aussi complte.

11

Patrick Andries

Introduction
Le 31 mars 2005, Unicode 4.1 tait publi. Il comprenait tous les tifinaghes
normaliss de lIRCAM ainsi que les principaux caractres touaregs et kabyles.
Avant cette date, il nexistait aucune faon de coder de manire normalise des
textes tifinaghes. Chaque producteur utilisait un codage, le plus souvent de son cru,
li une police particulire. Il tait donc virtuellement impossible dchanger des
documents produits par des personnes qui utilisaient des polices tifinaghes
diffrentes. Ctait vrai pour les courriels, les documents Word, les pages HTML
en gnral et, bien sr, celles dune encyclopdie en ligne naissante comme
Wikipdia.
Depuis huit ans bien des choses ont chang : les tifinaghes normaliss sont
dsormais de plus en plus prsents sur Internet et dans dautres produits et normes
informatiques. Nous allons brivement passer en revue ci-dessous ces heureuses
amliorations.

Les caractres Unicode


Le lecteur de cette contribution connat certainement les premiers caractres
tifinaghes qui ont t cods dans Unicode 4.1 en mars 2005, car ils ont fait lobjet
de plusieurs communications de lIRCAM et de ses chercheurs2. Il ignore peut-tre
certaines prcisions apportes depuis 2005 qui se retrouvent dans les dernires
versions dUnicode.

Les diacritiques
Plusieurs variantes tifinaghes modernes utilisent des diacritiques pour complter
les lettres du bloc tifinaghe. Cest ainsi que la notation Hawad utilise des
diacritiques du bloc [U+0300-U+036F] commun de nombreuses transcriptions
latines. Ces signes sutilisent pour reprsenter des voyelles ou des consonnes
trangres. Dans cette notation, <U+2D35, U+0307> reprsente un a court,
<U+2D49, U+0304> un i long /i:/ et <U+2D31, U+0302> permet dcrire
un p . On indique certaines voyelles longues laide de deux signes diacritiques,
un long /e:/ scrit <U+2D49, U+0307, U+0304> . Ces signes sont affichs
cte cte, et non empils, au-dessus de la lettre de base dans lordre dapparition
dans la chane code.

Quatre caractres ajouts dans Unicode 6.0 et 6.1


Deux caractres tifinaghes ont t ajouts dans Unicode 6.0 (et bien sr dans la
version correspondante de lISO/CEI 10646) :

U+2D70 SPARATEUR TIFINAGHE


= tazaraste

U+2D7F LIANT DE CONSONNES TIFINAGHE


2

Voir, par exemple, Lahbib ZENKOUAR (2004 : 173-175).

12

Normalisation et tat des lieux de la prise en charge de lamazighe et des tifinaghes

Le caractre U+2D70 est ce signe targui dont Prasse dit3 Au Hoggar on nous a
donn le sparateur , lintrieur duquel scrivait la dernire lettre de chaque
mot phontique.
Les deux figures ci-dessous illustrent lutilisation de ce sparateur. On remarquera
que le signe est rflchi quand il scrit dans un contexte de droite gauche.

Figure 1 : Exemple d'utilisation du sparateur de mot, Sud de l'Algrie

Figure 2 : Utilisation au Niger dans un contexte de gauche droite


Le liant de consonnes U+2D7F est un caractre de commande qui permet de
forcer la formation dune biconsonne. Nous tudierons son utilisation dans la
section 2.3. Ligatures.
Unicode 6.1 a par la suite ajout deux caractres :

U+2D66 LETTRE TIFINAGHE Y


U+2D67 LETTRE TIFINAGHE YO
Y et YO sont simplement deux voyelles prconises par lAPT (Association pour
la promotion des tifinaghs) au Niger pour transcrire les voyelles et o .

Ligatures
Ds le codage des tifinaghes dans Unicode 4.1, il tait possible de prciser que lon
prfrerait obtenir une biconsonne (ou une triconsonne) en insrant un U+200D
liant sans chasse entre les consonnes qui constituent la ligature souhaite. On peut
3

Karl-G. PRASSE (1972 : 152).

13

Patrick Andries

galement utiliser U+200C antiliant sans chasse entre deux consonnes pour
dcourager la formation dune ligature partir de ces deux lettres.
Cest ainsi que lon peut demander la formation de la biconsonne rt en crivant
<U+2D54, U+U200D, U+2D5C> ( ). Les polices pourvues dune telle ligature
devraient en prsence de ces caractres afficher le glyphe de celle-ci, par exemple
, , , ou selon la police. Il existe galement quelques cas de triconsonnes :
parmi celles-ci notons le groupe consonantique nft dont la ligature est
parfois et nkn reprsent dans certaines rgions par . Pour bien fixer
les ides, on demandera la formation optionnelle de la ligature nkn laide de
la suite suivante de caractres : <U+2D4F, U+200D, U+2D3E, U+200D,
U+2D4F>.
Certaines polices pourront tre dpourvues de ligatures, dautres nen inclure que
pour certaines variantes gographiques. Si une police venait ne pas avoir de
ligature correspondant la suite de caractres lie par un liant sans chasse, la police
devrait simplement afficher les deux consonnes de base, savoir dans notre
exemple ci-dessus.
Toutefois, aux yeux daucuns, il est apparu que le liant sans chasse qui nindique
que la formation facultative dune biconsonne ne suffisait pas. Il fallait pouvoir
prciser quune biconsonne devait imprativement tre forme car la prsence de
cette ligature, dans une graphie non voyelle, indique labsence dune voyelle
implicite entre les consonnes qui forment la ligature. Cest cet effet qua t
introduit dans Unicode 6.0 U+2D7F liant de consonnes tifinaghe. Ce caractre
de commande impose la formation de la ligature. ce titre, il joue un rle similaire
au U+0652 soukon, le signe de quiescence arabe. Le tableau ci-dessous illustre
lutilit dune telle convention, les exemples sont tirs du dictionnaire de Foucauld
(Ch. de Foucauld, 1951).
Lettres
de base

Graphie
touargue

Translittration
nkr
nkr
teert
terit
ist
sata
tfert
tefrit
ndr
nadar

Glose en franais
se lever (inhabituel)
se lever (habituel)
marmite en terre
cri strident, trs perant
chasser, pousser devant soi
chasse, poursuite
mot, proposition, vers
petite aiguille rocheuse
excder les forces
fait dtre en chaleur, en rut

Dans les exemples ci-dessus, comme les biconsonnes sont considres comme
obligatoires, on nutilisera pas de U+200D liant sans chasse, mais bien un
4

On aurait aussi pu mettre la place de .

14

Normalisation et tat des lieux de la prise en charge de lamazighe et des tifinaghes

U+2D7F liant de consonnes tifinagh. Le verbe chasser


<U+2D59, U+2D7F, U+2D5C, U+2D57>.

se codera donc

Unicode prescrit que, si une biconsonne obligatoire ne peut tre affiche laide
dune ligature correcte, le systme de rendu devra faire apparatre le liant de
consonnes tifinaghe (LCT) de manire visible afin de bien indiquer labsence de
voyelle entre les deux consonnes. Cela pourra prendre la forme dun losange ,
dun ou de tout autre glyphe. Unicode ne prescrit pas ce glyphe de repli. La
forme de repli de <S, LCT, T> sera donc <gS, , gT> o gS est un glyphe de S, gT
un glyphe de T et est un glyphe qui indique la prsence du liant de consonnes
tifinaghe.
Rappelons que, si un systme de rendu ne peut afficher une biconsonne
optionnelle, cest--dire dont les consonnes de base sont spares par un U+200D
liant sans chasse (LSC), la forme de repli consiste simplement dans laffichage des
consonnes constitutives de cette ligature. La forme de repli de <S, LSC, T> est
donc <gS, gT>.

Indicatif de langue [zgh] de lISO 639


En novembre 2012, le comit de lISO 639-2 a approuv lajout dun indicatif
[zgh] dans la liste officielle des noms de langues5 quelle tient jour. Il dsigne
l amazighe standard marocain soit la norme convergente prconise par
lIRCAM qui intgre les trois parlers amazighes du Maroc.
Avant cette addition, il nexistait aucun moyen de prciser quun document
numrique (crit ou parl) tait en amazighe standard marocain . Il fallait soit
utiliser un indicatif comme [ber] qui reprsente toutes les langues de la famille
berbre (y compris notamment le kabyle et le touareg) soit choisir de dsigner le
texte comme une des variantes dialectales de lamazighe marocain.
On peut dsormais indiquer quun document est en amazighe standard marocain
avec lattribut lang gale zgh . Dans une page HTML (voir lextrait cidessous) dont la langue principale est lamazighe standard marocain, on lindiquera
en ajoutant un attribut lang="zgh" sur la balise correspondant au corps de la
page (<body>) :
<html>
<body lang="zgh">
<h1> </h1>
<p> ,
: ,
!</p>
<p> .

http://www.loc.gov/standards/iso639-2/php/code_list.php

15

Patrick Andries

Claviers
Clavier national normalis
Depuis la normalisation des tifinaghes dans lISO 10646 et Unicode, un clavier
normalis marocain pour la saisie de ces caractres a t homologu par le
SNIMA 6 . Ce clavier respecte la norme internationale en la matire,
lISO/CEI 9995. Il a t repris par plusieurs fabricants de Linux et inclus par
Microsoft dans Windows 8. Normalis il y a plusieurs annes, ce clavier ne
comprend pas les caractres tifinaghes introduits par Unicode 6.0 et 6.1.

Clavier tifinagh sur Windows 8


Microsoft a adopt le clavier SNIMA dans Window 8 :

Pour le slectionner, lutilisateur doit ajouter un profil linguistique partir du


Panneau de configuration de Windows. Le profil linguistique regroupe une langue
et une mthode dentre correspondante. La langue correspond un indicatif
ISO 639. Dans Windows 8, le seul indicatif berbre disponible est [tzm],
savoir le parler amazighe de lAtlas central. partir de Windows 8.1, une nouvelle
langue et son indicatif sont disponibles : lamazighe standard marocain [zgh].

http://hapax.qc.ca/pdf/NM%2017.6.000.pdf

16

Normalisation et tat des lieux de la prise en charge de lamazighe et des tifinaghes

Lillustration ci-dessus reprsente le dialogue de prfrence linguistique dans


Windows 8.1, la prochaine version de Windows. Au moment dcrire ces lignes, il
ntait pas encore totalement traduit en franais.
Une fois le clavier tifinaghe et la langue amazighe choisis, les lettres
apparaissent en bas droite de lcran pour indiquer que le clavier actif est
amazighe. Sur lillustration ci-dessus, le clavier actif est canadien-franais
(FRA/CAFR).

Norme de tri
Un ordre prcis de tri des caractres tifinaghes a galement t normalis par le
SNIMA, il sagit dun delta de la norme internationale en la matire,
lISO/CEI 14651. Le mme ordre est galement mis en uvre par les tris de
caractres Unicode (voir ci-dessus 8. Les bibliothques logicielles).

Les documents XML, HTML


Les fichiers XML peuvent en gnral contenir sans encombre du contenu tifinaghe.
Ces documents comme lextrait ci-dessous sont conformes.
<?xml version="1.0" encoding="UTF-8"?>
<texte xml:lang="ber" lang="ber">
<h1> </h1>
<p> ,
:
!</p>
</texte>

En 2008, lors dune prcdente contribution (Andries, 2008) o nous avons


abord ce sujet, il existait une restriction dans les caractres admis dans les noms

17

Patrick Andries

dlment et dattribut ainsi que dans certaines 7 valeurs dattribut dans les
documents XML 1.0. En effet, lpoque, XML 1.0 ne permettait pour ces noms
que des caractres appartenant au rpertoire dUnicode 2.0. Cela signifiait que ces
noms ne pouvaient contenir des caractres tifinaghes, ou dautres provenant
dcritures comme lthiopien galement introduits aprs Unicode 2.0, pas plus que
des caractres importants rcemment ajouts des critures qui existaient dj dans
Unicode 2.0 comme le latin, larabe, le cyrillique ou le chinois.
Il ntait donc pas permis dcrire en XHTML :
<a name="

" id=" ">attribut touareg</a>

Pas plus que ceci ntait permis en XML 1.0 :


<

></

>

Au vu de cette incongruit, le W3C charg de la normalisation de XML a dcid de


publier la fin 2008 (le 26 novembre trs prcisment) la cinquime dition de
XML 1.08 . Outre la mise jour de quelques rfrences bibliographiques et la
correction de quelques errata, le grand changement introduit par cette dition est de
permettre la quasi-totalit des caractres Unicode et notamment les tifinaghes dans
les noms dlment et dattribut ainsi que les valeurs dattribut.
En thorie, la pratique est identique la thorie, mais en pratique cela peut bien sr
tre diffrent. Pour qu'un nom dlment en tifinaghes soit accept par un logiciel
de traitement de documents XML, il faut tout de mme que les analyseurs
(parseurs) XML soient modifis pour mettre en uvre la nouvelle rgle de
formation des noms. Il faudra donc encore attendre quelques annes avant que les
analyseurs en place soient mis jour pour que lchange de documents
XML/XHTML avec des tifinaghes dans les noms dlments et dattributs puisse
se faire sans encombre. Par contre, si les documents XML ne sont utiliss quen
interne o sont contrls les analyseurs XML, il se peut que, en mettant jour
ceux-ci pour choisir une version qui prend en charge la cinquime dition de XML
1.0, vous puissiez ds aujourdhui utiliser des documents XML dont les noms
dlment, dattribut et les valeurs dattributs contiennent des tifinaghes.

Les polices
Ebrima sur Windows
Depuis Windows 7, Microsoft inclut en srie dans son systme dexploitation une
police panafricaine , la police Ebrima. Elle est fournie en deux graisses :
normale et grasse. Ebrima a t conue pour prendre en charge un grand nombre de
langues africaines. Elle

Les attributs CDATA peuvent contenir nimporte quoi, la restriction tait sur les attributs
dclars ID, IDREF, NMTOKEN, etc.
8
<http://www.w3.org/TR/2008/REC-xml-20081126/>

18

Normalisation et tat des lieux de la prise en charge de lamazighe et des tifinaghes

contient des glyphes pour le nko, les tifinaghes, le va et losmanya. Les glyphes
latins de la police sont accompagns des diacritiques et autres signes utiliss pour
reprsenter les langues africaines.
Les ils tifinaghes dEbrima sont directement inspirs de ceux utiliss dans les
tableaux Unicode (cest--dire de Hapax Berbre).
La police Ebrima ne comprend pas les deux voyelles nigriennes (y et yo)
introduites par Unicode 6.1, elle comprend cependant depuis Windows 8 plusieurs
innovations par rapport aux versions prcdentes :
1. On peut ajouter des diacritiques toute lettre tifinaghe9 :

2. De nombreuses biconsonnes ont t ajoutes la police, elles sont


formes laide du U+2D7F LIANT DE CONSONNES
TIFINAGHE, notamment

3. Quand une biconsonne ne peut tre forme parce quelle nest pas
prise en charge par la police, Ebrima affiche une srie de points
souscrits sous la paire de consonnes :

Les polices incorpores dans les pages HTML


Avec une criture aussi rcente en termes de normalisation informatique que le
tifinaghe, il nest pas rare quun utilisateur qui dsire afficher une page Internet qui
contient des caractres tifinaghes nait pas de police tifinaghe sa disposition.
Malgr la diffusion rcente dEbrima, le problme demeure entier aujourdhui, car
il existe encore de nombreux utilisateurs qui nutilisent pas Windows et a fortiori
Windows 7.
En outre, que faire quand on veut tre sr quune page saffiche dans un style
9

Ceci fonctionne bien avec les trois grands navigateurs (Chrome, Firefox et Internet
Explorer) et dans Windows 8.1 avec MS Word 2013.

19

Patrick Andries

tifinaghe particulier ? On risque donc dans ces cas-l dtre confront des pages
remplies de petits rectangles blancs comme dans lillustration ci-dessous, chaque
rectangle y reprsente un caractre (tifinaghe ici) qui ne peut tre reprsent par
manque de police adquate.
Il existe plusieurs remdes possibles ce dsagrment. Une solution consiste
prvenir les lecteurs des pages en tifinaghe quils doivent installer une ou plusieurs
polices en fournissant un lien permettant de tlcharger ces polices. Il existe
cependant une autre solution : les polices dynamiquement tlchargeables. Cette
solution consiste envoyer les glyphes ncessaires laffichage dune page HTML
avec la page en question. On parle alors de polices embarques ou incorpores.

Figure 3 : Police manquante dans une page HTML


Il y a prs de deux ans, en 2008, nous avions dj abord les techniques alors
disponibles (Andries, ibid.). Rappelons que les polices incorporables dans les pages
HTML ne sont pas une ide neuve. Ds 1998, CSS 2 permettait de prciser un lien
vers une police que les fureteurs internet pouvaient tlcharger. Microsoft et
Netscape prirent en charge cette syntaxe et permettaient de tlcharger des polices.
Malheureusement, aucun des deux fabricants ne prenait en charge directement le
format de police le plus populaire : TrueType. Microsoft choisit le format de police
EOT (un format propritaire) dans Internet Explorer 4.0 alors que Netscape 4.0 jeta
son dvolu sur un format rival TrueDoc quil abandonna deux versions plus tard,
car Mozilla ne pouvait rendre public le code source de TrueDoc, proprit de
Bitstream.
Depuis 2008, cette question a connu un vif regain dintrt. partir de 2010, on a
assist un vritable engouement pour les polices internet. Subitement, coup sur
coup, on a assist llaboration dun format de police conue pour le
tlchargement sur Internet (WOFF), la prise en charge de ce standard naissant par

20

Normalisation et tat des lieux de la prise en charge de lamazighe et des tifinaghes

les quatre grands concepteurs de moteurs de composition HTML10 et enfin la mise


en place de nombreux sites de partage ou de vente de polices incorporables dans
des pages HTML11.
WOFF
WOFF est un format de police embarque qui a t propos au W3C par Microsoft,
Mozilla et Opera. Il a t conu pendant lanne 2009. Le 27 juillet 2010, le W3C
publiait un projet de travail . Le 13 dcembre 2012, WOFF devenait une
recommandation W3C, un standard Internet.
Fondamentalement, WOFF est une enveloppe qui recouvre les polices de type sfnt
( savoir TrueType, OpenType ou Open Font Format) qui ont t comprimes
laide dun outil qui leur permet dtre incorpores dans des pages HTML. Ce
format utilise une compression zlib qui assure habituellement une rduction de plus
de 40 % par rapport la police TTF quivalente.
WOFF est pris en charge par Firefox depuis sa version 3.6 et par Chrome de
Google depuis la version 6.0. Microsoft, pour sa part, la prend en charge depuis la
version 9 de son navigateur. Enfin Opera, le permet depuis sa version 11.10.
WOFF en tant que tel ne contient aucun mcanisme de scurit qui empcherait la
copie de la police. Certains navigateurs, toutefois, ne tlchargent que les polices
qui sont hberges dans le mme domaine que la page qui y fait rfrence. De
mme, loptimisation qui consiste ne slectionner et envoyer sur le rseau que le
sous-ensemble de glyphes correspondant aux caractres utiliss dans la page
HTML demande (ou un ensemble de pages) est laisse des outils tiers qui ne
font pas partie de la norme.
Autres formats
Malgr le fait que les nouvelles versions des grands navigateurs prendront toutes en
charge le format WOFF, il est important de considrer le parc actuel des
navigateurs internet, trois autres types de polices tlchargeables y sont utiliss :
TTF

Fonctionne bien avec la majorit des fureteurs


(mais pas IE, ni liPhone), volumineux car non
comprim.

EOT

Uniquement sur IE, ncessaire pour IE 5 8,


comprim, permet de ne slectionner quun sousensemble de glyphes quon retrouve dans une

10

Les quatre grands moteurs de composition sont Trident de Microsoft, Gecko de Mozilla,
Webkit utilis notamment par Google et Safari et Presto dOpera. Chacun de ces moteurs de
rendu est utilis dans plusieurs applications : Presto se retrouve ainsi, non seulement dans le
fureteur Opera, mais aussi dans des produits Nintendo, Nokia, Sony, Adobe et Macromedia.
11
Parmi ces sites, on peut citer : <typekit.com>, <fontsquirrel.com>, <typotheque.com>,
<openfontlibrary.org>, <fontshop.com> et <fontfont.com>.

21

Patrick Andries

page HTML donne.


SVG

Format XML ncessaire pour liPhone et liPad


avant la version 4.2, volumineux.

Hapax Berbre et Hapax Tifinar Carre


Les polices Hapax Berbre allge et Hapax Tifinar Carre sont disponibles sous
quatre formats (TTF, EOT, SVG et WOFF) respectivement aux adresses suivantes
<hapax.qc.ca/essai-polices-incor/hapaxber-sousensemble-webfont.zip>
et
<hapax.qc.ca/extrait-foucault/hapaxtifinarcarree.zip>.
La police Hapax Berbre allge ne comprend quun sous-ensemble restreint de la
police Hapax Berbre alors que la police Hapax Tifinar Carre est complte (et
donc assez volumineuse). On peut les copier et les utiliser loisir. Deux pages de
dmonstration permettent de voir ces polices Web en action : <hapax.qc.ca/essaipolices-incor/HapaxBerbereRegular-demo-hex.html> et <hapax.qc.ca/extraitfoucault/foucault-p339.html>.
@font-face et CSS
Revenons notre extrait du dictionnaire touareg de Charles de Foucauld. Comment
sassurer que la page saffiche correctement tant sur les anciennes versions de
MSIE, les iPhone, les iPad que les nouvelles versions de Firefox ?
La premire tape est de crer un ensemble de polices TTF, SVG, EOT et WOFF.
Un site comme Font Squirrel12 permet de fournir sa police en entre et de crer des
versions SVG, EOT, TTF et WOFF de celle-ci ainsi que de ne slectionner quun
sous-ensemble des glyphes de la police dorigine afin de rduire encore la taille des
fichiers produits.
Dans notre cas, la police Hapax Tifinar Carre utilise dans la page du dictionnaire
Charles de de Foucauld a dj t transforme en ces quatre formats. Il suffit de
tlcharger lensemble 13 , de les dzipper et de les placer dans un rpertoire du
serveur. Le code fourni ci-dessous assume que les polices sont prsentes dans le
mme rpertoire que les feuilles de style CSS.
Il faut ensuite dfinir la police Hapax Tifinar Carre dans CSS laide dune
dclaration @font-face. C'est ce que fait le code ci-dessous. Il dfinit cette
mme police dans deux dclarations que les principaux navigateurs comprendront.
Si les polices ne sont pas stockes dans le mme rpertoire que le code CSS, on
noubliera pas de changer les url() pour y indiquer lURL qui correspond leur
position.

12

Voir <fontsquirrel.com/fontface/generator>. Font Squirrel fournit galement les @fontface inclure dans vos feuilles de style.
13
Disponible ici : <hapax.qc.ca/extrait-foucault/hapaxtifinarcarree.zip>.

22

Normalisation et tat des lieux de la prise en charge de lamazighe et des tifinaghes

@font-face {
/* Dclaration destine Internet Explorer
*/
font-family: 'HapaxTifinarCarree';
src: url('hapaxtifinarcarree.eot') ;
}
@font-face {
/* Dclaration destine tous les autres */
font-family: 'HapaxTifinarCarree';
src:
url(//:) format('pasde404'),
url('hapaxtifinarcarree.woff') format ('woff'),
url('hapaxtifinarcarree.ttf')
format('truetype'),
url('hapaxtifinarcarree.svg#webfontrYQ4E2jU')
format('svg') ;
font-weight: normal ;
font-style: normal ;
}

Nous reviendrons sur ces dclarations par la suite. Pour linstant, il suffit de savoir
que ces dclarations permettent aux navigateurs de savoir o trouver la dfinition
dune police nomme HapaxTifinarCarree.
Pour employer la police dans des documents HTML, il nous reste prciser en
CSS quand lutiliser. Le code ci-dessous prcise, par exemple, que les paragraphes

23

Patrick Andries

(<p>) devront dabord utiliser la police HapaxTifinarCarree, puis si des glyphes


manquent demployer la police Arial et enfin, par dfaut, nimporte quelle police
sans empattements.
p {font-family: 'HapaxTifinarCarree', Arial, sansserif;}
Dans le cas de lextrait du dictionnaire touareg, nous dsirons dabord utiliser des
polices empattements hautement optimises comme Times New Roman pour le
texte latin avant dutiliser les glyphes de la police Hapax Tifinar Carree dont les
glyphes latins sont moins esthtiques.
body {
font-family : Times New Roman, HapaxTifinarCarree,
serif;
width: 650px ;
text-align: justify;
margin-left: auto ; margin-right: auto ;
}
Ensuite dans le corps de la page HTML, il suffit dcrire par exemple
<p> <u>tferit</u> sf. (pl.
<u>tifertn</u> ), <u>da tferit</u>
(<u>tferit</u>), <u>da tfertn</u> || dim. du
pr.</p>
pour que les caractres latins scrivent laide de la police Times New Roman et
les caractres tifinaghes avec la police Hapax Tifinar Carre comme dans la figure
ci-aprs.

24

Normalisation et tat des lieux de la prise en charge de lamazighe et des tifinaghes

Figure 4 : Page avec des polices Internet incorpores


Retour sur les diffrents @font-face
Chaque @font-face permet de dclarer plusieurs fichiers alternatifs pour un
mme nom de police, en sparant chacun des emplacements, les url(), par une
virgule :
@font-face{
font-family : maPolice;
src : url('maPolice.woff') format('woff'),
url('maPolice.svg#abcd') format('svg'),
url('maPolice.ttf') format('truetype') ;
}

25

Patrick Andries

La proprit src est suivie de lurl dun fichier de police puis dun format
optionnel. Dclarer le format permet de prciser explicitement aux navigateurs le
type de police associ lurl qui prcde et dviter ainsi au fureteur davoir
tlcharger le fichier en question pour en vrifier le format.
Lurl de la police SVG se termine par un nom de fragment aprs le croisillon
( # ). Ce nom prcise o, dans le fichier SVG, se trouve la dclaration de police.
premire vue, cela peut paratre superflu, il faut toutefois se rappeler quun
fichier SVG peut contenir bien dautres choses quune police de caractres ou
mme en contenir plusieurs.
Lordre de dclaration des formats est galement important : dabord WOFF, puis
selon la taille des fichiers, la version SVG et enfin TrueType. Il est important de
considrer lordre de dclaration, car certains navigateurs prennent en charge
plusieurs de ces formats et utiliseront le premier quils comprennent dans la liste
fournie. Or, dans cette liste, WOFF est comme nous lavons vu nettement plus
lger que TTF. Le SVG tant un format XML, les fichiers peuvent vite devenir
volumineux. Pour palier cet inconvnient, il en existe une version comprime qui
porte le suffixe .svgz. Elle est toutefois peu prise en charge par les fureteurs. En
outre, si votre serveur gre la compression des requtes HTTP, cet artifice nest
gure utile. La version compresse dune police SVG est, en rgle gnrale, plus
lgre que sa version TrueType.
Pourquoi, dans notre code ne trouve-t-on pas de dclaration comme ci-dessous ?
src : url('maPolice.eot') format('eot') ;
La raison en est simple : Internet Explorer ignore la proprit format14 et ne
prend en charge quune valeur durl(). En outre, confront la ligne
src : url('maPolice.woff') format('woff') ;
Internet Explorer cherche tlcharger une police du nom suivant :
maPolice.woff') format('woff . MSIE envoie une requte dans ce
sens au serveur et attend que le serveur lui rponde. Il le fera laide dun 404 (pas
trouv), car bien videmment il nexiste pas de telle police sur le serveur. Cet appel
au serveur est inutile et inefficace.
Cest pourquoi 15 , pour les versions 4 8 de MSIE, on ajoute une dclaration
supplmentaire :
14

Ceci est corrig partir de la future version 9 dInternet Explorer.

15

Pour plus de dtails sur les bogues dIE en la matire, voir <http://covertprestige.info/css/fontface/>.

26

Normalisation et tat des lieux de la prise en charge de lamazighe et des tifinaghes

@font-face {
/* Dclaration destine Internet Explorer
*/
font-family: 'HapaxTifinarCarree';
src: url('hapaxtifinarcarree.eot');
}
et lon ajoute cette premire ligne dans la deuxime dclaration16 :
src:
url(//:) format('pasde404'),
afin que la requte inutile dIE choue avant lenvoi de celle-ci, car aucun
protocole ni aucun serveur ne correspond lurl fourni.

Les bibliothques logicielles


Grce la normalisation des tifinaghes il y a 8 ans et leur inclusion dans
Unicode, aujourdhui les bibliothques logicielles permettent de traiter les textes
crits en tifinaghes. Si Java 6 ne connat pas les proprits des caractres
tifinaghes, ce nest pas le cas dICU 17 , une bibliothque Unicode 18 qui sert de
terrain dessai Java et dont les fonctionnalits sont habituellement intgres avec
un certain retard dans Java.
On trouvera ci-dessous un exemple de programme Java qui permet de dcouper un
texte Unicode en mots . On remarquera que la syntaxe du BreakIterator ICU
utilise ici est identique celle de Java. Il suffit souvent pour accder aux
fonctionnalits dICU de remplacer limport de Java (ici java.text.BreakIterator)
par son quivalent ICU (com.ibm.icu.text.BreakIterator) :
import com.ibm.icu.text.BreakIterator;
// import java.text.BreakIterator;

public class AnalyseMotsTifinaghes


{
public static void main(String[] args)
{

16

On prfrera cette astuce celle qui consiste ajouter une proprit local() qui plante
le navigateur du systme dexploitation Android utilis sur des tlphones intelligents :
<readableweb.com/best-practice-for-font-face-css-takes-a-turn>.
17
On peut tlcharger ICU pour Java ici : ici <download.icu-project.org/files/icu4j/>
18
Pour une introduction ICU, voir le chapitre 12 dUnicode 5.0 en pratique, Dunod
(2008), Paris.

27

Patrick Andries

String texteExaminer = "


.";

int dbut=0;
BreakIterator frontire =
BreakIterator.getWordInstance();
frontire.setText(texteExaminer);
dbut = frontire.first();
for ( int fin = frontire.next();
fin != BreakIterator.DONE;
dbut = fin, fin = frontire.next())
{
System.out.println(texteExaminer.substring(dbut,fin)
);
}
}
}
Ce programme divise le texte en mots en se basant sur les proprits19 Unicode des
caractres (est-ce une lettre, un signe de ponctuation, un chiffre, un espace ?) et
produit le rsultat suivant :

.
ICU comprend bien plus que cette fonctionnalit, il permet notamment de trier
des textes tifinaghes et dfinit des donnes de localisation (nom de mois, format
des dates, etc.) en tifinaghes. .NET de Microsoft offre des fonctionnalits
similaires.
19

Voir le chapitre 4 dUnicode 5.0 en pratique, Dunod (2008), Paris.

28

Normalisation et tat des lieux de la prise en charge de lamazighe et des tifinaghes

Le rpertoire de donnes de localisation CLDR


Depuis lhomologation de lindicatif [zgh] par lISO 639-2, il est dsormais
possible de lutiliser dans des dpts de donnes numriques ou un Rpertoire de
donnes de paramtres rgionaux classiques comme CLDR. Le CLDR contient
des informations spcifiques aux paramtres rgionaux (les locales en jargon
informatique) fournies pour faciliter ladaptation des applications informatiques
des langues ou des cultures diffrentes. Le CLDR comprend donc :


des traductions pour les noms de langues ;

des traductions pour les noms de territoires et de pays ;

des traductions pour les noms de monnaies, y compris les modifications


singulier/pluriel ;

des traductions pour les jours de la semaine, les mois, dans des formes
compltes et abrges ;

des traductions pour les fuseaux horaires et des exemples de villes (ou
similaire) pour les fuseaux horaires ;

des traductions pour les priodes du calendrier ;

des motifs pour formater/reconnatre des dates ou des heures, etc.

Grce CLDR (dont les donnes sont notamment intgres dans ICU) il devient
facile pour un programmeur (mme sil ne connat pas lamazighe) de concevoir
des programmes qui pourront afficher, par exemple, des dates en franais et en
amazighe standard du Maroc. Pour afficher la date en franais, il prcisera
simplement la valeur ISO 639 fr comme locale , pour lafficher en amazighe
standard il utilisera zgh .
Des donnes initiales pour [zgh] ont t verses dans le rpertoire CLDR, elles
devraient, toutefois, tre compltes et rvises dans les mois venir.

Adresses internet, courriel et noms de domaine internationaliss


(NDI)
Lors du colloque de lIRCAM en 2008 (Andries, op.cit.), nous avions dj abord
le sujet des adresses internet internationalises du type <http://www.biscuitssals.com/Nol.html>.
Techniquement on nomme ce type dadresse des
identificateurs de ressource internationalise (IRI). Ces adresses se divisent en trois
parties principales, la premire avant le :// indique le protocole utiliser (ici
http), ensuite vient le nom de domaine proprement dit puis, aprs un / , le
chemin de la ressource sur le serveur identifi par le nom de domaine.

29

Patrick Andries

http://

www.biscuits-sals.com

protocole

domaine

Nol.html

chemin

Tous les domaines de tte (le .ma, le .fr ou .com final du nom de domaine)
nacceptent pas ces adresses internationalises. Certains domaines de tte comme
la Suisse (.ch) acceptent des accents franais (et plus gnralement les lettres
accentues de ses langues nationales) alors que la France naccepte pas de tels
accents dans les domaines qui se terminent par .fr . La politique dattribution de ces
noms est dcide par lautorit denregistrement responsable dun domaine de tte
particulier. Au Canada, il sagit dune agence sans but lucratif (lACEI) rgie par
les lois canadiennes. Les domaines de tte gnriques (.com, .org, .biz) sont
administrs aux tats-Unis en vertu des lois amricaines.
Comme nous le mentionnions dj en 2008, les navigateurs modernes
transformeront de manire transparente les noms de domaine comme biscuits-sals
en des noms de domaine compatibles avec linfrastructure actuelle prvue pour des
adresses ASCII.
Domaine de tte

Sous-domaines

hapax

ircam

.ma

.qc

.ca

biscuits-sals

.com

Figure 5 Parties d'un nom de domaine


Ce qui a chang depuis ce colloque, cest lapprobation dIDNA 2008 qui a mis
jour le rpertoire des caractres permis, passant dUnicode 3.2 Unicode 5.2. Par
ce fait mme, tous les caractres tifinaghes marocains peuvent, en thorie, tre
utiliss dans les adresses Internet. Il est important dinsister sur la dimension
thorique de cette avance, car lacceptation de ces caractres dans les noms de
domaine dpend des autorits denregistrement de noms de domaine. Pour que des
sous-domaines en tifinaghes soient accepts dans des adresses du domaine de tte
.ma, il faudra donc que lorganisme responsable de lattribution des noms de
domaine au Maroc le permette.

30

Normalisation et tat des lieux de la prise en charge de lamazighe et des tifinaghes

Conclusion
Depuis 2005 et la normalisation du tifinagh dans Unicode et lISO/CEI 10646,
beaucoup de choses ont chang. Il est de plus en plus facile dutiliser des tifinaghes
sur internet et dans les applications informatiques.
Il reste encore, bien sr, dans ce domaine quelques amliorations possibles. On
peut citer des pistes comme le fait de sassurer que des claviers et des polices
tifinaghes soient disponibles sur les tlphones intelligents et les tablettes
informatiques, la diffusion et lemploi de CSS 3 qui permettra une typographie fine
des polices, embarques ou non, la mise en place concrte dIDNA 2008, la
cration et la diffusion de ressources de localisation en tifinaghes et amazighe, la
mise jour du clavier tifinaghe pour inclure les nouveaux caractres tifinaghes
Unicode, etc. Dans ces domaines, les choses avancent et des solutions techniques
existent dj ou se dessinent pour que lutilisation des tifinaghes et de lamazighe
dans tous ces domaines se fasse dsormais sans entrave. En huit ans, que de chemin
parcouru !

Rfrences bibliographiques
Foucauld Ch.-de (1951), Dictionnaire touaregfranais, dialecte de lAhaggar. 4
volumes, Imprimerie nationale, Paris.
Karl-G. Prasse (1972), Manuel de Grammaire touargue, ditions de lUniversit
de Copenhague.
Zenkouar L. (2004), L'criture amazighe tifinagh et Unicode , tudes et
Documents Berbres, vol. 22, p. 173-175.
Andries P. (2008), Demain encore plus de tifinaghes sur Internet, Actes du
colloque du CEISIC (NTIC), Rabat.

31

sinag-Asinag, 9, 2014, p. 33-48

La promotion de lamazighe travers les technologies de


linfo rmation et de la communication
Fadoua Ataa Allah & Siham Boulaknadel
CEISIC, IRCAM




.

.

.

1. Introduction
La langue amazighe constitue un lment minent de la culture marocaine et ce,
par sa richesse et son originalit. Elle a t nglige sinon carte, pour des
gnrations, en tant que source denrichissement culturel. Cependant, la cration de
lInstitut Royal de la Culture Amazighe (IRCAM), suivie de la
constitutionnalisation lui a permis dsormais de jouir dun statut meilleur.
Nanmoins, nous sommes tous conscients que lofficialisation nest pas suffisante
pour assurer la revitalisation de cette langue, particulirement durant cette re de
globalisation et de mondialisation technologique. Do la ncessit de penser la
promotion avec lesprit des jeunes gnrations pour qui les Technologies de
lInformation et de la Communication (TIC) sont devenues un support de vie social.
La notion Technologies de lInformation et de la Communication couvre un
vaste ventail de technologies allant des techniques ncessaires pour le traitement
de linformation aux technologies de transmission et de diffusion de cette
information. A lre de la rvolution numrique, ces technologies constituent une
arme double tranchant : un segment majeur dans la survie dune langue ou un
facteur aggravant sa marginalisation. En effet, la prdominance des langues des
pays industrialiss risque, si aucun remde n'est pris, d'accentuer dramatiquement
lcart technologique. Toutefois, l'accs aux technologies modernes de
l'information offrira de nouvelles opportunits pour la prservation et la
revitalisation des langues et cultures rgionales.

33

Fadoua Ataa Allah & Siham Boulaknadel

Lamazighe comme la majorit des langues africaines a accumul un retard


considrable dans ce domaine. Do la ncessit de le combler travers des actions
incitatives de grande ampleur, exploitant les TICs en vue de rajuster et dacclrer
la promotion de cette langue. A cette fin, il convient de dvelopper une
mthodologie dintgration. Cette optique nous amne rflchir sur lapport et les
moyens de lutilisation des TICs sur le plan des diffrents axes stratgiques de la
promotion de la langue amazighe :
- Quelles mesures faut-il prendre pour contribuer la prservation du
patrimoine amazighe par le biais des TICs ?
- Que peut apporter lintgration des TICs au processus damnagement
linguistique de lamazighe afin de sauvegarder la diversit linguistique
marocaine ?
- Comment les nouvelles technologies
lapprentissage de la langue amazighe ?

peuvent-elles

promouvoir

- Comment investir dans lusage social des mdias numriques au profit de la


langue et la culture amazighes ?
Cest ces questions, entre autres, que cet article souhaite apporter des lments de
rponse. Il sagit de proposer des choix mthodologiques et des principes retenir
dans le processus de la prservation et de la modernisation de la langue amazighe.
Nous tayerons notre contribution par des exemples concrets issus de recherches
rcentes dans le domaine des TICs, et plus spcifiquement celles en traitement
automatique des langues qui consiste en la cration doutils et de ressources
linguistiques par lintgration de fonctionnalits du traitement du langage humain.

2. Lutilit des TICs pour la prennit de la culture et la langue


amazighes
Le dveloppement et la mondialisation des technologies de linformation et de la
communication offrent toutes les langues du monde un espace globalis de
communication et dchange. Dans cette perspective, nous introduisons quelques
retombes de lexploitation des TICs pour lamazighe.

2.1. Les TICs au service de la sauvegarde du patrimoine amazighe


La langue amazighe comme toute langue africaine dite de tradition orale, dont le
patrimoine culturel, scientifique et historique ne se transmettait de gnration en
gnration qu travers la mmoire et les traditions, ce qui la menace de la
destruction des particularits de sa culture et de son identit nationale. Do
lintrt de recenser lensemble des lments patrimoniaux et de pouvoir grer leur
aspect descriptif via une banque de donnes multimdias volutive rpondant un
double objectif de conservation et de valorisation de ce patrimoine vernaculaire. En
effet, llaboration dune telle banque de donnes numrique rsoudra le problme
de la conservation et contribuera assurer la prennit de cet hritage ancestral
sous une forme perceptible dune part et dautre part refltera la richesse et la
diversit de ce patrimoine tout en garantissant une bonne structuration de ses

34

La promotion de lamazighe travers les technologies de linformation et de la


communication

composants matriels et immatriels, une meilleure accessibilit universelle et une


rsurrection de lintrt du grand public.
A cette fin, une tape de numrisation est indispensable pour la cration de cet
espace culturel, suivie dune phase darchivage sous un format standard permettant
la structure du contenu brut et des mtadonnes ncessaires la gestion. Cette
phase repose sur un ensemble doutils et de mthodes de traitement automatique
des langues, savoir :
- Le transcodage pour en faire un contenu intelligible dont le codage est
particulirement compatible aux volutions technologiques ;
- Lindexation qui sert identifier et slectionner les mtadonnes pertinentes
dcrivant le contexte patrimonial ;
- La classification pour regrouper et classer ce contenu numrique selon le
support, le type, le thme et la rgion.
Par ailleurs, afin de permettre une exploitation effective de ce contenu et de
diversifier les supports de stockage, une dmarche de transcription automatique ou
docrisation est essentielle entreprendre pour acclrer la conversion des
archives audio et image en documents sous format texte, suivie par la
translittration afin de permettre dunifier la graphie utilise pour reprsenter le
contenu.

2.2. Les TICs au service de lamnagement linguistique de


lamazighe
Aprs des dcennies de ngligence, la cration de lInstitut Royal
Amazighe a motiv la revitalisation de la langue amazighe par
damnagement linguistique qui englobe un ventail dapproches,
codification graphique, ltablissement de rgles dorthographe, de
de lexiques, la terminologie et la traduction.

de la Culture
un processus
y compris la
grammaire et

La russite dun amnagement linguistique dpend de sa visibilit. Cest pourquoi


lutilisation des TICs constitue de nos jours un levier dans ce processus permettant
de valoriser les efforts fournis et dagir sur les prsentations linguistiques et ce,
travers :
- Linternet pour contribuer la diffusion des productions de recherche et
faciliter lchange des connaissances et le suivi de lvolution du processus
damnagement linguistique pour dautres langues dans des situations
similaires.
- La codification graphique qui dfinit une norme standard et une police de
caractres adquate de la graphie afin dassurer lexploitation et le partage
des contenus.
- La gestion des ressources linguistiques savoir les corpus, les lexiques et la
terminologie, dont le dveloppement est hautement interdisciplinaire, exige
la coopration de spcialistes de nombreux domaines. tant donn la
quantit considrable de ressources linguistiques et le nombre de personnes

35

Fadoua Ataa Allah & Siham Boulaknadel

qui devraient travailler ensemble en unissant leurs efforts ainsi que leurs
ressources, les bases de donnes prsentent un outil essentiel de gestion et de
structuration dans le processus damnagement linguistique.
- Lextraction automatique de terminologie qui permettra lattestation des
termes dans diffrents genres textuels et lenregistrement de lusage des
termes en contextes, et ce en exploitant la richesse des ressources
langagires telles que les corpus textuels.
- La traduction automatique qui assurera une meilleure comprhension entre
des locuteurs de langues diffrentes et contribuera la diffusion de la culture
lchelle internationale en utilisant des outils danalyse, de gnration et de
transfert laide des corpus multilingues.

2.3. Les TICs au service de lenseignement


Malgr linitiative trs significative de lintgration de lamazighe au sein du
systme ducatif marocain en 2003, elle nest toujours pas suivie de faits concrets
permettant cette langue datteindre le niveau de larabe ou du franais. Pour
tenter de remdier cet tat de fait, lapplication des TICs lenseignement est une
solution primordiale pour notre communaut pour acclrer les changes de savoir
et rduire le retard accumul dans ce domaine.
Dans une situation domine par linsuffisance du nombre des enseignants et
formateurs et du matriel pdagogique adapt, ainsi que par la restriction de
lexprience aux classes primaires et un certain nombre limit dtablissements, il
est judicieux de pouvoir profiter suffisamment des retombes de lutilisation des
TICs au profit de lducation travers :
- Lapprentissage en ligne qui prsentera une piste pertinente pour favoriser la
promotion des ressources humaines et la gnralisation verticale et
horizontale, en rsolvant le manque de formateurs par le rassemblement des
enseignants disperss travers le pays ;
- Les outils multimdias et dinteractivit qui encourageront lapprentissage
autodirig par la garantie de la correction informatise, faciliteront la
cration et amlioreront la qualit des contenus ducatifs tout en assurant la
transmission du savoir porteur de la diversit des formes dexpression
culturelle ;
- Lenseignement hybride bas sur la conjonction des activits en ligne et en
classe qui permettra de favoriser le potentiel motivationnel des apprenants et
damliorer la qualit de lenseignement ;
- Un rseau professionnel denseignants qui facilitera lchange du savoir et le
dbat autour des besoins ducationnels et des utilitaires de production
doutils pdagogiques.
Dans cette perspective, il est important de pouvoir recenser les mcanismes et les
techniques ncessaires pour mener bien la gnralisation de cette vocation et la
mise en place dune plate-forme d'apprentissage en ligne assurant la modernisation
des moyens pdagogiques, l'largissement du savoir ainsi que le partage des

36

La promotion de lamazighe travers les technologies de linformation et de la


communication

connaissances et favorisant lmergence dun enseignement de qualit. Toutefois,


llaboration dune telle plate-forme dpend principalement du contenu
pdagogique, dont les supports du cours sont ncessairement accompagns par des
activits pdagogiques dont la linguistique computationnelle constitue un
fondement important, et ce par :
- Lexploitation de la richesse des ressources langagires telles que les corpus
textuels travers des concordanciers permettant lexploration de la diversit
des situations langagires et lextraction dexemples authentiques dans le but
dtudier le sens et les rgles demploi ;
- Lutilisation de correcteurs orthographique et grammatical facilitant
lapprentissage autodirig en assurant lautomatisation de lanalyse des
productions des apprenants ;
- Lexploitation des correcteurs phontiques pour soutenir lacquisition de la
prononciation travers des entranements systmatiques.

2.4. Les TICs au service des mdias


Les technologies de linformation et de la communication, principalement
linternet, ont permis de diffuser plus efficacement les moyens de communication
et damliorer le traitement, la mise en mmoire, la diffusion et l'change de
l'information. Nanmoins, cette mergence a suscit une mutation technique des
mdias classiques (tlvision, radio, presse, cinma) aux niveaux de leurs chanes
de valorisation allant de la production jusqu la consommation de linformation, et
ce travers le passage de lanalogique au numrique et le dveloppement des
techniques du traitement de linformation, quelle soit crite, orale ou multimdia,
monolingue ou multilingue pour slectionner, classer, structurer et rechercher.
Cependant, la place de lamazighe dans les principaux mdias a toujours t et
reste trs limite. Dans la perspective de faire face ce dfi et de faire de
lamazighe une langue de communication, il faudrait, dune part, adopter les outils
multimdias pour valoriser et rnover son contenu mdiatique et, dautre part,
exploiter les diffrentes plate-formes de diffusion comme les sites Web, les
sminaires et les plate-formes de vido en ligne, les mdias sociaux et les blogues
pour une prsentation attrayante de ce contenu.

3. Mthodologie pour linformatisation de lamazighe


Dans lobjectif de concrtiser lapport des TICs aux diffrents axes stratgiques de
lInstitut, nous avons men une tude pour llaboration dune mthodologie de
mise en uvre assurant la revitalisation et la promotion de la langue amazighe.
Cette mthodologie repose sur les travaux labors pour linformatisation des
langues peu dotes (Berment, 2004 ; Scannell et al., 2012) ainsi que sur une
cartographie des diffrents traitements et ressources disponibles pour des langues
peu, moyennement et bien dotes (Ataa Allah, 2010), afin de dfinir les priorits
permettant de planifier une feuille de route dotant lamazighe doutils assurant son
fonctionnement comme les langues conformment quipes (Ataa Allah et
Boulaknadel, 2012).

37

Fadoua Ataa Allah & Siham Boulaknadel

La mthodologie propose structure le dveloppement du projet de


linformatisation de lamazighe en tches fondamentales, conues dune manire
ce quelles se droulent en trois priodes (courte, moyenne et longue) qui peuvent
stendre sur 5 10 ans selon la disponibilit humaine et les ressources
linguistiques. Ces tches sont reprsentes par une chane qui part des traitements
lmentaires allant vers des applications gnriques rpondant gnralement des
besoins et passant par la constitution de briques de ressources linguistiques (Figure
ci-dessous). Cette chane va de ladaptation et l'amlioration d'outils en fonction
des nouvelles technologies jusquau dveloppement dapplications, en se basant sur
la recherche fondamentale.

Feuille de route pour linformatisation de lamazighe

38

La promotion de lamazighe travers les technologies de linformation et de la


communication

3.1. La phase court terme


Cette phase constitue une premire tape dans le processus de linformatisation de
lamazighe. Elle est initie par un codage de caractres, un clavier et des polices de
caractres, assurant la constitution de ressources lectroniques telles que les bases
de donnes lexicales et vocales, les corpus de recherche dinformation, brut et
annot morpho-syntaxiquement. Ces ressources servent de briques lmentaires
pour l'laboration doutils et dapplications du traitement du langage humain, en
particulier celles planifies pour cette phase, savoir la normalisation, la
segmentation, la pseudo-racinisation, le concordancier de base, le moteur de
recherche, le conjugueur et le systme de reconnaissance optique de caractres.

3.2. La phase moyen terme


Aprs avoir tabli les ressources de base et les outils fondamentaux, cette phase
repose sur un traitement linguistique qui consiste en une ralisation dune
racinisation, une lemmatisation, un tiquetage morpho-syntaxique automatique,
une analyse morphologique, partielle et syntaxique, et une reconnaissance de la
parole. Ces traitements permettront de dvelopper des applications avances telles
quun correcteur orthographique, une plate-forme dapprentissage en ligne, un
extracteur terminologique, un moteur de recherche et un concordancier avancs
ainsi quun gnrateur de textes. En outre, cette phase reprsente une tape clef de
prparation des ressources ncessaires pour la prochaine tape, y compris les bases
de donnes enrichies, les dictionnaires multilingues, et les corpus aligns et annots
smantiquement.

3.3. La phase long terme


La troisime tape de la feuille de route pourrait tre considre comme une
synthse du travail ralis. A ct dun traitement de phontisation et dune
laboration dune ontologie, dun dveloppement dun dsambiguseur smantique
et dun synthtiseur de la parole, cette phase se concentre galement sur la
ralisation dapplications multilingues, principalement la traduction automatique.

4. Stratgies technologiques respecter


Dans la perspective de mener bien le dveloppement de ressources et doutils
ncessaires pour linformatisation dune langue, des tudes ont port sur des
stratgies technologiques qui devraient tre respectes. Ainsi, nous nous sommes
inspires des travaux de Muhirwe (Muhirwe, 2007) qui suggre de prendre en
considration lors du dveloppement des applications la notion dextensibilit et de
documentation ainsi que ladoption des technologies libres, pour dresser nos
stratgies de dveloppement pralablement ncessaires pour russir et acclrer le
processus de linformatisation de lamazighe.

39

Fadoua Ataa Allah & Siham Boulaknadel

4.1. Standardisation des ressources


Llaboration des ressources numriques est une tape indispensable dans tout
processus dinformatisation. Cependant, cette tche est coteuse en termes de
temps et de comptences humaines. Do lutilit de les concevoir sous un format
standard permettant la communaut acadmique implique dans la ralisation ou
l'intgration doutils et ressources, de jouir dun environnement garantissant la
gestion et l'interoprabilit entre de tels composants.

4.2. Adaptation des technologies de langues


Une part srieuse du temps et defforts ncessaires pour informatiser une langue est
gnralement consacre la ralisation de lenvironnement. Cependant, cette tche
laborieuse peut tre optimise par lintgration et ladaptation des techniques
existantes afin de profiter pleinement du potentiel qu'offrent ces technologies pour
la ralisation des tches de manire gnrique sans avoir recours rinventer la
roue .

4.3. Extensibilit
L'extensibilit est un facteur lmentaire dans la conception de tout projet en
technologie des langues, assurant l'extension de ses fonctionnalits. Cette proprit
permet une plus grande rutilisabilit du projet en facilitant lajout de nouveaux
composants et lamlioration ou ladaptation de lexistant.

4.4. Logiciels libres


En vue de garantir ladaptation des technologies de langues et leur extensibilit, il
est ncessaire dadopter un mode de conception et dexploitation qui obit des
rgles de libert susceptible d'tre soumis modification et redistribution sans
restriction. Ces caractristiques confrent une certaine fiabilit et ractivit.

4.5. Documentation
La documentation constitue lune des pierres angulaires dans le dveloppement
dun projet dinformatisation dune langue. Elle permet dexpliquer le
fonctionnement du projet en dterminant ses objectifs, son architecture ou sa
conception, les techniques utilises pour son dveloppement et son manuel
dutilisation. Ce qui peut assurer sa bonne exploitation, son extensibilit et sa
rutilisation logicielle.

4.6. Evaluation des systmes


Le recours lvaluation conduit repenser les objectifs, les pratiques, voire les
approches thoriques. Une valuation peut tre apporte avant la mise en uvre
dun systme, pour dterminer laide dun diagnostic les objectifs attendus et les
indicateurs ncessaires lvaluation ; au cours de sa ralisation, afin dajuster le

40

La promotion de lamazighe travers les technologies de linformation et de la


communication

systme au besoin travers une srie dvaluations progressives ; ou aprs


lachvement du travail, et ce pour dterminer le niveau de satisfaction, la
pertinence, la durabilit et l'extensibilit du systme.
Par ailleurs, deux types dvaluation sont distingus :
- Lvaluation objective fournit une mesure des performances du systme en
dehors de toute considration sur sa perception par les utilisateurs.
- Lvaluation subjective fonde sur le jugement des utilisateurs et qui
consiste mesurer ladquation du systme la tche ainsi que son utilit en
termes de convivialit, fiabilit et facilit dutilisation.

5. Ralisations
Dans le cadre de la promotion de la langue amazighe, de nombreux travaux ont t
raliss afin de fournir cette langue des ressources et outils permettant son
traitement automatique et son intgration dans le domaine des technologies de
l'information et de la communication.
Cette section introduit les diffrentes ralisations au niveau national 1 en les
structurant en sept parties selon la nature du traitement vis, passant par le
pralable lexploitation des TICs ; outils de recherche, danalyse et dassistance ;
ressources langagires, localisation logicielle et reconnaissance optique des
caractres.

5.1. Pralables l'exploitation des TICs


En amont de lexploitation des TICs dans le processus de la promotion de
lamazighe, il faut disposer de donnes numrises. A cette fin, il est judicieux de
dfinir un codage adapt, un clavier et des polices de caractres.

5.1.1. Codage de Tifinaghe


Le codage du caractre tifinaghe constitue le premier pas vers lexploitation des
TICs, permettant la transcription de lamazighe travers une reprsentation
numrique pour chaque caractre. Ce processus sest droul en deux tapes : la
premire a consist en une adaptation de la norme ISO 8859-1 pour coder les
caractres tifinaghes en codage ANSI, afin de rpondre lurgence de
lintroduction de lamazighe dans le systme ducatif. Cependant, la porte de ce
codage priv de lIRCAM a t limite, et la gestion des textes comportant
plusieurs systmes d'criture tait difficile. Dailleurs, les traitements des textes
multilingues doivent jongler la fois avec les diffrentes normes de codage et avec
les polices associes. Do la ncessit et limportance dintgrer le tifinaghe dans
le plan multilingue cest--dire un codage plus portable et facile grer tel que
lUnicode qui a permis d'affecter un code unique chaque caractre (Andries,
2008).
1

Dans cet article, nous nous sommes limites au niveau national, nanmoins les ralisations
au niveau international pourront faire lobjet dune autre contribution.

41

Fadoua Ataa Allah & Siham Boulaknadel

5.1.2. Clavier
Lintgration de lamazighe dans la norme internationale de la prescription des
claviers ISO/CEI 9995 a fix dfinitivement les claviers de la langue amazighe
conus pour la bureautique. En fait, cette norme a spcifi deux types de claviers :
un clavier de base contenant les caractres tifinaghes prconiss par lIRCAM et un
clavier tendu comportant tous les caractres adopts par lISO.

5.1.3. Polices de caractres


Dans lobjectif dintgrer la langue amazighe dans le systme ducatif et de
favoriser la publication assiste par ordinateur, huit polices de caractres, associes
au codage ANSI, ont t ralises. Cette ralisation a t suivie par llaboration
dune nouvelle gnration de polices, qui a constitu un saut qualitatif de
luniversalisation de lcriture amazighe. Cette gnration inclut les polices
associes lUnicode.

5.1.4. Convertisseur
Ds lencodage Unicode des caractres tifinaghes, il a fallu prparer des outils pour
convertir la reprsentation de ces caractres dun codage un autre. Par ailleurs,
dans la perspective de promouvoir la langue amazighe et dassurer la sauvegarde
de son hritage littraire, il apparat intressant de tirer profit des productions
amazighes crites en caractres arabe et latin. A cette fin, un convertisseur a t
ralis, permettant le passage du codage ANSI au codage Unicode et la
translittration du caractre arabe et du caractre latin au caractre tifinaghe (Ataa
Allah et al., 2013).

5.2. Outils de recherche


Dans la perspective de contribuer la diffusion de la langue et de la culture
amazighes, il est intressant de dvelopper des applications dexploration et de
recherche.

5.2.1.

Moteur de recherche

Les moteurs de recherche sont actuellement la premire source dinformation sur le


Web pour plusieurs domaines et leur utilisation est devenue incontournable.
Dailleurs, les sondages et enqutes qualitatives effectus en la matire dmontrent
bien limportance de ces applications qui rpondent aux besoins professionnels et
personnels suscits par les internautes2.
Conscients de ce fait et afin de contribuer la promotion et la diffusion de la
culture et la langue amazighes travers le Web et dassister les internautes
dcouvrir la diversit et la richesse de la culture amazighe, un moteur de recherche
supportant la graphie tifinaghe a t dvelopp (Ataa Allah et Boulaknadel, 2010a).
2

http://www.nielsen-online.com/pr/pr_040223_us.pdf

42

La promotion de lamazighe travers les technologies de linformation et de la


communication

Ce dernier est bas sur un ensemble de traitements linguistiques, savoir,


llimination des mots anti-dictionnaires3 et lexploitation de la pseudo-racinisation.

5.2.2.

Concordancier

Les concordances sont un mode de prsentation d'extraits de texte, contenant le


mme mot ou le mme motif linguistique, bases sur une mthodologie d'analyse
textuelle laborieuse. Cependant, le recours aux outils de concordance numrique a
facilit cette tche sculaire que ncessitaient les concordances manuelles. Dans
cette perspective, un outil de concordance supportant les scripts arabes, latins et
Unicode de lamazighe a t dvelopp. Il permet deffectuer des recherches dans
des textes numriques et rpond au besoin dexploration suscit par lusager dans
le but dtudier le sens et les rgles demploi (Ataa Allah et Boulaknadel, 2010a).

5.3. Outils danalyse


Afin de doter lamazighe doutils danalyse et de gnration, un ensemble de
travaux portant sur la morphologie flexionnelle et drivationnelle a t effectu.

5.3.1.

Pseudo-racineur

Loutil de pseudo-racinisation est bas sur une approche relevant du cas de la


morphologie flexionnelle et reposant sur llimination dune liste de suffixes et de
prfixes de la langue amazighe dans un ordre prdtermin. Cette approche lgre
permettant de regrouper les mots smantiquement proches partir de
ressemblances pourra tre facilement exploite dans des applications telles que la
recherche dinformation et la classification (Ataa Allah et Boulaknadel, 2010b).

5.3.2.

Conjugueur

Dans un contexte de dveloppement doutils de gnration pour la langue


amazighe, un conjugueur a t ralis pour faciliter lapprentissage de la langue.
Cet outil est conu la base de modles de comportement flexionnel augment de
rgles de rgularisation morphologiques (Laabdelaoui et al., 2012). Il permet la
conjugaison en ligne des formes verbales simples et drives dans diffrents
aspects et modes de lamazighe.

5.3.3.

Analyseur morphologique

Etant donn que toute analyse linguistique passe par une premire tape danalyse
morpho-lexicale, qui consiste tester l'appartenance de chaque mot du texte au
lexique de la langue, il a t entrepris de dvelopper des systmes danalyse
morphologique pour lamazighe, profitant des apports des modles tats finis et
faisant appel une formalisation du vocabulaire et des rgles grammaticales
3

Les mots non significatifs ou non discriminants pour la recherche dinformation, tels que
les prpositions, les conjonctions et les dterminants.

43

Fadoua Ataa Allah & Siham Boulaknadel

large couverture. Un premier systme a t dvelopp la base de lenvironnement


linguistique NooJ. Il sest focalis essentiellement sur la formalisation flexionnelle
et drivationnelle de la catgorie nom (Nejme et al., 2013). Cependant, le
deuxime systme a t ralis en exploitant lenvironnement de dveloppement
Xerox en se basant principalement sur la formalisation flexionnelle de la catgorie
verbe (Ataa Allah, 2014).

5.4. Ressources langagires


La ralisation de ressources langagires (jeux dtiquettes, dictionnaires,
terminologies, corpus oraux et crits,) est une activit de mise en uvre
d'infrastructures qui doit tre perue un niveau amont tant donn, dune part, le
cot prohibitif d'une telle tche, et dautre part le fait de constituer un pr-requis
indispensable pour le dveloppement des applications de technologie de langue
haute valeur ajoute.

5.4.1.

Jeux dtiquettes morpho-syntaxiques

Dans la perspective dannotation de corpus amazighe, un jeu dtiquettes morphosyntaxiques a t labor la base de la Nouvelle grammaire de lamazighe
(Boukhris et al., 2008). Ce jeu sinspire du projet EAGLES 4 o le choix des
tiquettes repose sur une distinction entre tiquettes obligatoires, tiquettes
recommandes et extension particulire. Ainsi, il est propos deux listes
dtiquettes spcifiques aux caractristiques de lamazighe. Lune contient les
tiquettes obligatoires ; l'autre, des tiquettes recommandes fournissant des
indications plus prcises (Ataa-Allah, 2011).

5.4.2.

Dictionnaire

Dans la perspective dappuyer lenseignement et lapprentissage de lamazighe, un


dictionnaire imagier sonore en ligne a t conu pour les enfants gs de 2 14 ans
(Ataa Allah, 2011). Il se base sur linteraction entre les connaissances linguistiques
et extralinguistiques afin doffrir lenfant un simple moyen pour stimuler son
langage et son veil. Ce dictionnaire comporte actuellement 550 entres lexicales
rparties sur 105 catgories regroupes en 18 thmatiques. Chaque entre est
dtermine par 4 langues (anglais, amazighe, arabe, franais) et reprsente par une
image et un son.

5.4.3. Terminologie
Dans lobjectif de doter lamazighe dune terminologie couvrant le plus grand
nombre de champs lexicaux, une base de donnes terminologiques a t labore.
Elle comporte des entres terminologiques relevant de plusieurs thmatiques, y
compris les lexiques usuels, des mdias et grammaticaux ainsi que leurs
quivalents arabes et franais (El Azrak et El Hamdaoui, 2011).
4

http://www.ilc.cnr.it/EAGLES96/annotate/annotate.html

44

La promotion de lamazighe travers les technologies de linformation et de la


communication

5.4.4.

Corpus

Dans lobjectif de dvelopper des outils de traitement automatique de lamazighe et


pour pouvoir se fonder sur l'usage rel de la langue, un recueil de textes numriss
et cods a t ralis.
Corpus brut
Dans le cadre dlaboration de corpus lectronique pour la langue amazighe,
un corpus a t collect, compos de 160 textes amazighes reprsentant
diffrents genres littraires, savoir conte, conte pour enfants, posie et
articles de presse contenant les sous-genres journal, magasine et Net. Il
comprend 136.093 occurrences dont 23.174 sont des mots distincts
(Boulaknadel et Ataa Allah, 2011).
Corpus tiquet
Les ressources lexicales annotes ne sont que rarement disponibles,
particulirement pour les langues peu dotes telle que lamazighe. Dans ce
contexte, une dmarche dlaboration de corpus tiquet a t mene. Ainsi, le
corpus ralis comprend environ 20 k mots et se compose de textes extraits
d'une varit de sources telles que la version amazighe du site Web de
l'IRCAM, le priodique Inghmisn n usinag (bulletin dinformation de
lIRCAM) et des manuels scolaires (Outahajala et al., 2010).

5.5.

Outils dassistance

Dans lobjectif de faciliter et de mener bien le processus dlaboration de


ressources langagires, des applications dassistance ont t ralises.

5.5.1. Base de donnes lexicales


Bien que de nombreux dictionnaires papiers de la langue amazighe soient dits,
aucune base de donnes numrique nest disponible. Pour faire face ce manque,
une application assurant la gestion des collectes et lexploration des lexiques
amazighes a t labore. Cette application permet de structurer les informations
intra et inter-lexicales telles que la dfinition, les quivalents arabes et franais, les
synonymes et le classement par thmes (Iazzi et Outahajala, 2008).

5.5.2. Outil dassistance ltiquetage morpho-syntaxique


Lutilisation des corpus, notamment ceux annots morpho-syntaxiquement, est
devenue une tape indispensable dans un processus dinformatisation dune langue.
Cependant, cette tche est dune grande complexit et son cot en termes de temps
et de ressources humaines limite la quantit et la disponibilit des corpus. Afin de
minimiser les efforts ncessaires pour produire des corpus amazighes et
damliorer leurs qualits en permettant des vrifications et en simplifiant les
modifications et les mises jour, un outil dassistance ltiquetage morphosyntaxique a t dvelopp, permettant une automatisation partielle de la tche

45

Fadoua Ataa Allah & Siham Boulaknadel

dtiquetage et assurant une bonne cohrence entre les diffrents travaux raliss
par lensemble des chercheurs (Ataa Allah et Jaa, 2009).

5.5.3.

Base de donnes littraires

Dans une perspective de sauvegarde du patrimoine littraire amazighe, une


application visant la collecte et la mise en rseau dun noyau dune banque de
corpus littraires, contenant principalement des donnes textuelles et audiovisuelles
amazighes, a t dveloppe. Cette application permet la gestion et la consultation
du contenu littraire (Ait Ouguengay et al., 2012).

5.6. Localisation logicielle


A travers la localisation de linterface de deux cellulaires Sony Ericsson J110i et
J120i et du systme dexploitation Microsoft Windows 8 , une opportunit a
t offerte lamazighe pour assurer sa prsence dans le monde technologique et
offrir lutilisateur un environnement familier, o lexprience de lintgration de
la langue amazighe et son systme dcriture tifinaghe a t mene.

5.7. Reconnaissance optique des caractres


Dans une vision de contribuer la sauvegarde et la numrisation du fonds
documentaire amazighe, de nombreuses tudes ont t menes sur la
reconnaissance optique de caractres amazighes dont le taux de reconnaissance est
autour de 92%. Ces tudes se basent sur diffrentes approches pour la
reconnaissance du caractre imprim et manuscrit. Elles sont regroupes
gnralement en trois classes, savoir les rseaux de neurones (Ait Ouguengay,
2009), (Elyachi et al., 2009), une approche syntaxique fonde sur les automates
tats finis (Es Saady et al., 2010) et les modles de Markov cachs (Amrouch et al.,
2010).

6. Conclusion
Dans un contexte gnral visant la prennit et la promotion de la langue amazighe,
les TICs constituent une piste prometteuse pour lutter contre la fracture numrique
dont lamazighe a souffert. Dans cette perspective, le prsent article propose une
mthodologie dinformatisation de lamazighe pour agir de faon cible et efficace
dans quatre domaines clefs, savoir la sauvegarde du patrimoine, lamnagement
linguistique, lducation et les mdias. Le fait de mettre laccent sur ces domaines
permettra de donner aux Marocains les moyens de spanouir en amazighe comme
en arabe et en franais et de contribuer au dvleppoment de la socit. Cette
mthodologie se base sur les travaux labors pour linformatisation des langues
peu dotes et suit un plan de dveloppement en trois tapes partant de la ralisation
dun kit doutils et de ressources linguistiques minimaux jusqu llaboration
dapplications avances. En outre, larticle dresse un bilan de ralisation doutils et
de ressources linguistiques amazighes permettant son traitement automatique et son
intgration dans le domaine des TICs.

46

La promotion de lamazighe travers les technologies de linformation et de la


communication

Rfrences
Ait Ouguengay, Y. et al. (2012), Projet GCAM- Vers une gestion informatise du
corpus amazighe lIRCAM , in TICAM 2012, 26-27 novembre 2012, Maroc.
Ait Ouguengay, Y. et Taalabi, M. (2009), Elaboration dun rseau de neurones
artificiels pour la reconnaissance optique de la graphie amazighe: Phase
dapprentissage , in Systmes intelligents-thories et applications. Europia
productions.
Amrouch M. et al. (2010), Handwritten Amazigh Character Recognition Based
On Hidden Markov Models. International Journal on Graphics , Vision and Image
Processing, Vol. 10, n 5, p. 11-18.
Andries, P. (2008), Unicode 5.0 en pratique : Codage des caractres et
internationalisation des logiciels et des documents, France, Dunod.
Ataa Allah, F. (2010), Etude comparative au niveau de ressources et outils des
langues peu, moyennement et bien dotes , Rapport interne, CEISIC, IRCAM.
Ataa Allah, F. (2011), Construction de corpus tiquet des documents textuels de
la langue amazighe , Rapport interne, CEISIC, IRCAM.
Ataa Allah, F. (2014), Finite-state transducer for Amazigh verbal morphology, in
Literary and Linguistic Computing, Oxford University Press. doi:
10.1093/llc/fqu045.
Ataa Allah, F. et Jaa, H. (2009), Etiquetage morpho-syntaxique: outil dassistance
ddi la langue amazighe , in SITACAM 2009, 12-13 december 2009, Maroc.
Ataa Allah, F. et Boulaknadel, S. (2010a), Amazigh Search Engine: Tifinaghe
Character Based Approach , in IKE 2010, 14-16 juillet 2010, USA.
Ataa Allah, F. et Boulaknadel, S. (2010b), Pseudo-racinisation de la langue
amazighe , in TALN 2010, 19-23 juillet 2010, Canada.
Ataa Allah, F. et Boulaknadel, S. (2012), Toward computational processing of
less resourced languages: Primarily experiments for Moroccan Amazigh language ,
in Text Mining, (d) Rijeka, InTech, p. 197-218.
Ataa Allah, F. et al. (2013), Amazigh Language Desktop Converter , in
SITACAM 2013, 2-4 mai 2013, Maroc.
Berment, V. (2004), Mthodes pour informatiser des langues et des groupes de
langues peu dotes, Thse de Doctorat, Universit Joseph Fourier, France.
Boukhris, F. et al. (2008), La nouvelle grammaire de lamazighe, Rabat, IRCAM.
Boulaknadel, S. et Ataa Allah, F. (2010), Online Amazigh Concordancer , in
ISIVC 2010, 30 septembre - 2 octobre 2010, Maroc.
Boulaknadel, S. et Ataa Allah, F. (2012), Building a standard Amazigh corpus ,
in IHCI 2011, 29-31 aot 2011, Tcheque.

47

Fadoua Ataa Allah & Siham Boulaknadel

ElYachi R. et al. (2010), On the Recognition of Tifinaghe Scripts . Theoretical


and Applied Information Technology, vol. 20, n 2, p. 61-66.
El Azrak, N. et Elhamdaoui, A. (2011), Rfrentiel de la terminologie amazighe :
outil daide lamnagement linguistique , in NTIC 2011, 24-25 fvrier 2011,
IRCAM.
Es Saady, Y. et al. (2010), Printed Amazigh Character Recognition by a
Syntactic Approach using Finite Automata . International Journal on Graphics
Vision and Image Processing, vol. 10, n 2, p. 1-8.
Iazzi, E.M et Outahajala, M. (2008), Amazigh Data Base , in HLT & NLP
Workshop, 31 mai 2008, Maroc.
Laabdelaoui, R. et al. (2012), Manuel de conjugaison amazighe, Rabat, IRCAM.
Muhirwe, J. (2007), Towards Human Language Technologies for Underresourced languages , Computing and ICT Research, (d) Joseph Kizza et al,
Kampala.
Nejme, F.Z. et al. (2013), Analyse Automatique de la Morphologie Nominale
Amazighe , in TALN 2013, 17 - 21 juin 2013, France.
Outahajala, M. et al. (2010), Tagging Amazigh with AnCoraPipe , in HLT &
NLP Workshop, 17 mai 2010, Malta.
Scannell. K.P. et al. (2012), The Irish Language in the Digital Age / An Ghaeilge
sa R Dhigiteach. White Paper Series, Springer-Verlag Publisher.

48

sinag-Asinag, 9, 2014, p. 49-73

'Smallcodes', a Unified Computational Linguistics


Toolbox for Minority Languages
Carlo Zoli
Smallcodes S.r.L., Firenze, Italy

Larticolo presenta la toolbox di Smallcodes, uno strumento web indispensabile


per le lingue minoritarie e valuta la sua possibile applicazione al Tamazight. Lo
strumento stato sviluppato per permettere anche alle minoranze linguistiche
di incrementare la loro presenza nel cyberspace e quindi passare da una realt
solo orale e al mondo scritto di Internet. La toolbox unificata di Smallcodes
composta da diversi moduli integrati tra loro: un dizionario che tenga conto
delle esigenze speciali (ad esempio i caratteri) delle lingue di minoranza; un
correttore ortografico studiato per la diversit dialettale; una sezione di
terminologia che aiuti la pianificazione di neologismi. Crediamo infatti che per
permettere alle lingue meno usate di sopravvivere in un mondo ultra-connesso
dove la maggior parte degli input sono mediati dal web e dalla lingua scritta,
sia necessario dotare queste lingue di un kit di sopravvivenza per fornire
loro gli stessi strumenti e risorse delle maggiori lingue nazionali.

Introduction
Living in a hyper-connected world means that most of the inputs we receive daily
are mediated by the Web and they are thus mainly written and not orally
transmitted. Therefore only those inputs with the right features, such as a good
visibility, the right patterns and an understandable language are winners in the vast
world of the written media. Contents in English language are therefore the most
widely spread because they most often meet these parameters. It is clear that, if we
want to save and preserve minority languages, we must necessarily let these lesserused languages have access to the tools and resources of the same technological
level as those of bigger languages. This can be done only sharing experience,
expertise and costs between minorities.
We believe that a computational linguistics toolbox can offer a unique solution for
minority languages to increase their presence in the written media, among which
the cyberspace is and will be the most pervasive. Basically, a first set of resources
that are needed to undertake the path to a complete NLP toolbox are, not
necessarily in this order, lexica, morphological analyzers / synthesizers, phonetic

49

Carlo Zoli

similitude patterns, neology / terminology thesauri, corpora and parsers (Scannel,


2011).
The aim is to create a single and integrated platform for language technology
dedicated to minority languages. The big novelty in the design of this instrument is
that we put all the tools together in one single highly interoperable box. This
unified and comprehensive toolbox is designed for the creation and management of
electronic language resources, to respond to the following needs (here we use the
classic tripartition of corpus, status and acquisition planning introduced by Heinz
Kloss (1976):
-

Corpus planning: such a toolbox is necessary to study minority languages


both in their internal variability and from a standardized point of view.

Status planning: the tools for neology provide a rapid introduction in the
world of administration and education whereas the orthographical and
auto-completion tools are intended to give an easy means in order to move
from the local oral variety to the standard written form.

Acquisition planning: the toolbox aims at providing language students with


a comprehensive tool made for acquiring the language and practicing its
use in everyday life.

Designing such a tool for minority languages is in some ways more difficult than
making it for an official national language, because only the latter has an ancient
and well-established written tradition. And yet this action is even more necessary,
because computational linguistics for minority languages is not an accessory
luxury, but it is a necessary (unfortunately not sufficient) condition to survive in
a globalized world (DellAquila, Iannccaro, 2011).
Smallcodes platform has an explicit eco-linguistic intent because it wants to create
interest around poorly investigated topics by mainstream universities. In fact,
Smallcodes works as a commercial firm when working with industrial, commercial
and government partners, but we also work as a non-profit organization when
collaborating with non-profit, volunteer, ONG partners or when participating in cofunding of national or international projects.

A first-level toolbox
The bare minimum to ensure any language a scientific and systematic presence in
the written world is made of:

A lexicon.
A spell-checker tool.
A terminology module.

The final aim is the maintenance and/or re-integration of language in society and
these tools are the necessary means to develop the chain of corpus planning
status planning acquisition planning. It must be clear that these technologies are
just means: the main purpose is in fact the maintenance of the language in social

50

'Smallcodes', a Unified Computational Linguistics Toolbox for Minority Languages

life. But in the contemporary world the social use passes through the written form,
and the written form passes through technology.
Minority languages lack of those fundamental IT tools that allow scientists to study
other bigger languages (i.e. terminology extractors, or resum automatique, or
question answering). In fact, when we talk about minority, small, lesser used
languages, we have to face not only their (relatively) scarce presence in the
cyberspace, but also the quality of this presence. We are talking in terms of
sociolinguistic quality, not about the literary or the aesthetic value.
It may be curious that an institution like ours that has devoted its life to preserve
linguistic diversity is such a strong defender of standardisation. Is not
standardisation an enemy of natural autochthonous languages as much as
colonialism or English glottofagy? On the contrary, we must be realistic: there
are very powerful tools that have been developed for standardised languages which
have meant years of development and millions of investments. It would be crazy
not to use them; it would be fool to think that Google Translator, or the incredible
results of the search engines or of the semantic Web would have been achieved if
English had not been English as a world language [Zoli, 2012 (1)]. If we want to
foster our small languages in the real world, and in the cyberspace (the two things
will tend to be asymptotically the same) we must be as dwarfs sitting on the
shoulders of giants, as we say in Italian. And to do this we have to pay a little
price: giving the language a common standard written form. This is absolutely not
sufficient, but it is terribly necessary and, in most of the contexts where we work, it
is not obvious at all.
Would it be sensible to go to Microsoft and ask them to localize Windows in 3
different Sardinian languages? Would it be conceivable to go to Shnzhn at Apple
Developers meeting and ask for 5 different Romantsch forms of iOS, or of Siri?
We must make all the possible profit from these global instruments as Google or
Siri and sit on the shoulders of these giants.
In this respect, having a look at Gartners hype cycle as of July 2012 (Figure 1) is
of great importance. Many expectations concern technology languages, but can we
think about information extraction, or integration with calendars or smart phones, if
people do not agree on how to write Thursday.

51

Figure 1 : Gartners hype cycle as of July 2012

Carlo Zoli

52

'Smallcodes', a Unified Computational Linguistics Toolbox for Minority Languages

In order to meet technological expectations is therefore necessary to promote the


written use of the language (which is necessarily electronic and not handwritten).
The writing is - just in terms of status planning - often in the domains of
administration, bureaucracy and schools (DellAquila, Iannccaro, 2011:98ff).
These are the more permeable areas to language policy, while those of literary
creativity are often oriented towards localisms and are more reluctant to accept a
standardized script.
The written use must be then promoted and facilitated. In this sense, the advantage
of minority languages is that very often the official institute for the defence of the
language is unique and known by many: the Institut Royal de la Culture Amazighe
for Tamazight or the Istitut Cultural Ladin for Ladin language are authority whose
prestige is recognized by most of the speakers of the target minority language.

The involved fields


Not every research field of computational linguistics can be involved at the
beginning of the process. At least in the first stage, it is necessary to focus on fewer
and simpler areas of interest, having clear in mind that, especially for normal users,
for school pupils and teachers, for a non-specialist audience a fairly-good
'something' is much better than a perfect 'nothing' (Scannell, 2011). Preliminarily,
it is necessary to have a unifying - better than "unified" writing system (field:
Writing). Then, the following step is represented by the creation of a common-use
dictionary and (if this is possible with budget and workforce available) a dialectal
dictionary of local varieties, plus the retrieval of studies and corpora on
terminology, neologism and modernization of the lexicon (field: Dictionaries). It is
then very useful to have spell-checking instruments such as online spell-checkers
(available online and for Microsoft Word and/or Open Office) and automatic
correction systems in all these cases (field: Writing aid). A further effort is the
creation of corpora and archives of ancient texts, the production of e-books, audio
books and didactic material online with downloadable and printable files off-line
(fields: Digital libraries / School teaching). An optional subsequent action is the
creation of a Web-TV and of free-press magazines and newspaper which is
mediated and generated by the Web (field: Digital instruments of mass
communication).
The chart below (Figure2) shows the fields of interest to be exploited for minority
languages according to the urgency of the action to be taken (ranging from green:
very urgent yellow: possible red: optional).

53

Figure 2: Computational linguistics packages for minority languages (Scannel, 2008)

Carlo Zoli

54

'Smallcodes', a Unified Computational Linguistics Toolbox for Minority Languages

After having collected enough lexical material (preliminary step), it is then


possible to plan the dictionary (first step). In fact, lexical lists of various kinds are
the necessary condition in order to set up the dictionary. They can be wordlists of
local or global language (i.e. conforming to local varieties of the language or to the
standardized spelling); they can also be imported form informal databases and
being the result of an OCR or parsing of ancient dictionaries.
The figure below (Figure 3) shows an example of standardizing dictionary with
registration of local varieties. Here is the extreme case of the entry otbro
(October) which has around 150 different phonetic realizations ascribable to three
consonantal macro-phenomena (1. maintenance of etymological t; 2. palatalization
of t > c. 3. loss of b). As it can be seen, the standard forms have been chosen
among those forms which are more etymologically regular (Lur et al., 2009).
Then (Figure 4), we have the same entry in a human-readable form (actually an
XML + CSS wich can be easily imported in a professional publishing tool as
Adobe Indesign, see Figure 6); Figure 5 shows the XML of fig 4 in the classic
machine-readable form.

55

Figure 3: An example of a standardizing dictionary with registration of local varieties

Carlo Zoli

56

'Smallcodes', a Unified Computational Linguistics Toolbox for Minority Languages

Figure 4: The same entry in a human-readable form1


1

Please note that the current tendency in normalization is to suggest a single graphic form
but to allow free choices in local meanings and lexical types. The image shows the lexical
type otbro (October) which in some places means autumn, fall. Symmetrically, for the
concept of October, we could have many other lexical types, such as Month of St.
Martin or Month of chestnuts.

57

Figure 5: Machine-readable output of the same entry in a LMF (Francopoulo et al., 2006), compliant XML-schema

Carlo Zoli

58

'Smallcodes', a Unified Computational Linguistics Toolbox for Minority Languages

Figure 6: XML above imported automatically into Adobe InDesign for automatic
layout for printing.

59

Carlo Zoli

The second step should be the integration of a morphological analyzer-synthesizer


within the dictionary, in order to develop a fully integrated spell-checker for the
minority language. The majority of spell-checking systems (e.g. HunSpell which is
the base of LibreOffice, Firefox, Chrome, etc. proofing tools) are fed with
wordlists which are not integrated and often not even exported from a coherent
dictionary authoring system (Nmeth 2011); the same can be said for
morphological engines or corpus analysis software, such as NOOJ (Ben Hamadou,
Mesfar, Silberztein, 2010): they may provide powerful tools, but they are never
integrated with a dictionary authoring and publishing system, and their use is
normally confined to NLP specialists, and often well beyond the reach of
traditional linguists not to say general public, school teachers or public
administration staff. In fact, having an integrated system means that every change
is reported automatically in both modules of the system and that the spell-checker
is always up to date, and so is authoring, Web publication, Smartphone app
generation, and even traditional paper publishing are all steps of a highly integrated
procedure. This is especially useful in treating minority or lesser-used language,
where the fieldwork is always active and new additions, changes, creation of
neology and terminology, and even spell reforms are frequent events. As modern
spell-checkers, our module works with a best-guess pattern of the rule, based on
statistic algorithms, on Levenshtein distance (Levenshtein, 1966) and on double
metaphone (Philips, 1990).
In addition, it includes dialectal-driven error patterns, which are fundamental for
minority languages. In fact, every correction system sets up its guesses upon
similarities of words. Our system adds to this method the awareness that, for semior recently standardized languages where the overwhelming majority of writers are
de facto illiterate in their language, most errors can be caused by the knowledge of
a word in one particular language variety that is not the standard form: in minority
languages people do not only misspell: they simply can't write, even if they can
perfectly speak (and write in the dominant language). The two word forms
(standard and non-standard) may differ a lot sometimes: the non-standard word can
be, for example, more similar to a word with a complete different meaning than to
its standard equivalent; or it can also be so graphically far from the standard form
that the system is not able to find the equivalence using the statistic algorithm or
the standard pattern matching. The system must then know that there can be odd
correspondences. We can offer a typical example from Sardinian language (the first
language for which we developed the spell-checker): the word berbeghe (sheep) is
pronounced /brebei/ in South Sardinia. If we analyze the differences among the two
words, we can understand that a simple system would not be able to guess the
standard form (berbeghe) starting from the non-standard one (brebei) (Corongiu,
2013). Conversely, our dialect-oriented spell-checker knows these odd
correspondences and the rules that allow to guess them. Our system uses therefore
two guess pattern, shown in the table below (Figure 7): the simple one detects
soundslike typical mistakes; the advanced one detects linguistic-background
driven mistakes. See Figure 8 and Figure 9 for MS Word and web interface of the
dialectal spellchecker (Zoli, 2008).

60

'Smallcodes', a Unified Computational Linguistics Toolbox for Minority Languages

Figure 7: Functioning of an advanced spell-checking system

Figure 8: Spell-checking of standard Ladin language with correction based on the


typical errors caused by the three main dialectal backgrounds (corresponding to
the three major oral dialects spoken in the respective alpine valleys: Gherdina,
Badiot, Fascian

61

Carlo Zoli

Figure 9: Same system as above accessing exactly the same data via the same
SOAP Web-service but for use in a text area within a Web browser.
The third step is the terminology module. The creation of the terminology is a
fundamental procedure if we want the language to be employed, for example, in
school teaching (see for example Figure 10, which shows a collaborative webTool
for neology, used by the authors of schoolbooks in Ladin Dolomitan), and
administrative / official translation (see fig 11 & 12 for a tool of computer-aided
technical translation for Sardinian languages, used by various public bodies).
Languages which do not have a written tradition normally lack of technical lexicon.
These new words need therefore to be created and the method for their creation
already exists: the sources are the other international languages that have made this
procedure before and the other minority languages that have already solved these
issues. Another possibility is to re-use old words whose original meaning is losing
importance in today's life and make these words express new meanings. A typical
example is the vocabulary used for cars nowadays in Italian: this is nothing more
than the recovered lexicon for horse carriages; similarly, the lexicon of Air
Navigation is directly taken from Maritime Navigation vocabulary. English
typically uses this strategy for neologisms, exploiting metaphors and meaning
extensions of pre-existing words. Romance languages, on the other hand, favour
the use of loan words, drawing inspiration from present or past prestigious
languages.

62

'Smallcodes', a Unified Computational Linguistics Toolbox for Minority Languages

Figure 10: An example of the work flow (with various status of approval) for the creation and consolidation of
terminology in Ladin language: please note that the system is fully integrated with the dictionary module so that
specific word-lists can be included or excluded from the general dictionary, exported for the Web or via Web-service
for use within other applications

63

Figure 11: Web page output of terminology module

Carlo Zoli

64

'Smallcodes', a Unified Computational Linguistics Toolbox for Minority Languages

Figure 12: Web-service output for word-to-word terminology translation

65

Carlo Zoli

The fourth (optional) step is the creation of a reference thesaurus, namely the
collection of written material of any literary kind and historical period which offers
a precious help in the consolidation of lexicon. A first-level thesaurus does not
need to be exaggeratedly ambitious: actions such as pos tagging, machinetranslation or stylistic analysis can be left out of the first phase of our project, not
because they are not interesting or important but because they do not belong to the
very first set of tools that every language needs to start its digital preservation
(Soria, Zoli, 2012). What is very useful, at the beginning, is the possibility of
having phrase quotations for literary dictionaries, the lemmatization and the
aligning of old orthography with new orthography.
The material collected and organized in the corpus allows to compare old and new
texts and wordlists and represents an authoritative support to be consulted at any
time. The thesaurus, thanks to frequency parameters, can offer guarantees on the
effective use of a word or on its register / linguistic style.
The choice of literary texts is done in order to let the speakers community
recognize them as properly written and trustable. Old literary texts often have, in
fact, a special prestige and are regarded as models in the lexical and semantic field
(Videsott, 2011). But very often, if not always, literary texts in minority languages
are written in different, incoherent spellings. We must preserve the original script
and at the same time re-publish the text in modern / standardized scripts as far as it
is possible. The automatic statistical alignment of the two version of the same text
(old and modern) allows the users and the researches to quote literature both as it
was written and as it would be written today.
Our Ladin thesaurus (Corpus dl Laden leterar / Wrterbuch des literarischen
Ladinisch / Corpus letterario del ladino)2 is a electronic corpus of literary works
written in Ladin language. It currently stores more than 1,200 texts from Ladin
valleys (Val Badia, Val Gardena, Val di Fassa, Fodom, Ampezzo): the material has
been completely scanned and digitalized and it consists of an archive of more than
250,000 different words.
Such a thesaurus represents the last step of the complete system and its strong
connection with the dictionary module contributes to show the importance of an
integrated system for the study and filing of lexical material.

Some possible objections


In most contexts where a minority language is struggling to be recognized and
protected, standardization is feared by many people. These people, especially when
they master the lesser-used language, are afraid that a major standard form might
hide away their native varieties, which have a strong identity value for them. At the
same time, the speakers who fear standardization, also reject the use of tools such
as electronic instruments for spell-checking (according to the belief that everyone
writes in his or her own way, or in a way which is totally respectful of local
pronunciations cfr. Vitali 2008). This attitude contribute to relegate minority
2

http://corpuslad.ladintal.it/

66

'Smallcodes', a Unified Computational Linguistics Toolbox for Minority Languages

languages such as Tamazight to the status of dialects and prevent them to evolve
and flourish.
Instead, it must be clear that standardized spelling only makes sense for a written
language. If there were, for example, a talk show in one minority language, the
titles and explanatory signs would be in standard, but the presenter and the guests
would talk in their own dialects (as it happens in German Switzerland or in Norway)
[Zoli, 2012 (2)]. The spell-checker we developed is aimed at appointing languages
such as Tamazight a written authority in which every rule is fixed and scientifically
established. Only in this way, we believe, small local languages can be protected
by the unified bigger standard form (which is, again, only a standard script that
tries to enables everyone to read in his or her own dialect, as long as a small effort
is made to find regularities and correspondences between every vernacular variety
and the standard form).
Moreover, some speakers might challenge the effectiveness of the terminological
research we support with our third module of the integrated system. In fact, some
people do not accept the creation of neologisms because they are alien to the
traditional language these speakers learned as children (my grandma would have
never said that!). As a matter of fact, no language, at an early stage, has the words
to express novelties or brand new concepts, but the school has made us believe that
certain languages are rich for some sort of divine predestination (Pellegrini, 1977).
If we take any Italian or French vocabulary, we can see that about 4000-5000
words are derived directly from Latin: these words are the most frequent and they
concern concepts or things which are the backbone of the language. Another
20,000 are also derived from Latin, but these other words were created later,
invented by the humanist scholars and writers. When a new concept was needed,
scholars used to draw it form the inexhaustible mines of Latin or Greek and
superficially make the word fit the graphics system and the phonetics of the target
language. This explains why French and Italian basic words directly derived from
Latin only remotely resemble each other (occhio / il, bocca / bouche, casa / chez),
while the scientific terminology is virtually identical (oculare / oculaire, orale / oral,
domestico / domestique). The former have come straightforwardly from Latin and
their form is the result of phonetic modification. The latter have been reinserted
later and belong to scientific or academic (i.e. terminological) vocabulary. The
creation of new terminology is therefore at the basis of the rehabilitation of a
language and it is a necessary step for this language to acquire prestige and be
adopted in the public sphere (e.g. school or public administration).

A quick comparison with possibly similar tools


It has to be said that similar ideas have been around for a while: efforts like
BLARK (Krauwer, 2003) and LCTL at the Linguistic Data Consortium rely on
somewhat similar ideas 3.
The main difference is that this projects aims to be industry-standard: the idea, as it
is expressed in the manifesto below, is to give long digital life not only to data, but
3

http:// projects.ldc.upenn.edu/LCTL/index.html

67

Carlo Zoli

also to applications, source-code, etc. A limit of software tools that come from the
academic and pure-research world is that they often cannot be maintained by big
teams of professional software developers, but often are either quickly abandoned
(not by the users, by the developers when the research project, and consequently
the funding, is over) or suffer an inevitable technical obsolescence (the case of EMeld is paradigmatic).
We could say that the Smallcodes project, stemming from the private industry
sector and approaching the research world (rather than vice versa) has a, so to say,
different business model.
The business model is not that the language experts or researchers adopt the system
as users, basically using it at their own risk or contributing to the development, in
a classical open-source fashion.
On the contrary, the Smallcodes business model is that the software is centrally
developed, and partnerships and funding opportunities are established every time a
new language group enters the community. Every new language expert group
adds new expertise, new funding, requests new features, but development is
pursued in an industrial fashion, with attention to the latest web technologies, with
highly resourced staff in an a web 2.0 commerciale way; then, the business itself
is basically non-profit , but all the same this is different from software
development done inside the linguistic academic world, which cannot have the
structure and the attitude of a commercial software house.
Finally it is more common to find a commitment for sharing language resources
(see for example OLAC 4 , DoBeS 5 ), whereas Smallcodes focuses more on the
sharing of software tools.

A possible employment of the toolbox for Tamazight


Our aim is to have one integrated tool which will be multi-accessible and will give
multiple simultaneous outputs. These are as follows:
A) human readable data: a web-app which will provide (not necessarily all, and
not necessarily at the same time):

4
5

Online authoring of dictionary of standard language (with synonyms,


antonyms, WordNet-like synset relationships (Fellbaum 1998).

Online authoring of dictionary of dialectal variation

Online authoring (with collaborative discussion and workflow) of


neology/terminology

Web publishing for public consultation of dictionary

Web publishing of conjugation / declination tables (paradigms / schemas)

http://www.language-archives.org/ 21/07/2013
http://dobes.mpi.nl/ 21/07/2013

68

'Smallcodes', a Unified Computational Linguistics Toolbox for Minority Languages

Integrated output of XML files for paper publishing (Adobe InDesign


format)

Integrated output of e-books (ePub format)

Integrated output of XML files for Android / iOS dictionary apps.

B) machine-readable data: a Web-service which will provide (not necessarily


all, and not necessarily at the same time):

spell-checking

dictionary look-up

thesaurus look-up

glossary look-up encyclopaedic information

terminological word-to-word translation

morphological analysis and synthesis.

The Web-service will provide data to many different applications: for use in a
browser, or integrated in a word-processor (via XML SOAP web-service) or, again,
integrated in e-Books for dictionary / terminology lookup.
Every language has its own peculiarities in terms of phonology and morphology. A
comprehensive tool must take account of a very large number of possible
differences among languages and anticipate the changes that each language will
require to the system.
The case of Tamazight is more complicated: we must be able to search for an entry
using the Tamazight script but also with the corresponding Latin characters. We
must therefore create the correspondences between graphemes and insert them into
the system. We must also take into account all possible variations in transliteration
and design a list of interchangeable graphemes. All this will be accomplished with
multiple Lucene indexes. 6
We also know that the Tamazight, as every language of recent standardisation can
have oscillation in writing, and event different realisations of the same phoneme:
/ ; / ; / ; / ; / (Boukous, 2009). The dictionary module and the
attached spell-checker must take account of all these possibilities.
In addition to these mutation processes, Tamazight language also possesses many
assimilation processes, such as the propagation of emphasis or the assimilation of
voiced and unvoiced consonants. These aspects concern instead the spell-checker,
which must then conceive special rules for words formation which reckon with
these phenomena. Only a strong language-aware spellchecker and metaphone
algorithm can achieve good results: in the situation of non-latin, recentlystandardized and highly diatopically variable languages standard spell-checking
simply does not work.

http://lucene.apache.org/ 29/05/2013.

69

Carlo Zoli

Again, with regard to the spell-checking module, we must have a look at


morphology: there are typical functions of Tamazight language which do not
concern, for example, Romance languages, such as the discontinuous affixation.
Therefore, we have to formulate a set of rules in order to automate the process of
spelling correction. In this particular case, we must take account, for example, of
the incredible variety of patterns in plural formation. Moreover, we must add the
categories of grammatical cases and consider the morphological changes that
words undergo in this inflection (in addition to gender and number inflection). Yet
again, there are several morphological changes in verbal inflection, such as
personal endings, aspect, derivative morphemes (causative, reciprocal and passive),
noun agreement (for the participle form) (Boukhris, 2008).
These examples are useful to show that an effective comprehensive system must be
able to adapt to the needs of every language. Tamazight has a complex grammar,
even if, when compared to other distant languages (such as Mexican languages,
which whom we work with), it has some sort of similarities with European
languages. We are struggling in order to reach the best results in the consideration
of the largest amount of lexical and grammatical possibilities. Every new language
we introduce in our system is an important piece of the puzzle that allow us to test
the capabilities of our system, add new concepts, discard old beliefs. This
expectation, we think, is our way to put into practice the principle of cooperation
among minority languages of the world.

70

'Smallcodes', a Unified Computational Linguistics Toolbox for Minority Languages

Our manifesto (Zoli, 2008)


As we have seen, language technology offers significant opportunities for minority
languages and can be a major force in addressing and alleviating some of the
difficulties they face. Speech and language technologies are in fact a powerful
means to bring together speakers' communities, to have a major impact on
language learning support, to promote inclusion of elderly or impaired people and
to foster widespread use of a language through digital means (Soria, Zoli 2012).
In developing the integrated system we describe here we have been inspired by
some beliefs. First of all, we believe that any serious project of cultural defence
should start from the defence of the language, and that modernization is to be
achieved through a written form of the language, as coherent and as widely
accepted as possible. We firmly think that digital technologies can play a crucial
role in this process of language modernization and in that of promotion and
diffusion of the language among younger generations. Finally, speaking of
technology, we believe that the highest possible degree of standardization (in file
formats, in communication protocols, in programming languages, in DBMSs) is
mandatory. Only so it is possible to guarantee long digital life to language
resources and only so we can allow a real exchange of information, data and
technologies.
Several years of experiences have allowed us to reach different results:
-

Our platform supports the standard Unicode (diacritics and all sorts of
characters are accepted).

The interface language can be changed very simply at any desired moment.

There is a high-parameterization (nothing is hard-coded).

Our software meets industrial standards.

All modules have achieved a real interoperability.

The final aim was to develop a unique tool which can be integrated in the main
writing systems (Word, Libre Office, Web browser, etc.) and which can operate at
all the different levels (or modules) of the toolbox. This, we believe, has shown to
be one of the most complete and effective survival kits for all endangered
minority languages such as Tamazight.

71

Carlo Zoli

Bibliography
Ben Hamadou, Abdelmajid; Mesfar, Slim; Silberztein, Max. Finite State
Language Engineering: NooJ 2009. International Conference and Workshop.
Touzeur: Centre de Publication Universitaire, 2010.
Boukous, Ahmed. Phonologie de lAmazighe. Rabat: Institut Royal de la Culture
Amazighe, 2009.
Boukhris, Fatima. La Nouvelle Grammaire de lAmazighe. Rabat: Institut Royal de
la Culture Amazighe, 2008.
Corongiu, Giuseppe. Il sardo: una lingua normale. Cagliari: Condaghes, 2013.
DellAquila, Vittorio; Iannccaro, Gabriele. La pianificazione linguistica. Roma:
Carocci Editore, 2011.
Kloss, Heinz Abstandsprachen und Ausbausprachen. In Gschel, Joachim; Nail,
Norbert; Van der Els, Gaston. Zur Theorie des Dialekts: Aufstze aus 100 Jahren
Forschung. Zeitschrift fur Dialektologie and Linguistik, 1976.
Krauwer, Stevem. The Basic Language Resource Kit (BLARK) as the First
Milestone for the Language Resources Roadmap Proceedings of SPECOM 2003,
Moscow, 2013.
Fellbaum, Christiane, ed. WordNet: An Electronic Lexical Database. Cambridge,
MA: MIT Press, 1998.
Francopoulo, Gil et al. Lexical markup framework (LMK) Genoa: LREC, 2006.
Levenshtein, Vladimir I. Binary codes capable of correcting deletions, insertions,
and reversals. Soviet Physics Doklady, 1966.
Lur Franco et al. Dalla carta al web: la versione informatica del lessico dialettale
della Svizzera italiana, In: Ruffino G., D'Agostino M. Storia della lingua italiana e
dialettologia, atti del VIII Convegno Internazionale dell'Associazione per la Storia
della Lingua Italiana, Palermo, 2009.
Nmeth, Lszl http://hunspell.sourceforge.net/ (27/05/2013).
Pellegrini, Giovan Battista. Carta dei dialetti dItalia. Pisa: Pacini editore, 1977.
Philips Lawrence. Hanging on the Metaphone, In Computer Language, Vol. 7,
No. 12 (December), 1990.
Scannel, Kevin. New computational resources for indigenous and minority
languages, 17th annual NAACLT conference. Isle of Man, 2011.
Scannel, Kevin. Semi-automated construction of semantic networks using web
corpora, Words, Texts and Dictionaries conference. University of Wales Centre
for Advanced Welsh and Celtic Studies, Aberystwyth, 2008.
Vitali, Daniele. Appello ai romagnoli per studiare la diversit dialettale La Ludla
XII, 2008.

72

'Smallcodes', a Unified Computational Linguistics Toolbox for Minority Languages

Soria, Claudia, Zoli, Carlo. New markets for Language Technology for minority
languages, Maaya Conference. Paris, 2012.
Videsott, Paul. Vocabolar dl Ladin Leterar / Wrterbuch des literarischen
Ladinisch / Vocabolario del Ladino letterario (VLL). Projektbeschreibung, 2011.
Zoli, Carlo. Encouraging the presence in the cyberspace of the lesser used
languages through writing and proofing tools: the case of Sardinian language,
Maaya Conference. Paris, 2012.
Zoli, Carlo. La scrittura standard del romagnolo: unurgenza non rimandabile La
Ludla IX, 2012.
Zoli, Carlo. Trattamento digitale delle lingue al servizio delle lingue meno usate,
Corongiu G., Romagnino C. Sa Diversidade de sas Limbas in Europa, Itlia e
Sardigna. Atos de sa cunferntzia regionale de sa limba sarda, Macumere/Macomer,
2008.

Appendix: Institutions whom which we work

Institut national des langues et civilisations orientales (INALCO - Paris)

Rromani Baxt - Paris

PARIS 3 (prof. J.-L. Lonard Meso-American languages)

Chubri, institu d'inventrr e d'valantaij du Galo

Universit Orientale di Napoli (prof. M. Gnerre - Meso-American


languages)

Chambra dc Occitan, Francoprovenal

Regione Piemonte Minority Department (Walser, Occitan)

Bureau Rgional Ethnographie


(Francoprovenal language)

Istituto di Dialettologia ed Etnografia della Svizzera Italiana (Lombard =


north Italian dialects of Italian Switzerland)

Ufitziu pro sa Limba Sarda Regione Autnoma de sa Sardigna

Istitut ladin Micur de R Val Gardena-Val Badia

Istituto culturale ladino Majon di Fascegn Val di Fassa

Union Generla di Ladins dla Dolomites - SPELL

Istituto Culturale Mcheno Pal TN

Istituto Culturale Cimbro Luserna TN

Ufici Lenghe Furlane Provincia di Udine

Agjenzie regjonl pe lenghe furlane (ArLeF)

et

Linguistique

Val

DAosta

73

sinag-Asinag, 9, 2014, p. 75-90

La ralisation de grands corpus linguistiques berbres


normaliss interoprables : enjeux culturels et enjeux
dingnierie linguistique
Noura Tigziri (1) & Henri Hudrisier (2)
(1) Universit de Tizi Ouzou
(2) Laboratoire Paragraphe, Universit de Paris 8

We describe our involvement in projects aimed at the production of French and


Franco arabo berber digital resources : the BNFB (a project of the OIF FFI
[1]) and HumanitDigitMaghreb (a project of the CNRS ISCC).
In this paper, we focus particularly on the methods used in
HumanitDigitMaghreb (the TEI, specifically applied to the structuration of
speech corpora and corpora of poetry and folk tales). The link with the
ethnomusicological TEI markup is expected but will be considered later.
We will also examine the practical and future issues of very large corpora,
linguistically annotated in accordance with a common standard and designed to
constitute, for the linguistic community (for us, the Berber world), the context
necessary to interact with the future tools translation and e-semantics
On this last point, for written or oral (audio signal or transcription) corpora, it
is essential that the research community about Berber cooperate to promptly
equip Berber languages of modern tools for digital processing.

Introduction
La mise en place de corpus numriques est devenue une exigence si on veut
sauvegarder notre patrimoine culturel et identitaire mais la cration de corpus
oraux, par exemple, avec leur transcription, leurs traductions, leur annotation
ncessite des mthodes modernes qui puissent faciliter leur exploitation et leur
accessibilit. Aussi dans notre article, prsentons- nous lune de ces mthodes, la
TEI (Text Encoding Initiative) applique la structuration dun corpus en kabyle.
En lien avec dautres collgues, nous sommes impliqus des niveaux diffrents
dans des projets de bibliothques numriques, de production de-learning, de
normalisation des TIC, de recueil linguistique et dorganisation de ressources de
documents dans la dynamique des Humanits digitales. Sans pour autant en tirer

75

Noura Tigziri & Henri Hudrisier

prtention, nous considrons que la slection et le financement consquents de ces


actions de recherches dans des appels doffres proposs par des instances comme
lOIF ou le CNRS, confortent la pertinence de nos choix mthodologiques. La
large assiette des partenariats rassembls 1 nous permet aussi de disposer de
comptences interdisciplinaires (recherche littraire, ethnologie, linguistique,
bibliothconomie, musicologie, ingnierie linguistique du document et des rseaux,
expertise en normalisation) mais aussi de diversit gographique et multilingue. Il
nous semble, en effet, primordial que cette diversit des points de vue, des langues,
des modes dexpressions, des mdias, des genres (crit, oral, image, musique,
thtre, contes, posie, etc.) soit pris en compte dans une collgialit numrique
vritablement communicante.
Telles sont, en effet, les ambitions primordiales des travaux dans lesquels nous
sommes engags qui ncessitent cette large palette de disciplines, de langues, de
mtiers et de diversit internationale et institutionnelle :

Faire communiquer des langues entre elles (la famille des langues berbres,
les langues du Maghreb mais aussi termes les langues mortes qui fondent
son patrimoine mais encore rendre accessible les ressources que nous
rassemblons de faon mondiale)

Construire en synergie des corpus de documents numriques en prenant la


prcaution de ngocier leur intercompatibilit normative de faon
cohrente et concerte pour que quantit dutilisateurs 2 (mais aussi de
crateurs) de ressources puisse les rutiliser selon des diversits de
facettes dapproche. Nous pensons, en effet, que rassembler des ressources
numriques doit obligatoirement se faire en ayant le souci de dployer un
maximum de scientificit mais en ayant le souci constant que ces travaux
soient utilisables par dautres disciplines, mais aussi puissent participer de
prosprit numrique des communauts concernes par ces patrimoines3.

Si nous affichons ces ambitions cest parce que nous savons qu lgal de la
mutation de la Galaxie Gutenberg4 , la mutation de la Galaxie Digitale nous
impose de prendre en compte les recompositions de collgialit interdisciplinaire et
bien sr la globalisation internationale et interlinguistique.
La Galaxie Gutenberg avait refond les sciences, lindustrie et lconomie. La
Galaxie Digitale nous impose elle aussi de revoir fondamentalement nos mthodes
1

AUF, ISO, Tlcom Paris Sud, Alliance Cartago, EHESS, Universit de Paris 8, de
Bordeaux 3, de Paris 10, dEvry, de Tunis, de TiziOuzou, dOujda, dAgadir, de Niamey,
Conservatoire de Rimouski-Quebec.
2
Non obligatoirement prvu lorigine des projets.
3
Si le monde acadmique a danne en anne besoin de plus doutils, dquipement, de
missions internationales et sil ne peut raisonnablement augmenter en pourcentage sa
part du budget national cela impose obligatoirement prter attention et sinscrire dans
des synergies interdisciplinaires, des synergies internationales, des cooprations sciences
industrie et tre attentif aux retombes dusage pour la prosprit de la socit civile.
4
Cf M. Mac Luhan. Sa thse impliquait des hypothses de mutations similaires que lauteur
pointait avec les mass mdias des annes 60.

76

La ralisation de grands corpus linguistiques berbres normaliss interoprables : enjeux


culturels et enjeux dingnierie linguistique

selon de multiples impratifs, notamment : interdisciplinarit, approche multimdia,


multilinguisme, synergies sciences-industrie, pluralit des usages, mondialisation
numrique des ressources (cloud computing), e-smantique.
Nous ne dveloppons pas dans cet article la facette Bibliothque numrique de nos
travaux. Cette facette sera expose dans dautres publications et a t dailleurs
soumise au comit du TICAM 2012. Il est cependant indispensable de signaler que,
bien sr, la ralisation de grands corpus de documents impose de sinscrire au
minimum dans les recommandations et les bonnes pratiques proposes par
lOCLC5 et notamment sappuyer sur le Dublin Core6 partag par la plupart des
bibliothques numriques dans le monde. Lavantage majeur de ce respect des
recommandations de lOCLC et du DC tant que, si on en donne lautorisation,
toutes les bibliothques compatibles dans le monde peuvent venir moissonner
nos ressources berbres, et que rciproquement nous pouvons enrichir nos propres
corpus en venant moissonner nous-mmes automatiquement toutes les
bibliothques numriques du monde grce aux mots-clefs ou aux termes tagus
qui reprsentent les problmatiques qui traversent nos corpus.

Baliser des documents sous plusieurs facettes


Les tches spcifiques dcrites par les auteurs dans ce papier se focalisent plus
spcifiquement sur la TEI et son importance grandissante pour rendre disponibles,
interoprables, rutilisables et normalises des ressources linguistiques qui peuvent
tre indiffremment des corpus oraux, des chansons, ou de la littrature.
Lavantage de la TEI pour des ressources numriques, cest quelle autorise des
traitements par balisages successifs, facette par facette, et permet ensuite leur
alignement multifacette, multisupport, multidisciplinaire et multilingue.
Concrtement, une ressource sonore chante et parle kabyle pourra tre analyse
linguistiquement et transcrite, elle pourra tre lie et aligne avec sa transcription,
son analyse ethnomusicologique, puis ses transcriptions (par ex. en dautres
langues berbres et en fr., ar., es., en. ). Le texte lui-mme pourra tre lobjet
dun balisage correspondant des analyses littraire et potique, elles aussi,
alignes avec les autres facettes.
5

Le Online Computer Library Center (OCLC), fond en 1967, nomm l'origine Ohio
College Library Center, est une organisation but non lucratif mondiale au service des
bibliothques dont le but est d'offrir un meilleur accs public aux informations et den
rduire le cot. Plus de 60 000 bibliothques dans le monde utilisent les services de l'OCLC
afin de trouver, de cataloguer ou de conserver leurs ouvrages. Les bureaux de l'organisation
sont situs Dublin, Ohio (USA).
6
Le Dublin Core est un schma de mtadonnes gnrique qui permet de dcrire des
ressources numriques ou physiques et dtablir des relations avec d'autres ressources. Il
comprend officiellement 15 lments de description formels (titre, crateur, diteur),
intellectuels (sujet, description, langue, ) et relatifs la proprit intellectuelle. Le Dublin
Core fait l'objet de la norme internationale ISO 15836, disponible en anglais et en franais
depuis 2003. (6 pages, cest donc une norme extrmement concise et facile sapproprier).
Il est employ par l'Organisation mondiale de la sant (OMS), ainsi que dans de trs
nombreuses institutions, tats et entreprises. Le Dublin Core a un statut officiel au sein du
W3C et bien sr de lISO.

77

Noura Tigziri & Henri Hudrisier

Cest en cela que les exigences de multidisciplinarit, de multilinguisme, de


synergie sciences-industrie (notamment industrie de langue) ne sont pas des vains
mots. Le cur de la mutation cognitive de la Galaxie numrique se situe l. Dans
une oprabilit synergique numrique danalyses scientifiques en sciences
humaines qui sadditionnent, se recomposent, sinterfcondent de faon croise.
Cest dans ce but que nous nous inscrivons dans le projet HumanitDigitMaghreb
qui a prcisment pour objet de pousser plus loin les ambitions du projet BNFB et
daider les participants francophones, arabophones et berbrophones du projet
sapproprier des mthodes de la TEI. Le but final sera, donc, que nous ne
disposions pas seulement de bibliothques numriques uniquement rfrentielles
(ce qui est dj bien !), mais que nous mettions en uvre graduellement un
balisage savant des ressources (linguistique, littraire, musicologique) qui
donnera une vritable valeur ajoute notamment aux ressources berbres.

Le courant des Humanits digitales et la TEI


Pour nous, le travail de formalisation des documents linguistiques sopre sur deux
versants complmentaires :
1. Celui de la numrisation des documents (Dublin Core) pour quils puissent
devenir disponibles, de faon normalise et interoprable sur une plateforme partage en commun par les participants des projets (la plate-forme
OMEKA 7 ), mais quils puissent aussi tre moissonns partout dans le
monde sur des plates-formes rpondant aux spcifications de lOCLC et
qu linverse, les participants des projets berbres et arabo-berbres
prcits puissent moissonner eux aussi des documents dans toutes les
bibliothques numriques .
2. Celui dun balisage interne des documents dj numriss et rfrencs
pour ce qui est de leur structure formelle, de leur morphologie, de leur
signification, de lajout de gloses ou de notes, dhypothses explicatives ou
encore du balisage de leur alignement avec des fichiers associs
7

Omeka est un logiciel flexible et open source, conu pour la publication sur le web de
collections de documents numriques provenant de bibliothques, de muses ou darchives.
Le logiciel est dvelopp par le Roy Rosenzweig Center for History and New Media.
Linterface standard permet de parcourir la liste des documents (ou items), dafficher les
fichiers associs chaque document, de filtrer par mot-cl, de parcourir les collections. Une
recherche simple et avance complte les possibilits de navigation. Des extensions
permettent lajout de fonctionnalits, facilitant par exemple la cration dexpositions
lectronique. Ladministration du site, intuitive et fonctionnelle permet la gestion des
collections, des documents et des fichiers associs chaque document. Le type des
documents peut tre prcis : texte, image, son, vido, cours, histoire orale, email, site web,
lien hypertexte, vnement ou personne. Les documents ont le statut public ou priv et
peuvent tre mis en avant sur la page daccueil du site. Les informations descriptives
de chaque document sont renseignes au format Dublin Core. Des mtadonnes
supplmentaires peuvent tre ajoutes, dpendant du type du document, notamment la TEI.
Les fichiers associs peuvent tre du type texte (TXT, DOC, PDF, XML, JPG, TIFF),
image (GIF, JPEG, PNG, TIFF), son (AIFF, MIDI, MP3, OGG, QT, RA, WAV) ou vido
(AVI, MPEG, MP4, QT, SWF, WMV).

78

La ralisation de grands corpus linguistiques berbres normaliss interoprables : enjeux


culturels et enjeux dingnierie linguistique

(transcription, traduction, interprtation ou autre versus mdiatique comme


des fichiers sonores ou vidos associs des textes, des partitions
musicales, des photographies, des cartes, des rseaux ou des schmas).
Cest donc sur le point 2 que nous insistons dans cet article.

Le problme pos : la formalisation numrique normalise des


travaux en SHS
Les SHS travaillent globalement sur une matire plus floue que les sciences
exprimentales et bien sr que les sciences exactes : leur matriel principal est le
document (souvent linguistique), leur outil danalyse est le plus souvent
largumentation textuelle et leurs rsultats sont globalement des textes.
Evidemment certaines sciences humaines (notamment la linguistique) pratiquent
depuis longtemps la formalisation dun grand nombre de leur description (quelles
soient morphologiques, syntaxiques, argumentatives, etc.). Cette pratique de
formalisation a grandement facilit leur collaboration avec les informaticiens et
explique pour partie les progrs en ingnierie linguistique. Dautres sciences
humaines, les tudes littraires par exemple ont t longtemps et sont aujourdhui
encore globalement rtives la formalisation de leurs analyses. La recherche
littraire est de ce fait une science qui travaille sur le langage naturel, analyse, pose
des hypothses, les formalise sous forme dnoncs en langage naturel et
communique ses rsultats sous la forme quasi exclusive de textes arguments en
langage naturel.
Cependant, notre objectif nest pas de distribuer des bonnes ou mauvaises notes
telle ou telle catgorie de chercheurs en SHS mais de comprendre la mutation de
mthode et dhabitus des chercheurs. De fait, la question qui devient rcurrente est
celle de la normalisation des pratiques face une relative prolifration des outils
daide informatique dans certains segments du travail linguistique.
Si nous nous appuyons sur une typologie grossire des travaux scientifiques et
industriels sur le langage, nous pouvons distinguer :
 Le travail sur les corpus oraux pour lequel il existe une relative prolifration des
outils daide la transcription, mais sur lequel il est urgent de sentendre sur des
standards.
 Le travail danalyse littraire qui na longtemps connu que des outils trs
rustiques et limits comme les analyses statistiques de vocabulaire.
 Les travaux terminologiques et lexicographiques dont les principes et mthodes
ont t normaliss trs tt grce notamment Eugen Wster qui a peru trs vite
lobligatoire ncessit de normaliser les pratiques en fondant ds 1937 ce qui allait
devenir le Comit Technique 37 de lISO (ISO TC37).
 Les travaux sur linformatisation de lcriture : la question est largement connue
lIRCAM. Notons cependant que le scnario historique de ce qui sest pass entre
les annes 1960 et aujourdhui est une excellente leon dvolution technologique
et de la longue dure dappropriation technique, de limprieuse ncessit de

79

Noura Tigziri & Henri Hudrisier

sinscrire dans la normalisation et de la ncessit de comprendre le lien entre les


progrs de lenvironnement technique 8 . Pour des raisons historiques, lcriture
latine non accentue a t ds le dbut prise en compte et normalise. On connat
ensuite les normes successives et notamment la famille ISO 8859 qui prenait en
compte les grandes critures alphabtiques (latine, cyrilliques, arabe, grec,
hbraque) mais qui ne pouvait coder ni les critures idographiques, ni les
critures sans intrt industriel vident comme le tifinagh ou les critures
archologiques (cuniformes, hiroglyphes). Sur ces derniers segments, on a bien
sr assist une relative prolifration de standards propritaires bricols par
des laboratoires ou de petites socits informatiques. Cest ensuite grce aux efforts
des quipes des chercheurs de terrain (notamment lIRCAM) que la
normalisation de ces technologies de transition a pu se faire.
Nous avons insist sur cette question de la numrisation des critures (qui pose
dsormais peu de problmes) parce quelle est emblmatique de lobligatoire
normalisation pour passer du foisonnement antiproductif des standards
propritaires comme ctait le cas avant Unicode et comme cest encore le cas
pour la transcription des corpus oraux.
En effet, comme le signale Thomas Schmidt9, il existe aujourdhui un choix relatif
pour des outils daide la transcription (de transcription informatique des corpus
oraux10 ) et complmentairement une relative profusion de standards de formats
pour coder de faon inutilement distincte les objets, les vnements, le contexte et
les textes rsultant de la transcription de ces corpus oraux. Certes, ces outils et
formats prsentent des diffrences mineures dues au contexte de leur
dveloppement et de leur production.
Par exemple, CLAN/CHAT a t dvelopp pour transcrire et coder des corpus
oraux denfants dans la base CHILDES alors que EXMARaLDA Partitur-Editor a
t dvelopp dans un contexte dtude du multilinguisme et de la dialectologie.
Tous ces outils ont des fonctionnalits similaires qui leur permettent simultanment
de disposer dun player son visualisant lenveloppe des productions sonores
et de zones de capture textuelle prsente en lignes parallles (voir ci-dessous
figure 1, une capture dcran dEXMARaLDA).
Pour compliquer encore la situation, les grands corpus mondiaux de transcription
orale, ont bien naturellement dvelopp des conventions propritaires de
codage des rsultats dans leurs bases (voir ci-dessous figure 2, un tableau
rcapitulatif selon Thomas Schmidt).

Dans ce cas particulier la ncessit dattendre les progrs dune informatique 8 bits puis
des processeurs 16, 32, 64 bits et plus qui permettent maintenant de travailler directement
en Unicode ce qui tait plus problmatique quand les processeurs taient 8 bits.
9
Thomas Schmidt, A TEI-based Approach to Standardising Spoken Language
Transcription , Journal of the Text Encoding Initiative [Online], Issue 1 | June 2011,
Online since 08 June 2011, connection on 08 July 2012. URL : http://jtei.revues.org/142 ;
DOI : 10.4000/jtei.142
10
ANVIL, CLAN/CHAT, ELAN, EXMARaLDA Partitur-Editor, FOLKER, Praat,
Transcriber

80

La ralisation de grands corpus linguistiques berbres normaliss interoprables : enjeux


culturels et enjeux dingnierie linguistique

File formats and transcription conventions for different spoken language


corpora
Corpus (Language) [URL]
SBCSAE (American English)
[http://projects.ldc.upenn.edu/
SBCSAE/ ]
BNC spoken (British English)
[http://www.natcorp.ox.ac.uk/ ]
CallFriend (American English)
[http://talkbank.org/ ]
METU Spoken Turkish Corpus
(Turkish)
[http://std.metu.edu.tr/ en]
Corpus Gesproken Nederlands (CGN,
Dutch)
[http://lands.let.kun.nl/ cgn/ ehome.htm]
Forschungs- und Lehrkorpus
Gesprochenes Deutsch (FOLK,
German)
[http://agd.ids-mannheim.de/ html/
folk.shtml]
Corpus de Langues Parles en
Interaction (CLAPI, French)
[http://clapi.univ-lyon2.fr/ ]
Swedish Spoken Language Corpus
(Swedish)
[http://www.ling.gu.se/ projekt/ old_tal/
SLcorpus.html]

File format

Transcription
convention

SBCSAE text
format

DT1 (DuBois et al.


1993)

BNC XML
(TEI variant 1)
CHAT text
format
EXMARaLD
A
(XML format)

BNC Guidelines
(Crowdy 1995)
CA-CHAT
(MacWhinney 2000)

Praat text
format

CGN conventions
(Goedertier et al. 2000)

FOLKER
(XML format)

cGAT (Selting et al.


2009)

CLAPI XML
(TEI variant 2)

ICOR (Groupe Icor


2007)

Gteborg text
format

GTS (Nivre et al. 1999)

HIAT (Rehbein et al.


2004)

Pour ce qui est du traitement numrique des corpus oraux, nous sommes donc
confronts une situation tout fait similaire celle de la codification des critures
avant leur normalisation convergente avec Unicode. Il existe une relative anarchie
des outils daide la capture et la transcription ainsi que des formats de codages.
Comme le fait remarquer Lou Burnard11, Le constat est rcurrent : la varit
des formats utiliss se superpose lincohrence des pratiques conventionnelles de
transcription des donnes orales. En dpit de plus de vingt annes de pratiques
convergentes, les communauts intresses prfrent travailler avec leurs propres
11

Lou Burnard : Encoder loral en TEI : dmarches, avantages, dfis. Confrence la


Bibliothque Nationale de France, prononce le 10 mai 2012, Publi le 19/06/2012 par
Abigal Pesses.

81

Noura Tigziri & Henri Hudrisier

outils et conventions maison. Pourtant, lintrt de se servir dun format commun,


voire pivot, est un sujet qui a t abord dans la littrature acadmique de
multiples reprises : Edwards & Lampert (1993), MacWhinney (2007), Schmidt
(2011). Ne serait-il pas finalement temps dtablir un format dchange normalis
pour les donnes orales? [La TEI grce son format fdrateur TEI transcription
of speech et aussi grce son alliance en consortium avec lISO TC37 est
actuellement en situation de devenir la norme12] .
Dans les projets auxquels nous faisons rfrences (BNBF et
HumanitDigitMaghreb) les participants se rclament globalement de ces deux
disciplines, souvent des deux ensembles, mais aussi de la bibliothconomie,
lhistoire, la ptrographie, lethnologie, lethnolinguistique, la musicologie.
En nous inscrivant dans lcole de pense des Humanits digitales et de la TEI qui
est sa norme et son outil technique, nous voulons explicitement donner non
seulement une ralit tangible et numrique nos travaux, mais aussi les rendre
facilement changeables, cumulables, amliorables, modifiables partout dans le
monde. Nous voulons que nos travaux linguistiques participent prindustriellement de lingnierie linguistique. Nous voulons que nos travaux de
recherche littraire soient non seulement visibles dans le monde entier, mais encore
quils sinscrivent dans la synergie mondiale des tudes littraires computorisables.
Nous voulons aussi sur un plan plus spcifiquement pan berbre que nos travaux
soient dj facilement changeables et cumulable entre nous et avec nos trois
langues partenaires maghrbines (arabe, franais, espagnol auxquelles il convient
de rajouter langlais). Cest la raison primordiale de notre implication dans le projet
HumanitDigitMaghreb.

Quest-ce que HumanitDigitMaghreb ?


HumanitDigitMaghreb est un projet du CNRS-ISCC13. Cest une recherche-action
dans laquelle sont engags des acteurs de terrain (linguistes, chercheurs en
littrature, culture, histoire tant franaise quarabe ou berbre) soucieux dinscrire
leurs pratiques dans lorganisation rationnelle de corpus numriques rpondant aux
recommandations mondiales des rseaux de bibliothques numriques (OCLC) et
des Humanits digitales. Ces acteurs de terrain sont associs avec des praticiens de
la coopration francophone numrique, des spcialistes de linformation et de la
communication, des fondateurs de la TEI et des Humanits digitales en France, des
spcialistes de lappropriation des usages du numrique et plus spcifiquement des
patrimoines numriques. Paralllement son tude dappropriation, cette recherche
sappuiera sur des ralisations en cours de structuration de corpus patrimoniaux
franco-arabo-berbres.

12

Cette conclusion entre crochets est dHenri Hudrisier mais correspond laction des
leaders de la TEI effectivement lis aux actions de liso TC37, notamment Laurent Romary
convener de lISO TC37-SC4.
13
Institut des sciences de la communication du CNRS (Centre National de la Recherche
Scientifique).

82

La ralisation de grands corpus linguistiques berbres normaliss interoprables : enjeux


culturels et enjeux dingnierie linguistique

Les partenaires historiques de la TEI


La TEI (Text Encoding Initiative) a t fonde la suite dune confrence
sponsorise par l'ACH (Association for Computers and the Humanities) 14 et
finance par le NEH (U.S. National Endowment for the Humanities) 15 . Cette
confrence avait lieu au Vassar College (Poughkeepsie, N.Y. - USA) en novembre
1987. Environ trente reprsentants du monde des bibliothques, des socits
savantes et de projets de recherche intresss par le codage des textes et la
recherche littraire ainsi que dinformaticiens spcialiss en SGML taient invits
cette confrence pour discuter la faisabilit d'un codage standard et laborer des
recommandations. Pendant la confrence, l'ACL (Association for Computational
Linguistics)16 et lALLC (Association for Literary and Linguistic Computing)17 ont
dcid de rejoindre lACH comme les sponsors d'un projet pour dvelopper les
Directives de la TEI (TEI Guidelines). En 1988, ils ont t rejoints par la
Commission de la Communaut Europenne, lAndrew W. Mellon Foundation18 et
le Social Science and Humanities Research Council of Canada19.
14

LACH (Association for Computers and the Humanities) a t fonde en 1978, une
poque o la relation entre informatique et humanits, tait encore trs confidentielle. La
plupart des grands universitaires du domaine jugeaient mme quil sagissait dune alliance
contre nature. En une trentaine danne, le paysage a bien chang. L'ACH a mis en place un
forum pour la recherche, des discussions et les explorations techniques qui ont aliment
cette transformation. LACH est devenue une association beaucoup plus vaste. Elle
patronnait chaque anne ; la confrence d'Humanits Numriques annuelle (maintenant
patronne par ADHO.
15
Le NEH (U.S. National Endowment for the Humanities) est une agence fdrale
amricaine indpendante fonde en 1965 par le Prsident Lyndon Johnson. Cest le plus
important organisme de financement dans le secteur des Humanits aux USA. Il intervient
pour financer lexcellence culturelle, musale, acadmique mais aussi la radio et la
tlvision, voire des bourses de recherches individuelles.
16
LACL (Association for Computational Linguistics) est lAssociation de rfrence
mondiale pour les professionnels et les scientifiques travaillant sur les questions liant
langages naturels et traitement informatique. LACL dite Computational Linguistics et
organise des confrences annuelles (la 51me confrence est prvue en 2013 Sofia).
17
LALLC (Association for Literary and Linguistic Computing) a t fonde en 1973 dans
le but de favoriser des applications dinformatisation de ltude du langage et de la
littrature. LALLC sintresse lanalyse des textes, aux corpus textuels, lhistoire,
lhistoire de lArt, la musique, ltude des manuscrits et ldition lectronique.
18
La Fondation Andrew W. Mellon de New-City et Princeton est une fondation prive,
dote de richesses accumules par Andrew W. Mellon de la famille Mellon (Pittsburg,
Pennsylvanie). Cest une fondation prestigieuse qui intervient dans lenseignement
suprieur, les bibliothques et la communication savante, les muses et la conservation de
lArt, les arts de la scne, et les TIC. Plus prcisment le dveloppement de logiciels
interrssant ses principaux champs dintrts ci-dessus.
19
Le Social Science and Humanities Research Council of Canada en franais Conseil de
recherche en sciences humaines du Canada (SSHRCC- CRSHC) est un organisme du
gouvernement fdral canadien ayant pour mission d'appuyer la recherche et la formation
avance en milieu universitaire dans le secteur des sciences humaines.

83

Noura Tigziri & Henri Hudrisier

On voit bien que ces associations fondatrices ne sont pas dobscurs partenaires, ces
diverses institutions opraient une importante jonction synergique en fondant la
TEI. Certes, la TEI a contribu ce quun vaste public savant sapproprie des
standards bonnes pratiques en matire de traitement et de communication pour
ltude savante des textes. Paralllement, les institutions fondatrices noubliaient
pas leurs objectifs fondateurs rciproques minemment complmentaires :
Humanits computationelles ; recherche littraire par ordinateur ; linguistique
computationelle ; recherche littraire computationelle ; dveloppement de logiciel
pour le traitement de corpus culturels numriques et bibliothques.
Cest dailleurs dans la perspective de ces objectifs que lALLC, en coopration
avec lACH et la SDH-SEMI 20 ont prfigur (ds 2002) puis fond en 2005
lADHO21.
On voit bien ainsi la synergie qui peut exister entre la TEI qui dfinit des standards
et des bonnes pratiques et les Humanits digitales qui permettent que se socialisent
ses usagers, quils adaptent les outils (notamment ceux des bibliothques
numriques) des besoins spcifiques, quils changent des mthodes, des modles
de structuration et de balisage de leurs corpus (en fait des TEI-DTD adaptes aux
besoins de leurs corpus et de leurs pratiques danalyse savantes et dchanges).

Une synergie
numriques

TEI,

Humanits

digitales

et

bibliothques

Toutes les universits hritires de ces premires universits europennes


travaillant en latin utilisent le terme Humanitas pour dsigner les disciplines de
sciences humaines et sociales, ainsi que la recherche en Art et littraire. Pour des
raisons historiques, les institutions acadmiques anglophones gardent toujours
vivant la dsignation Humanits qui constitue toujours une sorte de
mtadiscipline recouvrant pratiquement ce que les francophones nommeraient
Arts et Lettres parce quen franais, lexpression , les Humanits est
devenue un peu dsute. Quels que soient les termes, le monde anglo-saxon puis
lEurope du Nord et, avec un certain retard, la Francophonie semparent
maintenant de lexpression Humanits digitales, ce qui redonne du sens
lancienne expression les Humanits .
En fait, on pourrait dire que de la rencontre de ces institutions et de leur
convergence synergique sont ns deux axes de dynamique daction
fonctionnellement complmentaires qui rentrent en rsonance avec une ralit de
lenvironnement technologique : les bibliothques numriques. LADHO a adopt
comme publication principale, le journal officiel de lALLC Journal of Digital
Scholarship in the Humanities publi par les Oxford University Press. Deux
20

Society for Digital Humanities-Socit dtude des mdias interactifs (CAN).


LADHO (Alliance of Digital Humanities Organizations) est donc une alliance
internationale qui a pour objectif de soutenir les applications informatiques pour ltude du
langage et de la littrature : en fait les Humanits digitales. Elle le fait en soutenant des
publications, des ateliers spcialiss (classes dt), travers aussi des groupes de travail
thmatiques rpondant notamment des disciplines et des sous-diciplines.
21

84

La ralisation de grands corpus linguistiques berbres normaliss interoprables : enjeux


culturels et enjeux dingnierie linguistique

autres publications ont une porte mondiale en la matire : DHQ, Digital


Humanities Quartely et Digital Studies / Le champ numrique 22 tous deux
publis sous la responsabilit de lADHO.
Citons encore pour mmoire afin de survoler la problmatique des Humanits
digitales : Humanist: Un sminaire lectronique sur les applications de
linformatique aux Humanits http://www.allc.org/publications/humanist
Mind Map of the Digital Humanities: Une cartographie conceptuelle de lunivers
des Humanits digitales disponibles sur http://www.allc.org/publications/mindmap-digital-humanities
Cela permet davoir une vision synoptique et facile daccs mise jour en
permanence par lensemble des communauts TEI, des publications, des outils
disponibles. Notre ambition serait que TEI berbre y figure bientt.
Dans cette partie, nous appliquons le codage TEI sur un corpus kabyle. Nous avons
choisi de travailler sur un crit parce que l'oral prsuppose un certain nombre de
dcisions prendre en ce qui concerne la dfinition de certains concepts tels par
exemple la phrase, l'nonc, le paragraphe... C'est pour cela que pour cette
premire application, nous avons jug plus pratique de travailler sur un corpus crit.
Il s'agit de la traduction en kabyle de Kamal Bouamara de "Jours de Kabylie" de
Mouloud Feraoun. L'oeuvre contient un certain nombre de parties. Nous avons
travaill sur deux parties pour montrer comment se fait le codage en TEI.
La premire partie est "Taddart-iw" (mon village), la deuxime est "Tajmat n At
Flan" (la djemaa de Flan (un tel)).
Tout codage en TEI commence par la dfinition des lments mettre dans le
<TeiHeader>. Pour notre part, nous avons le <TeiHeader>, comme ceci :

22

Digital Studies / Le champ numrique (ISSN 1918-3666) est une publication universitaire
spcialise paraissant trois fois par an, destine aux chercheurs dans le domaine des
sciences sociales numriques et ayant pour objectif de leur offrir une ressource de niveau
universitaire et de fournir un cadre formel leurs activits de recherche. DS/CN est publie
par la Society for Digital Humanities / Socit pour ltude des mdias interactifs
(SDH/SEMI), un organisme affili lAssociation for Computers and the Humanities
(ACH) et lAssociation for Literary and Linguistic Computing (ALLC), via lAlliance of
Digital Humanities Organisations (ADHO).

85

Noura Tigziri & Henri Hudrisier

<TeiHeader>
<fileDesk>
<
<publicationStmt>
<publisher> ENAG </publisher>
<pubPlace> Alger </pubPlace>
<date>1998 </date>
</publicationSmt>
</fileDesk>
</teiHeader>
Avec deux attributs dans le <fileDesk>, le titre <titleStmt> qui prcise tout ce qui
est relatif au titre avec lintitul de louvrage, lauteur et on a ajout la balise
<editor> pour spcifier que cest une traduction et la balise
<relatedItemtype="translatedFrom"> pour donner la traduction.
<titleStmt>
<title> Ussan di Tmurt </title>
<author> Mouloud Feraoun </author>
<editor role="translator"> Kamal Bouamara </editor>
<relatedItemtype="translatedFrom">
<bibl>
<author>Mouloud Feraoun</author>
<title>Jours de Kabylie</title>.
<date>1954</date>
</bibl>
</relatedItem
</tileStmat>
et les donnes concernant la publication de cet ouvrage comme, lditeur la date,
le lieu de publication.
<publicationStmt>
<publisher> ENAG </publisher>
<pubPlace> Alger </pubPlace>
<date>1998 </date>
</publicationSmt>
Une fois ces donnes introductives dfinies, nous passons au codage du texte luimme.
<text>
<body>
<div n=1>
<head> taddart-iw </head>

86

La ralisation de grands corpus linguistiques berbres normaliss interoprables : enjeux


culturels et enjeux dingnierie linguistique

Avec le corps du texte <body> comprenant un attribut <div> qui lui-mme est
subdivis en <head> (entte) et <p> (paragraphe).
Dans cette dernire balise nous dfinissons une balise <S> (phrase). Nous
dfinissons la phrase au sens large du mot. Un segment compris entre deux points.
Comme nous avons prendre par moment des dcisions par rapport la dfinition
du mot et du mot compos qui a deux parties relies par un trait dunion,
phnomne assez courant en kabyle, nous avons opt pour considrer que le mot
compos de n lments est un seul mot avec comme la dfinition du mot tout
lment compris entre deux blancs , dans ce cas, le codage en TEI se fait de cette
manire
Exemple :
d win d-yettalsen (mot compos : d-yettalsen)
<w>d</w>
<w>win</w>
<w>d</w>
<hyphen>-</hyphen>
<w>yettalsen</w>
Si on considre le mot compos de n parties comme tant un seul mot, dans ce cas,
le codage se fait ainsi :
Exemple : d win d-yettalsen (mot compos : d-yettalsen)
<w>d</w>
<w>win</w>
<w>d<hyphen>-</hyphen>yettalsen</w>
Ainsi le codage TEI du paragraphe et de la phrase est donn par ce qui suit :
<p>
<s>
<w>Ur</w>
<w>lli</w>
<w>ara</w>
<w>seg</w>
<w>wid</w>
<hyphen>-</hyphen>
<w>nni</w>
<w>yettuddun</w>
<w>taddart</w>
<hyphen>-</hyphen>
<w>nsen</w>
<pc>.</pc>

87

Noura Tigziri & Henri Hudrisier

</s>
<s>
<w>Mi</w>
<w>ur</w>
<w>fneze</w>
<w>ara</w>
<w>s</w>
<w>waya</w>
<w>nezzeh</w>
<pc>,</pc>
<w>ri</w>
w>acuer</w>
<pc>.</pc>
</s>
Le deuxime corpus est un corpus oral. Il sagit dun meeting tenu par le prsident
du parti du Rassemblement pour la culture et la dmocratie, le docteur Sad Saadi,
lors des lections lgislatives de 2002.

Codage du TEI HEADER


<teiHeader>
<fileDesc>
<titleStmt>
<title>Meeting politique</title>
<author> Said Sadi="Prsident du RCD" </author>
</titleStmt>
<publicationStmt>
<pubPlace>type="Tizi Ouzou">Stade Oukil Ramdane</pubPlace>
<date> 2002.05.02</date>
</publicationStmt>
<sourceDesc>
<recordingStmt>
<recording type="audio" dur="P30M">
<equipment>
<p> audio tape, ralis par B. S.</p>
</equipment>
</recording>
</recordingStmt>
</sourceDesc>
</fileDesc>
</teiHeader>

88

La ralisation de grands corpus linguistiques berbres normaliss interoprables : enjeux


culturels et enjeux dingnierie linguistique

Codage du corps du texte


<text>
<body>
<incident>
<desc>Applaudissement</desc>
</incident>
<u>who="# Sad Sadi ">
<seg>Azul</seg>
</u>
<incident>
<desc>Applaudissement</desc>
</incident>
<u>who="# Sad Saadi ">
<seg>Azul <pause dur="PT10S"/> Azul d ameqran</seg>
</u>
<incident>
<desc>Applaudissement</desc>
</incident>
<u>who="# Sad Saadi ">
<seg>Tsellem-d deffir kunwi i igubrentili</seg>
</u>
<incident>
<desc>Applaudissement</desc>
</incident>
<u>who="# Sad Sadi ">
<seg>
Azul<pause dur="PT20S"></pause>
</seg>
<seg>Yidwen am yielli am assa am uzekka wer ttagadut<pause
dur="PT20S"/></seg>
</u>
<incident>
<desc>App</desc>
</incident>
<u>who="# Sad Saadi ">
<seg>Qqaren- as imezwura- nne<pause dur="PT10S"/> isers ueddad
tafist<pause dur="PT10S"/>irfed-itt mmi-s<pause dur="PT20S"/></seg>
</u>
<incident>
<desc>Applaudissement</desc>
</incident>
<u>who="# Sad Sadi ">
<seg>D ayen igellan di tiri n nouvembre reba uxemsin<pause
dur="PT10S"/>Dayen igellan di la plate forme n la soumam<pause dur="PT05S"/>
ayen i gellan<pause dur="PT05S"/>deg dusyi nni i d nexdem deg ekkuren deg
seggasen n tmanyin<pause dur="PT05S"/> i gellan di la plate forme Lleqsar<pause
dur="PT20S"/> </seg>

89

Noura Tigziri & Henri Hudrisier

</u>
</body>
</text>

Conclusion
La TEI a lavantage de rendre disponibles, interoprables, rutilisables et
normalises des ressources linguistiques. Il est vrai que le travail de codage est
fastidieux surtout quand il sagit de travailler sur des corpus de grandes tailles mais
vu les avantages que prsente cette mthode, nous avons tout intrt lexploiter et
nous lapproprier cause de lun de tous ses avantages dont linteroprabilit.
Quel que soit le corpus choisi, la disponibilit des balises de codage rend la tche
de balisage plus facile apprhender. En effet, les membres du consortium qui
ont tabli la TEI ont prvu absolument toutes les balises utiles dans le codage de
ressources linguistiques quelles quelles soient : corpus crit, corpus oral et de
quelle que soit la discipline : linguistique, littrature, musique

Bibliographie
Ben Henda M., (2012), Vision historique, technique et prospective des systmes
dinformation et de communication interoprabilit normative globalise. Mmoire
de HDR sous la dir. De Roland Ducasse, Universit Bordeaux III.
Ben Henda M. et Hudrissier H., (2000), Normalisation et terminologies
multilingues pour les TICE in Forum Terminologique International, Universit de
Sousse 20 au 23 novembre 2000.
Gille B., (1978), Histoire des techniques, Encyclopdie de la Pliade, Gallimard,
Paris.
Hudrissier H. et Romary L., (2003), Le balisage normalis des concepts et
documents en liaison avec les normes de lCAD. In Normes et standards pour
lapprentissage
en
ligne,
Versailles,
18
mars
2003.
http://www.initiatives.refer.org/inititaives, 2012.
Hudrissier. H. (2009), La ncessit dadapter internet la mondialisation
linguistique, in Critique de la socit de linformation (coordonn par J.P.
Lafrance). Les Essentiels dHerms, CNRS ditions, Paris, p. 115-134.

90

sinag-Asinag, 9, 2014, p. 91-104

Utilisation des CACs et des ressources externes pour


lamlioration des performances de ltiquetage
morphosyntaxique1
Mohamed Outahajala (1), Lahbib Zenkouar (1),
Yassine Benajiba (2), Paolo Rosso (3)
(1)2 LECEMI, Universit Mohammed V- Agdal, Maroc
(2) Thomson Reuters, New York, USA
(3)3 Universidad Politcnica de Valencia, Spain

La langue amazighe, comme la plupart des langues de moindre diffusion,


souffre encore de la pnurie d'outils et des ressources pour son traitement
automatique, en particulier les corpus annots. Ces derniers sont plus difficiles
construire que les corpus bruts qui leur tour ncessitent, dans la majorit
des cas, des prtraitements. Lobjectif de cet article est de prsenter une
approche base sur lapprentissage semi-supervis visant lutilisation dun
corpus de textes bruts, slectionns sur la base de la mesure de confiance des
Champs Alatoires Conditionnels(CACs), conjointement avec un corpus annot
manuellement de 20k morphmes. Les rsultats des exprimentations
prliminaires montrent une rduction du taux derreur de ltiqueteur
morphosyntaxique de 1,3%. De mme, la rduction du taux derreur est-elle de
5,9%, entre 60% et 90% du corpus, lorsque le modle est entrain par les
phrases du corpus brut annotes automatiquement.
Amazigh language, and like most of the languages which have only recently
started being investigated for the Natural Language Processing (NLP) tasks,
lacks annotated corpora and tools and still suffers from the scarcity of linguistic
tools and resources and especially annotated corpora. Creating labeled data is
a hard task. However, obtaining unlabeled data, although needing most time
preprocessing for languages with scarce resources, is less difficult. The aim of
1

Le premier auteur exprime sa gratitude la CODESRIA. Les travaux du quatrime auteur


ont t financs dans le cadre des projets de recherche: VLC/CAMPUS Microcluster on
Multimodal Interaction in Intelligent Systems, la commission europenne WIQ-EI IRSES
(no. 269180) et DIANA-APPLICATIONS (TIN2012-38603-C02-01).
2
Laboratoire Electronique et Communication, Ecole Mohammadia dIngnieurs (EMI).
3
Natural Language Engineering Lab EliRF, DSIC.

91

Mohamed Outahajala, Lahbib Zenkouar, Yassine Benajiba & Paolo Rosso

this paper is to present a semi-supervised based approach using labeled and


unlabeled data. Preliminary results show an error reduction of 1,3%, when
training our POS tagger with Conditional Random Fields(CRFs), with chosen
automatically annotated texts and a small manually annotated corpus of about
20k tokens. Also, when trained with automatically annotated data, the achieved
improvement between 60% and 90% of the trained data is 5.9%.

1. Introduction
Ltiquetage morphosyntaxique consiste en lannotation de chaque mot dune
phrase avec une tiquette rcapitulant une information morphosyntaxique selon le
contexte. Il augmente linformation des mots tiquets pour les couches
suprieures pour le traitement automatique des langues(TAL). Il s'agit de la
premire couche au-dessus du niveau lexical et le niveau le plus bas de l'analyse
syntaxique. Ainsi, toutes les tches traitant des niveaux linguistiques suprieurs,
utilisent le POS tagging, par exemple : lanalyse partielle ; la dsambigusation des
sens des mots; laffectation des fonctions grammaticales, la reconnaissance
d'entits nommes, etc. (Manning & Schtze, 1999, Cutting et al., 1992, Benajiba
et al., 2010).
Dans la littrature, il a t dmontr que les approches bases sur l'apprentissage
supervis sont les plus efficaces pour construire les tiqueteurs grammaticaux, en
s'appuyant sur un corpus annot manuellement et souvent d'autres ressources, telles
que des dictionnaires et des outils de segmentation. Dans lapproche que nous
proposons dans ce papier, nous utilisons des techniques de classification des
squences, bases sur les CACs et conjointement des donnes tiquetes et non
tiquetes, pour construire notre tiqueteur grammatical. Dune part, nous utilisons
un corpus de ~20k mots annot manuellement (Outahajala et al., 2011a) pour
former nos modles et les caractristiques n-grammes lexicales pour aider
augmenter la performance ainsi que des ressources externes qui consistent en un
ensemble de textes bruts.
Le papier est organis comme suit : en section 2, nous prsenterons les travaux
connexes sur les techniques dtiquetage morphosyntaxique. Puis, dans la section 3
nous donnerons le cadre thorique des CACs. Dans la section 4, nous dcrirons les
expriences et nous discuterons les rsultats. Enfin, dans la section 5, nous
dresserons quelques conclusions et nous prsenterons les travaux effectuer dans
le futur proche.

2. Etat de lart
De nombreux systmes pour ltiquetage automatique des parties du discours ont
t dvelopps pour un large ventail de langues. Parmi ces systmes, certains
sappuient sur les rgles linguistiques et dautres sur des techniques
dapprentissage automatique (Manning & Schtze, 1999, Jurafsky & Martin, 2009).
Les premiers tiqueteurs morphosyntaxiques taient principalement base de

92

Utilisation des CACs et des ressources externes pour lamlioration des performances de
ltiquetage morphosyntaxique

rgles. La construction de tels systmes ncessite un travail considrable afin


dcrire manuellement les rgles et de coder les connaissances linguistiques qui
rgissent l'ordre de leur application. Un exemple dtiqueteur base de rgles est
TAGGIT, dvelopp par Green et Robin (Greene & Rubin, 1971) et contenant
environ 3300 rgles, ce systme atteint une prcision de 77%. Par la suite,
l'apprentissage automatique des tiqueteurs sest avr la fois moins pnible et
plus efficace que ceux base de rgles. Dans la littrature, de nombreuses
mthodes d'apprentissage ont t appliques avec succs pour raliser des POS
taggeurs, tels que les Modles de Markov Cachs (HMM) (Charniak, 1993), la
transformation systme bas sur la rduction du taux derreur (Brill, 1995), le
modle d'entropie maximale (Ratnaparkhi, 1996), les arbres de dcision permettent
de construire (Schmid, 1999), sur la base dun corpus de rfrence, un outil daide
la dcision qui utilise ce modle. Les mthodes dapprentissage automatique
permettent de construire des modles complexes (comportant de trs nombreux
paramtres), chose qui est difficile faire manuellement. La qualit des modles
est souvent lie la quantit de donnes utilises dans lapprentissage. Ainsi,
partir d'exemples appris prcdemment, les programmes sappuyant sur ces
mthodes affectent l'tiquette aux mots selon le contexte. Parmi les travaux bass
sur lapprentissage qui ont donn de bon rsultats, on cite ceux de Kudo &
Matsumoto (2000) et de Lafferty et al. (2001).
Bien que ces mthodes aient une bonne performance, la prcision des mots
inconnus, mots hors vocabulaire du corpus de test par rapport au corpus
dapprentissage, est beaucoup plus faible que celle des mots connus, ce qui est
problmatique lorsque le corpus dapprentissage est de petite taille.
Dans la pratique, la plupart des analyseurs limitent le nombre d'tiquettes en
ignorant certaines distinctions difficiles dsambiguser automatiquement, ou
sujettes discussion du point de vue linguistique.
En raison de sa morphologie complexe (Chafiq, 1991 ; Ameur et al. 2004; Ameur
et al. 2006; Boukhris et al. 2008) ainsi que l'utilisation des diffrents dialectes dans
sa normalisation, la langue amazighe prsente des dfis intressants, pour les
chercheurs en TAL, qui doivent tre pris en compte. Concernant la tche
dtiquetage morphosyntaxique, certains dfis du TAL pour lamazighe sont les
suivants :
1. Lamazighe dispose de sa propre graphie : le Tifinaghe, qui scrit de gauche
droite ;
2. Il ne contient pas de majuscules ;
3. Les noms, les noms de qualit, les verbes, les pronoms, les adverbes, les
prpositions, les focaliseurs, les interjections, les conjonctions, les pronoms, les
particules et les dterminants consistent en un seul mot entre deux blancs ou
des signes de ponctuation. Toutefois, si une prposition ou un nom de parent
est suivi par un pronom personnel, la fois la prposition/nom de parent et le
pronom qui suit, forment chane unique dlimite par des espaces ou des signes
de ponctuation. Par exemple : (r) signifiant pour, au + (i) qui
signifie moi (pronom personnel premire personne du singulier) donnent
/ (ari/uri) ;

93

Mohamed Outahajala, Lahbib Zenkouar, Yassine Benajiba & Paolo Rosso

4. Les signes de ponctuation amazighe sont semblables aux signes de ponctuation


adopts au niveau international et ont les mmes fonctions 4 . Les lettres
majuscules, nanmoins, ne se produisent ni au dbut ni linitiale des noms
propres ;
5. A linstar dautres langues naturelles, lamazighe peut prsenter des ambiguts
au niveau des classes grammaticales. En effet, la mme forme de surface peut
appartenir plusieurs catgories grammaticales selon le contexte dans la phrase.
Par exemple, (illi) peut fonctionner comme verbe laccompli ngatif,
il signifie il nexiste pas , ou comme nom de parent ma fille . Quelques
mots tel que (d) peuvent fonctionner comme prposition ou une
conjonction de coordination ou particule de prdication ou dorientation ;
6. De mme que la majorit des langues dont les recherches en TAL ont
rcemment commenc, lamazighe est peu dot en ressources langagires et
outils du TAL.

3. Les Champs Alatoires conditionnels


Les CACs ou CRFs sont des processus stochastiques qui modlisent les
dpendances entre un ensemble dobservations discrtes ralises sur une squence
discrte et un ensemble dtiquettes. Dans le cas de lanalyse morphosyntaxique la
suite des mots est la squence discrte. En comparaison avec les Modles de
Markov Cachs, un CAC ne repose pas sur lhypothse forte dindpendance des
observations entre elles conditionnellement aux tats associs.

Figure 1 : Exemple dun graphe des CACs, la partie encercle est une clique.
Les CACs sont des modles graphiques probabilistes se basant et sur la thorie des
graphes et sur la thorie des probabilits. Ces deux thories permettent de
modliser le problme de classification des squences : la thorie des graphes
4

Les deux caractres :


(2D70) et
(2D7F) sont deux signes de ponctuation
supplmentaires utiliss par les Touaregs. Ils font dsormais suite un amendement du
standard Unicode, partie des caractres tifinaghes dont la liste actualise est sur :
http://www.unicode.org/charts/PDF/U2D30.pdf .

94

Utilisation des CACs et des ressources externes pour lamlioration des performances de
ltiquetage morphosyntaxique

permet la modlisation des structures de squence des tiquettes des phrases, quant
la thorie des probabilits, elle permet de grer les ambiguts causes par les
squences des tiquettes. Les CACs sont avec les Modles de Markov Entropie
Maximale(MMEMs) les deux principaux modles discriminants. Bien que les
MMEMs aient obtenu de bons rsultats sur les tches dextraction dinformation et
de segmentation (MCallum, 2000), ils souffrent du problme du biais du label. En
effet, si le graphe est tel quun nud i na quun successeur i+1, alors la masse de
probabilit est entirement transmise yi+1 indpendamment des observations x,
appel biais du label. Les CACs permettent de palier ce problme et cela en
calculant les poids de transition non normalise et en calculant un facteur de
normalisation sur lensemble de la squence y conditionnellement x.
Dfinition : Soit G= (V, E), o V est lensemble des sommets et E lensemble des
arcs, un graphe non orient et soient X et Y deux champs alatoires dcrivant
respectivement lensemble des tiquettes, de sorte que pour chaque nud i
appartenant V, il existe une variable alatoire yi dans Y. Nous dsignons (X, Y)
comme tant un champ alatoire conditionnel si chaque variable alatoire Yi
respecte la proprit de Markov suivante : (|,   ) = (|,  , 
), o  signifie que i et j sont voisins dans G. La figure 1 prsente un exemple
dun graphe de CACs.
Cette proprit nest par consquent satisfaite que si chaque variable alatoire ne
dpend que de ses voisins : Yi ne dpend que de X et des Yj ses voisins dans le
graphe dindpendance.
Daprs le thorme de Hammersely-Clifford (Hammersly et al., 1971), la
distribution de probabilit p dun champ de Markov est dcomposable comme un
produit de fonctions  dfinies sur cliques, sous graphes complets, maximales c
de lensemble des cliques C de G. Ainsi, la probabilit dun tiquetage y tant
donne une ralisation dobservations x scrit :

(| ) =

1

()


 ( , )

O yc est la ralisation des variables alatoires de la clique c et Z(x) est un


coefficient de normalisation dfini comme suit :

 ( ) = 





 ( , )

Le coefficient Z(x) est un coefficient de normalisation gal au produit des fonctions


de potentiel de tous les tiquetages possibles sachant la squence dobservation x.
Lafferty et ses co-auteurs (Lafferty et al., 2001) ont propos de dfinir la forme de
la fonction  comme lexponentiel de sommes pondres des fonctions
caractristiques ayant des poids wk.

95

Mohamed Outahajala, Lahbib Zenkouar, Yassine Benajiba & Paolo Rosso

 ( , ,  ) = exp(

!"

#  ( ,  ))

La forme de ces fonctions dpend du domaine dapplication. Par exemple, dans le


TAL, il sagit gnralement de fonctions binaires qui testent la prsence ou
labsence de certaines caractristiques. Concernant les poids wk, ils permettent
daccorder plus ou moins dimportance chacune des fonctions caractristiques. Ils
sont fixs lors de la phase d'apprentissage en cherchant maximiser la logvraisemblance sur un ensemble dexemples dj annots formant le corpus de
rfrence. La probabilit dun tiquetage sachant une ralisation dobservations
sexprime ainsi par :

(| ) =

1
exp(
(, )

 

!"

#  ( ,  ))

Les CACs sont appliques de nombreuses tches du TAL, titre indicatif


l'analyse syntaxique partielle (Sha, Pereira, 2003), l'extraction d'informations
partir des tables (Pinto et al., 2003), la reconnaissance d'entits nommes (Li &
McCallum, 2003 ; Benajiba et al., 2010) et ltiquetage morphosyntaxique
(Outahajala et al., 2011b). Les CACs ont t utiliss pour de nombreuses langues
pour ltiquetage morphosyntaxique, tel que l'amharique (Adafre, 2005), le tamoul
(Lakshmana & Geetha, 2009), etc.
Dans les exprimentations prsentes dans la section suivante, nous avons utilis
loutil CRF++5, une implmentation open source des CACs pour la segmentation et
l'tiquetage des donnes.

4. Exprimentations et rsultats
Dans cette section, nous prsentons une description du corpus brut ainsi que son
prtraitement, ensuite les modles de rfrence et enfin les exprimentations
relatives lutilisation de la mesure de confiance, le choix des donnes
alatoirement pour un apprentissage semi-suprvis et lapprentissage de notre
tiqueteur morphosyntxique.

4.1. Description du corpus brut utilis


Le corpus utilis dans ces exprimentations a t puis dans quelques romans
amazighes, une partie des donnes collectes par le Linguistic Data Consortium en
collaboration avec lIRCAM (Cieri et Liberman, 2008), textes brut des sites web de
lIRCAM6 et de lAgence Marocaine de Presse7ainsi que certaines phrases traduites
5

http://crfpp.sourceforge.net/
http://www.ircam.ma/amz/index.php
7
http://www.mapamazighe.ma/am/
6

96

Utilisation des CACs et des ressources externes pour lamlioration des performances de
ltiquetage morphosyntaxique

en amazighe de divers sources. Le corpus collect a subi de multiples


prtraitements, savoir :

rvision des textes collects selon les rgles orthographiques adoptes par
lIRCAM. Aussi, la correction de certaines erreurs frquentes telles que le
mauvais placement du e muet "". Dans ce sens, un script crit en PERL a
t ralis afin de fixer cette erreur. En effet, lutilisation du e muet
simpose dans les deux cas suivants :

Succession de plus de trois consonnes radicales identiques lintrieur du


mme mot, par exemple (zmmem) inscrire, (tettu) elle a
oubli ;

Radicaux verbaux se terminant par deux consonnes identiques, par


exemple (mlel) tre blanc,

Pour les textes rdigs en utilisant la police Tifinaghe-IRCAM (TifinagheIRCAM fait usage de glyphes tifinaghes mais caractres latins), afin de
corriger certains lments comme le caractre "^" qui existe dans certains
textes d une erreur en saisissant les lettres emphatiques ;

Translittration des textes crits en Tifinaghe-IRCAM et des textes crits


en utilisant la transcription officielle tifinaghe de la langue amazighe, vers
le systme d'criture choisi ;

Segmentation, en utilisant le segmenteur amazighe ralis pour cet effet


(Outahajala et al. 2013) ;

Le nombre total des morphmes partir du corpus recueilli est denviron un quart
de million.

4.2. Modles de rfrences


En ce qui concerne les modles de rfrences utiliss, nous avons choisi dadopter
deux lignes de base comme rfrences dans ces expriences. En outre, nous avons
utilis le dernier jeu dtiquettes disponible, compos de 28 tiquettes (Outahajala
et al., 2013), et les CACs comme modles de classification des squences pour les
gnrations des modles de classification. Un jeu dtiquettes de taille presque
similaire a t utilis pour ltiquetage morphosyntaxique de larabe (Diab et al.,
2004). Les modles de rfrences utiliss comme lignes de base dans les
xprimentations des sous sections 4.3 et 4.4 sont :
1 Modle de rfrence bas sur la frquence des mots (Freq-Base.) : il s'agit d'un
algorithme bas sur la frquence des tiquettes des mots. Ltiquette prvue pour
un mot est tout simplement ltiquette la plus frquente qui a t associe dans les
donnes de formation. Ainsi, cette base ignore totalement le contexte environnant
et rsout les cas ambigus utilisant uniquement les frquences des tiquettes. Une
telle rfrence a t utilise dans la tche de reconnaissance d'entits nommes

97

Mohamed Outahajala, Lahbib Zenkouar, Yassine Benajiba & Paolo Rosso

dans CoNLL. Le code source de ce modle bas sur les frquences est librement
disponible8.
2 Modle de rfrence du meilleur cas (Best-Base.) : pour tudier le meilleur des
cas, on a commenc par la gnration dun modle initial Minit partir de 60% des
donnes tiquetes. Les 30% des donnes tiquetes restantes on t subdivises en
blocks de 2k jetons. Ceci, dans le but dtudier la performance des modles gnrs
partir des donnes annotes automatiquement. Le choix des donnes pour la
gnration de Minit nest pas alatoire. En effet, nous avons effectu la validation
croise de 60% du corpus et nous avons pris le modle qui a donn la meilleure
prcision.
Le choix de lensemble des caractristiques a t obtenu suite des rsultats
empiriques. Ils sont les mmes que ceux employs dans (Outahajala et al., 2012)
savoir :
1. Le jeton actuel ;
2. Les proprits lexicales n-grammes : consistant en les i premiers et dernier
n-grammes du jeton, avec i variant de 1 4. Les caractristiques ngrammes servent comme caractristiques reprsentant les suffixes et les
prfixes des jetons ;
3. Le contexte lexical : sagissant des jetons voisinant plus leurs proprits ngrammes dfinies dans le point 2 ci-dessus ;
4. Etiquettes de contexte qui consistent en les balises prvues pour les deux
mots prcdents.

4.3. Exprimentation : choix des donnes selon la mesure de


confiance
Le but de ces exprimentations prliminaires est dvaluer le critre de confiance
dans la slection des phrases pour lauto-apprentissage de notre modle. Nous
avons part de lhypothse que notre modle apprend plus quand la confiance est
leve. Pour valuer notre approche, nous commenceons par un modle initial Minit
entran sur la base de Tr_1 (voir Figure 2), contenant lquivalent de 60% du
corpus de rfrence.
Pour ce faire, nous tudierons la corrlation entre la mesure de confiance et la
probabilit dobtenir un tiquetage correct. Cest lestimation des chances
dassigner une tiquette correcte un mot automatiquement quand la probabilit de
ltiquette affecte au mot par le systme est leve. Nous pensons que cette
estimation est importante car lorsque la corrlation observe tend vers 1, la
probabilit des donnes slectionnes tend amliorer le systme et, lorsque cette
probabilit tend vers 0,5, lamlioration est alatoire. Dun point de vue de filtrage
du bruit, on peut dire que dans le cas dabsence de corrlation entre les deux termes
en question, il nest pas possible de filtrer le bruit en se basant sur la mesure de
confiance gnre par le systme.
8

http://www.outamed.com/downloads/baseline.txt

98

Utilisation des CACs et des ressources externes pour lamlioration des performances de
ltiquetage morphosyntaxique

Afin dobtenir linformation requise, nous avons automatiquement annot 10% du


corpus de test (nous navons intentionnellement pas utilis le corpus de test lors du
du calcul de la corrlation) utilisant Minit. Les tiquettes obtenues ont servi comme
donnes de base dans le calcul de la corrlation.
La corrlation entre la mesure de confiance et la probabilit davoir un tiquetage
correct est 0,78. On a ainsi une nette rgression positive.
Pour tudier lutilit de la mesure de confiance du systme pour les mots dans la
slection des donnes, nous avons effectu des exprimentations utilisant Minit et
les donnes brutes prsentes dans la sous-section 4.1. Les donnes non tiquetes
ont t annotes automatiquement et nous avons gard les meilleures : 1295
phrases, soit lquivalent de 90% des donnes annotes manuellement, selon la
mesure de confiance.

Figure 2 : Subdivision des donnes pour les exprimentations sur lapprentissage


semi-supervis
Dans cette exprimentation, le critre de slection est bas sur la mesure de la
confiance donne par le systme. Aprs, ce corpus a t subdivis en 9 parties U1,
U2, U3, U4, U5, U6, U7, U8, et U9, o chacune des parties Ui contient 144 phrases
avec i variant de 1 9 (lquivalent de 10% du nombre total des phrases du corpus
annot manuellement). La subdivision du corpus est prsente dans la figure 2.

99

86
84
80

82

Accuracy

88

90

Mohamed Outahajala, Lahbib Zenkouar, Yassine Benajiba & Paolo Rosso

78

Best-Base
CRFs
Freq-Base

60%

70%

80%

90%

Training size

Figure 3 : Apprentissage du modle en utilisant la mesure de confiance du mot


comme moyen de slection
Nous avons remarqu quau fur et mesure que la performance augmente, elle
devient difficile amliorer. Nanmoins, la diffrence damlioration ne diminue
pas de faon rgulire, elle fluctue lgrement. Par exemple, le taux damlioration
entre 70 et 80% (0.81) est suprieur au taux damlioration entre 60 et 70% (0.66)
lorsquon fait lentranement des modles laide des donnes annotes
manuellement. A lanalyse des fichiers en sortie de ltiqueteur, il savre que les
mots hors vocabulaire constituent un facteur important dans lamlioration de la
prcision de ltiqueteur. Aussi, la performance des modles bass sur les CACs
est-elle nettement suprieure celle du modle base des frquences.
Pour ce qui est des rsultats du modle utilisant et les donnes du corpus de
rfrence et les donnes brutes, lamlioration est lgre. Les rsultats de
lexprimentation montrent quil y a une rduction du taux derreur de 1,3% (voir
figure 2).

4.4. Exprimentation : choix alatoire des donnes pour


lapprentissage
Pour tudier leffet dignorer la confiance et voir si ce critre est important ou non,
nous avons conduit une exprimentation o nous commenceons par Minit et
chaque itration de lopration dapprentissage nous ajoutons 144 phrases de U
annotes automatiquement par Minit et choisies alatoirement.
Tels que montrs dans la figure 4, les rsultats de lapprentissage partir des
donnes choisies alatoirement sont moins prcis que ceux qui se basent sur la
slection des donnes en utilisant la mesure de la confiance. Ceci confirme lutilit

100

Utilisation des CACs et des ressources externes pour lamlioration des performances de
ltiquetage morphosyntaxique

de cette mesure dans la slection des phrases dans lauto-apprentissage de notre


tiqueteur morphosyntaxique.

85
83
79

81

Accuracy

87

89

91

Dans la figure 4, CRFs-R reprsente le modle gnr partir des donnes


slectionnes alatoirement et CRF-BS le modle gnr en utilisant la mesure de
confiance du mot comme moyen de slection des donnes pour lapprentissage.

77

Best-Base
CRFs-R
CRFs-BS
Freq-Base

60%

70%

80%

90%

Training size

Figure 4 : Apprentissage partir de donnes slectionnes alatoirement


Afin de vrifier lhypothse que le bruit de lauto-apprentissage nempche pas la
rduction du taux derreur lors de lentranement de notre modle, nous avons
conduit lexprimentation suivante :
- gnration de Minit partir des parties U1, U2,...U6 constituant 60% de la taille du
corpus de rfrence ;
- ajout chaque itration de lapprentissage de 144 phrases au corpus
dapprentissage jusqu' ce que le corpus dapprentissage atteigne lquivalent de 90%
du corpus de rfrence.
Les rsultats de lexprimentation montrent quil y a une rduction du taux derreur
de 5,9% entre Minit et le modle appris en utilisant U1, U2,U9. Ce qui montre que,
mme si le bruit existe, le systme continue dapprendre.

5. Conclusions
La langue amazighe, comme la plupart des langues de moindre diffusion, souffre
encore de la pnurie d'outils et des ressources pour son traitement automatique, en
particulier les corpus annots. Dans ce papier, nous avons prsent les
exprimentations prliminaires dutilisation de ressources externes, consistant en
un corpus de textes bruts de 225.240 morphmes et dun corpus manuellement

101

Mohamed Outahajala, Lahbib Zenkouar, Yassine Benajiba & Paolo Rosso

annot denviron 20k morphmes et leur impact sur la performance de la tche


dtiquetage morphosyntaxique de la langue amazighe.
Les rsultats des exprimentations montrent une rduction du taux derreur de
1,3%. Aussi la rduction du taux derreur est-elle de 5,9%, lorsque le modle est
compltement entran par les phrases du corpus brut annotes automatiquement.
Dans le futur proche, nous tudierons limpact de lutilisation du caractre
informatif des MHVs et la mesure de confiance lors de lutilisation des mthodes
dapprentissage semi-supervis sur lamlioration de la performance de ltiqueteur
morphosyntaxique.

Rfrences
Ameur, M., Bouhjar, A., Boukhris, F., Boukouss, A., Boumalk, A., Elmedlaoui, M.,
Iazzi, E. et Souifi, H. (2004), Initiation la langue Amazighe, Rabat, Publications
de lIRCAM.
Ameur, M., Bouhjar, A., Boukhris, F., Boukouss, A., Boumalk, A., Elmedlaoui, M.
et Iazzi, E. (2006),Graphie et orthographe de lAmazighe, Rabat, Publications de
lIRCAM.
Adafre, S. F. (2005). Part of Speech Tagging for Amharic using Conditional
Random Fields.In Proceedings of the ACL Workshop on Computational
Approaches to Semitic Languages, pp. 47-54.
Benajiba, Y., Diab M., and Rosso P. (2010). Arabic Named Entity Recognition: A
Feature-Driven Study. IEEE Transactions on Audio, Speech and Language
Processing, vol. 15, num. 5.Special Issue on Processing Morphologically Rich
Languages, pp. 926-934. DOI: 10.1109/TASL.2009.2019927.
Boukhris, F. Boumalk, A. El moujahid, E. et Souifi, H. (2008), La nouvelle
grammaire de lAmazighe, Rabat, Publications de lIRCAM.
Charniak, E. (1997). Statistical parsing with a context-free grammar and word
statistics.In Proceedings of the Fourteenth National Conference on Artificial
Intelligence, Menlo Park.AAAI Press/MIT Press.
Chafiq, M. (1991). . d. Arabo-africaines.
Cieri, C., and Liberman, M. (2008). 15 Years of Language Resource Creation and
Sharing. A Progress Report on LDC Activities. In Proceedings of the 6th
International Conference on Language Resources and Evaluation, LREC08,
Marrakech.
Diab, M., Hacioglu, K., Jurafsky, D. (2004). Automatic Tagging of Arabic Text:
From Raw Text to Base Phrase Chunks. In Proceedings of Human Language
Technology-North American Association for Computational Linguistics (HLTNAACL).
Jurafsky, D., and Martin, J.H. (2009). Speech and language processing: an
introduction to natural language processing, computational linguistics, and speech
recognition, 2nd Ed. New Jersey: Prentice Hall.

102

Utilisation des CACs et des ressources externes pour lamlioration des performances de
ltiquetage morphosyntaxique

Hammersley, J.M. et Clifford, P. (1971). Markov Fields on finite graphs and


lattices. Manuscrit non publi.
Kudo, T., and Yuji Matsumoto, Y. (2000). Use of Support Vector Learning for
Chunk Identification. In Proceedings of CoNLL-2000 and LLL-2000.
Lafferty, J. McCallum, A. and Pereira, F. (2001). Conditional Random Fields:
Probabilistic Models for Segmenting and Labeling Sequence Data. In Proceedings
of ICML-01, pp. 282--289.
Lakshmana Pandian S., and Geetha, T. V. (2009).CRF Models for Tamil Part of
Speech Tagging and Chunking. In Proceeding ICCPOL '09. Springer-Verlag
Berlin, Heidelberg.
Li W., and McCallum, A. (2003). Rapid Development of Hindi Named Entity
Recognition Using Conditional Random Fields and Feature Induction. In ACM
Transactions on Computational Logic, pp 290--294.
Manning, C., And Schtze, H. (1999). Foundations of Statistical Natural Language
Processing. The MIT Press.
McCallum, A., Freitag, D. and Pereira, F. (2000). Maximum entropy Markov
models for information extraction and segmentation. International Conference on
Machine Learning, pages 591598.
Greene, B.B., and Rubin, G.M. (1971). Automatic Grammatical Tagging of
English. Providence, R.I.: Department of Linguistics, Brown University.
Outahajala, M., Zenkouar, L., and Rosso, P. (2011a). Building an annotated corpus
for Amazighe. In Proceedings of 4th International Conference on Amazigh and
ICT. Rabat, Morocco.
Outahajala, M., Benajiba, Y., Rosso, P., and Zenkouar, L. (2011b). POS tagging in
Amazigh using Support Vector Machines and Conditional Random Fields. In
Proceedings of 16th International Conference on Applications of Natural
Language to Information Systems, NLDB 2011, LNCS(6716), Springer-Verlag, pp,
238--241.
Outahajala, M., Benajiba, Y., Rosso, P. et Zenkouar, L. (2012), Ltiquetage
grammatical de lamazighe en utilisant les proprits n-grammes et un
prtraitement de segmentation , e-TI - la revue lectronique des technologies
d'information, N 6.
Outahajala, M., Zenkouar, L, Benajiba, Y., and Rosso, P. (2013). The Development
of a Fine Grained Class Set for Amazigh POS Tagging. In proceedings of
ACS/IEEE 10th conference. AICCSA 2013. Fes, Morocco.
Pinto, D., McCallum, A., Wei, X., and Croft, W. B. (2003). Table Extraction using
conditional random fields. In Proceedings of the 26th annual international of
SIGIR03, pp. 235-242, New York, USA.
Ratnaparkhi, A. (1996). A Maximum Entropy Model for Part-Of-Speech Tagging.
In Proceedings of EMNLP, Philadelphia, USA.

103

Mohamed Outahajala, Lahbib Zenkouar, Yassine Benajiba & Paolo Rosso

Schmid, H. (1999). Improvements in Part-of-Speech Tagging with an Application


to German. In Proceedings of the ACL SIGDAT-Workshop. Academic Publishers,
Dordrecht, 13--26.
Sha, F., and Pereira F. (2003). Shallow Parsing with Conditional Random Fields. In
Proceedings of Human Language Technology.

104

sinag-Asinag, 9, 2014, p. 105-118

Characterizing the Evolution of Arabic Learners Texts:


A Mostly Lexical Perspective
Violetta Cavalli-Sforza & Mariam El Mezouar
Al Akhawayn University

Nous tudions lvolution dune srie de textes conus pour les apprenants de
la langue arabe, langue seconde, le long d'un cursus en considrant leur
contenu lexical en termes de vocabulaire soi-disant acquis ou en cours
d'acquisition par les apprenants auxquels sont destins ces textes. Nous
examinons aussi l'volution d'autres variables de texte communment utiliss
pour mesurer la lisibilit d'un texte. L'objectif est de dterminer les traits des
textes qui peuvent tre utiliss pour construire un modle prdictif de la
pertinence d'un texte un apprenant, un stade d'apprentissage donn, tel que
dfini principalement par le vocabulaire appris. Nous concluons en examinant
si lapproche et les rsultats peuvent tre appliqus lamazighe.

Introduction and Motivation


Reading is one of the four fundamental competences that are targeted when
learning a new language, the others being writing, listening, and speaking. The
activity of reading serves multiple purposes, of which recognition and
understanding of written words in context is a primary one, as it aids in the
development of a rich vocabulary and mastery of the nuances of its use. However,
a learner cannot read just any text: when creating or choosing a text for language
learners, an instructor must consider different goals and constraints. The text must
aid in practicing newly learned language conceptsvocabulary and grammar,
among otherswhile at the same time being sufficiently accessible to the learner
by containing enough familiar concepts and covering, ideally, an interesting topic.
Although the topic of the text can indeed be a motivating or demotivating factor for
a learner, except in the case of fully independent and/or rather advanced learners,
the choice of topic is usually determined by the instructor in view of the goal of
developing specific vocabulary competence. On the other hand, the constraint of
containing enough familiar concepts cannot be overlooked. In language learning,
as in other areas of learning, what is known provides the framework for
comprehending and anchoring novelty. A text that contains too many new terms
and unfamiliar structures can only be comprehended with great effort, if at all, and
will mostly serve to frustrate and demotivate all but the most tenacious of learners.

105

Violetta Cavalli-Sforza & Mariam El Mezouar

Novel language concepts are only one aspect of text difficulty; another is the
complexity of the text due to the style in which it is written. A text may contain
familiar concepts, but they may be expressed in a complex fashion, for example,
using difficult words and intricately structured sentences whose relationship to
each other is not clearly signaled. Such a text may also require more cognitive
effort for successful processing and may lead to frustration and/or failure of
comprehension. The problem of readability of a text was addressed initially in the
context of learning to read in ones first language, driven by the need to create
accessible schoolbooks. Since not all students in a given school grade have the
same reading skills, and in some case are weak readers, the complexity of a text
can interfere with the learning of subject matter content and work against students
success across different subjects. More recently, with extensive information about
topics of public interest (e.g., medical conditions and care) becoming available to
everybody on the internet, the concern with producing generally and easily
readable materials has spread to a much wider range of topics and audiences.
Correspondingly, as more text material becomes accessible in electronic format,
and as natural language processing (NLP) technology advances, researchers have
started turning their attention to the use of computational tools to help evaluate
texts for readability and their appropriateness for learners at different levels.
Pioneering efforts in the use of NLP technology for assessing text readability and
appropriateness to a learners level focused on English, followed by other
European and oriental languages. Very little work has been done to date on Arabic
and, not surprisingly, none on Amazigh, as far as we know. Yet, these two
languages are of interest for Morocco today and one characteristic they share is
that, in the context of reading, they can be thought of as combining aspects of first
and second language learning. Modern Standard Arabic (MSA or ) is no
ones mother tongue. Students in Arabic-speaking countries learn MSA at school
and, while undoubtedly aided by the dialect in some respects, they are still learning
a different and more complex language. The place of MSA as a second language is
more evident for individuals who are born in Amazigh-speaking households, and
the difficulty of learning to read in MSA is even more acute when considering
literacy programs for adults who need to develop character and word-decoding
skills for a language that is not entirely the one they usually speak (Maamouri,
2005). Learning to read Amazigh (whether using Tifinagh or the Latin alphabet)
poses similar challenges: it is clearly a second language for Moroccans coming
from Arabic-speaking households, and the many variants of Amazigh spoken in
Morocco alone make the standard form of the Amazigh language used in written
educational materials something of a second language even for native speakers.
In view of the dual first-language/second-language position held by a language
such as MSA, the work we describe in this paper draws on research performed in
both first and second language contexts, and it examines both absolute text
readability measures and the appropriateness of a text to a learning stage. Our
research focused on MSA, so some of its conclusions are specifically relevant to
that language and pertain to linguistic features that are not necessarily present in
the Amazigh language. Nonetheless, the general approach remains valid and the
results obtained to date for Arabic can inform similar work on Amazigh, thus
providing further encouragement to develop NLP technology for this language.

106

Characterizing the Evolution of Arabic Learners Texts: A Mostly Lexical Perspective

The work reported herein should be viewed as an intriguing but shallow excursion
into largely unexplored territory. We are fully aware that there are several aspects
of text appropriateness and complexity could not be investigated due to time and
resource constraints. We are confident, however, that the work performed and the
results obtained to date provide a sound basis for future work.

Readability of a Text vs. Appropriateness of a Text to a Learner


Readability assessment is defined in the literature as the estimation of how
difficult a piece of writing is. The assessment is based on the characteristic of the
text itself and so is independent of the learner. On the other hand, determining
whether a text is appropriate for a specific learner or class of learners requires
characterizing the learner(s) and the text in terms of common features and defining
criteria that relate the two. In this section we begin by describing a few of the most
common and well known readability assessment approaches and measureswhich
number in the hundredsand how they have been applied to Arabic. We then
examine how a text and a student can generally be characterized in order to
establish a way of measuring the appropriateness of the former to the latter. We
review some important previous work performed in that area before proceeding to
describing our own study.

Measuring Readability
Readability of a text can be defined, as well as measured, in different ways. In
1963, Klare defined it as a measure of the ease of understanding due the style of
writing (DuBay, 2004); this is a sweeping definition that focuses on the text itself
while not precisely referring to any of its specific linguistic or stylistic features.
McLaughlin, in 1969, emphasized the relationship between the material and the
reader, defining readability as the degree to which a given class of people finds
certain reading matter compelling and comprehensible. A comprehensive
definition of readability, which also relates the reader to the text, is given by Dale
& Chall (DuBay, 2004) as: The sum total (including all the interactions) of all
those elements within a given piece of printed material that affect the success a
group of readers have with it. The success is the extent to which they understand it,
read it at an optimal speed, and find it interesting. The complexity and
comprehensiveness of these definitions, however, is not reflected in the more
quantitative measurement methods developed in the educational literature.
How is readability measured? A widespread method is cloze tests, in which a
reader must fill in missing words in the text. Human judgments of readability are
also used. However, the most common approaches to measuring readability are
formulas that compute a numeric score from some text characteristics, which vary
based on the formula. The Fleish-Kincaid Reading Ease Score (FRES), for
example, is a linear combination of average word length (measured in syllables per
word), and average sentence length (measured in words per sentence) (DuBay,
2004). The Dale-Chall formula uses average sentence length and the ratio of
difficult words to total words; difficult words are those not present on a list of
words expected to be known by a fourth grader in the American school system

107

Violetta Cavalli-Sforza & Mariam El Mezouar

(DuBay, 2004). The SMOG Formula uses a somewhat more complex algebraic
formulation involving the number of polysyllable words (words with more than 3
syllables) and the number of sentences (Mc Laughlin, 1969). The values obtained
from these readability formulas are used to link a text to a grade level, either
directly, as in the case of the Flesh-Kincaid Grade Level formula (a variation on
the FRES) or the SMOG formula, or by going through a table, as in the case of the
Dale-Chall formula. For example, a score of 4.9 and below for Dale-Chall indicates
that a text is appropriate for the 4th grade and below, whereas a score of 9 to 9.9
places a text at the college level and a score of 10 and above is for texts suitable for
graduate school. These formulas have varying degrees of accuracy but do not
typically transfer to languages other than English.
Outside of English, work on readability formulas has been carried out for European
languages, such as French, Spanish, Swedish and Danish (Al-Tamimi et al., 2013),
and for Japanese (Tateisi et al., 1988), among others. In addition to the readability
formula approach to readability assessment, other approaches are found in the
literature for different languages. For example, for Chinese, Pang (2008) describes
a method based on Support Vector Machine for regression problems, where key
text features are selected and used to predict readability. A study of Hebrew, a
Semitic language closely related to Arabic, examined the correlation of 50 features
(lexical, semantic, morphological, statistical and syntactic characteristics of the
texts) and the difficulty score (1-easiest to 10-hardest) of a set of 70 texts, as rated
by language experts (Ben-Simon and Cohen, 2011).

Measuring Readability for Arabic


For Arabic, two formulas were found in the literature: the Dawood Formula
(Dawood, 1977), which includes five text features (average word length, average
sentence length, word frequency, percentage of nominal clauses, and percentage
number of frequency of definite nouns) and the Al Heeti formula (Al-Ajlan et al.,
2008), which takes into consideration only the average word length. The selection
of these specific features has not been thoroughly justified in the literature, nor do
the formulas achieve good results.
We also found two studies in which Saudi researchers used machine learning
techniques to learn features for mapping texts to grade levels. In the first of these
studies, researchers trained a Support Vector Machine classifier to assign texts,
hand-selected from the Saudi school curriculum, to three difficulty levels: easy,
medium and hard (Al-Khalifa and Al-Ajlan, 2010). The candidate text features
chosen as input to the classifier for each text were: average sentence length,
average word length, average number of syllables, word frequencies and perplexity
scores for bigram language model. The trained classifier was then tested against
unseen texts and expert ratings. The authors concluded that average sentence length
was the best single feature in determining Arabic text readability, with a 66.67%
accuracy rate; the best combination of features was average sentence length,
statistical language model, and term frequency. However, while the prediction
accuracy of the model was excellent on easy texts (100%), it dropped to 70% for
hard texts and did not achieve any good results on medium texts. The authors
attributed the poor results obtained for the latter category to some confounding

108

Characterizing the Evolution of Arabic Learners Texts: A Mostly Lexical Perspective

factors in the texts themselves. As in previous work (Ajlan et al., 2008), they
questioned the validity of the assumption that texts from the Saudi curriculum are
correctly distributed among the three difficulty levels, and argued that, to be able to
give more accurate predictions from such a system, there is a need for an Arabic
corpus correctly labeled with readability levels.
A research effort along similar lines aimed at determining the factors that affect
readability of an Arabic text and its mapping to the 10 grades of the Jordanian
school curriculum (Al-Tamimi et al., 2013). The study was conducted using factor
analysis on features that included word length, word frequency, vocabulary load,
number of difficult words, average sentence length, sentence complexity, the
clarity of the text idea, the use of topology or metaphors, and the grammatical
structure complexity. The features were later grouped to remove some redundancy
using principal component analysis to determine the most salient features. These
were in turn used to create the AARI Base formula, which is then used in another
formula to map a text to a grade level. The best performance (with accuracy of over
83%) was obtained when assigning a text to one of three clusters (1st to 3rd grade,
4th to 5th grade, and 6th to 10th grade). The accuracy dropped to under 50% when
assigning to individual grades.
A third study took a much simpler approach to assessing the difficulty of texts
(Daud et al., 2013). It was based on summing the score of words and dividing it by
the number of words in the text. The score of individual words is drawn from the
frequency of the words in the King Abdulaziz City for Science and Technology
Arabic Corpus (KACSTAC) corpus, a general corpus whose texts are derived from
magazines, books, newspapers, referred journals, dissertations, government
circulation, school curriculums, newswire and the Internet. The authors assume that
the more frequent a word is, the easier it is, and so the word score is its reversed
ranking in the corpus. Consequently, the lower the overall score of the text, the
easier the text is assumed to be. Unfortunately this work appeared to be rather
preliminary and did not provide any specific conclusions about the effectiveness of
the readability estimation.

Measuring Appropriateness of a Text to a Learner


The readability indices described in the previous section either assign an absolute
readability score to a text or relate the text to a grade level in a school curriculum.
They presuppose that the grade level is a sufficient, if vague, indicator of an
average level of reading skill expected of students in that grade. The actual skills
that are expected of a student are characterized, in general, by the learning
objectives at each grade level. This characterization is generally taken to be
adequate for a gross mapping of texts to curriculum level and for the population of
students at that level. It does not really permit any finer level analysis of what the
student actually knows, nor what learning is afforded by a specific reading
material, and it does not support any adaptation of text selection to the needs of the
individual student. In contrast, with advances in artificial intelligence techniques,
user-adaptive tools and interfaces are now possible and have become the hallmarks
of effective man-machine interaction, whether applied to educational experiences
in intelligent tutoring systems or to general information access over the internet.

109

Violetta Cavalli-Sforza & Mariam El Mezouar

The development of a more user-adapted interaction between the human user and
the machine involves collecting data on users and then selecting from a range of
possible information to offer to each user, or group of users, materials or services
that seems to best fit their needs at a given point in time. It was with this
perspective in mind that the REAP project (http://reap.cs.cmu.edu) developed an
approach to text selection addressed at characterizing the students knowledge and
interests, the contents of a text, and the contents of a learning curriculum in such a
way as to allow a reading practice environment to select a text to support readerspecific lexical practice (Brown and Eskenazi, 2004). REAP focused on supporting
learning English as a second language, but many of its core ideas carry over to
learning to read complex texts in ones first language and in literacy training as
well. The initial focus on English and vocabulary learning was later extended to
cover some grammatical concepts and versions of the system were built for French
and European Portuguese.
According to the initial REAP approach, the selection of an appropriate text
depends on the vocabulary the student already knows (the student model), the
vocabulary the student is trying to learn within a curriculum of study (the
curriculum model), and the vocabulary content of a text (the text model). In a
nutshell, a text supports reader-specific lexical practice if it contains at least some
of the words targeted for learning at a particular curriculum stage, while also
containing a sufficient number of known wordsand correspondingly a
sufficiently small number of unknown wordsso as to make the text accessible for
the learner. It is this view of what makes a text appropriate or adapted to a learner
that underlies the research that we conducted for Arabic and describe below.

Description of the Study


Goals and Approach of the Study
The ultimate goal of our research was to develop a characterization of what makes
a text suitable for a learner studying MSA as a second language, so as to be able to
predict the suitability of a text to a given skill stage and, eventually, a specific
learner and dynamically select texts to enrich available learning materials. To our
knowledge, there are no freely available corpora of texts for Arabic learners tagged
by level of difficulty. So, we used as an implicit measure of increasing difficulty
the curriculum presented by part of two volumes of the commonly used Al-Kitaab
textbook series (Brustad et al., 2004 and 2007). The small collection of texts
contained in this textbook series, each tied to a specific lesson with its vocabulary
and grammar concepts, served as our basic data for characterizing the
appropriateness of texts to a given skill stage. This characterization or model, once
developed, would then serve to inform the selection of further texts to enrich the
supply of reading materials available for learners at a specific skill stage. Using the
terminology adopted by project REAP, we framed the problem as follows:

110

Characterizing the Evolution of Arabic Learners Texts: A Mostly Lexical Perspective

Chapters 1-20 of Al-Kitaab Volume 1 and Chapters 1-5 of Al-Kitaab


Volume 2 formed the 25 skill stages of our curriculum model.

Each skill stage had an associated set of vocabulary items explicitly


targeted by the chapter as lexical items the student should learn.

The lexical items presented at each skill stage cumulatively represent the
content of a student model for the perfect studentthe one who does not
forget anythingwho has reached that skill stage.

At any one stage in the curriculum, the perfect student is expected to have
learned and be able to recognize all words in previous skill stages (the
known words), is in the process of learning new words for the current skill
stage (the target words), and is not expected to know any of the words
presented in later skill stages (unknown words).

The words contained in the texts and their classification as known, target,
and unknown words for a given skill stage are elements of the text model,
to which we later added other readability variables.

The research examined, qualitatively and quantitatively, trends in the proportions


of known, target and unknown words in texts through the 25 skill stages. These
variables and some of the standard readability measures were used to train a model
to predict which stage an unseen text was appropriate for.

Data Used in the Study


In addition to the Al-Kitaab texts and vocabulary lists that served as the training
data for the model, three additional sets of texts were used:

A set of 23 texts, created or chosen by an Arabic language instructor


familiar with the Al-Kitaab book to match specific chapters/skill stages; a
few of these were transcription of online videos. These labeled texts were
used to test the accuracy of the predictive model.

A set of 10 texts, hand selected from the Syrian school curriculum (Syrian,
2013) spanning grade levels from primary to high school.

A set of 10 texts manually collected from the internet from the online
newspaper Hespress (http://hespress.com/).

These additional texts, collected using the results of the analyses performed on the
Al-Kitaab texts, were intended to be used for prediction from a model. The model
was still being built at the time of writing.

Tools and Processing Used in the Study


None of the texts used in the study had any associated information to help identify
the words contained in the text. As a result, each text was initially processed by
running it through MADA (Habash et al., 2009), which performs several

111

Violetta Cavalli-Sforza & Mariam El Mezouar

operationstokenization, diacritization, morphological disambiguation, part-ofspeech tagging, stemming and lemmatizationat the same time. It provides as
output a list of ranked analyses for each token in its input. MADAs analyses were
aggregated by Buckwalter lemma-ID, a feature that conveys the sense of the word,
thereby ignoring analyses that differed only in inflectional features or in the
presence of different clitics. MADA is trained on an extensive corpus of texts, of
which the Al-Kitaab texts or the other texts we used are not necessarily
representative. Evaluation of MADA by its authors on the same type of data on
which it was trained shows that MADAs first analysis picks the right part of
speech and the right lemma-ID over 96% of the time. Manual examination of
MADAs output on 100 randomly selected words in the Al-Kitaab texts showed
that MADA was able to pick the right word sense over 94% of the times.
Additional analyses we performed using the second MADA result (after
aggregation by lemma-ID), shows similar patterns to the first analysis. It was
therefore decided that it was safe to base further work on the first MADA analysis.
A MADA analysis was picked for each word in the text and classified as a known,
target, or unknown word from the perspective of the perfect student model. A word
may have been introduced at different times and/or with different information or
expected competence in the vocabulary curriculum. For example, the learner may
have seen the word in a list of vocabulary targeted by a specific skill stage; if so,
this word is labeled as having high competence, since the (perfect) learner will
supposedly have acquired it before moving on to the next skill stage and will not
forget it thereafter. Alternatively, the learner may have been exposed to a word
without actually being expected to learn it; for example, the word may have been
used in an example with an inline gloss, or in a previous text with no gloss. In this
case the learner would not be expected to display high competence. After a number
of exploratory analyses, it was decided to use the following procedure to classify
words. Let t stand for the skill stage at which a text is introduced and d stand for
the first high-competence appearance of a word in the vocabulary curriculum. At a
given skill stage, a word is considered:
Known if d is less than t

Targeted if d is equal to t

Unknown if d is greater than t

Punctuation, number and non-Arabic word tokens were identified and excluded
from further analyses. Additional details regarding the extensive data processing
and sensitivity analyses performed are described elsewhere (El Mezouar, 2013).

Results of the Study


The major results of the study concern trends in known, targeted, and unknown
words in texts and correlation of other common readability variables with skill
stages. Progress has also been made towards the construction of a predictive model
to be able to assign texts to specific skill stages, but the results obtained, though
encouraging, are still preliminary, so this aspect requires further investigation.

112

Characterizing the Evolution of Arabic Learners Texts: A Mostly Lexical Perspective

Trends in of Known, Targeted, and Unknown Words in Texts


Figure 1 below shows the evolution in proportions of known, targeted, and
unknown words in texts across the 25 skill stages. The figure shows the trends for
tokens, but very similar patterns were obtained for types (unique word
occurrences). While there is a certain amount of oscillation in all word types, there
are also clear trends: the percentage of known words in texts steadily increases and
the percentage of unknown words clearly decreases. Moreover, with few
exceptions, the number of unknown word types is quite small, never going above
46 and usually below 20. These results confirm general expectations.
Past the first 3 skill stages, where a significant percentage of new vocabulary is
used in short texts, targeted words hold steady within a range, 2-19% for tokens
and 2-20% for types, with an average of 8% of targeted words for both tokens and
types. It is an open question whether these values reflect an intentional choice by
the textbook authors, who created or selected the texts or whether they represent an
upper bound on how many new words can reasonably be targeted in a single text.
80%
70%
60%
50%
40%
30%
20%
10%
0%

Known %
Targeted %
Unknown %

1 3 5 7 9 11 13 15 17 19 21 23 25

Figure 1 : Evolution of known, targeted and unknown variables for tokens


In addition, we investigated the vocabulary load across different skills stages and
remarked there was a definite fluctuation, from low to high rates of new vocabulary
introduction, with a periodicity varying between 2 and 4 skill stages. This indicates
that there are points in the curriculum in which there is more emphasis on new
vocabulary and others where the vocabulary is used and reinforced through
practice.

Correlation of Common Readability Variables with Skill Stages


We considered some of the other measurements of text complexity that appear in
common readability indices for Arabic and other languages to determine if any
could be valuable indicators of the appropriateness of a text to a given skill stage.
Table 1 summarizes some of the results obtained.

113

Violetta Cavalli-Sforza & Mariam El Mezouar

Particularly interesting is the negative result obtained for average length of words,
a variable that appears, in some guise or other, in readability formulas for other
languages, where it may measure number of characters or syllables. We note that
word formation processes for Arabic, with word defined as a series of characters
bounded by spaces or punctuation symbols, differ significantly from those of most
of the languages for which readability measures we reviewed were defined.
Specifically, the Arabic word becomes longer on account of three processes:
Text feature
Familiarity
vocabulary

How computed

with Percentages of targeted, known and


unknown words in a text
Percentage of open class words in a
Open-class words
text
Closed-class
Percentage of closed class words in a
words
text
Ratio of unique words over total
Lexical diversity
number of words in a text
Length of texts
Number of tokens in a text
Average length of Average number of characters per
words
word in a text
Average
Average number of clitics per word
complexity
of
in a text
words
Average length of Average number of words per
sentences
sentence in a text

Good
determinant?
Yes
Yes
No
No
Yes
No
Yes
Yes

Table 1: Summary of features determining appropriateness of text to level


1. Derivational Processes: intersection of the root with longer patterns
containing more fixed letters. The different patterns are associated with
different meanings and there are a fixed and small number of patterns and
character additions, so the reader quickly develops skill in identifying these
components of the word. Examples include the triliteral verb measures V and
X, which add a t ( )and an ist ( )prefix, respectively. However the
amount of word lengthening due to this process is rather limited.
2. Inflectional Processes: the addition of inflectional prefixes and suffixes,
such as the markers for person and number in verbs and for gender, dual and
plural in nouns and adjectives. Again, the amount of word lengthening due to
this process is rather limited in both amount and variation.
3. Cliticization: The prefixation or suffixation of morphemes, including
conjunctions, prepositions, pronouns and other particles, depending on the
position. There are up to 4 proclitics (prefixed) and 1 enclitic (suffixed).

114

Characterizing the Evolution of Arabic Learners Texts: A Mostly Lexical Perspective

In light of the above word-formation processes, it is not surprising that, for Arabic,
counting clitics gives more meaningful results than counting letters.
While we are encouraged by the positive results (features that are good
determinants), we are also aware of the fact that some of the negative results may
be due to the limits of the processing we performed, as described below.

Limitations of the Study


The initial motivation for this work came from a project targeted at developing
Arabic reading enhancement tools (Maamouri et al., 2012). That project was itself
a response to some of the special difficulties involved in reading in MSA, given
that certain aspects of its morphology and its writing system conspire to complicate
significantly the recognition of a word in context. Firstly, as noted earlier, Arabic
morphology allows the adjoining of several prefixes and suffixes to the basic word
stem, so that identifying the stem involves stripping off affixed material, a process
that suffers from some ambiguity. Secondly, the stem itself may be difficult to
identify because of internal or boundary changes, such as those occurring in broken
plurals or in words whose roots contain weak consonants. Thirdly, traditional
Arabic dictionaries are organized by root, so looking up a word requires identifying
the root letters and the pattern that give rise to the stem, a process that is also
complicated by the presence of weak consonant radicals and assimilation
processes. Finally, the absence of most diacritic signs in all texts, other than
religious texts or texts used in early school years, further enhances the ambiguity of
words and contributes to the difficulty in their identification. All these factors
contribute to making word recognition in context quite difficult for the learner of
MSA, since it requires extensive application of different sources of linguistic
knowledgelexical, morphological, syntactic, and semanticin addition to
general common sense knowledge and topic knowledge.
While the data we worked with contained some morphosyntactic information we
could have used, our focus for this study was limited to words and, more
particularly, to word senses (as captured by lemma-ID), treating words that share
the same sense as equal, independently of the form they took on in context. In so
doing, we ignored morphological processes giving rise to different inflectional and
derivational variants. Similarly, we did not consider those closed-class words that
appeared as clitics attached to an open-class word. We also labeled as unknown
words whose meanings were not explicitly presented in the vocabulary but should
or could have been guessed by the learner using acquired knowledge of
morphological processes covered in the grammar. Investigating the effect of these
and other omissions is left for future work.

Conclusion and Implications for Amazigh


We have described an exploratory study that investigated certain aspects of texts
assumed to be relevant in determining the appropriateness of a text to a learner at a
certain skill stage. We analyzed a text from two perspectives: 1) its fit to the lexical
knowledge the learner might (or might not) have and the vocabulary targeted for

115

Violetta Cavalli-Sforza & Mariam El Mezouar

learning at a given stage in a curriculum; and 2) specific characteristics of the text,


independent of the learner or of the instructional curriculum. The latter
characteristics were chosen among the ones used in common readability measures
for different languages. Most of the analysis focused on the lexical content of texts,
and specifically the words that a learner was supposed to have acquired before
reading a text and those contained in the text to aid the learner in practicing new
vocabulary. We were able to find definite trends in these measures. We were also
able to verify that some of the variables used to measure text complexity in wellknown readability indices were informative as determinants of appropriateness to a
learners skill level, while others did not appear to be. However, it was also
remarked that some of the negative results for some promising variablesfor
example, lexical diversity and proportion of closed-class wordsmay be due to the
limited processing we performed and the morphosyntactic information it ignored.
A fuller analysis that takes these characteristics into consideration could yield
different answers. Indeed, other simple measures of morphological and syntactic
complexity, such as average complexity of wordsmeasured in number of
cliticsand sentencesmeasured in average words per sentencesuggest that this
information might be more useful than immediately apparent.
The ultimate goal of the analysis reported herein was to build a model that would
allow us to predict whether a given text could be appropriate for a given skill stage,
that is, would be accessible to a perfect learner who had learned all of the
vocabulary presented up to that stage and would be adequate for practicing the use
of lexical items introduced at that stage. The predictive model is still under
development but preliminary results and feedback from instructors provide grounds
for optimism. Further refinements and investigation are required to make the model
truly useful and will be the focus of future work.
In general, it is a worthwhile goal to build such a model and use it as part of a
language learning tool to provide criteria for (semi-)automatically selecting and/or
modifying texts for learners, in order to dynamically enrich a database of learning
materials. The general approach followed for Arabic in this study can be applied to
other languages as well. Nonetheless, just as it has been shown that standard
readability indices do not transfer directly between languages, we do not expect our
analysis and the specific results we obtained to be applicable to all languages. With
respect to Amazigh, we can expect that familiarity with vocabulary will be relevant
to choosing learner-appropriate texts, as will open-class words, length of texts and
average length of sentences. On the other hand, we have to withhold judgment on
features such as average length of words and average complexity of words, since
Amazigh morphology has some similarities to Semitic morphology but also many
differences. Specifically, it is significantly less agglutinating than Semitic
language morphology, even though Semitic languages are not themselves
considered agglutinating languages (as opposed to, for example, Turkish).
Concerning the significance of other features, such as the proportion of closedclass words or lexical diversity, more detailed analyses need to be performed even
for Arabic, and it may well be that Amazigh will turn out to behave similarly to
other languages for which these features do play a role in readability of texts. One
aspect of morphology that we have not yet investigated may turn out to be
important for text difficulty in both MSA and Amazigh: the change in context of

116

Characterizing the Evolution of Arabic Learners Texts: A Mostly Lexical Perspective

certain radical letters, e.g. the w/u and y/i sounds as well as other assimilation
processes that are known to occur in both languages in the presence of adjacent
consonants.
As a concluding remark, we point out that a study of the complexity and evolution
of learners texts along a curriculum, such as described above for MSA, is really
enabled by the presence of digital text corpora (annotated or not), computational
lexicons, part-of-speech taggers and morphological analyzers, among others.
Therefore, the advancement of language instruction for both first and second
language learners of Amazigh provides yet more motivation for investing in the
development of such resources for this language.

Acknowledgements
This research was inspired and made possible by a previous project, housed at the
Linguistic Data Consortium (LDC), and supported by the U.S. Department of
Education under International Research Study (IRS) Grant No. P017A050040-0705. We also thankfully acknowledge the support and generosity of the Linguistic
Data Consortium for allowing us to use some of their linguistic resources. For
further information regarding that project, contact Dr. Mohamed Maamouri (PI) at
maamouri@ldc.upenn.edu.

References
Al-Ajlan, A. A., Al-Khalifa, H. S., and Al-Salman, A. S. (2008), Towards the
Development of an Automatic Readability Measurements for Arabic Language ,
in Proceedings of the Third International Conference on Digital Information
Management, November 13-16, p. 506-511.
Al-Khalifa, H. S., and Al-Ajlan, A. A. (2010), Automatic Readability
Measurements of the Arabic Text: An Exploratory Study , The Arabian Journal
for Science and Engineering, Volume 35, Number 2C, p. 103-124.
Al-Tamimi, A-K., Jaradat, M., Aljarrah N., and Ghanem, S. (2013),
AARI: Automatic Arabic Readability Index , The International Arab Journal of
Information Technology, [Accepted March 12, 2013].
http://www.ccis2k.org/iajit/PDF/vol.11,no.4/5200.pdf, August 2013.
Ben-Simon, A. and Cohen, Y. (2011), The Hebrew Language Project: Automated
Essay Scoring & Readability Analysis, International Atomic Energy Agency.
http://www.iaea.info/documents/paper_4e1237ae.pdf, August 2013.
Brown, J., and Eskenazi, M. (2004), Retrieval of authentic documents for readerspecific lexical practice , in Proceedings of InSTIL/ICALL Symposium, June 1719, Venice.
Brustad, K., Al-Batal, M., and Al-Tonsi A. (2004), Al-Kitaab fii Tacallum alc
Arabiyya, A Textbook for Beginning Arabic: Part One, Second Edition,
Washington D.C., Georgetown University Press.

117

Violetta Cavalli-Sforza & Mariam El Mezouar

Brustad, K., Al-Batal, M., and Al-Tonsi A. (2007), Al-Kitaab fii Tacallum alArabiyya, A Textbook for Beginning Arabic: Part Two, Second Edition,
Washington D.C., Georgetown University Press.
c

Daud, N. M., Hassan H., and Abdul Aziz, N. (2013), A Corpus-Based


Readability Formula for Estimate of Arabic Texts Reading Difficulty , World
Applied Sciences Journal, Volume 21, p. 168-173.
DuBay, W. H. (2004). The Principles of Readability.
Sciences, http://eric.ed.gov/?id=ED490073, August 2013.

Institute of Education

Dawood, B. A-K. (1977). The Relationship between Readability and Selected


Language Variables. Thesis submitted to the College of Education Board in the
Universit of Baghdad in partial fulfillment of the requirements for the degree of
Master of Arts in Education and Psychology.
http://dspace.ju.edu.jo/xmlui/bitstream/handle/123456789/12718/JUA0305740.pdf,
August 2013.
El Mezouar, M. (2013), Appropriateness of a Text for Learners of Arabic as a
Foreign Language: A Word-Based Perspective, Master Thesis Report submitted in
partial fulfillment of the requirements for a Master of Science in Software
Engineering at the School of Science and Engineering of Al Akhawayn University
in Ifrane.
Habash, N., Rambow, O., and Roth, R. (2009), MADA+TOKAN: A Toolkit for
Arabic Tokenization, Diacritization, Morphological Disambiguation, POS Tagging,
Stemming and Lemmatization , in Proceedings of the 2nd International
Conference on Arabic Language Resources and Tools (MEDAR), April 22-23,
Cairo, 2009.
Maamouri, M. (2005), Arabic Literacy, in Encyclopedia of Arabic Language
and Linguistics, Lemma 11,16, Volume 2, Brill.
Maamouri, M., Zaghouani, W., Cavalli-Sforza, V., Graff, D., and Ciul, M. (2012),
Developing ARET: An NLP-based Educational Tool Set for Arabic Reading
Enhancement , in Proceedings of The 7th Workshop on Innovative Use of NLP
for Building Educational Applications (NAACL-HLT-2012), June 7, Montreal, p.
127-135.
Mc Laughlin, H. G. (1969), SMOG Grading - a New Readability Formula ,
Journal of Reading, Volume 12, Number 8, p. 639-646.
Pang, L. T. (2006), Chinese Readability Analysis and its Applications on the
Internet, Thesis submitted in partial fullfilment of the requirements for the degree
of Master of Philosophy in Computer Science and Engineering, The Chinese
University of Hong Kong.
Syrian (2013), , http://me.syrianeducation.org.sy/ebook/classes.html,
March 2013.
Tateisi, Y., Ono, Y., and Yamada, H. (1988), A Computer Readability Formula
of Japanese Texts for Machine Scoring , in Proceedings of COLING 1988,
Volume 2, August 22-27, Budapest, p. 649-654.

118

sinag-Asinag, 9, 2014, p. 119-132

Reconnaissance automatique de caractres et de textes


amazighes : tat des lieux et perspectives
Ali Rachidi
ENCG et Laboratoire IRF-SIC, Universit Ibn Zohr, Agadir, Maroc

The design and implementation of systems OCR Amazigh character is very


crucial for the promotion and development of the Amazigh language. To date,
there is the lack of this type of system. Therefore, the automatic character
recognition and text Amazigh has experienced in recent years a very significant
interest in research work. Indeed, some systems have been developed to
improve this situation. In this paper, we describe the different systems and
approaches that were developed and tested in our laboratory to automatically
recognize the Amazigh writing, showing the characteristics and results of each.
This description will allow us to conduct a comprehensive summary of the
various approaches and proposed systems that will help us to launch the
outlook for future work.

1. Introduction
Dans le domaine de la reconnaissance automatique des caractres, plusieurs
recherches scientifiques ont t effectues sur le caractre latin, arabe, et autre.
Ceci a permis le dveloppement de plusieurs approches de reconnaissance
automatique de ces caractres et, par consquent, des lecteurs optiques pour
scanner et reconnatre automatiquement les documents correspondants. Par contre,
le caractre amazighe, appel tifinaghe, est trs peu trait. Des approches ont t
proposes pour la reconnaissance de ce caractre. Ces approches sont regroupes
gnralement en grandes classes telles que les approches statistiques (Oulamara,
1988), (Djematen et al., 1997), les approches bases sur les rseaux de neurones
(Ait Ouguengay, 2008), (El Yachi et al., 2009), (Bouikhalene et al., 2009) (Es
Saady et al., 2011), lapproche syntaxique (Es-Saady et al., 2010), les Modles de
Markov cachs (Amrouch et al., 2010), (Amrouch et al., 2012) et lapproche base
sur la programmation dynamique (El Yachi et al., 2010). Dans cet article, on
sintresse prsenter un tat des lieux et une synthse prsentative et comparative
des travaux de recherche scientifique effectus et publis dans le domaine de la
reconnaissance automatique de caractres amazighes imprims et manuscrits, soit
au niveau de notre laboratoire soit ailleurs.
Nous prsentons en premire partie les principales bases de donnes de caractres
amazighes dveloppes pour pouvoir tester et valider des approches. La seconde

119

Ali Rachidi

partie est consacre la description des diffrents travaux effectus dans le


domaine de la reconnaissance automatique de lcriture amazighe. Nous prsentons
dans la troisime partie nos contributions dans ce domaine. Enfin, nous donnons
une synthse dtaille et comparative de ces systmes tout en prcisant les
avantages et les limites de chaque systme et en lanant un certain nombre de
perspectives dvelopper dans les travaux futurs..

2. Principales bases de caractres amazighs dveloppes


Pour pouvoir exprimenter et valider les diffrentes approches et systmes
dvelopps, il est primordial de crer des bases de caractres amazighes. Des bases
de donnes dimages de caractres amazighes annotes sont inexistantes. Ce
domaine souffre ainsi labsence dune base de donnes de rfrence qui permet des
comparaisons objectives entre les diffrents systmes de reconnaissance. Tous les
travaux publis dans ce domaine ont t expriments sur des bases de donnes
locales, qui contiennent un nombre restreint de lalphabet amazighe.
Dans les deux sous-sections suivantes, nous dcrivons les deux bases de caractres
existantes.

2.1. Base des patterns de la graphie amazighe


Cest une base de patterns de diffrentes fontes amazighes et de tailles varies
propose par Ait Ouguengay (2009). Elle contient au total 12 polices de caractres
et les tailles de 10 points 28 points pour chaque modle. Les patterns sont fournis
sous forme dimages bitonales de tailles variables. La taille maximale est de
102129 pixels, tandis que la taille minimale est de 192 pixels. Une telle disparit
sexplique par le fait que le caractre ya (a) est un petit cercle, et est donc beaucoup
plus petit que les autres caractres. Outre le cas particulier du caractre ya (a), la
base est constitue des patterns de diffrentes fontes amazighes et de tailles varies
qui ne sont pas normalises. Le Tableau 1 donne une liste de quelques patterns
dans cette base.

120

Reconnaissance automatique de caracteres et de textes amazighs : tat des lieux et


perspectives

Tableau 1 : Exemples de quelques caractres dans la base des patterns de la


graphie amazighe
Dans cette base, la manire dont sont cres les images des patterns ne permet pas
la possibilit de renormaliser leur taille en une taille moyenne fixe. En effet, ceci
peut tre gnant en particulier cause de la ressemblance des caractres ya (a) et
yar (r) qui ne se diffrencient que par la taille : le caractre ya (a) est un petit cercle,
tandis que le caractre yar (r) est un grand cercle. Dans certains cas, on aura une
confusion relle entre des images de ces deux classes.

2.2. Base de caractres manuscrits


Cest une base de donnes de caractres amazighes manuscrits (A Database for
Amazigh Handwritten Character Recognition Research : AMHCD) que nous avons
cre et dveloppe au sien de notre Laboratoire IRF-SIC de l'Universit
Ibn Zohr dAgadir. La base contient 25740 images de caractres amazighes
manuscrits isols et tiquets, produites par 60 scripteurs de sexe, dge et de
fonction diffrents. Le lecteur peut trouver une description complte et dtaille
sur cette base dans (Es Saady et al., 2011).
Jusqu' prsent, la base AMHCD est peu utilise et explore pour lvaluation des
systmes de reconnaissance de lcriture amazigheD. (2010(Amrouch et al., 2010)
(Amrouch et al., 2012a) (Amrouch et al., 2012b). En revanche, elle sest impose
comme la seule et la premire base dans sa catgorie (graphie manuscrite
amazighe), grce sa taille importante et sa disponibilit pour les recherches
acadmiques.
Le Tableau 2 prsente des exemples des caractres amazighes manuscrits. Chaque
caractre est donn sous forme de deux variantes qui correspondent aux deux
scripteurs diffrents.

121

Scripteur 2

Scripteur 1

Caractres
amazighs
Imprims

Scripteur 2

Scripteur 1

Caractres
amazighs
imprims

Ali Rachidi

Tableau 2 : Exemples de caractres amazighs manuscrits issus de la base


AMHCD (Essaady et al., 2011)

3. Approches de reconnaissance automatique existantes


En comparant au latin, l'arabe ou au chinois, les recherches sur la reconnaissance
automatique d'criture amazighe n'ont pas atteint la perfection. Autant que nous le
sachions, peu de tentatives ont t menes sur la reconnaissance d'criture
amazighe. Dans cette section, nous citons des travaux publis qui traitent la
reconnaissance de lcriture amazighe.
Parmi les anciennes tudes qui portent sur la reconnaissance de caractres tifinaghs,
on cite, en premier lieu, les travaux dOulamara J. (1988). La mthode propose
dans cette rfrence est une mthode statistique base sur lextraction de segments
de droite par la transforme de Hough. L'analyse du caractre dans l'espace
paramtrique, obtenu par la transformation de Hough, permet d'extraire les
caractristiques spcifiques en association avec un modle de rfrence gnrateur
de l'ensemble des caractres de l'alphabet. Un codage original est dduit puis utilis
comme base de construction de la matrice de lecture reprsentant une forme code
de lalphabet. Lauteur a obtenu des rsultats qui semblent intressants J. (1988)
sur les caractres amazighes imprims dune base de caractre locale.
(Djematen et al, 1998) considrent que la mthode publie par (Oulamara et al.,
1988) n'est pas une technique approprie pour les caractres amazighes manuscrits
puisqu'elle produit des segmentations incorrectes. Pour surmonter la difficult des
caractres prsentant des traits inclins, ces auteurs (Djematen et al, 1997, 1998)
proposent une mthode statistique de reconnaissance de caractres berbres
manuscrits base sur la position des points caractristiques dans le rectangleenveloppe de limage du caractre. Aprs des prtraitements (normalisation
bidirectionnelle, le lissage, lextraction des composantes connexes) sur le caractre,

122

Reconnaissance automatique de caracteres et de textes amazighs : tat des lieux et


perspectives

des primitives sont extraites sur chaque squelette, comme les extrmits, les points,
les sommets (points de changements de direction) et les nuds 3 et 4 branches.
Enfin, la reprsentation du caractre fournit une description sous forme de lettres
utilisant un codage prdfini. Cette description code les positions des points
caractristiques du caractre dans le rectangle-enveloppe. La reconnaissance
consiste mesurer le degr de ressemblance entre le code labor et les codes de
rfrence en utilisant la distance mtrique. Les rsultats obtenus sont plus ou moins
encourageants sur une base de caractres localement dfinie malgr quelques
erreurs qui viennent du module de prtraitement.
Ait Ouguengay (2009) a propos un rseau de neurones artificiels (RNA) pour la
reconnaissance de caractres amazighs. Le rseau de neurones utilis est un
perceptron multicouche une seule couche cache. Ce dernier a t entrain sur
une base de donnes qui contient des patterns de la graphie amazighe de diffrentes
fontes et tailles, cr localement. La simulation du rseau de neurones a t ralise
par le logiciel libre JavaNNS (java neural networks simulator). Les caractristiques
gomtriques utilises sont : les projections horizontales et verticales, les centres de
gravit en x et en y, le primtre, laire, la compacit et les moments centraux
d'ordre 2. Daprs lauteur, cette approche a donn de bons rsultats sur lensemble
des patterns dentranement. Cependant, les rsultats de test sont encore loin dtre
satisfaisants cause de la base de test qui est trs faible par rapport aux poids de
RNA dterminer.
Pour sa part, El Ayachi et al. (2010) propose un systme de reconnaissance de
lcriture tifinagh bas sur les moments invariants et la transforme de Walsh
utilisant la programmation dynamique. Le systme propos contient trois parties
principales : les prtraitements, l'extraction de caractristiques et la reconnaissance.
Dans le processus de prtraitement, l'image du document numris est nettoye
puis elle est segmente en caractres isols l'aide des techniques de
lhistogramme. Dans le processus d'extraction de caractristiques, les moments
invariants et les coefficients de Walsh sont calculs sur les caractres segments.
La programmation dynamique est adopte dans ltape de reconnaissance. Les tests
ont t faits sur plusieurs images dcriture amazighe. Daprs les auteurs, les
rsultats exprimentaux montrent que la mthode de la reconnaissance utilisant des
moments invariants donne de meilleurs rsultats par rapport la mthode fonde
sur la transforme de Walsh en termes de taux de reconnaissance, de taux d'erreur
et de temps de calcul. Plus rcemment, les mmes auteurs (2011) ont propos dans
un rseau de neurones multicouches avec les mmes caractristiques utilises
prcdemment. Les rsultats trouvs avec un rseau de neurones dune seule
couche cache sont meilleurs que ceux obtenus avec la programmation dynamique.
De plus, le taux de reconnaissance obtenu en utilisant une seule couche cache est
plus lev que celui obtenu avec deux ou trois couches caches.
Dans la section suivante, nous prsentons nos contributions en terme de conception
et de dveloppement de nouvelles approches de reconnaissance automatique de
caractres amazighs imprims ou manuscrits en les testant sur la base de caractres
volumineuse et riche (A Database for Amazigh Handwritten Character Recognition
Research :AMHCD) (Es Saady et al., 2011).

123

Ali Rachidi

4. Nos systmes de reconnaissance automatique proposs


4.1. Approches Markoviennes
Dans (Amrouch et al., 2010, 2012a), nous avons propos une approche base sur
les modles de Markov cachs de type modle discriminant DM-HMM qui
sintresse aux problmes de caractres isols. Ce type de modlisation est
largement utilis dans le domaine de la reconnaissance de la parole. Cette
modlisation est aussi efficace pour reconnatre une forme entache dincertitude et
daspect de dynamisme comme le caractre amazigh. Un processus Markovien a
mis en oeuvre des modles probabilistes spcifiques dans le but de grer
lincertitude et le manque dinformations qui entachent les formes reconnaitre.
Aprs des prtraitements sur limage du caractre amazigh, le systme fait recourt
des primitives directionnelles dans la gnration des squences dobservations.
Ces observations sont obtenues laide de la technique des fentres glissantes
oprant sur la transforme standard de Hough des images de caractres. Les
squences dobservations obtenues sont utilises pour entraner les modles HMMs
initiaux des caractres lors de la phase dapprentissage ; chaque modle utilise les
chantillons de sa classe. Par la suite, nous avons utilis le classifieur Forword pour
reconnatre le caractre. En effet, cette approche consiste associer un ou plusieurs
modles par classe. De ce fait, la reconnaissance seffectue en estimant les
probabilits dmission de la suite dobservations O de la forme reconnatre par
les diffrents modles pralablement construits. La forme reconnatre est affecte
la classe dont le modle qui maximise la probabilit. Cette approche est
pratiquement utilise dans le cas o le nombre de classes reconnatre est
relativement limit, cest--dire au vocabulaire limit comme lalphabet amazigh.
Toutefois, elle devient coteuse en temps de calcul et espace mmoire quand ce
nombre dpasse le millier, puisque chaque classe possde au moins un modle qui
lui est propre.
Nous avons valu les performances de notre systme sur la base AMHCD des
caractres amazighes manuscrits isoles (Es Saady et al., 2011), avec deux
variantes. La premire adopte la modlisation discrte des probabilits
dmission, quant la seconde, elle utilise les HMMs continus. Le tableau 3 cidessous prsente les diffrents taux de reconnaissance en utilisant le modle discret
et continu selon le nombre dtats de modle et de la taille de la base de caractre.

124

Reconnaissance automatique de caracteres et de textes amazighs : tat des lieux et


perspectives

Topologie de modle
utilise
Modle 14 tats
Modle mono et 2
gaussiens 6 tats
Modle mono et 2
gaussiens 10 tats
Modle mono et 2
gaussiens 14 tats

HMMs Discrets
Taille de la
Taux de
base
Recon
2220
90.04 %
caractres
-

HMMs Continus
Taille de Taux de
la base
Recon
-

25740
96,21%
caractres
25740
96 , 88%
caractres
25740
97 , 89%
caractres

Tableau 3 : Rsultats de reconnaissance du systme dans le cas discret et


continu
Nous estimons que les erreurs de la variante discrte proviennent essentiellement
de: (1) la modlisation discrte utilise, ce niveau, on a recours au risque de la
perte des informations ; (2) la taille des donnes utilises pour crer la base des
modles de rfrence.
Pour valider cette hypothse et remdier cette dfaillance, nous avons augment
la taille des donnes utilises et remplac les modlisations discrtes par les
HMMs continus.
Laugmentation de la taille des donnes dapprentissage et la modlisation des
densits des probabilits par les gaussiennes ont contribu diminuer le taux
derreur commis par notre systme. Nous avons pass dun taux derreur global de
9,6% (premire exprience avec HMM discrets) un taux de 2,11% cest--dire un
gain dun facteur de 7,49%. De ce fait, les rsultats obtenus dans le cas continu
sont meilleurs que ceux obtenus dans le cas discret.
Dans (Amrouch et al., 2012b, 2012c), nous avons propos un autre systme pour la
reconnaissance de caractres Tifinaghs imprims, bas sur une nouvelle approche
qui exploite les caractristiques et les spcificits morphologiques de la langue
amazighe. La solution apporte adopte une modlisation markovienne de type
chemin discriminant (DP-HMM), optimise par des algorithmes fonds sur la
programmation dynamique S.K. (1996 ; Casey, E. (1996). Lapproche sappuie
sur la proposition dune nouvelle liste des segments, qui se compose dun ensemble
de traits fondamentaux constituant les caractres amazighs. Ceci permet de mieux
exploiter la redondance de ces traits dans les tracs des lettres amazighes. La
description de la structure des caractres repose sur ces lments. En effet, les
caractristiques exploites sont extraites des tracs des caractres par une technique
de localisation implicite des segments qui le composent. Pour ce faire, nous avons
utilis les points dintrts des squelettes. Dans la phase de lapprentissage, un seul
modle HMM global construit et entran sur les lments du vocabulaire propos
par des primitives structurelles et gomtriques. Chaque chemin au long de ce
treillis reprsente une squence de segments, qui constitue un caractre de

125

Ali Rachidi

lalphabet tifinagh. La reconnaissance seffectue en dcodant dynamiquement le


chemin optimal suivant le critre de maximum de vraisemblance.
Pour valider le systme propos, nous avons effectu des exprimentations
significatives sur la base de donnes de patterns de la graphie amazighe (Essaady et
al., 2011). Plusieurs tests ont t effectus pour valuer le taux de reconnaissance
du systme en fonction du : nombre dtats et du nombre de mlanges de
gaussiennes. Le Tableau 4 ci-dessous prsente les rsultats obtenus de ces tests sur
cette base.
Nombre dtats
Nombre de gaussienne
Taux de reconnaissance

3
1-2-3

5
1-2-3

98 , 41%

98 , 76%

Tableau 4 : Taux de reconnaissance sur BD1


Ces rsultats montrent un taux derreur de 1,24% avec un modle de topologie de 5
tats. Nous estimons que les erreurs de reconnaissance sont attribues, dune part,
aux mthodes utilises pour la pr-classification et la dtection des points
dintrts et, dautre part, linsuffisance des caractristiques utilises pour mieux
dcrire chaque segment. En outre, cette faible erreur provient aussi de la
dformation de certains caractres dans certaines fontes, notamment dans les fonts
Tassafut et Taromeit . Nous constatons que le nombre de gaussiennes
utilises ninfluence pas les rsultats alors que son augmentation implique un
nombre important de paramtres calculer. Cependant, le choix de la topologie
influence directement les rsultats. Par consquent, laugmentation de nombre
dtats augmente le taux de reconnaissance de systme.

4.2. Approches syntaxiques


Dans (Essaady et al., 2010), nous avons prsent un systme automatique de
reconnaissance de caractres amazighs imprims, bas sur une approche syntaxique
utilisant les automates finis. Aprs des prtraitements sur limage du caractre, des
algorithmes appropris sur le squelette de caractre permettent de construire la
chane reprsentative du caractre partir du codage de Freeman. La chane
reconstruite est utilise lentre dun automate fini qui reconnat les caractrs
amazighes. Cet automate global a t construit partir des automates de
reconnaissance spcifique chaque caractre amazigh. Nous avons test notre
application sur une base de caractres amazighes imprims que nous avons cre.
Nous avons obtenu des rsultats encourageants. En effet, sur les 630 caractres lus,
589 ont t reconnus, soit un taux de reconnaissance de 93,49%. Le Tableau 5 cidessous prsente les taux des mauvaises affectations et mauvais rejets. Ces erreurs
proviennent de la forme de certains caractres non reconnus, dont le squelette
comporte plus de segments non orthogonaux. En effet, la mthode de
reconnaissance est base sur une vectorisation du squelette du caractre
reconnatre. Donc, une erreur de vectorisation va forcment entraner une erreur
dans la description du caractre. En fait, le principal inconvnient de cette mthode
est la sensibilit du squelette au bruit.

126

Reconnaissance automatique de caracteres et de textes amazighs : tat des lieux et


perspectives

Taux daffectations tort


Taux de rejets tort

2,28 %
4,23 %

Tableau 5 : Pourcentages des erreurs de reconnaissance

4.3. Approches neuronales


El Ayachi et al. (2010) proposent un systme de reconnaissance de lcriture
tifinagh bas sur les rseaux de neurones multi couches avec les mmes
caractristiques utilises prcdemment. Les rsultats trouvs avec un rseau de
neurones dune seule couche cache sont meilleurs que ceux obtenus avec la
programmation dynamique. De plus, le taux de reconnaissance obtenu en utilisant
une seule couche cache est plus lev que celui obtenu avec deux ou trois couches
caches.
Dans (Essaady et al., 2011b), et pour amliorer les rsultats du prcdent systme
et davoir un systme complet qui reconnat la totalit des caractres amazighs
imprims et manuscrits, nous avons prsent un systme de reconnaissance
automatique du texte amazigh, bas sur les rseaux de neurones multicouches.
Lapproche propose a recours des primitives statistiques en se basant sur la
position des lignes centrales du caractre et les techniques de fentres glissantes.
Dans ce systme et dans un premier temps, nous avons utilis la ligne centrale
horizontale du caractre pour extraire un ensemble de caractristiques de densit
bases sur cette ligne. Dans un second temps, nous avons propos une amlioration
de ce systme de reconnaissance en ajoutant dautres caractristiques de densit
bases sur la ligne centrale verticale du caractre afin dexploiter la similarit de
plusieurs caractres amazighs par rapport la ligne centrale verticale du caractre.
Les diffrentes variantes ont t testes et values sur deux bases : la base des
patterns de la graphie amazighe (Ait ougangay, 2009) et la base AMHCD des
caractres amazighs manuscrits (Essaady et al., 2011a). En effet, nous avons
montr les rsultats de reconnaissance obtenus en fonction de lintgration des
caractristiques dpendantes et indpendantes la ligne centrale horizontale du
caractre. Enfin, nous avons prsent les rsultats obtenus par la version amliore
et leur comparaison avec ceux obtenus par la premire variante du systme.
Nous avons aussi utilis des techniques de validation croise pour l'valuation des
rsultats de reconnaissance. La validation croise est une mthode d'estimation de
la fiabilit des rsultats, fonde sur une technique d'chantillonnage R. (1995).
Le Tableau 6, ci-dessous, prsente les rsultats du systme propos en utilisant la
validation croise 10 fois sur la base des patterns de la graphie amazighe et sur la
base de caractres manuscrits.

127

Ali Rachidi

Les caractristiques
intgres
Caractristiques
indpendantes de la ligne
centrale
Caractristiques
dpendantes et
indpendantes de la ligne
centrale horizontale
Caractristiques
dpendantes et
indpendantes de la ligne
centrale horizontale et
verticale

Base des patterns de


la graphie amazighe

Base de caractres
amazighs
manuscrits
Taille de Taux de
la base
Recon

Taille de
la base

Taux de
Recon

19437
caractres

88.68 %

20150
84.49 %
caractres

19437
caractres

98.49 %

20150
92.23 %
caractres

19437
caractres

99.28 %

20150
96.32 %
caractres

Tableau 6 : Rsultats de reconnaissance du systme amlior en fonction des


caractristiques intgres en utilisant la validation croise 10 fois
Pour la base des patterns de la graphie amazighe, le taux de reconnaissance est
88,68% lors de lutisation seulement des caractristiques indpendantes de la ligne
centrale horizontale et augmente 98,49% lors de l'ajout des caractristiques
bases sur la position de la ligne centrale horizontale. Ce dernier taux slve aussi
99,28% lors de l'ajout des caractristiques bases sur la position de la ligne
centrale verticale.
Pour la base de caractres amazighs manuscrits, le taux augmente de 84.49%
92,23% lors de l'ajout des caractristiques bases sur la position de la ligne centrale
horizontale et monte 96,32% lors de l'ajout des caractristiques bases sur la
position de la ligne centrale verticale.
Les erreurs sont principalement dues une grande similarit morphologique entre
certains caractres amazighs et, parfois, sur des fontes diffrentes.
En comparant les diffrents taux de reconnaissance obtenus par le systme en
fonction de caractristiques intgres, nous constatons une amlioration due
l'intgration des caractristiques bases sur la position des deux lignes centrales
(verticale et horizontale). Cela confirme que ces caractristiques offrent une
amlioration significative la performance de reconnaissance.

128

Reconnaissance automatique de caracteres et de textes amazighs : tat des lieux et


perspectives

5. Synthse comparative
Le Tableau 7 rcapitule les principales caractristiques, les techniques et les
rsultats obtenus par des approches et les systmes de reconnaissance de lcriture
amazighe que nous avons proposs.
Auteurs

Primitives

(Amrouch et - primitives
al.,
2010,
directionnelles
2012a)
(Transforme
Hough)

(Amrouch et al.,
2012b,
2012c)

(Essaady et al., 2010)

(Essaady et al., 2011c)


-

Modlisation

Rsultats

- HMM continu et
discret 14 -tats
de - topologies de type
gauche droit.
- apprentissage
le
critre (MLE)
- Classification
FORWARD

- 90.4 % en cas
discret.
- 97, 89% en cas
continu.
- Base (AMHCD).
- Base
dapprentissage
(2/3).
- Base de test (1/3).
primitives
- HMM continu.
- 98 ,76%
structurelles
- topologies de type la base de donnes
(diamtre,
de patterns de la
linaire
et
graphie amazighe.
excentricit, tendue, ergodique
Base
Centre de masse, - Apprentissage
dapprentissage
orientation, longueur Baum-welsh
daxe minimal et - Classification
(2/3)
principal,
moment
Base de test (1/3)
Viterbi
dordre 1 et 2)
Codage de Freeman - rseaux
des - 93,49%
(suivi de squelette)
automates.
- selon les donnes
- (Grammaire
utilises.
formelle)
primitives statistiques - Rseaux
de - 99.28 %
neurones
Base des patterns de
caractristiques
la graphie amazighe
dpendantes
et multicouches.
indpendantes de la - couche dentre 95 (19437 caractres)
ligne
centrale neurones
- 96.32 %
horizontale et verticale - couche de sortie 31 Base AMHCD
(20150 caractres)
fentres
glissantes neurones
horizontales
et - couche cache (nb
verticales
dentres + nb de
sorties)/2

129

Ali Rachidi

(Elaychi et
al., 2010)

(Elaychi et
al., 2011)

(Elaychi et
al., 2011b)

(Djematen et
al., 1998)

- Apprentissage de
Heb
(=0,2,
taux=0,3,
itra=1000)
- les
moments - La programmation - Taux de
invariants
et
la dynamique
reconnaissance trs
transforme de Walsh
intressant
utilisant
la
programmation
dynamique.
- un rseau de neurones - Programmation
- Rsultats trs
multi couches avec les
dynamique
intressants
mmes
caractristiques
utilises
prcdemment.
- Les
caractristiques - rseau de neurones - Rsultats trs
gomtriques :
les
artificiels (RNA)
intressants
projections
horizontales
et
verticales, les centres
de gravit en x et en y,
le primtre, laire, la
compacit
et
les
moments
centraux
d'ordre 2.
- les extrmits, les - mthode
- Rsultats plus ou
points, les sommets statistique : mesurer mois intressants
(points de changements les
degrs
de
de direction) et les vraisemblance
nuds 3 et 4
branches.
Tableau 7 : synthse des approches et systmes proposs

Aprs avoir tudi et compar les diffrentes approches, nous constatons que la
meilleure et la performante approche, quant au temps de calcul, espace mmoire et
taux de reconnaissance, est lapproche base sur les primitives statistiques et les
fentres glissantes dans la phase de prtraitement et les rseaux de neurones dans la
phase de classification (Essaady et al., 2011c).

130

Reconnaissance automatique de caracteres et de textes amazighs : tat des lieux et


perspectives

6. Conclusion et perspectives
Nous avons prsent dans ce papier des travaux traitant la reconnaissance
automatique des caractres amazighs. Lobjectif est de faire une synthse des
travaux effectus sur ce sujet. Ces approches prsentent un certain nombre de
limites qui proviennent la fois du module de prtraitement et des caractristiques
prises dans la phase dapprentissage. En plus, les bases de caractres utilises dans
les tests restent parfois faibles et parfois non standards. Par consquent, des travaux
de recherche futurs doivent apporter des amliorations, dun ct, sur ces
approches et, dun autre ct, dvelopper dautres systmes qui rpondent aux
attentes. Et parmi nos travaux futurs, nous allons proposer des systmes hybrides
qui utilisent des primitives de nature diffrente en combinant ces approches dans le
processus de traitement. Ce qui permettra de profiter a priori des avantages de
chacune des approches tout en vitant les principaux inconvnients.

7. Rfrences bibliographiques
Ait Ouguengay Y., Taalabi M. (2009), Elaboration dun rseau de neurones
artificiels pour la reconnaissance optique de la graphie amazighe: Phase
dapprentissage, Systmes intelligents-Thories et applications, Paris : Europia,
cop. (impr. au Maroc), ISBN-102909285553, Avril 2009.
Amrouch M., Rachidi A., El Yassa M., Mammass D. (2010), "Handwritten
Amazigh Character Recognition Based On Hidden Markov Models", ICGST-GVIP
Journal, vol.10, Issue 5, pp.11-18, December 2010.
Amrouch M., Es Saady Y., Rachidi A., El Yassa M., Mammass D. (2012a),
Handwritten Amazigh Character Recognition System Based on Continuous
HMMs and Directional Features, IJMER journal, Vol.2, Issue 2, pp.436-441,
Mar.-Apr. 2012.
Amrouch M., Es Saady Y., Rachidi A., El Yassa M., Mammass D. (2012b), "A
New Approach Based on Strokes for Printed Tifinagh Character Recognition Using
Discriminating Path-HMM ", IRECOS journal, Vol.7, N.2, Mars 2012.
Amrouch M., Es Saady Y., Rachidi A., El Yassa M., Mammass D. (2012c), "A
Novel Feature Set for Recognition of Printed Amazigh Text Using Maximum
Deviation and HMM", IJCA journal, Vol.44, N.12, pp.23-30, April 2012.
Casey R.G. and Lecolinet E. (1996), A survey of methods and strategies in
character segmentation. Pattern Analysis and Machine
Intelligence, IEEE
Transactions on, Vol.18,N.7, pp.690706, Jul 1996.
Djematen A., Taconet B. and Zahour A. (1997), "A Geometrical Method for
Printing and Handwritten Berber Character Recognition", ICDAR'97, pp.564, 1997.
Djematen A., Taconet B. and Zahour A. (1998), Une mthode statistique pour la
reconnaissance de caractres berbres manuscrits , CIFED98, pp.170-178, 1998.

131

Ali Rachidi

El Ayachi R., Moro K., Fakir M. and Bouikhalene B. (2010), "On the Recognition
of Tifinaghe Scripts", Journal of Theoretical and Applied Information Technology,
vol.20 (2), pp.61-66, 2010.
El Ayachi R., Moro K., Fakir M. and Bouikhalene B. (2011), "Recognition of
Tifinaghe Characters Using a Multilayer Neural Network", International Journal
Of Image Processing (IJIP), vol. 5, Issue 2, 2011.
Es Saady Y., Rachidi A., El Yassa M., Mammass D. (2011), AMHCD: A Database
for Amazigh Handwritten Character Recognition Research. International Journal
of Computer Applications , Vol.27, N.4, pp:44-48, August 2011. Published by
Foundation of Computer Science, New York, USA.
Es Saady Y., Rachidi A., El Yassa M., Mammass D. (2010), "Printed Amazigh
Character Recognition by a Syntactic Approach using Finite Automata", ICGSTGVIP Journal, vol.10, Issue 2, pp.1-8, 2010.
Es Saady Y., Rachidi A., El Yassa M., Mammass D. (2011a), "AMHCD: A
Database for Amazigh Handwritten Character Recognition Research",
International Journal of Computer Applications, vol.27 (4), pp.44-48, published by
Foundation of Computer Science, New York, August 2011.
Es Saady Y., Rachidi A., El Yassa M., Mammass D. (2011b), "Amazigh
Handwritten Character Recognition based on Horizontal and Vertical Centerline of
Character", International Journal of Advanced Science and Technology, vol.33,
pp.33-50, August, 2011.
Kim H.J., Jung J.W. and Kim S.K. (1996), On-line Chinese character recognition
using ARTbased stroke classification. Pattern Recognition Letters, Vol.17, N.12,
pp.13111322, 1996.
Kohavi R. (1995), "A study of Cross-Validation and Bootstrap for Accuracy
Estimation and Model Selection", International Joint Conference on Artificial
Intelligence (IJCAI), 1995.
Ly Van B. (2005), "Ralisation d'un Systme de Vrification de Signature
Manuscrite En-ligne Indpendant de la Plateforme d'Acquisition", Thse de
doctorat de lInstitut National des Tlcommunications, Dcembre 2005.
Oulamara A. and Duvernoy J. (1988), "An application of the Hough transform to
automatic recognition of Berber characters", Signal Processing, vol.14, pp.79-90,
1988.

132

sinag-Asinag, 9, 2014, p. 133-145

Vers un systme de reconnaissance automatique de la


parole en amazighe bas sur les transformations
orthogonales paramtrables
Abenaou Abdenbi (1), Ataa Allah Fadoua (2) & Nsiri Benayad (3)
(1) ENSA, Universit Ibn Zohr,
(2) CEISIC, IRCAM,
(3) FSAC, Universit Hassan II

In this paper, we propose a new approach for Amazigh isolated word


recognition, based on relevant speech signal parameters extraction algorithm.
In general, the approach consists on the application of adaptive orthogonal
transforms that are characterized by a linear operator constituted of
configurable functions, which allows the transform adaptation to the initial data
and the reduction of feature vector dimension, that improve the isolated word
recognition rate.

1. Introduction
Durant cette dernire dcennie, lvolution permanente des technologies de
linformation et de la communication a t marque par des progrs majeurs dans
le dploiement du traitement du langage humain, notamment la reconnaissance
automatique de la parole, pour la promotion et le dveloppement des langues peu
dotes.
De nos jours, en effet, la reconnaissance automatique de la parole est introduite
dans de nombreuses applications ; savoir les systmes dapprentissage des
langues pour amliorer la prononciation des apprenants (Bahi, 2008), les
applications tlphoniques du type serveur vocal pour laccs aux services
(Barnard et al., 2009) ou laccs linformation travers la recherche dans des
bases de donnes vocales particulirement pour les personnes besoins spcifiques
et les analphabtes surtout dans les rgions rurales (Barnard et al., 2010 ; Patel et
al., 2010 ; Kumar et al., 2011), ainsi que les applications de transcription
automatique des documents radio et tldiffuss.
Cependant, les technologies de la parole ne sont pas suffisamment exploites pour
la langue amazighe. Afin de profiter des avantages de ces technologies, nous avons
consacr cette tude la ralisation dun premier systme de reconnaissance de
mots isols amazighes la base des transformations orthogonales paramtrables.

133

Abenaou Abdenbi, Ataa Allah Fadoua & Nsiri Benayad

Gnralement, en traitement du signal vocal, la rsolution des problmes de


reconnaissance passe ncessairement par une tape dextraction des
caractristiques informatives des signaux avant dentamer la phase
danalyse. Parmi les travaux de recherche traitant lextraction des caractristiques
partir des mots isols, nous distinguons deux principaux types dapproches : les
mthodes base des thories statistiques (Bourlard et Morgan, 1993 ; Doddington,
1985 ; Cappe, 1995) et les mthodes dterministes base des transformations
orthogonales classiques (Walsh, Haar, Fourier, ) (Kekre et al., 2010 ; Ahmed et
Rao, 1975). Nanmoins, les mthodes statistiques, tel que le modle de Markov
cach,
ont atteint leurs limites dans lamlioration des systmes de la
reconnaissance automatique des signaux vocaux, malgr la disposition de corpus
suffisamment reprsentatifs. Tandis que les mthodes spectrales ont merg dans
plusieurs applications du traitement du signal vocal grce la richesse de leurs
proprits et la rapidit du calcul de leur algorithme (Bello et al., 2004 ; Doets et
Lagendijk, 2004).
Le principe fondamental de ces mthodes, particulirement celles lies un
systme de fonction de base orthogonale (non paramtrable) comme la transforme
de Fourier ou la transforme en ondelettes, est dobtenir le vecteur spectral des
caractristiques informatives.
Cependant, le spectre obtenu par ces mthodes est gnralement trop large, vu que
le signal vocal est un processus non stationnaire. Ce qui complique souvent la
procdure de reconnaissance des signaux et conduit, dans certains cas, des
rsultats insatisfaisants. Do la ncessit dune mthode de dtermination des
caractristiques informatives du signal vocal dont le cot de calcul est optimal.
Dans cet article, nous proposons une solution au problme en utilisant les
transformations orthogonales adaptables pour lextraction des caractristiques
informatives du signal vocal, tout en visant la ralisation dun systme de
reconnaissance de la parole amazighe ddi lapprentissage de la prononciation.
Lutilisation de ces transformations (Abenaou et Sadik, 2011a, 2011b, 2011c) est
favorise par la possibilit d'adaptation de la forme de leurs fonctions de base en
fonction du caractre du vecteur talon. Ce dernier est form par les diffrents
signaux vocaux de chaque mot. Autrement dit, chaque classe de mots est associ
un systme de fonctions de base paramtrables pour la projection des signaux. En
outre, ces fonctions rpondent au critre de la compltude du systme, qui assure
les transformations des signaux sans perte de leur contenu informatif. Le systme
de fonctions de base form s'exprime sous forme dun oprateur matriciel
orthonorm factorisable, ce qui permet une transformation la base dun
algorithme calcul rapide.

2. Mthode et algorithme de synthse de loprateur


transforme orthogonale adaptable

de la

En traitement numrique, la transforme linaire orthogonale d'un signal X peut


tre reprsente par l'quation matricielle (1):

134

Vers un systme de reconnaissance automatique de la parole en amazighe bas sur les


transformations orthogonales paramtrables

1
HX
N

Y=

(1)

o:
-

X = [x1, x2, , xN]T est le signal initial transformer, dont la taille N = 2n ;

Y = [y1, y2, , yN]T est le vecteur des coefficients spectraux, calcul par
l'oprateur spectral orthogonal H de dimension N x N.

La factorisation de Good (Good, 1960) a montr la possibilit de reprsenter


loprateur matriciel H sous forme de produit de matrices creuses Gi (2) avec une
proportion plus leve des zros ce qui permet la construction des algorithmes de
transformation rapide de Walsh, de Haar et de Fourier. Les matrices Gi (i = 1,, n)
sont construites par des blocs de matrices Vi,j de dimension minimale qui
sappellent noyaux spectraux (Abenaou et Sadik, 2011a).

i1

i1
0

Gi = 0

0
0

0
0

i2 0
0
i2
O

i1 0
0
L

0 i1 0
0
0 i2
0
L
L

0 i2
0
0

0 iN2
L

0 iN2

0 i N2
L

0 iN2

0
0

(2)

o :

wi , j sin( i , j )
ij L ij cos( i , j ) L
Vi , j =
=

,
ij L ij sin( i , j ) L w i , j cos( i , j )
w i , j = exp( j i , j ), [ 0 , 2 ], [ 0 , 2 ].
Do la relation (1) peut scrire comme suit :
Y=

1
1
1 n
HX = G1G2 KGn X = Gi X
N
N
N i =1

(3)

En dfinissant les paramtres angulaires i,j et i,j, les oprateurs de transformations


orthogonales peuvent tre forms avec des fonctions de base complexes, ou avec
des fonctions relles lorsque i,j = 0. Le calcul des paramtres i,j dpend du choix
des structures des noyaux spectraux Vi,j (Abenaou et Sadik, 2011c). Ce qui permet
de gnrer un systme de fonctions de base adaptable une classe de signaux
donne.
Or, dans la perspective dassurer un calcul rapide, dans ce travail, les noyaux
spectraux dans les matrices Gi sont constitus de telle sorte quils contiennent une
proportion plus importante de zros, tel quil est expliqu ci-dessous.

135

Abenaou Abdenbi, Ataa Allah Fadoua & Nsiri Benayad

Ladaptation de l'oprateur (1) est assure par la condition :

1
Ha Zet = Yc = [yc,1,0, 0,K0]T , yc,1 0
N

(4)

o :
-

Yc est le vecteur cible qui construit le critre dadaptation de loprateur


Ha ;

Zet reprsente le vecteur talon dune classe calcul par la moyenne des
estimations statistiques des enregistrements de plusieurs signaux vocaux,
dun mme mot, prononcs par divers locuteurs ;

- Ha est loprateur adaptable synthtiser.


La synthse de loprateur adaptable Ha ltalon Zet, pour une classe donne,
consiste calculer les paramtres angulaires i,j des matrices Gi selon la condition
(4). La procdure du calcul des paramtres est illustre par la figure 1 dont le
principe est bas sur lalgorithme itratif introduit par la figure 2, qui permet le
calcul du vecteur cible Yc selon la relation :
$ = %$ $&"

Le calcul du vecteur Yc permet lobtention de loprateur adapt Ha. Pour la


reconnaissance des signaux, nous devons disposer de deux ensembles
denregistrements de signaux vocaux pour chaque mot. Le premier sert calculer
ltalon Zet,i du mot i (classe i) et permet de gnrer la synthse de loprateur.
Tandis que le deuxime ensemble sert former ltalon spectral Yet,i du mot i, qui
est obtenu par la projection des enregistrements du deuxime ensemble dans les
bases adaptables Ha.

136

Vers un systme de reconnaissance automatique de la parole en amazighe bas sur les


transformations orthogonales paramtrables

G1

Y0 = Y1

N Nombre des
lments
21 non nul

V11
Premire
itration

V1,2

VHH

G2

Y1 = Y2

N
22

V21
deuxime
itration

V2,2

V2,N/2

Gn

Yn-1 = Yn=Yc

N
2n

Vn,1
n-ime
itration

Vn,2

Vn,N/2
Ha = Gn Gn-1 G1
Figure 1 : Schma illustratif de la procdure de synthse de loprateur de la
transforme adaptable

137

Abenaou Abdenbi, Ataa Allah Fadoua & Nsiri Benayad

Dbut
i=1
Yi-1
j=1

i, j
i,j
j = j+1

i, j
y

j N/2

y
i 1, j + N2
= arctg
yi 1, j

= 0 , si

i 1, j +

N
2

= yi 1, j = 0 ,

Gi
i = i+1
Yi = Gi .Yi-1

i n
n

Ha =

i =1

Fin
Figure 2 : Schma de lalgorithme de synthse de loprateur de la transforme
adaptable
La reconnaissance dun vecteur Z consiste calculer son spectre Yi dans chaque
base Ha,i. Pour dfinir le mot correspondant au vecteur Yi des caractristiques
informatives, nous nous appuyons sur une rgle de dcision forme par une
combinaison de deux critres :

138

Vers un systme de reconnaissance automatique de la parole en amazighe bas sur les


transformations orthogonales paramtrables

la distance euclidienne i = || Yi Yet,i || et

la diffrence de l'nergie concentre dans leurs premiers coefficients de la


)
)
(.
dcomposition '$ = (",$
",+,,$

Ainsi, le vecteur Yi correspondra au mot i si i = min (k=1..M) et i = min (k=1..M),


avec M est le nombre de classes. Cette procdure de reconnaissance est illustre par
la figure 3.
Y1
Yet,1

Ha,2
Z

Y2
Yet,2

Ha,K

YK
Yet,K

Y 1 , et Y 1

y12,1 y12,et,1

Y 2 , et Y2
y12,2 y12,et,2

1
1

2
2

YK ,et YK

y12,K y12,et,K

Recherche des min et de min

Ha,1

Dcision

Figure 3 : Procdure de reconnaissance

3. La reconnaissance de la parole amazighe


Malgr lavnement des technologies de la reconnaissance de la parole pour
langlais, le franais et larabe, des recherches approfondies au profit de la langue
amazighe semblent insuffisantes et la mise en uvre de ses applications est presque
inexistante. Do lintrt de la ralisation dun systme de reconnaissance de la
parole en amazighe, en particulier un systme qui pourra tre ddi
lapprentissage de la prononciation. Nanmoins, dans la perspective datteindre cet
objectif, nous avons recours un corpus qui caractrise la langue parle.

3.1.

Corpus

Vu la raret et la non disponibilit des ressources lectroniques en langue amazighe,


particulirement les corpus audio, nous avons recueilli, pour une premire
paramtrisation de notre systme de reconnaissance de mots amazighes isols, un

139

Abenaou Abdenbi, Ataa Allah Fadoua & Nsiri Benayad

corpus de donnes vocalees multi-locuteurs. Ce dernier est constitu de 140


enregistrements des chiffres de 1 10, raliss par trois locuteurs de diffrentes
varits rgionales (Tarifit, Tamazight, Tachelhit).
En outre, ce corpus est regroup en trois ensembles : le premier servira calculer
ltalon de chaque mot pour gnrer la synthse de loprateur ; le deuxime,
former les talons spectraux des mots tandis que le troisime sera utilis pour
valuer et analyser les performances de lapproche propose.

3.2.

Mesures dvaluation

Afin dvaluer la performance de notre systme de reconnaissance, nous utilisons


la mesure de taux dexactitude par mot (Word Accuracy, WA), dfinies par la
formule suivante (Sopheap, 2010) :
Taux dexactitude = j/h *100 (5),

o j correspond au nombre de mots justes et h est le nombre total de mots.

3.3. Rsultats exprimentaux


Pendant lexprience, nous avons utilis des enregistrements de signaux vocaux
des mots amazighes isols prononcs par diffrents locuteurs de diverses rgions,
ce qui a induit un chevauchement assez considrable entre les classes des mots.
Pour valuer lefficacit du systme propos, un test a t effectu pour la
reconnaissance dun mme mot amazighe prononc par divers locuteurs de
diverses rgions. La figure 4 illustre la projection du signal vocal du mot
(sin) (deux) dans les bases classiques (Walsh, Haar et Fourier). Daprs
cette figure, nous constatons que les spectres calculs du mot sont trop larges.
Cependant, en utilisant la mthode propose, nous remarquons une convergence
rapide du spectre obtenu laide des fonctions de base paramtrables.
Par ailleurs, grce lapplication des transformations orthogonales paramtrables
aux bases synthtises, nous constatons que :
- lnergie de la projection du signal dans la base adquate est concentre
dans les premiers composants du spectre (figure 4) ; et
-

la projection du signal dun mot donn, qui caractrise une classe, dans
dautres classes (reprsentant dautres mots amazighes) permet lobtention
de spectres assez larges dont lnergie est disperse sur plusieurs
coefficients (figure 5).
Ce qui nous permet de reconnatre le mot prononc avec une grande certitude.
En effet, les rsultats de l'tude exprimentale de la mthode labore pour la
reconnaissance des mots amazighes isols indiquent, selon les courbes de la figure
6 qui prsente les taux de certitude de la reconnaissance des signaux, une efficacit
considrable par rapport aux autres mthodes qui sont bases sur l'application des
transformations spectrales dans les bases traditionnelles (Walsh, Haar et Fourier).

140

Vers un systme de reconnaissance automatique de la parole en amazighe bas sur les


transformations orthogonales paramtrables

Figure 4 : Projection du signal vocal (fragment du mot

/ Sin - 2)

141

Abenaou Abdenbi, Ataa Allah Fadoua & Nsiri Benayad

Figure 5 : Calcul du spectre du signal vocal laide des fonctions de bases


paramtrables

142

Vers un systme de reconnaissance automatique de la parole en amazighe bas sur les


transformations orthogonales paramtrables

Figure 6 : Rsultat de la reconnaissance lors de lapplication de divers systmes


de fonctions de base

A partir de ces courbes, nous pouvons constater que dans le cas de l'utilisation des
bases traditionnelles, la certitude de reconnaissance des signaux des mots
amazighes ne dpasse pas 87%. Tandis que dans le cas o nous utilisons les
fonctions de bases adaptables, le taux de reconnaissance des signaux slve 96%
lorsque la taille de l'intervalle de l'analyse est gale 512.
Ce qui peut tre expliqu par le fait que :
- la mthode propose est base sur l'utilisation des fonctions de bases
adaptables selon le caractre du signal vocal du mot prononc par les
divers locuteurs des diffrentes rgions ; et
- la proprit de slectivit des fonctions de base synthtises simplifie la
distinction des signaux dans l'espace des caractristiques informatives.

Conclusion
Dans la prsente contribution, nous proposons un systme de reconnaissance
automatique des mots isols de la langue amazighe base sur les transformations
orthogonales paramtrables. Ce dernier est compos de deux sous-systmes : un
sous-systme dapprentissage et un sous-systme de reconnaissance. Le soussystme dapprentissage est conu la base dun corpus multi-locuteurs de la
parole amazighe de diffrentes rgions afin de prendre en considration la diversit
de la prononciation dun mme mot et de contribuer la stabilit des
caractristiques statistiques dans le calcul de ltalon de chaque mot. En outre, ce
sous-systme nous offre la possibilit de synthtiser des fonctions de base
adaptables de chaque mot avec une proprit de slectivit plus importante, ce qui

143

Abenaou Abdenbi, Ataa Allah Fadoua & Nsiri Benayad

nous a permis dextraire les caractristiques les plus informatives de chaque mot
prononc indpendamment du locuteur.
Suite ltude comparative ralise sur le systme base des transformations
orthogonales paramtrables et sur les transformations orthogonales de Walsh, Haar
et Fourier, nous avons pu atteindre un taux de reconnaissance plus lev qui tend
vers les 96%. Cependant, nous considrons que ce travail est une premire
initiative pour la ralisation dun systme de reconnaissance de la parole amazighe
assurant lapprentissage de la prononciation, qui suscite lintrt de recueillir un
corpus oral riche et vari compos de mots amazighes ddis lapprentissage de
la langue.

Rfrences bibliographiques
Abenaou A. et Sadik M. (2011), Elaboration dune mthode de compression des
signaux alatoires base dune transformation orthogonale paramtrable avec
algorithme rapide , The Fourth Workshop on Information Technologies and
Communication (WOTIC11), ENSEM, Casablanca.
Abenaou A. et Sadik M. (2011), Mthode et algorithme de formation dun
systme de fonctions de base adaptables pour le diagnostic des signaux
biologiques , Colloque International des Telecom'2011 & 7mes Journes FrancoMaghrbines des Micro-ondes et leurs Applications, Tanger.
Abenaou A. et Sadik M. (2012), Mthode et algorithme d'identification des
signaux vocaux base des transformations orthogonales adaptables , Network
Security and Systems, p. 41-45.
Ahmed N. et Rao K.R., (1975), Orthogonal transforms for digital signal
processing, Springer Ber.
Bello J. et al. (2004), On the use of phase and energy for musical onset detection
in the complex domain, IEEE Signal Procesing letters, 11(6) : 553556.
Bahi H. (2008), Hybrid ASR system for teaching pronunciation. ICL Conference,
24 -26 Septembre, Villach, Austria.
Barnard E. et al. (2009), Asr corpus design for resource-scarce languages. In
Interspeech.
Barnard E. et al. (2010). Voice search for development. In Interspeech.
Bourlard H. et Morgan N. (1993), Continuous speech recognition by connectionist
statistical methods, IEEE Transaction on Neural Networks, Vol. 4, n 6, pp. 893909.
Cappe O. (1995), Etat actuel de la recherch en reconnaissance du locuteur et des
application en criminalistique , Rapport interne, Ecole Nationale des
Tlcommunications, Dpartement du Signal, Paris.
Doddington G.R. (1985), Speaker reconnaissance-identification people by their
voices, Proc. IEEE; vol 73; no.11; p. 1651

144

Vers un systme de reconnaissance automatique de la parole en amazighe bas sur les


transformations orthogonales paramtrables

Doets P. et Lagendijk R. (2004), Theoretical modeling of a robust audio


fingerprinting system, In IEEE Benelux Signal Processing Symposium.
Good I.J. (1960), The interaction algorithm and practical Fourier analysis, J. Roy.
Statist. Soc. Ser. B, B-20, 361-372, 1958, B-22, 372-375.
Kekre H. B. et al., Performance Comparison of Speaker Identification Using DCT,
Walsh, Haar On Full And Row Mean Of Spectrogram, International Journal of
Computer Applications, August 2010 Edition, in press.
Kumar A. et al. (2011), Rethinking speech recognition on mobile devices. In
IUI4DR. ACM.
Patel N. et al. (2010), Avaaj otalo: a field study of an interactive voice forum for
small farmers in rural India, In CHI, pages 733742, ACM.
Sopheap S. (2010), Vers une modlisation statistique multi-niveau du langage,
application aux langues peu dotes. Thse de doctorat, Universit de Grenoble..

145

sinag-Asinag, 9, 2014, p. 147-170

Conception et peuplement d'une ontologie modlisant la


notion de contexte enrichie par les fonctions lexicales
pour la dtection du sens dans le texte
Parler du Maroc central
Hammou Fadili (1) & Malika Chakiri (2)
(1) Laboratoire CEDRIC du CNAM de Paris
(2) Paris-Descartes-Sorbonne
This work focuses on the design and the development of a context ontology
model, based on a domain ontology enriched, by lexico-semantic relations
defining the lexical functions introduced by Mel'cuk in the Meaning-Text Theory,
and by the concept of the context, in order to improve the analysis and the
detection of meaning in text. This is motivated, by the fact that, unstructured
data constitute the majority of produced contents, requiring for their
exploitation, the development of tools and technologies allowing their
integration into knowledge-based and reasoning-based systems. Existing
technologies in the analysis and the extraction of semantic information from
text can have a lot of imperfections; indeed, important elements such as concept
of the context and use of all possible relations between terms, are not fully and
formally supported. It is why we propose an extended model of a domain
ontology as a context (in our case an ontology of fauna and flora), enriched by
aspects that can help to address the cited problems. Such ontologies constitute
the basis of an advanced approach for the detection and the extraction of
contextual and semantic information from text, published in a parallel article
(H.Fadili ACS/IEEE, 2013).

Introduction
Ce travail porte sur llaboration dun modle dontologie de contexte partir
dune ontologie de domaine enrichie par des relations lexico-smantiques
dfinissant les fonctions lexicales de la Thorie Sens-Texte (Melcuk, 1988) et par
la notion du contexte, dans un but damliorer lanalyse et la dtection smantique
des donnes dans les documents de type textes. Cette dmarche, sintressant au
traitement smantique des donnes non structures, est motive par le fait que, ce
type de contenus constitue la majorit des donnes produites aujourdhui,
ncessitant pour leur exploitation la mise en place doutils et des technologies
spcifiques permettant leur intgration dans les systmes base de connaissances

147

Hammou Fadili & Malika Chakiri

et base de raisonnements. Dans ce domaine, les technologies existantes relatives


lanalyse et lextraction smantiques dinformation peuvent reprsenter beaucoup
de lacunes du fait que des concepts importants, comme la notion de contexte et
lexploitation de toutes les relations possibles entre les termes, ny sont pas
totalement pris en charge.
Cest dans ce contexte que nous avons propos une nouvelle approche permettant
damliorer certains processus de gestion contextuelle de la smantique (Fadili,
2013), base sur les ontologies de domaine que nous amliorons suivant un
modle prsent dans cet article. Le but est de dtecter et de relever tous les
traits smantiques relatifs un contexte donn et daugmenter ainsi lefficacit de
la formalisation du sens dun texte afin quil soit compris et interprt par la
machine . La modlisation de cette relation entre le texte et le contexte
consiste dans la formalisation du sens en extrayant des mots et des relations
permettant lobtention dun rseau smantique contextualis refltant
fidlement le sens des contenus tudis. Concrtement, elle permet de faire la
projection du texte reprsent par larbre conceptuel (AC) (F.AMARDEILH,
2009) issu des diffrents processus du TAL sur le contexte reprsent par
lontologie du contexte (OC) en utilisant les relations lexico-smantiques pour
faire le mapping entre les concepts, mots, relations, instances, attributs, etc. des
deux graphes.
Nous avons tenu mettre laccent sur lutilisation de ce type de relations parce que
nous considrons que cest le moyen le plus sr permettant dviter la dperdition
du sens et de relever toutes les nuances dans un contenu en rapport avec le contexte.
En effet, nous considrons que si un mot est important et quil doit tre retenu dans
un contexte, il en sera de mme pour les mots qui lui sont lis, tels que ses
synonymes, ses antonymes, ses converses, ses gnriques, ses spcifiques, etc. La
spcificit de chaque type de relations lexico-smantiques est gre dans les
diffrents algorithmes de la projection. Outre les mots simples, notre ontologie
contient des mots composs. Ils sont cods ou indexs pour que la machine puisse
les extraire facilement et leur rserver un traitement spcial. Cette dmarche permet
dviter toute ambigut au niveau de linterprtation. De par sa nature, cette
approche peut tre utilise dans beaucoup de domaines lis la notion du contexte
comme lindexation smantique des donnes, la recherche linguistique ou
smantique dinformation, lextraction contextuelle dinformation, la gestion de
corpus multilingues, la gnration automatique de textes, etc.
Le nombre des relations lexico-smantiques tant important, une soixantaine
environ, nous essayons, travers cette analyse, de ne prendre en compte (dans un
premier temps) que certaines relations pour valider notre approche. Bien
videmment, lextension dautres relations est possible suivant le mme principe.
Dans cette recherche, nous exprimentons le cas de la langue amazighe. La raison
pour laquelle nous avons dvelopp et peupl, un modle de contexte bas sur une
ontologie du domaine de la faune et de la flore, enrichie par des relations lexicosmantiques. Dans ce qui suit, nous prsentons une analyse des motivations des

148

Conception et peuplement d'une ontologie modlisant la notion de contexte enrichie par les fonctions
lexicales pour la dtection du sens dans le texte. Parler du Maroc central

choix de conception du modle, ainsi quun aperu de limplmentation de


lontologie1.

Ontologies
Dfinition
Dune manire gnrale, les ontologies reposent sur des outils de modlisation et
de reprsentation des connaissances permettant des communauts dexperts
humains et logiciels dun domaine donn de partager, dune manire consensuelle,
un vocabulaire et de parler un mme langage, cest--dire communiquer et se
comprendre. Dfinir une ontologie dune manire prcise est une tche trs difficile.
Plusieurs dfinitions existent suivant le contexte dutilisation. Celle qui fait autorit
aujourdhui, au sein de la communaut scientifique, est celle de Gruber qui la
dfinie comme suit :
Une ontologie est la spcification d'une conceptualisation d'un domaine de
connaissance . En dautres termes, une ontologie est un modle de reprsentation
de la formalisation dune conception dun domaine. La modlisation dun domaine
repose essentiellement sur deux aspects importants, la reprsentation des
connaissances et le raisonnement qui peut leur tre associ. La partie description
permet de dcrire et de formaliser le domaine en utilisant les notions de : classes,
instances, attributs, relations, fonctions (ensembles de relations : simplification),
restrictions (conditions sur certains lments), etc. La partie raisonnement, quant
elle, dcrit les aspects dynamiques lis une ontologie, travers des rgles (rgles
mettant en valeur les lments de lontologie), et des vnements (vnements
modifiant certains attributs ou relations), etc.

Quelques lments constitutifs


Nous prsentons dans ce qui suit des lments constitutifs de lontologie tudie.
1. Concepts et instances

Les concepts reprsentent des objets ou des ides. Ils sont organiss en taxonomie
au sein dun rseau de concepts et structurs hirarchiquement. Chaque concept est
caractris par un ensemble de proprits :

Concernant la notation des entres lexicales, nous utiliserons le protocole suivant :


- Voyelles : a, i, u et e pour noter le schwa.
- Semi-voyelles : w, y.
- Consonnes : p, b, t, d, k, g, l, m, n, s, z, , , / notent les fricatives pharyngales sourde
et sonore, x/ les fricatives vlaires sourde et sonore, h la spirante, q locclusive dorsouvulaire, r la vibrante apicale. Le point sous la lettre indique lemphase, le w en exposant
note la labiovlarisation, le trait sous la lettre note la spirantisation, le ddoublement de la
consonne indique la gmination.

149

Hammou Fadili & Malika Chakiri

- un concept est gnrique sil exclut toute extension. Dans nos corpus, aucun
concept ne relve de cette catgorie.
- un concept portant une proprit didentit permet de diffrencier deux instances
de ce concept.
- un concept est rigide sil ne peut pas tre une instance dautres concepts.
Exemple : amuder tre vivant :

Figure 1 : Concept rigide

- un concept est anti-rigide lorsquil peut tre une instance pour dautres concepts.
Dans lexemple ci-dessus afgan, amuder et tikt sont des concepts antirigides.
Alors que le concept dsigne lintention du concept, linstance renvoie llment
de lensemble constituant lextension de concept.
2. Relations entre concepts

Au sein dune ontologie, les concepts sont lis entre eux par des relations qui sont
dfinies comme les liens entre des entits. Ces liens sont classs en deux
catgories :
(1) Les relations hirarchiques lient des lments suprieurs dits hyperonymes
et des lments infrieurs dits hyponymes . De ce fait, lhyperonyme englobe
lhyponyme. Exemple :

150

Conception et peuplement d'une ontologie modlisant la notion de contexte enrichie par les fonctions
lexicales pour la dtection du sens dans le texte. Parler du Maroc central

Figure 2 : Relations entre concepts

Ici, amuder est lhyperonyme de afrux et islem ; afrux et islem sont les hyponymes
de amuder.
afrux et islem, par rapport aux autres entits, peuvent, leur tour, tre considrs
comme leurs hyperonymes.

A ne pas oublier de mentionner que serdil sardine dans certaines rgions


comme la rgion des Ait Wirra Elksiba (Maroc), joue le rle de lhyperonyme
(gnrique), dans ce sens quil renvoie tout type de poisson.
(2) Les relations smantiques correspondent la structuration dholonymiemronymie. Elles peuvent tre galement considres comme une relation
hirarchique liant un couple de concepts dont lun dnote une partie de lautre et
lautre comme un tout. Ce genre de relation est diffrent de la catgorie (1) dans la
mesure o lholonyme dispose des proprits qui ne sont pas obligatoirement
transmises ses parties. Exemple : aqbu (tronc) est une partie de tikt arbre
mais nest pas une sorte de tikt. On peut reprsenter cette relation comme suit (1)
faune, (2) flore :

151

Hammou Fadili & Malika Chakiri

Figure 3 : Relations dholonymie-mronymie

Figure 4 : Relations dholonymie-mronymie

Outre ces relations smantiques, les relations synonymiques et antonymiques, qui


relvent des liens horizontaux, seront galement abordes dans llaboration de
notre ontologie. Exemple : iydi, buzaher, anmmuter, amaw chien ; iddew,
abaus singe .
3. Proprits

Ce sont des informations rattaches chaque nud du rseau smantique.


Exemple :

152

Conception et peuplement d'une ontologie modlisant la notion de contexte enrichie par les fonctions
lexicales pour la dtection du sens dans le texte. Parler du Maroc central

Figure 5 : proprits
4. Attributs

Ce sont des relations qui relient un nud concept une valeur ou proprit. Ils
dfinissent la structure de donnes. Exemple :

153

Hammou Fadili & Malika Chakiri

Figure 6 : Attributs
5. Lhritage

Il repose sur des liens de type sorte de ou est un qui relient un concept un
autre concept plus lev. Ces liens sont troitement lis lexpression linguistique
de la copule est . Ici, ils expriment soit lappartenance dun objet une classe,
soit linclusion. Exemple :
tayuqt est une sorte de afrux .
tayuqt est un afrux .
6. Types

En se basant sur certains travaux effectus dans le domaine de la classification


dontologie (GmezPrez, 1999), (Guarino, 1997b), (Mizoguchi, 1998),
(MizoguchiIkeda, 1996), (VanHeijstAl, 1997), (VanwelkenhuysenAl, 1994),
(VanwelkenhuysenAl, 1995), (WieliingaSchreiber, 1993), etc., on peut en dduire
la classification (dpendante des besoins dutilisation) suivante :

Lontologie de haut niveau dfinit et reprsente les concepts de haut niveau


qui sont des concepts de lunivers de modlisation commun aux ontologies
des niveaux infrieurs, comme la notion du temps, de lespace, etc. Son
rle est de rduire les ambiguts des termes entre les diffrentes
ontologies et utilisations.

Lontologie gnrique se situe dun point de vue abstraction entre


lontologie de haut niveau et lontologie du domaine. Ses concepts sont

154

Conception et peuplement d'une ontologie modlisant la notion de contexte enrichie par les fonctions
lexicales pour la dtection du sens dans le texte. Parler du Maroc central

moins abstraits que lontologie de haut niveau et plus gnriques par


rapport ceux de plusieurs ontologies de domaines, rutilisables par
plusieurs domaines.

Lontologie de domaine reprsente et dcrit les concepts se rapportant un


domaine donn.

Lontologie de tches reprsente et dcrit le vocabulaire propre une


activit dcrivant une structure de rsolution dun problme.

Lontologie dapplication reprsente et dcrit les concepts propres une


application. Dans la plupart des cas, ces concepts proviennent de
lontologie du domaine et de lontologie des tches.

Lontologie de reprsentation reprsente et dcrit les primitives des


langages de reprsentation et de formalisation de connaissances : RDF,
OWL, rseau smantique, LD, LPO, etc.

7. Les langages

Les langages constituent une partie trs importante des systmes base
dontologies ; ils permettent la gestion de la base de connaissances et de
raisonnements qui peuvent leur tre associs. Les langages prsents dans ce
paragraphe sont des recommandations du W3C, bass sur des normes, standards,
etc. ayant pour but de permettre des traitements automatiques sur des contenus par
des applications diffrentes. Nous verrons, un peu loin, que ceci fait de la notion
dontologie un principe fondamental pour le partage des connaissances, la
communication et la coopration au sein des systmes distribus. Ci-aprs, nous
reproduisons quelques lments de description de ces langages, extraits de la
pyramide du Web smantique de Berners-Lee.
URI/IRI : les URIs (Uniform Resource Identifier) permettent didentifier dune
manire unique les ressources sur le WEB et les IRIs (Internationalized Resource
Identifiers) permettent aux personnes d'identifier des ressources Web dans leur
propre langue.
XML : Extended Markup Language (XML) est un langage de description et
dchanges de documents et des donnes ne permettant pas leur prsentation,
appel aussi format dchanges standardis. Il permet aux applications
reconnaissant ce format dchanger tous les types de donnes dcrits dans ce
langage, utilis souvent pour assurer la compatibilit des donnes entre les
applications htrognes. Exemple, on peut dcrire la voiture 123 de la marque
Renault et de couleur rouge.
RDF : Resource Description Framework (RDF) est un mtalangage qui sert
dcrire les ressources, leurs proprits et les valeurs des proprits sous forme dun
graphe (ressource, proprit, valeur). Il est considr comme un modle standardis
de description des mtadonnes qui peut tre dfini et associ des documents ou
des contenus. Ces annotations et mtadonnes permettent dassocier du sens des
contenus qui peuvent tre traites dune manire automatique par les agents
logiciels. Pour la gestion smantique des donnes, les mtadonnes RDF peuvent
tre des informations smantiques associes des mots du texte. Ces lments
peuvent tre ensuite analyss et interprts pour lextraction du sens global. Il est

155

Hammou Fadili & Malika Chakiri

noter que RDF peut tre exprim dans plusieurs langages, mais cest XML qui est
souvent utilis, une version XML de RDF appele RDF/XML a t mme cre.
RDFS : RDF peut galement tre utilis pour dcrire des situations et des
utilisations particulires avec un vocabulaire bien prcis en utilisant la notion de
RDF Schma (RDFS). RDFS consiste adapter RDF des domaines modliss
particuliers dcrivant des utilisations particulires au sein dune communaut. La
dfinition dun schma RDF consiste en une activit de typage et de classification
des ressources, des proprits et des relations sous forme de classes dfinies dans
des espaces de noms servant principalement dsambigiser les mmes
lments dun vocabulaire dfinis dans des utilisations ou espaces de noms
diffrents.
OWL : cest une extension de RDF enrichie avec des proprits smantiques, de
contraintes, de comparaisons, de cardinalits, etc. pour dcrire et manipuler les
ontologies. Cest un langage recommand par le W3C bas, comme RDF, sur
XML qui permet des moteurs dinfrences dagents linterprtation et le
raisonnement automatiques sur les ontologies. En effet, OWL est bas sur les
logiques de description utilises dans les systmes de reprsentation de
connaissances et offrant de fortes possibilits de manipulation de prdicats de
classes, de rles et dindividus, donc dontologies, contrairement aux logiques de
premier ordre classiques ne manipulant que des objets de mme type.
Il existe trois versions dOWL :
OWL Full : cest la version la plus complte, elle combine toutes les primitives
dOWL avec RDF/S sans respecter aucune contrainte si ce nest celle de RDF,
cette version nest pas dcidable.
OWL DL : cest un sous-ensemble dOWL Full bas sur la logique de description
nautorisant que des constructions garantissant la dcidabilit des infrences.
OWL Lite : cest la version la plus simple, elle sert principalement la cration de
hirarchies de classes. Elle est dote seulement de quelques proprits de classes
comme la comparaison, la restriction, la cardinalit (0 ou1).
SPARQL (Protocol and RDF Query Language) : langage dinterrogation des
ontologies reprsentes sous forme de graphes RDF/S. Il est pour les bases de
connaissances RDF ce que SQL est pour les bases de donnes relationnelles.
Exemple : SELECT ?x, ?y, ?z FROM URI/IRI WHERE {Conditions1, condition2,
etc.}
RIF (Rule Interchange Format) : format dchange de rgles standardis. Il permet
de faciliter les changes de rgles utilisables par des systmes distribus sur le
WEB en assurant l'interoprabilit et la portabilit entre divers langages et moteurs
de rgles.
SWRL (Semantic Web Rule Language) : langage de raisonnement smantique
base de rgles sur les ontologies. Cest une combinaison dOWL-DL et RuleML
language cr principalement pour le Web smantique pour pouvoir dvelopper des
rgles smantiques au niveau des agents. Il permet, contrairement OWL, de
manipuler les instances par des variables, de dfinir des fonctions mathmatiques,
des types de donnes, etc. Exemple : avec OWL, la relation oncle ne peut tre

156

Conception et peuplement d'une ontologie modlisant la notion de contexte enrichie par les fonctions
lexicales pour la dtection du sens dans le texte. Parler du Maroc central

dfinie que comme suivant : intersectionOf(SubClassOf(Homme), estfrereDe(Pere),


avec SWRL on peut la dfinir au niveau des instances reprsentes par des
variables x,y,z comme suivant : Personne(?x) ^ Personne(?y) ^ Personne(?z) ^
pere(?x,?y) ^ frere(?x,?z) => oncle(?z,?y). Cela permet de dfinir qui est loncle
de qui, impossible dfinir avec OWL. SWRL se diffrencie, en plus, dOWL par
le fait quil ne peut crer ni de nouveaux concepts ni de nouvelles relations,
except ceux crs par la manipulation des variables et par la satisfaction des rgles
dinfrences.

Le choix des fonctions lexicales et des relations lexico-smantiques


Les relations smantiques et conceptuelles
Ci-aprs, nous prsentons un bref aperu sur les relations smantiques et
conceptuelles qui nous ont permis dintroduire les relations lexico-smantiques
utilises dans notre dmarche.
Les relations smantiques sont les liens entre les lments du lexique dans le texte.
Elles reprsentent les liens de sens que peuvent entretenir deux ou plusieurs mots
par rapport leurs significations, comme les relations de type synonymie,
antonymie, hyperonymie, etc. Les relations conceptuelles sont des relations ou
associations utilises dans la modlisation informatique. Elles permettent de faire
des liens entre les classes et les instances. Dans le cas de la modlisation
ontologique, nous pouvons bien sr utiliser ce genre de relation, mais ce sont les
relations de types hirarchie et classification : hritage, classification comme isa, sort-of, part-of, etc. qui sont privilgies et souvent utilises.
Dans la littrature, une distinction est faite entre les relations smantiques Ahmad
et Fulford (1992) et les relations conceptuelles Sager (1990) et Condamines et
Rebeyrolle (1998). Dans LHomme (2004), on explique la diffrence entre les
relations conceptuelles et les relations smantiques. Dans dautres travaux, on
explique aussi que certaines relations smantiques sont trs proches des relations
de reprsentation conceptuelle : cest le cas, notamment, de celles qui interviennent
dans les taxinomies et les mronymies. Ce type de relation concerne, le plus
souvent, des termes qui renvoient des entits.
On peut conclure quil est extrmement difficile de faire une relle diffrence entre
ce qui relve du conceptuel et ce qui est li au smantique. Les relations lexicosmantiques dfinies dans le cadre des fonctions lexicales de Mel'uk est un
modle de relations complet intgrant au moins les deux types de relations dfinies
prcdemment. Cest une des raisons qui nous a permis de les adopter dans notre
dmarche.

Les relations lexico-smantiques


Cest suite ces diffrentes analyses et expriences menes dans ce domaine que le
choix de lutilisation des relations lexico-smantiques dfinies par les fonctions
lexicales (Mel'uk 1988), (Mel'uk et al., 1995) et (Polgure, 2003) sest impos.
Car elles permettent de reprsenter tous les types de relations dont nous avons

157

Hammou Fadili & Malika Chakiri

besoin : smantiques, ontologiques, lexicales, etc. Nous considrons que cela


permet une modlisation fine de tous les traits smantiques amliorant le processus
danalyse des textes et de dtection de la smantique travers une ontologie de
contexte. En effet, lutilisation de ces relations est importante. Elle permet, dans le
cas de la recherche ou de lextraction dinformation, par exemple, dviter
dignorer des mots ou des phrases bien quils soient pertinents par rapport un
contexte (silence). Elle permet galement dviter dextraire des mots ou des
phrases non pertinentes (bruit). On considre que si un mot est pertinent dans un
contexte, alors tous les mots que lon peut atteindre via les relations lexicosmantiques sont aussi importants que le mot lui-mme.
Suivant le nombre des relations utilises, la probabilit quun mot et ceux qui lui
sont smantiquement lis soient considrs est suprieure la probabilit ne tenant
compte que du mot seul. Lutilisation de ces relations peut donc avoir un impact
trs positif sur lamlioration des performances des applications o elles peuvent
tre utilises.

Fonctions lexicales
Comme il a t mentionn ci-dessus, le prsent travail porte sur llaboration dun
modle dontologies de domaine enrichie par des liens lexico-smantiques associs
aux fonctions lexicales de la Thorie Sens-Texte (Melcuk, 1997) et la notion du
contexte, dans un but damliorer lanalyse et la dtection smantique des donnes
dans les documents de type textes. La Thorie Sens-Texte est un cadre thorique
linguistique, dveloppe Moscou par Aleksandr olkovskij et Igor Mel'uk, pour
la construction de modles du langage naturel Mel'uk (1981) et (1988). Cest une
des thories majeures pour le Traitement Automatique des Langues fournissant des
bases solides pour beaucoup de domaines dapplication lis au traitement
automatique de la smantique, comme la traduction automatique, la recherche
smantique ou linguistique, lextraction dinformation, etc. Elle est base sur une
formalisation globale de la langue utilisant des fonctions mathmatiques
dfinissant les fonctions lexicales, comme suivant :
Une fonction lexicale (FL) permet de dfinir la description et la modlisation des
relations lexicales, de collocations et de drivation smantique entre les units
lexicales (UL) d'une langue. Elle se prsente sous forme dune fonction au sens
mathmatique : f (L) = {L1, L2Ln} o f = le nom de la FL, L = lexie qui est
largument de la FL et {L1, L2Ln} = ensemble des lexies qui constituent la
valeur de la FL auprs de L, cf. olkovskij & Mel'uk 1967, Mel'uk1974, 1996,
1998, 2003, 2007, et Wanner (d.) 1996.
Voici un extrait de la liste des fonctions lexicales :
Syn, Anti, Convij, Contr, Epit, Gener, Figur, S0, A0, V0, Adv0, Si, Sinstr, Smed, Smod,
Sloc, Sres, Ablei, Quali, Sing, Mult, Cap, Equip, Ai, Advi, Imper, Result, Centr,
Magn, Plus, Minus, Ver, Bon, Posi, Locin, Locab, Locad, Instr, Propt, Copul, Pred,
Operi, Funci, Laborij, Incep, Cont, Fin, Caus, Perm, Liqu, Reali, Facti, Labrealij,
Involv, Manif, Prox, Prepari, Degrad, Son, Obstri, Stopi, Excessi, Symptijk.

158

Conception et peuplement d'une ontologie modlisant la notion de contexte enrichie par les fonctions
lexicales pour la dtection du sens dans le texte. Parler du Maroc central

Parmi toutes les fonctions lexicales, deux groupes sont distinguer : les FL
PARADIGMATIQUES et les FL SYNTAGMATIQUES.
Dans ce qui suit, on trouvera un bref aperu sur quelques fonctions, les principales
sur lesquelles des tests ont t effectus dans le cadre de ce travail. Une tude
dtaille de toutes les fonctions ainsi que leur intgration dans le processus
danalyse et de dtection est prvue dans un travail ultrieur.
Les fonctions lexicales paradigmatiques permettent de dfinir les liens entre les
lexies et la manire dont lune peut tre atteinte partir de lautre. Elles
correspondent des relations la fois smantiques et formelles entre deux mots.
Exemples :
- Syn, qui met en relation une entit avec ses parasynonymes : Syn( iydi)=buzaher, amdar.
- Anti, qui met en
Anti(amsksum)=amstuyya,

relation

une

entit

avec

ses

antonymes :

- Conv, qui prend en considration les relations de conversions entre deux entits :
conv(isa)=izzenza.

La notion de contexte et lontologie de contexte


Le contexte
La notion de contexte constitue un lment fondamental dans plusieurs domaines,
notamment dans le domaine du Traitement Automatique du Langage Naturel
(TALN), l'analyse smantique de donnes, la gestion de connaissances (Semantic
Data Mining & Knowledge Management : SDMKM), etc. o lon utilise plus
particulirement au niveau de la dsambigusation et de linterprtation
automatiques de la smantique des donnes. On peut le dfinir comme un ensemble
de situations, o chaque situation est compose dun domaine, dun ensemble de
contraintes dutilisation et dun profil utilisateur. Il peut tre reprsent par un
ensemble de proprits dcrivant des situations dutilisations particulires et un
vocabulaire associ au domaine modlis. Ces lments peuvent tre partags au
sein dune mme communaut et reprsents sous forme dune ontologie
changeable entre les diffrents agents humains et logiciels. Ce qui leur permet de
parler un mme langage et dinterprter les lments de la mme manire.
Concrtement, le contexte est compos :

Dun domaine dfini par un schma reprsentant une activit de typage et


de classification des ressources, des proprits et des relations sous forme
de classes dans des espaces de noms servant principalement
dsambigiser les mmes lments dun vocabulaire par rapport des
utilisations ou espaces de noms diffrents.
Contraintes dfinies par des rgles reprsentant les contraintes dune
utilisation particulire, comme par exemple inclure et exclure des lments
qui seraient respectivement exclus et y inclus du domaine, cela correspond
un rglage fin supplmentaire de lontologie du domaine. Des lments

159

Hammou Fadili & Malika Chakiri

issus de la thorie du discours peuvent tre intgrs dans cette partie. On


peut citer dans ce cas-l et titre dexemple, linterprtation de certains
lments suivant leur auteur, le message quon souhaite extraire du texte,
etc.
Profil utilisateur qui est un lment important de la notion de contexte.
Cela peut correspondre dans le cas de lanalyse du texte ce qui est peru
par le lecteur suivant ses comptences, expriences, etc.

Une vue synthtique du mta-modle de la notion de contexte est reprsente


dans le graphe suivant.

Figure 7 : Mta-modle du contexte

160

Conception et peuplement d'une ontologie modlisant la notion de contexte enrichie par les fonctions
lexicales pour la dtection du sens dans le texte. Parler du Maroc central

Lontologie de contexte
Dans cette tude, nous avons conu et dvelopp une ontologie du contexte
intgrable dans le processus gnral de lanalyse smantique et contextuelle du
texte, propos dans un travail parallle (H.Fadili ACS/IEEE, 2013). Cest une
ontologie du domaine que nous avons enrichie par la notion de contexte et les
relations lexico-smantiques dcrites prcdemment. En effet, tant donn que
lontologie du domaine est seulement une ontologie conceptuelle du domaine
tudi, nous avons estim quil est indispensable, pour lanalyse smantique
proprement dit, denrichir lontologie du domaine classique par des relations
lexico-smantiques permettant de prendre en compte, outre les relations
conceptuelles entre les concepts, les relations lexico-smantiques. Cette dmarche
rend possible une analyse linguistique de bas niveau entre les mots dans le contexte.
Elle peut tre considre comme une ontologie du domaine fusionne avec une
ontologie linguistique, dfinie par deux types de liens : liens verticaux
(contextualiss) qui sont des liens de catgorisation, et les liens horizontaux
(dcontextualiss) sont des liens linguistiques (relations lexico-smantiques,
actions, verbes, etc.). Tous ces lments pris en compte, sont enrichis par des
contraintes dutilisation.

Figure 8 : Mta-modle de lontologie du contexte

Constitution du corpus
Dune manire gnrale, la constitution dune ontologie est une tche trs difficile ;
cette tche est encore plus difficile dans le cas de lamazighe. Dans cette partie,
lobjectif est de relever les exigences et les problmes rsoudre pour la cration

161

Hammou Fadili & Malika Chakiri

dune telle ontologie en amazighe. Parmi lesquelles, on cite, les problmes


classiques lis la cration et la gestion du corpus, dune manire gnrale, puis
ceux lis la cration et la gestion de corpus amazighs, en particulier. A
mentionner que la dfinition des termes scientifiques dans lontologie qui consiste
dans la recherche, la cration ou la rutilisation de termes scientifiques ou savants
par rapport un domaine ou une discipline donne nest pas sans poser problme.
Dans ce qui suit, nous prsentons les difficults rencontres, lors de la mise en
place de lontologie scientifique faune-flore, en amazighe :
1. Nous nous sommes rendus compte que des donnes sources, que ce soit des
donnes brutes y compris papier, ou des donnes lectroniques, sont trs rares :
Absence de sources de donnes, seulement quelques publications.
2. Dautres problmes sont lis la cration de nouveaux contenus :
Mots, concepts, etc.,
Relations,
Lexique scientifique,
Problmes de traduction,
Traduction des mots scientifiques,
Cration de liens et des correspondances avec dautres langues.
3. Applications avances supportant le Tifinagh

Absence dapplications totalement multilingues, problmes rencontrs


avec les diteurs dontologies dans le Cloud2 par exemple.

4. Copyright

Manque de donnes ouvertes et libres daccs,


Non institutionnalisation de la langue, ne permet pas la cration de
nouvelles donnes publiques.

Quelques solutions de contournements


Au niveau du contenu
Concernant la dfinition des concepts, nous nous sommes bass sur notre
connaissance de la langue amazighe, sur des dictionnaires spcialiss et sur
dautres sources de donnes existantes.
Pour ce qui est de la dfinition des termes, il a t procd ainsi :
1. Etant donn que les termes traits sont des entits du monde rel, nous avons
dfini chaque mot connu par ses relations et ses proprits avant de linsrer dans
lontologie.

Le cloud ou le cloud computing (le nuage en Franais) est une technologie permettant la
mutualisation des services et ressources informatiques ouverts en libre service.

162

Conception et peuplement d'une ontologie modlisant la notion de contexte enrichie par les fonctions
lexicales pour la dtection du sens dans le texte. Parler du Maroc central

2. Un mot non connu est traduit partir dautres langues. Dans certains cas, on a
procd par lemprunt des termes les plus utiliss dans le langage courant : darija,
arabe standard ou franais, etc.

Au niveau technologique
Afin de rester conforme aux normes internationales, nous avons utilis trois
catgories de relations :

les versions anglaises des relations de hirarchisation OWL,


les relations lexico-smantiques dans leur version normalise,
puis les relations en amazighe pour les autres.

Ces rgles ont t utilises pour les proprits (les proprits hors la norme OWL).
Pour la graphie, faute de compatibilit avec le Tifinagh, nous avons opt, quant
cette premire version de lontologie, pour la transcription phontique. Une version
en Tifinagh est prvue dans les versions futures.

Figure 9 : Editeur facile

Afin dacclrer la saisie, nous avons contourn, dans un premier temps,


lutilisation directe de linterface Knoodl qui peut paratre difficile, nous avons
utilis lapplication et la notation Fluent diteur bas sur langlais contrl pour
saisir facilement les donnes de lontologie, avant de les convertir en OWL et les
importer dans la plateforme finale de travail (knoodl).

163

Hammou Fadili & Malika Chakiri

La saisie de fait en respectant la grammaire du CNL pour langlais comme suivant :


(1) Every abaus is an amuder.
Every abrri is an amuder.
Every abrri-n-taydwin is an amuder.
Every abulxir is an amuder.
Every ail-n-wuen is an amuder.
Every afrux is an amuder.
Every afullus is an amuder.
Every ayul is an amuder.
Every awilas is an amuder.
Every aeray-n-lxla is an amuder.
Every auliy is an amuder.
Every aitar is an amuder.
Every ayis-n-lber is an amuder.
(2) Every azmmur is an tikt.
Every tasaft is an tikt.
Every tasmmumt is an tikt.
Every tata is an tikt.
Every taylilut is an tikt.
Every tiqqi is an tikt.
Aprs cela, on procde un export en RDF, facilement intgrable de dans la
plateforme finale.

Figure 10 : Version RDF

164

Conception et peuplement d'une ontologie modlisant la notion de contexte enrichie par les fonctions
lexicales pour la dtection du sens dans le texte. Parler du Maroc central

Elments sur limplmentation


Elments de lontologie
Ci-dessous une prsentation illustrative de cette mthode. Dans un premier temps,
nous prsentons des relations simples des tres et dans un deuxime temps des
relations complexes :
1. La hirarchie simple des tres. On parle ici des relations qui spcifient les
relations verticales de lontologie, et se rsument des formes de subsomption, de
llment par la classe (relation is a) ou de la partie par le tout (relation has a). Ces
relations sont dterminantes, car toute ontologie a une fonction unificatrice, lEtre
tant dfini par son unit soi (Rastier 2004).
Exemple :
1. Relations de base
Every izem is an amuder.
Pour aller plus loin.
Every aserdun is an amuder.
Every amuder amsksum is an amuder.
Every amuder amstuyya is an amuder.
Every tafunast is an amuder amstuyya
On traite galement la flore.
Every azmmur is a tikt
Every tasmmumt is a tuyya
Every tazdayt is a tikt
Every bu-mmu is a tuyya
Every alili is a tikt
Every tamemt n waman is a tikt
Every tii is a tikt
2. attributs et specifications

Every tikt ittuyatan is a tikt


3. Disjointes
Every amuder is not a tikt.
Every tixsi is not a aserdun.
Every tikt is not a amuder.
4. Les relations simples
Every izem da-i-tt-tta a tamlalt.
Every imiw da-i-tt-tta an aray.

165

Hammou Fadili & Malika Chakiri

Every tafunast da-tt-tta a tuyya.


Every iydi da-i-tt-tta an aksum.
5. Les relations complexes
Every lfa is something that i-tt-tta an amuder and da-i-tt-tta timzin and da-t-tt-tta
a agwlas.
If X i-yya zi something that i-ttu-yyan zi Y then X is -i-yya zi Y.
6. Equivalence
Something is a amuder amsksum if-and-only-if-it da-i-tt-tta nothing-but amuder
and-or da-i-tt-tta nothing-but thing that i-yyan zi an amuder.
Something is an anarmu if-and-only-if-da-i-tt-tta an amuder and i-tt-tta an tikt and
i-tt-tta a thing that i-yyan zi an amuder and-or i-yyan-zi a tikt.
Something is a amstuyya if-and-only-if-it i-tt-tta nothing-but tikt and-or i-tt-ttan
nothing-but thing that i-yyan zi tikt.
7. Disjointnes
Anything either is an anarmu, is an amstuyya or is an amsksum or-something-else.
8. Relations entre les entits
X i-yyanzi Y if-and-only-if Y i-ttuyya zi X.
X da-i-tt-tta Y if-and-only-if Y da-i-ttuyata zi X.

Spcifications techniques
Pour la mise en place de lontologie, nous avons utilis la plateforme knoodl. Cest
une solution de gestion dontologies dans le Cloud. Elle est dote de plusieurs
services permettant une gestion collaborative dontologies, de gestion de
communauts, des wiki, des liens avec dautres ontologies et donnes, etc. Ce
choix a t motiv, entre autres, par le fait que cette technologie permet de profiter
dune part de la technologie du Cloud ne ncessitant aucune installation ni
maintenance de solutions logicielles et matrielles, dans un esprit communautaire
pour la cration et la maintenance de ce type de contenus. Concrtement, knoodl
permet notamment la cration, la gestion et lanalyse des donnes de type
RDF/OWL. Cette solution intgre en plus des fonctionnalits avances comme :
limport/export de contenus de type RDF/OWL, linterrogation SPARQL,
visualisation des sources de donnes, des vues danalyse, des visualisations
graphiques, etc.
Cest une solution gratuite hberge dans le cloud dAmazon EC2.

166

Conception et peuplement d'une ontologie modlisant la notion de contexte enrichie par les fonctions
lexicales pour la dtection du sens dans le texte. Parler du Maroc central

Aperu sur lontologie (la faune et la flore en amazighe)


Lontologie a t conue en se basant sur les relations conceptuelles et lexicosmantiques, comme reprsente dans le mta-modle prcdent.

Figure 11: Extrait de lontologie partir du Cloud (Knoodl)

Cest une ontologie du domaine sur la faune et la flore en amazighe enrichie par
des lments linguistiques, intgrable dans notre dmarche danalyse et
dextraction smantiques des donnes partir du texte.

Quelques lments statistiques sur le contenu de lontologie


A ltat actuel du dveloppement de lontologie, nous avons intgr au format
RDF :
Plus que 1500 concepts,
Plus que 3000 relations (conceptuelles, ontologiques, smantiques, etc.),

167

Hammou Fadili & Malika Chakiri

Quelques contraintes types.

Cette ontologie est prte tre utilise dans notre processus danalyse smantique
des textes. A la fin de son dveloppement, nous envisageons de lintgrer dans le
Cloud du Linked Open Data (LOD).

Conclusion et perspectives
Bien quil existe des systmes capables danalyser et de traiter des contenus dun
point de vue smantique, la relation qui lie le contenu son utilisation est
gnralement peu ou pas du tout prise en compte. En effet, cette relation peut tre
dune extrme complexit qui ncessite des approches et systmes intelligents
difficiles mettre en uvre et capable de sadapter en fonction du contexte
dutilisation. Dans cet article, nous avons prsent la conception dune ontologie de
contexte partir dune ontologie de domaine enrichie par la notion de contexte et
les relations lexico-smantiques, intgrable dans une approche de gestion de la
smantique dans son contexte. Ceci, afin damliorer les performances de certains
domaines dapplication comme lindexation, la recherche ou encore lextraction
dinformation. On a pu, travers quelques exemples de relations et de dfinition
particulire du contexte, rpondre aux soucis relatifs des noncs ou des mots
auxquels peuvent correspondre plusieurs et diffrentes structures smantiques en
analysant fidlement les relations smantiques que peuvent entretenir les mots
simples, voire les expressions figes au sein dun mme texte et qui relve dun
mme domaine, ainsi que les rgles de raisonnement qui leur sont applicables. Une
extension de cette tude toutes les relations, une tude approfondie des
spcificits de chaque relation ainsi que son utilisation constituent les perspectives
du prsent travail. On appliquera les rsultats de ces amliorations pour affiner la
pertinence et loptimisation dans des domaines et des utilisations particuliers.

Rfrences
Ahmad K., Fulford H. (1992), Knowledge Processing: Semantic Relations
And Their Use In Elaborating Terminology, Computing Science Report,
University of Surrey.
Amardeilh, F et al., (2005), Annotation documentaire et peuplement
d'ontologie partir d'extractions linguistiques , Actes de la Confrence
Ingnierie des Connaissances (IC05), Nice.
Bachimont, B., (2001), Modlisation linguistique et modlisation logique des
ontologies : lapport de lontologie formelle , Actes des journes francophones
dIngnierie des Connaissances (IC2001), Grenoble.
Chakiri, M. (2011), La locution nominale entre opacit et transparence (parler
des At Wirra, Moyen Atlas, Maroc , Etudes et Documents Berbres, p. 97108.
Chakiri, M. (2010), Analyse stylistique des locutions nominales en
amazighe , Revue Asinag, IRCAM, Maroc, p. 201-210.

168

Conception et peuplement d'une ontologie modlisant la notion de contexte enrichie par les fonctions
lexicales pour la dtection du sens dans le texte. Parler du Maroc central

Condamines A., Rebeyrolle J. (1998), Ctkb : A Corpus-Based Approach For


Terminological Knowledge Base . in Proceedings Of The First Workshop On
Computational Terminology (COMPUTERM'98), Workshop of Coling'98,
Montral.
Cunningham, H. et al., (2002), Framework and Graphical Development
Environment for Robust NLP Tools and Applications. Proceedings of the 40th
Anniversary Meeting of the Association for Computational Linguistics
(ACL2002), Philadelphia.
Fadili, H., (2013), Towards a new approach of an automatic and contextual
detection of meaning in text , AICCSA2013, Fs/Ifrane.
Gmez-Prez A. (1999), Ontological Engineering: A State Of The Art, Expert
Update.
Guarino N. (1997), Understanding, Building And Using Ontologies.
International j. Human-computer studies.
Guerin, ., (2003), Un exemple d'article dans les actes d'une confrence ,
Actes de la confrence CORESA'03, Lyon.
Hernandez N., (2005), Ontologies de domaine pour la modlisation du contexte
en Recherche d'information, Thse de doctorat, Universit Paul Sabatier de
Toulouse.
L'homme Marie-Claude (2004), La terminologie : principes et techniques,
Montral, les presses de l'Universit de Montral.
Meluk, I. (1981), Meaning-Text Models: A Recent Trend In Soviet
Linguistics, Annual Review Of Anthropology.
Meluk, I. (1995), The Russian Language In The Meaning-Text Perspective,
Wiener Slawistischer Almanach/kola "Jazyki Russkoj Kultury":
Vienna/Moscow.
Meluk, I. (1997), Vers une linguistique sens-texte. leon inaugurale, Paris:
Collge de France.
Meluk, I. (1998), Dependency Syntax: Theory And Practice, Albany,
N.Y.: The SUNY Press.
Michael, B., (1998). Fractals everywhere. Academic Press.
Mizoguchi R. And Ikeda M. (1996), Towards Ontological Engineering (Ai-Tr96-1,). Osaka: Isir, Osaka University.
Mizoguchi R (1998), A Step Towards Ontological Engineering, paper
presented at the 12th National Conference On Ai Of JSAI.
Polguere, A., (2003), Lexicologie et smantique lexicale. notions fondamentales
(paramtres), Montral, PUM.
Rastier, F. (2003), De la signification au sens. Pour une smiotique sans
ontologie.
[En
ligne].
Disponible
sur :
http://www.revuetexto.net/Inedits/Rastier/Rastier_Semiotique-ontologie.html.

169

Hammou Fadili & Malika Chakiri

Rastier, F. (2004), Ontologie(s). Revue des sciences et technologies de


linformation , Srie : revue dintelligence artificielle, 4.
Sager, J. (1990), A Practical Course In Terminology Processing, Philadelphia :
John Benjamins publishing company, Amsterdam.
Taifi, M. (1991), Dictionnaire tamazight-franais (parler du Maroc central),
Paris, LHarmattan-Awal.
Van Heijst G., Schreiber A. And Wielinga B. J. (1997), Using Explicit
Ontologies In Kbs Development. International Journal Of Human And
Computer Studies /Knowledge Acquisition.
Vanwelkenhuysen J. And Mizoguchi R. (1995), Workplace-Adapted
Behaviors: Lessons Learned For Knowledge Reuse, Paper presented at the
KB&KS '95.
Vanwelkenhuysen J. And Mizoguchi R.( 1994), Maintaining The Workplace
Context In A Knowledge Level Analysis, Paper presented at the Proc. of
JKAW'94, Hatoyama, Japan.
Wielinga B. And Schreiber A. (1993), Reusable and Sharable Knowledge
Bases: A European Perspective, Paper presented at the KB & KS'93, Tokyo.
The GATE platform: http://gate.ac.uk/, mars 2013.

170

sinag-Asinag, 9, 2014, p. 171-184

Jeu dtiquettes morphosyntaxiques de la langue


amazighe*
Fadoua Ataa Allah (1), Siham Boulaknadel (1) et Hamid Souifi (2)
(1) CEISIC, (2) CAL - IRCAM


.
.

.


" EAGLES "
.
This work aims to provide the Amazigh language with a morphosyntactic tagset.
In this process, morphology and syntax are considered as an inextricable asset.
This tagset will assign to each meaningful unit information concerning the
"shape variations of signifiers, their amalgams and their discontinuity" and
information about its function in the statement. The proposed tagset is based on
EAGLES guidelines in order to ensure the reuse of corpora and languages
comparability in natural language processing.
Ce travail se veut une contribution llaboration dun Jeu dtiquettes
morphosyntaxiques de la langue amazighe. Il sappuie sur la morphologie et la
syntaxe en tant quun tout indissociable. Ce jeu permettra dattribuer chaque
unit significative des informations sur les variations de forme de signifiants,
leurs amalgames et leur discontinuit 1 et sur sa fonction dans lnonc.
Le jeu que nous proposons ici se base sur les recommandations EAGLES, visant
la rutilisation des corpus et la comparabilit entre les langues dans le domaine
du traitement automatique du langage naturel.

Nous tenons exprimer nos vifs remerciements Abdallah Boumalk et Rachid


Laabdelaoui (CAL, IRCAM) pour avoir bien voulu relire et commenter ce travail.
1
Martinet, A. (Grammaire fonctionnelle du franais, cf. 1.8)

171

Fadoua Ataa Allah, Siham Boulaknadel et Hamid Souifi

1. Introduction
Ltiquetage morphosyntaxique, appel aussi tiquetage grammatical ou part-ofspeech tagging (POS tagging, en anglais), est un pralable pour de nombreuses
applications du traitement automatique des langues, particulirement la correction
grammaticale, lanalyse smantique, lanalyse pragmatique et la traduction
automatique. Toutefois, il ncessite le dveloppement dun jeu dtiquettes adquat
aux spcificits linguistiques de la langue tudie.
Cet tiquetage consiste attribuer toute unit significative du texte (occurrence
dun corpus), et laide dun outil informatique, un symbole correspondant son
comportement syntaxique2 (nom, verbe, pronom, adverbe, prposition), et des
informations morphologiques quil affiche dans un contexte prcis du corpus
linguistique (masculin, singulier,). Idalement, un jeu dtiquettes doit permettre
de3 :

reprsenter la richesse des informations lexicales ;

reprsenter linformation ncessaire la dsambigusation4 en contexte des


tiquettes morphosyntaxiques ;

et dencoder les informations utiles au traitement linguistique pour lequel


ltiquetage morphosyntaxique a t dploy.

Le choix de jeux d'tiquettes est particulirement dlicat. Ainsi, une panoplie de


jeux d'tiquettes pour chaque langue a t dveloppe au fil des annes et au gr
des projets par diffrents groupes. Face ces divergences de pratique, qui forment
un obstacle lchange et la rutilisation des corpus, bases parfois sur des
conceptions diffrentes de ce que doit tre un jeu dtiquettes de donnes,
dimportants efforts duniformisation et dalignement ont t dploys au sein de
projets internationaux tels que EAGLES (EAG, 1996) et MULTEX (MUL, 1996).
Dans un souci de parvenir une standardisation dtiquettes
morphosyntaxiques pour lamazighe lui assurant la comparabilit entre langues,
notamment dans un systme multilingue, nous avons labor un jeu dtiquettes en
nous inspirant des recommandations fournies par le groupe EAGLES5 en matire
dannotation morphosyntaxique. Ces dernires sont assez intressantes, dans la
2

Bien que les units significatives (ou mots) appartiennent toutes une ou plusieurs parties
du discours, selon le contexte de leur emploi, des difficults dtiquetage peuvent dcouler
de lambigit des rles grammaticaux de certains mots dans certaines langues, o la
mutation catgorielle parat vivante et dans lesquelles la classification des catgories
grammaticales savre difficile tablir.
3
Nous reproduisons les mmes objectifs viss par Technolangue.net cits sur
http://www.technolangue.net/article.php3?id_article=296. Site consult en septembre 2013.
4
La dsambigusation dun mot consiste faire cesser son ambigut en ne retenant quun
seul de ses sens li une seule forme morphosyntaxique, et ce, dans le but de le rendre plus
ais comprendre.
5
http://www.ilc.cnr.it/EAGLES96/annotate/annotate.html. Site consult en septembre
2013.

172

Jeu dtiquettes morphosyntaxiques de la langue amazighe

mesure o elles proposent un cadre, qui peut tre aisment suivi, fond sur une
distinction entre tiquettes obligatoires, tiquettes recommandes et extension
particulire.

2. Ambigut en amazighe
Lamazighe se caractrise par un comportement morphologique riche dans la
formation des signifiants ; par flexion, par drivation ou par agglutination. Ce qui
le laisse confront un problme dambigut pnalisant tout processus de
traitement automatique. Ainsi, lambigit se manifeste sous diffrentes formes
selon les niveaux de traitement lexical, morphologique et syntaxique.
Dans ce contexte, nous essayons, travers cet article, de dcrire lune des formes
dambigut qui simposent pour le lexique amazighe et que seule la syntaxe
pourrait dsambiguser comme cest le cas6 dans les exemples qui suivent :

Ambigut entre Nom et Verbe :

Nom : [illi] (Litt. fille de moi) ma fille ,


Verbe : 7 [ur illi] (Litt. ne pas tre) il nexiste pas .
Ambigut entre Nom et Adjectif :
Nom :

8 [zi amqqran] (Litt. voir je amqqran) jai vu Amqqran ,


Adjectif : [argaz amqqran] (Litt. homme g) lhomme g .

Ambigut entre Particule modale du futur (PMF) et Particule dmonstrative


de proximit :

PMF : [ad ff] (Litt. Particule modale, sortir-1PS, je sortirai,


Particule dmonstrative de proximit : [argaz ad] (Litt. homme ce) cet
homme-ci.

Ambigut entre Particule modale de linaccompli (PMI) et Adverbe de lieu


de proximit : .

PMI : [da ichtta] (Litt. PMI, 3PMS manger (inacc.)) Il est en train de
manger ;
Adverbe de lieu : [ssrs it da] (Litt. Poser (V. impratif), masc. sing.
le, ici) Pose-le ici.
6

Le problme de la mutation catgorielle est omni prsent dans dautres langues, cest le
cas du Franais (ex. cailler (nom personne qui ouvre et vend des hutres, des fruits de
mer /verbe dpouiller un poisson de ses cailles ), faire (nom manire de faire une
uvre /verbe construire, fabriquer ), gabarier, baiser ou du Vietnamien (ex. trn
(prposition sur /nom le suprieur ), trong (prposition dans /nom
lintrieur )voir ce propos Nguyen et al. (2003), Une tude de cas pour l'tiquetage
morphosyntaxique de textes vietnamiens , cf.3.2.
7
Accompli ngatif du verbe ili tre .
8
Le nom [amqqran] Amqqran peut tre un nom propre.

173

Fadoua Ataa Allah, Siham Boulaknadel et Hamid Souifi

Ambigut entre Auxiliaire (ou particule) de prdication, coordonnant et


Particule dorientation de rapprochement :

Auxiliaire de prdication : [d argaz] (Litt. cest homme) cest un


homme ,
Coordonnant : [argaz d trbat] (Litt. homme et fille) lhomme et
la fille ,
Particule dorientation spatiale de rapprochement : [idda d urba]
(Litt. 3PMS.Venir ici enfant) lenfant est venu (vers ici).

3. Pourquoi le modle EAGLES ?


Le groupe EAGLES (Expert Advisory Group on Language Engineering Standards),
fond en fvrier 1993, est une initiative de la commission europenne du
programme Ingnierie et Recherche Linguistique (Linguistic Research and
Engineering, LRE). Il a pour but llaboration de standards des ressources
langagires (corpus crit et oral, lexiques lectroniques) et des moyens de
structuration et dexploitations, ainsi que des procds d'valuation de ressources et
doutils. Ainsi, plusieurs acteurs industriels, professionnels et universitaires
lchelon europen ont particip la ralisation dune batterie de recommandations,
notamment en matire dannotation morphosyntaxique.
Les spcifications proposes par EAGLES sont le fruit dune troite collaboration
avec le projet MULTEX (Multilingual Text Tools and Corpora). Elles rsultent de
lobservation et de lanalyse d'un ensemble de projets de corpus et de lexiques, qui
ont permis de relever des traits communs aux diffrentes langues, et de dterminer
un noyau d'informations morphosyntaxiques sur lesquelles un accord assez large
peut tre tabli. Ce noyau se complte par des couches d'informations optionnelles,
ou propres des applications particulires.
Bien que le modle EAGLES ne soit pas applicable tel quel lamazighe, il peut
servir de point de dpart de nombreux acteurs pour disposer de ressources
linguistiques directement exploitables ainsi que doutils de traitement rutilisables.
Le modle a t dvelopp dune manire systmatiser les stratgies d'tiquetage
dans un environnement aussi bien monolingue que multilingue, et par consquent
assurer la comparabilit de lamazighe avec dautres langues tout en permettant
une grande flexibilit.

4. Dfinition du jeu dtiquettes pour lamazighe


Pour lamazighe, la question de la classification des catgories grammaticales (cf. 2)
est une tche difficile et toujours en dbat, du fait que cette langue est en voie de
standardisation et que ses rgles sont en phase de codification. A ce jour, malgr
les quelques tudes menes9 dans ce cadre, il nexiste aucun standard reconnu pour

Entre autres : (Loikkanen, 2007), (Ataa Allah et Jaa, 2009), (Outahajala et al., 2010), .

174

Jeu dtiquettes morphosyntaxiques de la langue amazighe

les catgories des mots. Cest dans cette perspective que nous proposons un jeu
d'tiquettes pour les applications du traitement automatique de lamazighe.
Sachant que la grammaire se dfinit comme l'tude systmatique des lments
constitutifs d'une langue et la science qui permet de montrer la structure dune
langue et dexpliquer les rgles de changement et de combinaison des mots formant
un nonc, elle se subdivise en deux parties : la morphologie, qui tudie les
changements des mots, et la syntaxe qui sintresse la combinaison des mots en
formes plus toffes que de simples mots. Nanmoins, la catgorie grammaticale
reprsente lunit dialectique de la valeur grammaticale et de la forme
grammaticale, reflte par les diffrentes oppositions existant dans un systme
syntaxique dune langue.
Pour bien reflter toutes les relations syntaxiques possibles, gnralement, il faut
disposer dun important jeu d'tiquettes. Cependant, plus le nombre des tiquettes
est important plus la tche d'annotation ou dtiquetage est difficile. Do la
ncessit de grer ce compromis afin de parvenir un jeu d'tiquettes assez prcis
et de taille acceptable. Ainsi, en nous basant, dune part, sur la dfinition du mot
graphique en amazighe10, et dautre part, sur les recommandations formules par
EAGLES, nous avons propos deux listes dtiquettes 11 spcifiques aux
caractristiques de la langue amazighe. Une assez prcise, elle contient les
tiquettes obligatoires qui refltent toutes les oppositions du systme syntaxique (cf.
Tableau 1). L'autre traduit toutes les relations syntaxiques contenant les tiquettes
recommandes, qui fournissent des indications plus prcises telles que le nombre,
le genre et ltat pour les noms et les adjectifs, le temps, le mode et la personne
pour les verbes.

4.1. Etiquettes obligatoires


Les tiquettes obligatoires comprennent les parties du discours dune langue,
reprsentes par les classes de mots ayant les mmes proprits smantiques et
grammaticales. Ces classes sont principalement caractrises par le sens gnral
catgoriel, puis par la forme grammaticale ainsi que la fonction syntaxique des
mots.
Compte tenu des spcifications lexicales de chaque classe en amazighe12, le jeu
dtiquettes que nous proposons (Tableau 1) contient douze (12) catgories
10

Selon (Ameur et al., 2004 : 34; Boukhris et al., 2008 : 27), un mot graphique est
constitu dune squence de lettres, et ventuellement dune seule lettre, dlimite par deux
blancs typographiques.
11
Pour une fiabilit optimale des systmes dtiquetage, il est recommander davoir un
important jeu dtiquettes reprsentant toutes les relations morphosyntaxiques de la langue
annote, plus le corpus est volumineux, plus le rsultat est prcis. Mais cela ne va pas sans
contrainte, car plus le jeu dtiquette est important, plus la tche dannotation est difficile
aussi.
12
Ces classes se basent sur les traits morphologiques et sur les parties du discours dcrites
dans Initiation lamazighe (Ameur et al. : 2004) et la Nouvelle grammaire de lamazighe
(Boukhris et al., 2008 : 27).

175

Fadoua Ataa Allah, Siham Boulaknadel et Hamid Souifi

principales, l'encontre du modle EAGLES qui en propose 13 et dont la catgorie


Article nest pas supporte par lamazighe. En outre, la catgorie Unique a
t remplace par la catgorie Particule afin de rpondre aux spcificits
morphosyntaxiques de lamazighe.
N
1
2
3
4
5
6

CATEGORIES

Nom (N)
Verbe (V)
Adjectif (AJ)
Pronom (PR)
Adverbe (AV)
Prposition13 (AP)

N
7
8
9
10
11
12

CATEGORIES

Particule (P)
Conjonction (C)
Interjection (I)
Rsiduel (R)
Numral (NU)
Ponctuation (PU)

Tableau 1 : Liste des tiquettes obligatoires

4.2. Etiquettes recommandes


Dans cette section, nous envisageons de dfinir les tiquettes recommandes, o
chaque catgorie spcifie dans la liste obligatoire sera subdivise l'aide
d'tiquettes plus spcifiques relevant de la catgorie morphologique par le
changement de la forme du mot et de la proprit smantique.
1.

Nom (N) :

Le nom peut tre de type commun, propre ou de parent14 . Tous les types
varient en genre, en nombre et en tat15. En outre, les noms de parent varient aussi
en fonction de la personne.

13

Le modle EAGLES propose ltiquette adposition (AP) qui comprend la prposition et


la postposition.
14
Selon les recommandations dEAGLES, nous avons class le nom du type numral dans
la catgorie Numral .
15
Cest un concept grammatical morphosyntaxique qui affecte linitiale vocalique des noms
masculins par changement de formes : / (au/wa),  (iyi) et  (uwu).
Pour les noms fminins, ils marquent ltat dannexion par leffacement de la voyelle ( [a]
/ [i]) place aprs la marque prfixe [t].

176

Jeu dtiquettes morphosyntaxiques de la langue amazighe

2. Verbe (V) :
Le verbe se combine avec les modalits aspectuelles des quatre thmes :
laoriste, laccompli, linaccompli et laccompli ngatif. Nanmoins, afin de
couvrir toutes les variantes amazighes du Maroc, nous introduisons dans le schma
du verbe, en plus des quatre thmes verbaux communs, la forme de linaccompli
ngatif prsente dans les parlers du Rif et de Figuig.
Dans sa conjugaison, le verbe reoit des dsinences verbales qui sont de trois types
: (1) non impratives, (2) impratives et (3) participiales.
Lorsque les deux formes simples 16, de limpratif et du participe, se combinent
avec les modalits de linaccompli (gmination dune consonne radicale ou la
prfixation de : tt), elles sont appeles successivement impratif intensif et
participe intensif.

16

Le participe simple est obtenu par la combinaison des dsinences de la forme participiale
avec laoriste ou laccompli (Manuel de conjugaison, p. 14).

177

Fadoua Ataa Allah, Siham Boulaknadel et Hamid Souifi

178

Jeu dtiquettes morphosyntaxiques de la langue amazighe

3. Adjectif (AJ) :
Ladjectif est un nom de qualit qui suit directement le nom qualifi et il
s'accorde avec lui en genre et en nombre. Il se distingue du complment de nom
par sa position syntaxique17

4. Pronom (PR) :
On distingue les pronoms autonomes et les pronoms affixes. Le premier type qui
concerne ce travail comprend en plus des pronoms personnels autonomes, les
dmonstratifs, les interrogatifs18, les possessifs et les pronoms rgimes. Tandis que
le deuxime type comporte les pronoms affixes aux prsentatifs, aux quantifieurs et
la prposition.
Partons du principe que toute unit lexicale est dlimite par deux blancs
typographiques, les prsentatifs, les quantifieurs et la prposition forment ainsi un
seul mot graphique avec leur complment pronominal, ce qui explique lexclusion
des pronoms affixes du jeu des tiquettes recommandes.
Concernant les pronoms rgimes (complment dobjet direct/indirect), beaucoup
damazighisants les considrent comme tant des affixes . Or, en nous basant,
dune part, sur le rle syntaxique de chacun des deux pronoms (leur substitution
un nom ou un syntagme prpositionnel, leur ordre dans lnonc verbal), et
dautre part sur la tche principale de ltiquetage morphosyntaxique, nous les
considrons comme pronoms autonomes unifonctionnels par opposition aux
17

Le complment du nom affiche ltat dannexion qui rsulte de la prsence de la


prposition [n] de gnralement supprime pour les locuteurs dans leur langage
quotidien. Il se distingue de ladjectif par sa structure syntaxique tant donn que ce dernier
est toujours juxtapos au nom quil dtermine, sans le biais daucun fonctionnel.
18
En plus des pronoms interrogatifs associs aux pronoms dictiques (proximit,
loignement, absence) variables en genre et en nombre, il existe des pronoms interrogatifs
invariables qui portent sur une partie de la phrase ( [ma], [u], ). Voir (La nouvelle
grammaire de lamazighe).

179

Fadoua Ataa Allah, Siham Boulaknadel et Hamid Souifi

pronoms autonomes plurifonctionnels , connus sous le nom pronoms personnels


autonomes .

5. Adverbe (AV) :

180

Jeu dtiquettes morphosyntaxiques de la langue amazighe

Gnralement, ladverbe est un mot invariable, sauf exception lie des emplois
rgionaux. Il exprime le lieu, le temps, la qualit et la manire.

6. Prposition (AP) :
La prposition relve de la catgorie gnrale des mots de relation. Elle exprime
des valeurs smantiques diverses, notamment, la localisation spatio-temporelle,
l'instrument, la direction, la possession, l'appartenance et l'accompagnement.
7. Particule (P) :
Les particules sont un ensemble de mots assez courts qui jouent le rle
d'indicateurs grammaticaux au sein dune phrase.

181

Fadoua Ataa Allah, Siham Boulaknadel et Hamid Souifi

8. Conjonction (C) :
La conjonction peut marquer la subordination ou la coordination.

9. Interjection (I) :
Il est question ici dun mot invariable, autonome et nayant pas de fonction
grammaticale. Il exprime une sensation, une motion, un agacement, un
tonnement
10. Rsiduel (R) :
La valeur rsiduelle est affecte aux termes qui ne rentrent pas dans les catgories
usuelles. Par exemple: les mots trangers, les formules mathmatiques et les
symboles.
Mme si ces termes ne font pas partie du lexique de la langue traite, ils se
produisent assez frquemment. Par consquent, ils ont besoin d'tre tiquets.

182

Jeu dtiquettes morphosyntaxiques de la langue amazighe

11. Numral (NU) :


La classe du numral se compose de deux sous catgories : cardinal et ordinal.
Cette classe peut se combiner avec les trois modalits dmonstratives
(dterminants) : de proximit, dloignement et dabsence.

12. Ponctuation (PU).

5. Conclusion
Dans la perspective de doter la langue amazighe doutils ncessaires au traitement
automatique, llaboration dun jeu dtiquettes est une tape pralable dans le
processus dautomatisation. Ainsi, nous avons propos deux jeux dtiquettes
grammaticales, dont le premier correspond des tiquettes obligatoires et le
deuxime des tiquettes recommandes, o nous avons essay de prendre en
considration les particularits et la richesse grammaticales de lensemble des
variantes amazighes marocaines.

Rfrences bibliographiques
Ameur, M. et al. (2004), Initiation la langue amazighe, Publications de l'Institut
Royal de la Culture Amazighe, Srie : Manuels-N1, Rabat.
Ataa Allah, F., Jaa, H. (2009), Etiquetage morphosyntaxique : Outil dassistance
ddi la langue amazighe . Actes du 1er Symposium International sur le
Traitement Automatique de la Culture Amazighe. 12-13 dcembre 2009, Agadir,
Maroc, p. 110-119.

183

Fadoua Ataa Allah, Siham Boulaknadel et Hamid Souifi

Boukhris, F. et al. (2008), La nouvelle grammaire de lamazighe, Publications de


l'Institut Royal de la Culture Amazighe, Srie : Manuels-N2, Imprimerie El
Marif Al Jadida, Rabat.
EAG (1996). EAGLES, Recommendation for the Morphosyntactic Annotation of
Corpora. EAGLES Document EAG-TCWG-MAC/R.
http://www/ilc.cnr.it/EAGLES96/home.html [15.1.2007].
Laabdelaoui, R. et al. (2012), Manuel de conjugaison amazighe, Publications de
l'Institut Royal de la Culture Amazighe, Srie : Manuels-N5, Rabat.
Loikkanen, S. (2007), tiquetage morpho-syntaxique de textes kabyles . Actes
de la confrence en Traitement Automatique des Langages Naturelles. 58 juin
2007, Toulouse, France. p. 193-202.
Martinet, A. (1979), Grammaire fonctionnelle du franais, Paris, Didier-Crdif,
XII + 276 p.
MUL (1996). Multilingual Text Tools and Corpora. http://www.lpl.univaix.fr/projects/multext.
Nguyen, T. M. H. et al. (2003), Une tude de cas pour l'tiquetage morphosyntaxique de textes vietnamiens , Actes de la confrence Traitement
Automatique du Langage Naturel, 11-14 juin 2003, Batz-sur-Mer, France.
Outahajala, M. et al. (2010), Tagging Amazigh with AnCoraPipe , Actes de
latelier Language Resources and Human Language Technologies for Semitic
Languages, 17 mai 2010, Valette, Malta. p. 52-56.
Paroubek P., Rajman M. (2000), Etiquetage morpho-syntaxique , In J.-M.
Pierrel, Ed., Ingnierie des langues, Paris : HERMES Science Europe, p. 131-150.
Valli A. et al. (1999), tiquetage grammatical des corpus de parole : problmes
et perspectives , Revue franaise de linguistique applique, Vol. 4, No. 2, p. 113133.

Sitographie :
http://www.technolangue.net/article.php3?id_article=296.
http://www.ircam.ma/doc/publica/nouvel-gram-amazigh.pdf.
http://www.ircam.ma/doc/publica/initiation-langue-amazighe-1.pdf.
http://www.ilc.cnr.it/EAGLES96/annotate/annotate.html.
http://www.lexilogos.com/vietnamien_dictionnaire.htm.

184

sinag-Asinag, 9, 2014, p. 185-196

Eurka un dpt dobjets dapprentissage compatible


avec le profil dapplication Normetic (LOM)
Robert Bibeau

La normalisation des technologies de linformation destines lapprentissage,


lducation et la formation, a pour objet damliorer laccessibilit des
ressources denseignement et dapprentissage produites dans une varit
dtablissements denseignement et dorganismes privs et publics, de divers
pays, utilisant diffrentes langues, sous divers environnements technologiques.
Ldifice dun environnement dapprentissage standard pour les langues
minoritaires tel lamazighe trouve dans lapproche normative la meilleure
alternative pour organiser les ressources ducatives futures de la langue
amazighe. Dans ce travail, nous commencerons par lexamen du profil
NORMETIC qui est une variante dapplication de la norme IEEE 1484.12.1
(LOM) des mtadonnes dobjets dapprentissage dvelopp par le GTNQubec. Dans un deuxime lieu, nous dtaillerons les caractristiques majeures
de la Banque Eurka des ressources dapprentissages partir du point de vue
de sa compatibilit avec le profil NORMETIC.

Introduction
Lintroduction des nouvelles technologies a pour effet de transformer les modes
denseignement et dapprentissage. Les tablissements denseignement ainsi que
les ministres, les entreprises et les organismes impliqus dans des activits de
formation investissent des moyens financiers croissants dans la production de
ressources pdagogiques numriques.
Plusieurs de ces acteurs voient lintrt de rutiliser, dchanger, dexporter ces
ressources, de mme que lopportunit de les partager ou de les commercialiser.
Ces acteurs sintressent la cration de banques dactifs pdagogiques constitues
densembles de ressources denseignement et dapprentissage (REA) qui sont
accessibles, durables et rutilisables et qui rpondent des exigences
dinteroprabilit. Les institutions se proccupent aussi des enjeux de lefficacit
pdagogique, des changes internationaux de ressources didactiques et de la
rentabilit des investissements dans les contenus numriques (cots de la
maintenance, cots de la migration dun environnement technologique un autre,
cots de la rptition indue des mmes dveloppements, etc.).

185

Robert Bibeau

Pourquoi un dpt de ressources standard denseignement et


dapprentissage ?
Il faut visiter de nombreux sites Web pour trouver des ressources denseignement
et dapprentissage utiles llaboration dune activit ducative, dune session de
formation ou dune leon (Bibeau, 2002). Cest pourquoi les enseignants visitent
rgulirement leurs sites web prfrs en qute de nouveauts. 1 Ce travail de
recherche est long et les rsultats sont souvent dcevants, sans compter que les
objets dapprentissage trouvs sont parfois inutilisables et exigent une adaptation.
Le dpt de ressources denseignement et dapprentissage (REA) Eurka, de la
Vitrine APO, peut leur venir en aide. 2 Eurka est une base de donnes et un
catalogue, non pas des REA elle-mmes, mais des mtadonnes dcrivant des
milliers de ressources denseignement et dapprentissage soigneusement
slectionnes et dcrites par des partenaires TIC du rseau scolaire et collgial ainsi
que par certains organismes francophones3.

Le profil Dapplication Normetic - Version 1.1 - 4


NORMETIC est un profil dapplication du standard IEEE 1484.12.1-2002 (LOM)
(Learning Object Metadata)5 portant sur les mtadonnes pour la description des
ressources denseignement et dapprentissage (REA). Nous dfinissons ces REA
comme toute entit, numrique ou non-numrique, conue ou pouvant tre utilise
pour des fins dapprentissage, dducation et de formation6. Le profil dapplication
NORMETIC est une slection dlments du standard LOM formant un sousensemble adapt aux besoins communs clairement dfinis par divers acteurs du
domaine de lducation et de la formation. Parmi les 77 lments de mtadonnes
de LOM, NORMETIC comprend notamment 19 lments requis. Tous ces
lments doivent obligatoirement tre documents pour permettre une
documentation homogne et uniforme dans la perspective de constituer un
patrimoine ducatif. Cette obligation sapplique galement quatre autres lments
dans certaines situations (requis conditionnels).

Carrefour-ducation est certainement lun des sites Web les plus frquents par les
enseignants qubcois. http://carrefour-education.telequebec.qc.ca/
2
Pour en savoir plus sur Eurka http://www.robertbibeau.ca/eureka/Normes-standard.ppt
http://eureka.ntic.org
3
Un profil dapplication est une slection d'lments d'une norme ou d'un standard formant
un sous-ensemble adapt aux besoins des groupes qui l'utilisent.
4
Texte de Robert Thivierge, Adapt par Robert Bibeau.
5
http://ltsc.ieee.org/wg12/files/LOM_1484_12_1_v1_Final_Draft.pdf
6
Cette dfinition a t prsente par la dlgation canadienne lISO/IEC JTC1/SC36 en
2005 (GTN-Q, 2005).

186

Eurka un dpt dobjets dapprentissage compatible avec le profil dapplication Normetic


(LOM)

Plusieurs consultations ont t tenues auprs de divers experts et usagers du monde


de lducation et de la formation (auteurs, producteurs et diffuseurs de ressources
didactiques, professeurs, bibliothcaires, administrateurs, technologues).
Ces consultations ont permis de dgager un consensus sur les besoins exprims et
sur les proprits des REA pour quelles y rpondent :

Accessibilit 7 : permettre une recherche facile, lidentification et la


livraison de REA dune faon distribue.

Durabilit : permettre aux REA daffronter les changements des


environnements technologiques en minimisant la r-ingnierie ou le redveloppement.

Interoprabilit : permettre lutilisation des REA dveloppes par une


organisation dans un environnement technologique donn par dautres
organisations dans dautres environnements technologiques en assurant
lchange de linformation et son utilisation.

Pertinence pdagogique : pouvoir identifier lors de la recherche les


contextes pdagogiques des REA (ge, discipline, milieu, objectif
pdagogique, niveau d'interactivit, type de ressources, etc.) et les rendre
comprhensible.

Partage et collaboration : favoriser lchange, la coproduction et


lenrichissement des REA.

Reconnaissance de la proprit intellectuelle : permettre de documenter


et de reconnatre la proprit intellectuelle et de respecter les droits
dauteur.

Rutilisation et adaptabilit : permettre la rutilisation des REA


diffrentes fins, dans diffrentes applications, dans diffrents produits et
diffrents contextes, par diffrents modes daccs.

Les REA qui ont ces proprits peuvent tre de vritables actifs pdagogiques8 et
faire partie dun patrimoine ducatif, ou un bien collectif durable et universel,
qui peut tre partag.
La porte de ltude NORMETIC sest limite la description normalise des REA
par lutilisation de mtadonnes. Pour rpondre pleinement aux besoins identifis,
plusieurs autres dimensions devront tre abordes dans des tapes subsquentes.
Celles-ci aborderont notamment les protocoles de communication, les interfaces de
programmation dapplications (API), les architectures, le squencement, les
mcanismes dvaluation, les dpts de REA, les mcanismes de diffusion, les
mcanismes de certification, le design pdagogique, etc.
7

lISO, le terme Accessibilit concerne plutt laccs des technologies de


linformation pour les personnes handicapes ou pour ceux dont les moyens sont limits
(enfants, personnes ges). Des informations additionnelles sont consultables ladresse
suivante : http://www.iso.org/iso/fr/SiteQueryResult.SiteQueryResult
8
Nous dfinissons cette expression de cette faon, Actif pdagogique : un ensemble de REA
accessibles, durables et rutilisables.

187

Robert Bibeau

Le profil dapplication NORMETIC


Les travaux ont permis dtablir un consensus sur un ensemble dlments de
mtadonnes qui permettent de dcrire les REA. Ces travaux ont rpondu aux
besoins et aux exigences minimales communes dgages par les divers acteurs
consults tout en tant conformes un standard reconnu internationalement.
Le profil dapplication NORMETIC a pour objet de fournir une mthode commune
pour la description des REA. Il facilite, de cette manire, leur identification, leur
rfrencement et leur reprage et il permet de maximiser laccessibilit, la diffusion,
la rutilisation et la durabilit de ces REA. Dans un contexte o les diffrents
acteurs souhaitent lmergence dun espace dchange ou de partage des REA ainsi
que la constitution dun patrimoine ducatif, le profil dapplication Normetic
rpond des questions communes voques dans la documentation des REA au
moment de leur production.
Un profil dapplication est une slection dlments dune norme, dun standard ou
dune spcification9 qui forme un sous-ensemble ayant une valeur rpondant aux
besoins communs des groupes qui lutilisent et leur fournit un cadre dopration.
Les lments sont retenus selon quils aient une valeur concordant avec un contexte
facilitant lintgration de normes internationales existantes, souscrivant des
besoins spcifiques formuls par des usagers et soutenant lmergence de
meilleures pratiques.
Les nouveaux profils dapplication dvelopps au RoyaumeUni, en Finlande et en
France proposent aussi des lments obligatoires assurant ainsi un minimum
dinformation pour une ressource donne. Une revue des pratiques exemplaires
dans divers pays a servi dterminer le degr de compatibilit recherche entre
lensemble de mtadonnes choisies pour le profil dapplication NORMETIC et les
autres normes, standards, ou profil dapplication en usage dans le domaine de la
description normalise des REA.
Le standard IEEE 1484.12.1-2002 (LOM) comporte 77 lments de mtadonnes
regroups en 9 catgories. Dans une perspective technique, la seule exigence pour
tre conforme au LOM est que tous les lments de mtadonnes (77) puissent tre
soutenus bien que chacun de ces lments soit considr comme optionnel.
Du point de vue des usagers consults, force a t de conclure quil est essentiel de
sassurer quun nombre limit dlments de mtadonnes soient obligatoirement
9

Une norme est une entente consensuelle tablie par les partenaires dun organisme
international reconnu officiellement (ISO/IEC JTC1/SC36) pour fournir une solution
normative des problmes communs de description, dindexation et de classification des
informations, des processus ou des services. Un standard se veut une entente consensuelle
issue dune pratique commune qui offre aux partenaires adhrents des organismes
nationaux et internationaux (IEEE LTSC, IMS Global Learning Consortium) des solutions
normatives pour dcrire, indexer et classifier des informations, des processus ou des
services. Une spcification dsigne des exigences techniques auxquelles des informations,
des processus ou des services doivent se conformer pour quils puissent tre dcrits,
indexs et classifis. Ces exigences peuvent tre indpendantes dune norme ou dun
standard (CREPUQ-Novasys, 2003).

188

Eurka un dpt dobjets dapprentissage compatible avec le profil dapplication Normetic


(LOM)

documents pour dcrire, indexer et classifier les REA selon les proprits
recherches et conformment aux besoins identifis.
La version 1.1 de ce profil prsente un nombre rduit de dix-neuf (19) lments de
mtadonnes LOM dont les champs doivent obligatoirement tre documents.
Cette prescription minimale, conforme ce profil dapplication, garantit la
disponibilit dune documentation homogne et uniforme. Le profil dapplication
NORMETIC v. 1.1 prvoit galement lutilisation de quatre autres (4) lments de
mtadonnes requis conditionnellement l'existence de certaines donnes relatives
la REA.
Les proprits recherches et les lments LOM correspondant aux statuts requis et
requis conditionnel du profil dapplication NORMETIC :
Accessibilit :

Gnral (Titre, Langue, Mot-cl)


Technique (Format, Localisation)
Classification (Objectif, Source, ID, Entre)

Durabilit :

Cycle de vie (Version)


Technique (Format, Localisation)

Interoprabilit :

Mtamtadonnes (Schma de mtadonnes)


Technique (Format, Localisation)

Pertinence pdagogique :

Pdagogie (Type de ressource pdagogique, Contexte)

Partage et collaboration :

Classification (Objectif, Source, ID, Entre)


Droits (Cot, Copyright et autres restrictions, Description)

Reconnaissance de la proprit intellectuelle :

Cycle de vie (Rle, Entit, Date)


Droits (Cot, Copyright et autres restrictions, Description)

Rutilisation et adaptabilit :

Gnral (Langue, Description, Mot-cl)


Mta-mtadonnes (Schma de mtadonnes)
Technique (Format)
Pdagogie (Type de ressource pdagogique)

Ces dix-neuf lments requis et ces quatre lments requis conditionnels


permettent essentiellement de rpondre aux questions suivantes :

189

Robert Bibeau

Quelles sont les caractristiques de la ressource ? Cela consiste prciser le


type de ressource, la clientle vise et lenvironnement technologique dans
lequel elle peut tre utilise.

Comment est gre la proprit intellectuelle ? Cela permet didentifier les


rgles ou conditions respecter (copyright, droits dusage, cot) et didentifier
les auteurs et producteurs associs la cration de la ressource.

Comment classifier cette ressource ? Cela consiste classifier la ressource en


fonction des catgories reconnues et fournir des mots-cls pour en faciliter le
reprage par la suite.

En plus de ces vingt-trois (23) lments devant obligatoirement ou


conditionnellement tre documents, le profil dapplication NORMETIC v. 1.1
comprend galement neuf (9) lments recommands quil est suggr de
documenter si linformation est juge ncessaire ou pertinente et vingt-six (26)
lments facultatifs qui comprennent dautres lments dont la documentation est
laisse la discrtion de lutilisateur.
Pourquoi une description normalise selon le profil Normetic ?
Il est agrable de pouvoir puiser dans le patrimoine ducatif d'une varit de pays
francophones par exemple. Cet exercice n'est toutefois pas sans embches :
comment distinguer le diplme dtudes collgiales du Qubec du bac franais ? Il
faut savoir galement que le cours secondaire est dispens la polyvalente au
Qubec, au collge et au lyce en France, l'athne en Belgique et au gymnase en
Suisse...
Seule l'utilisation d'une description normalise permet d'viter ces cueils. Ainsi,
en spcifiant l'ge des apprenants qui s'adresse la ressource, on vite les
difficults lies l'utilisation des nomenclatures locales. Le standard utilise dans
Eurka est IEEE LOM (Learning Object Metadata), qui prsente 58 descripteurs
documents regroups en diffrentes catgories (titre, description, format, cycle de
vie, etc.).10 Au Qubec, nous proposons le profil dapplication Normetic version
1.1, qui exige l'utilisation de 21 des descripteurs du LOM.11
Eurka comporte un systme d'aide pour faciliter l'interprtation des descripteurs
normaliss. Lorsque le pointeur de la souris passe sur le nom d'un descripteur dans
une fiche de rsultat, il se transforme en point d'interrogation et une fentre
flottante prsente ce descripteur.

Les fonctions d'dition de fiches Eurka offertes aux organismes francophones qui
recensent des ressources d'enseignement et d'apprentissage de mme que la
capacit du systme de consulter d'autres banques compatibles la norme LOM
font en sorte que le dpt Eurka, qui contient dj plus de 5000 ressources (REA),
s'enrichira continuellement.

10

Selon la norme IEEE 1484.12.1-2002 - Learning Object Metadata


http://ieeeltsc.org/wg12LOM/
11
http://profetic.org/normetic2004/

190

Eurka un dpt dobjets dapprentissage compatible avec le profil dapplication Normetic


(LOM)

Les ressources d'enseignement et d'apprentissage (REA) et les


objets dapprentissage
Depuis quelques temps lexpression objet d'apprentissage a cd le pas au
terme ressource denseignement et d'apprentissage (MLR: Metadata for
Learning Resource) 12 . Pourtant ces deux expressions ne sont pas quivalentes.
Qu'est-ce qu'une ressource denseignement et dapprentissage ? Le groupe
qubcois de travail sur les normes (GTN-Qubec) propose la dfinition suivante
de REA. 13
Une ressource d'enseignement et d'apprentissage (REA) c'est toute entit
numrique ou non numrique, conue ou pouvant tre utilise pour des fins
d'apprentissage, d'ducation ou de formation . 14 Un objet d'apprentissage
(OA) est un lment d'apprentissage rsultant du morcellement d'un contenu
plus gnral. Un objet dapprentissage c'est la plus petite partie cohrente
d'une REA. Une REA ce peut tre un logiciel d'dition et de communication
(portail, moteur de recherche, rpertoire, logiciels outils, applicatif de
formation) ainsi que les donnes, les informations et les oeuvres numrises
(donnes statistiques ou informationnelles, rfrences gnrales, oeuvres
littraires, artistiques ou autres) utiles l'enseignant ou l'apprenant dans le
cadre d'une activit d'enseignement ou d'apprentissage (R. Bibeau, 2005b).
En pratique, une REA sur support numrique est souvent un fichier rutilisable
pouvant tre intgr dans une leon ou un cours. Une animation Flash, une
prsentation PowerPoint, une composition musicale en MP3, un texte en format
RTF, un scnario pdagogique ou une activit ducative en format PDF (R.
Bibeau, 2005a), une collection d'images en format JPG, une squence vido en
format AVI, QuickTime ou MPEG, peuvent tous tre considrs comme des REA.

Le fonctionnement du dpt Eurka 15


Tout le secret d'un bon dpt de REA consiste en une description prcise qui
facilite le reprage, et les concepteurs d'Eurka l'ont compris. Un coup d'il sur
une fiche fournit immdiatement toute l'information pertinente, et ce, bien au-del
du titre et de la description de la ressource. Par exemple, des informations
techniques (format, taille du fichier) ou pdagogiques (type de ressource, tranche
dge, contexte), des renseignements sur les droits (cot, droits dauteur), sur la
contribution (auteur, tablissement denseignement, etc.) et sur le classement de
cette REA, etc. (P.-J. guay, 2005).
Dans la fiche prsente la figure 1, ci-dessous, un simple clic sur l'icne
permettra de lancer le tlchargement du fichier de cette ressource menant une
12

jtc1 iso/iec sc36 http://mdlet.jtc1sc36.org/doc/SC36_WG4_N0103.pdf


http://www.normetic.org
14
http://www.profetic.org:16080/normetic2004/IMG/pdf/2005-GTN-16-10-2.pdf
15
http://eureka.ntic.org/
13

191

Robert Bibeau

page Web. Car il faut bien comprendre quun dpt dobjets dapprentissage ne
contient habituellement pas les objets dapprentissage (les units de cours, les
leons, les exercices, les activits, les travaux pratiques, les descriptions de projets
ducatifs, les rfrences, les animations, les simulations, etc.) proprement dits mais
seulement un descriptif index, normalis et lhyperlien vers la ressource ellemme qui demeure emmagasin sur le serveur des propritaires ou des mandataires
de la ressource. Si des conditions daccs la ressource (abonnement ou cot
dutilisation) sont rclams par les auteurs ou leurs ayants droits, ce sera eux de
collecter ces droits et non pas au dpt dobjets comme Eurka ; un peu comme
dans une bibliothque, ce nest pas au documentaliste de percevoir les droits
dutilisation dune uvre quelconque.
Dans la partie droite de la fiche descriptive Eurka de la figure 1, on trouve de
l'information de nature pdagogique. La section du bas indique deux chemins
possibles de navigation thmatique conduisant cette ressource. En suivant ces
chemins, on pourra probablement trouver d'autres ressources apparentes et tout
aussi pertinentes. Dans Eurka, lutilisateur peut consulter la carte de visite de
chaque organisme ou de chaque personne ayant contribu la cration d'une
ressource. Un clic, et la carte de visite lectronique en format vCard de lauteur
apparat ! (ibid.).

192

Eurka un dpt dobjets dapprentissage compatible avec le profil dapplication Normetic


(LOM)

Figure 1 : Exemple de fiche de ressource dans Eurka16

Recherche libre par mots cls ou recherche guide par


arborescence
On distingue deux faons de naviguer dans Internet : la recherche libre par mots
cls (inscrire quelques mots dcrivant ce que lon cherche), et la recherche guide
par arborescence et par thme (naviguer dans des menus et des catgories). Les
deux modes sont disponibles dans Eurka : le mode recherche libre, simple ou
avance, permet de spcifier les paramtres de faon restreindre la recherche un
niveau particulier ou de la limiter l'intrieur d'un thme prcis. Le mode de
navigation guide par thmatique permet de fureter en descendant ou en remontant
le long d'arborescences thmatiques, un peu comme lorsqu'on bouquine dans les
rayons d'une bibliothque (Figure 2).

16

http://eureka.ntic.org/display_lo.php?action=show&lom_id=1787

193

Robert Bibeau

Figure 2 : Le rpertoire de ressources d'enseignement et d'apprentissage Eurka,


dvelopp par la Vitrine APO, offre deux modes de navigation : la recherche par
mots cls en mode simple ou avanc et la navigation guide le long
d'arborescences thmatiques (P.-J. guay, op.cit)

Les rsultats d'une recherche sont classs par pertinence selon le ou les
descripteurs o une correspondance a t tablie en fonction du nombre total de
correspondances dans une fiche donne. Le bouton
permet d'afficher la liste
des champs dans lesquels une correspondance a t obtenue et souligne les
occurrences. (ibid.).

194

Eurka un dpt dobjets dapprentissage compatible avec le profil dapplication Normetic


(LOM)

Figure 3 : Le dtail des rsultats de la recherche des mots rsolution et quation


est affich afin d'valuer la pertinence d'une ressource avant de consulter la fiche
complte

Qui contribue Eurka ?


Les ressources indexes et catalogues dans Eurka sont dcrites et valides par
plusieurs partenaires TIC des ordres d'enseignement primaire-secondaire et
collgial. On y trouve les logiciels du Centre Collgial de Dveloppement de
Matriel Didactique (CCDMD),17 les cours du Cgep@distance, 18 des ressources
offertes dans la plateforme de formation en ligne DECclic, 19 les rapports de
recherche PAREA du Centre de documentation collgial, et naturellement, les
rpertoires de la Vitrine APO (Bibliothque virtuelle des priodiques, Laboratoire
virtuel, Index de sites francophones ducatifs et guide Internet et ducation.20
Parce qu'elles sont dcrites dans un format normalis, d'autres ressources sont
galement accessibles. C'est ainsi qu'on y trouve la collection RESPEL, le
rpertoire de ressources pdagogiques en ligne de la communaut wallonne de
Belgique, partenaire du projet.21
Les enseignants sont galement invits enrichir le dpt en remplissant un
formulaire de suggestions qui sera trait par un des responsables de l'dition de
17

http://www.ccdmd.qc.ca/
http://www.cegepadistance.ca/
19
http://www.decclic.qc.ca/
20
htp://ntic.org
21
http://www.enseignement.be/respel/RespelRech/RechMotsCle.aspx
18

195

Robert Bibeau

ressources. Il n'est mme pas ncessaire que la ressource suggre soit dj


hberge sur un serveur Web ; elle peut tre directement dpose dans Eurka.22

Conclusion
La faon moderne de chercher des contenus ducatifs valids (REA) sur Internet
est d'interroger un dpt ou une moissonneuse de REA. Eurka est un dpt de
mtadonnes dcrivant des REA disponibles sur divers serveurs un peu partout sur
Internet. Certes, le fait de Produire des REA conformes aux standards et
spcifications impose des efforts additionnels et des comptences nouvelles qui ne
sont pas par dfaut dans les tablissements de formation mais seule l'utilisation
d'une description normalise permet d'viter les cueils des vocabulaires et des
classifications locales . Ainsi, en spcifiant des descriptifs standards de ces
ressources, on vite les difficults lies l'utilisation d'une nomenclature locale. Le
standard utilis dans Eurka est IEEE LOM (Learning Object Meta data), qui
contient 58 descripteurs regroups en diffrentes catgories (titre, description,
format, cycle de vie, etc.). Plus prcisment, est utilis au Qubec le
profil Normetic, qui exige l'inscription de vingt-trois (23) des descripteurs du LOM.

Rfrences bibliographiques
Bibeau, R. (2002), Un guide de rdaction et de prsentation dun scnario
pdagogique . Thot-Cursus, http://thot.cursus.edu/rubrique.asp?no=16778.
Bibeau, R. (2005a), Rpertoire de rpertoires de scnarios pdagogiques et
dactivits
dapprentissage
avec
les
TIC ,
Thot-Cursus,
http://thot.cursus.edu/rubrique.asp?no=20976.
Bibeau, R. (2005b), Les TIC lcole : proposition de taxonomie et analyse des
obstacles

leur
intgration ,
Revue
de
lPI,
dcembre.
http://www.epi.asso.fr/revue/articles/a0511a.htm.
Crepuq-Novasys (2003), La description normalise des ressources : vers un
patrimoine ducatif, Montral, CREPUQ-Novasys, p. 17-18.
GTN-Q (2005), Le profil dapplication NORMETIC ; La description normalise
des ressources, ISO/IEC JTC1/SC36, WG4/N1035; WG4/N1036.
GUAY, P.-J. (2005), Pdago-Dpt : une visite d'Eurka , Le bulletin Clic, no.
59, http://clic.ntic.org/clic59/eureka.html..

22

http://eureka.ntic.org

196

sinag-Asinag, 9, 2014, p. 197-206

Les Technologies de lInformation et de la


Communication (TICs) au service de lamazighe
Patrick Andries1
Lahbib Zenkouar2
Entretien ralis par le Comit de Rdaction
Les ralisations de lIRCAM, en termes de promotion de lamazighe dans les
TIC, ont t couronnes par lhomologation de lISO/Unicode et lintgration
directe dans les systmes oprationnels les plus communs. votre avis, dans
quelle mesure ces avances pourront-elles participer la revitalisation de
lamazighe ?

Patrick Andries

Ces avances peuvent participer cette revitalisation dans la mesure o, dune part,
elles liminent sur le plan pratique des obstacles la production de textes
amazighes laide des outils informatiques modernes et, dautre part, au niveau
1

Membre expert du Consortium Unicode, il est l'un des rdacteurs de la proposition de


normalisation des tifinaghes dans Unicode et l'ISO/CEI 10646. Il a galement contribu la
normalisation de nombreux caractres dans ces normes. Il est le rdacteur et le webmestre
du site ddi Unicode http://hapax.qc.ca. Auteur de louvrage Unicode 5.0 en pratique
et de plusieurs contributions scientifiques dans le domaine de la typographie, il a dirig le
dveloppement d'un navigateur internet multilingue et d'une bibliothque logicielle
d'internationalisation. Il exerce actuellement le mtier de conseiller spcialiste dans la
publication lectronique, la gestion documentaire et l'internationalisation des applications.
2

Lahbib Zenkouar est enseignant-chercheur lEcole Mohammadia dIngnieurs et


Professeur de gnie lectrique cette cole. Il est galement chef de lquipe travaillant sur
les Techniques de Communications et Radiocommunications (TCR) au Laboratoire
dElectronique et Communication (LEC). Il est ex-directeur du Centre des Etudes
Informatiques, des Systmes dInformation et de Communication (CEISIC) de lInstitut
Royal de la Culture Amazighe (IRCAM).
L. Zenkouar a conduit plusieurs projets concernant linformatisation de lcriture amazighe
tifinaghe, notamment plusieurs normes dont la norme de codage 10646. Son domaine de
recherche et dveloppement concerne les systmes dinformation et de communications et
linformatisation de la langue amazighe.
L. Zenkouar est titulaire dun Doctorat de luniversit des sciences et techniques du
Languedoc en microlectronique Montpellier (France) et dun Doctorat en sciences
appliques en tlcommunications de lInstitut dElectricit de Montefiore Lige
(Belgique).

197

Entretien avec Patrick Andries & Lahbib Zenkouar

symbolique, elles annoncent au grand public que cette langue peut sexprimer par
ces outils associs la modernit, que cette langue peut sinscrire dans cette
modernit.
Si ces avances techniques sont ncessaires aujourdhui, elles ne sont toutefois pas
suffisantes pour assurer la revitalisation de lamazighe.
Lahbib Zenkouar

Ces ralisations sont primordiales pour le devenir de la langue amazighe car elles
permettent lcriture amazighe dtre reconnue et manipule par tous les outils de
traitement lectronique de linformation quel que soit leur type dinterface,
notamment les ordinateurs et actuellement les portables mobiles qui en plus de la
communication tlphonique intgrent de plus en plus quasiment toutes les
fonctionnalits de lordinateur.
Par ailleurs, cette reconnaissance tout fait technique base sur lattribution dun
code lectronique chaque symbole ou glyphe de lalphabet amazighe, constitue
une conscration internationale de lcriture amazighe tifinaghe et marque de
manire irrversible son inscription dans le patrimoine universel des critures de
notre humanit en tant quattribut propre la civilisation amazighe.
Cette norme a permis llaboration de la norme de tri, base sur les codes
lectroniques attribus aux lettres de lcriture amazighe par la norme ISOUNICODE, en plus dune algorithmique propre cette norme, permettant un
amnagement du tri qui tient compte des caractristiques propres de la langue
parle au niveau local.
Le codage ISO-UNICODE a permis galement llaboration de la norme des
claviers amazighes. Cette dernire a tenu compte de lhabitude acquise par les
scripteurs et chercheurs amazighes imprgns par le clavier azerty qui a prcd et
permis de travailler normalement malgr une occupation locale du plan multilingue
de base (BMP) supportant cette premire version de fortune. Sur ce volet, la
logique dadoption des claviers a t respecte, et se rvle une question
dhabitude plutt que dune tude dtaille sur la frquence des lettres dans un
texte.
Ce bref historique a permis daboutir des claviers standards respectant la norme
ISO-9995 des claviers et sappuyant sur un codage rserv exclusivement la
langue amazighe.
Il convient de souligner que la norme de tri labore par lIRCAM, comporte des
clauses informatives de grande importance puisque celles-ci fournissent les
correspondants latins et arabo-aramens du rpertoire Tifinaghe. Bien videmment,
dans le cas de ces normes informatives, la langue parentale est soit le latin soit
larabe. La seule criture rpertorie sur le registre strictement amazighe, comme je
lai soulign prcdemment, est bien videmment lcriture tifinaghe et constitue

198

Les Technologies de lInformation et de la Communication (TICs) au service de lamazighe

de ce fait une symbolique identitaire de lappartenance amazighe que nous


constatons travers toute lAfrique du Nord. Conclure que cette immense
symbolique est partie des services de lIRCAM est une fiert pour tous les
chercheurs de lInstitut. Cet tat desprit est une forme de cette revitalisation de
lamazighe. LIRCAM prouve ainsi, grce son pragmatisme, son efficacit et son
utilit sur peine une dcennie.
En outre, ltablissement de cette correspondance entre ces glyphes permettra de
traduire en tifinaghe les textes berbres crits en lettres arabes et enrichira ainsi la
bibliothque amazighe qui en a grand besoin.
De mme, ils permettront une correspondance rciproque quasiment bijective entre
lalphabet amazighe crit en tifinaghe et lalphabet en latin, utilis pour transcrire
lamazighe.
La stratgie poursuivie par le centre des technologies de linformation et partant de
lIRCAM, dlaborer des polices de qualit et de styles diffrents a permis de
nourrir cette criture et constitue actuellement et juste titre un atout de taille dans
la communication visuelle de cette criture dans lespace public et les difices de
lEtat.
Sur ce chapitre, la huitime chane de tlvision nationale Tamazight aurait eu
beaucoup de mal si elle navait pas dispos de ces polices ralises par lquipe des
technologies de linformation et de la communication de lIRCAM, suite aux
normes adoptes. Nous constatons avec merveillement que tous ces efforts ont
permis de revitaliser pleinement lcriture amazighe tifinaghe sur ce moyen de
communication public pntrant tous les foyers du Royaume.
Tous les lments que je viens de citer sont des preuves de la revitalisation de la
langue amazighe. Il reste cependant faire converger grce ces atouts
technologiques, les travaux des chercheurs de lIRCAM sur la production dun
dictionnaire global, moderne et contemporain de notre re. Tous les efforts des
chercheurs doivent tre dirigs dans ce sens.
Par ailleurs, il faut associer intiment cet effort, celui des ouvrages pdagogiques
dapprentissage de lcriture et de la langue amazighe.

199

Entretien avec Patrick Andries & Lahbib Zenkouar

En septembre 2012, Microsoft a annonc, au sige de lIRCAM Rabat, la


naissance de son nouveau systme dexploitation Windows 8 qui intgre
lamazighe dans son rpertoire linguistique. Quelles sont, selon vous, les
retombes de cet vnement ?
Patrick Andries

Windows 8 a, en effet, amlior la prise en charge de lamazighe et du tifinaghe sur


ce systme dexploitation trs rpandu. Cest une bonne nouvelle. On pouvait
dsormais choisir un clavier tifinagh livr doffice avec le systme
dexploitation pour saisir des textes identifis comme tant de lamazighe, ou
plutt comme du tamazight selon la nomenclature choisie par Microsoft.
Il faut cependant apporter un bmol. Sous le capot, Microsoft a dcid pour
Windows 8 que ce tamazight correspondrait un indicatif de langue erron.
Lorganisation internationale de normalisation, lISO, publie plusieurs listes
dindicatifs de langues que les ordinateurs utilisent pour tiqueter les textes
informatiques. La srie de normes internationales qui identifient les langues est
connue comme lISO 639. Un texte franais informatis sera donc accompagn
dune tiquette ISO 639 valant fr pour prciser quil est crit dans cette langue.
Un texte anglais sera dcor dun indicatif ISO 639 en . Cest trs utile pour
toute srie de processus comme la vrification orthographique ou la traduction
automatique.
Dans le cas de Windows 8, Microsoft a choisi dutiliser lindicatif [tzm] pour
indiquer le tamazight . Or cette valeur ne correspond dans lISO 639 qu un des
parlers amazighes du Maroc : la variante de lAtlas central. Heureusement, grce
aux efforts de lIRCAM, ce choix malencontreux sera corrig dans la version 8.1 :
lamazighe marocain standardis qui correspond au nouvel indicatif ISO 639 [zgh]
sera pris en charge. Cet indicatif correspond la norme amazighe commune
prconise par lIRCAM pour lensemble des parlers amazighes du Maroc. Le
nom non qualifi de tamazight ne sera plus non plus associ lindicatif [tzm].
Cet indicatif sera dsormais dcrit dans linterface de Windows 8.1 de manire plus
correcte comme lamazighe de lAtlas central.
Il faut enfin comprendre que dire que lamazighe est dans le rpertoire
linguistique ne signifie pas que Windows corrige dsormais, par exemple,
lorthographe amazighe ou que linterface graphique de Windows est en amazighe.
Non, il sagit plutt dune tape ncessaire pour permettre la vrification
orthographique et la traduction de linterface : Windows sait maintenant comment
dsigner lamazighe, il lui a attribu un code dans son rpertoire linguistique. Une
place est libre pour les outils et ressources amazighes, on peut donc maintenant
greffer des outils linguistiques amazighes Windows.

200

Les Technologies de lInformation et de la Communication (TICs) au service de lamazighe

Lahbib Zenkouar

La retombe de cet vnement, comme vous le dites, est la consquence intgrale


des aspects dbattus dans la rponse la premire question. Il faut souligner, pour
les profanes, que Microsoft ne peut raliser que ce qui est inscrit dans les normes,
notamment pour le codage Unicode. Mais, galement pour le clavier amazighe
marocain et pan-amazighe qui sont raliss par ce fabricant de logiciels
conformment la norme. Il faut prciser que ces normes peuvent subir des
amendements pour les rendre pratiques en fonction de lvolution des techniques
de communication et de linteraction homme-machine. Il faut aussi souligner que
les systmes dexploitation tels que prsents par Microsoft tendent vers de
nouvelles configurations des OS (Operating System) qui sapparentent aux formes
des interfaces actuelles des portables tlphoniques mobiles.
Ce qui laisse supposer que les polices tifinaghes vont occuper les tablettes et en
gnral, ces nouvelles architectures des tlphones mobiles.

La recherche scientifique dans le domaine de la langue et de la culture amazighes


est appele voluer au niveau de luniversit marocaine. Quelles pistes
envisagez-vous dans ce domaine ? Pensez-vous que ce domaine soit dintrt ?
Patrick Andries

mon sens, le domaine du gnie linguistique et de la recherche sur la


langue amazighe est trs prometteur et tout aussi original. Il reste tant de terrains
dfricher, tant dapplications pratiques crer et diffuser.

Il suffit de penser aux outils de vrification orthographique puis grammaticale de


lamazighe ou la mise la disponibilit des usagers de ressources
terminologiques en ligne comme le Trsor de la langue franaise3, Termium4 au
Canada ou le Grand dictionnaire terminologique au Qubec5.
Ces sujets qui reposent sur un travail linguistique fondamental o lIRCAM a
sans doute un rle de coordination irremplaable sont du plus grand intrt pour
les jeunes chercheurs linguistes et informaticiens marocains attirs par des sujets
denvergure qui pourront avoir un effet des plus concrets sur les locuteurs
amazighophones.

http://www.cnrtl.fr/definition/
http://www.btb.termiumplus.gc.ca/tpv2alpha/alpha-fra.html?lang=fra
5
http://gdt.oqlf.gouv.qc.ca/
4

201

Entretien avec Patrick Andries & Lahbib Zenkouar

La recherche scientifique dans le domaine de la langue et de la culture amazighes


est appele voluer au niveau de luniversit marocaine. A votre avis, quelle
serait la meilleure dmarche pour consolider la place de la langue amazighe et
assurer la continuit de son dveloppement au sein des structures et laboratoires
de recherche uvrant dans le domaine des TICs ?
Lahbib Zenkouar

Cette question est dune grande importance pour le devenir de la langue et de la


culture amazighes. Il faut absolument se pencher sur cette problmatique pour
pouvoir tirer les conclusions adquates de manire assurer le dveloppement de
ce secteur. La recherche universitaire est une grande opportunit pour une
vritable revitalisation dans lespace universitaire de la langue et de la culture
amazighes quil convient dencadrer et de diriger.
Il faut encourager la recherche extra-IRCAM tout azimut, tout en essayant de
dvelopper des axes prioritaires sur les quels se pencheront plusieurs laboratoires.
Mais comment procder ?
A mon avis, il faut tenir un workshop international dont le seul thme est le
dveloppement de la recherche concernant lamazighe et lorganiser de manire
rpondre aux objectifs de cette recherche.
Je pense quil faut sinspirer fortement de lInstitut pour larabisation ou crer un
homologue dont lobjectif est lamazighisation ou, dfaut, un comit constitu
des chercheurs de plusieurs centres et dont la mission aura pour objectif la
rflexion sur les moyens de transmission de la langue amazighe.

Nous constatons aujourdhui un processus de virtualisation du savoir et des


communauts travers lInternet et les rseaux sociaux. Le support informatique
prime ainsi, de plus en plus, sur les autres moyens de communication. Que pensezvous de la place de lamazighe dans ce nouvel espace ? Quelles sont les
contraintes qui psent sur la numrisation dans le domaine amazighe et quels
seraient, daprs vous, les moyens ncessaires pour les surmonter ?
Patrick Andries

Les contraintes qui psent sur cette numrisation de lamazighe sont celles o les
outils numriques sont mal adapts lamazighe et affichent un retard par rapport
des langues comme le franais ou larabe.
Nous avons dj parcouru un bon bout de chemin : un systme dexploitation
comme Windows comprend doffice une police tifinaghe, un clavier tifinaghe, les
noms de fichiers peuvent tre en tifinaghe. On peut galement schanger des

202

Les Technologies de lInformation et de la Communication (TICs) au service de lamazighe

courriels, afficher des pages internet en tifinaghe grce aux normes informatiques
qui prennent dsormais en charge les tifinaghes.
Il faudra bien sr, comme nous lavons vu ci-dessus, dvelopper de nouveaux
outils qui permettent la production de qualit de texte amazighe plus facilement :
correcteur orthographique, grammatical, ressources lexicographiques en ligne,
savoir les outils informatiques utiliss pour produire du matriel numrique dans
des langues concurrentes. Cest une uvre de longue haleine, mon sens
essentielle.
Il faut aujourdhui sassurer que les nouvelles plateformes, sans doute aussi
importantes que les PC, voire plus, offrent les mmes outils que ceux disponibles
sur Windows. Il faut donc que les tlphones intelligents et les tablettes
numriques au Maroc proposent au strict minimum un clavier tifinaghe, des polices
tifinaghes. Certaines initiatives prives existent dj ; elles permettent ainsi lajout
facile dun clavier et de polices tifinaghes des tlphones cellulaires Galaxy sous
Android (voir ci-dessous).

203

Entretien avec Patrick Andries & Lahbib Zenkouar

Enfin, peut-tre, faudra-t-il donner un coup de pouce aux producteurs de contenu


numrique amazighe en fournissant une aide technique et des contenus de
rfrence en ligne dont les producteurs de contenu pourraient sinspirer ou quils
pourraient mme copier gratuitement pour faciliter et baisser le cot de production
des contenus amazighes. On peut notamment penser la publication en ligne de
textes classiques, de contes, de proverbes, dinformations historiques ou de

204

Les Technologies de lInformation et de la Communication (TICs) au service de lamazighe

chansons (galement sous format vido) en amazighe. Le rle de facilitateur dune


institution comme lIRCAM est, bien sr, primordial dans ce domaine.
Lahbib Zenkouar

La virtualization de limprimerie a eu lieu il y a plus dune dcennie. Dans les


programmes daction de lIRCAM, une grande partie des projets est consacre
cet aspect. Mais il y avait tellement daspects quune certaine confusion pouvait
rgner ce moment-l ou, du moins, laisser paratre une forme de confusion pour
les profanes.
A ma connaissance, tous les crits de lIRCAM sont faits sous impression
numrique. La bibliothque de lIRCAM est, par consquent, de plain-pied dans la
virtualisation tout en sinscrivant galement sur le support papier et, donc, de
lcrit classique quil ne faut aucun prix abandonner ou laisser en second lieu.
Lcrit classique sur papier doit tre la priorit number one de la bibliothque
amazighe. Bien videment, la virtualisation permettra une plus large diffusion et un
bnfice maximum au profit du public intress ; ce qui constitue le principal
objectif de lIRCAM.
Pour revenir un aspect de la virtualisation, je donnerai pour exemple ce qui est
fait sur le site de lcole amazighe qui a permis de mettre disposition les ouvrages
didactiques et qui a contribu ainsi faire bnficier
la communaut
amazighophone des normes efforts pdagogiques dapprentissage raliss par
lIRCAM.
Il faut, mon avis, continuer amliorer les services offerts par les logiciels
relatifs ldition, la collecte et la classification des ouvrages traitant des
aspects de la langue et de la culture amazighes. Il faut dvelopper la recherche sur
lindexation des textes, la recherche thmatique, le traitement automatique des
langues naturelles, la recherche de linformation. Bien videmment, cet aspect des
choses se fera dans le cadre de la recherche dveloppe lintrieur et lextrieur
de lIRCAM.
Sur dautres aspects de la virtualisation, il faut crer un dialogue avec la
communaut amazighe et crer des forums spcialiss. Il reste dvelopper cette
approche et la rendre cible et pertinente.
En outre, tous ces aspects sont complmentaires et peuvent tre traits par des
laboratoires universitaires et rpondraient ainsi aux problmatiques poses dans la
question prcdente.
Sur un autre plan, il faut numriser les crits anciens pour viter leur perte,
amliorer leur prsentation grce aux logiciels de traitement dimages et essayer de
les traduire en tifinaghe pour enrichir et agrandir la bibliothque amazighe.

205

Entretien avec Patrick Andries & Lahbib Zenkouar

Je pense que tous les corpus qui permettront de travailler et de rflchir en


amazighe et sur lamazighe doivent tre initis et soutenus quelle que soit leur
forme dexpression, quelle soit orale, crite ou visuelle. Cest, mon avis, un
norme chantier numrique.
En conclusion, jai la ferme conviction qu laube de la nouvelle constitution qui
consacre la langue amazighe langue officielle du Royaume du Maroc, lIRCAM,
pionnier valeureux de cet effort culturel, peut se rvler insuffisant en nombre de
chercheurs. En plus de cette illustre institution laquelle il faut, mon avis,
attribuer un rle dexpertise et de coordination, il faut crer des institutions
rgionales, dvelopper et soutenir la recherche dans les universits, crer des
centres de recherches spcialiss pour arriver suivre et mettre sur pied dans les
plus brefs dlais une langue efficace capable de donner corps cette nouvelle
ralit de la langue amazighe.

206

Comptes rendus

sinag-Asinag, 9, 2014, p. 209-212

Compte rendu de louvrage dAhmed Boukous intitul : Revitalisation de la langue


amazighe et sous-titr : Dfis, enjeux et stratgies, publi par lInstitut Royal de la
culture amazighe, srie : Etudes n 22, Imprimerie Top Press, Rabat, 2012.
Physiquement, le livre dAhmed Boukous comporte 354 pages. Aprs les
premires pages souvrant sur un bel exergue correspondant un passage emprunt
Amin Maalouf prconisant le droit de chaque citoyen reconnatre une part de
lui-mme dans la culture mondiale mergente dans le nouveau millnaire, puis
aprs le rappel de quelques titres publis par lauteur, vient un sommaire, des pages
prsentant le protocole de transcription ainsi que le systme de transcription
adopts. Ensuite un prologue dune dizaine de pages (pp. 1-10) met en contexte la
problmatique aborde dans sa complexit et rsume les axes essentiels des
thmatiques abordes.
Louvrage sorganise en deux grandes parties. Dans la premire (pp. 11 120),
compose de 5 chapitres, lauteur fait le diagnostic de la situation linguistique de
lamazighe en relation avec les autres langues au Maroc, aussi bien sur le plan
national que supranational. Il dresse un bilan des divers facteurs qui menacent la
survie de lamazighe ou entravent son volution. Situation que rsume bien la
notion dattrition langagire.
La deuxime partie (pp. 121 310), compose de 7 chapitres, passe en revue les
lments porteurs despoir susceptibles dassurer la revitalisation de lamazighe
dont les plus essentiels sont reprsents par :

limportance du cumul ralis par les travaux de description de la langue et de


la culture amazighes depuis le protectorat nos jours (aprs sparation
prudente entre ce qui relve de lidologie et ce qui relve de la science) ;
le succs des stratgies adoptes au niveau de laction de la socit civile et de
la rponse positive apporte par lEtat aux aspirations des dfenseurs de
lamazighe (fait que rsume bien la notion de rsilience) ;

les efforts prometteurs de codification, normalisation et standardisation de


lamazighe ;

la possibilit de contourner les tapes intermdiaires entre le local et le global


grce au concept de glocalisation dont lapplication permet de fournir un
levier de matrise des effets de la dominance induits par la globalisation et
ceux des mcanismes de rsilience gnrs par les spcificits locales (p.
313). Ensuite, vient un pilogue servant de conclusion louvrage (pp. 311
326).

Le livre se termine par une bibliographie bien fournie, un index des termes, une
table des figures et une table des matires.
Sur le fond, la description que fait lauteur de la situation linguistique marocaine
est devenue un classique dans les travaux de sociolinguistique sur le Maroc,
notamment la hirarchie propose des strates linguistiques qui y coexistent : la
strate locale (lamazighe), la strate centrale (larabe), la strate supercentrale (le
franais) et la strate hypercentrale (langlais).

209

Le livre explore des notions qui pourraient sembler, de prime abord, relever dune
simple terminologie subjective (rsilience, revitalisation, attrition, glocalisation,
obsolescence,), mais qui constituent de vritables concepts puiss dans la
littrature spcialise. Le pari de cette situation est justement de garder
suffisamment de distance par rapport sa subjectivit afin dasseoir ses
questionnements et son argumentation sur des bases objectives. De sorte que
lauteur sefforce, dans le style adopt, dtablir lquilibre entre la rgle de la
mthode scientifique et les principes de lthique et de lquit dont le chercheur
citoyen ne peut se dpartir (p. 10).
Ceci a une incidence indniable sur son style dcriture o chaque mot est pes, o
il sinterdit tout drapage motif, rattrap cependant par le sens commun que
pourraient suggrer des termes comme revitalisation , mise mort , mise
en danger des langues.
Le livre prsente une multiplicit dangles de vue, sur la situation des langues au
Maroc, et, en particulier, celle de lamazighe. Le mme objet est abord selon
plusieurs points de vue ; le politologue, le sociologue, le sociolinguiste, le linguiste,
y trouvent tous leur compte.
La documentation et les rfrences bibliographiques utilises sont dun intrt
primordial aussi bien du point de vue de leur pertinence que de leur actualit, les
travaux classiques ne sont pourtant pas ngligs.
La question de la variation linguistique est aborde sur la base dun examen
minutieux du systme phonologique et morphologique des parlers tudis en
relation avec lclairage apport par les variables sociolinguistiques considres.
On reconnat le travail de lhomme de terrain.
Par ailleurs, le dialectologue est satisfait de recommandations, concernant les
travaux hrits du colonialisme, de ne pas jeter le bb avec leau du bain.
Le livre lui-mme reflte lapproche dialectique entre lobjet danalyse conu
comme une entit abstraite et son ancrage dans la socit : incessant va et vient
entre les proccupations acadmiques chiffres et les notions dthique et dquit.
Le style est domin par une approche conomiste de la langue : notion de
march, change, gestion, offre, globalisation ainsi que le concept de conflit,
violence symbolique (inspir de Bourdieu). De telle manire quen plus de servir
doutil de positionnement dans la hirarchie sociale, la langue est un indicateur
de dveloppement cognitif de lindividu . Ce qui met en parallle le
dveloppement socio-conomique avec le degr daccs la connaissance.
Lauteur recourt abondamment la matrice SWOT utilise dans le domaine de la
gestion des entreprises.
Face au poids des forces sociales pratiquement inconscientes qui relguent
lamazighe dans une position de langue minore, lauteur entrevoit, pour faire
pencher la balance, lopportunit dun recours volontariste l mergence de la
conscience identitaire communautaire tout en signalant le danger probable du
communautarisme.

210

Suite linstitutionnalisation de lamazighe comme langue officielle, ct de


larabe standard, il appelle plus dimplication des dcideurs politiques, la socit
civile ayant accompli, en grande partie, sa tche.
Le cheminement de la pense de lauteur se fait avec prudence, la progression se
fait du simple au complexe, anticipant les objections des contradicteurs ventuels.
Il est tenu compte dun pralable important : celui de la ncessit de sparer le
discours pilinguistique (registre des reprsentations que se fait le locuteur de sa
langue et explications spontanes relevant dun amateurisme de bonne foi mais
souvent passionnel) du discours mtalinguistique (fond sur une approche plus
prudente, demandant sans cesse lvidence de se justifier).
Le projet de codification et de standardisation de lamazighe ayant suscit
beaucoup de polmique, lauteur, sans contourner la difficult, expose pas pas les
diverses tapes de la rflexion ce sujet, ladoption et ladaptation de lalphabet
tifinaghe, les diverses niveaux des propositions de standardisation : supranational,
national, rgional et local, ainsi que leurs avantages et inconvnients. On peut
souligner une conception rvolutionnaire de la standardisation entrevue par
lauteur : une standardisation raisonne. Celle-ci, loin de limiter lavenir de la
sauvegarde de lamazighe au seul locuteur amazighophone appel agir au niveau
de la transmission gnrationnelle ainsi qu laction militante sur le plan civil et
national, et loin de le faire dpendre uniquement de la conscience et de
lengagement de la communaut concerne (p. 8, citant Landry et al. : 2005),
pourrait rpondre aux besoins des apprenants dont lamazighe, local ou rgional,
nest pas langue premire, dautant plus que la Constitution consacre le caractre
national de lamazighe p. 257).
Ainsi pourrait se dessiner, notre sens, un espoir de voir slargir la base de la
masse parlant lamazighe en misant aussi, pour la promotion de cette langue, de
faon parallle la transmission gnrationnelle, sur les locuteurs dont lamazighe
nest pas la langue maternelle. Cette voie pourrait favoriser une gnralisation de
lenseignement de lamazighe dans une perspective de standardisation qui serait
envisage comme la construction du standard national partir de la
capitalisation des convergences interdialectales et lenrichissement du vocabulaire
commun par le moyen de la nologie lexicale et de la terminologie pour crer les
technolectes ncessaires (p. 245).
Par ailleurs, lissue de cette brve synthse, nous nous permettrons de formuler
une remarque. Comme corrlat cette conception innovante de la standardisation,
nous pensons que, bien que comprhensible sur le plan historique, la rflexion
propose par lauteur, sur lamazighit (pp. 317-321), et ce malgr la rfrence au
discours royal du 17 octobre 2001 o il est affirm que lamazighit occupe une
position centrale dans lidentit nationale, quelle constitue une culture en partage
entre les diffrentes sensibilits du peuple marocain (p. 138), cette rflexion
donne limpression de se limiter au seul rapport entre amazighe et amazighit et ne
dveloppe pas la conception originale mentionne plus haut, susceptible, pour sa
part, de contribuer au renforcement de la masse parlante de lamazighe standard en
cours de construction. Sur le plan de la recherche en dialectologie galement, elle
ne permet pas de combler la fracture entre la recherche sur larabe marocain et
celle portant sur les diverses varits de lamazighe, qui semblent se tourner le dos.

211

Ainsi, le sentiment pour certains locuteurs dappartenir au monde de lamazighit


bien quayant larabe comme langue maternelle (soit par rupture de la courroie de
transmission gnrationnelle, soit du fait de lappartenance un espace
historiquement arabis mais o le substrat amazighe est patent tous les niveaux :
phonique, morphosyntaxique et lexical, sans oublier le toponymique et le
patronymique), ne trouverait pas son expression dans lamazighit rduite au seul
rapport entre lamazighe et la communaut amazighophone. En effet, il nous
semble que les travaux dinvestigation sur larabe marocain sont susceptibles
dapporter des clairages sur des tats de la langue amazighe concernant son
systme phonologique, morphosyntaxique et lexical. La recherche sur la structure
et lhistoire de larabe marocain relve aussi, pour une grande part, notre sens, de
la rflexion sur lamazighit, entendue en tant quensemble de valeurs culturelles
qui constitue le socle de notre personnalit et qui transcende lamazighophonie.

Fouad Brigui
Universit Sidi Mohammed Ben Abdallah, Fs

212

Rsums de thses

sinag-Asinag, 9, 2014, p. 215-218

Amrouche Mustapha (2012), Reconnaissance de caractres, de textes et de


documents base sur les modles de markov cachs, Universit Ibn Zohr, Facult
des Sciences dAgadir.
Mots cls : Reconnaissance automatique de lcriture, Ecriture Amazighe,
Tifinagh, Approches syntaxiques, automates tats finis, Rseaux de neurones.

Les travaux de recherche que nous avons mens sintressent au dveloppement


des mthodes de reconnaissance de caractres manuscrits et imprims et de textes
en tenant compte du contexte par combinaison de niveaux d'analyse et de
connaissances morphologiques. Nous proposons ainsi deux approches de
reconnaissance de lcriture arabe et amazighe.
En effet et en premier temps, nous avons dvelopp une approche de
reconnaissance de caractres isols, base sur les primitives directionnelles
obtenues laide de la technique des fentres glissantes partir de la transforme
de Hough de caractre. Lapproche conue adopte une modlisation markovienne
de type modle discriminant qui consiste associer un ou plusieurs modles par
classe. Selon cette mthode, la reconnaissance seffectue en estimant les
probabilits dmission de la suite dobservations de la forme reconnatre par les
diffrents modles pralablement construits. La forme reconnatre est affecte
la classe dont le modle qui maximise la probabilit. Cette approche est
pratiquement utilise dans le cas o le nombre de classes reconnatre est
relativement limit (application vocabulaire limit). Toutefois, elle devient
coteuse en temps de calcul et espace mmoire quand ce nombre dpasse le millier,
puisque chaque classe possde au moins un modle qui lui est propre. Nous
valuons le systme de reconnaissance propos sur des bases de donnes de
caractres arabes et amazighes.
Lapproche propose donne de bons rsultats, bien quelle ne tienne pas compte
des caractristiques morphologiques de lcriture tudie. En effet, nous avons
valu les performances de notre systme sur la base des caractres Tifinaghs
AMHCD1 [1] avec deux variantes. La premire adopte la modlisation discrte des
probabilits dmission, la seconde utilise les HMMs continus.
A partir de la base AMHCD, nous avons constitu deux parties : apprentissage et
test.
Pour la partie apprentissage, nous avons 17160 exemples de caractres, soit 2/3 de
la base AMHCD ; pour la partie test, 8580 exemples caractres, soit 1/3 de la base
ladite base. Avec la modlisation discrte, nous avons obtenu un taux de
reconnaissance de 90, 4%. Dans le cas continu, on procde par une modlisation
des densits des probabilits par des gaussiennes. Nous avons effectu une srie
dexprimentations sur la totalit de la base AMHCD. A laide de ces expriences,
1

Youssef Es Saady, Ali Rachidi, Mostafa El Yassa and Driss Mammass. Article: AMHCD:
A Database for Amazigh Handwritten Character Recognition Research. International
Journal of Computer Applications 27(4):44-, August 2011. Published by Foundation of
Computer Science, New York, USA.

215

nous avons valu le taux de reconnaissance de notre approche en fonction de


nombre dtats par modle HMM et de nombre de gaussiennes. En effet, nous
avons utilis cinq topologies qui varient entre 6 et 14 tats pour tudier linfluence
de ces paramtres sur les performances pour une modlisation des missions par
une seule ou deux composantes gaussiennes. Le tableau ci-dessous prsente les
rsultats obtenus sur cette base.
Nombre dtats
Nombre de gaussiennes

6
1-2

8
1-2

10
1-2

12
1-2

14
1-2

Taux de reconnaissance

96,21%

96, 56%

96, 88%

97, 38%

97, 89%

Dans un second temps, nous avons propos une deuxime mthode pour la
reconnaissance automatique hors ligne de caractres Tifinaghes imprims. La
mthode propose est base sur un chemin discriminant (DP-HMM) oprant sur un
vocabulaire de base form de diffrents graphmes fondamentaux. Le vocabulaire
est gnr en se basant sur les caractristiques morphologiques de la graphie
amazighe. Un seul modle HMM global construit et entran sur les lments du
lexique propos par des primitives structurelles et gomtriques. Chaque chemin au
long de ce treillis reprsente une squence de segments, qui constitue un caractre
de lalphabet Tifinaghe. Pour ce faire, les caractres dentres sont pr-classs en
deux groupes (forme circulaire et non circulaire). Par la suite, ils sont dcrits par
leurs points dintrts et leurs segments. La reconnaissance seffectue en dcodant
dynamiquement le chemin optimal suivant le critre de maximum de
vraisemblance.
Les taux obtenus ont montr la robustesse de lapproche propose. En effet, pour
valider le systme propos, nous avons effectu des exprimentations significatives
l'aide de Toolkit (HTK) sur la totalit de la base de donnes de patterns de la
graphie amazighe 2 (BD1). Nous avons constitu, partir de cette base, deux
ensembles distincts de donnes, un ensemble A (A=2/3) pour lapprentissage et un
ensemble B (B=1/3) pour les tests.
Plusieurs tests ont t effectus pour valuer le taux de reconnaissance du systme
en fonction de nombre dtats et de nombre de mlange de gaussienne. Par ailleurs,
nous avons effectu les premiers tests sur toute la base de patterns de la graphie
amazighe (BD1 : contient 19437 caractres multi fonts cest--dire. 627
chantillons x 31 classes). Le Tableau ci-dessus prsente les rsultats obtenus de
ces tests sur la base BD1, en utilisant les modles mono-gaussiens, les modles
deux gaussiens et les modles trois gaussiens.
Nombre dtats
Nombre de mlange de gaussienne
Taux de reconnaissance
2

3
1-2-3
99, 38%

5
1-2-3
99,72%

Y. Ait Ouguengay, M. Taalabi (2009), Elaboration dun rseau de neurones artificiels


pour la reconnaissance optique de la graphie amazighe: Phase dapprentissage , Systmes
intelligents-Thories et applications, Paris : Europia, cop. (impr. au Maroc).

216

Essaady Youssef (2012), Contribution au dveloppement d'approches de


reconnaissance automatique de caractres imprims et manuscrits, de textes et de
documents Amazighes,Universit Ibn Zohr, Facult des Sciences dAgadir.
Mots cls : Modles de Markov cachs, reconnaissance de lcriture manuscrite et
imprime, primitives structurelles et directionnelles, transformation de Hough.

Cette thse a pour objet principal la reconnaissance automatique hors ligne de


lcriture amazighe. Dans ce cadre, nous avons dabord construit une base de
donnes, nome AMHCD, de caractres amazighes manuscrits composs de plus
de 25.000 caractres isols crits par 60 scripteurs diffrents. Cette base a t
utilise pour valuer et tester les rsultats de nos travaux. Elle est destine aussi
servir d'autres chercheurs dans le domaine de la reconnaissance de lcriture
amazighe manuscrite.
Ce travail de recherche propose deux approches de reconnaissance automatique de
lcriture amazighe qui ont contribu amliorer les performances. La premire
approche est syntaxique ; elle utilise des automates tats finis avec des primitives
structurelles pour reconnaitre les caractres amazighes imprims. Elle sintresse
la forme du caractre tifinagh qui est compos de primitives structurelles telles que
des segments, des points et/ou des petits cercles. Aprs les prtraitements, des
algorithmes appropris permettent de construire la chane du codage de Freeman
reprsentant le caractre en entre. La chane est utilise dans l'entre de l'automate
maximal canonique, qui reconnat tous les caractres amazighes segments pour
dcider la classe dappartenance du caractre. Cet automate est construit partir
des automates spcifiques de chacun des caractres amazighes imprims. Sur une
base de 630 caractres amazighes imprims isols, les rsultats exprimentaux
montrent la solidit de lapproche. Sur 630 caractres, 589 ont t reconnus, soit un
taux de reconnaissance de 93,49%. Les erreurs de reconnaissance proviennent de la
forme de certains caractres non reconnus dont le squelette comporte plus des
segments non orthogonaux. La limite de cette approche est quelle ne traite pas les
caractres circulaires. De plus, les caractres amazighes manuscrits ne peuvent tre
pris en compte par cette approche.
Afin de remdier ces limites, nous avons dvelopp un deuxime systme de
reconnaissance de l'criture amazighe bas sur la ligne centrale horizontale du
caractre. Ce systme est bas sur une approche neuronale qui utilise un rseau de
neurones multicouches comme classifieur. Aprs des prtraitements sur limage
dentre, le texte est segment en lignes et puis en caractres isols. Les positions
des lignes centrales horizontales du caractre sont utilises pour obtenir un
ensemble de caractristiques indpendantes et dpendantes ces lignes. Ces
caractristiques sont lies aux densits de pixels et sont extraites sur les images
binaires des caractres en se basant sur lutilisation de la technique des fentres
glissantes. Le systme a montr de bonnes performances sur une base de 19437
paternes amazighes imprims et sur 20150 caractres amazighes manuscrits de la
base AMHCD. La base des paternes imprims utilise contient peu prs vingt
mille patterns. Il sagit dune base des patterns de diffrentes fontes amazighes et
de tailles varies. Elle contient au total 12 polices de caractres et les tailles du 10

217

points au 28 points pour chaque modle. Les patterns sont fournis sous forme
dimages bitonales de tailles variables.
Une amlioration de ce systme a t propose en intgrant d'autres
caractristiques bases sur la ligne centrale verticale du caractre. Cette
amlioration a donn de bons rsultats. En effet, pour la base des patterns imprims,
le taux de reconnaissance est 98,49% lors de l'intgration des caractristiques
bases sur la position de la ligne centrale horizontale et augmente 99,28% lors de
l'ajout des caractristiques bases sur la position de la ligne centrale verticale. Pour
la base AMHCD de caractres amazighes manuscrits, le taux augmente de 92.23 %
96.32 % lors de l'ajout des caractristiques bases sur la position de la ligne
centrale verticale du carctre. Les causes d'erreurs sont principalement dues une
grande similarit morphologique entre certains caractres amazighes et, parfois, sur
des fontes diffrentes.

218

sinag-Asinag, 9, 2014, p. 219-221

Guide de rdaction de la revue -Asinag


Conditions gnrales

Tout article propos doit tre original, accompagn dune dclaration de lauteur
certifiant quil sagit dun texte indit et non propos une autre publication.
Le compte rendu de lecture doit avoir pour objet la lecture critique dune
publication rcente (ouvrage, revue ou autres) en la situant dans lensemble des
publications portant sur le thme concern.
Tout article publi dans la revue devient sa proprit. Lauteur sengage ne pas
le publier ailleurs sans lautorisation pralable du Directeur de la revue.
Les textes non retenus ne sont pas retourns leurs auteurs. Ceux-ci nen seront
pas aviss.

Prsentation de larticle

Une page de couverture fournira le titre de larticle, le nom, le prnom,


linstitution, ladresse, le numro de tlphone, le numro de fax et ladresse
lectronique de lauteur. Seuls le titre de larticle, le nom et le prnom de lauteur
et le nom de son institution doivent figurer en tte de la premire page du corps
de larticle.
Les articles seront envoys par courrier lectronique sous forme de fichier attach
en format Word ou RTF (Rich Text Format) ladresse suivante :
asinag@ircam.ma .
Larticle ne dpassera pas 15 pages (Bibliographie et moyens dillustration
compris).
Le texte sera rdig en police Times, taille 12, interligne 1, sur des pages de
format (17*24). Le texte en tifinaghe doit tre saisi en police Tifinaghe-ircam
Unicode, taille 12, tlchargeable sur le site Web de lIRCAM
http://www.ircam.ma/lipolicesu.asp . Pour la transcription de lamazighe en
caractres latins, utiliser une police Unicode (Gentium, par exemple).
Le titre est denviron 10 mots et peut tre suivi dun sous-titre explicatif. Il sera
rdig en gras, de police Times et de taille 14.
Le rsum des articles ne dpassera pas 10 lignes.

Moyens dillustration

Les tableaux sont appels dans le texte et numrots par ordre dappel (chiffres
romains). La lgende figurera en haut des tableaux.
Les figures et les images sont appeles dans le texte et numrotes par lordre
dappel en chiffres arabes. La lgende sera donne en dessous des figures.

219

Guide de rdaction de la revue -Asinag

Rfrences bibliographiques et webographiques


Les rfrences bibliographiques ne sont pas cites en entier dans le corps du texte,
ni dans les notes. Sont seulement indiqus, dans le corps du texte et entre
parenthses, le nom de/des auteurs suivi de la date de publication du texte auquel
on se rfre et, le cas chant, le(s) numro(s) de la/des page(s) cite(s). Si les
auteurs sont plus de deux, indiquer le nom du premier auteur, suivi de et al. .
Ex. : (Geertz, 2003) ; (Pommereau et Xavier, 1996) ; (Bertrand et al., 1986) ;
(Bouzidi, 2002 : 20).
Dans le cas de plusieurs publications dun auteur parues la mme anne, les
distinguer laide de lettres de lalphabet en suivant lordre alphabtique (1997a,
1997b, etc.).
Ex. : (Khair-Eddine, 2006a) ; (Khair-Eddine, 2006b).
Lorsque plusieurs ditions dune mme rfrence sont utilises, on signalera la
premire dition entre crochets la fin de la rfrence dans la liste
bibliographique.
Les rfrences bibliographiques compltes, classes par ordre alphabtique des
auteurs, sont fournies la fin de l'article (sans saut de page).
 Les titres des ouvrages sont prsents en italique.
Les rfrences aux ouvrages comportent dans lordre : le nom de lauteur et
linitiale de son prnom, lanne de parution entre parenthses, suivie, sil sagit
de lditeur, de la mention (d.), le titre, le lieu ddition, le nom de lditeur.
Toutes ces indications seront spares par des virgules.
Ex. : Cadi, K. (1987), Systme verbal rifain, forme et sens, Paris, SELAF.
 Les titres darticles de revue, de chapitres douvrages, etc. se placent entre
guillemets.
Les rfrences aux articles de revue comportent (dans lordre) : le nom et
linitiale du prnom de lauteur, lanne ddition, le titre de larticle entre
guillemets, le titre de la revue en italique, le volume, le numro et la pagination.
Toutes ces indications seront spares par des virgules.
Ex. : Peyrires, C. (2005), La recette de notre caractre , Science & Vie Junior, n
195, p. 48-51.
 Les rfrences aux articles de presse comportent seulement le titre entre
guillemets, le nom du journal en italique, lieu ddition, la date et le numro de
page.
Ex. : Les premiers pas du supermarch virtuel , lEconomiste, Casablanca, 26
octobre 2007, p. 17.
 Les rfrences aux chapitres douvrages collectifs indiquent le nom et le
prnom de lauteur, le titre du chapitre, la rfrence louvrage entre crochets :
[].
 Les rfrences aux actes de colloques ou de sminaires doivent comporter le
nom et la date du colloque ou du sminaire.

220


2014 -

sinag-       .
          
. .


2028-5663 : ISSN
2008 MO 0062 :
2014


7 ..........................................................................................................


.
11 .............................................................................

: 31





.


.


.

.


.
.

- .


.

2003


.
P. Andries




CLDR .
7


.
)
( .

.

.

" "SmallCodes
.

.
Humanit
DigitMaghreb ) (

. ) TEI (

.
)
(

. CACs


.


.

.
) (MADA
.




.
)
(

.
.


.
: .


.

. EAGLES
.


.
NORMETIC
. Eurka
NORMETIC .
: :

.2012


. "
"
) (2012

) (automates finis
.
. "
" ) .(2012
.
) (DP-HMM
.
AMHCD .

:
-

.
sinag-

10

- 2013 30 - 11


:


- -
Le projet d'amnagement graphique du systme tifinaghe-IRCAM, bien que
gouvern par des considrations humaines dans ses dimensions
ergonomique et stylistique, ne peut tre envisag isol des recherches
scientifiques et des travaux en cours dans le domaine du traitement
informatique de la langue amazighe. La Reconnaissance Optique des
Caractres (ROC) est dailleurs une occurrence permettant dexpliciter au
mieux certains de ces questionnements techniques.
Ici un concepteur typographique peut envisager plusieurs questions ayant trait
la relation entre leffort de crativit et le processus de lamnagement
graphique de tifinaghe-IRCAM en gnral avec les applications de ROC sur les
textes amazighs, particulirement en cas dune acclimatation cursive avance,
cest--dire en cas du dessin des formes lettriques amazighes selon des
structures cursives pures pouvant gnrer des formes relativement diffrentes
de la structure de rfrence.


.

supports
.




.
11



.



.
" " La
) Reconnaissance Optique des Caractres (ROC
1

l'acclimatation cursive
.

.1

.



.



.

) (
ergonomiques

.

1 ) Zenkouar, L. At Ouguengay, Y. (2007


" " 27-26 2012
- .

12


.
""

"
" . :
) (ROC


) ""( des nuances stylistiques

des ductus


) bas-de-casse
(capitale

13

:1
)1(
"" .
)1(
" "
" " la convention
langagire .

2
.

"
)1(
.


statut
.

2 ).Tchouchenkov, I. Wrn, H. (2007

14

.2

:
stylistique



.
) (

.
) (
archaque
pigraphique ""
).(Fig.2

( Cippo
(di Perugia
.

Capitalis Quadrata
) (la Colonne Trajane
113.

15

-1 : 2 ) -2 . (Capitale Classique -3 .
) -4 .(Onciale ) -5 .(Semi-onciale

) -6 .(Carolingienne ) -7 .(Gotique ).(Humanistique


la main unique
les systmes bicamrales .

: 3 )(capitale


.
.


AA AA AA AA AA AA AA AA AA AA AA AA AA
AA AA AA AA AA AA AA AA AA AA A
A A A A A A A A A
.

16



) ( .l'archtype

.
.

.3

la tendance vers la cursivit



.


.

Lguensat, M. (2011).

17


: 4


dextrogyre
) snestrogyre - 4-( .

) -4(.

:
) dextrogyre (snestrogyre

:

.1
.

.2 )
.
(
.3 .

4
.4 " "
) ( .
" 4 " "" )
(
.

18

" "g
)( .

.
: 5
)-5(
" " "
" ) ( .

19


) " "(
e .
)(
)(

) g-5(.

un mcanisme cursif

:
.1 )
(
.2 ) la fragmentation
(.

la
perception visuelle

:
.5 " " ) (les boumas minuscule
les jambages suprieure et infrieure
""
capitale latine
.6
) ) 5((.

5 )Bar, M. and Neta, M. (2006


6 ) .Phillips, R. J. (1977 )Perea, M. and Rosa, E. (2002

20

: 6

minuscule .
) (6
capitale texture visuelle
lisse
minuscule

.
""
capitale
.
minuscule
.

:
: Au niveau du codage des ductus

. un ductus gnrique
: Au niveau du dcodage des

21

ascendants et des descendants


) .("a" Ya

.4






rpertoire

.



.




.

:
une capitale cursive amazighe .
)(
)( .
.
une cursive idale attache

Lguensat, M. (2011).

22


.capitale

)(
. :
amaziv .

une
) capitale cursive (
yam yi
ya yaz ya .
.
:

23

) 8 : . : (

Ya
.
elliptique snestrogyre
.

) 9 : . : (

Ya Yam
24


.
snestrogyre
.

) 10 : . : (

Yaz
.

snestrogyre dextrogyre .
.

) 11 : . : (

25

Yi
.
snestrogyre
.

) 12 : . : (

Ya bident
suprieure
.
snestrogyre
.

.un jambage infrieure

26

.5

: 13
) -13(
. )-13(.


) (Fig. 13 a )
) 13(( . Ya )
(
.

27

: 14


.

) ( stylises
la minuscule latine
) 8 ) 14(
)((.



" "
) la caractrisation
(
OCR


segmentation 9


.
8 )Felici, J. (2003
9 )Cheung, A., Bennamoun, M., Bergmann, N.W. (2001

28

:
Bar, M. and Neta, M. (2006), Humans Prefer Curved Visual Objects .
Association for Psychological Science, Vol. 17, N 8, p. 645-648.
Bar, M. and Neta, M. (2007), Visual Elements of Subjective Preference Modulate
Amygdala Activation . Elsevier, NeuroPsycologia, N 45, p. 2191-2200.
Bringhurst, R. (2001), The Elements of Typographic Style (version 2.4.), d. H&M
Publishers.
Changizi, M.A. Shimojo, S. (2005), Character Complexity and Redundancy in
Writing Systems over Human History . Proceedings of the Royal Society. B. N
272, p. 267-275.
Changizi, M.A. Zhang, Q. Ye, H. Shimojo, S. (2006), The Structure of Letters
and Symbols throughout Human History Are Selected to Match Those Found in
Objects in Natural Scenes . The American Naturalist. Vol. 167, N 5.
Cheung, A., Bennamoun, M., Bergmann, N.W. (2001), An Arabic optical
character recognition system using recognition-based segmentation . Pattern
Recognition, N 34, p 215-233.
Clara, D.M., Nazir, T., Thierry, G. Paulignan, Y. Dmonet, J.F. (2006),
Perceptual and Lexical Effects in Letter Identification: An Event-related Potential
Study of the Word Superiority Effect . Elsevier, Brain Research, N 1098, p. 153160.
Felici, J. (2003), the Complete Manual of Typography, d. Adobe Press.
Feng, G. (2007), Orthography and Eye Movements: the paraorthographic linkage
hypothesis.
http://ets.academia.edu/GaryFeng/Papers/162481/Feng_G._2008_._Orthography_a
nd_Eye_Movements_The_Paraorthographic_Linkage_Hypothesis, dcembre 2008.
Foucambert, D. (2003), Syntaxe, vision parafovale et processus de lecture.
Contribution du modle structural la pdagogie. Thse de doctorat en sciences
de lducation. Universit Grenoble II - Pierre Mends, France.
Friedmann, N. and Rahamim, E. (2007), Developmental Letter Position Dyslexia
. Journal of Neuropsychology, N 1, p. 201-236.
Grainger, J. (2007), Cracking the Orthographic Code: An Introduction .
Language and Cognitive Processes, N 23: 1, p. 1-35.
Grainger, J. and Whitney, C. (2004), Does the huamn mnid raed wrods as a
wlohe? . Trends in Cognitive Sciences, Vol. 8. N 2.
Johnston, J. and McClelland, J. (1973), Visual Factors in Word Perception.
Perception & Psychophysics, Vol. 14, N 2, p. 365-370.

29

Larson, K. (2004), The Science of Word Recognition


http://www.microsoft.com/typography/ctfonts/wordrecognition.aspx,
dcembre2010

Lehar, S. (2003), Gestalt Isomorphism and the Primacy of Subjective Conscious


Experience: A Gestalt Bubble Model . Behavioral And Brain Science, N 26, p.
375-444.
Lt, B. (2006), Dficits visuo-attentionnels dans la perception du mot.
comparaison chez l'apprenti-lecteur et le dyslexique. Diplme universitaire.
Laboratoire d'tude des Mcanismes Cognitifs, universit Lyon 2, France.
Lguensat, M. (2011), Amnagement graphique de tifinaghe, les questionnements
relatifs l'adaptation cursive et l'optimalisation visuelle de la graphie amazighe.
Rabat, d. IRCAM, CEISIC.
McClelland, J.L. and Johnston, J.C. (1977), The role of familiar units in
perception of words and nonwords . Perception & Psychophysics, Vol.22 (3),
p.249-261
Noordzij, G. (2005), The Stroke: Theory of Writing, d. Hyphen Press.
Pammer, K. Hansen, P. Kringelbach, M. Holliday, I. Barnes, G. Hillebrand, A.
Singh, K. Cornelissen, P. (2004), Visual Word Recognition: The First Half
Second . Elsevier, NeuroImage, N 22, p.1819-1825. 313 Bibliographie
Perea, M. and Rosa, E. (2002), Does Whole-Word Shape Play a Role in Visual
Word Recognition? . Perception & psychophysics, N 64 (5), p.785-794.
Perea, M. Rosa, E. (2003), Influence of Neighbourhood Size and Exposure
Duration on Visual-Word Recognition: Evidence with the yes/no and the go/no-go
Lexical Decision Tasks . Perception & psychophysics, N 65, p. 273-286.
Phillips, R. J. (1977), Why is Lower Case Better? . Applied Ergonomics, N 10.
4, p. 211-214.
Rayner, K. (1998), Eye Movements in Reading and Information Processing: 20
Years of Research . Psychological Review, N 124 (3), p. 372-422.
Tchouchenkov, I. and Wrn, H. (2007), Optical Character Recognition Using
Optimization
Algorithms.http://wwwipr.ipr.unikarlsruhe.de/en/publications/download/id/576/d/
article576.pdf
Zenkouar, L. et At Ouguengay, Y. (2007), La typographie entre les domaines de
lart et de linformatique, Rabat, d. IRCAM, CEISIC.

30

43 - 31 2013 -

Lintgration des langues dans le domaine des TIC, comme le franais et


l'arabe, est facilite par un processus continu de normalisation et de
rglementation. l'instar de la majorit des langues naturelles, l'amazighe,
standardis par son intgration dans Unicode et ISO 10646, a eu, de ce fait,
une chance historique pour se positionner dans la socit globale de
linformation. L'amazighe est lune des langues mergentes dans les TIC sur
plusieurs niveaux, notamment celui de la production typographique, de la
prise en charge des diffrents systmes informatiques et de la production des
contenus numriques notamment les ressources lexicales et terminologiques.
Nous nous proposons de dresser un bilan dune dcennie de travaux et
defforts fournis, lIRCAM depuis 2003, dans ce processus de la
standardisation de la langue amazighe, dans les projets du traitement
informatis de la langue amazighe et du dveloppement des ressources
linguistiques dans diffrents domaines de la culture amazighe.


.
ISO/CEI 10646

.

.
2003

.

31

.1


.

) (langues peu dotes
.



.

)
(

.


.

.


.


.

.2 :
.


) (Savage, 2003
32

.


. .

.



. ) (Fontes
ANSI
.
.
ANSI
.

.



.
2004
(Zenkouar L. et ISO/CEI 10646
(al. 2006
. 25

) .(Unicode Consortium



.

.

) (Chartes . 80

33

)(33

.
) (2D U+2D30 .U+2DFF

: 1

) (55
) (anderson P. 2010 .
) (code ) (glyphe
""
.

.
UNICODE ISO/CEI 10646

25 .2005



) .(Andries P. 2008
http ://www.unicode.org/charts/PDF/U2D30.pdf.

34

.

:
2005 NM
17.1.100

2006
ISO 9995

NM 17.6.000

ISO 14651
.NM 17.2.000



).(Outahajala M. 2007
:

35



ISBN/ ISSN

4.1
31 ISBN 0-321Unicode
2005 48091-0

01 ISSN 0851
5348
2005 1217
630

:
15
"ISO/CEI
2005
"10646 :2003

03 ISSN 0851
2006 1217


5444
1110

03 ISSN 0851
2006 1217


5444
1110

Unicode

Unicode
4.1
NM
17.1.100

Technologies
de
linformation Jeu
universel
de
caractres cods sur
)plusieurs octets (JUC
Classement
et
comparaison
de
chanes de caractres
du Tifinaghe

ISO/CEI
10646

Jeux de caractres :
Alphabet Tifinaghe

claviers pour la saisie


des caractres du
Tifinaghe

NM
17.2.000

NM
17.6.000

: 1

.3

.

.
) (Fontes
ANSI
-
.


.

36

) Lguenssat
.(M. 2011

.

.

ISO 9995
) Linux Mac .(Windows



.

.

) (Ms Word
.
.


.

.
26 2012
8 .

.

Linux 2006 Linux
Mandriva
.

37

.

.

.
2003
.2006
.
2008
.
.

.4

) (
.

:

.
) (
. ,

.



.

.
"
"

38

) (
.

: 2

.
2010

. 2

.

.5





.

2 " " ) (

39

"
" )" (TICAM
" ) (SITACAM .


.
:2009

.

) (Ataa Allah F. 2010
google youtube ask
.

.


:


).(Ataa allah. 2009

) (Boulaknadel. 2009 .


) (open source )(Ait Ouguengay. 2011
)(
Google .


).(Es saady, Y. 2012 et Amrouche M. 2012


40


.3
.

: 3 ) " "(

:


.


. :


.

)Laabdelaoui, R et al. (2012

41



).(localisation
:



.

) (W3C Unicode
ISO

.

) ( .

.


) (localis

. Microsoft
Apple HP .

.

42

:
Ait ouguengay Y. (2011), intgration de lamazighe dans un OCR opensource :
Ocropus comme modle , actes du colloques SITACAM11, IRCAM, p.81-92
Ameur M. et al (2004), graphie et orthographe de lamazighe , IRCAM.
Amrouche, M. (2012), Reconnaissance de caractres, textes et de documents base
sur les modles de markov cachs, Thse de Doctorat en sciences, Universit Ibn
Zohr, Facult des Sciences, Agadir.
Anderson P. (2010). Proposal to add two Tifinagh characters for vowels in Tuareg
language variants. N3870 (L2/10-270), Unicode Consortium.
Andries P. (2004). Proposal to add the Tifinagh Script. N2739R, Unicode
Consortium.
Andries P. (2008), Unicode 5.0 en pratique , Dunod,
Ataa allah F. (2009), Etiquetage morphosyntaxique : outil dassistance ddi la
langue amazighe, actes de colloque SITACAM09, 2009, p.110-119
Ataa Allah F. et al (2009), Etiquetage morphosyntaxique de lamazighe , actes
de colloque SITACAM09, IRCAM.
Ataa Allah F. et al. (2010). Amazigh Search Engine: Tifinaghe Character Based
Approach , Actes de KE2010, pp. 255-259.
Boulaknadel S. (2009), Amazighe Concorde : An Appropriate Concordance for
Amazighe, actes de colloque SITAM09, IRCAM, 2009, p.176-182
Es saady, Y. (2012), Contribution au dveloppement d'approches de
reconnaissance automatique de caractres imprims et manuscrits, de textes et de
documents Amazighes, thse de Doctorat en sciences, Universit Ibn Zohr, Facult
des Sciences, Agadir.
Laabdelaoui, R et al., (2012), Manuel de conjugaison amazighe, IRCAM.
Lguenssat M.(2012), Amnagement graphique du Tifinaghe , IRCAM.
Outahajala M. (2007), les normes de tri, du clavier et unicode , Actes du
colloques TICAM04, IRCAM, p.223-237
Zenkouar L. et al. (2006), Les normes pour la langue amazighe , bulletin
dinformation n 5-6, IRCAM, p. 45-49.

43

- 2013 47- 45










.

.


.
.

.

.

.



.
.


) (Fichier attach Format Word RTF :
asinag@ircam.ma

14
.
) (A4 ) ( 24/17
Arabic Transparent ) (11 Exactement 12
) ( 2.5 ) ( 2 .
Tifinaghe-ircam Unicode 11
.http://www.ircam.ma/fr/index.php?soc=telec
Unicode Gentium.


. .15
.

45


13 .12





. .
. .

.
)(
/ /
. ""
.

) :(1999 ) (1966 ) (1969 )


.(20 :2002


)19971997 .(.
) : 2006 () 2006 (.






][ .
)
(.
.

)(
. .

: ) (1999
.




.


.
.

: )" (1971 " 2


.40-25

46

" : " 22 2002


.8



][.

: )" (1989"] [
.


: )" (1984 "


7 8 9
1981 .164-153



)
(. .

: ) (2002
.


) (webographie
URL .page web

http//fr.wikipedia.org/wiki/langue construite, octobre 2007 :












.

.
:
" "... .
" ."....'.....'.....

.
)
(. ][.
:
.
:
.

47

Guide de rdaction de la revue -Asinag

Ex.: Boukous, A. (1989), Les tudes de dialectologie berbre au Maroc , in


Langue et socit au Maghreb. Bilan et perspectives, Actes du colloque organis
par la Facult des Lettres et des Sciences Humaines-Rabat en octobre et
dcembre 1986, p. 119-134.
 Les rfrences aux thses : elles sont similaires aux rfrences aux ouvrages, on
ajoute lindication quil sagit dune thse, en prcisant le rgime (Doctorat
dEtat, Doctorat de 3me cycle) et luniversit.
Ex. : Hebbaz, B. (1979), Laspect en berbre tachelhiyt (Maroc), Thse de
Doctorat de 3me cycle, Universit Ren Descartes, Paris V.
Les rfrences webographiques : il est ncessaire de mentionner lURL
(Uniform Resource Locator) et la date de la dernire consultation de la page web.
Ex. : http://fr.wikipedia.org/wiki/Langue_construite, octobre 2007.
Notes, citations et abrviations
Dans le cas o des notes sont fournies, celles-ci sont en bas de page et non en fin
d'article. Il faut adopter une numrotation suivie.
Citations : les citations de moins de cinq lignes sont prsentes entre guillemets
... dans le corps du texte. Pour les citations l'intrieur des citations, utiliser
des guillemets droits ... "..." ... . Les citations de plus de quatre lignes sont
prsentes sans guillemets, aprs une tabulation et avec un interligne simple.
Toute modification d'une citation (omission, remplacement de mots ou de lettres,
etc.) est signale par des crochets [].
Sous-titres : le texte peut tre subdivis par l'utilisation de sous-titres en caractres
gras.
Italique : viter de souligner les mots, utiliser plutt des caractres en italique.
Si lauteur emploie des abrviations pour se rfrer certains titres qui reviennent
souvent dans larticle, il devra les expliciter ds leur premier usage.
Ex. : Institut Royal de la Culture Amazighe (IRCAM).

221

REVUE
- Asinag
Bulletin dabonnement
Priodicit : 2 numros par an
Bulletin retourner :
Institut Royal de la Culture Amazighe
Avenue Allal El fassi, Madinat al Irfane, Hay Riad. B.P. 2055 Rabat
Tl : (00212) 537 27 84 00 Fax : (00212) 537 27-84-36
e-mail :abonnement@ircam.ma
Titre

*Maroc
Prix /an

*Etranger
Prix /an

- Asinag

100 Dh

30

Quantit

Total

*Les frais dexpdition sont inclus dans ces tarifs (Maroc et tranger)
Nom, prnom : ....
Etablissement : ....
Adresse : .....
Pays : ..
Code postal : .Ville : ... ...
Tl. : ..Fax : .....

Je dsire souscrire un abonnement la Revue


- Asinag de :
1 an
2 ans
Mode de paiement :
 Chque bancaire lordre de
 Virement bancaire
Prciser les noms et adresse de labonn.
BanqueN de compte :

Date :

Signature


-


:

. 2055 .
(00212) 537 27 84 00 :(00212) 537 27-84-36 :
abonnement@ircam.ma :

*
/

*
/

100 Dh

30

* ) (
............:
..... :
........:
...... :
:..................: ............
: .:.....................
: -

:
 .......................................................................................

.
................................ ..............................................