Você está na página 1de 41

LISI & DocINSA

Dpartement Informatique

Sorin NECULITA

PFE 2000-2001
Conception d'une chane de conversion : format RTF vers XML
--Rapport final

Projet Titre Type de document Version Date Auteur Distribution

Description PFE 2000-2001 Sorin NECULITA Conception d'une chane de conversion des thses RTF en format XML Rapport final 1.0 23 juillet 2001 Sorin NECULITA LISI : Batrice Rumpler Sylvie Calabretto DocINSA : Monique Joly Dalila Boudia Jean Michel Mermet

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

Sommaire
1. 2. Remerciements _________________________________________________________3 Le Projet ______________________________________________________________4
2.1 Objet ____________________________________________________________________ 4 2.2 Droulement du projet ______________________________________________________ 4 2.3 Analyse des besoins_________________________________________________________ 4

3.

Contexte_______________________________________________________________6
3.1 Les thses soutenues l'INSA de Lyon_________________________________________ 6 3.2 Intrt de la sauvegarde en format XML_______________________________________ 8

4.

Analyse de lexistant ____________________________________________________10


4.1 Les applications de conversion ______________________________________________ 10
a) b) c) d) e) f) g) h) i) a) b) c) d) e) f) g) h) i) UpCast (version 2.0)_____________________________________________________________ Majix (version 1.2.1) ____________________________________________________________ RTF2XML (version 0.9) _________________________________________________________ MathType (version 4) ____________________________________________________________ Word (version 2000) ____________________________________________________________ Le projet OpenOffice (version 619) _________________________________________________ Le projet OpenOffice et MathML___________________________________________________ RTF4XML ____________________________________________________________________ Conclusion sur les outils de conversion ______________________________________________ Structure dune thse soutenue l'INSA de Lyon ______________________________________ Mta donnes - Dublin Core_______________________________________________________ Mta donnes Groupe de travail ministriel _________________________________________ La DTD Open eBook ____________________________________________________________ ETD Electronic Thesis and Dissertation Initiative ____________________________________ DocBook _____________________________________________________________________ ISO 12083 XML DTDs __________________________________________________________ DTD TEI _____________________________________________________________________ Conclusion sur les DTD __________________________________________________________ 10 11 11 11 12 13 13 13 15 17 21 22 23 25 26 27 28 29

4.2 Les DTD_________________________________________________________________ 17

5.

Prsentation de la maquette ______________________________________________30


5.1 Schma de lapplication ____________________________________________________ 30 5.2 Fonctionnement et rsultats ________________________________________________ 30 5.3 Points restants faire______________________________________________________ 31

6. 7. 8.

Conclusion ___________________________________________________________32 Rfrences bibliographiques _____________________________________________33 Annexes ______________________________________________________________34


Annexe 1 __________________________________________________________________________ b ) Annexe 2______________________________________________________________________ c ) Annexe 3______________________________________________________________________ d ) Annexe 4______________________________________________________________________ 34 35 38 39

Rapport final

2/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

1.

Remerciements

Je remercie tout dabord Mme Monique JOLY, responsable de DocINSA, pour mavoir accueilli dans le cadre de son service. Je tiens remercier aux enseignantes responsables de mon projet Mme Batrice RUMPLER et Mme Sylvie CALABRETTO pour leurs aide. Un grand remerciement jadresse Mme Dalila BOUDIA pour ses conseils et son aide dans la rdaction des rapports.

Rapport final

3/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

2.
2.1

Le Projet
Objet

Lobjectif du projet est la ralisation dune chane de conversion du format RTF (Rich Text Format) en XML (eXtensible Markup Language) des thses lectroniques soutenues lINSA de Lyon et dposes la bibliothque scientifique et technique DocINSA. Le format XML est le format qui a t choisi pour l'archivage des thses. Ce rapport est divis en deux grandes parties. Dans une premire partie, nous avons analys les outils de conversion existants sur le march pour pouvoir choisir ceux qui pourraient tre utiles dans ce projet et qui pourraient tre intgrs dans une chane de conversion. Dans une deuxime partie, nous avons analys la structure logique des thses pour pouvoir proposer un modle de DTD (Document Type Definition) ncessaire la dfinition du document thse XML. Ce projet est ralis pour DocINSA et il se droule dans le cadre dune tude du laboratoire LISI du Dpartement Informatique sur la recherche dinformation dans les ressources lectroniques. 2.2 Droulement du projet

Le projet comprend les tapes suivantes : La Phase dinitialisation. Pendant cette priode seront rcuprs les besoins et sera dfini lorganisation du projet. La Phase danalyse de lexistant. Durant cette priode seront rcuprs tous les lments ncessaires la conception et au dveloppement de la chane de conversion : Etude des formats de stockage des fichiers textes : RTF et XML. Etude des outils existants sur le march pour la conversion RTF vers XML. Etude de la structure des thses et des DTD existantes ; La Phase de rdaction du cahier des charges de lapplication. La Phase de conception du prototype qui dbouchera sur la ralisation dune maquette permettant de convertir les thses en format XML.

2.3

Analyse des besoins

DocINSA reoit les thses au format RTF en un seul ou en plusieurs fichiers. Lobjectif est de convertir tous ces fichiers en format XML et de les concatner pour navoir quun seul document final : la thse en format XML. La conversion doit tre complte, aucune information ne doit tre perdue, qu'il sagisse du contenu ou du style. Il faudra obtenir (en plus de la thse en format XML) le fichier CSS (Cascading Style Sheets) contenant le style du document. Le style et le contenu seront diffrencis et enregistrs dans deux fichiers distincts.

Rapport final

4/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

Les lments non textuels (images, ) qui ne peuvent pas faire partie du document XML seront enregistrs sous format binaire dans des fichiers externes. Le document XML contiendra des pointeurs vers ces fichiers externes. Lapplication sera dveloppe pour les plate-formes Windows NT. Il faudra convertir les quations dites avec Equation Editor 3.0 en format MathML de prsentation.

Rapport final

5/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

3.
3.1

Contexte
Les thses soutenues l'INSA de Lyon

Chaque anne lINSA de Lyon sont soutenues environ 120 thses. Ces thses sont dposes sous format papier Doc'INSA (consultation et prt). Depuis 1997 Doc'INSA propose aux doctorants de diffuser leurs thses sur internet. Pour cela, ils doivent fournir leurs thses sous format lectronique avec une autorisation de diffusion (Contrat fin de diffusion d'un travail universitaire). Les formats accepts sont le RTF et le LATEX (95% des thses sont fournies sous format RTF, le reste de 5%, sous format LATEX). Ces thses sont diffuses sur le WEB, sur le site CITHER (Consultation en texte Intgral des THses En Rseau) l'adresse lectronique suivante : http://csidoc.insalyon.fr/these/index.html.

Statistique de diffusion des thses sur CITHER


50 40 40 30 20 10 0 1996 1997 1998 1999 2000 7 19 21 26

Chaque thse dispose sur le site dune page dentre en format HTML, appele pont dembarquement. Cette page est structure sous la forme dun sommaire, avec des liens hypertextes vers les fichiers contenant les chapitres de la thse. Ces fichiers sont proposs sous le format PDF. Le pont dembarquement contient, en plus, les mtadonnes de la thses. Ces mtadonnes sont caches et dcrivent la thse (nom, prnom, titre, directeur, mots cls, rsums en franais et en anglais ). Les moteurs de recherche, comme le moteur Altavista, utilise ces mtadonnes pour indexer les pages web. Une fois indexes ces pages peuvent tres retrouves en faisant une recherche sur Rocad. Actuellement, il existe une chane de conversion qui permet la transformation des formats RTF et LATEX en format PDF. Les fichiers PDF produits comportent des liens hypertextes. Ceux-ci sont gnrs automatiquement daprs les informations contenues dans les fichiers sources (styles). Ils pointent sur les chapitres, sections, sous sections de la thse et sur les fichiers qui la composent.

Rapport final

6/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

Larchivage se fait sous le format RTF, LATEX et PDF. Le but est de raliser larchivage sous le format XML car ce format dispose de plusieurs avantages (voir chapitre suivant) parmi lesquels le principal est la prennit.

Rapport final

7/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

3.2

Intrt de la sauvegarde en format XML

Les thses seront archives en format XML. Nous nous interessons aussi au langage MathML car celui-ci permet la conversion en format texte des quations mathmatiques dites dans MSWord. Le langage XML (eXtensible Markup Language) est un langage de structuration des documents, relativement nouveau, cr par le groupe de travail international W3C (World Wide Web Consortium). XML est trs proche de deux autres langages dcrivant la structure des documents : SGML et HTML. Un des objectifs vis par le groupe W3C a t de crer un langage qui soit plus facile utiliser que le SGML et en mme temps qui puisse combler les lacunes du langage HTML. Un document XML contient des donnes et des balises. Les balises marquent la prsence des donnes. La puissance du XML par rapport au HTML est la possibilit de personnaliser les balises. La structuration des balises et leur ordre de placement dans le document sont dfinis dans un document part, appele la DTD (Document Type Definition). La DTD permet de valider la structure des documents XML. Les avantages de la sauvegarde des documents en format XML sont les suivants : tout dabord, le format XML est un format ouvert, non propritaire, sa spcification est publique et son implmentation facile ; XML est un format pivot, un format dchange entre les diverses applications de traitement de donnes existants lheure actuelle ; un document XML est prenne, car il est enregistr en format ASCII (ou UNICODE) ce qui rend sa lecture et sa comprhension facile pour lutilisateur. En plus, le document contient, au mme endroit, les donnes et les mta donnes (les balises) qui dcrivent son contenu. Ainsi, un utilisateur peut rapidement comprendre un document XML, sans laide dun parseur ; la cration des programmes de lecture et de traitement des documents XML est facile car dune part, le groupe W3C a labor la spcification de linterface des applications traitant des fichiers XML? (les interfaces DOM Document Object Model et SAX Simple API for XML), et dautre part, il existe des librairies de fonctions bases sur ces spcifications et distribues gratuitement, voire mme en open source (ex : le projet XML Apache) ; XML tend remplacer le langage HTML sur lInternet car il le dpasse en possibilits dutilisation facilit de navigation, de recherche dans les documents, dorganisation de la prsentation et de la mise en page, (on voit dj apparatre, avec les derniers navigateurs Internet des pages Web entirement dveloppes en XML); XML est adaptable, extensible, il peut tre transform selon les besoins, selon le type des donnes traiter ; Dans notre projet de conversion des thses scientifiques, nous avons apport un grand intrt au MathML. MathML est un langage XML qui dcrit les formules mathmatiques. Une question importante a t la modalit de conversion en MathML des quations (Equation Editor 3.02 ) dites dans les documents RTF. Les intrts de la sauvegarde en MathML sont les suivants : MathML tend devenir le langage universel de description des formules mathmatiques ;

Rapport final

8/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

MathML permet de rutiliser les quations (si une quation est enregistre en format image, elle n'est pas accessible certaines applications) Dun autre cot, le langage MathML na pas t reu avec satisfaction par la communaut scientifique. Dune part, ce langage est verbeux et lourd et d'autre part il est trs difficile de convertir les formats mathmatiques existants (Mathematica, Equation Editor) dans ce nouveau langage. En plus, un document MathML est incomprhensible par un utilisateur sans laide dun parseur.

Rapport final

9/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

4.

Analyse de lexistant

Dans ce chapitre, nous allons tudier les outils de conversion du format RTF vers le format XML et les DTD. Cette tude nous permettra de slectionner les outils les plus appropris au projet de conversion de thses du format RTF au format XML. 4.1 Les applications de conversion

Nous avons analys les applications suivantes pour raliser la conversion des documents RTF en format XML : UpCast , Majix , RTF2XML , WORD , OpenOffice , RTF4XML et loutil MathType pour la conversion des quations dites avec Equation Editor en MathML. Pour chaque outil, nous passons en revue les fonctionnalits implmentes et les points manquants. A la fin de ce chapitre une synthse des outils tudis met en vidence les lments dun document RTF qui posent des problmes lors de la conversion en XML.

a ) UpCast (version 2.0) L'application convertit les fichiers RTF 1.6 en format XML 1.0. Elle produit un fichier XML avec le contenu du document et le fichier CSS contenant le style. Lapplication permet la rcupration des styles dfinis par dfaut ( Normal , Heading 1 , etc) et des styles dfinis par lutilisateur. Les images insres dans le document sont rcupres et sauvegardes sous format WML (Wireless Markup Language). Il est possible denregistrer les images en format JPEG et de paramtrer le facteur de compression. L'application est fournie en trois versions : UpCastSingle : permet deffectuer la conversion dun seul fichier la fois. UpCastEntreprise : est utile pour les conversions en masse d'un grand nombre de documents. La liste des fichiers est initialise dans un fichier de "batch". L'application lit les fichiers RTF et ensuite les convertit les uns aprs les autres. UpCastServer : fournit une interface de programmation (une API) qui peut tre intgre dans un code source (Java ou C). Toutes les fonctionnalits des versions Single et Entreprise sont prsentes dans cette API. Les incovenients de cette applications pour notre projet sont la non conversion des dessins et des quations en MathML.

Rapport final

10/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

b ) Majix (version 1.2.1) Cette application dispose dune interface graphique et dun accs en mode ligne de commande. Elle convertir directement des fichiers DOC. Elle rcupre le style prdfini dans word et le style de caractres des lments. Ce logiciel ne convertit pas : les dessins ; les quations. Les images sont rcuprs en format WMF. c ) RTF2XML (version 0.9) Cette application est un script interprt par l'outil Omnimark . Le script est compos d'un ensemble de fichiers dfinissant une suite de rgles de conversion. Les lments rcuprs : En-ttes et pieds de pages ; tableaux ; listes ; images lies ou intgres dans un document ; dessins seulement les zones de texte ; styles. Les lments non rcuprs : les dessins (sauf les zones de texte) ; les quations Equation Editor conversion en image. Caractristiques de conversion : les images sont rcupres en fichier externe sous format non compress WMF. le style est rcupr comme attribut de la balise <p> (paragraphe) : ex : <p stylename="header" fontsize="20"><string fontsize="20">INSA de Lyon</string></p> Le style est intgr dans le fichier XML et non dans une CSS part. Lapplication est intrssante pour notre chane de conversion car elle permet de rcuprer la plus-part des lments dun document RTF. En plus on peut facilement ladapter en rajoutant de nouvelles rgles de conversion. d ) MathType (version 4) MathType est la nouvelle version du logiciel Editeur d'Equations dit par Design Science . MathType dispose d'un outil de conversion des champs d'quations en plusieurs formats, parmi lesquels MathML. Il y a 4 versions de convertisseur MathML, chacune est adapte un navigateur html-xml (Amaya ). La conversion est ralise par l'interprtation d'un fichier texte qui contient une suite de rgles de conversion. Lapplication est adaptable, il est possible de modifier ces fichiers et d'ajouter nos propres rgles de conversion.

Rapport final

11/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

La conversion peut tre effectue : partir de Word (en utilisant un menu MathType) cette conversion dbouche sur un document contenant tous les champs d'quations du document original convertis en MathML; partir d'une API (donc rcupration des fonctionnalits MathType dans le code d'une autre application).

e ) Word (version 2000) Word permet la conversion d'un document DOC dans le format XHTML. Le fichier obtenu respecte les normes XML, mais il est adapt l'affichage dans le navigateur MS Explorer . Le style du document peut tre rcupr dans un fichier CSS. Les lments rcuprs sont : tableaux ; listes ; images ; les objets dessins. Les lments non rcuprs sont : en-ttes et pieds de page ; quations Equation Editor 3.0 . Le principal intrt de cet outil est la possibilit de rcuprer les dessins (les objets "Shapes"). Ces dessins sont convertis en VML Vector Markup Language (langage interprt par les dernires versions de MS Explorer 4.5 et plus) et, en mme temps, ils sont enregistrs en format GIF. Les quations sont galement rcupres sous format GIF. Cette conversion nest possible que si le filtre HTML (2.0) pour Word 2000 est install.

Rapport final

12/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

f ) Le projet OpenOffice (version 619) OpenOffice est une projet open source soutenu par la socit Sun Microsystems . OpenOffice est bas sur le code source de lapplication StarOffice rendu publique par Sun ?. OpenOffice permet d'enregistrer les document en XML. Lobjectif de ce projet est dutiliser XML comme format natif denregistrement pour tous les logiciels faisant partie de la suite bureautique OpenOffice. Ce projet est en cours de dveloppement (version 627 du 1 mai 2001) et la version finale n'est pas encore disponible. g ) Le projet OpenOffice et MathML La suite OpenOffice dispose dun outil intgr StarMath pour la cration des quations mathmatiques. A louverture dun document MSOffice, les quations cres avec le logiciel Equation Editor seront converties dans le format StarMath ou, si lutilisateur le dsire, seront maintenues dans le format dorigine. La conversion Equation Editor - StarMath est bijective, une quation crite en langage StarMath sera, au moment de lexportation du fichier en format DOC, enregistre en langage Equation Editor . Pour notre projet, la conversion des quations en format StarMath est souhaitable. Cela permettra denregistrer une quation en format MathML , plutt quen format binaire ZIP. La conversion des quations StarMath en MathML est encore en dveloppement. Quelques informations sur cette conversion sont disponibles sur la liste de discutions devat xml.openoffice.org .

h ) RTF4XML RTF4XML est un outil de conversion produit par la socit ddition Publilog . Ce logiciel doit permettre la rcupration la plus complte des documents lectroniques. RTF4XML convertit des fichiers au format RTF en XML. Un systme client serveur permet de dposer des fichiers RTF sur le serveur et de les rcuprer en XML, PDF et TeX. Les lments RTF pris en charge par loutil de conversion : Les paragraphes et le style des paragraphes. Les tableaux. Les quations mathmatiques sont converties en MathML. Loutil convertit sans problmes les quations dites avec Equation Editor , par contre des problmes peuvent apparatre avec les Champs dEquation . Le rsultat de la conversion de ce type de champs est un mixage de XML et MathML.

Rapport final

13/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

Les images incorpores sont enregistres en format EPSF (Encapsuled PostScript File ) vectoriel ou bitmap. Les prochaines versions devraient convertir ces images en dautres formats (TIFF, JPEG ou dautres). Les notes de bas de page. Le style est compltement rcupr. La conversion gnre deux fichiers ;un fichier contenant la feuille de style (le style que lon retrouve dans le modle du document RTF) et un autre fichier contenant le document avec des informations de style supplmentaires (les exceptions de prsentation?). Le style est rcupr sous la forme dattributs de llment paragraphe . Cela entrane donc un post-traitement pour convertir ces attributs en noms de balises, pour permettre la validation du document par rapport une DTD. Les lments qui ne sont pas encore grs : Les en-ttes des pages. Les zones de texte. Les images lies. Les objets dessines. Leur rcupration semble assez dlicate car il faut dvelopper un interprteur du module graphique de Word. Les notes. Le marquage des mots dindex. Lapplication est intressante car cest la seule application de conversion du format RTF en format XML qui permet la rcupration des quations Equation Editor 3.0 dans le format MathML.

Rapport final

14/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

i ) Conclusion sur les outils de conversion Les conversions sont diffrentes en fonction des outils utiliss. Dans ce paragraphe nous listons les lments qui posent des problmes lors de la conversion. Ces lments sont : len-tte et le pied de page, les images, les quations, les dessins et le style. Len-tte et le pied de page sont rcuprs par la majorit des outils lexception de Word 2000 et de RTF4XML. Les images sont rcupres par tous les outils tudis. Ce qui diffre, cest le format de stockage des fichiers rsultants. Les images sont rcupres soit sous leur forme brute, noncompresse (format WMF), soit sous format JPEG ou GIF, formats reconnus par les navigateurs web. Les quations ne sont rcupres que sous forme dimages JPEG. Le seul outil qui permet de convertir ces champs est MathType . Les dessins posent des problmes lors de la rcupration. Dans le cas de certaines applications comme UpCast ou Majix, ils sont tout simplement ignors. RTF2XML arrive dtecter la prsence des dessins mais se limite marquer leur prsence dans le fichier XML. Cet outil ne permet de rcuprer, pour l'instant, que lobjet Zone de texte en entier (avec toutes ses caractristiques graphiques : position, taille, etc). Word permet, par contre, de rcuprer en intgralit les dessins. Ils sont doublement convertis, dune part en langage VML (langage XML dcrivant les objets graphiques), dautre part en images GIF. Le style pose aussi des problmes de conversion. UpCast permet de rcuprer le style dans une CSS part. Dans le fichier XML, tout paragraphe auquel nous avons appliqu un style sera marqu par une balise portant le nom de ce style. Exemple : <ResumeFR>Ceci est un rsum.</ResumeFR> RTF2XML rcupre le style comme attribut de la balise paragraphe. Exemple : <p stylename="ResumeFR" align="left" fontname="Comic Sans MS" fontsize="20" bold="on"><string fontname="Comic Sans MS" fontsize="20" bold="on">Style personnalis&#233;</string></p> Ceci pose des problmes car le fichier XML est alourdi (tous ces attributs sont rpts au niveau de chaque paragraphe). En plus, comme le nom du style nest pas rcupr en tant que balise, nous ne pouvons pas procder un test de validation du document XML par une DTD. Aprs la conversion avec Word 2000 le style est dfini au dbut du document XHTML. Au dbut du fichier XHTML, nous avons par exemple : p.ResumeFR, li.ResumeFR, div.ResumeFR {mso-style-name:"Resume FR"; margin:0cm; margin-bottom:.0001pt; Rapport final 15/41 Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

mso-pagination:widow-orphan; text-autospace:none; font-size:10.0pt; font-family:"Comic Sans MS"; mso-fareast-font-family:"Times New Roman"; mso-bidi-font-family:"Times New Roman"; font-weight:bold;} Utilisation de ce style : <p class=ResumeFR>Style personnalis</p>

Rapport final

16/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

4.2

Les DTD

Cette partie du rapport est ddie ltude de la structure des thses soutenues l'INSA de Lyon et des DTD proposes par les divers organismes de standardisation. Les DTD analyses sont : Open eBook , ETD , DocBook , ISO 12083 XMLBook , TEI . Nous prsentons aussi la spcification des mta donnes propos par Dublin Core .

a ) Structure dune thse soutenue l'INSA de Lyon Nous prsentons dans cette partie les lments composant la thse (le tableau liste les lments et les documents source et destination). Les documents qui font partie dune thse sont : la Thse ; le Formulaire ; le Folio Administratif ; lAnnonce de soutenance. Description de la notation : M - Meta donnes F - Facultatif Les lments composant la Page de Titre Sous Elment N Ordre (M) Anne et date (M) Source Formulaire Thse Destinataire Thse Folio administratif Formulaire Folio Annonce Formulaire Folio Annonce Folio Annonce

Titre FR (M) Sous titre FR (F) (M) Formation doctorale (M) Ecole doctorale (M) Qualit de lauteur (F) Auteur (M)

Thse

Thse Thse Thse Thse

Jury (M)

Thse

Formulaire Folio Annonce Folio Annonce

Rapport final

17/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML Thse Thse

LISI & DocINSA

Laboratoire de recherche Type de doctorat (M)

+ ajouter Discipline (F) Formulaire Thse Titre ANG (F) (M) Sous Titre ANG (F) (M) Mention copyright (F) (M) Thse Thse Formulaire

Dautres lments Liste des professeurs Liste des coles doctorales Rsum FR (M) Mots cl FR (M) Rsum ANG (M) Mots cl ANG (M) Thse Thse Formulaire Thse

Formulaire

Thse

Les lments composant la partie administrative Autorisation de diffusion par lauteur Autorisation de reproduction Autorisation diffusion par le jury(M) Mention de correction Mention de confidentialit Date de fin confidentialit Formulaire Thse

Formulaire Formulaire

Thse Thse

Formulaire Formulaire Formulaire

Thse Thse Thse

Rapport final

18/41

Sorin NECULITA

INSA Lyon Code Bibliographique Code BIU

PFE Conception d'une chane de conversion des thses RTF en format XML Formulaire Folio Thse

LISI & DocINSA

Les lments composant le corps de la thse Les prliminaires Sous Elment Ddicace (F) Remerciements (F) Table de matires Liste des figures (F) Liste des tableaux (F) Source Thse Thse Thse Thse Thse Destinataire

Le contenu Introduction Chapitres Sections (1,2,3,) Conclusion Thse Thse Thse Thse

Les post liminaires Bibliographie Annexes Thse Thse

Rapport final

19/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

Schma de la thse La DTD dfinissant la structure dune thse INSA est propose dans le tableau ci-dessous. Dans ce tableau, pour chaque lment est dfini son nombre d'occurrences, le fait qu'il soit facultatif ou non et qu'il soit une mta donne ou non Elments sous lments Nb. O/F M occurrences Thse Page de Titre 1 O NOrdre 1 O M Date 1 O M Titre FR 1 O M Sous titre FR 0-1 F M Titre ANG 0-1 F M Sous titre ANG 0-1 F M Discipline 0-1 F M Ecole Doctorale 1 O M Formation Doctorale 1-n O M Auteur 1-n O M Qualit auteur 0-1 F Jury 1 O M Prsident 1 O Membre 1-n O Personne Fonction Laboratoire de recherche 1-n O Copyright 0-1 F M Liste professeurs 1 O Liste coles doctorales 1 O Rsum FR 1 O M Rsum ANG 1 O M Mots cl FR 1 O M Mots cl ANG 1 O M Corps de la thse 1 O Ddicace 0-1 F Remerciements 0-1 F Table de matire 1 O Liste des figures 0-1 F Liste des tableaux 0-1 F Introduction 1 O Chapitre 1-n O Section 0-n F Conclusion 1 O Bibliographie 1 O Annexes 0-1 F Partie Administrative 1 Autorisation diffusion Auteur 1 Autorisation diffusion Jury 1 M Autorisation reproduction 1 Mention de correction 1

Rapport final

20/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML 1 1 1

LISI & DocINSA

Mention de confidentialit Code bibliographique Code BIU

b ) Mta donnes - Dublin Core Dublin Core Metadata Initiative est une organisation ayant pour but la promotion dun standard de mta donnes. Les meta-donnes dune ressource lectronique proposes par la spcification Dubli Core sont les suivants :

TITLE le nom du document. CREATOR lauteur du document. SUBJECT . DESCRIPTION un rsum sur le contenu du document. PUBLISHER le nom de lditeur. CONTRIBUTOR le nom des personnes ayant eu une contribution au contenu du document. DATE - ( le format recommand est le AAAA-MM-JJ comme spcifi dans la norme ISO 8601) TYPE la nature du contenu. FORMAT dcrit le format physique et logiciel du document (permet de dfinir par exemple la taille ou la dure de la ressource). Cette mta donne est utile pour connatre le logiciel de destination. IDENTIFIER un numro didentification unique (a peut tre un URL, un ISBN ou autre). SOURCE permet didentifier le document parent dans lequel on retrouve cette ressource. LANGUAGE dfinit la langue dans laquelle a t ralis le document (pour la notation, lorganisation Dublin Core recommande la RFC1766 deux lettres pour lidentification de la langue plus, ventuellement, deux lettres pour lidentification du pays. Ex : en-uk). RELATION une rfrence vers une ressource lie. COVERAGE - dclaration dun espace-temps concern par le contenu du document. RIGHTS information concernant les droits de copyright.

Rapport final

21/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

c ) Mta donnes Groupe de travail ministriel La spcification des mtadonnes propose par le groupe de travail du Ministre Franais de l'Education est bas sur la spcification Dublin Core. Elment DC.Contributor Commentaire "person" Nom, prnom du directeur de thse "Directeur" "person" Nom, prnom des membres du jury et rapporteurs selon leur rle zone rpter autant de fois que de co-tutelles "org" Nom de l'tablissement, composante, sous composante "Universit de soutenance" "org" Nom de l'tablissement, composante, sous composante "co-tutelle" zone rpter autant de fois que de membres de jury "person" Nom, prnom de l'auteur zone rpter si plusieurs auteurs date de soutenance date d'autorisation de diffusion de la thse Rsum franais Rsum anglais Rsum en une autre langue Table des matires de la thse ex "text/xml" ex."3419 bytes" URN de la thse en texte intgral No de la thse attribu par l'universit langue de la thse, par dfaut "fre" "org" Universit responsable de l'dition lectronique de la thse indique les modalits de diffusion de la thse mention de copyright Mention d'origine du document Mots cls franais de l'auteur (utiliser le ; comme sparateur de mots cls)

DC.Contributor

DC.Contributor

DC.Contributor

DC.Coverage DC.Creator

DC.Date DC.Date DC.Description DC.Description DC.Description DC.Description DC.Format DC.Format DC.Identifier DC.Identifier DC.language DC.Publisher DC.Relation DC.Rights DC.Rights DC.Source DC.Subject

Rapport final

22/41

Sorin NECULITA

INSA Lyon DC.Subject DC.Subject DC.Subject

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

DC.Subject

DC.Title DC.Title DC.Title

Mots cls anglais de l'auteur (utiliser le ; comme sparateur de mots cls) Mots cls de l'auteur dans une autre langue (utiliser le ; comme sparateur de mots cls) Mots cls franais conformes au thsaurus Rameau ou au MeSH en franais (utiliser le ; comme sparateur de mots cls pour un mme vocabulaire de rfrence. rpter la zone si le vocabulaire de rfrence est diffrent) quivalent du code de classification sur le bordereau thse ou pour un autre type de classification rfrence (utiliser le ; comme sparateur de mots cls pour une mme classification. rpter la zone si la classification de rfrence est diffrente) Titre et sous titre de la thse en franais Titre et sous titre de la thse en anglais Titre et sous titre de la thse en une autre langue que le franais et l'anglais

d ) La DTD Open eBook La DTD Open eBook a t dveloppe pour reprsenter le contenu du livre lectronique. Cette spcification est destine principalement aux diteurs. Elle est un guide de structuration du contenu dun livre et est accessible diverses plates-formes de lecture lectronique. Un document Open eBook peut tre compos de plusieurs fichiers et dispose dune racine contenant la description de ces fichiers . Les lments composant la racine sont : PACKAGE IDENTITY identificateur unique du document OeB. METADADA les mta donnes (auteur, titre, etc.). MANIFEST la liste des fichiers (images, sous- documents, autres) qui composent le document OeB. SPINE dfinit lordre de lecture des fichiers composant le document. TOURS dfinit un ordre de parcours des parties essentielles du document. GUIDE contient les bibliographies, le sommaire, etc.

La structure dun fichier est identique a la structure dun document HTML : HTML HEAD BODY IMG P

Rapport final

23/41

Sorin NECULITA

INSA Lyon BR .

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

Open eBook est bas sur le langage XML. Un systme de lecture Open eBook est un processeur XML. Un document bas sur ce format a les caractristiques suivantes : Il est un document XML valide. Il est conforme la DTD Open eBook. Il sera conforme la spcification XHTML, ce qui le rendra lisible par les navigateurs qui supporte ou supporteront la norme HTML 4. Open eBook dfinit un langage de style bas sur le CSS1 et CSS2 en utilisant une sous partie des lments dfinis dans ces spcifications et en rajoutant quelques lments supplmentaires pour la gestion des en-ttes et des bas de page. Open eBook supporte la norme Dublin Core pour la gestion des mta donnes.

Rapport final

24/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

e ) ETD Electronic Thesis and Dissertation Initiative

ETD est le nom attribu par lUniversit Virginia Tech Graduate School (USA) aux thses publies en format lectronique. Une ETD est une thse dont le contenu respecte la DTD (dsigne sous le nom de ETD-ML ) conue par le groupe de travail sur les thses de Virginia Tech . La ralisation de la DTD a t faite en partant dune analyse sur les thses et les dissertations existantes et en analysant les rgles rgissant leur dpt.

Une ETD est compose de trois parties : FRONT MATTER - correspond la page de titre ainsi quaux pages suivantes qui prcdent le premier chapitre BODY MATTER correspond au contenu du document. BACK MATTER- contenant les parties post liminaires. Les composantes de la partie FRONT MATTER sont : TITLE titre de la thse. AUTHOR le nom du doctorant. SCHOOL le nom de luniversit. DEGREE le nom du Doctorat. MAJOR le nom du dpartement. APPROVAL NAMES les noms des membres du jury. DATE OF DEFENCE la date de la soutenance. CITY, STATE le lieu de la soutenance. KEYWORDS 4 6 mots cls permettant la classification de la thse. COPYRIGHT les informations sur le droit dauteur. ABSTRACT le rsum. DEDICACE ddicace optionnelle. AUTHORS ACKNOWLEDGMENTS remerciements (optionnel). TABLE OF CONTENTS table de matires. LIST OF MULTIMEDIA OBJECTS liste des objets multimedia. La partie BODY MATTER est compose de : CHAPITRES. SECTIONS PARAGRAPHES La partie BACK MATTER contient : REFERENCES la bibliographie. APPENDICES les annexes. VITA la biographie du doctorant.

Rapport final

25/41

Sorin NECULITA

INSA Lyon f ) DocBook

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

DocBook est une DTD conue par le DocBook Technical Committee , groupe de travail faisant partie de lorganisation OASIS ( Organization for the Advancement of Structured Information Standards . Cette DTD a comme principal domaine dapplication (mais sans y tre limit) la structuration des livres lectroniques ayant comme sujet linformatique (documentation, tutorials, etc). Il existe une version SGML et une version XML de la DTD DocBook. La DTD DocBook est compos de 5 documents : dbpoolx.mod - dfinit les objets et les lments faisant parties dun document. Dbhierx.mod est spcialis dans les manuels et les documentations. Ici est dfinie la hirarchie des diffrentes parties du document. Dbnotnx.mod dclare les diffrentes entits standards (jeux de caractres, les formats de fichier, etc.). Dbcentx.mod dclare dautres entits (comme les notations mathmatiques). Dbgenent.mod dans ce fichier on peut inclure les entits personnalises. Mme si la DocBook est assez massive (la prface contient plus de 40 lments : titre, sommaire, auteur, etc) on ne peut pas lutiliser pour dfinir le contenu dune thse. Il manque des champs comme : le dpartement, lcole, le jury .

Rapport final

26/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

g ) ISO 12083 XML DTDs Cette norme se propose de dfinir plusieurs formats de DTD pour les documents crits en langage XML. On retrouve quatre versions de DTD : XML Article DTD. XML Book DTD. XML Serial DTD dfinit la structure des articles des priodiques. XML Math DTD cette DTD fait partie des DTD Article et Book mais elle est aussi fournie en fichier spar pour tre utilise avec dautres DTD. La DTD qui semble la plus approprie notre projet sur les thses est la Book DTD. Voici la structure simplifie des lments faisant partie de cette DTD.

Un document est compos de : FRONT les pices prliminaires. BODY le corps du document. APPMAT les annexes BACK les post liminaires La partie FRONT du document contient : TITLEGRP dfinit le ou les titres du document. AUTHGRP dfinit lauteur du document : le nom, une organisation auquel lauteur appartient, un degr, un rle, une cole, une adresse. DATE une date de rfrence du document. PUBFRONT des informations sur lditeur de la publication : ISBN, prix, etc COPYRIGHT TOC la table des matires La partie BODY contient : CHAPITRES SECTIONS PARAGRAPHES La partie BACK contient : GLOSSARY INDEX NOTES VITA la biographie de lauteur AFTERWRD la postface

Un lment utile qui manque dans la partie front est la liste du jury. On retrouve des lments marquant la prsence des quations mathmatiques et des images.

Rapport final

27/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

h ) DTD TEI Text Encoding Initiative [TEI] est un projet international qui a comme objectif la conception dun guide pour lencodage des textes sous forme lectronique. Il sagit dun projet ax sur les textes littraires et est dvelopp par plusieurs universits (Oxford, Virginia, Bergen) et soutenu par des associations littraires comme Association for Computers and the Humanities ou Social Science and Humanities Research Council du Canada. Une DTD a t ralise pour le langage SGML. Cette DTD dcrit la plupart des formats des textes en sciences humaines. Elle est compose de plusieurs modules qui peuvent tre combins pour crer une DTD adapte aux besoins spcifiques. Le projet fournit une DTD obtenue par cette mthode. Cette DTD appele TEI-Lite est une version allge de loriginal et contient les lments essentiels .

L'en-tte de la DTD TEI contient des informations analogues celles que l'on trouve sur la page de titre d'un texte imprim. Elle contient jusqu' quatre parties : une description bibliographique du texte lectronique. une description de la manire dont il a t cod. une description non-bibliographique du texte (le profil du texte). un historique de rvision. Le corps du document TEI comporte les lments suivants FRONT - regroupe tous les lments (en-ttes, page de titre, prfaces, ddicaces, etc.) situs avant le dbut du texte lui-mme. GROUP - regroupe plusieurs textes unitaires ou groupes de textes. BODY - regroupe le corps entier d'un texte unitaire seul, l'exclusion des pices liminaires ou annexe. BACK - regroupe toutes les annexes qui suivent le texte principal. La page de titre regroupe les lments suivants : DOCTITLE - contient le titre d'un document, y compris tous ses constituants, tel que prsent sur une page de titre; doit tre partag en lments TITLEPART. TITLEPART - contient une subdivision ou division du titre d'une uvre. BYLINE - regroupe la mention de responsabilit principale d'une oeuvre donne, tel que reproduite sur la page de titre ou au dbut ou la fin de l'ouvrage. DOCAUTHOR - contient le nom de l'auteur du document, tel que prsent sur la page de titre (souvent mais pas toujours contenu dans un <byline>). DOCDATE - contient la date du document, telle que prsente (habituellement) sur la page de titre. DOCEDITION - contient une mention d'dition, telle que prsente sur une page de titre d'un document.

Rapport final

28/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

Dautres lments faisant partie des pices liminaires : FOREWORD - un texte adress au lecteur, par l'auteur, le rdacteur ou l'diteur, ventuellement sous forme d'une lettre. PREFACE DEDICACE ABSTRACT ACK - les remerciements CONTENTS - une table des matires. Les pices annexes sont : APPENDIX GLOSSARY NOTES BIBLIOGRAPHY - une srie de rfrences bibliographiques. INDEX - une srie d'entres d'index. COLOPHON - description la fin du livre mentionnant o, quand, et par qui il a t imprim; dans les livres modernes il donne souvent les dtails de production et identifie les polices utilises. :

i ) Conclusion sur les DTD


La DTD la plus intressante et la plus proche de nos objectifs semble tre la DTD ETD de luniversit Virginia Tech . Elle dcrit les thses scientifiques et contient la plupart des lments dont nous avons besoin. Restent quelques lments qui sont spcifiques lINSA de Lyon (la liste des coles doctorales, la liste des professeurs). La solution la plus vidente serait donc de reprendre la DTD ETD et de la complter avec les lments spcifiques aux thses soutenues lINSA de Lyon.

Rapport final

29/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

5.

Prsentation de la maquette

La maquette et un guide de conversion sont prsents dans cette partie. 5.1 Schma de lapplication
Omnimark dossier darchivage Nom_thse XML RTF

rtf2xm

XML XML

Liaison

XML brut

Adapte

XML

CSS

Fichiers_Nom_thse WMF

WMF

5.2

Fonctionnement et rsultats

Lapplication prend en entre, le (les) fichier(s) RTF composant la thse. Ces fichiers sont traits avec le script RTF2XML et loutil Omnimark ce qui permet de gnrer des fichiers XML et dextraire les images . Ces fichiers sont ensuite concatns dans un seul document XML. On appelle ce document XML brut car sa structure ne correspond pas nos objectifs : le style est contenu dans la structure du fichier et les noms des styles ne sont pas enregistrs en tant que noms de balises. On utilise donc un utilitaire qui permet de balayer le fichier XML et de crer la feuille de style CSS ; dfinir des balises portant les noms des styles. simplifier les balises en supprimant les redondances de style ; Cet utilitaire a t ralis avec la bibliothque de fonctions Xerxes C++ implmentant la spcification SAX de parsage des documents XML [XMLApache]. Supposons que le fichier XML brut contienne une ligne de la forme : <p stylename= RESUME left=11 >Le texte du rsum </p> en utilisant cet utilitaire on obtient le fichier CSS : <STYLE> .RESUME {left=11 ;} </STYLE> et dans le fichier XML on obtient la balise : <RESUME>Le texte du rsum </RESUME>

Rapport final

30/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

LAnnexe 4 contient un exemple complet de fichiers XML et CSS gnrs avec ce convertisseur. LAnnexe 1 dcrit la procdure dutilisation de ce convertisseur. LAnnexe 2 dcrit le mode dutilisation de lutilitaire RTF2XML. LAnnexe 3 dcrit le mode dutilisation de lutilitaire de conversion du fichier XML brut, utilitaire qui peut tre utilis sparment de lapplication principale de conversion.

5.3

Points restants faire

Les dessins, les objets Shapes ne sont pas convertis. Leurs prsences sont toutefois dtectes et indiques dans le fichier XML par les balises <drawing-shape>. Ceci facilite lintgration ultrieure dun utilitaire qui puisse reconnatre et convertir ces objets. Les balises <dawing-shape> permettront dinsrer au bon endroit les liens vers les fichiers rsultant de la conversion des dessins en image. Dautre part les quations sont enregistres sous forme dimages WMF et non pas dans le format MathML.

Rapport final

31/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

6.

Conclusion

Ce projet nous a permis de faire une tude sur la structure des thses soutenues l'INSA de Lyon pour dfinir la DTD utiliser lors des conversion en format XML. En plus, nous avons pu voir ltat actuel de dveloppement des applications qui permettent la conversion RTF vers XML. Utilisant au mieu les possibilits actuelles, nous avons pu raliser une maquette de chane de conversion. Du cot des applications, il faudrait attendre la finalisation des fonctionnalits de conversion (rcupration des dessins, des quations en MathML). Loutil qui parat le plus prometteur, de ce point de vue est OpenOffice , dont la sortie est prvue pour lautomne 2001.

Rapport final

32/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

7.

Rfrences bibliographiques

[XML] Extensible Markup Language 1.0 (Second Edition) [on line] <URL : http://www.w3c.org/TR/2000/REC-xml-20001006> [OpenOffice] Open Office.org Source Project [on line] <URL : http://www.openoffice.org> [UpCast] Up-Cast [on line] <URL: http://www.infinity-loop.de/index.html> [XMLAppache] Projet XML Apache [on line] <URL : http://xml.apache.org> [Majix] Majix [on line] <URL : http://tetrasys.dhs.org/majix.html > [RTF4XML] RTF4XML [on line] <URL : http://www.hcu.ox.ac.uk/TEI > [ISOXML] ISO 12083 XML [on line] <URL : http://www.xmlxperts.com/12083xml.htm> [TEI] DTD TEI [on line] <URL : http://www.hcu.ox.ac.uk/TEI> [DocBook] DocBook [on line] <URL : http://www.oasis-open.org/docbook/ > revoir [ETD] Electronic Thesis Disertation [on line] <URL : http://csgrad.cs.vt.edu/~mbjorklu/etdml> [OpeneBook] Open-eBook [on line] <URL : http://openebook.org > [MathType] MathType [on line] <URL : http://www.mathtype.com/fr> [Dublin Core] Dublin Core [on line] <URL : http://dublincore.org >

Rapport final

33/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

8.

Annexes

a ) Annexe 1 Utilisation de lutilitaire de conversion

10

11 6 1 2

8 3

La procdure de conversion consiste dans les tapes suivantes : Lutilisateur dfinit le nom de la thse. Ce nom sera le nom du dossier darchivage de la thse en XML, ainsi que le nom du fichier XML et du fichier CSS. (1) Lutilisateur choisit les fichiers RTF convertir. Il peut les ajouter (2) ou les supprimer (3) de la liste. La liste des fichiers RTF (4) affiche les documents que lutilisateur a choisi de convertir. Lordre du listing est lordre de concatnation des fichiers XML obtenus suite la conversion. Cette ordre peut tre change (5). Rapport final 34/41 Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

Dans cette liste on affiche le dossier demplacement du fichier RTF, le nom du fichier RTF et le nom de la balise qui marquera le contenu du document dans le fichier XML final. La valeur de la balise est, par dfaut, le nom du fichier RTF. Cette valeur est directement modifiable. Ltape suivante consiste dans le choix du dossier darchivage (6). Une fois tous ces lments dfinis, lutilisateur peut dclencher la conversion (7). A la fin de la conversion, on affiche dans la liste arborescente (8) le fichier XML, le fichier CSS ainsi que les fichiers annexes qui ont t gnrs. On peut visualiser le fichier XML (9) , le fichier CSS (10) et le fichier RTF slectionn (11).

Limitations : les noms des dossiers, des fichiers et des balises ne doivent pas contenir des espaces et des caractres non ASCII (ex : les accents sont interdits). La structure du fichier XML brut est dfinie dans les documents DTD fournis avec lutilitaire RTF2XML. Le point dentre de ces documents est constitu par transdoc.dtd . Le fichier XML obtenu la fin de la conversion nest pas reli une DTD. Pour pouvoir le valider il faudra crer une DTD en partant du fichier transdoc.dtd et en rajoutant la dfinition des nouvelles balises. b ) Annexe 2 Utilisation de lutilitaire RTF2XML (extrait du manuel dutilisation fourni avec lutilitaire)
To run the RTF2XML program, you must first obtain OmniMark LE from Omnimark Technologies at http://www.omnimark.com/. Version 4 or later is prefered. Once you have installed OmniMark LE, then you can run this program from the command line as follows: omle -s rtf2xml.xom -of output.xml input.rtf This should produce a valid XML file. (Note: you can pass multiple RTF files as input, and they will be concatinated into a single XML file.) If you want to use SGML instead, and your parser does not support Unicode (i.e. if you are using OmniMark LE Version 3.x), you should run it as follows: omle -s rtf2xml.xom -a no-unicode -of output.xml input.rtf or alternatively, omle -s rtf2xml.xom -a escape-unicode -of output.xml input.rtf Command line options: Switches: -a output-sgml Outputs SGML instead of XML. This switch is an alias for the escape-unicode option, since all it does is set escape-unicode to true, which results in ASCII SGML as the output format. -a no-unicode Supresses all Unicode. Outputs alternative characters if present in the RTF. This also results in the xml-ents and sdata-ents

Rapport final

35/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

parameter entities being set to IGNORE and INCLUDE respectively in the document prolog. Note: this means that the output will be SGML instead of XML. -a escape-entities Outputs an ESCAPE element instead of a named entity reference. -a escape-ansichars Outputs an ANSICHAR element instead of an ANSI character reference. -a escape-unicode Outputs a UNICODE element instead of a Unicode character reference. Activate this if you want access to the Unicode values, but need to process the resulting file with OmniMark V3 or any other parser that doesn't grok UTF-8. Alternative characters will not be output except in attribute (such as style names), but their values are accessible through the ALT attribute of the UNICODE element. This also sets the xml-ents and sdata-ents parameter entities to IGNORE and INCLUDE respectively in the document prolog. Note: this means that the output will be SGML instead of XML. -a ansi-stylenames Uses the ansi representation of stylenames rather than the Unicode version. -a allow-nested-paras By default, a FIELD is not wrapped in a paragraph when it contains paragraphs within its FLDRSLT child. This switch allows such nested paragraph structures. -a link-subdocs RTF subdocuments (different from the SGML kind) are incorporated into the main document automatically unless this switch is set. Activating this switch will cause all RTF subdocuments to be referenced via the DOCLINK element. -a extract-figures Causes all embedded figures to be extracted from the RTF. Note: no conversion is done. Figures are decoded from hexidecimal to binary and placed raw on the file system. -a extract-unlinked-figures Extracts only those figures that do not have the "link to file" option specified in MS-Word. -a sdata-entities Sets the xml-ents and sdata-ents parameter entities to IGNORE and INCLUDE respectively in the document prolog. Note: this means that the output will be SGML instead of XML. -a output-drawing-objects Outputs supported drawing objects. Currently, only textboxes and embedded graphics that use the {/pict ...} construct are supported. Streams: -d resource-path "/where_i_put_my_stuff/rtf2xml/" Set this value if you move the RTFDOC DTD and associated files, or if you are running RTF2XML via a shell script or batch file. -d sgml-log "sgml.log" This is only valuable for debugging. It spits the intermediate RTFDOC data used in the cross-translate to the file you specify. It's useful because it allows you to see exactly what's going to the parser. -d fig-path "/figures/"

Rapport final

36/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

Specifies the directory to which embedded figures will be extracted. By default they are extracted to the current directory. -d fig-ext "eps" Specifies the extension you want placed after the "." in the filename. By default, "fig" is used.

Exemple de ligne de commande RTF2XML utilise dans lutilitaire de conversion :


C:\PROGRA~1\OMNIMARK\OMNIMARK.EXE -s C:\TEMP\APPLICATION\rtf2xml\rtf2xml.xom -a extractfigures -a extract-unlinked-figures -a output-drawing-objects -d fig-path C:\temp\archive\These_Test\Introduction_files\ -of C:\TEMP\APPLICATION\temp\Introduction.xml C:\temp\Introduction.rtf

Rapport final

37/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

c ) Annexe 3 Utilisation de lutilitaire de simplification du fichier XML et gnration de la feuille de style Cet utilitaire utilise linterface SAX pour balayer le fichier XML brut. Limplmentation utilise la librairie Xerxes pour C++, dveloppe dans le cadre du projet XML Apache. Lutilisation de cet utilitaire est la suivante : Dtdadapte fic_in.xml fic_out.css > fic_out.xml

avec : fic_in.xml le fichier XML traiter ; fic_out.css le fichier CSS gnrer ; fic_out.xml le fichier XML gnrer. Lapplication gnre le rsultat sur la sortie standard. On utilise une redirection du flot de sortie pour crire ce rsultat dans le fichier XML. Exemple de ligne de commande utilise dans le convertisseur :
C:\TEMP\APPLICATION\\DtdAdapte\dtdadapte C:\TEMP\APPLICATION\temp\These_Test.comp.xml C:\temp\archive\These_Test\These_Test.css > C:\temp\archive\These_Test\These_Test.xml

Rapport final

38/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

d ) Annexe 4 Exemple de fichier XML gnr <?xml version="1.0" encoding="ISO-8859-1"?> <transdoc Nom_These="exemple"> <ATT00033 fileName="ATT00033.rtf" imgFilesPath=".\ATT00033_files\" charset="ANSI"> <meta> <title>N Ordre 99 ISAL 0089</title> <author>Dpartement IF</author> <creation-date> <year>2001</year> <month>5</month> <day>2</day> <hour>15</hour> <minute>32</minute> </creation-date> <revision-date> <year>2001</year> <month>5</month> <day>2</day> <hour>15</hour> <minute>34</minute> </revision-date> <company>INSA de LYON</company> <template>THESE.dot</template> </meta> <section> <header page="default"> </header> <footer page="default"> <field><fldinst> PAGE </fldinst><fldrslt>2</fldrslt></field> </footer> <texte11_these>N Ordre 99 ISAL 0089<string fontsize="24"> </string>Anne 1999</texte11_these> <texte11_these></texte11_these> <p>THESE</p> <p>Prsente devant</p> <Universite>L&#x2019;INSTITUT NATIONAL DES SCIENCES APPLIQUEES DE LYON</Universite> <p>pour obtenir</p> <Grade>LE GRADE DE DOCTEUR</Grade> <Formation_Doctorale>F<string scaps="on">ORMATION DOCTORALE </string>: Gnie Civil : sols, matriaux, structure, physique du btiment</Formation_Doctorale> <Ecole_Doctorale><string caps="on">Ecole doctorale</string> : Mcanique, Energtique, Gnie Civil, Acoustique</Ecole_Doctorale> <p>par</p>

Rapport final

39/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

<Auteur>Monika Woloszyn pouse Vallon</Auteur> <Discipline>Ingnieur Gnie Civil et Urbanisme</Discipline> <Discipline>Diplme de l'INSA de Lyon</Discipline> <texte11_these></texte11_these> <texte11_these></texte11_these> <texte11_these></texte11_these> <Titre_these>Modlisation hygro-thermo-araulique des btiments multizones</Titre_these> <Titre_these>proposition d'une stratgie de RESOLUTION du systme coupl</Titre_these> <Titre_these></Titre_these> <texte11_these></texte11_these> <texte11_these></texte11_these> <Soutenance>Soutenue le 26 novembre 1999 devant la Commission d&#x2019;Examen</Soutenance> <texte11_these></texte11_these> <Jury>Jury : </Jury> <Jury>MM. Jean <string caps="on">Brau</string> Prsident du Jury</Jury> <Jury>Jean-Luc <string caps="on">Hubert</string> Examinateur</Jury> <Jury>Christian INARD Rapporteur</Jury> <Jury>Jean <string caps="on">Lebrun</string> Rapporteur</Jury> <Jury>Gilles <string caps="on">Rusaouen</string> Directeur de Thse</Jury> <Jury>Stig <string caps="on">skelboe</string> Examinateur</Jury> <Jury>Paul <string caps="on">Stangerup</string> Rapporteur</Jury> <Jury></Jury> <Copyright>Cette thse a t prpare au Laboratoire CETHIL - quipe Thermique du Btiment de l&#x2019;INSA de Lyon</Copyright> <texte10></texte10> <p></p> </section> </ATT00033> </transdoc> Exemple de fichier CSS gnr <STYLE TYPE="text/css"> <!-.header{ fontsize:20; bold:on; italic:default; scaps:default; color:default; caps:default; revstatus:default; subscript:default; align:default; hidden:default; charset:0; superscript:default; rev-author:default; underline:default; fontname:default; rev-time:default; expandtwips:default; strike:default; } .footer{ align:right; fontsize:20; italic:default; scaps:default; color:default; caps:default; revstatus:default; subscript:default; hidden:default; charset:0; bold:default; superscript:default; rev-author:default; underline:default; fontname:default; rev-time:default; expandtwips:default; strike:default; } .texte11_these{ align:justify; fontsize:20; italic:default; scaps:default; color:default; caps:default; rev-status:default; subscript:default; hidden:default; charset:0; bold:default; superscript:default; rev-author:default; underline:default; fontname:default; rev-time:default; expandtwips:default; strike:default; } .p{ align:center; fontsize:24; bold:on; italic:default; scaps:default; color:default; caps:default; rev-status:default; subscript:default; hidden:default; charset:0; superscript:default; rev-

Rapport final

40/41

Sorin NECULITA

INSA Lyon

PFE Conception d'une chane de conversion des thses RTF en format XML

LISI & DocINSA

author:default; underline:default; fontname:default; rev-time:default; expandtwips:default; strike:default; } .Universite{ align:center; bold:on; italic:default; scaps:default; color:default; caps:default; rev-status:default; subscript:default; hidden:default; charset:0; superscript:default; revauthor:default; underline:default; fontname:default; fontsize:default; rev-time:default; expandtwips:default; strike:default; } --> </STYLE>

Rapport final

41/41

Sorin NECULITA

Você também pode gostar