scenari
 

Transformation de document non structuré -> contenu SCENARI

(ou essaie de...)

D'après un poste d'Antoine Pourchez sur le forum, en réponse à la question du type "est il possible de récupérer le contenu de mon document word et le transformer en contenu Scenari" :

La question de la récupération de documents écrits sous Word ou OpenDocument est récurrente. Dans la suite, je ne parlerai que d'OpenDocument pour simplifier; le problème étant plus complexe avec un document Word : Il est possible d'importer un document word dans openOffice, mais word n'incitant pas à utiliser les styles, le document openOffice résultant est inexploitable.

Je ne suis pas au courant des derniers travaux de Franck sur ce thème, mais je peux vous parler de mon expérience. Des études et essais avaient été menés sur des outils permettant de transformer un document OpenDocument vers de l'Opale (ou le modèle Acad à l'époque, je ne sais plus). Les résultats étaient extrêmement mitigés. OpenDocument n'est pas un format permettant d'introduire une sémantique. Pour pallier à cette impossibilité structurelle, on cherche à créer une correspondance entre un style et une structure sémantique; Cette palette de style est relativement importante et donc compliquée pour Opale... cela produit un nombre d'erreurs (très) élevé de la part des auteurs. Des modifications de la part de la cellule multimédia sont donc inéluctables : - soit sur le document initial pour le rendre 100% conforme à la palette de style préfixée; - soit sur les items transformés. L'expérience a montré que ce temps de modification a postériori était supérieur au temps de re-saisie complet des contenus dans les éditeurs SCENARI...

Au-delà de ces considérations empiriques, il existe par ailleurs des limites logiques qui invalident la possibilité d'un tel outil réalisant une transformation parfaite entre OpenDocument et un modèle documentaire. OpenDocument ne permet pas d'imbriquer des paragraphes. Il est donc impossible pour un système informatique de prendre une décision correcte dans certains cas :

Exemple

  • Partie A
  • Sous-partie 1
  • Paragraphe1
  • Paragraphe2

A qui appartient le Paragraphe2. A "PartieA" ou à "sousPartie1"?

Exemple

  • Paragraphe1 stylé "remarque"
  • Paragraphe2 stylé "remarque"

On est en présence de 2 remarques distinctes, ou d'une remarque contenant deux paragraphes?

Pour poursuivre la réflexion, le même type de limite existe lorsque l'on veut passer d'un PDF à un document OpenDocument (ou word...). PDF s'approche du langage de l'imprimante... en s'éloignant de la sémantique orientée "mise en page" d' OpenDocument. Les objets paragraphes, page, ... sont irrécupérables.

Exemple

lors de la récupération d'un PDF dans OpenOffice (via distiller par exemple), chaque retour à la ligne est interprété comme un nouveau paragraphe!

Malgré tout ça, le besoin de récupération de contenus "word" ou "openOffice" est réel. La solution se trouve donc au milieu de "ne rien récupérer et tout re-saisir", et "tout récupérer automatiquement". J'ai mis en place avec Fabien Baillon (École des Mines d'Albi) le niveau minimal de cet outil : la possibilité d'extraire toutes les ressources contenues dans un document ODT (formules mathématiques, images, ...). Cet outil est disponible à cette adresse :

http://scenari-platform.org/trac/dev-core/browser/trunk/Bui_Utility/extractResFromOdt