Replies: 6 comments 3 replies
-
indépendamment de la difficulté technique, je reste très étonné qu'il n'existe pas une possibilité simple de séparer automatiquement deux pages qui sont organisées quant à leur remplissage de la même manière ! |
Beta Was this translation helpful? Give feedback.
-
ça existe forcément, c’est pour ça que nous devons chercher. |
Beta Was this translation helpful? Give feedback.
-
J'ai fait un premier repérage sur COCO et repéré des solutions logicielles https://github.com/publicarchi/elementum/blob/master/nMLAnnotation.md |
Beta Was this translation helpful? Give feedback.
-
Robert a demandé conseil à une collègue qui lui a suggéré AbbyFineReader pour extraire la page. Le résultat est comparable à la solution ScanTaylor proposée par Alix : cela créée une nouvelle image. Or, nous en avons 50 000 et cela nous obligerait à tout recharger sur le site. Il serait donc préférable de travailler avec des coordonnées comme nous l’avons discuté. Comme je me suis souvenu que nous avons accès à Abby FindeReader par l’intermédiaire de Sharedocs même s’il s’agit d’un outil propriétaire, j'ai fait un test d’extraction au format XML Alto qui nous ramènera peut être les coordonnées de la page. Par contre je ne suis pas trop sûr de comment visualiser ensuite. |
Beta Was this translation helpful? Give feedback.
-
Voici le résultat des essais en XMLAlto https://sharedocs.huma-num.fr/wl/?id=KSAlkubD4Q5MAJ19zd4rMo40iPmbwcUf |
Beta Was this translation helpful? Give feedback.
-
En effet, cela n’a pas vraiment l’air d’être du Alto, je m’en suis aperçu en travaillant sur la question avec une étudiante sur un autre projet... |
Beta Was this translation helpful? Give feedback.
-
Lors de la réunion du 21 novembre, nous avons rediscuté de la segmentation des double vues qu’il serait souhaitable d’opérer préalablement au traitement du corpus.
J’avais l’impression que Kraken n’était pas un outil très adapté pour la tâche que nous voulions faire car il est surtout centré sur la détection de zones de texte. D’autres outils de détection de mise en page ou de segmentation semblaient être plus adaptés pour isoler les pages.
Cependant en y repensant, deux approches seraient éventuellement possibles :
La seconde approche serait peut être implémentable avec Kraken.
Qu'en penses-tu @sardinecan ?
Beta Was this translation helpful? Give feedback.
All reactions