Comment procéder à la segmentation des double pages #32

emchateau · 2023-11-21T17:30:18Z

emchateau
Nov 21, 2023
Maintainer

Lors de la réunion du 21 novembre, nous avons rediscuté de la segmentation des double vues qu’il serait souhaitable d’opérer préalablement au traitement du corpus.

J’avais l’impression que Kraken n’était pas un outil très adapté pour la tâche que nous voulions faire car il est surtout centré sur la détection de zones de texte. D’autres outils de détection de mise en page ou de segmentation semblaient être plus adaptés pour isoler les pages.

Cependant en y repensant, deux approches seraient éventuellement possibles :

une approche fondée sur la détection des pages
une approche qui extrapolerait les marges à partir des blocs de texte.

La seconde approche serait peut être implémentable avec Kraken.

Qu'en penses-tu @sardinecan ?

rcarvais · 2023-11-21T17:42:00Z

rcarvais
Nov 21, 2023
Maintainer

indépendamment de la difficulté technique, je reste très étonné qu'il n'existe pas une possibilité simple de séparer automatiquement deux pages qui sont organisées quant à leur remplissage de la même manière !

0 replies

emchateau · 2023-11-21T17:42:49Z

emchateau
Nov 21, 2023
Maintainer Author

ça existe forcément, c’est pour ça que nous devons chercher.

0 replies

emchateau · 2023-11-21T18:09:21Z

emchateau
Nov 21, 2023
Maintainer Author

J'ai fait un premier repérage sur COCO et repéré des solutions logicielles https://github.com/publicarchi/elementum/blob/master/nMLAnnotation.md

0 replies

emchateau · 2023-11-21T18:32:36Z

emchateau
Nov 21, 2023
Maintainer Author

Robert a demandé conseil à une collègue qui lui a suggéré AbbyFineReader pour extraire la page. Le résultat est comparable à la solution ScanTaylor proposée par Alix : cela créée une nouvelle image. Or, nous en avons 50 000 et cela nous obligerait à tout recharger sur le site. Il serait donc préférable de travailler avec des coordonnées comme nous l’avons discuté.

Comme je me suis souvenu que nous avons accès à Abby FindeReader par l’intermédiaire de Sharedocs même s’il s’agit d’un outil propriétaire, j'ai fait un test d’extraction au format XML Alto qui nous ramènera peut être les coordonnées de la page. Par contre je ne suis pas trop sûr de comment visualiser ensuite.

0 replies

emchateau · 2023-11-21T19:59:45Z

emchateau
Nov 21, 2023
Maintainer Author

Voici le résultat des essais en XMLAlto https://sharedocs.huma-num.fr/wl/?id=KSAlkubD4Q5MAJ19zd4rMo40iPmbwcUf
Peux-tu jeter une œil pour voir si on peut visualiser les blocs de page @sardinecan ? Il faut peut être trouver un outil qui visualiser les zones Alto. Peut-être possible dans eScriptorium.

3 replies

sardinecan Nov 21, 2023
Maintainer

J'utilise altoviz, mais par contre, j'ai pas l'impression que Abby sorte du Alto ?

sardinecan Nov 21, 2023
Maintainer

il existe cependant des lib. qui permettent de passer de Abby à Alto abby-to-alto

sardinecan Nov 21, 2023
Maintainer

pleins de ressources qui pourraient nous servir ici ocr-conversion

emchateau · 2023-11-25T22:29:20Z

emchateau
Nov 25, 2023
Maintainer Author

En effet, cela n’a pas vraiment l’air d’être du Alto, je m’en suis aperçu en travaillant sur la question avec une étudiante sur un autre projet...

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Experts et expertises du bâtiment à Paris, 1690-1790

Comment procéder à la segmentation des double pages #32

{{title}}

Replies: 6 comments 3 replies

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

Select a reply

Experts et expertises du bâtiment à Paris, 1690-1790

Comment procéder à la segmentation des double pages #32

emchateau Nov 21, 2023 Maintainer

Replies: 6 comments · 3 replies

rcarvais Nov 21, 2023 Maintainer

emchateau Nov 21, 2023 Maintainer Author

emchateau Nov 21, 2023 Maintainer Author

emchateau Nov 21, 2023 Maintainer Author

emchateau Nov 21, 2023 Maintainer Author

sardinecan Nov 21, 2023 Maintainer

sardinecan Nov 21, 2023 Maintainer

sardinecan Nov 21, 2023 Maintainer

emchateau Nov 25, 2023 Maintainer Author

emchateau
Nov 21, 2023
Maintainer

Replies: 6 comments 3 replies

rcarvais
Nov 21, 2023
Maintainer

emchateau
Nov 21, 2023
Maintainer Author

emchateau
Nov 21, 2023
Maintainer Author

emchateau
Nov 21, 2023
Maintainer Author

emchateau
Nov 21, 2023
Maintainer Author

sardinecan Nov 21, 2023
Maintainer

sardinecan Nov 21, 2023
Maintainer

sardinecan Nov 21, 2023
Maintainer

emchateau
Nov 25, 2023
Maintainer Author