You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Est ce possible d'apprendre à la machine de réintégrer les ajouts dans le texte ?
Pour le moment tout ce qui était en marge on le mettait à la fin des textes, sauf pour les notes annotées. On a fait un pseudo balisage (€€, $$ etc) pour les identifier dans le texte. On ne veut pas forcément les mettre à la fin car il peut y avoir plusieurs vacations dans un même pv.
Selon Alix, ce qui est possible c'est d'annoter les zones, ce que l'on est en train de faire avec Segmonto. Tu peux avoir ta main zone et autant de zones marginales autour.Tu peux avoir un signe d'insertion de note mais si les notes ne sont pas dans le bon ordre, cela peut poser problème et il faudra intervenir manuellement. Le symbole de la note peut être considéré comme un caractère. Ça fonctionne comme une encre. (https://www.compart.com/fr/unicode/U+2380)
Il faut faire attention à ce que le symbole soit bien pris dans le masque et cela risque de poser souci, modifier les points avec touche m clavier.
Donc dans eScriptorium : Main Zone Margin zone en faisant attention à bien inclure les appels de note. Mais on ne peut pas les numeroter.
Utilisation de choco-muffin, avec utilisation d'expressions régulières (https://github.com/PonteIneptique/choco-mufin) par contre faut bien le documenter.
Il faut que le modèle soit simple pour être bien évalué. Notre but n'est pas de faire une édition. Cette méthode va être bonne pour les textes que nous allons transcrire mais quand c'est la machine qui le fera, cela va surement poser problème.
L'ajout de la rubrique de début de pv et des en-têtes. Utilisation de custom zone avec un type particulier pour indiquer que la présence de la côte en bas de la page = première page. Ou alors la date en haut à gauche qui est toujours présente, car même si parfois il n'y a pas la rubrique, il y a la date de présente.
Question des paragraphes, on ne peut pas avoir de main zone et de sous main zone dedans. On peut entrainer le modele pour qu'il reconnaisse la phrase qui s'arrête en plein milieu de la page, synonyme de nouveau paragraphe par la suite. Faire attention quand deux zones sont très proches, Kraken calcule les pixels. Alix nous conseille peut-être Yaltai pour cette question des paragraphes (https://github.com/PonteIneptique/rtk)
Question de l'ordre des blocs. Alix ne sait pas encore comment c'est géré.
Que faire des signatures ? Ligne ou zone ? Que faire des ruches ? Telle signature/ruche correspond à un caractère particulier et la considérer comme une ligne. Ligne c'est plus facile à gérer, quitte à la laisser vide ce qui permettra plus tard d'extraire ces masques avec une autre technologie. Pour les signatures de fin de vacation on les défini aussi comme une ligne et laisser vide la ligne pour la ruche, comme ça la machine fera le lien avec les ruches marginales.
Idéalement le modèle des régions doit être efficace, puis la segmentation et enfin la transcription. Mais si on refait les lignes on efface la transcription. Selon Alix, l'entrainement du modèle se base sur plusieurs tâches qui sont évaluées avec la même métrique donc on peut gérer les regions et les baseslines (avoir tout en même temps) en même temps.
Problème avec l'id des pv lorsque l'on va devoir entrainer le modèle. Il faudrait créer un corpus d'entrainement pour les zones, un autre pour la segmentation et un autre pour la transcription etc. Cela nous fera gagner du temps. Mais cela voudrait dire créer une ontologie par côte. Il va falloir passer par l'API d'eScriptorium. Voir aussi ce qu'a réalisé T. Clérice (https://addons.mozilla.org/en-US/firefox/addon/escriptorium-segmonto-checker/) et (https://www.youtube.com/watch?v=FX8H9LJ_LfA)
Peut-on utiliser le balisage proposer par eScriptorium ? Assez obsolète pour Alix. Elle a fait le choix de laisser complètement vide la ligne où elle ne parvenait pas à lire un mot. Ou bien elle segmente la phrase en plusieurs bouts. Kraken ignore que la ligne est vide.
Ou alors on garde nos €€€ pour dire que le mot est illisible et apprendre à Kraken après comme ça on ne perd pas toute la ligne et on peut revenir dessus ensuite.
Question des lignes biffées ? Alix utilise les crochets doubles pour signifier que le mot est barré mais qu'on arrive à le lire.
Type interligne dans l'ontologie pour les mots ajoutés entre les lignes. Mais cela va créer une ligne.
Comment on récupère les données ? Avec Alto on a des TAGREFS pour retrouver les zones et les lignes.
reacted with thumbs up emoji reacted with thumbs down emoji reacted with laugh emoji reacted with hooray emoji reacted with confused emoji reacted with heart emoji reacted with rocket emoji reacted with eyes emoji
-
Réunion de travail avec Alix, Robert, Emmanuel, Josselin et Sara
Rappel à Alix de ce que nous avons fait jusqu'a présent.
Demonstration des problèmes que nous rencontrons.
(https://escriptorium.readthedocs.io/en/latest/shortcuts/)
Pour le moment tout ce qui était en marge on le mettait à la fin des textes, sauf pour les notes annotées. On a fait un pseudo balisage (€€, $$ etc) pour les identifier dans le texte. On ne veut pas forcément les mettre à la fin car il peut y avoir plusieurs vacations dans un même pv.
Selon Alix, ce qui est possible c'est d'annoter les zones, ce que l'on est en train de faire avec Segmonto. Tu peux avoir ta main zone et autant de zones marginales autour.Tu peux avoir un signe d'insertion de note mais si les notes ne sont pas dans le bon ordre, cela peut poser problème et il faudra intervenir manuellement. Le symbole de la note peut être considéré comme un caractère. Ça fonctionne comme une encre. (https://www.compart.com/fr/unicode/U+2380)
Il faut faire attention à ce que le symbole soit bien pris dans le masque et cela risque de poser souci, modifier les points avec touche m clavier.
Donc dans eScriptorium : Main Zone Margin zone en faisant attention à bien inclure les appels de note. Mais on ne peut pas les numeroter.
Utilisation de choco-muffin, avec utilisation d'expressions régulières (https://github.com/PonteIneptique/choco-mufin) par contre faut bien le documenter.
Il faut que le modèle soit simple pour être bien évalué. Notre but n'est pas de faire une édition. Cette méthode va être bonne pour les textes que nous allons transcrire mais quand c'est la machine qui le fera, cela va surement poser problème.
L'ajout de la rubrique de début de pv et des en-têtes. Utilisation de custom zone avec un type particulier pour indiquer que la présence de la côte en bas de la page = première page. Ou alors la date en haut à gauche qui est toujours présente, car même si parfois il n'y a pas la rubrique, il y a la date de présente.
Question des paragraphes, on ne peut pas avoir de main zone et de sous main zone dedans. On peut entrainer le modele pour qu'il reconnaisse la phrase qui s'arrête en plein milieu de la page, synonyme de nouveau paragraphe par la suite. Faire attention quand deux zones sont très proches, Kraken calcule les pixels. Alix nous conseille peut-être Yaltai pour cette question des paragraphes (https://github.com/PonteIneptique/rtk)
Question de l'ordre des blocs. Alix ne sait pas encore comment c'est géré.
Que faire des signatures ? Ligne ou zone ? Que faire des ruches ? Telle signature/ruche correspond à un caractère particulier et la considérer comme une ligne. Ligne c'est plus facile à gérer, quitte à la laisser vide ce qui permettra plus tard d'extraire ces masques avec une autre technologie. Pour les signatures de fin de vacation on les défini aussi comme une ligne et laisser vide la ligne pour la ruche, comme ça la machine fera le lien avec les ruches marginales.
Idéalement le modèle des régions doit être efficace, puis la segmentation et enfin la transcription. Mais si on refait les lignes on efface la transcription. Selon Alix, l'entrainement du modèle se base sur plusieurs tâches qui sont évaluées avec la même métrique donc on peut gérer les regions et les baseslines (avoir tout en même temps) en même temps.
Problème avec l'id des pv lorsque l'on va devoir entrainer le modèle. Il faudrait créer un corpus d'entrainement pour les zones, un autre pour la segmentation et un autre pour la transcription etc. Cela nous fera gagner du temps. Mais cela voudrait dire créer une ontologie par côte. Il va falloir passer par l'API d'eScriptorium. Voir aussi ce qu'a réalisé T. Clérice (https://addons.mozilla.org/en-US/firefox/addon/escriptorium-segmonto-checker/) et (https://www.youtube.com/watch?v=FX8H9LJ_LfA)
Peut-on utiliser le balisage proposer par eScriptorium ? Assez obsolète pour Alix. Elle a fait le choix de laisser complètement vide la ligne où elle ne parvenait pas à lire un mot. Ou bien elle segmente la phrase en plusieurs bouts. Kraken ignore que la ligne est vide.
Ou alors on garde nos €€€ pour dire que le mot est illisible et apprendre à Kraken après comme ça on ne perd pas toute la ligne et on peut revenir dessus ensuite.
Question des lignes biffées ? Alix utilise les crochets doubles pour signifier que le mot est barré mais qu'on arrive à le lire.
Type interligne dans l'ontologie pour les mots ajoutés entre les lignes. Mais cela va créer une ligne.
Comment on récupère les données ? Avec Alto on a des TAGREFS pour retrouver les zones et les lignes.
Beta Was this translation helpful? Give feedback.
All reactions