Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Générateur de rapport texte grâce a un LLM #602

Open
orovellotti opened this issue Jan 24, 2025 · 8 comments
Open

Générateur de rapport texte grâce a un LLM #602

orovellotti opened this issue Jan 24, 2025 · 8 comments

Comments

@orovellotti
Copy link

orovellotti commented Jan 24, 2025

Bonjour à tous,

Nous avons entamé une réflexion autour de la génération de rapports pour différents clients en utilisant une approche Retrieval-Augmented Generation (RAG) à partir des données d'un atlas. Pour ceux qui souhaitent en savoir plus sur le concept RAG, voici un lien utile :
Retrieval-Augmented Generation (RAG) et recherche sémantique pour les GPTs.

L'idée est de poser les bases pour engager une discussion collective :

Quels modèles LLMs (Large Language Models) envisager pour ce type d'usage ?
Quels cas d'utilisation pourraient être couverts ?
Quels exemples de rapports spécifiques à GeoNature ou aux atlas de biodiversité pourrait-on imaginer ?
Vos retours et idées sont les bienvenus pour structurer ce sujet.

Merci à tous !

@camillemonchicourt
Copy link
Member

Je ne comprends pas bien ce que c'est et à quoi ça sert ?
Quel est l'objectif ?

@orovellotti
Copy link
Author

orovellotti commented Jan 24, 2025

Faciliter la création automatisée de rapports personnalisés, en exploitant les données de l'atlas pour répondre aux besoins spécifiques des différents persona (scientifiques, gestionnaires, collectivités, citoyen etc.).

Cas d’utilisation potentiels :
Synthèses thématiques : Par exemple, un rapport sur les espèces protégées dans une zone donnée ou une analyse des pressions sur la biodiversité.
Rapports réglementaires : Documents adaptés aux exigences légales pour des études d’impact ou des plans de gestion.
Communication : Rapports simplifiés et illustrés pour sensibiliser des élus ou des citoyens.
ABC: Atlas de la biodiversité communal et intercommunal

@orovellotti orovellotti changed the title Generateur de rapport LLM Générateur de rapport texte LLM Jan 24, 2025
@orovellotti orovellotti changed the title Générateur de rapport texte LLM Générateur de rapport texte grâce a un LLM Jan 24, 2025
@babastienne
Copy link

babastienne commented Jan 24, 2025

Hello. Au-delà de l'aspect fonctionnel sur lequel je n'ai pas d'opinion (il y a surement des cas d'usages très intéressant), j'alerte sur la partie technique.

Aspect logiciel libre

Ajouter du LLM dans GeoNature c'est ajouter une dépendance supplémentaire à un service pas si anodin. Il y a finalement assez peu de vrais modèles Open Source et libres qui sont performants aujourd'hui. Je pense qu'il y a un point de vigilance à avoir sur le modèle qui souhaite être utilisé. Typiquement il ne faudra pas utiliser des modèles chatGPT, Llama, Gemini et autres qui sont des boites noires (malgré le fait que certains se prétendent open source). Donc il faudra soit entraîner son propre modèle à partir de données via des outils type TensorFlow, soit utiliser des modèles déjà entraînés mais libres et qui semblent générer des réponses cohérentes.

Aspect ressource

Ensuite ça lève la question des ressources : si l'enjeu est de faire tourner ça sur les serveurs de chaque organisations qui héberge sont GeoNature ça peut faire évoluer les pré-requis techniques d'installation car certains LLM sont gourmands en ressource. Sinon pour éviter ça l'autre option est d'utiliser des API pour exploiter des modèles en ligne, mais là ça me semble encore plus compliqué pour du libre.

@camillemonchicourt
Copy link
Member

OK, je vois pas encore bien les tenants et aboutissants.
Mais si c'est pour manipuler des données complètes et faire des traitements et analyses particuliers, alors je pense que c'est plus au niveau de GeoNature que ça devrait se passer, plutôt qu'au niveau de GeoNature-atlas.
Mais je n'ai pas tout cerné.

Dans tous les cas, en effet, il ne faut certainement pas ajouter ça d'office dans le cœur de GeoNature ou de GeoNature-atlas pour ne pas l'alourdir en terme de dépendance ni de ressource.
Mais ça pourrait être un module, ou alors un outil indépendant qui se brancherait sur la BDD GeoNature, ou je ne sais pas trop (car j'ai pas encore bien compris le besoin et l'architecture à mettre en face).

@orovellotti
Copy link
Author

Bonjour

Je privilégier une solution cloud qui présente de nombreux avantages, notamment en termes d’impact environnemental, de mutualisation des ressources et de simplicité d’utilisation. Les centres de données des grands fournisseurs cloud sont conçus pour être énergétiquement efficaces.

Les solutions cloud permettent des mises à jour automatiques, des évolutions rapides des fonctionnalités et une maintenance centralisée, éliminant ainsi la nécessité de compétences techniques pointues sur le terrain.

Voici un petit comparatif par GPT des modèles open source adaptés à des générateurs de rapports :

1. GPT-NeoX/ChatGLM

  • Points forts : Performant, proche des grands modèles propriétaires comme GPT-3, avec une communauté active et de nombreuses ressources pour la personnalisation. Bien adapté aux tâches de génération de texte complexes.
  • Limites : Nécessite une infrastructure matérielle robuste (GPU), ce qui peut être coûteux et énergivore pour un déploiement local.

2. LLaMA (Meta AI)

  • Points forts : Léger et optimisé, il est conçu pour fonctionner efficacement sur des infrastructures locales ou cloud. Idéal pour des usages nécessitant moins de puissance de calcul.
  • Limites : Licence restrictive pour certains usages commerciaux, et moins de flexibilité comparé à d'autres modèles open source.

3. Bloom (BigScience)

  • Points forts : Multilingue, avec un support natif pour le français. Transparent et axé sur la collaboration internationale, il est très adapté aux projets en open science.
  • Limites : Modèle volumineux, ce qui peut compliquer son utilisation sur des ressources matérielles limitées.

4. Falcon (Technology Innovation Institute)

  • Points forts : Hautement optimisé et performant, il est souvent considéré comme une des meilleures alternatives open source pour les grandes tâches de NLP.
  • Limites : Infrastructure nécessaire pour l’hébergement et les inférences reste significative.

5. T5 (Google)

  • Points forts : Conçu spécifiquement pour les tâches de génération de texte et de compréhension, avec une version adaptée aux petits déploiements ("T5-small").
  • Limites : Performances moindres pour des tâches complexes en comparaison avec les modèles de dernière génération.

@babastienne
Copy link

Ok, du coup ça impliquerai de devoir souscrire à un service tiers pour pouvoir bénéficier de la fonctionnalité ? Car j'ai l'impression que les modèles proposés ne sont pas disponibles en accès libre en ligne directement.

Concernant les modèles listés :

  • ❓ chatGLM : possible d'avoir un lien vers le modèle car je n'ai pas trouvé la référence exacte
  • 🚫 LLaMa : ne rempli pas les critères d'OS préconisé par l'OSI. Pas assez d'informations sur les données.
  • 🚫 Bloom : leur licence n'est pas conforme avec la définition Open Source de l'OSI
  • 🚫 Falcon : Idem
  • ✅ T5 : yes, rempli les critères concernant la transparence des informations

Quelques ressources :

Data Information: Sufficiently detailed information about the data used to train the system so that a skilled person can build a substantially equivalent system. Data Information shall be made available under OSI-approved terms.

  • In particular, this must include: (1) the complete description of all data used for training, including (if used) of unshareable data, disclosing the provenance of the data, its scope and characteristics, how the data was obtained and selected, the labeling procedures, and data processing and filtering methodologies; (2) a listing of all publicly available training data and where to obtain it; and (3) a listing of all training data obtainable from third parties and where to obtain it, including for fee.

J'insiste là-dessus car les boites d'IA ont longtemps profité de zones floues sur la définition d'IA OS pour se prétendre OS (comme LLaMa par exemple). Sauf que fin 2024 un standard est enfin sorti, donc il faut en profiter pour utiliser des outils qui remplissent réellement ces critères. D'autant plus qu'il s'agit de "boites noires" et qu'il faut donc un niveau d'exigence particulièrement élevé pour in fine tenter de réduire au mieux les biais et dérives que les modèles peuvent apporter.

@orovellotti
Copy link
Author

Et qu'est ce que tu pense de Mistral ?

Dans tous les cas faire appel a une API me parait bc plus frugal que d'instancier un modèle sur une infra locale.

Cette option peut être laisser libre au choix du mainteneur de l'instance en config.

@babastienne
Copy link

Dans tous les cas faire appel a une API me parait bc plus frugal que d'instancier un modèle sur une infra locale.
Cette option peut être laisser libre au choix du mainteneur de l'instance en config.

Oui je suis d'accord.

Et qu'est ce que tu pense de Mistral ?

Le modèle Mixtral de Mistral ne rempli pas les critère suffisants pour être qualifié d'IA Open Source. Après d'un point de vue usage je n'ai pas d'avis je n'ai pas eu l'occasion de le tester pour le moment.

Quelques modèles de générateur de textes qui sont considéré comme remplissant les critères de transparence suffisants pour être des IA Open Sources selon les critères de l'OSI :

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants