Un outil GPT personnalisé : comment avons-nous fait ?

Pour lex4you, nous avons développé et intégré un outil GPT pour améliorer l’expérience utilisateur de ce site de soutien juridique en ligne. Voici comment nous avons fait.

L'option technologique la plus pragmatique pour atteindre notre objectif.

Tout d'abord, nous téléchargeons l'intégralité du site web lex4you à l'aide d'un robot d'exploration (crawler) et découpons les informations en unités faciles à digérer pour le Large Language Model / LLM (modèle de langage de grande taille). Ces segments sont vectorisés à l'aide d'incrustations (embeddings) et stockés dans une base de données de vecteurs. Grâce à ces embeddings, nous trouvons rapidement les documents correspondant à une question posée, que nous envoyons au LLM pour obtenir une réponse, accompagnée de la question d'origine. Enfin, nous fournissons la réponse avec les références directement. Cette approche est appelée "Retrieval Augmented Generation" (RAG).

Ces références sont extrêmement utiles. Étant donné qu'un LLM peut parfois "halluciner" et inventer des choses, ces informations aident les utilisateurs à vérifier les déclarations. D’autre part, le fait de se baser sur un corpus restreint, et non le web entier, réduit aussi le risque d’hallucinations. De toute manière, il est vivement conseillé de vérifier les réponses données en lisant les articles reliés à la réponse, une recommandation qui vaut pour tout usage de ChatGPT ou autre LLM.

Fiche technique

Récupération et indexation du contenu :

NestJS : back-end
Vuejs : application frontend très simple pour envoyer la question au backend et afficher le résultat
PostgreSQL : base de données (avec extension pgvector)
SimpleCrawler : parcourt l’intégralité du site web et introduit des données dans la base de données
Cheerio : extrait le contenu pertinent et l'intègre dans la base de données
OpenAI integration API : a reçu ces extraits pertinents, pour que nous stockions les intégrations reçues dans la base de données

Interrogation du contenu :

OpenAI integration API : génère un vecteur d’intégration lorsqu’on lui transmet une question
Vector : recherche dans la base de données pour extraire des parties de textes et URLs
Prompt : inclut les extraits jusqu’à atteinte de la taille limite
OpenAI ‘createChatCompletion’ API : traite les informations reçues pour envoi du résultat au navigateur avec Server Sent Events (tous les liens utiles trouvés dans notre base de données sont aussi affichés pour référence et source)

Quid de la protection des données ?

Malgré tous ces atouts, ChatGPT ne fait pas preuve de transparence complète quant à l’utilisation des données. Pour pallier ce problème, les données et documents du site lex4you ne sont pas stockées chez OpenAI, mais uniquement sur nos serveurs. Nous prenons la protection des données très au sérieux et examinons également des solutions d'hébergement alternatives telles qu'Azure OpenAI, offrant des politiques de protection des données améliorées. Une autre option serait de se passer de la solution cloud de ChatGPT. Cependant, les options de LLM open source sont pour l’heure synonymes de coûts initiaux et opérationnels très importants.

La solution lex4youGPT est une nouvelle preuve de la puissance de GPT pour améliorer simplement le quotidien, améliorant l’accessibilité de telles infos d’intérêt public. Tout cela, grâce à l'énorme travail en amont réalisé par l'équipe de lex4you lors des cinq dernières années. C'est parce qu'ils ont écrit tant de contenus de qualité que lex4youGPT fonctionne bien.

Ton site contient une multitude d’informations précieuses, qui pourraient être trouvées plus facilement ? Contacte-nous pour que nous puissions développer un chatbot fondé sur ChatGPT.

Tu as une question, un commentaire ou cet article t’as simplement inspiré? Mentionne-nous ou partage l’article sur Mastodon ou LinkedIn.

Abonne-toi aux nouveautés de notre blog à l’aide du flux RSS.

Services associés

Sujets

Mots-clés

Un outil GPT personnalisé : comment avons-nous fait ?

L'option technologique la plus pragmatique pour atteindre notre objectif.

Fiche technique

Quid de la protection des données ?

Quid de la protection des données ?