Lemone-embed : une série de modèles d’embedding ouverts pour la recherche de similarité sémantique en fiscalité

0

0

Description

La série de modèles Lemone vise à répondre aux exigences de performance en matière de recherche de similarité sémantique au sein de vastes corpus textuels spécialisés en fiscalité française.

Entraînés sur une base annotée de 43 millions de tokens issus du Code général des impôts (CGI) et de ses annexes, du Livre des procédures fiscales, ainsi que du BOFiP, ces modèles ouverts ont été spécifiquement conçus pour maximiser les capacités de récupération query-document, en cherchant à se rapprocher au plus près du comportement de recherche d’un utilisateur humain.

Dotés d’une longueur de contexte comprise entre 512 tokens (lemone-embed-s, lemone-embed-m, lemone-embed-l) et 8 192 tokens (lemone-embed-pro), ils poursuivent un objectif de maximisation du rappel, dont les résultats sont présentés publiquement ci-dessous sur l’échantillon de test utilisé lors de l’entraînement.

EvaluationRésultat
cosine_recall@10.9737
cosine_recall@30.9917
cosine_recall@50.9936
cosine_recall@100.9968

Ces modèles sont disponibles au téléchargement sur Hugging Face et peuvent être utilisés via la bibliothèque Sentence Transformers comme suit :

uv add sentence-transformers

Puis, au sein de votre code :

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("louisbrulenaudet/lemone-embed-pro")
# Run inference
sentences = [
    "Exposer les modalités de dérogation au secret fiscal autorisant le juge à demander des documents fiscaux nécessaires pour résoudre un litige, en vertu de l'article L. 143 du Livre des Procédures Fiscales.",
    "Conformément aux dispositions de l'article L. 143 du Livre des Procédures Fiscales, le secret fiscal peut être levé dans le cadre d'un litige par décision du juge. Cette mesure vise à autoriser la présentation de documents fiscaux, jugés utiles par le magistrat pour trancher une affaire. La levée de ce secret est toutefois soumise à une interprétation stricte, de sorte que seuls les documents réellement susceptibles d'éclairer le juge sur l'étendue du préjudice des individus impliqués peuvent être divulgués. Les renseignements qui n'ont de pertinence que pour des questions périphériques de la procédure ou qui se rapportent uniquement à l'application d'un jugement déjà prononcé sont exclus de cette possibilité de communication.",
    "Selon les dispositions du Bulletin officiel des finances publiques-instructions administratives, spécifiquement le BOI-DJC-SECR-10-20-50, le procureur de la République détient le droit, dans le contexte de toute investigation judiciaire, qu'elle relève d'une enquête de flagrance, préliminaire ou autre, de solliciter des renseignements ou documents essentiels à l'enquête auprès de l'administration fiscale. Cette sollicitation peut être adressée directement ou via un officier de police judiciaire agissant sur une réquisition du procureur. Conformément à l'article L.141 A du Livre des procédures fiscales, le secret fiscal ne constitue pas un frein légal à la transmission des informations ou documents exigés par le procureur.",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
Thématique
Droit et justice
Type
Application
Mots clés
artificial-intelligencebofipdgfipdirection-generale-des-finances-publiquesdonnees-ouvertesfiscaliteintelligence-artificiellellmnlpragrecherchetva
Dernière mise à jour
20 janvier 2026
Date de création
20 janvier 2026

Vues

3 jeux de données associés

BOFiP Impôts - publications en vigueur

Mis à jour le 15 janv. 2026

Métadonnées :

Bon(67 %)

11K

2K

1

1

LEGI: Codes, lois et règlements consolidés

Mis à jour le 20 janv. 2026

Métadonnées :

Bon(100 %)

53K

7K

39

31

Il n'y a pas encore d'API associées