Actualités du CATIE

| Actualités | Lancement du DFP (Dataset of French Prompts)

Lancement du DFP (Dataset of French Prompts)

16 Oct AM | Actualités, Général

Le CATIE a le plaisir de présenter 𝐃𝐅𝐏 (𝐃𝐚𝐭𝐚𝐬𝐞𝐭 𝐨𝐟 𝐅𝐫𝐞𝐧𝐜𝐡 𝐏𝐫𝐨𝐦𝐩𝐭𝐬).
Ce jeu de données de prompts en français contient plus de 𝟏𝟎𝟎𝐌 𝐝𝐞 𝐥𝐢𝐠𝐧𝐞𝐬 pour entraîner un modèle de type LLM.
Il porte sur plus de 𝟑𝟎 𝐭𝐚𝐜𝐡𝐞𝐬 𝐝𝐞 𝐍𝐋𝐏 𝐝𝐢𝐟𝐟𝐞́𝐫𝐞𝐧𝐭𝐞𝐬.

Les prompts rédigés permettent de gérer des tournures de forme impérative (= un ordre), de tutoiement et de vouvoiement, afin de couvrir autant que possible les données de pré-entraînement utilisées par le modèle qui utilisera DFP.

Vous pouvez retrouver ce jeu de données ici 

La carte du jeu de données contenant toutes les informations à connaître : la liste des tâches prises en compte, les différents prompts utilisés ou encore les licences et citations.

Pour donner un exemple d’utilisation de ce jeu de données, 𝐧𝐨𝐮𝐬 𝐚𝐯𝐨𝐧𝐬 𝐟𝐢𝐧𝐞𝐭𝐮𝐧𝐞́ 𝐮𝐧 𝐦𝐨𝐝𝐞̀𝐥𝐞 𝐌𝐢𝐬𝐭𝐫𝐚𝐥-𝟕𝐁-𝐯𝟎.𝟏 dessus.

Il est également disponible ici