Messages de PneuTueur67

Le 28 avril 2024 à 15:57:20 Dextre384 a écrit :

Le 28 avril 2024 à 15:52:56 :

Le 28 avril 2024 à 15:51:46 https://www.jeuxvideo.com/profil/dextre384?mode=infos a écrit :
Besoin d’explications ? :)

oui stp Dextre je me prosterne devant ton savoir éternel
dis-moi quelles librairies utiliser si j'ai une colonne input et une colonne output et comment

Je ne suis pas un spécialiste des LLM.

Cependant, si je voulais faire ce que tu veux faire en me prenant le moins possible la tête, je partirais sur une version légère de LLAMA-2 ou de Mixtral (par exemple la version quantifiée de Llama 7B), pour la fine-tuner sur les données que tu as récupérées.

Une manière qui me paraît encore plus simple, mais qui donnerait de moins bons résultats, serait d’utiliser un modèle comme CamemBERT pour comparer l’input à tes inputs et récupérer la meilleure réponse.

Merci pour les modèles je vais voir :ok:

Le 28 avril 2024 à 15:57:18 el-famoso-rino a écrit :

Le 28 avril 2024 à 15:44:04 :

Le 28 avril 2024 à 15:42:59 https://www.jeuxvideo.com/profil/el-famoso-rino?mode=infos a écrit :

Le 28 avril 2024 à 15:40:51 :

Le 28 avril 2024 à 15:38:49 https://www.jeuxvideo.com/profil/el-famoso-rino?mode=https://www.jeuxvideo.com/profil/infos?mode=infos a écrit :

> Le 28 avril 2024 à 15:37:40 :

>

> > Le 28 avril 2024 à 15:36:42 https://www.jeuxvideo.com/profil/el-famoso-rino?mode=https://www.jeuxvideo.com/profil/infos?mode=https://www.jeuxvideo.com/profil/infos?mode=infos a écrit :

>

> > l'auteur, quel est le but de ton entrainement ?

>

> > savoir répondre aux mêmes types de messages avec les mêmes types de réponses ?

>

> >

>

> > c'est du non supervisé que tu vas faire ?

>

> >

>

> > c'est quoi la valeur ajoutée de ce que tu essaies de faire ?

>

> >

>

> > as-tu pensé à annoter tes data pour "parfumer" avec une direction que tu voudrais lui faire prendre ?

>

> principalement imiter le ton, style et voix des messages

> je suppose qu'il ressort du jeu de données une moyenne en ce sens

attends elle vient d'où la voix ?
tu disais que tu n'as que du CSV ? :(

elle sera inférée depuis le contenu des messages ?

non mais "voix" c'est-à-dire "expression"

OK OK
le "style" quoi

quelles sont tes KPI ou indicateurs pour évaluer la pertinence de l'entrainement ?

que peux-tu "quantifier" ou "labeliser" au niveau des outputs ?

ou sinon, comment tu comptes t'y prendre ?

euh ouais euh les KPI les quantifier euhhttps://image.noelshack.com/fichiers/2021/04/5/1611913637-costard.png

:peur:

tu vas devoir trouver un moyen d'évaluer la qualité sur 65M de lignes clé

c'est inexploitable à l'oeil nu

sinon ça sert pas à grand chose si le modèle fait de la merde
sauf si tu veux juste un truc qui répond aléatoirement

sinon tu peux tenter la chose en 3 passes :

1- faire un entrainement non supervisé ou utiliser un modèle de "sentiment analysis" sur hugging face pour identifier une sorte de catégorie pour chaque réponse, exemple: "aggressif", "diplomatque", "empathique", "humoristique", etc.

2- une fois que tu auras cette classification, tu pourras l'utilisation en tant que "label" pour orienter ton entrainement.
exemple: privilégier les postures "diplomatiques"

3- à l'issu de chaque output d'entrainement, rejouer ton modèle sur les messages pour produire des réponses, puis repasser tes réponses sur la phase 1 pour voir si tu arrives à avoir le même label que le premier.
ça te donnera déjà une matrice de confusion pour évaluer ton modèle

PS: ça t'aidera sans doute beaucoup dans la phase 1 si tu peux intégrer les réponses aux réponses dans tes données.
exemple: face au message A, il y a eu une réponse B, et la réponses C à B semble juger B comme étant "empathique"

Je comprends mais je ne sais pas trop comment programmer ça

Le 28 avril 2024 à 15:57:05 GusFringale a écrit :

Le 28 avril 2024 à 15:54:27 :
d'ailleurs un petit débat Dextre vs Gus un jour ce serait cool je sais pas ce que vous en pensez

https://image.noelshack.com/fichiers/2018/13/4/1522325846-jesusopti.png

ouais à propos de politique par exemple

d'ailleurs un petit débat Dextre vs Gus un jour ce serait cool je sais pas ce que vous en pensez

Le 28 avril 2024 à 15:51:46 Dextre384 a écrit :
Besoin d’explications ? :)

oui stp Dextre je me prosterne devant ton savoir éternel
dis-moi quelles librairies utiliser si j'ai une colonne input et une colonne output et comment

Le 28 avril 2024 à 15:49:33 Alvin_Brindille a écrit :

Le 28 avril 2024 à 15:47:48 :

Le 28 avril 2024 à 15:46:43 https://www.jeuxvideo.com/profil/alvin_brindille?mode=infos a écrit :

Le 28 avril 2024 à 15:42:27 :

Le 28 avril 2024 à 15:41:46 https://www.jeuxvideo.com/profil/alvin_brindille?mode=https://www.jeuxvideo.com/profil/infos?mode=infos a écrit :

> Le 28 avril 2024 à 15:38:49 :

>

> > Le 28 avril 2024 à 15:37:40 :

>

> > > Le 28 avril 2024 à 15:36:42 https://www.jeuxvideo.com/profil/el-famoso-rino?mode=https://www.jeuxvideo.com/profil/infos?mode=https://www.jeuxvideo.com/profil/infos?mode=infos a écrit :

>

> > > l'auteur, quel est le but de ton entrainement ?

>

> > > savoir répondre aux mêmes types de messages avec les mêmes types de réponses ?

>

> > >

>

> > > c'est du non supervisé que tu vas faire ?

>

> > >

>

> > > c'est quoi la valeur ajoutée de ce que tu essaies de faire ?

>

> > >

>

> > > as-tu pensé à annoter tes data pour "parfumer" avec une direction que tu voudrais lui faire prendre ?

>

> >

>

> > principalement imiter le ton, style et voix des messages

>

> > je suppose qu'il ressort du jeu de données une moyenne en ce sens

>

> attends elle vient d'où la voix ?

> tu disais que tu n'as que du CSV ? :(

>

> elle sera inférée depuis le contenu des messages ?

y'a pas de voix, l'op maîtrise pas bien le sens des mots faut l'excuser :rire:

https://www.larousse.fr/dictionnaires/synonymes/voix/21541

1. Suite de sons émis par l'homme.
Synonyme :

accent, inflexion, intonation, timbre, ton.

2. Expression d'une opinion.
Synonyme :

avis, jugement, opinion, pensée, point de vue, sentiment.

c'est le sens secondaire qui est valable dans des contexte du genre "la voix du peuple", "les voix recueillies par un candidat" mais dans ton cas c'est pas valable, suffit pas de balancer le larousse comme un autiste pour maitriser le sens des mots :sarcastic:

bah oui je veux aussi prendre en compte les opinions

oui bah j'ai bien compris mais ça empêche pas que ta faible maîtrise du langage rends la compréhension de tes messages difficile pour le forumeur moyen :ok:

ok

Le 28 avril 2024 à 15:46:43 Alvin_Brindille a écrit :

Le 28 avril 2024 à 15:42:27 :

Le 28 avril 2024 à 15:41:46 https://www.jeuxvideo.com/profil/alvin_brindille?mode=infos a écrit :

Le 28 avril 2024 à 15:38:49 :

Le 28 avril 2024 à 15:37:40 :

> Le 28 avril 2024 à 15:36:42 https://www.jeuxvideo.com/profil/el-famoso-rino?mode=https://www.jeuxvideo.com/profil/infos?mode=infos a écrit :

> l'auteur, quel est le but de ton entrainement ?

> savoir répondre aux mêmes types de messages avec les mêmes types de réponses ?

>

> c'est du non supervisé que tu vas faire ?

>

> c'est quoi la valeur ajoutée de ce que tu essaies de faire ?

>

> as-tu pensé à annoter tes data pour "parfumer" avec une direction que tu voudrais lui faire prendre ?

principalement imiter le ton, style et voix des messages
je suppose qu'il ressort du jeu de données une moyenne en ce sens

attends elle vient d'où la voix ?
tu disais que tu n'as que du CSV ? :(

elle sera inférée depuis le contenu des messages ?

y'a pas de voix, l'op maîtrise pas bien le sens des mots faut l'excuser :rire:

https://www.larousse.fr/dictionnaires/synonymes/voix/21541

1. Suite de sons émis par l'homme.
Synonyme :

accent, inflexion, intonation, timbre, ton.

2. Expression d'une opinion.
Synonyme :

avis, jugement, opinion, pensée, point de vue, sentiment.

c'est le sens secondaire qui est valable dans des contexte du genre "la voix du peuple", "les voix recueillies par un candidat" mais dans ton cas c'est pas valable, suffit pas de balancer le larousse comme un autiste pour maitriser le sens des mots :sarcastic:

bah oui je veux aussi prendre en compte les opinions

Le 28 avril 2024 à 15:45:23 Daysukyyyy a écrit :
Utlise knime, c'est un outil assez facile a prendre en main qui manipule des jeux de données
PS : j'ai pas lu

je regarde

Le 28 avril 2024 à 15:45:12 GusFringale a écrit :
par contre c'est dommage d'avoir enlevé les stickers, si on avait de la puissance on pourrait faire du vrai fine-tuning en comptant chaque sticker comme un token en plus mais là ça demande de vrais compétenceshttps://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png

oui, perso je voulais juste m'en tenir à du texte mais faut voir

Le 28 avril 2024 à 15:43:11 GusFringale a écrit :
Je mets ton topic en fav l'OP, mets le forum au courant je suis curieux du résultat, merci de faire ce que j'ai la flemme de fairehttps://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png

ahi je vais creuser le sujet et si j'arrive à faire un truc je préviendrai

Le 28 avril 2024 à 15:42:59 el-famoso-rino a écrit :

Le 28 avril 2024 à 15:40:51 :

Le 28 avril 2024 à 15:38:49 https://www.jeuxvideo.com/profil/el-famoso-rino?mode=infos a écrit :

Le 28 avril 2024 à 15:37:40 :

Le 28 avril 2024 à 15:36:42 https://www.jeuxvideo.com/profil/el-famoso-rino?mode=https://www.jeuxvideo.com/profil/infos?mode=infos a écrit :
l'auteur, quel est le but de ton entrainement ?
savoir répondre aux mêmes types de messages avec les mêmes types de réponses ?

c'est du non supervisé que tu vas faire ?

c'est quoi la valeur ajoutée de ce que tu essaies de faire ?

as-tu pensé à annoter tes data pour "parfumer" avec une direction que tu voudrais lui faire prendre ?

principalement imiter le ton, style et voix des messages
je suppose qu'il ressort du jeu de données une moyenne en ce sens

attends elle vient d'où la voix ?
tu disais que tu n'as que du CSV ? :(

elle sera inférée depuis le contenu des messages ?

non mais "voix" c'est-à-dire "expression"

OK OK
le "style" quoi

quelles sont tes KPI ou indicateurs pour évaluer la pertinence de l'entrainement ?

que peux-tu "quantifier" ou "labeliser" au niveau des outputs ?

ou sinon, comment tu comptes t'y prendre ?

euh ouais euh les KPI les quantifier euhhttps://image.noelshack.com/fichiers/2021/04/5/1611913637-costard.png

Le 28 avril 2024 à 15:41:46 Alvin_Brindille a écrit :

Le 28 avril 2024 à 15:38:49 :

Le 28 avril 2024 à 15:37:40 :

Le 28 avril 2024 à 15:36:42 https://www.jeuxvideo.com/profil/el-famoso-rino?mode=infos a écrit :
l'auteur, quel est le but de ton entrainement ?
savoir répondre aux mêmes types de messages avec les mêmes types de réponses ?

c'est du non supervisé que tu vas faire ?

c'est quoi la valeur ajoutée de ce que tu essaies de faire ?

as-tu pensé à annoter tes data pour "parfumer" avec une direction que tu voudrais lui faire prendre ?

principalement imiter le ton, style et voix des messages
je suppose qu'il ressort du jeu de données une moyenne en ce sens

attends elle vient d'où la voix ?
tu disais que tu n'as que du CSV ? :(

elle sera inférée depuis le contenu des messages ?

y'a pas de voix, l'op maîtrise pas bien le sens des mots faut l'excuser :rire:

https://www.larousse.fr/dictionnaires/synonymes/voix/21541

1. Suite de sons émis par l'homme.
Synonyme :

accent, inflexion, intonation, timbre, ton.

2. Expression d'une opinion.
Synonyme :

avis, jugement, opinion, pensée, point de vue, sentiment.

Le 28 avril 2024 à 15:39:59 GusFringale a écrit :
En vrai l'OP ça peut être marrant, j'ai eu l'idée pendant un moment de faire un classificateur qui auto-DDB les posts pour faire chier le monde, mais flemme de faire le datasethttps://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png

bah oui ça peut être marrant dommage que je n'y connaisse rien en machine learning

Le 28 avril 2024 à 15:38:49 el-famoso-rino a écrit :

Le 28 avril 2024 à 15:37:40 :

Le 28 avril 2024 à 15:36:42 https://www.jeuxvideo.com/profil/el-famoso-rino?mode=infos a écrit :
l'auteur, quel est le but de ton entrainement ?
savoir répondre aux mêmes types de messages avec les mêmes types de réponses ?

c'est du non supervisé que tu vas faire ?

c'est quoi la valeur ajoutée de ce que tu essaies de faire ?

as-tu pensé à annoter tes data pour "parfumer" avec une direction que tu voudrais lui faire prendre ?

principalement imiter le ton, style et voix des messages
je suppose qu'il ressort du jeu de données une moyenne en ce sens

attends elle vient d'où la voix ?
tu disais que tu n'as que du CSV ? :(

elle sera inférée depuis le contenu des messages ?

non mais "voix" c'est-à-dire "expression"

Le 28 avril 2024 à 15:38:19 GusFringale a écrit :

Le 28 avril 2024 à 15:36:16 :

Le 28 avril 2024 à 15:35:10 https://www.jeuxvideo.com/profil/gusfringale?mode=infos a écrit :

Le 28 avril 2024 à 15:34:24 :

Le 28 avril 2024 à 15:32:24 https://www.jeuxvideo.comm/profil/pavillon15?mode=https://www.jeuxvideo.com/profil/infos?mode=infos a écrit :
+ l'op tu vas pas arriver a faire un truc coherent si t'as retrieve les données de jvarchive car 90% des messages sont des reponses a d'autres messages

bah oui
pour chaque message qui contient une réponse, j'ai créé la colonne message et la colonne réponse

Comment tu sais qu'un message reçoit une réponse ? Faut que ça contienne les balises " > " ? Comment tu gères les chaines de réponses ?

un message répond à une citation s'il y a la balise blockquote
et à l'intérieur de la citation (balises blockquote) j'élimine toutes les autres citations (blockquotes) potentielles

et je supprime les balises et textes inutilisables comme les liens ou les stickers

Tu es sûr que tu captes bien tout le ton du forum ?

bah le dump de JVA contient toute la base de données JVA avant janvier 2024 inclus, je suppose qu'il ressort un "ton" moyen bien que je n'en ai pas la certitude, c'est ce que je voudrais voir justement

Le 28 avril 2024 à 15:37:49 lastreetBRISEr a écrit :
entre les prepa autiste qui compliquent tout avec du franglais de mongole, les branlito qui ont appris sur reddit entre 2 branlettes, et l'op qui n'a pas la machine ni la compréhension du domaine pour faire quoi que ce soit, on est vraiment dans l'élite :fou:

t'inquiète khey je vais aller sur colab

Le 28 avril 2024 à 15:36:42 el-famoso-rino a écrit :
l'auteur, quel est le but de ton entrainement ?
savoir répondre aux mêmes types de messages avec les mêmes types de réponses ?

c'est du non supervisé que tu vas faire ?

c'est quoi la valeur ajoutée de ce que tu essaies de faire ?

as-tu pensé à annoter tes data pour "parfumer" avec une direction que tu voudrais lui faire prendre ?

principalement imiter le ton, style et voix des messages
je suppose qu'il ressort du jeu de données une moyenne en ce sens

Le 28 avril 2024 à 15:35:10 GusFringale a écrit :

Le 28 avril 2024 à 15:34:24 :

Le 28 avril 2024 à 15:32:24 https://www.jeuxvideo.com/profil/pavillon15?mode=infos a écrit :
+ l'op tu vas pas arriver a faire un truc coherent si t'as retrieve les données de jvarchive car 90% des messages sont des reponses a d'autres messages

bah oui
pour chaque message qui contient une réponse, j'ai créé la colonne message et la colonne réponse

Comment tu sais qu'un message reçoit une réponse ? Faut que ça contienne les balises " > " ? Comment tu gères les chaines de réponses ?

un message répond à une citation s'il y a la balise blockquote
et à l'intérieur de la citation (balises blockquote) j'élimine toutes les autres citations (blockquotes) potentielles

et je supprime les balises et textes inutilisables comme les liens ou les stickers

Le 28 avril 2024 à 15:32:24 pavillon15 a écrit :
+ l'op tu vas pas arriver a faire un truc coherent si t'as retrieve les données de jvarchive car 90% des messages sont des reponses a d'autres messages

bah oui
pour chaque réponse qui contient une citation, j'ai créé la colonne citation et la colonne réponse

le topax qui se transforme en joutes verbales ahi