[IA} Le TRAIN RL par DPO on en TOLK ou c'est TABOO ?
Kheyoken
2024-11-18 22:43:52
Le 18 novembre 2024 à 22:43:36 :
Le 18 novembre 2024 à 22:40:17 :
Le 18 novembre 2024 à 22:39:06 :
Le 18 novembre 2024 à 22:37:46 :
Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heurehttps://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png
Bientôt viré ou surendetté 
Je me fais 5k/mois dans l'IA ça vahttps://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png
Nofake, en freelance ?
En secrethttps://image.noelshack.com/fichiers/2017/21/1495725496-1494165223-macroned30.png
(Une boite m'a pris en black pour des bots de cul depuis 11 mois)
Mais personne ne lira ça ahi
EtrangeIsVie
2024-11-18 22:45:08
Tu l'entraines pour quoi ?
réponse ou ddb
LastTry4
2024-11-18 22:45:43
Le 18 novembre 2024 à 22:43:39 :
Le 18 novembre 2024 à 22:43:15 :
Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement 
Axolotl, Unsloth ou Llama Factory ?https://image.noelshack.com/fichiers/2017/18/1494048058-pppppppppppppppppppp.png
Aucun j'ai étudié uniquement la théorie et je me rappelle avoir vu ce problème
LastTry4
2024-11-18 22:46:02
Le 18 novembre 2024 à 22:43:52 :
Le 18 novembre 2024 à 22:43:36 :
Le 18 novembre 2024 à 22:40:17 :
Le 18 novembre 2024 à 22:39:06 :
Le 18 novembre 2024 à 22:37:46 :
Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heurehttps://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png
Bientôt viré ou surendetté 
Je me fais 5k/mois dans l'IA ça vahttps://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png
Nofake, en freelance ?
En secrethttps://image.noelshack.com/fichiers/2017/21/1495725496-1494165223-macroned30.png
(Une boite m'a pris en black pour des bots de cul depuis 11 mois)
Mais personne ne lira ça ahi

J'y crois pas
Kheyoken
2024-11-18 22:46:06
Le 18 novembre 2024 à 22:45:08 :
Tu l'entraines pour quoi ?
réponse ou ddb
Là c'est un projet perso, jveux un bot spécialisé dans l'accompagnement au quotidien en version bien plus humain que les bot gratos dispo (et bcp moins censuré)https://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png
Kheyoken
2024-11-18 22:46:42
Le 18 novembre 2024 à 22:46:02 :
Le 18 novembre 2024 à 22:43:52 :
Le 18 novembre 2024 à 22:43:36 :
Le 18 novembre 2024 à 22:40:17 :
Le 18 novembre 2024 à 22:39:06 :
> Le 18 novembre 2024 à 22:37:46 :
>Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heurehttps://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png
Bientôt viré ou surendetté 
Je me fais 5k/mois dans l'IA ça vahttps://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png
Nofake, en freelance ?
En secrethttps://image.noelshack.com/fichiers/2017/21/1495725496-1494165223-macroned30.png
(Une boite m'a pris en black pour des bots de cul depuis 11 mois)
Mais personne ne lira ça ahi

J'y crois pas
https://www.onlychats.com
https://huggingface.co/Undi95
https://huggingface.co/OnlyThings
https://image.noelshack.com/fichiers/2018/25/2/1529422413-risitaszoom.png
Kheyoken
2024-11-18 22:47:46
Le 18 novembre 2024 à 22:45:43 :
Le 18 novembre 2024 à 22:43:39 :
Le 18 novembre 2024 à 22:43:15 :
Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement 
Axolotl, Unsloth ou Llama Factory ?https://image.noelshack.com/fichiers/2017/18/1494048058-pppppppppppppppppppp.png
Aucun j'ai étudié uniquement la théorie et je me rappelle avoir vu ce problème
C'est différent outil pour train...
Sous entendu tu utilise quoi ahi
LastTry4
2024-11-18 22:48:29
Le 18 novembre 2024 à 22:46:42 :
Le 18 novembre 2024 à 22:46:02 :
Le 18 novembre 2024 à 22:43:52 :
Le 18 novembre 2024 à 22:43:36 :
Le 18 novembre 2024 à 22:40:17 :
> Le 18 novembre 2024 à 22:39:06 :
>> Le 18 novembre 2024 à 22:37:46 :
> >Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heurehttps://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png
>
> Bientôt viré ou surendetté 
Je me fais 5k/mois dans l'IA ça vahttps://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png
Nofake, en freelance ?
En secrethttps://image.noelshack.com/fichiers/2017/21/1495725496-1494165223-macroned30.png
(Une boite m'a pris en black pour des bots de cul depuis 11 mois)
Mais personne ne lira ça ahi

J'y crois pas
https://www.onlychats.com
https://huggingface.co/Undi95
https://huggingface.co/OnlyThings
https://image.noelshack.com/fichiers/2018/25/2/1529422413-risitaszoom.png
Dire que je voyais ce potentiel en 2015 mais j'ai pas pris le train 
LastTry4
2024-11-18 22:49:03
Le 18 novembre 2024 à 22:47:46 :
Le 18 novembre 2024 à 22:45:43 :
Le 18 novembre 2024 à 22:43:39 :
Le 18 novembre 2024 à 22:43:15 :
Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement 
Axolotl, Unsloth ou Llama Factory ?https://image.noelshack.com/fichiers/2017/18/1494048058-pppppppppppppppppppp.png
Aucun j'ai étudié uniquement la théorie et je me rappelle avoir vu ce problème
C'est différent outil pour train...
Sous entendu tu utilise quoi ahi
Aucun je codais les dpo, ppo, et tout les autres algos à la main
Kheyoken
2024-11-18 22:49:25
Le 18 novembre 2024 à 22:48:29 :
Le 18 novembre 2024 à 22:46:42 :
Le 18 novembre 2024 à 22:46:02 :
Le 18 novembre 2024 à 22:43:52 :
Le 18 novembre 2024 à 22:43:36 :
> Le 18 novembre 2024 à 22:40:17 :
>> Le 18 novembre 2024 à 22:39:06 :
> >> Le 18 novembre 2024 à 22:37:46 :
> > >Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heurehttps://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png
> >
> > Bientôt viré ou surendetté 
>
> Je me fais 5k/mois dans l'IA ça vahttps://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png
Nofake, en freelance ?
En secrethttps://image.noelshack.com/fichiers/2017/21/1495725496-1494165223-macroned30.png
(Une boite m'a pris en black pour des bots de cul depuis 11 mois)
Mais personne ne lira ça ahi

J'y crois pas
https://www.onlychats.com
https://huggingface.co/Undi95
https://huggingface.co/OnlyThings
https://image.noelshack.com/fichiers/2018/25/2/1529422413-risitaszoom.png
Dire que je voyais ce potentiel en 2015 mais j'ai pas pris le train 
Il est pas trop tard si tu fonces, c'est le désert des news là c'est le moment avant que tout s'accélèrehttps://image.noelshack.com/fichiers/2018/29/6/1532128784-risitas33.png
Kheyoken
2024-11-18 22:50:45
Le 18 novembre 2024 à 22:49:03 :
Le 18 novembre 2024 à 22:47:46 :
Le 18 novembre 2024 à 22:45:43 :
Le 18 novembre 2024 à 22:43:39 :
Le 18 novembre 2024 à 22:43:15 :
Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement 
Axolotl, Unsloth ou Llama Factory ?https://image.noelshack.com/fichiers/2017/18/1494048058-pppppppppppppppppppp.png
Aucun j'ai étudié uniquement la théorie et je me rappelle avoir vu ce problème
C'est différent outil pour train...
Sous entendu tu utilise quoi ahi
Aucun je codais les dpo, ppo, et tout les autres algos à la main, j'ai jamais appliquer ça en utilisant des framework déjà prêt en main
https://huggingface.co/docs/trl/ppo_trainer
Je voishttps://image.noelshack.com/fichiers/2018/10/1/1520256134-risitasue2.png
Moi j'utilise que sharegpt (train convo) et dpo (rlhf).
Ils ont d'ailleurs enlever le support sharegpt de axolotl, j'ai du bidouillé, flemme de refaire tout mes datasetshttps://image.noelshack.com/fichiers/2017/30/4/1501186458-risitalarmebestreup.gif
LastTry4
2024-11-18 22:53:42
Le 18 novembre 2024 à 22:50:45 :
Le 18 novembre 2024 à 22:49:03 :
Le 18 novembre 2024 à 22:47:46 :
Le 18 novembre 2024 à 22:45:43 :
Le 18 novembre 2024 à 22:43:39 :
> Le 18 novembre 2024 à 22:43:15 :
>Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement 
Axolotl, Unsloth ou Llama Factory ?https://image.noelshack.com/fichiers/2017/18/1494048058-pppppppppppppppppppp.png
Aucun j'ai étudié uniquement la théorie et je me rappelle avoir vu ce problème
C'est différent outil pour train...
Sous entendu tu utilise quoi ahi
Aucun je codais les dpo, ppo, et tout les autres algos à la main, j'ai jamais appliquer ça en utilisant des framework déjà prêt en main
https://huggingface.co/docs/trl/ppo_trainer
Je voishttps://image.noelshack.com/fichiers/2018/10/1/1520256134-risitasue2.png
Moi j'utilise que sharegpt (train convo) et dpo (rlhf).
Ils ont d'ailleurs enlever le support sharegpt de axolotl, j'ai du bidouillé, flemme de refaire tout mes datasetshttps://image.noelshack.com/fichiers/2017/30/4/1501186458-risitalarmebestreup.gif
Mais du coup tu comprends au moins ce que l'algo fait ou pas ? 
Ou tu met des valeurs un peu au pif/cross val en espérant que ça fonctionne ?
Je suis sur d'avoir vu ce problème, c'est un cas classique mais faut replonger dans les algos pour comprendre comment le corriger
Kheyoken
2024-11-18 22:54:52
Le 18 novembre 2024 à 22:53:42 :
Le 18 novembre 2024 à 22:50:45 :
Le 18 novembre 2024 à 22:49:03 :
Le 18 novembre 2024 à 22:47:46 :
Le 18 novembre 2024 à 22:45:43 :
> Le 18 novembre 2024 à 22:43:39 :
>> Le 18 novembre 2024 à 22:43:15 :
> >Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement 
>
> Axolotl, Unsloth ou Llama Factory ?https://image.noelshack.com/fichiers/2017/18/1494048058-pppppppppppppppppppp.png
Aucun j'ai étudié uniquement la théorie et je me rappelle avoir vu ce problème
C'est différent outil pour train...
Sous entendu tu utilise quoi ahi
Aucun je codais les dpo, ppo, et tout les autres algos à la main, j'ai jamais appliquer ça en utilisant des framework déjà prêt en main
https://huggingface.co/docs/trl/ppo_trainer
Je voishttps://image.noelshack.com/fichiers/2018/10/1/1520256134-risitasue2.png
Moi j'utilise que sharegpt (train convo) et dpo (rlhf).
Ils ont d'ailleurs enlever le support sharegpt de axolotl, j'ai du bidouillé, flemme de refaire tout mes datasetshttps://image.noelshack.com/fichiers/2017/30/4/1501186458-risitalarmebestreup.gif
Mais du coup tu comprends au moins ce que l'algo fait ou pas ? 
Ou tu met des valeurs un peu au pif/cross val en espérant que ça fonctionne ?
Non non je comprend, mais comme je bosse presque jamais sur le même modèle en ce moment, ben faut trouver le sweet spothttps://image.noelshack.com/fichiers/2017/39/3/1506524542-ruth-perplexev2.png
En plus le RL train de axolotl il est pas très très... enfin voilà, mais j'aimerai rester sur çahttps://image.noelshack.com/fichiers/2018/25/2/1529422413-risitaszoom.png
Kheyoken
2024-11-18 22:56:17
Je mate pas mes graphiques par plaisir VDDhttps://image.noelshack.com/fichiers/2017/04/1485548307-1480155890-1480018883-1479938010-escalissou.png
Kheyoken
2024-11-18 22:59:21
Je pense que je vais tester voir ce que ça fait comme çahttps://image.noelshack.com/fichiers/2017/18/1494048058-pppppppppppppppppppp.png
Sinon VDD voilà le resultat que je voulait (en vert) et le resultat que j'ai (en rouge)
Les autre graph sont OKhttps://image.noelshack.com/fichiers/2024/47/1/1731967158-image.png
SpermedeMayo
2024-11-18 23:00:48
Tu as juste un pb basique de ML où ton algo overfit, peut-être nettoie tes données en enlevant les réponses bizarres et utilise de l'augmentation genre en changeant quelques mots dans tes bonnes réponses. Et n'hésites pas à utiliser un early stopping.
MagaliFlunch6
2024-11-18 23:02:15
https://image.noelshack.com/fichiers/2022/38/7/1664110015-ben-dis-donc.png
....
Kheyoken
2024-11-18 23:02:52
Le 18 novembre 2024 à 23:00:48 :
Tu as juste un pb basique de ML où ton algo overfit, peut-être nettoie tes données en enlevant les réponses bizarres et utilise de l'augmentation genre en changeant quelques mots dans tes bonnes réponses. Et n'hésites pas à utiliser un early stopping.
Justement les dialogues du DPO sont assez différent des diag sur lequels je les ai entrainé pour éviter l'overfit, donc je sais pas trophttps://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png
J'ai déjà nettoyé le dataset pour les character ascii spéciaux ect, j'ai juste laissé les emojis cette fois, mais j'ai jamais eu de soucis avec avanthttps://image.noelshack.com/fichiers/2017/39/3/1506524542-ruth-perplexev2.png
Y a aucune phrase ou mots mal écrit.
Je pense que Nemotron est juste chiant à DPOhttps://image.noelshack.com/fichiers/2016/24/1466366197-risitas10.png
Je verrai bien le résultat
Kheyoken
2024-11-18 23:06:21
En fait comme c'est justement un dataset fait pour accompagner des réponses humaines, qui sont le but de mon dataset de "base" (le premier train du modèle), le dataset DPO est peut-être justement TROP facile pour mon bot maintenanthttps://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png
A voir
waeko
2024-11-18 23:49:20
https://arxiv.org/pdf/2305.18290
j'ai aps toucher les implems mais si tu regardes l'eq (10) de l'article il y a un hyper param beta qui te dit a qu'elle point ton algo doit rester proche du llm avant dpo (le terme de KL loss entre pi theta et pi ref)
si tu set un bon beta il va prioriser rester close de la distribution de référence avant fine tune
j'en sait rien en vrai j'ai jamais rien implem je lis juste des articles pour le kiff