[IA} Le TRAIN RL par DPO on en TOLK ou c'est TABOO ?

Kheyoken
2024-11-18 22:43:52

Le 18 novembre 2024 à 22:43:36 :

Le 18 novembre 2024 à 22:40:17 :

Le 18 novembre 2024 à 22:39:06 :

Le 18 novembre 2024 à 22:37:46 :
Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heurehttps://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png

Bientôt viré ou surendetté :rire:

Je me fais 5k/mois dans l'IA ça vahttps://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png

Nofake, en freelance ?

En secrethttps://image.noelshack.com/fichiers/2017/21/1495725496-1494165223-macroned30.png
(Une boite m'a pris en black pour des bots de cul depuis 11 mois)
Mais personne ne lira ça ahi

EtrangeIsVie
2024-11-18 22:45:08

Tu l'entraines pour quoi ?
réponse ou ddb

LastTry4
2024-11-18 22:45:43

Le 18 novembre 2024 à 22:43:39 :

Le 18 novembre 2024 à 22:43:15 :
Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement :(

Axolotl, Unsloth ou Llama Factory ?https://image.noelshack.com/fichiers/2017/18/1494048058-pppppppppppppppppppp.png

Aucun j'ai étudié uniquement la théorie et je me rappelle avoir vu ce problème

LastTry4
2024-11-18 22:46:02

Le 18 novembre 2024 à 22:43:52 :

Le 18 novembre 2024 à 22:43:36 :

Le 18 novembre 2024 à 22:40:17 :

Le 18 novembre 2024 à 22:39:06 :

Le 18 novembre 2024 à 22:37:46 :
Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heurehttps://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png

Bientôt viré ou surendetté :rire:

Je me fais 5k/mois dans l'IA ça vahttps://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png

Nofake, en freelance ?

En secrethttps://image.noelshack.com/fichiers/2017/21/1495725496-1494165223-macroned30.png
(Une boite m'a pris en black pour des bots de cul depuis 11 mois)
Mais personne ne lira ça ahi

:rire:

J'y crois pas

Kheyoken
2024-11-18 22:46:06

Le 18 novembre 2024 à 22:45:08 :
Tu l'entraines pour quoi ?
réponse ou ddb

Là c'est un projet perso, jveux un bot spécialisé dans l'accompagnement au quotidien en version bien plus humain que les bot gratos dispo (et bcp moins censuré)https://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png

Kheyoken
2024-11-18 22:46:42

Le 18 novembre 2024 à 22:46:02 :

Le 18 novembre 2024 à 22:43:52 :

Le 18 novembre 2024 à 22:43:36 :

Le 18 novembre 2024 à 22:40:17 :

Le 18 novembre 2024 à 22:39:06 :

> Le 18 novembre 2024 à 22:37:46 :

>Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heurehttps://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png

Bientôt viré ou surendetté :rire:

Je me fais 5k/mois dans l'IA ça vahttps://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png

Nofake, en freelance ?

En secrethttps://image.noelshack.com/fichiers/2017/21/1495725496-1494165223-macroned30.png
(Une boite m'a pris en black pour des bots de cul depuis 11 mois)
Mais personne ne lira ça ahi

:rire:

J'y crois pas

https://www.onlychats.com
https://huggingface.co/Undi95
https://huggingface.co/OnlyThings

https://image.noelshack.com/fichiers/2018/25/2/1529422413-risitaszoom.png

Kheyoken
2024-11-18 22:47:46

Le 18 novembre 2024 à 22:45:43 :

Le 18 novembre 2024 à 22:43:39 :

Le 18 novembre 2024 à 22:43:15 :
Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement :(

Axolotl, Unsloth ou Llama Factory ?https://image.noelshack.com/fichiers/2017/18/1494048058-pppppppppppppppppppp.png

Aucun j'ai étudié uniquement la théorie et je me rappelle avoir vu ce problème

C'est différent outil pour train...
Sous entendu tu utilise quoi ahi

LastTry4
2024-11-18 22:48:29

Le 18 novembre 2024 à 22:46:42 :

Le 18 novembre 2024 à 22:46:02 :

Le 18 novembre 2024 à 22:43:52 :

Le 18 novembre 2024 à 22:43:36 :

Le 18 novembre 2024 à 22:40:17 :

> Le 18 novembre 2024 à 22:39:06 :

>> Le 18 novembre 2024 à 22:37:46 :

> >Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heurehttps://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png

>

> Bientôt viré ou surendetté :rire:

Je me fais 5k/mois dans l'IA ça vahttps://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png

Nofake, en freelance ?

En secrethttps://image.noelshack.com/fichiers/2017/21/1495725496-1494165223-macroned30.png
(Une boite m'a pris en black pour des bots de cul depuis 11 mois)
Mais personne ne lira ça ahi

:rire:

J'y crois pas

https://www.onlychats.com
https://huggingface.co/Undi95
https://huggingface.co/OnlyThings

https://image.noelshack.com/fichiers/2018/25/2/1529422413-risitaszoom.png

Dire que je voyais ce potentiel en 2015 mais j'ai pas pris le train :rire:

LastTry4
2024-11-18 22:49:03

Le 18 novembre 2024 à 22:47:46 :

Le 18 novembre 2024 à 22:45:43 :

Le 18 novembre 2024 à 22:43:39 :

Le 18 novembre 2024 à 22:43:15 :
Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement :(

Axolotl, Unsloth ou Llama Factory ?https://image.noelshack.com/fichiers/2017/18/1494048058-pppppppppppppppppppp.png

Aucun j'ai étudié uniquement la théorie et je me rappelle avoir vu ce problème

C'est différent outil pour train...
Sous entendu tu utilise quoi ahi

Aucun je codais les dpo, ppo, et tout les autres algos à la main

Kheyoken
2024-11-18 22:49:25

Le 18 novembre 2024 à 22:48:29 :

Le 18 novembre 2024 à 22:46:42 :

Le 18 novembre 2024 à 22:46:02 :

Le 18 novembre 2024 à 22:43:52 :

Le 18 novembre 2024 à 22:43:36 :

> Le 18 novembre 2024 à 22:40:17 :

>> Le 18 novembre 2024 à 22:39:06 :

> >> Le 18 novembre 2024 à 22:37:46 :

> > >Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heurehttps://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png

> >

> > Bientôt viré ou surendetté :rire:

>

> Je me fais 5k/mois dans l'IA ça vahttps://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png

Nofake, en freelance ?

En secrethttps://image.noelshack.com/fichiers/2017/21/1495725496-1494165223-macroned30.png
(Une boite m'a pris en black pour des bots de cul depuis 11 mois)
Mais personne ne lira ça ahi

:rire:

J'y crois pas

https://www.onlychats.com
https://huggingface.co/Undi95
https://huggingface.co/OnlyThings

https://image.noelshack.com/fichiers/2018/25/2/1529422413-risitaszoom.png

Dire que je voyais ce potentiel en 2015 mais j'ai pas pris le train :rire:

Il est pas trop tard si tu fonces, c'est le désert des news là c'est le moment avant que tout s'accélèrehttps://image.noelshack.com/fichiers/2018/29/6/1532128784-risitas33.png

Kheyoken
2024-11-18 22:50:45

Le 18 novembre 2024 à 22:49:03 :

Le 18 novembre 2024 à 22:47:46 :

Le 18 novembre 2024 à 22:45:43 :

Le 18 novembre 2024 à 22:43:39 :

Le 18 novembre 2024 à 22:43:15 :
Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement :(

Axolotl, Unsloth ou Llama Factory ?https://image.noelshack.com/fichiers/2017/18/1494048058-pppppppppppppppppppp.png

Aucun j'ai étudié uniquement la théorie et je me rappelle avoir vu ce problème

C'est différent outil pour train...
Sous entendu tu utilise quoi ahi

Aucun je codais les dpo, ppo, et tout les autres algos à la main, j'ai jamais appliquer ça en utilisant des framework déjà prêt en main

https://huggingface.co/docs/trl/ppo_trainer
Je voishttps://image.noelshack.com/fichiers/2018/10/1/1520256134-risitasue2.png

Moi j'utilise que sharegpt (train convo) et dpo (rlhf).
Ils ont d'ailleurs enlever le support sharegpt de axolotl, j'ai du bidouillé, flemme de refaire tout mes datasetshttps://image.noelshack.com/fichiers/2017/30/4/1501186458-risitalarmebestreup.gif

LastTry4
2024-11-18 22:53:42

Le 18 novembre 2024 à 22:50:45 :

Le 18 novembre 2024 à 22:49:03 :

Le 18 novembre 2024 à 22:47:46 :

Le 18 novembre 2024 à 22:45:43 :

Le 18 novembre 2024 à 22:43:39 :

> Le 18 novembre 2024 à 22:43:15 :

>Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement :(

Axolotl, Unsloth ou Llama Factory ?https://image.noelshack.com/fichiers/2017/18/1494048058-pppppppppppppppppppp.png

Aucun j'ai étudié uniquement la théorie et je me rappelle avoir vu ce problème

C'est différent outil pour train...
Sous entendu tu utilise quoi ahi

Aucun je codais les dpo, ppo, et tout les autres algos à la main, j'ai jamais appliquer ça en utilisant des framework déjà prêt en main

https://huggingface.co/docs/trl/ppo_trainer
Je voishttps://image.noelshack.com/fichiers/2018/10/1/1520256134-risitasue2.png

Moi j'utilise que sharegpt (train convo) et dpo (rlhf).
Ils ont d'ailleurs enlever le support sharegpt de axolotl, j'ai du bidouillé, flemme de refaire tout mes datasetshttps://image.noelshack.com/fichiers/2017/30/4/1501186458-risitalarmebestreup.gif

Mais du coup tu comprends au moins ce que l'algo fait ou pas ? :hap:

Ou tu met des valeurs un peu au pif/cross val en espérant que ça fonctionne ?

Je suis sur d'avoir vu ce problème, c'est un cas classique mais faut replonger dans les algos pour comprendre comment le corriger

Kheyoken
2024-11-18 22:54:52

Le 18 novembre 2024 à 22:53:42 :

Le 18 novembre 2024 à 22:50:45 :

Le 18 novembre 2024 à 22:49:03 :

Le 18 novembre 2024 à 22:47:46 :

Le 18 novembre 2024 à 22:45:43 :

> Le 18 novembre 2024 à 22:43:39 :

>> Le 18 novembre 2024 à 22:43:15 :

> >Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement :(

>

> Axolotl, Unsloth ou Llama Factory ?https://image.noelshack.com/fichiers/2017/18/1494048058-pppppppppppppppppppp.png

Aucun j'ai étudié uniquement la théorie et je me rappelle avoir vu ce problème

C'est différent outil pour train...
Sous entendu tu utilise quoi ahi

Aucun je codais les dpo, ppo, et tout les autres algos à la main, j'ai jamais appliquer ça en utilisant des framework déjà prêt en main

https://huggingface.co/docs/trl/ppo_trainer
Je voishttps://image.noelshack.com/fichiers/2018/10/1/1520256134-risitasue2.png

Moi j'utilise que sharegpt (train convo) et dpo (rlhf).
Ils ont d'ailleurs enlever le support sharegpt de axolotl, j'ai du bidouillé, flemme de refaire tout mes datasetshttps://image.noelshack.com/fichiers/2017/30/4/1501186458-risitalarmebestreup.gif

Mais du coup tu comprends au moins ce que l'algo fait ou pas ? :hap:

Ou tu met des valeurs un peu au pif/cross val en espérant que ça fonctionne ?

Non non je comprend, mais comme je bosse presque jamais sur le même modèle en ce moment, ben faut trouver le sweet spothttps://image.noelshack.com/fichiers/2017/39/3/1506524542-ruth-perplexev2.png

En plus le RL train de axolotl il est pas très très... enfin voilà, mais j'aimerai rester sur çahttps://image.noelshack.com/fichiers/2018/25/2/1529422413-risitaszoom.png

Kheyoken
2024-11-18 22:56:17

Je mate pas mes graphiques par plaisir VDDhttps://image.noelshack.com/fichiers/2017/04/1485548307-1480155890-1480018883-1479938010-escalissou.png

Kheyoken
2024-11-18 22:59:21

Je pense que je vais tester voir ce que ça fait comme çahttps://image.noelshack.com/fichiers/2017/18/1494048058-pppppppppppppppppppp.png
Sinon VDD voilà le resultat que je voulait (en vert) et le resultat que j'ai (en rouge)
Les autre graph sont OKhttps://image.noelshack.com/fichiers/2024/47/1/1731967158-image.png

SpermedeMayo
2024-11-18 23:00:48

Tu as juste un pb basique de ML où ton algo overfit, peut-être nettoie tes données en enlevant les réponses bizarres et utilise de l'augmentation genre en changeant quelques mots dans tes bonnes réponses. Et n'hésites pas à utiliser un early stopping.

MagaliFlunch6
2024-11-18 23:02:15

https://image.noelshack.com/fichiers/2022/38/7/1664110015-ben-dis-donc.png
....

Kheyoken
2024-11-18 23:02:52

Le 18 novembre 2024 à 23:00:48 :
Tu as juste un pb basique de ML où ton algo overfit, peut-être nettoie tes données en enlevant les réponses bizarres et utilise de l'augmentation genre en changeant quelques mots dans tes bonnes réponses. Et n'hésites pas à utiliser un early stopping.

Justement les dialogues du DPO sont assez différent des diag sur lequels je les ai entrainé pour éviter l'overfit, donc je sais pas trophttps://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png

J'ai déjà nettoyé le dataset pour les character ascii spéciaux ect, j'ai juste laissé les emojis cette fois, mais j'ai jamais eu de soucis avec avanthttps://image.noelshack.com/fichiers/2017/39/3/1506524542-ruth-perplexev2.png

Y a aucune phrase ou mots mal écrit.

Je pense que Nemotron est juste chiant à DPOhttps://image.noelshack.com/fichiers/2016/24/1466366197-risitas10.png

Je verrai bien le résultat

Kheyoken
2024-11-18 23:06:21

En fait comme c'est justement un dataset fait pour accompagner des réponses humaines, qui sont le but de mon dataset de "base" (le premier train du modèle), le dataset DPO est peut-être justement TROP facile pour mon bot maintenanthttps://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png

A voir

waeko
2024-11-18 23:49:20

https://arxiv.org/pdf/2305.18290

j'ai aps toucher les implems mais si tu regardes l'eq (10) de l'article il y a un hyper param beta qui te dit a qu'elle point ton algo doit rester proche du llm avant dpo (le terme de KL loss entre pi theta et pi ref)

si tu set un bon beta il va prioriser rester close de la distribution de référence avant fine tune

j'en sait rien en vrai j'ai jamais rien implem je lis juste des articles pour le kiff

Infos
Gestion du forum

Contact : contact@geevey.com

API disponible. Utilisez le paramètre "api" en GET, peu importe le contenu, sur une page du site.

Notes

    Ce site n'est pas associé à Jeuxvideo.com ou Webedia. Nous utilisons seulement des archives publiques.
    La version actuelle du site est une ébauche qui a été développée par un tiers. Une nouvelle version en écriture arrivera prochainement.
Opt-out
    Vous pouvez me contacter par e-mail en prouvant qu'un pseudo vous appartient. J'accepterais sans hésitation de supprimer vos contenus si j'en déduit que vous êtes de bonne foi ainsi qu'aimable.