[IA} Le TRAIN RL par DPO on en TOLK ou c'est TABOO ?

Kheyoken
2024-11-18 22:21:36

Putain on est 2025 - 1 mois, je veux juste train mon bot avec un dataset DPO: en gros, on prompt, on lui donne une réponse correcte (dans le sens qu'on veut) et une réponse incorrecte (vers ou on veut pas qu'il aie), et il doit s'entrainer à répondre plus de la manière correcte que non correcte.

Ca permet de faire du RHLF sans vraiment être derrière avec un dataset prévu à cet effethttps://image.noelshack.com/fichiers/2021/43/4/1635454847-elton-john-tison-golem.png

SAUF QUE CE PUTAIN DE TRAIN CHANGE A CHAQUE FOIS, JE DOIS CHAQUE FOIS MODIFIER MA CONFIGhttps://image.noelshack.com/fichiers/2017/30/4/1501186458-risitalarmebestreup.gif

Le bot apprend TROP VITE du coup j'ai des coup de pression dans mes rewards et ca descend jamais, du coup il a tjr bon, il apprend quedal il copie justehttps://image.noelshack.com/fichiers/2017/30/4/1501186458-risitalarmebestreup.gifhttps://image.noelshack.com/fichiers/2024/47/1/1731964787-image.png

J'ai un LEARNING RATE DE 0.0000015 PUTAIN SI JE DESCEND IL APPRENDRA RIENhttps://image.noelshack.com/fichiers/2017/30/4/1501186458-risitalarmebestreup.gif

LES PISSEURS D'IA VOUS AMELIOREZ QUAND LE DPO ?https://image.noelshack.com/fichiers/2020/52/6/1608985783-ahi-triangle.png

Un DPO correct :https://image.noelshack.com/fichiers/2024/47/1/1731964883-image.png

Voilà, je devais rager un peu làhttps://image.noelshack.com/fichiers/2016/47/1480081469-ris6.png

Kheyoken
2024-11-18 22:23:36

Bordelent lueur d'espoir on va voirhttps://image.noelshack.com/fichiers/2024/47/1/1731965000-image.pnghttps://image.noelshack.com/fichiers/2022/06/4/1644519454-sirop3.png

Kheyoken
2024-11-18 22:24:27

Les kheys qui ont raté le train IA on vous voithttps://image.noelshack.com/fichiers/2017/30/4/1501186981-risimixbestreup.png

Kheyoken
2024-11-18 22:26:49

J'entend des gens ils disent que les JV rendent violent mais ça, CA, ca me donne plus envie de meutre que vos putains de GTA ou Call of doutyhttps://image.noelshack.com/fichiers/2019/23/4/1559831511-hiiii-issou.png

Kheyoken
2024-11-18 22:28:00

Heureusement les GPU cloud coutent pas ch...https://image.noelshack.com/fichiers/2024/47/1/1731965272-image.png
Oupshttps://image.noelshack.com/fichiers/2020/31/4/1596129454-ahi-fondu.png

Kheyoken
2024-11-18 22:29:25

Bon on passe en LR 0.0000005https://image.noelshack.com/fichiers/2016/47/1480081469-ris6.png
Même 0.0000015 c'est trop, je vais PETER un CABLEhttps://image.noelshack.com/fichiers/2016/51/1482243911-risitasfouofuufouofouf.png

OblastDeKoursk
2024-11-18 22:31:32

Rien compris, tu peux être plus explicite ?

Kheyoken
2024-11-18 22:33:33

Le 18 novembre 2024 à 22:31:32 :
Rien compris, tu peux être plus explicite ?

LR = Learning Rate = taux d'apprentissage, c'est pas compliqué.
J'ai un dataset de 3 colonnes :
- Prompt
- Chosen
- Rejected

Chaque Prompt à une réponse "Chosen" et "Rejected" (choisie/refusée) qui permet un supplément de train (entrainement) au bot pour le "diriger" vers le comportement que tu veuxhttps://image.noelshack.com/fichiers/2017/13/1490886827-risibo.png

Mon problème c'est qu'il APPREND TROP VITEhttps://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png
A chaque fois jdois en chié avec la config.

OblastDeKoursk
2024-11-18 22:36:12

Le 18 novembre 2024 à 22:33:33 :

Le 18 novembre 2024 à 22:31:32 :
Rien compris, tu peux être plus explicite ?

LR = Learning Rate = taux d'apprentissage, c'est pas compliqué.
J'ai un dataset de 3 colonnes :
- Prompt
- Chosen
- Rejected

Chaque Prompt à une réponse "Chosen" et "Rejected" (choisie/refusée) qui permet un supplément de train (entrainement) au bot pour le "diriger" vers le comportement que tu veuxhttps://image.noelshack.com/fichiers/2017/13/1490886827-risibo.png

Mon problème c'est qu'il APPREND TROP VITEhttps://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png
A chaque fois jdois en chié avec la config.

C'est RHLF et dataset DPO que j'avais pas compris. C'est une bonne chose que le bot apprenne vite non ?

Kheyoken
2024-11-18 22:36:47

Le 18 novembre 2024 à 22:36:12 :

Le 18 novembre 2024 à 22:33:33 :

Le 18 novembre 2024 à 22:31:32 :
Rien compris, tu peux être plus explicite ?

LR = Learning Rate = taux d'apprentissage, c'est pas compliqué.
J'ai un dataset de 3 colonnes :
- Prompt
- Chosen
- Rejected

Chaque Prompt à une réponse "Chosen" et "Rejected" (choisie/refusée) qui permet un supplément de train (entrainement) au bot pour le "diriger" vers le comportement que tu veuxhttps://image.noelshack.com/fichiers/2017/13/1490886827-risibo.png

Mon problème c'est qu'il APPREND TROP VITEhttps://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png
A chaque fois jdois en chié avec la config.

C'est RHLF et dataset DPO que j'avais pas compris. C'est une bonne chose que le bot apprenne vite non ?

RLHF* j'ai mal écrit
Et non, car le temps que tout mon dataset y passe, le bot est lobotomisé il répètera trop les truc du datasethttps://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png

jupoule9715
2024-11-18 22:37:39

Fallait craft le bon DPO dans ton RAG et dans ta BAF

Kheyoken
2024-11-18 22:37:46

Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heurehttps://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png

Kheyoken
2024-11-18 22:38:08

Le 18 novembre 2024 à 22:37:39 :
Fallait craft le bon DPO dans ton RAG et dans ta BAF

Premier mec qui a raté le train et fait genrehttps://image.noelshack.com/fichiers/2021/43/4/1635454847-elton-john-tison-golem.png

jupoule9715
2024-11-18 22:39:06

Le 18 novembre 2024 à 22:37:46 :
Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heurehttps://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png

Bientôt viré ou surendetté :rire:

Kheyoken
2024-11-18 22:40:02

LR 0.0000005 =>https://image.noelshack.com/fichiers/2024/47/1/1731965950-image.png

Si des ninja lurk et savent ce qu'ils font je bosse en 64/32 DPO (qlora) sur le dernier Nemotron (Llama 3.1) 70B de Nvidiahttps://image.noelshack.com/fichiers/2016/30/1469541952-risitas182.png

Kheyoken
2024-11-18 22:40:17

Le 18 novembre 2024 à 22:39:06 :

Le 18 novembre 2024 à 22:37:46 :
Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heurehttps://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png

Bientôt viré ou surendetté :rire:

Je me fais 5k/mois dans l'IA ça vahttps://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png

Kheyoken
2024-11-18 22:42:53

Up, pas d'autres khey dans l'IA ? Image ou texte je sais faire, personne ?
J'ai vu un khey l'autre jour faire un topax "pisseur d'IA" qui avait pris le train aussihttps://image.noelshack.com/fichiers/2018/10/1/1520260980-risitas94.png

LastTry4
2024-11-18 22:43:15

Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement :(

LastTry4
2024-11-18 22:43:36

Le 18 novembre 2024 à 22:40:17 :

Le 18 novembre 2024 à 22:39:06 :

Le 18 novembre 2024 à 22:37:46 :
Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heurehttps://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png

Bientôt viré ou surendetté :rire:

Je me fais 5k/mois dans l'IA ça vahttps://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png

Nofake, en freelance ? T'as un doctorat ?

Kheyoken
2024-11-18 22:43:39

Le 18 novembre 2024 à 22:43:15 :
Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement :(

Axolotl, Unsloth ou Llama Factory ?https://image.noelshack.com/fichiers/2017/18/1494048058-pppppppppppppppppppp.png

Infos
Gestion du forum

Contact : contact@geevey.com

API disponible. Utilisez le paramètre "api" en GET, peu importe le contenu, sur une page du site.

Notes

    Ce site n'est pas associé à Jeuxvideo.com ou Webedia. Nous utilisons seulement des archives publiques.
    La version actuelle du site est une ébauche qui a été développée par un tiers. Une nouvelle version en écriture arrivera prochainement.
Opt-out
    Vous pouvez me contacter par e-mail en prouvant qu'un pseudo vous appartient. J'accepterais sans hésitation de supprimer vos contenus si j'en déduit que vous êtes de bonne foi ainsi qu'aimable.