[IA} Le TRAIN RL par DPO on en TOLK ou c'est TABOO ?
Kheyoken
2024-11-18 22:21:36
Putain on est 2025 - 1 mois, je veux juste train mon bot avec un dataset DPO: en gros, on prompt, on lui donne une réponse correcte (dans le sens qu'on veut) et une réponse incorrecte (vers ou on veut pas qu'il aie), et il doit s'entrainer à répondre plus de la manière correcte que non correcte.
Ca permet de faire du RHLF sans vraiment être derrière avec un dataset prévu à cet effethttps://image.noelshack.com/fichiers/2021/43/4/1635454847-elton-john-tison-golem.png
SAUF QUE CE PUTAIN DE TRAIN CHANGE A CHAQUE FOIS, JE DOIS CHAQUE FOIS MODIFIER MA CONFIGhttps://image.noelshack.com/fichiers/2017/30/4/1501186458-risitalarmebestreup.gif
Le bot apprend TROP VITE du coup j'ai des coup de pression dans mes rewards et ca descend jamais, du coup il a tjr bon, il apprend quedal il copie justehttps://image.noelshack.com/fichiers/2017/30/4/1501186458-risitalarmebestreup.gifhttps://image.noelshack.com/fichiers/2024/47/1/1731964787-image.png
J'ai un LEARNING RATE DE 0.0000015 PUTAIN SI JE DESCEND IL APPRENDRA RIENhttps://image.noelshack.com/fichiers/2017/30/4/1501186458-risitalarmebestreup.gif
LES PISSEURS D'IA VOUS AMELIOREZ QUAND LE DPO ?https://image.noelshack.com/fichiers/2020/52/6/1608985783-ahi-triangle.png
Un DPO correct :https://image.noelshack.com/fichiers/2024/47/1/1731964883-image.png
Voilà, je devais rager un peu làhttps://image.noelshack.com/fichiers/2016/47/1480081469-ris6.png
Kheyoken
2024-11-18 22:23:36
Bordelent lueur d'espoir on va voirhttps://image.noelshack.com/fichiers/2024/47/1/1731965000-image.pnghttps://image.noelshack.com/fichiers/2022/06/4/1644519454-sirop3.png
Kheyoken
2024-11-18 22:24:27
Les kheys qui ont raté le train IA on vous voithttps://image.noelshack.com/fichiers/2017/30/4/1501186981-risimixbestreup.png
Kheyoken
2024-11-18 22:26:49
J'entend des gens ils disent que les JV rendent violent mais ça, CA, ca me donne plus envie de meutre que vos putains de GTA ou Call of doutyhttps://image.noelshack.com/fichiers/2019/23/4/1559831511-hiiii-issou.png
Kheyoken
2024-11-18 22:28:00
Heureusement les GPU cloud coutent pas ch...https://image.noelshack.com/fichiers/2024/47/1/1731965272-image.png
Oupshttps://image.noelshack.com/fichiers/2020/31/4/1596129454-ahi-fondu.png
Kheyoken
2024-11-18 22:29:25
Bon on passe en LR 0.0000005https://image.noelshack.com/fichiers/2016/47/1480081469-ris6.png
Même 0.0000015 c'est trop, je vais PETER un CABLEhttps://image.noelshack.com/fichiers/2016/51/1482243911-risitasfouofuufouofouf.png
OblastDeKoursk
2024-11-18 22:31:32
Rien compris, tu peux être plus explicite ?
Kheyoken
2024-11-18 22:33:33
Le 18 novembre 2024 à 22:31:32 :
Rien compris, tu peux être plus explicite ?
LR = Learning Rate = taux d'apprentissage, c'est pas compliqué.
J'ai un dataset de 3 colonnes :
- Prompt
- Chosen
- Rejected
Chaque Prompt à une réponse "Chosen" et "Rejected" (choisie/refusée) qui permet un supplément de train (entrainement) au bot pour le "diriger" vers le comportement que tu veuxhttps://image.noelshack.com/fichiers/2017/13/1490886827-risibo.png
Mon problème c'est qu'il APPREND TROP VITEhttps://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png
A chaque fois jdois en chié avec la config.
OblastDeKoursk
2024-11-18 22:36:12
Le 18 novembre 2024 à 22:33:33 :
Le 18 novembre 2024 à 22:31:32 :
Rien compris, tu peux être plus explicite ?
LR = Learning Rate = taux d'apprentissage, c'est pas compliqué.
J'ai un dataset de 3 colonnes :
- Prompt
- Chosen
- Rejected
Chaque Prompt à une réponse "Chosen" et "Rejected" (choisie/refusée) qui permet un supplément de train (entrainement) au bot pour le "diriger" vers le comportement que tu veuxhttps://image.noelshack.com/fichiers/2017/13/1490886827-risibo.png
Mon problème c'est qu'il APPREND TROP VITEhttps://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png
A chaque fois jdois en chié avec la config.
C'est RHLF et dataset DPO que j'avais pas compris. C'est une bonne chose que le bot apprenne vite non ?
Kheyoken
2024-11-18 22:36:47
Le 18 novembre 2024 à 22:36:12 :
Le 18 novembre 2024 à 22:33:33 :
Le 18 novembre 2024 à 22:31:32 :
Rien compris, tu peux être plus explicite ?
LR = Learning Rate = taux d'apprentissage, c'est pas compliqué.
J'ai un dataset de 3 colonnes :
- Prompt
- Chosen
- Rejected
Chaque Prompt à une réponse "Chosen" et "Rejected" (choisie/refusée) qui permet un supplément de train (entrainement) au bot pour le "diriger" vers le comportement que tu veuxhttps://image.noelshack.com/fichiers/2017/13/1490886827-risibo.png
Mon problème c'est qu'il APPREND TROP VITEhttps://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png
A chaque fois jdois en chié avec la config.
C'est RHLF et dataset DPO que j'avais pas compris. C'est une bonne chose que le bot apprenne vite non ?
RLHF* j'ai mal écrit
Et non, car le temps que tout mon dataset y passe, le bot est lobotomisé il répètera trop les truc du datasethttps://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png
jupoule9715
2024-11-18 22:37:39
Fallait craft le bon DPO dans ton RAG et dans ta BAF
Kheyoken
2024-11-18 22:37:46
Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heurehttps://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png
Kheyoken
2024-11-18 22:38:08
Le 18 novembre 2024 à 22:37:39 :
Fallait craft le bon DPO dans ton RAG et dans ta BAF
Premier mec qui a raté le train et fait genrehttps://image.noelshack.com/fichiers/2021/43/4/1635454847-elton-john-tison-golem.png
jupoule9715
2024-11-18 22:39:06
Le 18 novembre 2024 à 22:37:46 :
Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heurehttps://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png
Bientôt viré ou surendetté 
Kheyoken
2024-11-18 22:40:02
LR 0.0000005 =>https://image.noelshack.com/fichiers/2024/47/1/1731965950-image.png
Si des ninja lurk et savent ce qu'ils font je bosse en 64/32 DPO (qlora) sur le dernier Nemotron (Llama 3.1) 70B de Nvidiahttps://image.noelshack.com/fichiers/2016/30/1469541952-risitas182.png
Kheyoken
2024-11-18 22:40:17
Le 18 novembre 2024 à 22:39:06 :
Le 18 novembre 2024 à 22:37:46 :
Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heurehttps://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png
Bientôt viré ou surendetté 
Je me fais 5k/mois dans l'IA ça vahttps://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png
Kheyoken
2024-11-18 22:42:53
Up, pas d'autres khey dans l'IA ? Image ou texte je sais faire, personne ?
J'ai vu un khey l'autre jour faire un topax "pisseur d'IA" qui avait pris le train aussihttps://image.noelshack.com/fichiers/2018/10/1/1520260980-risitas94.png
LastTry4
2024-11-18 22:43:15
Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement 
LastTry4
2024-11-18 22:43:36
Le 18 novembre 2024 à 22:40:17 :
Le 18 novembre 2024 à 22:39:06 :
Le 18 novembre 2024 à 22:37:46 :
Dans le même temps si je met une trop basse il apprendra rien, et jdois trouver la bonne config vite, car là jsuis sur 8x H100 à 25$/heurehttps://image.noelshack.com/fichiers/2016/26/1467335935-jesus1.png
Bientôt viré ou surendetté 
Je me fais 5k/mois dans l'IA ça vahttps://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png
Nofake, en freelance ? T'as un doctorat ?
Kheyoken
2024-11-18 22:43:39
Le 18 novembre 2024 à 22:43:15 :
Trop longtemps que j'en ai pas fait pour pouvoir t'aider à stabiliser l'entraînement 
Axolotl, Unsloth ou Llama Factory ?https://image.noelshack.com/fichiers/2017/18/1494048058-pppppppppppppppppppp.png