Le 03 juillet 2023 à 09:06:55 :
Il raconte que des conneries pourtant ce sont des français et la troisième voir quatrième génération donc rien a voir avec l'immigration récente c'est un pb qui touche autre chose
Ça peut être lié aux deux, une immigration incontrôlée qui donne un sentiment de pays moulin/conquis et une politique de non assimilation des immigrés qui conduit à une culture parallèle, le développement d'une haine de l'état et des autochtones.
Le 29 juin 2023 à 08:29:04 :
Le 29 juin 2023 à 08:26:15 :
L'aider à faire ses devoirs a 16 ans ?Si je suis pas derrière il fait pas
Si je suis pas derrière il se brosse même pas les dents hein
Laisse le se démerder et commencer à assumer les conséquences de ses actes. Pour la jdc t'aurais du juste lui dire que c'est obligatoire, si il y va pas sélection naturelle pour lui. Il a 16 ans, il doit se débrouiller seul déjà. Faut pas négocier avec un ado, faut le conseiller et lui laisser tirer des propres leçons
Il se lave pas les dents => t'auras les dents pourris à 25 ans, je t'aurais prévenu (et tu t'arrêtes là)
Il veut pas aller à la jdc => tu pourras pas passer ton bac si t'y va pas
Le 27 juin 2023 à 13:58:55 :
Le 27 juin 2023 à 13:41:59 :
Le 27 juin 2023 à 12:19:43 :
Le 27 juin 2023 à 11:56:24 :
Le 27 juin 2023 à 11:52:40 :
> Le 27 juin 2023 à 11:45:52 :
>> Le 27 juin 2023 à 11:38:38 :
> >Salut, je me suis créé un pseudo pour l'occasion, pour pouvoir te poser des questions ?
> >
> > Comment compte-tu réentrainer BLOOM depuis l'API ?
> > Tu as accès au gradient de sortie pour pouvoir entrainer une nouvelle couche à états ?
> >
> > Sinon pour moi, le seul moyen va être d'héberger le modèle en local. Je crois que la version max de BLOOM (la 176B si je me souviens bien) nécessite plusieurs A100, les as-tu ?
> >
> > Autre question totallement hors sujet, dans les comms du topic, tu dis que faire la retropropagation de la queu d'un perceptrons vers la couche précedante necessite un calcul non linéaire.. Je pensais que c'etait juste un calcul de Jacobienne. Pourrais tu détailler ?
> > Je pensais que c'etait justement pour introduire de la non linéarité qu'on mettait des Rectified Linear Unit etc..
> >
> > Si tu souhaite creer un bot sur les forums, il va aussi falloir que tu te pose la question de quand est ce qu'il poste, tu peux regarder l'xp mené par Yann Kilcher avec 4chan (lui c'etait plus de où il post, il a choisi de poster depuis un serveur proxy des seychelles), parcque si tu ne veux pas qu'on detecte et report ton bot, il faut qu'il y ai une cohérence temporelles par rapport à un user normal.
> >
> > PS : Je suis doctorant à l'inria, j'utilise des LLM, mais ce n'est pas mon domaine de recherche.
>
> Bloom c'est pas le plus opti je pense, perso je partirais plutôt sur falcon 40b, tu le quantize 4 bits et tu fais du lora tunning sur une vm avec une A100, côté inférence ça devrait tourner sur une gpu 20 gb ou une bonne machine chargée en ram si on a pas besoin de "temps réel". Pour des cas d'usage facile je suis sûr qu'un prompt bien préparé avec falcon ou Bloom 176b ferait déjà l'affaire sans entraînement supplémentaire
Oui, bien sur, je pense que même en Zero Shot Learning, n'importe quel LLM peut reproduire le "vocabulaire" du forum. Nos messages sont très courts et ne s'éloigne pas beaucoup des niveaux de discours que l'on retrouve sur twitter, Reddit ou 4chan ou ces technos on déjà été déployé.
Je ne vois pas ce que'apporterait le reentrainement d'une couche transformer ici.
Ah ce moment là, on peut effectivement passer par une API.
Mais réentrenner un modèle, je ne sais pas si l'op l'a déja fait.. Mais bon courage.
Après je vais bientôt être limité dans mon nombre de messages (car je viens de creer mon compte JVC), donc c'est dommage j'aurais bien voulu répondre à certains comms.
PS : De toute facons, depuis le papier de GPT3, il a été montré que c'etait une mauvaise idée de finetuner ces énormes modèles.
Tu re-entraine rarement le modèle entier (voir jamais), dans la pratique soit on optimise quelques couches du modèle, soit on ajoute des "adaptateurs" qui sont rapidement entraînés et nécessite grosso modo 10k exemples (selon les cas d'usages un peu moins, un peu plus) et ne consomment pas énormément de ressource (peft, lora, prefix tuning)
Oui mais le problème est toujours là. Pour pouvoir entrainé ces nouvelles couches (le fine tuning), il va te falloir le gradient de sortie de la couche à Etat, et la couche de mémoire de ton modèle (ca marchait comme ca pour les LSTM, mais pour les transformers ca doit etre le meme principe).
Pour cela, même si tu ne propages pas le gradient dans ton réseau de neurone (tu le propage juste dans tes nouvelles couches), il va quand même falloir que tu stock ton modèle. Que tu puisses y faire appel.
Donc tu vas quand même devoir le loader, donc il te faut des A100, et vu la pénurie actuelle, bon courage.
En effet il faut calculer le gradient et dans la plupart des cas charger le modèle entier. Pour des applications type imiter les khey un modèle à 40b de paramètre suffit. On peut aussi approcher les poids du modèles en 4 bits plutôt que float 32 pour gagner de la place et simplement calculer le gradient sur un ensemble limité de couche voir des petits adapteurs à 32 valeurs (méthode lora). J'ai déjà fait des tests, dans ces conditions 1 unique A100 permet de faire la spécialisation d'un modèle falcon 40b en 4 bits.
Seconde méthode, on se met dans un réseau distribué qui permet d'optimiser un llm en scindant les calculs de forward et backward au sein des ressources du réseau. C'est par exemple le cas avec le réseau petals qui permet de fine tune un modèle bloom 176b avec seulement 20gb de ram gpu
Whoaw je ne connaissais pas petals, ce genre de peer2peer de l'entrainement de LLM.
Et t'as des gens qui y participent ?
Genre laissent leur CG tourner h24 pour les autres ?
Quel intérêt pour ces "seeder" de calcul de gradient ?Après pour ta premiere méthode, oui bien sur, on peut réduire le nombre de bit d'encodage des float, ca se fait déja beaucoup..
Y a beaucoup de mecs qui inférent via petals donc mettent à dispo h24 de la puissance de calcul, tu peux tester chat petals qui fait tourner bloomz via cette méthode et ça fonctionne tout ceux qui ont une puissance de calcul limitée 20 gb se rabattent sur ça et acceptent en retour de prêter de la puissance de calcul, c'est win win et ça marche bien
Le 27 juin 2023 à 12:19:43 :
Le 27 juin 2023 à 11:56:24 :
Le 27 juin 2023 à 11:52:40 :
Le 27 juin 2023 à 11:45:52 :
Le 27 juin 2023 à 11:38:38 :
Salut, je me suis créé un pseudo pour l'occasion, pour pouvoir te poser des questions ?Comment compte-tu réentrainer BLOOM depuis l'API ?
Tu as accès au gradient de sortie pour pouvoir entrainer une nouvelle couche à états ?Sinon pour moi, le seul moyen va être d'héberger le modèle en local. Je crois que la version max de BLOOM (la 176B si je me souviens bien) nécessite plusieurs A100, les as-tu ?
Autre question totallement hors sujet, dans les comms du topic, tu dis que faire la retropropagation de la queu d'un perceptrons vers la couche précedante necessite un calcul non linéaire.. Je pensais que c'etait juste un calcul de Jacobienne. Pourrais tu détailler ?
Je pensais que c'etait justement pour introduire de la non linéarité qu'on mettait des Rectified Linear Unit etc..Si tu souhaite creer un bot sur les forums, il va aussi falloir que tu te pose la question de quand est ce qu'il poste, tu peux regarder l'xp mené par Yann Kilcher avec 4chan (lui c'etait plus de où il post, il a choisi de poster depuis un serveur proxy des seychelles), parcque si tu ne veux pas qu'on detecte et report ton bot, il faut qu'il y ai une cohérence temporelles par rapport à un user normal.
PS : Je suis doctorant à l'inria, j'utilise des LLM, mais ce n'est pas mon domaine de recherche.
Bloom c'est pas le plus opti je pense, perso je partirais plutôt sur falcon 40b, tu le quantize 4 bits et tu fais du lora tunning sur une vm avec une A100, côté inférence ça devrait tourner sur une gpu 20 gb ou une bonne machine chargée en ram si on a pas besoin de "temps réel". Pour des cas d'usage facile je suis sûr qu'un prompt bien préparé avec falcon ou Bloom 176b ferait déjà l'affaire sans entraînement supplémentaire
Oui, bien sur, je pense que même en Zero Shot Learning, n'importe quel LLM peut reproduire le "vocabulaire" du forum. Nos messages sont très courts et ne s'éloigne pas beaucoup des niveaux de discours que l'on retrouve sur twitter, Reddit ou 4chan ou ces technos on déjà été déployé.
Je ne vois pas ce que'apporterait le reentrainement d'une couche transformer ici.
Ah ce moment là, on peut effectivement passer par une API.
Mais réentrenner un modèle, je ne sais pas si l'op l'a déja fait.. Mais bon courage.
Après je vais bientôt être limité dans mon nombre de messages (car je viens de creer mon compte JVC), donc c'est dommage j'aurais bien voulu répondre à certains comms.
PS : De toute facons, depuis le papier de GPT3, il a été montré que c'etait une mauvaise idée de finetuner ces énormes modèles.
Tu re-entraine rarement le modèle entier (voir jamais), dans la pratique soit on optimise quelques couches du modèle, soit on ajoute des "adaptateurs" qui sont rapidement entraînés et nécessite grosso modo 10k exemples (selon les cas d'usages un peu moins, un peu plus) et ne consomment pas énormément de ressource (peft, lora, prefix tuning)
Oui mais le problème est toujours là. Pour pouvoir entrainé ces nouvelles couches (le fine tuning), il va te falloir le gradient de sortie de la couche à Etat, et la couche de mémoire de ton modèle (ca marchait comme ca pour les LSTM, mais pour les transformers ca doit etre le meme principe).
Pour cela, même si tu ne propages pas le gradient dans ton réseau de neurone (tu le propage juste dans tes nouvelles couches), il va quand même falloir que tu stock ton modèle. Que tu puisses y faire appel.
Donc tu vas quand même devoir le loader, donc il te faut des A100, et vu la pénurie actuelle, bon courage.
En effet il faut calculer le gradient et dans la plupart des cas charger le modèle entier. Pour des applications type imiter les khey un modèle à 40b de paramètre suffit. On peut aussi approcher les poids du modèles en 4 bits plutôt que float 32 pour gagner de la place et simplement calculer le gradient sur un ensemble limité de couche voir des petits adapteurs à 32 valeurs (méthode lora). J'ai déjà fait des tests, dans ces conditions 1 unique A100 permet de faire la spécialisation d'un modèle falcon 40b en 4 bits.
Seconde méthode, on se met dans un réseau distribué qui permet d'optimiser un llm en scindant les calculs de forward et backward au sein des ressources du réseau. C'est par exemple le cas avec le réseau petals qui permet de fine tune un modèle bloom 176b avec seulement 20gb de ram gpu
Le 27 juin 2023 à 11:52:40 :
Le 27 juin 2023 à 11:45:52 :
Le 27 juin 2023 à 11:38:38 :
Salut, je me suis créé un pseudo pour l'occasion, pour pouvoir te poser des questions ?Comment compte-tu réentrainer BLOOM depuis l'API ?
Tu as accès au gradient de sortie pour pouvoir entrainer une nouvelle couche à états ?Sinon pour moi, le seul moyen va être d'héberger le modèle en local. Je crois que la version max de BLOOM (la 176B si je me souviens bien) nécessite plusieurs A100, les as-tu ?
Autre question totallement hors sujet, dans les comms du topic, tu dis que faire la retropropagation de la queu d'un perceptrons vers la couche précedante necessite un calcul non linéaire.. Je pensais que c'etait juste un calcul de Jacobienne. Pourrais tu détailler ?
Je pensais que c'etait justement pour introduire de la non linéarité qu'on mettait des Rectified Linear Unit etc..Si tu souhaite creer un bot sur les forums, il va aussi falloir que tu te pose la question de quand est ce qu'il poste, tu peux regarder l'xp mené par Yann Kilcher avec 4chan (lui c'etait plus de où il post, il a choisi de poster depuis un serveur proxy des seychelles), parcque si tu ne veux pas qu'on detecte et report ton bot, il faut qu'il y ai une cohérence temporelles par rapport à un user normal.
PS : Je suis doctorant à l'inria, j'utilise des LLM, mais ce n'est pas mon domaine de recherche.
Bloom c'est pas le plus opti je pense, perso je partirais plutôt sur falcon 40b, tu le quantize 4 bits et tu fais du lora tunning sur une vm avec une A100, côté inférence ça devrait tourner sur une gpu 20 gb ou une bonne machine chargée en ram si on a pas besoin de "temps réel". Pour des cas d'usage facile je suis sûr qu'un prompt bien préparé avec falcon ou Bloom 176b ferait déjà l'affaire sans entraînement supplémentaire
Oui, bien sur, je pense que même en Zero Shot Learning, n'importe quel LLM peut reproduire le "vocabulaire" du forum. Nos messages sont très courts et ne s'éloigne pas beaucoup des niveaux de discours que l'on retrouve sur twitter, Reddit ou 4chan ou ces technos on déjà été déployé.
Je ne vois pas ce que'apporterait le reentrainement d'une couche transformer ici.
Ah ce moment là, on peut effectivement passer par une API.
Mais réentrenner un modèle, je ne sais pas si l'op l'a déja fait.. Mais bon courage.
Après je vais bientôt être limité dans mon nombre de messages (car je viens de creer mon compte JVC), donc c'est dommage j'aurais bien voulu répondre à certains comms.
PS : De toute facons, depuis le papier de GPT3, il a été montré que c'etait une mauvaise idée de finetuner ces énormes modèles.
Tu re-entraine rarement le modèle entier (voir jamais), dans la pratique soit on optimise quelques couches du modèle, soit on ajoute des "adaptateurs" qui sont rapidement entraînés et nécessite grosso modo 10k exemples (selon les cas d'usages un peu moins, un peu plus) et ne consomment pas énormément de ressource (peft, lora, prefix tuning)
Le 27 juin 2023 à 11:38:38 :
Salut, je me suis créé un pseudo pour l'occasion, pour pouvoir te poser des questions ?Comment compte-tu réentrainer BLOOM depuis l'API ?
Tu as accès au gradient de sortie pour pouvoir entrainer une nouvelle couche à états ?Sinon pour moi, le seul moyen va être d'héberger le modèle en local. Je crois que la version max de BLOOM (la 176B si je me souviens bien) nécessite plusieurs A100, les as-tu ?
Autre question totallement hors sujet, dans les comms du topic, tu dis que faire la retropropagation de la queu d'un perceptrons vers la couche précedante necessite un calcul non linéaire.. Je pensais que c'etait juste un calcul de Jacobienne. Pourrais tu détailler ?
Je pensais que c'etait justement pour introduire de la non linéarité qu'on mettait des Rectified Linear Unit etc..Si tu souhaite creer un bot sur les forums, il va aussi falloir que tu te pose la question de quand est ce qu'il poste, tu peux regarder l'xp mené par Yann Kilcher avec 4chan (lui c'etait plus de où il post, il a choisi de poster depuis un serveur proxy des seychelles), parcque si tu ne veux pas qu'on detecte et report ton bot, il faut qu'il y ai une cohérence temporelles par rapport à un user normal.
PS : Je suis doctorant à l'inria, j'utilise des LLM, mais ce n'est pas mon domaine de recherche.
Bloom c'est pas le plus opti je pense, perso je partirais plutôt sur falcon 40b, tu le quantize 4 bits et tu fais du lora tunning sur une vm avec une A100, côté inférence ça devrait tourner sur une gpu 20 gb ou une bonne machine chargée en ram si on a pas besoin de "temps réel". Pour des cas d'usage facile je suis sûr qu'un prompt bien préparé avec falcon ou Bloom 176b ferait déjà l'affaire sans entraînement supplémentaire
Le 27 juin 2023 à 11:34:00 :
Le 27 juin 2023 à 11:32:41 :
Tu pourrais fine tuner bloom pour répondre à la manière de minette sur chacun des topicsUn bot qui fait des first cinglants
Une lA qui détecte si un poste va entraîner un perma et cite le khey pour lui dire de vite supprimer avant de se prendre un perma
le first cinglant c'est vraiment une bonne idée
pour la detection de perma ça se fait facilement, je pourrais envoyer un message du genre "tu glisses toi"
Pour plus de complexité tu peux détecter les perma tempo qui sont un peu plus délicats
Tu pourrais fine tuner bloom pour répondre à la manière de minette sur chacun des topics
Un bot qui fait des first cinglants
Une lA qui détecte si un poste va entraîner un perma et cite le khey pour lui dire de vite supprimer avant de se prendre un perma
Le 27 juin 2023 à 08:21:44 :
Le 27 juin 2023 à 08:07:49 :
https://voca.ro/1mzsjyuxtD5UT'es une fille ?
Non c'est un petit garçon de 13 ans
Bravo tu viens tout juste de réaliser qu'il existe des avis divergents et que la définition de p varie d'un individu à l'autre
Nonobstant je pense tout de même qu'une femme tradi vierge qui ne joue pas les allumeuses et se préserve pour son mari est très très rarement sérieusement qualifiée de pute
Le 26 juin 2023 à 13:12:25 :
Pourquoi quand il dit qu'il a eu besoin de payer pour agrandir sa boîte mail, il a sa main au niveau de la teub comme s'il mentionnait sa teub ? On dirait que c'était pas volontaire en plus.
C'est censé être comique je pense, le double sens agrandir la boîte mail/le z