Messages de Framboisine50

Le 26 novembre 2023 à 20:57:54 :
Tu es abonné à une newsletter pour suivre les papiers qui sortent chaque semaine ?

Est-ce que tu sais quel est la meilleure vector database pour implémenter un RAG ? (Moins de 1M de données, je veux surtout une base performante et facile à prendre en main)

Langchain ou llamaindex ?

Perso je suis passé par langchain avec El famoso chromadb et un modèle e5 pour l'embedding ça marche pas trop mal même si le parsing de ta base de connaissance est super important et galère à réaliser :hap:

https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

Suffit de filtrer sur le nombre de paramètres et trouver le premier modèle qui inclus le français :hap: puis éventuellement creuser pour assurer le choix

Le 26 novembre 2023 à 20:48:49 :

Le 26 novembre 2023 à 20:46:53 :

Le 26 novembre 2023 à 20:42:12 :

Le 26 novembre 2023 à 20:40:45 :

Le 26 novembre 2023 à 20:40:05 :

> Le 26 novembre 2023 à 20:38:09 :

>> Le 26 novembre 2023 à 20:36:00 :

> >Meilleur llm open source à moins de 40b paramètres qui fonctionne en français ?

> > Déjà fine tune un llm? Quelle méthode ? Combien de volumétrie de données ?

> > Quel framework utiliser pour les méthodes llm multi agent ? :hap:

>

> j'essaierais Yi https://huggingface.co/01-ai/Yi-34B

> J'ai déjà fine-tune des LLM avec Lora sur des données faibles avec autotrain

> Les LLM multi agents sont pas ouf pour l'instant il faudra attendre un peu je pense ou lors GPT-4 + autogpt

Yi ne fonctionne pas en français. Tu sais pas lire ?

La plupart de modèles sont pas faits pour le français mais marchent quand même en FR, ou marchotent

Non sans fine tuning tu peux rien faire

La bonne réponse c'est BLOOM

Aya j'espère que tu troll Bloom est rincé, les modèles falcon et mistral sont déjà bien au dessus :hap:

Mais vous faites exprès ? La question est pas de savoir si BLOOM est rincé ou non (il l'est), mais quel est le meilleur modèle entrainé sur du français à -40B, et c'est BLOOM je suis désolé

Vous ne faites que citer des modèles qu'on ne peut utiliser sur du français que par fine-tuning, ce qui n'est absolument pas la question

Justement, y a des modèles mistral et falcon en <=40b qui sont bien meilleurs que Bloom déjà et sont entraînés sur des datasets en partie fr :(

Le 26 novembre 2023 à 20:42:12 :

Le 26 novembre 2023 à 20:40:45 :

Le 26 novembre 2023 à 20:40:05 :

Le 26 novembre 2023 à 20:38:09 :

Le 26 novembre 2023 à 20:36:00 :
Meilleur llm open source à moins de 40b paramètres qui fonctionne en français ?
Déjà fine tune un llm? Quelle méthode ? Combien de volumétrie de données ?
Quel framework utiliser pour les méthodes llm multi agent ? :hap:

j'essaierais Yi https://huggingface.co/01-ai/Yi-34B
J'ai déjà fine-tune des LLM avec Lora sur des données faibles avec autotrain
Les LLM multi agents sont pas ouf pour l'instant il faudra attendre un peu je pense ou lors GPT-4 + autogpt

Yi ne fonctionne pas en français. Tu sais pas lire ?

La plupart de modèles sont pas faits pour le français mais marchent quand même en FR, ou marchotent

Non sans fine tuning tu peux rien faire

La bonne réponse c'est BLOOM

Aya j'espère que tu troll Bloom est rincé, les modèles falcon et mistral sont déjà bien au dessus :hap:

Le 26 novembre 2023 à 20:40:45 :

Le 26 novembre 2023 à 20:40:05 :

Le 26 novembre 2023 à 20:38:09 :

Le 26 novembre 2023 à 20:36:00 :
Meilleur llm open source à moins de 40b paramètres qui fonctionne en français ?
Déjà fine tune un llm? Quelle méthode ? Combien de volumétrie de données ?
Quel framework utiliser pour les méthodes llm multi agent ? :hap:

j'essaierais Yi https://huggingface.co/01-ai/Yi-34B
J'ai déjà fine-tune des LLM avec Lora sur des données faibles avec autotrain
Les LLM multi agents sont pas ouf pour l'instant il faudra attendre un peu je pense ou lors GPT-4 + autogpt

Yi ne fonctionne pas en français. Tu sais pas lire ?

La plupart de modèles sont pas faits pour le français mais marchent quand même en FR, ou marchotent

Je confirme pour avoir pas mal joué avec les modèles llama/code-llama soit disant anglais qui fonctionnent pas trop mal en français finalement :hap:

Le 26 novembre 2023 à 20:38:09 :

Le 26 novembre 2023 à 20:36:00 :
Meilleur llm open source à moins de 40b paramètres qui fonctionne en français ?
Déjà fine tune un llm? Quelle méthode ? Combien de volumétrie de données ?
Quel framework utiliser pour les méthodes llm multi agent ? :hap:

j'essaierais Yi https://huggingface.co/01-ai/Yi-34B
J'ai déjà fine-tune des LLM avec Lora sur des données faibles avec autotrain
Les LLM multi agents sont pas ouf pour l'instant il faudra attendre un peu je pense ou lors GPT-4 + autogpt

Merci, je vais regarder Yi :hap:
Entraînement Lora sur données faibles, combien de volume et pour quel résultat si tu te souviens ?

Meilleur llm open source à moins de 40b paramètres qui fonctionne en français ?
Déjà fine tune un llm? Quelle méthode ? Combien de volumétrie de données ?
Quel framework utiliser pour les méthodes llm multi agent ? :hap:
De quoi tu te plains l'op profite des deux prochains jours peinard pour profiter des activités solo que tu aimes en attendant que ta magalie reprenne ses esprits :(
Gris/vert :oui:
Souhaites lui un bon repos et une bonne soirée et attends qu'elle te recontacte :(

Le 25 novembre 2023 à 22:44:58 :

Le 25 novembre 2023 à 22:42:03 :
La Chine s'empare de Taïwan par l'économie et la politique, ça ne se fera pas par une confrontation physique :hap:

Et ça c'est la méthode le plus intelligente à exécuterhttps://image.noelshack.com/fichiers/2022/47/5/1669401895-the.png
Si "réunion" doit y avoir, je ne l'imagine pas autrement que comme çahttps://image.noelshack.com/fichiers/2022/47/5/1669401895-the.png
Autrement, surtout via une confrontation militaire, serait un désastre sans nomhttps://image.noelshack.com/fichiers/2022/37/1/1663014384-ahi-pince-mais.png

C'est déjà la méthode employée, les Taïwanais ont constaté la fraude du partis Vert et les promesses de création de richesse en passant le dollar Taïwanais au rmb attirent de plus en plus les Taïwanais qui constatent l'évolution du pouvoir d'achat/l'éducation des chinois qui visitent leur pays :hap:

La Chine s'empare de Taïwan par l'économie et la politique, ça ne se fera pas par une confrontation physique :hap:
Si tu entraînes le modèle c'est pas la volumétrie des données d'entraînement qui affectera tes temps d'inference :hap:
Planter un arbre ? Ça prendra du temps

Le 24 novembre 2023 à 13:10:30 :

Le 24 novembre 2023 à 13:09:33 :
Si vous n étiez pas potes avant , coupe les ponts tu vas te faire du mal sinon

On est directement tombé amoureux l’un de l’autre, c’est-à-dire ca me fera du mal ? La relation est vouée à l’échec ? Dans ce message elle veut faire passer quoi au fond ?

On connaît pas ta meuf ni votre relation donc on peut pas dire. Cependant elle a quand même décider de faire une rupture, c'est pas anodin. Je serais toi je serais très précautionneux, peut être recommencer à vous voir doucement pour voir si la complicité renait, prends soin de toi khey :ok:

Iiiiiiiiiiiiisse
C'est pas très gentil ça :(

Le 21 novembre 2023 à 09:04:16 :

Le 21 novembre 2023 à 09:00:06 :
Merci à ce mouvement de laisser plus de work et plus de pussy aux autres :hap:

ce n'est pas vraiment eux qui faisaient concurrence

Seulement pour le work :)

Ceux qui y adhèrent n'auront ni l'un ni l'autre c'est sûr
[IA] Des connaisseurs ?
21/11/2023 08:44

Tu peux utiliser sdxl inpainting si tu veux aller vite, par contre la version demo est puante: https://huggingface.co/spaces/diffusers/stable-diffusion-xl-inpainting

Vaux mieux utiliser un Google colab pour pouvoir booster certains paramètres ! En cherchant vers stable diffusion controlnet ou stable diffusion inpainting tu devrais trouver un truc gratuit qui fonctionne. Sinon tu peux suivre les tutoriel et installer automatic111 https://stable-diffusion-art.com/automatic1111/