Messages de TYT9000

Le 12 février 2021 à 17:28:48 Azerban a écrit :
Si le sujet vous intéresse, c'est un peu la même problématique que la classification d’e-mails (spam/ham). Il y a énormément d'exemples qui montrent comment faire cela en Python.

C'est un sujet qui est souvent donné dans des entretiens d'embauche pour des emplois dans la data science.

Exacte mon khey, c'est un exercice de base d'analyse de sentiment, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

Liste des gens qui s'en foutent :
- TYT9000

Le 12 février 2021 à 17:22:31 KJQuiche a écrit :

Le 12 février 2021 à 17:22:06 TYT9000 a écrit :

Le 12 février 2021 à 17:20:59 KJQuiche a écrit :

Le 12 février 2021 à 17:18:46 TYT9000 a écrit :

Le 12 février 2021 à 17:15:24 KJQuiche a écrit :

Le 12 février 2021 à 17:13:54 TYT9000 a écrit :
Facile, tu prends un dataset d'analyse de sentiments

Tu prends aussi environ 2000 posts à blacklister et 2000 posts OK

Puis tu pré-entraine ton IA sur le dataset 1 et tu le fine-tune sur le dataset 2

à la fin tu auras de quoi distinguer les posts à blacklister des posts OK

puis avec un script qui parcours automatiquement les topics, tu analyse chaque message et ton IA va le classifier et en fonction du résultat tu dis à ton script de blacklister ou non le forumeur

Ok la théorie, mais je fais ça avec quoi? C'est quoi le langage le plus adapté ?

Utilise Python, installe Keras, Matplolib, Numpy, Pandas, ça va te permettre de faire de l'EDA pour analyser les features intéressante (celles qui ont la plus forte correlation avec le résultat de sortie), Keras va te permettre de créer un neural network de type NLP (je pense que tu peux utiliser des archi comme Bert) puis une fois le model entrainé, tu auras un fichier, que tu vas upload sur AWS ou GCP par exemple et qui va te servir d'API pour ton application JS. Ensuite en Python tu développe un crawler (des libs existent) pour scanner les topics et récupérer les posts, tu fournis ça à ton script JS côté navigateur et il va automatiquement blackliser les gens, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

Je maitrise/connais aucun de ses trucs ça va être la catahttps://image.noelshack.com/fichiers/2019/52/2/1577183045-gngngngn.png

C'est pourtant simple ahi, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

C'est facile quand on sait fairehttps://image.noelshack.com/fichiers/2017/21/1495923662-ghjjjj.png

500 euros et je te le fais, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

Le 12 février 2021 à 17:20:59 KJQuiche a écrit :

Le 12 février 2021 à 17:18:46 TYT9000 a écrit :

Le 12 février 2021 à 17:15:24 KJQuiche a écrit :

Le 12 février 2021 à 17:13:54 TYT9000 a écrit :
Facile, tu prends un dataset d'analyse de sentiments

Tu prends aussi environ 2000 posts à blacklister et 2000 posts OK

Puis tu pré-entraine ton IA sur le dataset 1 et tu le fine-tune sur le dataset 2

à la fin tu auras de quoi distinguer les posts à blacklister des posts OK

puis avec un script qui parcours automatiquement les topics, tu analyse chaque message et ton IA va le classifier et en fonction du résultat tu dis à ton script de blacklister ou non le forumeur

Ok la théorie, mais je fais ça avec quoi? C'est quoi le langage le plus adapté ?

Utilise Python, installe Keras, Matplolib, Numpy, Pandas, ça va te permettre de faire de l'EDA pour analyser les features intéressante (celles qui ont la plus forte correlation avec le résultat de sortie), Keras va te permettre de créer un neural network de type NLP (je pense que tu peux utiliser des archi comme Bert) puis une fois le model entrainé, tu auras un fichier, que tu vas upload sur AWS ou GCP par exemple et qui va te servir d'API pour ton application JS. Ensuite en Python tu développe un crawler (des libs existent) pour scanner les topics et récupérer les posts, tu fournis ça à ton script JS côté navigateur et il va automatiquement blackliser les gens, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

Je maitrise/connais aucun de ses trucs ça va être la catahttps://image.noelshack.com/fichiers/2019/52/2/1577183045-gngngngn.png

C'est pourtant simple ahi, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

Le 12 février 2021 à 17:20:07 Azerban a écrit :

Le 12 février 2021 à 17:13:54 TYT9000 a écrit :
Facile, tu prends un dataset d'analyse de sentiments

Tu prends aussi environ 2000 posts à blacklister et 2000 posts OK

Puis tu pré-entraine ton IA sur le dataset 1 et tu le fine-tune sur le dataset 2

à la fin tu auras de quoi distinguer les posts à blacklister des posts OK

puis avec un script qui parcours automatiquement les topics, tu analyse chaque message et ton IA va le classifier et en fonction du résultat tu dis à ton script de blacklister ou non le forumeur

Il faut éviter d'avoir un dataset aussi équilibré sinon ça se réfletera dans la manière dont ton programme blacklist ou non les posts.

Si dans ton dataset tu as 50% de posts "blacklist", ton programme va blacklister 50% des posts postés sur JVC. Il faut un jeu de données représentatif du forum du genre 90-10.

Télécharger des données c'est assez facile, j'ai un programme en Python qui télécharge de manière asynchrone tous les posts de tous les topics. En revanche annoter les posts c'est pénible.

Oui faut faire du 90-10 t'as bien raison, je fais pas trop de NLP, je suis plus sur de la Computer Vision donc j'ai pas trop ce soucis ahi, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

Le 12 février 2021 à 17:16:12 KJQuiche a écrit :

Le 12 février 2021 à 17:14:40 TYT9000 a écrit :
Le plus long c'est de réunir les jeux de données, je pourrais le faire mais j'ai vraiment la flemme, sauf si des kheys veulent bien participer à la classification manuelle de 4000 posts, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

Même 1000 ou moins ça suffirait je pense, ils sont tellement bouclés que c'est facile à reconnaitre

Tu peux le faire qu'avec des neural networks et leur particularité c'est de fonctionner sur un gros volume de données, flemme de rentrer dans les détails mais tu as des techniques pour travailler avec des petits datasets, mais là faut faire de la feature extraction et du fine-tuning mais c'est un autre level, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

Le 12 février 2021 à 17:15:24 KJQuiche a écrit :

Le 12 février 2021 à 17:13:54 TYT9000 a écrit :
Facile, tu prends un dataset d'analyse de sentiments

Tu prends aussi environ 2000 posts à blacklister et 2000 posts OK

Puis tu pré-entraine ton IA sur le dataset 1 et tu le fine-tune sur le dataset 2

à la fin tu auras de quoi distinguer les posts à blacklister des posts OK

puis avec un script qui parcours automatiquement les topics, tu analyse chaque message et ton IA va le classifier et en fonction du résultat tu dis à ton script de blacklister ou non le forumeur

Ok la théorie, mais je fais ça avec quoi? C'est quoi le langage le plus adapté ?

Utilise Python, installe Keras, Matplolib, Numpy, Pandas, ça va te permettre de faire de l'EDA pour analyser les features intéressante (celles qui ont la plus forte correlation avec le résultat de sortie), Keras va te permettre de créer un neural network de type NLP (je pense que tu peux utiliser des archi comme Bert) puis une fois le model entrainé, tu auras un fichier, que tu vas upload sur AWS ou GCP par exemple et qui va te servir d'API pour ton application JS. Ensuite en Python tu développe un crawler (des libs existent) pour scanner les topics et récupérer les posts, tu fournis ça à ton script JS côté navigateur et il va automatiquement blackliser les gens, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

Le plus long c'est de réunir les jeux de données, je pourrais le faire mais j'ai vraiment la flemme, sauf si des kheys veulent bien participer à la classification manuelle de 4000 posts, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

Facile, tu prends un dataset d'analyse de sentiments

Tu prends aussi environ 2000 posts à blacklister et 2000 posts OK

Puis tu pré-entraine ton IA sur le dataset 1 et tu le fine-tune sur le dataset 2

à la fin tu auras de quoi distinguer les posts à blacklister des posts OK

puis avec un script qui parcours automatiquement les topics, tu analyse chaque message et ton IA va le classifier et en fonction du résultat tu dis à ton script de blacklister ou non le forumeur

Le 12 février 2021 à 15:09:46 ivafre a écrit :

Le 12 février 2021 à 15:06:22 TYT9000 a écrit :

Le 12 février 2021 à 14:59:26 ivafre a écrit :
gg bientot exit le salariat :)

tu vois où les projets dispos sur le site ?

Je cherche des articles random dans un secteur qui m'intéresse, je tri par la date la plus récente et j'en lis 2 ou 3 par jour si c'est intéressant. Après je regarde si un truc similaire existe sur internet, sinon j'évalue l'effort par rapport aux potentiels revenus et je me lance, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

ok je vois mais du coup c'est pas une demande des chercheurs, eux ils exposent leurs trouvailles, et après c'est toi qui créer le produit et doit ensuite trouver les clients pour ton projet ?

Exa exa, les chercheurs exposent des analyses et une méthodologie pour arriver aux conclusions, mais parfois je me dis "putain mais j'aimerai bien obtenir ces résultats en cliquant juste sur un bouton" et hop, l'idée m'est venu, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

Le 12 février 2021 à 15:07:14 Crooner8 a écrit :
Je gagne 2500 / mois en ayant posé des sons sur Spotify et en achetant des streams dessus :)

Et y'a des mecs ils sont en stress pour leur entretien pour un job à 1K8 :)

Des fois j'me dis y'en a ils ont la débrouille y'en a ils l'ont pas :hap:
Gg l'auteur

Ayaa ton astuce est énorme, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

Le 12 février 2021 à 14:59:26 ivafre a écrit :
gg bientot exit le salariat :)

tu vois où les projets dispos sur le site ?

Je cherche des articles random dans un secteur qui m'intéresse, je tri par la date la plus récente et j'en lis 2 ou 3 par jour si c'est intéressant. Après je regarde si un truc similaire existe sur internet, sinon j'évalue l'effort par rapport aux potentiels revenus et je me lance, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

Le 12 février 2021 à 15:04:15 RMSProp a écrit :

[15:02:05] <bartamodo13>

Le 12 février 2021 à 15:00:28 TYT9000 a écrit :

Le 12 février 2021 à 14:55:29 bartamodo13 a écrit :
on y crois tous :rire: pour être dans le domaine ca marche pas comme ça :)
je vois pas pourquoi ils auraient pas pu le mettre en prose, puis entre faire tourner un projet sur amazone et le rendre utilisable et robuste en SaaS, pas pour rien qu'on a du dérivé des le MLOps du dev juste pour ce domaine.
Surement le truc le plus dure à maintenir

Ok Pucelin, entre la R&D et l'application métier y'a un énorme gouffre en fait ahi, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

Le but de la recherche était d'étudier un comportement particulier dans le ciblage publicitaire, et à la fin ils ont dressé un tableau avec des stats etc. Donc parfaitement exploitable dans un but de compréhension du secteur d'activité.
C'est pas parce que les chercheurs ont bac +12 en stats qu'ils savent monter un business pour répondre au besoin d'un clienthttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.png

Et je suppose qu'ils ont leak tout le code source et les data :)

Étant chercheur avec plusieurs papier dans diverses conf de ML je peux te dire que donner le code source et le dataset c'est la norme aujourd'hui
Arxiv inclus même les codes sources depuis peu

Exacte, beaucoup donne la source, c'est du contributif, sauf qu'un chercheur et un business-man c'est pas pareil, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

Le 12 février 2021 à 15:02:05 bartamodo13 a écrit :

Le 12 février 2021 à 15:00:28 TYT9000 a écrit :

Le 12 février 2021 à 14:55:29 bartamodo13 a écrit :
on y crois tous :rire: pour être dans le domaine ca marche pas comme ça :)
je vois pas pourquoi ils auraient pas pu le mettre en prose, puis entre faire tourner un projet sur amazone et le rendre utilisable et robuste en SaaS, pas pour rien qu'on a du dérivé des le MLOps du dev juste pour ce domaine.
Surement le truc le plus dure à maintenir

Ok Pucelin, entre la R&D et l'application métier y'a un énorme gouffre en fait ahi, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

Le but de la recherche était d'étudier un comportement particulier dans le ciblage publicitaire, et à la fin ils ont dressé un tableau avec des stats etc. Donc parfaitement exploitable dans un but de compréhension du secteur d'activité.
C'est pas parce que les chercheurs ont bac +12 en stats qu'ils savent monter un business pour répondre au besoin d'un clienthttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.png

Et je suppose qu'ils ont leak tout le code source et les data :)

Ils ont un repo public sur git avec un échantillon de données mais TOUT LE PROCESS pour construire un dataset x300 fois plus riche était écrit noir sur blanc, plus qu'à moi même l'exploiter, rien de compliquer je connais déjà la liste des features à extraire , en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

Le code source est pas dispo, de toute façon je m'en fiche j'en ai pas besoinhttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.png

Le 12 février 2021 à 14:55:29 bartamodo13 a écrit :
on y crois tous :rire: pour être dans le domaine ca marche pas comme ça :)
je vois pas pourquoi ils auraient pas pu le mettre en prose, puis entre faire tourner un projet sur amazone et le rendre utilisable et robuste en SaaS, pas pour rien qu'on a du dérivé des le MLOps du dev juste pour ce domaine.
Surement le truc le plus dure à maintenir

Ok Pucelin, entre la R&D et l'application métier y'a un énorme gouffre en fait ahi, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

Le but de la recherche était d'étudier un comportement particulier dans le ciblage publicitaire, et à la fin ils ont dressé un tableau avec des stats etc. Donc parfaitement exploitable dans un but de compréhension du secteur d'activité.
C'est pas parce que les chercheurs ont bac +12 en stats qu'ils savent monter un business pour répondre au besoin d'un clienthttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.png

Le 12 février 2021 à 14:51:35 Shinogekai a écrit :

Le 12 février 2021 à 14:49:25 TYT9000 a écrit :

Le 12 février 2021 à 14:47:45 Shinogekai a écrit :
Y a que des demandes pour l’IA sur ton site ? J’en ai marre que l’info ne me rapporte aucun blé hormis faire l’esclave ESN...

Mon site c'est juste une champ à renseigner et mon IA effectue une analyse avant de renvoyer des résulats c'est tout, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

Non mais ce que je voulais dire c’est que je suis dev web/soft mais j’ai aucune notion en IA

Ca s'apprend vite, je viens d'un cursus Web/Mobile avec un peu de maths, et pourtant j'ai appris à faire une mini voiture autonome avec une Jetson AGX Xavier en 4 mois à peine (ça inclut apprendre l'imagerie, la vidéo, la classification, la détection, la spatialisation, LIDAR, RADAR etc.) tout est possible, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

Le 12 février 2021 à 14:47:45 Shinogekai a écrit :
Y a que des demandes pour l’IA sur ton site ? J’en ai marre que l’info ne me rapporte aucun blé hormis faire l’esclave ESN...

Mon site c'est juste une champ à renseigner et mon IA effectue une analyse avant de renvoyer des résulats c'est tout, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

Le 12 février 2021 à 14:46:38 croupesevere a écrit :
t'es un génie khey :bave:

hésite pas à balancer tes bons plans ici :bave:

Merci kheys, je continue d'explorer les nouveaux documents R&D mis en ligne et je partagerai, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

Le 12 février 2021 à 14:46:00 CriCriRoy a écrit :
Très bien, très bien, mais sinon elle sert à quoi ton IA ?https://image.noelshack.com/fichiers/2017/18/1494048058-pppppppppppppppppppp.png

Je peux pas le dire, c'est un sujet de niche, mais ça concerne le monde de la pub , en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

Le 12 février 2021 à 14:39:55 Sidacide a écrit :
Mais tu dois payer des droits d'auteurs ?

Personne ne sait comment je résous le problème ayaaa, je réponds juste à un besoin je n'indique jamais comment je le fais, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's