Comment utiliser l'IA pour BL auto des forumeurs?

2021-02-12 17:11:04

Certains casse couille, ont toujours les mêmes avatars, mêmes variations de pseudos, et mêmes topics etchttps://image.noelshack.com/fichiers/2017/21/1495923662-ghjjjj.png

Je pense qu'il est possible de faire en sorte qu'un script détecte le type de forumeur qu'on veut et qui le BL automatiquement pour purger le forumhttps://image.noelshack.com/fichiers/2017/22/1496169619-sdfff.png

Mais par contre je sais pas par quoi commencer, je n'ai aucune connaissance en IAhttps://image.noelshack.com/fichiers/2017/22/1496407702-hata-no-kokoro-drink.png

TYT9000

2021-02-12 17:13:54

Facile, tu prends un dataset d'analyse de sentiments

Tu prends aussi environ 2000 posts à blacklister et 2000 posts OK

Puis tu pré-entraine ton IA sur le dataset 1 et tu le fine-tune sur le dataset 2

à la fin tu auras de quoi distinguer les posts à blacklister des posts OK

puis avec un script qui parcours automatiquement les topics, tu analyse chaque message et ton IA va le classifier et en fonction du résultat tu dis à ton script de blacklister ou non le forumeur

TYT9000

2021-02-12 17:14:40

Le plus long c'est de réunir les jeux de données, je pourrais le faire mais j'ai vraiment la flemme, sauf si des kheys veulent bien participer à la classification manuelle de 4000 posts, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

KJQuiche

2021-02-12 17:15:24

Le 12 février 2021 à 17:13:54 TYT9000 a écrit :
Facile, tu prends un dataset d'analyse de sentiments
Tu prends aussi environ 2000 posts à blacklister et 2000 posts OK
Puis tu pré-entraine ton IA sur le dataset 1 et tu le fine-tune sur le dataset 2
à la fin tu auras de quoi distinguer les posts à blacklister des posts OK
puis avec un script qui parcours automatiquement les topics, tu analyse chaque message et ton IA va le classifier et en fonction du résultat tu dis à ton script de blacklister ou non le forumeur

Ok la théorie, mais je fais ça avec quoi? C'est quoi le langage le plus adapté ?

KJQuiche

2021-02-12 17:16:12

Le 12 février 2021 à 17:14:40 TYT9000 a écrit :
Le plus long c'est de réunir les jeux de données, je pourrais le faire mais j'ai vraiment la flemme, sauf si des kheys veulent bien participer à la classification manuelle de 4000 posts, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

Même 1000 ou moins ça suffirait je pense, ils sont tellement bouclés que c'est facile à reconnaitre

TYT9000

2021-02-12 17:18:46

Le 12 février 2021 à 17:15:24 KJQuiche a écrit :
Le 12 février 2021 à 17:13:54 TYT9000 a écrit :
Facile, tu prends un dataset d'analyse de sentiments
Tu prends aussi environ 2000 posts à blacklister et 2000 posts OK
Puis tu pré-entraine ton IA sur le dataset 1 et tu le fine-tune sur le dataset 2
à la fin tu auras de quoi distinguer les posts à blacklister des posts OK
puis avec un script qui parcours automatiquement les topics, tu analyse chaque message et ton IA va le classifier et en fonction du résultat tu dis à ton script de blacklister ou non le forumeur
Ok la théorie, mais je fais ça avec quoi? C'est quoi le langage le plus adapté ?

Utilise Python, installe Keras, Matplolib, Numpy, Pandas, ça va te permettre de faire de l'EDA pour analyser les features intéressante (celles qui ont la plus forte correlation avec le résultat de sortie), Keras va te permettre de créer un neural network de type NLP (je pense que tu peux utiliser des archi comme Bert) puis une fois le model entrainé, tu auras un fichier, que tu vas upload sur AWS ou GCP par exemple et qui va te servir d'API pour ton application JS. Ensuite en Python tu développe un crawler (des libs existent) pour scanner les topics et récupérer les posts, tu fournis ça à ton script JS côté navigateur et il va automatiquement blackliser les gens, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

TYT9000

2021-02-12 17:19:48

Le 12 février 2021 à 17:16:12 KJQuiche a écrit :
Le 12 février 2021 à 17:14:40 TYT9000 a écrit :
Le plus long c'est de réunir les jeux de données, je pourrais le faire mais j'ai vraiment la flemme, sauf si des kheys veulent bien participer à la classification manuelle de 4000 posts, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's
Même 1000 ou moins ça suffirait je pense, ils sont tellement bouclés que c'est facile à reconnaitre

Tu peux le faire qu'avec des neural networks et leur particularité c'est de fonctionner sur un gros volume de données, flemme de rentrer dans les détails mais tu as des techniques pour travailler avec des petits datasets, mais là faut faire de la feature extraction et du fine-tuning mais c'est un autre level, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

Azerban

2021-02-12 17:20:07

Le 12 février 2021 à 17:13:54 TYT9000 a écrit :
Facile, tu prends un dataset d'analyse de sentiments
Tu prends aussi environ 2000 posts à blacklister et 2000 posts OK
Puis tu pré-entraine ton IA sur le dataset 1 et tu le fine-tune sur le dataset 2
à la fin tu auras de quoi distinguer les posts à blacklister des posts OK
puis avec un script qui parcours automatiquement les topics, tu analyse chaque message et ton IA va le classifier et en fonction du résultat tu dis à ton script de blacklister ou non le forumeur

Il faut éviter d'avoir un dataset aussi équilibré sinon ça se réfletera dans la manière dont ton programme blacklist ou non les posts.

Si dans ton dataset tu as 50% de posts "blacklist", ton programme va blacklister 50% des posts postés sur JVC. Il faut un jeu de données représentatif du forum du genre 90-10.

Télécharger des données c'est assez facile, j'ai un programme en Python qui télécharge de manière asynchrone tous les posts de tous les topics. En revanche annoter les posts c'est pénible.

KJQuiche

2021-02-12 17:20:59

Le 12 février 2021 à 17:18:46 TYT9000 a écrit :
Le 12 février 2021 à 17:15:24 KJQuiche a écrit :
Le 12 février 2021 à 17:13:54 TYT9000 a écrit :
Facile, tu prends un dataset d'analyse de sentiments
Tu prends aussi environ 2000 posts à blacklister et 2000 posts OK
Puis tu pré-entraine ton IA sur le dataset 1 et tu le fine-tune sur le dataset 2
à la fin tu auras de quoi distinguer les posts à blacklister des posts OK
puis avec un script qui parcours automatiquement les topics, tu analyse chaque message et ton IA va le classifier et en fonction du résultat tu dis à ton script de blacklister ou non le forumeur
Ok la théorie, mais je fais ça avec quoi? C'est quoi le langage le plus adapté ?
Utilise Python, installe Keras, Matplolib, Numpy, Pandas, ça va te permettre de faire de l'EDA pour analyser les features intéressante (celles qui ont la plus forte correlation avec le résultat de sortie), Keras va te permettre de créer un neural network de type NLP (je pense que tu peux utiliser des archi comme Bert) puis une fois le model entrainé, tu auras un fichier, que tu vas upload sur AWS ou GCP par exemple et qui va te servir d'API pour ton application JS. Ensuite en Python tu développe un crawler (des libs existent) pour scanner les topics et récupérer les posts, tu fournis ça à ton script JS côté navigateur et il va automatiquement blackliser les gens, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

Je maitrise/connais aucun de ses trucs ça va être la catahttps://image.noelshack.com/fichiers/2019/52/2/1577183045-gngngngn.png

TYT9000

2021-02-12 17:21:11

Le 12 février 2021 à 17:20:07 Azerban a écrit :
Le 12 février 2021 à 17:13:54 TYT9000 a écrit :
Facile, tu prends un dataset d'analyse de sentiments
Tu prends aussi environ 2000 posts à blacklister et 2000 posts OK
Puis tu pré-entraine ton IA sur le dataset 1 et tu le fine-tune sur le dataset 2
à la fin tu auras de quoi distinguer les posts à blacklister des posts OK
puis avec un script qui parcours automatiquement les topics, tu analyse chaque message et ton IA va le classifier et en fonction du résultat tu dis à ton script de blacklister ou non le forumeur
Il faut éviter d'avoir un dataset aussi équilibré sinon ça se réfletera dans la manière dont ton programme blacklist ou non les posts.
Si dans ton dataset tu as 50% de posts "blacklist", ton programme va blacklister 50% des posts postés sur JVC. Il faut un jeu de données représentatif du forum du genre 90-10.
Télécharger des données c'est assez facile, j'ai un programme en Python qui télécharge de manière asynchrone tous les posts de tous les topics. En revanche annoter les posts c'est pénible.

Oui faut faire du 90-10 t'as bien raison, je fais pas trop de NLP, je suis plus sur de la Computer Vision donc j'ai pas trop ce soucis ahi, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

TYT9000

2021-02-12 17:22:06

Le 12 février 2021 à 17:20:59 KJQuiche a écrit :
Le 12 février 2021 à 17:18:46 TYT9000 a écrit :
Le 12 février 2021 à 17:15:24 KJQuiche a écrit :
Le 12 février 2021 à 17:13:54 TYT9000 a écrit :
Facile, tu prends un dataset d'analyse de sentiments
Tu prends aussi environ 2000 posts à blacklister et 2000 posts OK
Puis tu pré-entraine ton IA sur le dataset 1 et tu le fine-tune sur le dataset 2
à la fin tu auras de quoi distinguer les posts à blacklister des posts OK
puis avec un script qui parcours automatiquement les topics, tu analyse chaque message et ton IA va le classifier et en fonction du résultat tu dis à ton script de blacklister ou non le forumeur
Ok la théorie, mais je fais ça avec quoi? C'est quoi le langage le plus adapté ?
Utilise Python, installe Keras, Matplolib, Numpy, Pandas, ça va te permettre de faire de l'EDA pour analyser les features intéressante (celles qui ont la plus forte correlation avec le résultat de sortie), Keras va te permettre de créer un neural network de type NLP (je pense que tu peux utiliser des archi comme Bert) puis une fois le model entrainé, tu auras un fichier, que tu vas upload sur AWS ou GCP par exemple et qui va te servir d'API pour ton application JS. Ensuite en Python tu développe un crawler (des libs existent) pour scanner les topics et récupérer les posts, tu fournis ça à ton script JS côté navigateur et il va automatiquement blackliser les gens, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's
Je maitrise/connais aucun de ses trucs ça va être la catahttps://image.noelshack.com/fichiers/2019/52/2/1577183045-gngngngn.png

C'est pourtant simple ahi, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

KJQuiche

2021-02-12 17:22:31

Le 12 février 2021 à 17:22:06 TYT9000 a écrit :
Le 12 février 2021 à 17:20:59 KJQuiche a écrit :
Le 12 février 2021 à 17:18:46 TYT9000 a écrit :
Le 12 février 2021 à 17:15:24 KJQuiche a écrit :
Le 12 février 2021 à 17:13:54 TYT9000 a écrit :
Facile, tu prends un dataset d'analyse de sentiments
Tu prends aussi environ 2000 posts à blacklister et 2000 posts OK
Puis tu pré-entraine ton IA sur le dataset 1 et tu le fine-tune sur le dataset 2
à la fin tu auras de quoi distinguer les posts à blacklister des posts OK
puis avec un script qui parcours automatiquement les topics, tu analyse chaque message et ton IA va le classifier et en fonction du résultat tu dis à ton script de blacklister ou non le forumeur
Ok la théorie, mais je fais ça avec quoi? C'est quoi le langage le plus adapté ?
Utilise Python, installe Keras, Matplolib, Numpy, Pandas, ça va te permettre de faire de l'EDA pour analyser les features intéressante (celles qui ont la plus forte correlation avec le résultat de sortie), Keras va te permettre de créer un neural network de type NLP (je pense que tu peux utiliser des archi comme Bert) puis une fois le model entrainé, tu auras un fichier, que tu vas upload sur AWS ou GCP par exemple et qui va te servir d'API pour ton application JS. Ensuite en Python tu développe un crawler (des libs existent) pour scanner les topics et récupérer les posts, tu fournis ça à ton script JS côté navigateur et il va automatiquement blackliser les gens, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's
Je maitrise/connais aucun de ses trucs ça va être la catahttps://image.noelshack.com/fichiers/2019/52/2/1577183045-gngngngn.png
C'est pourtant simple ahi, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

C'est facile quand on sait fairehttps://image.noelshack.com/fichiers/2017/21/1495923662-ghjjjj.png

TYT9000

2021-02-12 17:22:56

Le 12 février 2021 à 17:22:31 KJQuiche a écrit :
Le 12 février 2021 à 17:22:06 TYT9000 a écrit :
Le 12 février 2021 à 17:20:59 KJQuiche a écrit :
Le 12 février 2021 à 17:18:46 TYT9000 a écrit :
Le 12 février 2021 à 17:15:24 KJQuiche a écrit :
Le 12 février 2021 à 17:13:54 TYT9000 a écrit :
Facile, tu prends un dataset d'analyse de sentiments
Tu prends aussi environ 2000 posts à blacklister et 2000 posts OK
Puis tu pré-entraine ton IA sur le dataset 1 et tu le fine-tune sur le dataset 2
à la fin tu auras de quoi distinguer les posts à blacklister des posts OK
puis avec un script qui parcours automatiquement les topics, tu analyse chaque message et ton IA va le classifier et en fonction du résultat tu dis à ton script de blacklister ou non le forumeur
Ok la théorie, mais je fais ça avec quoi? C'est quoi le langage le plus adapté ?
Utilise Python, installe Keras, Matplolib, Numpy, Pandas, ça va te permettre de faire de l'EDA pour analyser les features intéressante (celles qui ont la plus forte correlation avec le résultat de sortie), Keras va te permettre de créer un neural network de type NLP (je pense que tu peux utiliser des archi comme Bert) puis une fois le model entrainé, tu auras un fichier, que tu vas upload sur AWS ou GCP par exemple et qui va te servir d'API pour ton application JS. Ensuite en Python tu développe un crawler (des libs existent) pour scanner les topics et récupérer les posts, tu fournis ça à ton script JS côté navigateur et il va automatiquement blackliser les gens, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's
Je maitrise/connais aucun de ses trucs ça va être la catahttps://image.noelshack.com/fichiers/2019/52/2/1577183045-gngngngn.png
C'est pourtant simple ahi, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's
C'est facile quand on sait fairehttps://image.noelshack.com/fichiers/2017/21/1495923662-ghjjjj.png

500 euros et je te le fais, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

Da-Vosk-Docta2

2021-02-12 17:23:35

Le 12 février 2021 à 17:13:54 TYT9000 a écrit :
Facile, tu prends un dataset d'analyse de sentiments
Tu prends aussi environ 2000 posts à blacklister et 2000 posts OK
Puis tu pré-entraine ton IA sur le dataset 1 et tu le fine-tune sur le dataset 2
à la fin tu auras de quoi distinguer les posts à blacklister des posts OK
puis avec un script qui parcours automatiquement les topics, tu analyse chaque message et ton IA va le classifier et en fonction du résultat tu dis à ton script de blacklister ou non le forumeur

En français ça donne quoi ?

KJQuiche

2021-02-12 17:24:21

Le 12 février 2021 à 17:22:56 TYT9000 a écrit :
Le 12 février 2021 à 17:22:31 KJQuiche a écrit :
Le 12 février 2021 à 17:22:06 TYT9000 a écrit :
Le 12 février 2021 à 17:20:59 KJQuiche a écrit :
Le 12 février 2021 à 17:18:46 TYT9000 a écrit :
Le 12 février 2021 à 17:15:24 KJQuiche a écrit :
Le 12 février 2021 à 17:13:54 TYT9000 a écrit :
Facile, tu prends un dataset d'analyse de sentiments
Tu prends aussi environ 2000 posts à blacklister et 2000 posts OK
Puis tu pré-entraine ton IA sur le dataset 1 et tu le fine-tune sur le dataset 2
à la fin tu auras de quoi distinguer les posts à blacklister des posts OK
puis avec un script qui parcours automatiquement les topics, tu analyse chaque message et ton IA va le classifier et en fonction du résultat tu dis à ton script de blacklister ou non le forumeur
Ok la théorie, mais je fais ça avec quoi? C'est quoi le langage le plus adapté ?
Utilise Python, installe Keras, Matplolib, Numpy, Pandas, ça va te permettre de faire de l'EDA pour analyser les features intéressante (celles qui ont la plus forte correlation avec le résultat de sortie), Keras va te permettre de créer un neural network de type NLP (je pense que tu peux utiliser des archi comme Bert) puis une fois le model entrainé, tu auras un fichier, que tu vas upload sur AWS ou GCP par exemple et qui va te servir d'API pour ton application JS. Ensuite en Python tu développe un crawler (des libs existent) pour scanner les topics et récupérer les posts, tu fournis ça à ton script JS côté navigateur et il va automatiquement blackliser les gens, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's
Je maitrise/connais aucun de ses trucs ça va être la catahttps://image.noelshack.com/fichiers/2019/52/2/1577183045-gngngngn.png
C'est pourtant simple ahi, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's
C'est facile quand on sait fairehttps://image.noelshack.com/fichiers/2017/21/1495923662-ghjjjj.png
500 euros et je te le fais, en dépit dehttps://image.noelshack.com/fichiers/2017/50/3/1513156140-cykazoom4.pngent's

Ah ça tombe bien j'avais justement 500 euros à dépenserhttps://image.noelshack.com/fichiers/2018/13/4/1522325846-jesusopti.png

8FitTrainer

2021-02-12 17:25:12

C'est la meilleur idée pour se retrouver tout seul sur le foromhttps://image.noelshack.com/fichiers/2017/09/1488667049-t.jpg

ProcaineJPP

2021-02-12 17:25:23

Fais nous signe quand tu trouves, si il y a moyen dissimuler automatiquement le malaise que provoque naturellement les KJ je dis pas nonhttps://image.noelshack.com/fichiers/2020/31/2/1595888354-ronaldin-chinois.jpgᴇᴎᴛ

KJQuiche

2021-02-12 17:26:10

Le 12 février 2021 à 17:25:12 8FitTrainer a écrit :
C'est la meilleur idée pur se retrouver tout seul sur le foromhttps://image.noelshack.com/fichiers/2017/09/1488667049-t.jpg

Tous les jours depuis des années ya toujours les mêmes cons qui font les mêmes topics, à un moment ça saoulehttps://image.noelshack.com/fichiers/2019/52/2/1577183045-gngngngn.png

8FitTrainer

2021-02-12 17:26:42

Le 12 février 2021 à 17:26:10 KJQuiche a écrit :
Le 12 février 2021 à 17:25:12 8FitTrainer a écrit :
C'est la meilleur idée pur se retrouver tout seul sur le foromhttps://image.noelshack.com/fichiers/2017/09/1488667049-t.jpg
Tous les jours depuis des années ya toujours les mêmes cons qui font les mêmes topics, à un moment ça saoulehttps://image.noelshack.com/fichiers/2019/52/2/1577183045-gngngngn.png

Le forom tu l'aimes ou tu le quitteshttps://image.noelshack.com/fichiers/2017/09/1488667049-t.jpg

KJQuiche

2021-02-12 17:26:59

Le 12 février 2021 à 17:25:23 ProcaineJPP a écrit :
Fais nous signe quand tu trouves, si il y a moyen dissimuler automatiquement le malaise que provoque naturellement les KJ je dis pas nonhttps://image.noelshack.com/fichiers/2020/31/2/1595888354-ronaldin-chinois.jpgᴇᴎᴛ

ça doit être encore plus facile à faire ça, t'as juste à lister les stickers kj et si les gens les utilisent tu BLhttps://image.noelshack.com/fichiers/2017/22/1496473523-syoko9.gif