INTRODUCTION :
Fréquentant les forums depuis 2009, d'abord le 15-18 puis le 18-25, j'ai constaté une augmentation exponentielle d'un phénomène connu de tous : LA BOUCLE
C'est à en devenir complètement zinzin tant les sujets intéressants/drôles sont noyés sous une masse de topics se ressemblant tous, parfois avec les mêmes titres et/ou messages
J'ai donc décidé "d'analyser" cette boucle de l'enfer, et plusieurs options s'offraient à moi
1. Le faire manuellement, en recopiant les termes récurrents : impossible à faire tant les topics bougent vite et ce serait beaucoup trop long.
Bref un bordel.
2. Le scraping via des extensions de navigateur : rien de vraiment bien en gratuit, c'est lent et on est vite limité
En quoi ça consiste : Le web scraping (parfois appelé harvesting) est une techaime d'extraction du contenu de sites Web, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte, par exemple le référencement. (wikipédia)
En l'occurrence le contexte ici c'est d'analyser cette boucle du démon ahi.
J'avais donc besoin d'un outil me permettant d'aspirer énormément de pages assez rapidement.
En plus le soucis avec les extensions, c'est que toutes les requêtes provenaient de mon ip et webedia n"est pas hyper fan quand on commence à s'amuser à refresh 500 fois d'affilés rapidement. (On peut retrouver le même soucis avec JVCHAT quand on active le mode turbo)
3. Programmer mon propre outil en python par exemple, sauf que je suis éclaté de ce côté là.
Je me suis donc calé une distrib linux dans une machine virtuelle, et j'ai téléchargé un outil tout fait sur github que j'ai compilé sur la machine
L'ACTION
Là où c'est intéressant c'est que l'outil dispose d'un GUI (d'une interface graphique) donc pour un mec pas très chaud comme moi c'est quand même beaucoup plus simple pour s'y retrouver et expliquer à l'outil ce que je veux extraire comme type de données.
Donc après quelques galères j'ai mon script qui fonctionne : ça charge le forum, ça aspire les titres de topics, ça clique sur "page suivante" et ça aspire les 25 topics suivants...
Et ça sur 200 pages à chaque fois.
Et le truc cool ? Tout s'effectue sur les serveurs de l'entreprise qui met à disposition l'outil. Donc 0 requêtes en provenance de chez moi.
Bon et pourquoi seulement 200 pages ? C'est la limite avec le free plan, c'est un soft destiné à des grosses entreprises normalement.
Donc j'ai aspiré l'équivalent de 2000 pages à des moments différents sur 7 jours. (50 000 topics en tout)
Autres problème : chaque "rendu" de 200 pages se trouve dans un fichier .csv différent. Moi j'aimerais que mes 50K topics se retrouvent dans le même ficher pour que je puisse travailler avec. Après 2-3 recherches google je trouve une commande me permettant d'assembler tout ce bordel en 5s dans le terminal. (vive linux)
Me voilà maintenant avec mes 50 000 topics dans un beau fichier, mais je me rend vite compte qu'il y a des doublons, genre beaucoup ahi.
Comme on est super actif sur le forum les topics descendent et montent parfois très vite entre les pages,
Exemple :
J'aspire le topic "1" sur la page principale, mais quand l'outil arrive à la page 2 pour récolter les titres, le topic "1" est déjà redescendu aussi donc je le choppe 2 fois.
Quelques recherches Google et je trouve comment dégager tout les doublons super vite.
Je me retrouve avec 15 000 topics UaimeS. (600 pages de topics)
En avant pour la partie finale :
Trouver le moyen d'analyser une suite de phrases et faire ressortir les mots ou suites de mots les plus récurrents.
Super simple avec un ou deux outils.
J'ai compilé les résultats les plus intéressants ci dessous.
WELCOME TO LA BOUCLE
Les suites de 5 mots consécutifs les plus présents (En ordre décroissant)
Les suites de 4 mots (En ordre décroissant)
Les suites de 3 mots (En ordre décroissant)
Les suites de 2 mots (En ordre décroissant)
Et le plus drôle pour la fin les kheys, les mots en solo aya
Le parfait champ lexical du khey BOUCLED.
Je vous ai mis la fréquence d'apparition à côté de chaque mot.
D'ailleurs certains mots sont aux même niveau de fréquence, et ça donne parfois quelques coïncidences assez drôles
CONCLUSION :
Une boucle est bien présente.
Entre Tinder, les meufs, macron, le covid, le pass sanitaire, Twitter, les vaccins il y a clairement une tendance qui se dessine.
Et je pense qu'on pourrait limite programmer une IA pour poster des titres de topics random à partir des données que j'ai récolté, et ce serait feed par certains kheys sans aucun problèmes.
Après il faudrait un volume de données beaucoup plus important, plus analyser la syntaxe etc et j'ai zéro base là dedans.
Les jeans info je sais que j'aurais sûrement pu faire mieux et/ou plus simple mais j'ai essayé de trouver une solution avec mes maigres connaissances.
Je vous invite donc à m'expliquer comment j'aurais pu mieux me débrouiller
Merci de m'avoir lu les kheys et tous ensemble essayons de lutter contre la boucle à notre niveau.
Normalement rien n'est hors chartre j'ai même censuré certains mots.
je ddb pour message innoportun flemme de lire ton pavé
post dans le doute
La syntaxe classique c’est phrases simples + sticker avec un lien vers une sourcent
Le 09 août 2021 à 18:14:39 :
La syntaxe classique c’est phrases simples + sticker avec un lien vers une sourcenthttps://image.noelshack.com/fichiers/2021/32/1/1628525677-efe6b858-2e26-4eee-8ed9-08403e92a711.jpeg
C'est vrai que c'est un bon début khey
Cette bouclent me rend ZINZIN
très intéressant comme travail kheyou, avoir le temps de faire ça et de le partager avec les kheys, tu dois vraiment être passionnant et ennuyant à la fois
Les traps et les KJ sont dans la même fréquence. Ils sont donc désormais totalement assimilé l'un à l'autre
Le 09 août 2021 à 18:17:03 Pomer00 a écrit :
Les traps et les KJ sont dans la même fréquence. Ils sont donc désormais totalement assimilé l'un à l'autrehttps://image.noelshack.com/fichiers/2017/32/3/1502273765-illya7.png
parceque c'etait pas déjà le cas