J'ai ANALYSÉ la BOUCLE du FORUM

2021-08-09 18:11:35

INTRODUCTION :

Fréquentant les forums depuis 2009, d'abord le 15-18 puis le 18-25, j'ai constaté une augmentation exponentielle d'un phénomène connu de tous : LA BOUCLEhttps://image.noelshack.com/fichiers/2020/08/6/1582385461-boucle-temporelle-jesus.jpg

C'est à en devenir complètement zinzin tant les sujets intéressants/drôles sont noyés sous une masse de topics se ressemblant tous, parfois avec les mêmes titres et/ou messageshttps://image.noelshack.com/fichiers/2020/26/4/1593119261-risiboucle.jpg

J'ai donc décidé "d'analyser" cette boucle de l'enfer, et plusieurs options s'offraient à moi

1. Le faire manuellement, en recopiant les termes récurrents : impossible à faire tant les topics bougent vite et ce serait beaucoup trop long.
Bref un bordel.https://image.noelshack.com/fichiers/2016/39/1474977832-sadchanclaloop.gif

2. Le scraping via des extensions de navigateur : rien de vraiment bien en gratuit, c'est lent et on est vite limité
En quoi ça consiste : Le web scraping (parfois appelé harvesting) est une techaime d'extraction du contenu de sites Web, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte, par exemple le référencement. (wikipédia)
En l'occurrence le contexte ici c'est d'analyser cette boucle du démon ahi.
J'avais donc besoin d'un outil me permettant d'aspirer énormément de pages assez rapidement.
En plus le soucis avec les extensions, c'est que toutes les requêtes provenaient de mon ip et webedia n"est pas hyper fan quand on commence à s'amuser à refresh 500 fois d'affilés rapidement. (On peut retrouver le même soucis avec JVCHAT quand on active le mode turbo)https://image.noelshack.com/fichiers/2017/02/1484266573-1480464805-1474567129-1471909771-risitasvictime.png

3. Programmer mon propre outil en python par exemple, sauf que je suis éclaté de ce côté là.https://image.noelshack.com/fichiers/2017/45/3/1510175551-502-2.png
Je me suis donc calé une distrib linux dans une machine virtuelle, et j'ai téléchargé un outil tout fait sur github que j'ai compilé sur la machinehttps://image.noelshack.com/fichiers/2017/04/1485268586-hackeur-v1.png
Je vois déjà les kheys vraiment calés en info rigoler d'icihttps://image.noelshack.com/fichiers/2021/09/2/1614646545-lacoste-airpods-ent.png

L'ACTION

Là où c'est intéressant c'est que l'outil dispose d'un GUI (d'une interface graphique) donc pour un mec pas très chaud comme moi c'est quand même beaucoup plus simple pour s'y retrouver et expliquer à l'outil ce que je veux extraire comme type de données.
Donc après quelques galères j'ai mon script qui fonctionne : ça charge le forum, ça aspire les titres de topics, ça clique sur "page suivante" et ça aspire les 25 topics suivants...
Et ça sur 200 pages à chaque fois.
Et le truc cool ? Tout s'effectue sur les serveurs de l'entreprise qui met à disposition l'outil. Donc 0 requêtes en provenance de chez moi.
Bon et pourquoi seulement 200 pages ? C'est la limite avec le free plan, c'est un soft destiné à des grosses entreprises normalement.
Donc j'ai aspiré l'équivalent de 2000 pages à des moments différents sur 7 jours. (50 000 topics en tout)https://image.noelshack.com/fichiers/2018/28/1/1531097973-unknown2.png
Autres problème : chaque "rendu" de 200 pages se trouve dans un fichier .csv différent. Moi j'aimerais que mes 50K topics se retrouvent dans le même ficher pour que je puisse travailler avec. Après 2-3 recherches google je trouve une commande me permettant d'assembler tout ce bordel en 5s dans le terminal. (vive linux)

Me voilà maintenant avec mes 50 000 topics dans un beau fichier, mais je me rend vite compte qu'il y a des doublons, genre beaucoup ahi.https://image.noelshack.com/fichiers/2020/26/3/1593016032-ahipla2.jpg
Comme on est super actif sur le forum les topics descendent et montent parfois très vite entre les pages,
Exemple :
J'aspire le topic "1" sur la page principale, mais quand l'outil arrive à la page 2 pour récolter les titres, le topic "1" est déjà redescendu aussi donc je le choppe 2 fois.
Quelques recherches Google et je trouve comment dégager tout les doublons super vite.
Je me retrouve avec 15 000 topics UaimeS. (600 pages de topics)https://image.noelshack.com/fichiers/2017/30/4/1501187858-risitassebestreup.png

En avant pour la partie finale :

Trouver le moyen d'analyser une suite de phrases et faire ressortir les mots ou suites de mots les plus récurrents.
Super simple avec un ou deux outils.
J'ai compilé les résultats les plus intéressants ci dessous.

WELCOME TO LA BOUCLE
https://image.noelshack.com/fichiers/2020/33/2/1597150843-topiccertifie.png

Les suites de 5 mots consécutifs les plus présents (En ordre décroissant)

votre excuse pour ne pas
je suis le seul à
je vais me faire vacciner
je suis en train de
ton excuse pour ne pas
je réponds à vos questions
ça y est je suis
vous pensez quoi de cette
sélection naturelle pour les golems
je suis un combien sur 10

Les suites de 4 mots (En ordre décroissant)

je me suis fait
le pass sanitaire est
contre le pass sanitaire
on est d'accord que
c'est de la bouse
qui se souvient de
vous lui faites quoi
on en parle de
pas de pass sanitaire
ici on liste les
des kheys qui ont
c'est quoi le délire
je vais me coucher
je suis une fille
le cul de ta
est une combien sur
vous en thinkez what

Les suites de 3 mots (En ordre décroissant)

je viens de
on en talk
le 18 25
sur le forum
tout le monde
dans la rue
combien de temps
en ce moment
le conseil constitutionnel
vous avez déjà
tout de suite
le vaccin est
les mecs qui
votre excuse pour
p*st ou c**cer
votre avis sur
la vidéo de
à la salle
vaut le coup
la france est
contre le covid
le droit de
les golems qui
pas de pass
les non vaccinés
j'ai une question
les anti vax
de la population
le délire qui
sur le vaccin
que le vaccin
le cul de
le covid 19
dose de vaccin
je fais l'appel
sur ce topic
la femme de
la vie d'avant
ici on liste
la première fois
pour les golems
les meufs qui
ce khey qui
en couple avec
les feets de
pas le droit
les femmes sont
la plus belle
ce soir je
à la fac
ma meuf est
dans le métro
dans la bouse
une meuf qui
dans 10 ans
bordel de bouse
sur le fofo
avec les filles
j'en peux plus
mort du covid
centre de vaccination
euros par mois

Les suites de 2 mots (En ordre décroissant)

je suis
pass sanitaire
le pass
le vaccin
le forum
le covid
les kheys
la france
en france
une meuf
les golems
18 25
le monde
une fille
les antivax
les femmes
les gens
faire vacciner
du covid
ma copine
sur 10
un mec
du vaccin
une femme
les meufs
ma meuf
la bouse
en 2021
les filles
du pass
les vaccinés
les vaccinés
à paris
ma génitrice
le cul
ce forum
ce khey
la vaccination
votre avis
la rue
conseil constitutionnel
des questions
venez ici

Et le plus drôle pour la fin les kheys, les mots en solo ayahttps://image.noelshack.com/fichiers/2021/11/1/1615833199-enormeculmanger.png
Le parfait champ lexical du khey BOUCLED.
Je vous ai mis la fréquence d'apparition à côté de chaque mot.
D'ailleurs certains mots sont aux même niveau de fréquence, et ça donne parfois quelques coïncidences assez drôles

ALERTE . 745
pass . 452
vaccin . 347
sanitaire . 310
france . 249
covid . 244
bordel . 233
photo . 224
forum . 216
meuf . 208
kheys . 202
vie . 186
antivax . 151
sondage . 148
macron . 139
fille . 137
tinder . 131
combien . 127
10 . 120
elle . 118
contre . 118
monde . 117
topic . 115
femme . 115
cul . 114
gens . 113
golem . 111
français . 109
paris . 105
été . 104
redpill . 104
video . 102
femmes . 100
copine . 99
vacciner . 97
10/10 . 97
mec . 95
dose . 93
messi . 92
mort . 91
film . 89
jeu . 86
help . 86
gros . 85
2021 . 82
passe . 77
anti . 76
vax . 74
seul . 73
pfizer . 72
avant . 70
avis . 65
délire . 64
filles . 63
vaccination . 62
jean . 60
jo . 59
ayaaa . 59
génitrice . 57
ayaaaa . 57
puceau . 53
grand . 51
père . 50
9/10 . 50
ba*ser . 50
pote . 49
🚨 . 49
petit . 49
post . 48
célestin . 48
youtube . 47
obligatoire . 47
twitter . 46
conseil . 46
talk . 45
philippot . 45
voiture . 45
fou . 45
code . 44
mal . 43
euros . 42
sport . 42
provax . 41
risitas . 41
aya . 41
parents . 41
hommes . 40
photos . 40
jvc . 40
pls . 40
rue . 40
bg . 39
grosse . 39
jeunes . 39
couple . 39
usa . 39
b*te . 39
partir . 38
travail . 38
2022 . 38
sexe . 38
toutes . 37
2020. 37
bfm . 37
rsa . 37
chine . 37
train . 37
caca . 36
belle . 36
cnews . 36
droit . 36
vaccins . 36
liste . 35
musuc . 35
c*ncer . 35
pieds . 35
psg . 35
ayaa . 34
peur . 34
famille . 34
excuse . 34
fils . 34
8/10 . 33
cuck . 33
zemmour . 33
variant . 33
ville . 32
corps . 32
doses . 32
ahi . 31
pcr . 32
vocaroo . 31
noire . 31
passé . 31
permis . 31
trap . 31
kj . 31
pseudo . 31
gay . 31
blackpill . 31
boucle . 30

note . 30
moche . 30
mp . 29
beau . 29
toast . 29
discord . 29
cheveux . 28
fac . 28
fake . 28
morts . 28
terre . 28
gouvernement . 28
vaccine . 28
jeune . 28
lit . 27
bave . 27
guerre . 27
française . 27
masque . 27
feet . 27
jouer . 26
dormir . 26
ex . 26
chinois . 26
virus . 26
sticker . 26
410 . 26
malaise . 26
nofake . 26
irl . 26
french . 26
enfants . 25
naturelle . 25
chat . 25
moches . 25
soirées . 24
preuve . 24
bmg . 24
rap . 24
manif . 24
seins . 24
soeur . 24
dream . 24
puceaux . 24
frère . 24
taille . 23
selection . 23
confinement . 23
millions . 23
escort . 23
gta . 22
doggo . 22
annonce . 22
japon . 22
kheyettes . 22
netflix . 22
tv . 21
salaire . 21
salle . 21
vizio . 21
potes . 21
nantes . 21
master . 21
prof . 21
club . 21
live . 21
google . 21
twitch . 21
rapport . 21
bac . 21
noir . 21
star . 20
magalie . 20
président . 20
yeux . 20
ayaaaaa . 20
prix . 20
grande . 20
maison . 20
l'amour . 20
perdu . 20
tiktok . 20
pouvoir . 19
tacos . 19
café . 19
uber . 19
effets . 19
grave . 19
dieu . 19
solution . 19
dangereux . 19
réanimation . 19
changer . 19
âge . 19
normal . 19
feu . 19
physique . 19
trump . 18
anglais . 18
marseille . 18
burger . 18
japonais . 18
lrem . 18
jdg . 18
qr . 17
médecin . 17
gauche . 17
afrique . 17
qlf . 17
blanc . 17
boomers . 17
patron . 16
police . 16
dictature . 16
boire . 16
rencontre . 16
russe . 16
centre . 16
calvitie . 16
bad . 16
ps5 . 16
manga . 16
bras . 15
santé . 15
p*rno . 15
liberté . 15
américain . 15
mcdo . 15
libre . 15
bar . 15
reddit . 15
nwo . 15
amazon . 15
manifestants . 15
modos . 15

CONCLUSION :

Une boucle est bien présente.
Entre Tinder, les meufs, macron, le covid, le pass sanitaire, Twitter, les vaccins il y a clairement une tendance qui se dessine.https://image.noelshack.com/fichiers/2019/45/4/1573154785-mais.png
Et je pense qu'on pourrait limite programmer une IA pour poster des titres de topics random à partir des données que j'ai récolté, et ce serait feed par certains kheys sans aucun problèmes.https://image.noelshack.com/fichiers/2021/15/3/1618407462-jesus-hack-altieri.png
Après il faudrait un volume de données beaucoup plus important, plus analyser la syntaxe etc et j'ai zéro base là dedans.
Les jeans info je sais que j'aurais sûrement pu faire mieux et/ou plus simple mais j'ai essayé de trouver une solution avec mes maigres connaissances.
Je vous invite donc à m'expliquer comment j'aurais pu mieux me débrouiller :hap:

Merci de m'avoir lu les kheys et tous ensemble essayons de lutter contre la boucle à notre niveau.https://image.noelshack.com/fichiers/2018/02/7/1515959876-check.png

Normalement rien n'est hors chartre j'ai même censuré certains mots.

bognadores

2021-08-09 18:12:07

je ddb pour message innoportun flemme de lire ton pavéhttps://image.noelshack.com/fichiers/2017/12/1490254840-16.png

enmei

2021-08-09 18:12:58

CONCLUSION :
Une boucle est bien présente.

cimer pour cette découverte

Homo-Erectionus

2021-08-09 18:13:34

post dans le doutehttps://image.noelshack.com/fichiers/2019/45/4/1573154785-mais.png

KaitoKid170

2021-08-09 18:14:39

La syntaxe classique c’est phrases simples + sticker avec un lien vers une sourcenthttps://image.noelshack.com/fichiers/2021/32/1/1628525677-efe6b858-2e26-4eee-8ed9-08403e92a711.jpeg

DataDog

2021-08-09 18:15:37

Le 09 août 2021 à 18:14:39 :
La syntaxe classique c’est phrases simples + sticker avec un lien vers une sourcenthttps://image.noelshack.com/fichiers/2021/32/1/1628525677-efe6b858-2e26-4eee-8ed9-08403e92a711.jpeg

C'est vrai que c'est un bon début kheyhttps://image.noelshack.com/fichiers/2017/30/4/1501187858-risitassebestreup.png

CrayZox

2021-08-09 18:15:48

La boucle ALGORITHMED.
Très bien ton topic kheyou

PetitTrapent

2021-08-09 18:16:56

Cette bouclent me rend ZINZINhttps://image.noelshack.com/fichiers/2020/21/3/1589995282-zinzinbouclekj.jpg

très intéressant comme travail kheyou, avoir le temps de faire ça et de le partager avec les kheys, tu dois vraiment être passionnant et ennuyant à la foishttps://image.noelshack.com/fichiers/2017/22/1496363062-reimu-drink.png

Pomer00

2021-08-09 18:17:03

Les traps et les KJ sont dans la même fréquence. Ils sont donc désormais totalement assimilé l'un à l'autrehttps://image.noelshack.com/fichiers/2017/32/3/1502273765-illya7.png

PetitTrapent

2021-08-09 18:17:37

Le 09 août 2021 à 18:17:03 Pomer00 a écrit :
Les traps et les KJ sont dans la même fréquence. Ils sont donc désormais totalement assimilé l'un à l'autrehttps://image.noelshack.com/fichiers/2017/32/3/1502273765-illya7.png

parceque c'etait pas déjà le cashttps://image.noelshack.com/fichiers/2017/13/1490903480-1460834936519.png

Infos

Gestion du forum

contact@geevey.com

API disponible. Utilisez le paramètre "api" en GET, peu importe le contenu, sur une page du site.

Notes

⚠️ Les archives de novembre sont désormais disponibles.

Non-assumage

Personne n'a pas assumé de topic pour le moment.