Après avoir scanné Internet (IPv4:80), je m'apprête à enregistrer toutes les pages web

2022-07-11 18:05:28

Le 11 juillet 2022 à 18:00:57 :
Le 11 juillet 2022 à 17:56:49 :
Le 11 juillet 2022 à 17:55:46 :
Peux nous expliquer l'architecture de ton script qui permettra de scan l'ensemble des servers web exposant leur port 80? Comment vas-tu gérer les process, comment gères-tu les threads dans tes scripts?https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg
Quelle méthode déploiement pour paralléliser l'exécution sur plusieurs serveurs?https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg
concurrent.futures
C'est simple, j'ai divisé le fichier en 600 parties, le script les lit un par un puis quand il termine, il supprime le txt temporaire et compresse en .tar.gz
C'est un peu simpliste comme explicationhttps://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg
Combien de thread en parallèle comptes-tu utiliser? Comment vas-tu gérer les impacts CPU? La load?
Quel est ce fichier d'entrée dont tu parles?
Pourquoi 600?

600 car ça fait 100 000 lignes par fichier et que j'avais un bug en Python avec la mémoire quand je mettais plusieurs millions, en même temps ça me permet de compresser au fur et à mesure et donc d'économiser de l'espace de stockage (je prévois de faire des transferts vers d'autres serveurs mais ça m'évitera les interruptions de script et me fera donc gagner du temps)

pour le nombre de threads j'ai juste fait des tests (500 threads)

les fichiers d'entrées ce sont les URL (IP)

CossedPuisLuned

2022-07-11 18:08:27

500 threads avec de l'heavy io sur les disks qui dump HTML , tu nous informeras du résultat, on est intéresséhttps://image.noelshack.com/fichiers/2020/46/4/1605213870-bouled55.png

AntoineForum144

2022-07-11 18:08:32

Le grand nombre de fichiers me permet aussi de m'adapter aisément si j'ai envie de rajouter des serveurs

AntoineForum144

2022-07-11 18:10:15

600 fichiers c'est juste pour le script, ensuite ils seront combinés en un seul (en tout cas il y aura au moins deux versions, l'une en un seul fichier, l'autre en plusieurs parties)

keccak-128

2022-07-11 18:10:34

Le 11 juillet 2022 à 18:04:31 :
Le 11 juillet 2022 à 18:01:33 :
Le 11 juillet 2022 à 18:00:13 :
+ avec toutes les pages web qui sont des SPA ça a peu de sens de juste collecter le html
Le but est de récupérer le contenu HTML des résultats du scan
ok mais tu vas faire tourner le javascript ? si tu gardes juste le html initial d'une page React, t'auras juste
<div class="root">
</div>

répond l'op si tu fais juste une requete http des pages, toutes les SPA seront dégagéeshttps://image.noelshack.com/fichiers/2020/43/2/1603199517-capitaine-emploi.png

AntoineForum144

2022-07-11 18:12:51

Le 11 juillet 2022 à 18:10:34 :
Le 11 juillet 2022 à 18:04:31 :
Le 11 juillet 2022 à 18:01:33 :
Le 11 juillet 2022 à 18:00:13 :
+ avec toutes les pages web qui sont des SPA ça a peu de sens de juste collecter le html
Le but est de récupérer le contenu HTML des résultats du scan
ok mais tu vas faire tourner le javascript ? si tu gardes juste le html initial d'une page React, t'auras juste
<div class="root">
</div>
répond l'op si tu fais juste une requete http des pages, toutes les SPA seront dégagéeshttps://image.noelshack.com/fichiers/2020/43/2/1603199517-capitaine-emploi.png

Les serveurs SPA sont très rares, donc je n'ai pas besoin de penser à ça

Ensuite il y a plusieurs façons de récupérer le HTML, par exemple si tu fais un view-source ou inspecter l'élément, tu n'auras pas les mêmes résultats, car le navigateur prend en compte les actions de javascript

keccak-128

2022-07-11 18:17:00

Le 11 juillet 2022 à 18:12:51 :
Le 11 juillet 2022 à 18:10:34 :
Le 11 juillet 2022 à 18:04:31 :
Le 11 juillet 2022 à 18:01:33 :
Le 11 juillet 2022 à 18:00:13 :
+ avec toutes les pages web qui sont des SPA ça a peu de sens de juste collecter le html
Le but est de récupérer le contenu HTML des résultats du scan
ok mais tu vas faire tourner le javascript ? si tu gardes juste le html initial d'une page React, t'auras juste
<div class="root">
</div>
répond l'op si tu fais juste une requete http des pages, toutes les SPA seront dégagéeshttps://image.noelshack.com/fichiers/2020/43/2/1603199517-capitaine-emploi.png
Les serveurs SPA sont très rares, donc je n'ai pas besoin de penser à ça
Ensuite il y a plusieurs façons de récupérer le HTML, par exemple si tu fais un view-source ou inspecter l'élément, tu n'auras pas les mêmes résultats, car le navigateur prend en compte les actions de javascript

ça dépend de ce que tu veux faire après mais y'a plein de pages qui chargent du contenu dynamiquement (e.g. les commentaires youtube) qui seront pas dans tes scanshttps://image.noelshack.com/fichiers/2020/43/2/1603199517-capitaine-emploi.png

AntoineForum144

2022-07-11 18:17:45

Le 11 juillet 2022 à 18:17:00 :
Le 11 juillet 2022 à 18:12:51 :
Le 11 juillet 2022 à 18:10:34 :
Le 11 juillet 2022 à 18:04:31 :
Le 11 juillet 2022 à 18:01:33 :
Le 11 juillet 2022 à 18:00:13 :
+ avec toutes les pages web qui sont des SPA ça a peu de sens de juste collecter le html
Le but est de récupérer le contenu HTML des résultats du scan
ok mais tu vas faire tourner le javascript ? si tu gardes juste le html initial d'une page React, t'auras juste
<div class="root">
</div>
répond l'op si tu fais juste une requete http des pages, toutes les SPA seront dégagéeshttps://image.noelshack.com/fichiers/2020/43/2/1603199517-capitaine-emploi.png
Les serveurs SPA sont très rares, donc je n'ai pas besoin de penser à ça
Ensuite il y a plusieurs façons de récupérer le HTML, par exemple si tu fais un view-source ou inspecter l'élément, tu n'auras pas les mêmes résultats, car le navigateur prend en compte les actions de javascript
ça dépend de ce que tu veux faire après mais y'a plein de pages qui chargent du contenu dynamiquement (e.g. les commentaires youtube) qui seront pas dans tes scanshttps://image.noelshack.com/fichiers/2020/43/2/1603199517-capitaine-emploi.png

C'est une infime minorité de cas et ce qui compte c'est de récupérer le contenu HTML, pas autre chose, après on peux aussi chipoter et dire qu'il faut cliquer sur tel ou tel lien

BierePasChere

2022-07-11 18:18:36

Sinon y'a Wayback Machine...

PPLMAX0tout

2022-07-11 18:18:37

C'est pas illégal de scrap les pages web ?

Jysix-

2022-07-11 18:20:11

C'est quoi l'intérêt juste ?

DonDoritos28

2022-07-11 18:21:12

AntoineForum toujours dans la boucle

FuturImmortel

2022-07-11 18:21:31

Tu as intérêt à respecter le droit à l’oubli après publication, sinon Gilbert va venir toquer à ta porte.