Après avoir scanné Internet (IPv4:80), je m'apprête à enregistrer toutes les pages web

AntoineForum144
2022-07-11 18:05:28

Le 11 juillet 2022 à 18:00:57 :

Le 11 juillet 2022 à 17:56:49 :

Le 11 juillet 2022 à 17:55:46 :
Peux nous expliquer l'architecture de ton script qui permettra de scan l'ensemble des servers web exposant leur port 80? Comment vas-tu gérer les process, comment gères-tu les threads dans tes scripts?https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg

Quelle méthode déploiement pour paralléliser l'exécution sur plusieurs serveurs?https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg

concurrent.futures

C'est simple, j'ai divisé le fichier en 600 parties, le script les lit un par un puis quand il termine, il supprime le txt temporaire et compresse en .tar.gz

C'est un peu simpliste comme explicationhttps://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg

Combien de thread en parallèle comptes-tu utiliser? Comment vas-tu gérer les impacts CPU? La load?

Quel est ce fichier d'entrée dont tu parles?

Pourquoi 600?

600 car ça fait 100 000 lignes par fichier et que j'avais un bug en Python avec la mémoire quand je mettais plusieurs millions, en même temps ça me permet de compresser au fur et à mesure et donc d'économiser de l'espace de stockage (je prévois de faire des transferts vers d'autres serveurs mais ça m'évitera les interruptions de script et me fera donc gagner du temps)

pour le nombre de threads j'ai juste fait des tests (500 threads)

les fichiers d'entrées ce sont les URL (IP)

CossedPuisLuned
2022-07-11 18:08:27

500 threads avec de l'heavy io sur les disks qui dump HTML , tu nous informeras du résultat, on est intéresséhttps://image.noelshack.com/fichiers/2020/46/4/1605213870-bouled55.png

AntoineForum144
2022-07-11 18:08:32

Le grand nombre de fichiers me permet aussi de m'adapter aisément si j'ai envie de rajouter des serveurs

AntoineForum144
2022-07-11 18:10:15

600 fichiers c'est juste pour le script, ensuite ils seront combinés en un seul (en tout cas il y aura au moins deux versions, l'une en un seul fichier, l'autre en plusieurs parties)

keccak-128
2022-07-11 18:10:34

Le 11 juillet 2022 à 18:04:31 :

Le 11 juillet 2022 à 18:01:33 :

Le 11 juillet 2022 à 18:00:13 :
+ avec toutes les pages web qui sont des SPA ça a peu de sens de juste collecter le html :(

Le but est de récupérer le contenu HTML des résultats du scan

ok mais tu vas faire tourner le javascript ? si tu gardes juste le html initial d'une page React, t'auras juste

<div class="root">
</div>

répond l'op si tu fais juste une requete http des pages, toutes les SPA seront dégagéeshttps://image.noelshack.com/fichiers/2020/43/2/1603199517-capitaine-emploi.png

AntoineForum144
2022-07-11 18:12:51

Le 11 juillet 2022 à 18:10:34 :

Le 11 juillet 2022 à 18:04:31 :

Le 11 juillet 2022 à 18:01:33 :

Le 11 juillet 2022 à 18:00:13 :
+ avec toutes les pages web qui sont des SPA ça a peu de sens de juste collecter le html :(

Le but est de récupérer le contenu HTML des résultats du scan

ok mais tu vas faire tourner le javascript ? si tu gardes juste le html initial d'une page React, t'auras juste

<div class="root">
</div>

répond l'op si tu fais juste une requete http des pages, toutes les SPA seront dégagéeshttps://image.noelshack.com/fichiers/2020/43/2/1603199517-capitaine-emploi.png

Les serveurs SPA sont très rares, donc je n'ai pas besoin de penser à ça

Ensuite il y a plusieurs façons de récupérer le HTML, par exemple si tu fais un view-source ou inspecter l'élément, tu n'auras pas les mêmes résultats, car le navigateur prend en compte les actions de javascript

keccak-128
2022-07-11 18:17:00

Le 11 juillet 2022 à 18:12:51 :

Le 11 juillet 2022 à 18:10:34 :

Le 11 juillet 2022 à 18:04:31 :

Le 11 juillet 2022 à 18:01:33 :

Le 11 juillet 2022 à 18:00:13 :
+ avec toutes les pages web qui sont des SPA ça a peu de sens de juste collecter le html :(

Le but est de récupérer le contenu HTML des résultats du scan

ok mais tu vas faire tourner le javascript ? si tu gardes juste le html initial d'une page React, t'auras juste

<div class="root">
</div>

répond l'op si tu fais juste une requete http des pages, toutes les SPA seront dégagéeshttps://image.noelshack.com/fichiers/2020/43/2/1603199517-capitaine-emploi.png

Les serveurs SPA sont très rares, donc je n'ai pas besoin de penser à ça

Ensuite il y a plusieurs façons de récupérer le HTML, par exemple si tu fais un view-source ou inspecter l'élément, tu n'auras pas les mêmes résultats, car le navigateur prend en compte les actions de javascript

ça dépend de ce que tu veux faire après mais y'a plein de pages qui chargent du contenu dynamiquement (e.g. les commentaires youtube) qui seront pas dans tes scanshttps://image.noelshack.com/fichiers/2020/43/2/1603199517-capitaine-emploi.png

AntoineForum144
2022-07-11 18:17:45

Le 11 juillet 2022 à 18:17:00 :

Le 11 juillet 2022 à 18:12:51 :

Le 11 juillet 2022 à 18:10:34 :

Le 11 juillet 2022 à 18:04:31 :

Le 11 juillet 2022 à 18:01:33 :

Le 11 juillet 2022 à 18:00:13 :
+ avec toutes les pages web qui sont des SPA ça a peu de sens de juste collecter le html :(

Le but est de récupérer le contenu HTML des résultats du scan

ok mais tu vas faire tourner le javascript ? si tu gardes juste le html initial d'une page React, t'auras juste

<div class="root">
</div>

répond l'op si tu fais juste une requete http des pages, toutes les SPA seront dégagéeshttps://image.noelshack.com/fichiers/2020/43/2/1603199517-capitaine-emploi.png

Les serveurs SPA sont très rares, donc je n'ai pas besoin de penser à ça

Ensuite il y a plusieurs façons de récupérer le HTML, par exemple si tu fais un view-source ou inspecter l'élément, tu n'auras pas les mêmes résultats, car le navigateur prend en compte les actions de javascript

ça dépend de ce que tu veux faire après mais y'a plein de pages qui chargent du contenu dynamiquement (e.g. les commentaires youtube) qui seront pas dans tes scanshttps://image.noelshack.com/fichiers/2020/43/2/1603199517-capitaine-emploi.png

C'est une infime minorité de cas et ce qui compte c'est de récupérer le contenu HTML, pas autre chose, après on peux aussi chipoter et dire qu'il faut cliquer sur tel ou tel lien

BierePasChere
2022-07-11 18:18:36

Sinon y'a Wayback Machine...

PPLMAX0tout
2022-07-11 18:18:37

C'est pas illégal de scrap les pages web ?

Jysix-
2022-07-11 18:20:11

C'est quoi l'intérêt juste ?

DonDoritos28
2022-07-11 18:21:12

AntoineForum toujours dans la boucle :(

FuturImmortel
2022-07-11 18:21:31

Tu as intérêt à respecter le droit à l’oubli après publication, sinon Gilbert va venir toquer à ta porte.

Infos
Gestion du forum

contact@geevey.com

API disponible. Utilisez le paramètre "api" en GET, peu importe le contenu, sur une page du site.

Notes

    Partenaire: JVFlux
    Ce site n'est pas associé à Jeuxvideo.com ou Webedia. Nous utilisons seulement des archives publiques.
    Il est inutile de me spammer par e-mail pour supprimer un topic. Au contraire, en conséquence, je mettrais votre topic dans le bloc ci-dessous.
Non-assumage
    Personne n'a pas assumé de topic pour le moment.