Messages de AntoineForum144

up
Faux compte

Le 11 juillet 2022 à 18:17:00 :

Le 11 juillet 2022 à 18:12:51 :

Le 11 juillet 2022 à 18:10:34 :

Le 11 juillet 2022 à 18:04:31 :

Le 11 juillet 2022 à 18:01:33 :

Le 11 juillet 2022 à 18:00:13 :
+ avec toutes les pages web qui sont des SPA ça a peu de sens de juste collecter le html :(

Le but est de récupérer le contenu HTML des résultats du scan

ok mais tu vas faire tourner le javascript ? si tu gardes juste le html initial d'une page React, t'auras juste

<div class="root">
</div>

répond l'op si tu fais juste une requete http des pages, toutes les SPA seront dégagéeshttps://image.noelshack.com/fichiers/2020/43/2/1603199517-capitaine-emploi.png

Les serveurs SPA sont très rares, donc je n'ai pas besoin de penser à ça

Ensuite il y a plusieurs façons de récupérer le HTML, par exemple si tu fais un view-source ou inspecter l'élément, tu n'auras pas les mêmes résultats, car le navigateur prend en compte les actions de javascript

ça dépend de ce que tu veux faire après mais y'a plein de pages qui chargent du contenu dynamiquement (e.g. les commentaires youtube) qui seront pas dans tes scanshttps://image.noelshack.com/fichiers/2020/43/2/1603199517-capitaine-emploi.png

C'est une infime minorité de cas et ce qui compte c'est de récupérer le contenu HTML, pas autre chose, après on peux aussi chipoter et dire qu'il faut cliquer sur tel ou tel lien

Le 11 juillet 2022 à 18:10:34 :

Le 11 juillet 2022 à 18:04:31 :

Le 11 juillet 2022 à 18:01:33 :

Le 11 juillet 2022 à 18:00:13 :
+ avec toutes les pages web qui sont des SPA ça a peu de sens de juste collecter le html :(

Le but est de récupérer le contenu HTML des résultats du scan

ok mais tu vas faire tourner le javascript ? si tu gardes juste le html initial d'une page React, t'auras juste

<div class="root">
</div>

répond l'op si tu fais juste une requete http des pages, toutes les SPA seront dégagéeshttps://image.noelshack.com/fichiers/2020/43/2/1603199517-capitaine-emploi.png

Les serveurs SPA sont très rares, donc je n'ai pas besoin de penser à ça

Ensuite il y a plusieurs façons de récupérer le HTML, par exemple si tu fais un view-source ou inspecter l'élément, tu n'auras pas les mêmes résultats, car le navigateur prend en compte les actions de javascript

600 fichiers c'est juste pour le script, ensuite ils seront combinés en un seul (en tout cas il y aura au moins deux versions, l'une en un seul fichier, l'autre en plusieurs parties)
Le grand nombre de fichiers me permet aussi de m'adapter aisément si j'ai envie de rajouter des serveurs

Le 11 juillet 2022 à 18:00:57 :

Le 11 juillet 2022 à 17:56:49 :

Le 11 juillet 2022 à 17:55:46 :
Peux nous expliquer l'architecture de ton script qui permettra de scan l'ensemble des servers web exposant leur port 80? Comment vas-tu gérer les process, comment gères-tu les threads dans tes scripts?https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg

Quelle méthode déploiement pour paralléliser l'exécution sur plusieurs serveurs?https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg

concurrent.futures

C'est simple, j'ai divisé le fichier en 600 parties, le script les lit un par un puis quand il termine, il supprime le txt temporaire et compresse en .tar.gz

C'est un peu simpliste comme explicationhttps://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg

Combien de thread en parallèle comptes-tu utiliser? Comment vas-tu gérer les impacts CPU? La load?

Quel est ce fichier d'entrée dont tu parles?

Pourquoi 600?

600 car ça fait 100 000 lignes par fichier et que j'avais un bug en Python avec la mémoire quand je mettais plusieurs millions, en même temps ça me permet de compresser au fur et à mesure et donc d'économiser de l'espace de stockage (je prévois de faire des transferts vers d'autres serveurs mais ça m'évitera les interruptions de script et me fera donc gagner du temps)

pour le nombre de threads j'ai juste fait des tests (500 threads)

les fichiers d'entrées ce sont les URL (IP)

Le 11 juillet 2022 à 18:01:13 :
Est-ce que tu as mis une limite sur la taille maximale du HTML que tu peux enregistrer ?

Oui, pareil pour le titre et headers, mais c'est une limite très généreuse, c'est vraiment pour éviter les abus
Pour l'encodage c'est UTF-8

Le 11 juillet 2022 à 18:00:13 :
+ avec toutes les pages web qui sont des SPA ça a peu de sens de juste collecter le html :(

Le but est de récupérer le contenu HTML des résultats du scan

Le 11 juillet 2022 à 17:56:49 :

Le 11 juillet 2022 à 17:55:46 :
Peux nous expliquer l'architecture de ton script qui permettra de scan l'ensemble des servers web exposant leur port 80? Comment vas-tu gérer les process, comment gères-tu les threads dans tes scripts?https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg

Quelle méthode déploiement pour paralléliser l'exécution sur plusieurs serveurs?https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg

concurrent.futures

C'est simple, j'ai divisé le fichier en 600 parties, le script les lit un par un puis quand il termine, il supprime le txt temporaire et compresse en .tar.gz

https://image.noelshack.com/fichiers/2022/28/1/1657555106-capture.png
je l'ai nommé crawl mais ce n'est pas le terme exact vu que je me base sur le scan que j'avais fait (59 millions d'IP avec un port 80 ouvert), le fichier contiendra 59 millions de lignes (lorsque la requête a échouée, ce sera marqué failed)

Le 11 juillet 2022 à 17:55:46 :
Peux nous expliquer l'architecture de ton script qui permettra de scan l'ensemble des servers web exposant leur port 80? Comment vas-tu gérer les process, comment gères-tu les threads dans tes scripts?https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg

Quelle méthode déploiement pour paralléliser l'exécution sur plusieurs serveurs?https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg

concurrent.futures

C'est simple, j'ai divisé le fichier en 600 parties, le script les lit un par un puis quand il termine, il supprime le txt temporaire et compresse en .tar.gz

Le 11 juillet 2022 à 17:55:15 :
Tiens je me disais, c'est possible de télécharger tout Wikipédia ?
Ca devrait faire combien de giga ?

C'est possible d'avoir les images avec ? D'avoir une conversion des images en low juste histoire de.

Ils donnent déjà les données pour télécharger

J'estime être à 0.67%
J'ai lancé le script il y a environ une heure

Le 11 juillet 2022 à 17:51:32 :
Le fameux script python mono thread qui va scan l'ensemble des servers webshttps://image.noelshack.com/fichiers/2020/02/2/1578437201-henrycalvi.png

Je screen le post pour quand les fichiers sortiront :)

Le 11 juillet 2022 à 17:51:32 :
Le fameux script python mono thread qui va scan l'ensemble des servers webshttps://image.noelshack.com/fichiers/2020/02/2/1578437201-henrycalvi.png

Ce n'est pas du mono thread + bonne bande passante + je peux augmenter le nombre de serveurs

Le 11 juillet 2022 à 17:49:08 :
150 1000go c'est peu :(

Il n'y a pas les CSS avec

J'ai fait un script Python rien que pour ça

Le 11 juillet 2022 à 17:44:43 :
web archive le fait deja

Ce n'est pas le même principe

Suite à mon topic du scan des IPv4 https://www.jeuxvideo.com/forums/42-51-70172551-1-0-1-0-j-ai-scanne-tout-internet-voici-un-fichier-libre-et-des-screens.htm
Je vous annonce maintenant que la suite du projet consistera à sauvegarder toutes les pages web accessibles sur ip:80

Ce qui sera sauvegardé / publié :
:d) Titre de la page
:d) Le contenu HTML renvoyé
:d) Headers renvoyés

En faisant des échantillons sur 50 000 sites, j'ai pu calculer que le projet devrait faire de 150 à 1 000 GO (marge faible / haute), et que ce niveau serait de toute façon divisé par deux après compression

Le bot est actuellement en cours, j'estime que cela pourrait prendre jusqu'à quelques jours (ou quelques heures si j'augmente le nombre de serveurs)

L'user-agent sera "Antoine"

Si vous avez un serveur qui avait le port 80 ouvert au moment du scan des ports ouverts (le 7 juillet), et qu'il l'est toujours actuellement, vous le verrez passer dans les logs Apache et Nginx

Des questions ?

Propagande merdique des pro-Apple

Android est open source et donc résistant à la surveillance de masse, la censure comme aux pubs, le golem

On ne peux pas en dire autant d'iOS, et ce n'est pas les chinois qui vont me contredire avec leur App Store