Le 11 juillet 2022 à 18:17:00 :
Le 11 juillet 2022 à 18:12:51 :
Le 11 juillet 2022 à 18:10:34 :
Le 11 juillet 2022 à 18:04:31 :
Le 11 juillet 2022 à 18:01:33 :
Le 11 juillet 2022 à 18:00:13 :
+ avec toutes les pages web qui sont des SPA ça a peu de sens de juste collecter le htmlLe but est de récupérer le contenu HTML des résultats du scan
ok mais tu vas faire tourner le javascript ? si tu gardes juste le html initial d'une page React, t'auras juste
<div class="root">
</div>répond l'op si tu fais juste une requete http des pages, toutes les SPA seront dégagées
https://image.noelshack.com/fichiers/2020/43/2/1603199517-capitaine-emploi.png Les serveurs SPA sont très rares, donc je n'ai pas besoin de penser à ça
Ensuite il y a plusieurs façons de récupérer le HTML, par exemple si tu fais un view-source ou inspecter l'élément, tu n'auras pas les mêmes résultats, car le navigateur prend en compte les actions de javascript
ça dépend de ce que tu veux faire après mais y'a plein de pages qui chargent du contenu dynamiquement (e.g. les commentaires youtube) qui seront pas dans tes scans
https://image.noelshack.com/fichiers/2020/43/2/1603199517-capitaine-emploi.png
C'est une infime minorité de cas et ce qui compte c'est de récupérer le contenu HTML, pas autre chose, après on peux aussi chipoter et dire qu'il faut cliquer sur tel ou tel lien
Le 11 juillet 2022 à 18:10:34 :
Le 11 juillet 2022 à 18:04:31 :
Le 11 juillet 2022 à 18:01:33 :
Le 11 juillet 2022 à 18:00:13 :
+ avec toutes les pages web qui sont des SPA ça a peu de sens de juste collecter le htmlLe but est de récupérer le contenu HTML des résultats du scan
ok mais tu vas faire tourner le javascript ? si tu gardes juste le html initial d'une page React, t'auras juste
<div class="root">
</div>répond l'op si tu fais juste une requete http des pages, toutes les SPA seront dégagées
https://image.noelshack.com/fichiers/2020/43/2/1603199517-capitaine-emploi.png
Les serveurs SPA sont très rares, donc je n'ai pas besoin de penser à ça
Ensuite il y a plusieurs façons de récupérer le HTML, par exemple si tu fais un view-source ou inspecter l'élément, tu n'auras pas les mêmes résultats, car le navigateur prend en compte les actions de javascript
Le 11 juillet 2022 à 18:00:57 :
Le 11 juillet 2022 à 17:56:49 :
Le 11 juillet 2022 à 17:55:46 :
Peux nous expliquer l'architecture de ton script qui permettra de scan l'ensemble des servers web exposant leur port 80? Comment vas-tu gérer les process, comment gères-tu les threads dans tes scripts?https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg Quelle méthode déploiement pour paralléliser l'exécution sur plusieurs serveurs?
https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg concurrent.futures
C'est simple, j'ai divisé le fichier en 600 parties, le script les lit un par un puis quand il termine, il supprime le txt temporaire et compresse en .tar.gz
C'est un peu simpliste comme explication
https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg Combien de thread en parallèle comptes-tu utiliser? Comment vas-tu gérer les impacts CPU? La load?
Quel est ce fichier d'entrée dont tu parles?
Pourquoi 600?
600 car ça fait 100 000 lignes par fichier et que j'avais un bug en Python avec la mémoire quand je mettais plusieurs millions, en même temps ça me permet de compresser au fur et à mesure et donc d'économiser de l'espace de stockage (je prévois de faire des transferts vers d'autres serveurs mais ça m'évitera les interruptions de script et me fera donc gagner du temps)
pour le nombre de threads j'ai juste fait des tests (500 threads)
les fichiers d'entrées ce sont les URL (IP)
Le 11 juillet 2022 à 18:01:13 :
Est-ce que tu as mis une limite sur la taille maximale du HTML que tu peux enregistrer ?
Oui, pareil pour le titre et headers, mais c'est une limite très généreuse, c'est vraiment pour éviter les abus
Pour l'encodage c'est UTF-8
Le 11 juillet 2022 à 18:00:13 :
+ avec toutes les pages web qui sont des SPA ça a peu de sens de juste collecter le html
Le but est de récupérer le contenu HTML des résultats du scan
Le 11 juillet 2022 à 17:56:49 :
Le 11 juillet 2022 à 17:55:46 :
Peux nous expliquer l'architecture de ton script qui permettra de scan l'ensemble des servers web exposant leur port 80? Comment vas-tu gérer les process, comment gères-tu les threads dans tes scripts?https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg Quelle méthode déploiement pour paralléliser l'exécution sur plusieurs serveurs?
https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg concurrent.futures
C'est simple, j'ai divisé le fichier en 600 parties, le script les lit un par un puis quand il termine, il supprime le txt temporaire et compresse en .tar.gz
je l'ai nommé crawl mais ce n'est pas le terme exact vu que je me base sur le scan que j'avais fait (59 millions d'IP avec un port 80 ouvert), le fichier contiendra 59 millions de lignes (lorsque la requête a échouée, ce sera marqué failed)
Le 11 juillet 2022 à 17:55:46 :
Peux nous expliquer l'architecture de ton script qui permettra de scan l'ensemble des servers web exposant leur port 80? Comment vas-tu gérer les process, comment gères-tu les threads dans tes scripts?https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg Quelle méthode déploiement pour paralléliser l'exécution sur plusieurs serveurs?
https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg
concurrent.futures
C'est simple, j'ai divisé le fichier en 600 parties, le script les lit un par un puis quand il termine, il supprime le txt temporaire et compresse en .tar.gz
Le 11 juillet 2022 à 17:55:15 :
Tiens je me disais, c'est possible de télécharger tout Wikipédia ?
Ca devrait faire combien de giga ?C'est possible d'avoir les images avec ? D'avoir une conversion des images en low juste histoire de.
Ils donnent déjà les données pour télécharger
Le 11 juillet 2022 à 17:51:32 :
Le fameux script python mono thread qui va scan l'ensemble des servers webshttps://image.noelshack.com/fichiers/2020/02/2/1578437201-henrycalvi.png
Je screen le post pour quand les fichiers sortiront
Le 11 juillet 2022 à 17:51:32 :
Le fameux script python mono thread qui va scan l'ensemble des servers webshttps://image.noelshack.com/fichiers/2020/02/2/1578437201-henrycalvi.png
Ce n'est pas du mono thread + bonne bande passante + je peux augmenter le nombre de serveurs
Le 11 juillet 2022 à 17:49:08 :
150 1000go c'est peu
Il n'y a pas les CSS avec
Le 11 juillet 2022 à 17:44:43 :
web archive le fait deja
Ce n'est pas le même principe
Suite à mon topic du scan des IPv4 https://www.jeuxvideo.com/forums/42-51-70172551-1-0-1-0-j-ai-scanne-tout-internet-voici-un-fichier-libre-et-des-screens.htm
Je vous annonce maintenant que la suite du projet consistera à sauvegarder toutes les pages web accessibles sur ip:80
Ce qui sera sauvegardé / publié :
Titre de la page
Le contenu HTML renvoyé
Headers renvoyés
En faisant des échantillons sur 50 000 sites, j'ai pu calculer que le projet devrait faire de 150 à 1 000 GO (marge faible / haute), et que ce niveau serait de toute façon divisé par deux après compression
Le bot est actuellement en cours, j'estime que cela pourrait prendre jusqu'à quelques jours (ou quelques heures si j'augmente le nombre de serveurs)
L'user-agent sera "Antoine"
Si vous avez un serveur qui avait le port 80 ouvert au moment du scan des ports ouverts (le 7 juillet), et qu'il l'est toujours actuellement, vous le verrez passer dans les logs Apache et Nginx
Des questions ?
Propagande merdique des pro-Apple
Android est open source et donc résistant à la surveillance de masse, la censure comme aux pubs, le golem
On ne peux pas en dire autant d'iOS, et ce n'est pas les chinois qui vont me contredire avec leur App Store