Est-il possible de trouver toutes les pages et liens sur TOUT site Web donné? Je voudrais entrer une URL et produire une arborescence de répertoires de tous les liens de ce site?
J'ai regardé HTTrack mais cela télécharge tout le site et j'ai simplement besoin de l'arborescence des répertoires.
directory
web-crawler
Jonathan Lyon
la source
la source
Réponses:
Check out linkchecker - il explorera le site (tout en obéissant
robots.txt
) et générera un rapport. À partir de là, vous pouvez créer un script pour une solution pour créer l'arborescence de répertoires.la source
robots.txt
fichier, cela signifie simplement que vous pouvez explorer à votre guise.Si vous avez la console développeur (JavaScript) dans votre navigateur, vous pouvez saisir ce code dans:
Raccourci:
la source
$$
opérateur? Ou est-ce juste un nom de fonction arbitraire, commen=ABC(''a');
je ne comprends pas commenturls
obtenir tous les éléments étiquetés «a». Peux-tu expliquer? Je suppose que ce n'est pas jQuery. De quelle fonction de bibliothèque prototype parlons-nous?$$()
est essentiellement un raccourci pourdocument.querySelectorAll()
. Plus d'infos sur ce lien: developer.mozilla.org/en-US/docs/Web/API/Document/…Une autre alternative pourrait être
Avec ton c'est
$$(
encore plus courtla source
S'il s'agit d'une question de programmation, je vous suggère d'écrire votre propre expression régulière pour analyser tout le contenu récupéré. Les balises cibles sont IMG et A pour le HTML standard. Pour JAVA,
ceci avec les classes Pattern et Matcher devrait détecter le début des balises. Ajoutez la balise LINK si vous voulez également du CSS.
Cependant, ce n'est pas aussi facile que vous le pensiez initialement. De nombreuses pages Web ne sont pas bien formées. Extraire par programmation tous les liens que l'être humain peut "reconnaître" est vraiment difficile si vous devez prendre en compte toutes les expressions irrégulières.
Bonne chance!
la source
essayez ce code ...
la source