Comment extraire tous les liens externes d'une page Web et les enregistrer dans un fichier?

11

Comment extraire tous les liens externes d'une page Web et les enregistrer dans un fichier?

Si vous avez des outils de ligne de commande, ce serait génial.

RogerioO
la source

Réponses:

18

Vous aurez besoin de 2 outils, lynx et awk , essayez ceci:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt

Si vous avez besoin de lignes de numérotation, utilisez la commande nl , essayez ceci:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt
Ielton
la source
Je ne pense pas que cela fonctionnera pour les URL relatives
Sridhar Sarnobat
8

Voici une amélioration de la réponse de lelton: vous n'avez pas du tout besoin de awk car le lynx a quelques options utiles.

lynx -listonly -nonumbers -dump http://www.google.com.br

si vous voulez des chiffres

lynx -listonly -dump http://www.google.com.br
Max
la source
0
  1. Utilisez Beautiful Soup pour récupérer les pages Web en question.
  2. Utilisez awk pour trouver toutes les URL qui ne pointent pas vers votre domaine

Je recommanderais Beautiful Soup plutôt que les techniques de grattage d'écran.

Wesley
la source
0

si la ligne de commande n'est pas une force, vous pouvez utiliser l' extension Firefox All Links Links .

Majid Azimi
la source