Comment extraire tous les liens externes d'une page Web et les enregistrer dans un fichier?

11

Si vous avez des outils de ligne de commande, ce serait génial.

linux command-line RogerioO
la source

18

Vous aurez besoin de 2 outils, lynx et awk , essayez ceci:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt

Si vous avez besoin de lignes de numérotation, utilisez la commande nl , essayez ceci:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt

Ielton
la source

Je ne pense pas que cela fonctionnera pour les URL relatives

Sridhar Sarnobat

8

Voici une amélioration de la réponse de lelton: vous n'avez pas du tout besoin de awk car le lynx a quelques options utiles.

lynx -listonly -nonumbers -dump http://www.google.com.br

si vous voulez des chiffres

lynx -listonly -dump http://www.google.com.br

Max
la source

0

Je recommanderais Beautiful Soup plutôt que les techniques de grattage d'écran.

Wesley
la source

0

si la ligne de commande n'est pas une force, vous pouvez utiliser l' extension Firefox All Links Links .

Majid Azimi
la source

Réponses: