Je souhaite obtenir le contenu du site Web ci-dessous. Si j'utilise un navigateur comme Firefox ou Chrome, je pourrais obtenir la vraie page de site Web que je veux, mais si j'utilise le package de requêtes Python (ou la wget
commande) pour l'obtenir, il renvoie une page HTML totalement différente. Je pensais que le développeur du site Web avait fait des blocages pour cela, donc la question est:
Comment simuler une visite du navigateur en utilisant des requêtes python ou la commande wget?
la source
PhantomJS
navigateur sans tête avec du sélénium. Merci. (n'oubliez pas d'accepter la réponse si cela vous a été utile)UserAgent
. Quelqu'un sait pourquoi? Quelqu'un pourrait-il fournir une liste deUserAgent
s acceptables ?si cette question est toujours valable
J'ai utilisé un faux UserAgent
Comment utiliser:
production:
la source
Essayez de faire cela, en utilisant Firefox comme faux agent utilisateur (de plus, c'est un bon script de démarrage pour le scraping Web avec l'utilisation de cookies):
USAGE:
la source
La racine de la réponse est que la personne qui pose la question doit avoir un interpréteur JavaScript pour obtenir ce qu'elle cherche. Ce que j'ai trouvé, c'est que je suis capable d'obtenir toutes les informations que je voulais sur un site Web en json avant qu'elles ne soient interprétées par JavaScript. Cela m'a fait gagner beaucoup de temps dans ce que serait l'analyse HTML en espérant que chaque page Web soit dans le même format.
Ainsi, lorsque vous obtenez une réponse d'un site Web utilisant des requêtes, regardez vraiment le html / texte car vous pourriez trouver le javascripts JSON dans le pied de page prêt à être analysé.
la source