Nous rencontrons des problèmes pour que Google indexe les fichiers PDF sur notre site. Il existe environ 50 PDF et leur taille varie de 20 Ko à un peu moins de deux mégaoctets. Ils ne sont pas protégés, peuvent être lus de manière anonyme et à l'intérieur de PDF Reader, vous pouvez rechercher le document.
Ils sont répertoriés dans SiteMap.xml. Je peux même consulter les journaux IIS et voir Googlebot lire les fichiers PDF, mais, à l'exception de cinq, ils ne sont jamais inclus dans les résultats de la recherche.
Si je fais un filetye: pdf, seuls cinq PDF sont apparus. Si je recherche du texte dont je sais qu'il se trouve dans un PDF, les PDF ne s'affichent jamais (sauf les cinq indexés).
Quelqu'un sait-il pourquoi les documents PDF de plus de 45+ ne sont pas inclus dans l'index, même s'ils sont dans le plan du site et que Googlebot les lit?
la source
Réponses:
tous les fichiers PDF sont-ils situés au même endroit? Une fois, j'ai eu le problème qu'un de mes emplacements PDF se trouvait dans un dossier qui était exclu par le robots.txt. Soumettez votre plan du site directement sur le site de l'outil google-webmaster et vous obtiendrez peut-être des informations précieuses sur la blancheur des fichiers PDF qui n'apparaissent pas. dans mon cas, google m'a dit "hé, ces 54 documents pdf sont sur votre plan du site mais à cause des restrictions de robots.txt nous ne pouvons pas les indexer". donc c'était assez utile. mais attention à ce que dit le commentateur, cela peut prendre un certain temps jusqu'à ce que cette information apparaisse.
Outils Google pour les webmasters: https://www.google.com/webmasters/tools
la source
Il peut y avoir un certain décalage entre la lecture initiale de votre contenu par Google et son apparition dans l'index. Nous avons récemment relancé un site, en soumettant des plans de site à Google au lancement, et il a fallu environ 3 semaines pour que les nouvelles pages commencent à apparaître dans les résultats de recherche.
Depuis combien de temps avez-vous envoyé ces PDF via votre plan du site?
Il semble que vos fichiers PDF soient indexés, mais cela prend du temps. En supposant qu'il n'y a pas de différence dans la façon dont les fichiers PDF non indexés ont été générés, je soupçonne que la mise à jour de l'index prend juste un certain temps.
Sur une légère tangente, un outil utile que je recommanderais de vous inscrire est Google Webmaster - il vous montre le taux d'exploration, les problèmes avec votre site, les sitemaps et l'indexation dans un jour ou deux après que le robot Googlebot a frappé votre site. Cela pourrait vous faire gagner un peu de temps en parcourant vos journaux IIS.
la source
Vos fichiers PDF sont-ils scannés par OCR pour que le texte soit sélectionnable et consultable? Ou les fichiers PDF sont-ils numérisés sans OCR, auquel cas le texte sera stocké sous forme d'une grande image? Si le PDF est toutes les images, je ne pense pas que Google puisse l'indexer (encore). Ou Google a-t-il déjà trouvé vos pages?
la source
Vous pouvez le soumettre manuellement à Google , ce qui accélère parfois le processus.
la source