Comment obtenir des dizaines de millions de pages indexées par Google Bot?

12

Nous développons actuellement un site qui compte actuellement 8 millions de pages uniques qui passeront immédiatement à environ 20 millions, et éventuellement à environ 50 millions ou plus.

Avant de critiquer ... Oui, il fournit un contenu unique et utile. Nous traitons continuellement les données brutes des enregistrements publics et en effectuant un nettoyage des données, des cumuls d'entités et une cartographie des relations, nous avons été en mesure de générer un contenu de qualité, en développant un site qui est assez utile et également unique, en partie en raison de l'étendue de la Les données.

C'est PR est 0 (nouveau domaine, pas de liens), et nous obtenons une araignée à un rythme d'environ 500 pages par jour, ce qui nous place à environ 30 000 pages indexées jusqu'à présent. À ce rythme, il faudrait plus de 400 ans pour indexer toutes nos données.

J'ai deux questions:

  1. Le taux d'indexation est-il directement corrélé à la RP, et je veux dire par là qu'il est suffisamment corrélé pour que l'achat d'un ancien domaine avec une bonne RP nous amène à un taux d'indexation réalisable (aux alentours de 100000 pages par jour).
  2. Existe-t-il des consultants SEO spécialisés dans l'aide au processus d'indexation lui-même? Par ailleurs, nous nous en sortons très bien avec le référencement, sur la page en particulier, en outre, la concurrence pour nos expressions de mots clés "à longue queue" est assez faible, donc notre succès dépend principalement du nombre de pages indexées.

Notre principal concurrent a atteint environ 20 millions de pages indexées en un peu plus d'un an, ainsi qu'un classement Alexa 2000.

Qualités remarquables que nous avons en place:

  • la vitesse de téléchargement des pages est assez bonne (250-500 ms)
  • aucune erreur (pas d'erreurs 404 ou 500 lors de l'obtention de l'araignée)
  • nous utilisons les outils Google pour les webmasters et nous nous connectons quotidiennement
  • URL conviviales en place
  • J'ai peur de soumettre des plans de site. Certaines publications de la communauté SEO suggèrent un nouveau site avec des millions de pages et aucun PR n'est suspect. Il y a aussi une vidéo Google de Matt Cutts parlant d'une intégration par étapes de grands sites , afin d'éviter un examen accru (à environ 2h30 dans la vidéo).

  • Les liens de sites cliquables fournissent toutes les pages, pas plus de quatre pages de profondeur et généralement pas plus de 250 liens internes (-ish) sur une page.
  • Le texte d'ancrage des liens internes est logique et ajoute une pertinence hiérarchique aux données des pages de détails.
  • Nous avions précédemment défini le taux d'exploration sur le plus haut sur les outils pour les webmasters (seulement environ une page toutes les deux secondes, max). Je l'ai récemment retourné pour «laisser Google décider», ce qui est conseillé.

Chris Adragna
la source
6
J'aimerais vraiment voir 50 millions de pages fournir des contenus utiles uniques. C'est cool Wikipédia manque tellement de connaissances par rapport à votre site c'est seulement 3,5 millions de pages aujourd'hui [réf. en.wikipedia.org/wiki/File:EnwikipediaArt.PNG]
Marco Demaio
3
:) En regardant au-delà du sarcasme ... ce n'est pas le nombre de pages qui fait de Wikipédia une formidable source de connaissances - clairement, oui - plus utile. Notre site génère une page pour chaque enregistrement d'une personne et une page pour chaque enregistrement d'une entreprise dans notre base de données. Nous utilisons l'analyse et le nettoyage des données pour générer de manière dynamique des relations entre partenaires commerciaux, illustrant graphiquement un réseau commercial de personnes et de sociétés liées. Le nombre de pages est fonction de la quantité de données dont nous disposons. Le rendre détectable via la recherche le rend plus utile à tous. Merci pour votre commentaire.
Chris Adragna
1
Obtenez plus de pagerank, en obtenant plus de liens entrants. Lien vers vos pages à partir de pages qui ont un pagerank.
Alex Black

Réponses:

20

Quelques stratégies potentielles:

  • Les outils Google pour les webmasters vous permettent de demander une augmentation du taux d'exploration. Essayez de le faire si vous ne l'avez pas déjà fait.
  • Jetez un autre regard sur votre architecture de navigation pour voir si vous ne pouvez pas améliorer l'accès à davantage de votre contenu. Regardez-le du point de vue d'un utilisateur: s'il est difficile pour un utilisateur de trouver une information spécifique, cela peut aussi être difficile pour les moteurs de recherche.
  • Assurez-vous que vous n'avez pas de contenu en double en raison de paramètres d'URL incohérents ou d'une mauvaise utilisation des barres obliques. En éliminant le contenu en double, vous réduisez le temps que Googlebot passe à explorer quelque chose qu'il a déjà indexé.
  • Utilisez des liens de contenu connexes et des liens sur site dans votre contenu chaque fois que possible.
  • Randomisez certains de vos liens. Une barre latérale avec un contenu interne aléatoire est un excellent modèle à utiliser.
  • Utilisez des dattes et d'autres microformats .
  • Utilisez des flux RSS dans la mesure du possible. Les flux RSS fonctionneront de la même manière qu'un plan de site (en fait, les outils pour les webmasters vous permettent de soumettre un flux en tant que plan de site).
  • Concernant les plans de site, voir cette question .
  • Trouvez des moyens d'obtenir des liens externes vers votre contenu. Cela peut accélérer le processus d'indexation. Si cela est approprié au type de contenu, le rendre facile à partager socialement ou par e-mail aidera à cela.
  • Fournissez une API pour encourager l'utilisation de vos données et des liens externes vers vos données. Vous pouvez avoir un lien d'attribution comme condition préalable à l'utilisation des données.
  • Embrassez la communauté. Si vous contactez les bonnes personnes de la bonne manière, vous obtiendrez des liens externes via les blogs et Twitter.
  • Recherchez des moyens de créer une communauté autour de vos données. Trouvez un moyen de le rendre social. Les API, les mashups, les widgets sociaux aident tous, mais il en va de même pour un blog, des vitrines communautaires, des forums et des mécanismes de jeu (voir également cette vidéo ).
  • Priorisez le contenu que vous avez indexé. Avec autant de données, toutes ne seront pas absolument vitales. Prenez une décision stratégique quant au contenu le plus important, par exemple, il sera le plus populaire, il aura les meilleures chances de ROI, il sera le plus utile, etc. et assurez-vous que ce contenu est indexé en premier.
  • Faites une analyse détaillée de ce que fait votre concurrent pour indexer son contenu. Regardez leur architecture de site, leur navigation, leurs liens externes, etc.

Enfin, je dois dire ceci. Le référencement et l'indexation ne sont que de petites parties pour gérer un site d'entreprise. Ne perdez pas de vue le ROI pour le SEO. Même si vous avez beaucoup de trafic de Google, peu importe si vous ne pouvez pas le convertir. Le référencement est important, mais il faut le garder en perspective.

Modifier :

En complément de votre cas d'utilisation: vous pourriez envisager de proposer des critiques ou des témoignages pour chaque personne ou entreprise. En outre, la distribution de badges utilisateur comme StackOverflow peut inciter au moins certaines personnes à créer un lien vers leur propre profil sur votre site. Cela encouragerait certains liens externes vers vos pages profondes, ce qui pourrait signifier une indexation plus rapide.

Virtuosi Media
la source
1
+1 - Il faut toujours mentionner que le référencement est un microcosme du problème majeur de la promotion des entreprises; c'est aussi le plus facile (pour les personnes techniquement soucieuses, du moins) de s'y perdre. ROI que PPC ...
danlefree
Bonne idée sur les microformats. Ce n'est pas une solution miracle, mais nous avons un certain nombre d'endroits où le balisage sémantique utilisant les normes de microformats en place pourrait être utile.
Chris Adragna
1
Je ne sais pas si des microformats (autres que peut-être un horodatage) signifieraient être indexés plus rapidement, mais il peut y avoir d'autres avantages SEO à les utiliser. À tout le moins, cela facilite l'exploration de vos pages et peut aider à faire ressortir votre entrée sur la page de résultats du moteur de recherche (en fonction du microformat).
Virtuosi Media
5

Comment obtenir des dizaines de millions de pages indexées par Google Bot?

Cela ne se produira pas du jour au lendemain, cependant, je vous garantis que vous verriez plus de vos pages plus tôt si des liens entrants vers du contenu profond (en particulier des pages de sitemap ou des index de répertoires qui pointent vers un contenu encore plus profond) étaient ajoutés à partir de sites de taille similaire qui ont été autour depuis un certain temps.

Un ancien domaine suffira-t-il pour obtenir 100 000 pages indexées par jour?

Douteux, à moins que vous ne parliez d'un ancien domaine qui a eu une quantité importante d'activité dessus (c'est-à-dire du contenu accumulé et des liens entrants) au fil des ans.

Existe-t-il des consultants SEO spécialisés dans l'aide au processus d'indexation lui-même?

Lorsque vous posez la question de cette façon, je suis sûr que vous trouverez de nombreux SEO qui proclament haut et fort "oui!" mais, à la fin de la journée, les suggestions de Virtuosi Media sont autant de bons conseils que vous obtiendrez de l'un d'eux (pour ne rien dire des conseils potentiellement mauvais).

À première vue, vous devriez envisager d'utiliser les canaux de développement commercial et de relations publiques pour construire le classement de votre site à ce stade - obtenez plus de liens vers votre contenu (de préférence en vous associant à un site existant qui propose un contenu ciblé par région pour vous connecter à votre du contenu régional, par exemple), permet à davantage de personnes de naviguer sur votre site (certains auront la barre d'outils Google installée pour que leur trafic puisse favoriser la découverte de pages) et, si possible, faites parler de votre entreprise aux actualités ou dans les communautés des personnes qui en ont besoin (si vous prévoyez de facturer certains services, envisagez de faire de la publicité pour une période d'essai gratuite afin de susciter l'intérêt).

danlefree
la source
3

Je sais qu'il y a deux options possibles qui peuvent être utiles.

Un: Un petit truc que j'ai essayé avec un site Web qui avait trois millions de pages qui fonctionnait étonnamment bien était ce que mon collègue a inventé une boucle d'exploration. Vous devrez peut-être manipuler un peu l'idée pour l'adapter à votre site.

Fondamentalement, nous avons fixé un jour où nous ne pensions pas recevoir beaucoup de trafic (Noël) et nous avons littéralement copié une liste de chaque lien sur notre site et collé chacun dans un fichier php appelé sur chaque page Web. (Le fichier php de la barre latérale)

Nous sommes ensuite passés à la console de recherche Google (anciennement les outils Google pour les webmasters) et avons demandé à Google de récupérer une URL et d'explorer chaque lien sur cette page URL.

Étant donné que vous avez tellement de liens et que les pages qui contiennent des liens contiennent également une quantité abondante de liens, Google entre en boucle et explore le site de manière beaucoup plus rapide. J'étais sceptique au début, mais cela a fonctionné comme un charme.

Avant de faire cela, vous devez vous assurer que vous disposez d'une configuration de base de données extrêmement efficace et d'un serveur très puissant, sinon cela pourrait surcharger le serveur ou nuire à votre référencement en raison des temps de chargement des pages lents.

Si ce n'est pas une option pour vous, vous pouvez toujours consulter les API de la console cloud de Google. Ils ont une API de console de recherche pour que vous puissiez écrire un script pour ajouter chaque page Web comme sa propre instance de site Web dans la console de recherche ou pour que Google récupère chacune de vos URL.

Les API peuvent se compliquer extrêmement rapidement mais sont un outil étonnant lorsqu'ils sont bien utilisés.

Bonne chance!

Zak
la source
1
Lier vos pages ensemble est une excellente stratégie pour les explorer toutes. Bien mieux que d'essayer de s'appuyer sur un plan du site XML. Cependant, je laisserais ces liens en place tout le temps plutôt que le jour de Noël. Dès que vous supprimez les liens, Google remarquera les pages perdues et cessera de les indexer.
Stephen Ostermiller
2

Jouer avec le système n'est jamais une bonne idée si vous dirigez une entreprise légitime qui valorise sa réputation en ligne. De plus, si votre site fournit véritablement de la valeur, plus il est long (je suppose que vous faites une forme de marketing?), Plus il accumulera de backlinks, donc votre PR augmentera et votre taux d'exploration augmentera.

De plus, si vous avez une bonne structure de liens sur votre site (toutes vos pages sont détectables en un nombre raisonnable de clics / liens), il vous suffit de soumettre les index principaux via le plan du site. Une fois ces pages indexées par Google, elles seront explorées par Google, et Google indexera le reste des pages par lui-même.

Lèse majesté
la source
+1 RE: jouer au système - bien que je pense qu'il convient de noter qu'il existe de nombreuses alternatives aux jeux du système qui permettent à un webmaster de générer des backlinks légitimes (qui seront utiles aux visiteurs) vers son site.
danlefree
@danlefree: Certainement. Je faisais seulement référence à l'achat de noms de domaine expirés pour obtenir leur PR / trafic résiduel. Mais si vous pouvez faire de la publicité pour votre site, envoyer des communiqués de presse aux publications commerciales, aux sites d'examen des candidatures, etc., ce sont de très bons moyens pour générer des backlinks légitimes.
Lèse majesté
2

Une chose que je remarque avec les outils Google pour les webmasters, c'est qu'ils commencent par autoriser un taux d'exploration maximal d'environ deux requêtes par seconde. Puis environ une semaine plus tard, s'ils constatent que le site Web est fréquemment consulté, ils vous permettront d'augmenter votre limite.

Je co-gère un site Web qui héberge plus de 500 000 images originales et parfois, ma limite maximale est de 10 demandes par seconde car j'obtiens au moins 700 à 1 000 visites par jour, sinon plus.

Donc, ce que vous voudrez peut-être faire, c'est vérifier avec les outils pour les webmasters chaque semaine pour voir si vous pouvez augmenter la limite d'exploration. Lorsque vous modifiez la limite d'exploration, Google la réinitialisera à ses paramètres préférés après un certain jour (ce que l'interface vous montrera). Ce jour-là, augmentez à nouveau la limite.

Mike
la source
2

J'ai eu l'expérience de ce genre de site. J'ai dirigé un annuaire d'articles il y a de nombreuses années et le% de pages indexées et, plus important encore, était en réalité directement corrélé au nombre de domaines référents - c'est-à-dire le nombre de sites Web uniques qui s'y connectent. Un grand site avec des millions de pages a besoin de plusieurs milliers des domaines raisonnables se reliant pour fonctionner de leur propre chef.

Cela ne va pas se produire du jour au lendemain, mais si vous créez 5 à 10 bons liens par jour dans le temps, cela commencera à se produire, alors vous serez en mesure de générer des revenus et de l'utiliser pour payer une tenue de référencement professionnelle pour créer des liens. pour vous.

Je suis en train de créer un site similaire riche en informations pour le moment, à ses débuts, mais j'ai le même problème avec environ 4 millions de pages de contenu avec un taux d'exploration de 700 à 1 000 pages par jour.

Adrian Lawrence
la source