Une entreprise a-t-elle le droit implicite d'explorer mon site Web?

30

J'ai découvert que McAfee SiteAdvisor a signalé mon site Web comme "pouvant avoir des problèmes de sécurité" .

Peu m'importe ce que McAfee pense de mon site Web (je peux le sécuriser moi-même et sinon, McAfee n'est certainement pas la société à laquelle je demanderais de l'aide, merci beaucoup). Ce qui me dérange cependant, c'est qu'ils ont apparemment exploré mon site Web sans ma permission.

Pour clarifier: il n'y a presque pas encore de contenu sur mon site Web, juste un espace réservé et quelques fichiers pour mon usage personnel. Il n'y a pas de ToS.

Ma question est la suivante: McAffee a-t-il le droit de télécharger du contenu depuis / explorer mon site Web? Puis-je leur interdire de le faire? J'ai le sentiment qu'il devrait y avoir une sorte de principe "Mon château, mes règles", mais je ne sais pratiquement rien de tout ce qui est légal.

Mise à jour: j'aurais probablement dû mentionner que mon fournisseur de serveur m'envoie régulièrement des e-mails concernant les conclusions de SiteAdvisor - c'est ainsi que j'ai découvert leur `` note '' et c'est pourquoi je suis agacé.

Kralyk
la source
78
Diriez-vous que les humains ont le droit de consulter votre site Web? Si oui, pourquoi discriminer les serviteurs de robots humains? Sinon, pourquoi est-ce un site Web en premier lieu?
jwodder
47
Comment avez-vous découvert que SiteAdvisor a signalé votre site? Vous n'avez pas consulté leur site, n'est-ce pas? Si oui, qu'est-ce qui vous a donné le droit?
Joe Sniderman
17
Soit dit en passant, je ne rejetterais pas le rapport SiteAdvisor si légèrement, en général quand j'ai vu des rapports similaires, ils étaient légitimes. Le cas le plus courant est d'avoir une version plus ancienne / non corrigée de CMS populaires (WordPress, Joomla, Drupal, ...) exploitée par un script automatique pour placer du contenu malveillant (pages "trampoline" utilisées pour le spam / phishing, hébergement de virus liés dans courriels frauduleux, exploits de navigateur, vous l'appelez); vous hébergez peut-être de mauvaises choses sans même le savoir. De plus, étant donné que de nombreux utilisateurs s'appuient sur de tels outils, vous souhaitez généralement avoir un dossier vierge, car de tels avertissements peuvent effrayer les utilisateurs.
Matteo Italia
35
Si vous voulez verrouiller quelque chose, verrouillez-le. Vous avez mis le site Web en place et configuré le serveur pour répondre aux demandes GET. Vous avez invité tout le monde - littéralement, tout le monde. Ce n'est pas un droit "implicite", c'est le fonctionnement des serveurs Web. Sauf, comme indiqué, robots.txt, ou les restrictions IP, ou le contenu limité aux utilisateurs connectés.
mfinni
20
@RolazaroAzeveires: Les processus automatisés sont corrects non pas parce que le fait d'autoriser les visiteurs humains implique cela, mais parce que, à moins d'attaques, ils demandent gentiment: "puis-je avoir ces fichiers?" et vous avez configuré votre serveur Web pour répondre: "Bien sûr! Et voilà. Besoin d'autre chose?" Ce n'est pas ramper sans votre permission, c'est ramper avec votre permission.
Marcks Thomas

Réponses:

49

Il existe un précédent juridique à cet égard. Field c. Google Inc., 412 F. Supp. 2d 1106, (US Dist. Ct. Nevada 2006). Google a obtenu un jugement sommaire basé sur plusieurs facteurs, notamment le fait que l'auteur n'utilisait pas de fichier robots.txt dans les métabalises de son site Web, ce qui aurait empêché Google d'explorer et de mettre en cache des pages que le propriétaire du site Web ne voulait pas indexer.

Décision pdf

Il n'y a AUCUNE loi américaine traitant spécifiquement des fichiers robots.txt; cependant, une autre affaire judiciaire a créé un précédent qui pourrait éventuellement conduire à ce que les fichiers robots.txt soient considérés comme contournant les mesures électroniques intentionnelles prises pour protéger le contenu. Dans HEALTHCARE ADVOCATES, INC Vs HARDING, EARLEY, FOLLMER & FRAILEY, et. al, Healthcare Advocates a fait valoir que Harding et al ont essentiellement piraté les capacités de la Wayback Machine afin d'accéder aux fichiers mis en cache des pages qui avaient des versions plus récentes avec des fichiers robots.txt. Alors que Healthcare Advocates a perdu cette affaire, le tribunal de district a noté que le problème n'était pas que Harding et al "avaient choisi le verrou", mais qu'ils avaient eu accès aux fichiers en raison d'un problème de chargement du serveur avec la Wayback Machine qui autorisait l'accès à la fichiers mis en cache quand il ne devrait pas

Décision judiciaire pdf

Il est seulement une question de temps à mon humble avis jusqu'à ce que quelqu'un prend cette décision et se retourne sur son côté: Le tribunal a indiqué que robots.txt est un verrou pour empêcher l' exploration et la contourner est de choisir le verrou.

Beaucoup de ces poursuites, malheureusement, ne sont pas aussi simples que "J'ai essayé de dire à votre robot qu'il n'est pas autorisé et votre robot a ignoré ces paramètres / commandes." Il y a une foule d'autres problèmes dans tous ces cas qui affectent finalement le résultat plus que le problème central de savoir si un fichier robots.txt doit être considéré comme une méthode de protection électronique en vertu de la loi américaine DCMA.

Cela étant dit, il s'agit d'une loi américaine et quelqu'un de Chine peut faire ce qu'il veut - non pas à cause du problème juridique, mais parce que la Chine n'appliquera pas la protection des marques et des droits d'auteur aux États-Unis, alors bonne chance.

Pas une réponse courte, mais il n'y a vraiment pas de réponse courte et simple à votre question!

jcanker
la source
1
Ceci est une excellente réponse, merci. La chose que je n'aime pas à propos de robots.txt, c'est que ce n'est pas une norme réelle (norme nevermind requise par la loi). Ces entreprises peuvent tout simplement l'ignorer. Je n'aime pas être dans la position où ils me disent "Vous devriez mettre en place un fichier robots.txt et peut-être que nous n'explorerons pas votre site Web, mais peut-être que nous le ferons, nous faisons ce que nous voulons." Ce serait formidable s'il y avait une norme pour spécifier les ToS du site Web dans les métadonnées du site Web.
kralyk
5
@jcanker Ces deux cas concernent des réclamations pour atteinte aux droits d'auteur. Dans le comportement des robots d'exploration qui mettent en cache du contenu, comme ceux exploités par Google et archive.org, il est parfaitement logique que des problèmes de droits d'auteur entrent en jeu. Mais McAfee SiteAdvisor ne copie pas et ne stocke pas (et encore moins rend public) le contenu des sites Web auxquels il accède, n'est-ce pas? Bien que je ne suis pas un avocat, je pense que cette distinction nous donne raison de très doute fortement que les deux cas est de toute façon applicable au comportement d'un tel système SiteAdvisor, peu importe si oui ou non il respecte robots.txt.
Eliah Kagan
12
@kralyk - re "Ces entreprises peuvent tout simplement l'ignorer.". Hé bien oui. C'est ainsi que fonctionne Internet. Et même si c'était plus fondamental, il serait trivial, absolument trivial, pour un robot de prétendre que c'est un être humain accédant à vos pages Web. Vous demandez techniquement l' impossible . En effet, si vous réfléchissez à ce que vous demandez, ce que vous cherchez n'est pas logique, cela n'a pas de sens. Sauf dans une distinction juridique. Vos seules protections possibles sont (1) la dissimulation de contenu important derrière l'authentification de connexion utilisateur et (2) la protection juridique, comme indiqué dans cette réponse.
ToolmakerSteve
@ToolmakerSteve Je sais qu'il est techniquement impossible d'interdire complètement les robots. C'est une situation différente cependant - je ne cherche pas de solution technique, je demande si c'est légal, notez également que McAffee m'a informé qu'ils explorent mon site Web, je n'ai pas besoin de le détecter.
kralyk
Il existe également un précédent juridique dans l'autre sens: ebay v edge du soumissionnaire
John
91

Oui, ils ont le droit de le faire - vous avez créé un site Web public, qu'est-ce qui vous fait penser qu'ils ne le font pas?

Vous aussi, bien sûr, avez le droit de les arrêter. Vous pouvez leur demander de ne pas explorer votre site Web avec robots.txt ou de les empêcher activement d'y accéder avec quelque chose comme fail2ban .

Sinon, ne vous en faites pas et continuez votre vie. Cela ne fait de mal à rien et est définitivement du côté bénin du sondage sur Internet.

Dan
la source
4
> "Oui, ils ont le droit de le faire - vous avez créé un site Web public, qu'est-ce qui vous fait penser qu'ils ne le font pas?" Eh bien, si quelque chose est techniquement possible, cela ne signifie pas nécessairement que c'est légal. Par exemple, les ToS de YouTube interdisent le téléchargement de vidéos, donc, même si c'est techniquement très facile, ce n'est toujours pas autorisé. Je ne m'inquiéterais pas pour SiteAdvisor si ce n'était pour mon fournisseur qui m'envoie des e-mails concernant mon site "peut-être avoir des problèmes" ...
kralyk
16
@kralyk - si vous ne voulez pas que le public (qui inclut McAfee) le regarde, ne le mettez pas sur le web. C'est si simple. VOUS CONTRÔLEZ VOTRE SITE WEB. Personne ne vous oblige à le mettre là-bas, et si vous ne voulez pas que les gens le regardent, alors ne le mettez pas là-bas. Si vous allez le publier, alors ne soyez pas surpris que les gens (y compris ceux qui veulent vous vendre des choses) le regardent. Arrêtez d'essayer de transformer vos désirs en problème de quelqu'un d'autre.
Michael Kohne
9
@kralyk: sérieusement? Vous pensez vraiment que le problème ici est un double standard? Personne chez McAfee ne connaît ni ne se soucie de votre site Web. Ils ne devraient pas non plus. Il serait absurde de s'attendre à ce que quiconque rampe sur le Web lise les ToS de chacun. C'est pourquoi robot.txt a été inventé.
ToolmakerSteve
3
@kralyk L'accès aux ressources en question doit être bloqué pour que le ToS soit à peu près significatif. Un robot explorant vos pages non protégées est complètement différent de celui qui enregistre un compte, reconnaît un ToS, puis transmet les informations d'identification à un robot.
Andrew B
4
@kralyk - Quel type de TOS avez-vous sur votre site que vous pensez que McAfee viole (ne respecte pas)?
Kevin Fegan
11

Que ce comportement soit éthique ou non n'est pas parfaitement clair.

Le fait d'explorer un site public n'est pas contraire à l'éthique (à moins que vous ne l'ayez explicitement interdit d'utiliser un fichier robots.txt ou d'autres mesures technologiques et qu'ils les contournent).

Ce qu'ils font est l'équivalent approximatif de vous appeler à froid, tout en annonçant au monde que vous n'êtes peut-être pas en sécurité. Si cela nuit à votre réputation et est injustifié, c'est contraire à l'éthique; s'il le fait et que la seule résolution pour cela implique que vous les payiez, c'est du racket. Mais je ne pense pas que ce soit ce qui se passe.

L'autre fois que cela devient contraire à l'éthique, c'est lorsque quelqu'un explore votre site pour s'approprier votre contenu ou vos données, puis le représente comme le leur. Mais ce n'est pas non plus ce qui se passe.

Donc, je suggère que leur comportement dans ce cas est éthique, et vous pouvez aussi très probablement l'ignorer.

Leur comportement connexe de spam vous est contraire à l'éthique si vous n'avez aucune relation avec eux et n'avez pas demandé les e-mails, mais je soupçonne qu'ils ont un désabonnement fonctionnel.

Faucon Momot
la source
1
Je ne suis pas sûr d'appeler une Disallowdirective dans un fichier robots.txt une "mesure technologique interdite". robots.txt agit comme une demande de courtoisie, et bien que les bots bien élevés s'y conforment, il n'y a aucune obligation et aucune sécurité réelle impliquées. En fait, les bots mal comportés pourraient bien prendre une entrée dans robots.txt comme une invitation à explorer ce chemin spécifique ...
un CVn
2
@ MichaelKjörling, seulement la moitié est d'accord. Il n'y a pas de véritable sécurité mais il y a une obligation. Il s'agit d'un panneau interdisant l'accès, et votre obligation est de ne pas entrer dans la mesure où vous n'êtes pas autorisé à entrer.
Ben
C'est un panneau "garder dehors", sans serrure. Essayez cela chez vous et voyez combien de sympathie vous obtenez après que les voleurs soient venus! (En fait, c'est un panneau "garder à l'écart" qui répertorie explicitement les portes et fenêtres déverrouillées dont vous voulez que les gens ne sortent pas.)
Randy Orrison
2

Approche technique pour empêcher certaines personnes ou entreprises d'accéder à votre site Web:

Vous pouvez empêcher des adresses IP spécifiques ou des plages d'adresses d'accéder aux pages de votre site. C'est dans le fichier .htaccess (si votre site fonctionne sur Apache Web Server).

http://www.htaccess-guide.com/deny-visitors-by-ip-address/

Demandez à votre serveur Web de consigner les adresses IP à partir desquelles il est accessible et recherchez ces adresses IP pour trouver celles associées à McAfee. Probablement facile à dire maintenant, si vous n'avez pas de visiteurs réguliers.

Bien sûr, ils pourraient changer d'adresses IP à l'avenir. Néanmoins, si vous recherchez les adresses IP que vous trouvez, pour voir à qui elles appartiennent, vous pourrez peut-être en savoir plus sur un bloc entier d'adresses appartenant à McAfee et les bloquer toutes.


Pour une base légale à cet effet:

"Les propriétaires de sites Web peuvent bloquer légalement certains utilisateurs, règles de justice"

http://www.computerworld.com/s/article/9241730/Website_owners_can_legally_block_some_users_court_rules

(Si votre site Web est personnel, personne ne contesterait votre droit de bloquer certains utilisateurs. Mais s'il s'agit d'un site Web pour une entreprise, il y a des arguments juridiques et moraux des deux côtés de cette discussion. Plus votre entreprise est petite, plus il est facile il doit être légalement protégé - et moins personne d'autre ne se soucierait de toute façon de se plaindre.)


Vous pourriez également être intéressé par "Refuser les visiteurs par référent".

"Si vous avez déjà regardé vos journaux et remarqué une augmentation surprenante du trafic, mais aucune augmentation des demandes de fichiers réelles, c'est probablement quelqu'un qui pince le contenu (comme les fichiers CSS) ou quelqu'un qui tente de pirater votre site Web (cela peut simplement signifier essayer pour trouver du contenu non public). "

http://www.htaccess-guide.com/deny-visitors-by-referrer/

OutilleurSteve
la source