Un client veut que nous projetions des machines de travail pour la pornographie. C'est possible?

30

Un client de longue date nous a demandé d'aider à filtrer la pornographie de ses machines de travail. Ils s'inquiètent de leur responsabilité si des matériaux sensibles étaient trouvés. Leurs principales préoccupations (pour des raisons évidentes) sont les fichiers vidéo, audio et image. Si possible, ils aimeraient également numériser des documents textuels à la recherche de contenu inapproprié. Ils ont une hiérarchie de contenu non professionnel commençant par un caractère manifestement illégal (je n'ai pas à énumérer les détails), passant à manifestement offensant, et incluant également des choses qui peuvent être offensantes pour certains - pensez à des publicités en lingerie, à des cartes de blagues avec fissures dans les fesses et tout ce qui concerne Howie Mandel.

Mes questions sont:

  • Est-ce éthique? Je pense que c'est parce que chaque employé accepte légalement que sa machine de travail appartient à l'entreprise et est soumise à des recherches. Les projections ne doivent pas avoir lieu sur des machines personnelles mises au travail.
  • Est-ce faisable? J'ai fait beaucoup de traitement / indexation d'images mais cela semble être un tout nouveau monde de complexité.
  • Des références à des techniques réussies pour découvrir le porno?
  • Est-il approprié pour moi d'archiver les résultats lorsque quelque chose est découvert?
Scant Roger
la source
29
Quel porno utilisera pour tester cela?
ChaosPandion
12
Je veux être testeur pour ce projet !!
Mayank
56
Créez un script qui publie toutes les images qu'il trouve sur 4chan; si d'autres membres répondent "MOAR!", vous savez que c'est du porno. Si le script est banni, c'est probablement CP.
user281377
8
Il faudrait penser qu'il y a déjà des millions de produits commerciaux disponibles pour cela.
GrandmasterB
34
Honnête question: est-ce réellement un problème probable? Du porno sur l'ordinateur de travail? Je veux dire… qui fait ça? De plus, comment ont-ils l'intention de gérer le contenu pornographique accidentel? Mon GF a récemment eu un virus sur son PC de travail qui a redirigé des requêtes arbitraires de Google vers des sites pornographiques et très souvent, je vais accidentellement taper "python.com" [NSFW!] Au lieu de "python.org"… De plus, si c'est le cas en fait un problème, je pense que cela trahit un problème de confiance et / ou de professionnalité plus fondamental dans l'entreprise. Traitez cela au lieu de rechercher les ordinateurs.
Konrad Rudolph

Réponses:

125

Vous pouvez le faire avec 90% Headology , 10% software.

Tout d'abord, analysez en douceur les ordinateurs des employés, créez une base de données de fichiers et de tailles pour chaque employé.

Fuite ensuite un mémo indiquant que tous les PC seront analysés pour trouver du contenu douteux, c'est-à-dire que les patrons ont un programme similaire à Shazam qui peut identifier le porno, etc.

Puis, quelques jours plus tard, recherchez à nouveau les fichiers et les tailles sur les ordinateurs. Regardez tous les fichiers supprimés, s'agit-il de fichiers vidéo ou d'images? Ce sont alors les employés que vous devez surveiller.

Analysez régulièrement les PC de ces employés à la recherche d'images et de films, et vérifiez-les manuellement pour le contenu douteux.

binaire Worrier
la source
9
Et +1 pour avoir mentionné la tête.
TRiG
5
@Binary: l'approche en deux étapes est en effet impressionnante.
Matthieu M.
2
+1de moi pour la référence à Granny!
2011
2
@Anonymous Pendant que vous y êtes. Créez une interface graphique dans Visual Basic pour voir si vous pouvez suivre une adresse IP. youtube.com/watch?v=hkDD03yeLnU . Sérieusement, c'est une façon géniale de mettre en place un script d'émission télévisée de second ordre.
Evan Plaice
2
quelle mauvaise idée! j'adore ♥
Chani
75

Il s'agit d'une tâche évidente du réseau neuronal. Vous avez d'abord besoin d'un grand ensemble d'images de formation sélectionnées par des experts de votre entreprise .....

Une solution plus efficace consiste à annoncer que vous vérifierez la machine de tout le monde pour le porno NEXT semaine / mois / peu importe, puis écrivez une application simple qui n'exerce que le disque. Je garantis que les machines auront été nettoyées d'ici là.


ps - Quelques points «sérieux» - vous ne voulez vraiment rien trouver.

Si vous trouvez quelques images dans le cache d'un navigateur, alors elles ont peut-être trouvé un mauvais lien ou une popup douteuse - vous vous souvenez du professeur renvoyé sur whitehouse.com? Si vous les licenciez / les disciplinez pour cela, il y aura une réaction brutale des travailleurs / syndicats. Comment fonctionnerait votre entreprise si chaque clic devait être soumis à l'approbation juridique avant que vos employés ne recherchent une question ou vérifient un prix en ligne?

Si vous trouvez une pile de porno sur une machine, comment allez-vous prouver qu'elle a été mise en place par cet employé? Avez-vous le genre de systèmes de sécurité et d'audit qui résisteraient aux tribunaux? Utilisez-vous (ou connaissez-vous même) un système d'exploitation sur lequel un administrateur système ne pourrait pas les placer et les faire ressembler aux fichiers de l'utilisateur?

De plus, d'après mon expérience, les emplacements les plus courants pour les vidéos porno se trouvent sur les ordinateurs portables des CxO et des VP principaux.

Il est préférable de simplement faire en sorte que les fichiers disparaissent à l'avance.

Martin Beckett
la source
+1 - bien que je combinerais cela avec un contrôle humain basé sur%. Peut-être en sélectionnant au hasard 0,1% des postes de travail pour une inspection réelle.
Drew
@nikie: Martin préparait une blague sur l'ensemble d'entraînement.
Andrew Grimm
C'est une solution très drôle et précise :)
crosenblum
10
Attendez. Comment saviez-vous que j'ai mis ma cachette porno sur l'ordinateur portable du PDG?
Jaap
1
Je serais surpris si les gens supprimaient vraiment tout leur porno lorsqu'ils étaient confrontés à la perspective que leurs machines soient analysées. Le programmeur le ferait probablement, mais les autres personnes IME sont vraiment, euh, "étranges" concernant de telles choses. Cependant, vous pouvez combiner cela avec l'idée de Binary et regarder de plus près les machines où de nombreux MB ont été supprimés. Néanmoins, +1de ma part pour l'observation que vous ne voulez pas vraiment trouver quelque chose.
sbi
8

Cette approche du contrôle est certainement douloureuse pour les employés et les informaticiens. Une fois que quelque chose entre dans la machine de l'employé, il n'y a aucun moyen sûr de le détecter. Vous devez d'abord l'empêcher de pénétrer dans la machine.
La meilleure pratique connue en la matière est évidemment le contrôle des sites / domaines qui peuvent être visités. Cette liste doit être disponible quelque part sur le net. En dehors de cela, vous pouvez également suivre le nombre d'images, de vidéos que l'employé a téléchargées et d'où elles proviennent.
Il est possible que le matériel provienne d'un autre site que le Web, comme un disque dur externe. Il peut y avoir une analyse aléatoire une fois par mois du système où vous pouvez choisir au hasard certaines des vidéos et des images et les vérifier manuellement. Je ne sais pas comment cela peut être fait. Mais l'automatisation de la vérification des images et des vidéos est certainement hors de portée et sera certainement erronée.
En fait, je ne suis pas très favorable à l'idée d'empêcher les employés de faire des trucs personnels. Vous devez faire confiance à vos employés pour cela. Vos employés doivent être suffisamment occupés au bureau pour ne pas avoir de temps pour cela. Le plus de soucis est que l'employé ne fait pas son travail correctement? Ou a-t-il installé des logiciels piratés ou piratés?

Manoj R
la source
1
Je suis d'accord que les développeurs - et les autres créatifs - ne devraient pas avoir de machines verrouillées. Cependant - et croyez-moi quand je dis cela - lorsque plus de 200 employés traitent des documents de workflow, vous ne voulez pas donner à ces gars-là tout ce qui peut les distraire, y compris un navigateur. Oui, 90% des gens travaillent dur et ne seront pas distraits, mais cela signifie que vous aurez plus de 20 gobshites tirant la pisse et étant improductifs.
Binary Worrier
6
ces 10% seront de toute façon improductifs. Si vous ne naviguez pas sur des sites Web, alors jouez à des jeux, lisez, faites des gaffes, restez assis à vous ennuyer, etc.).
jwenting
2
Les gens font leur travail ou non. Ils sont plus faciles à repérer lorsque vous avez 200 à effectuer des tâches similaires qui peuvent être mesurées.
JeffO
2
Aux États-Unis, il y a des problèmes juridiques liés à la pornographie sur les ordinateurs de l'entreprise, et il y a de très graves problèmes juridiques liés à la pornographie juvénile. Il est plus sûr d'avoir une politique interdisant la pornographie et de prendre des mesures pour la désactiver.
David Thornley
7

Il existe un certain nombre de produits sur le marché qui effectuent un "filtrage de contenu" de différentes formes. (Une recherche Google sur des termes évidents fait apparaître des candidats évidents.) Il est probablement préférable d'utiliser l'un de ces produits que de créer de nombreux logiciels de numérisation / filtrage à partir de zéro. Une autre option est de simplement regarder aux frontières; par exemple en surveillant les e-mails externes et le trafic Web. Encore une fois, il existe des produits qui font ce genre de chose.

Bien qu'il ne fait aucun doute qu'il est éthique pour une entreprise d'analyser ses ordinateurs à la recherche de "mauvaises choses", cela ne signifie pas qu'il n'y a pas de problèmes.

Premier numéro:

  • La détermination de ce qui est et de ce qui n'est pas du "contenu répréhensible" est subjective.
  • Un logiciel de détection d'images, de vidéos contenant (disons) des «représentations du corps nu» est (AFAIK) susceptible d'être peu fiable, entraînant des faux positifs et des faux négatifs.

Donc ... cela signifie que quelqu'un dans l'organisation de votre client doit revoir les "hits". Cela coûte de l'argent.

Deuxième problème: il peut y avoir une explication innocente. Le fichier aurait pu être téléchargé par accident, ou il aurait pu être planté par un collègue vindicatif. S'il y a une explication innocente, l'organisation du client doit faire attention à ce qu'il fait / dit. (OK, ce n'est pas vraiment votre problème, mais vous pourriez faire face au lavage à contre-courant.)

Troisième problème: nonobstant le fait que l'entreprise a le droit de surveiller les contenus répréhensibles, de nombreux employés trouveront cela désagréable. Et s'ils sont trop loin, cela aura un impact sur le moral des employés. Certains employés "marcheront". D'autres peuvent prendre des mesures de protestation ... par exemple en essayant de créer de nombreux faux positifs. (Encore une fois, pas vraiment votre problème, mais ...)

Quatrième problème: les gens peuvent cacher du matériel répréhensible en le chiffrant, en le mettant sur un support portable ou amovible, etc. Les gens peuvent truquer les métadonnées pour donner l'impression que quelqu'un d'autre est responsable.

Stephen C
la source
1
Le PO a déclaré que c'était pour des questions de responsabilité, ce qui est très logique aux États-Unis. Cela signifie retirer les informations des ordinateurs, sans nécessairement blâmer les gens.
David Thornley
Je dirais que c'était plus que ça. Considérez la fin de la liste du contenu «pas au travail» dans la question. On dirait que quelqu'un a un "agenda" ...
Stephen C
@David: il s'agit TOUJOURS de blâmer les gens. Si vous avez un problème de responsabilité potentiel, trouver quelqu'un à blâmer ("cette personne a agi en violation de la politique de l'entreprise, et nous pouvons le prouver, est donc personnellement responsable plutôt que nous en tant qu'entreprise") devient la méthode de travail standard. En fait, c'est ce que la plupart des personnes occupant des postes de responsabilité dans de nombreuses entreprises passent une bonne partie de leur temps à faire, en essayant de trouver des personnes à blâmer pour tout ce qui peut mal tourner et en veillant à ce que personne ne puisse les blâmer pour les problèmes qu'ils se produisent. in.
jwenting
6

Sur les aspects juridiques, en France:

Le patron possède les ordinateurs et la connexion Internet: il peut faire tout ce qui lui plaît.

MAIS, la vie privée des employés ne peut pas être violée. Si un répertoire sur l'ordinateur est étiqueté PERSONNEL, le patron n'est pas autorisé à le scanner.

La seule façon de contourner cela est d'obtenir des éléments de preuve que l'employé stocke du matériel illégal et d'obtenir un tribunal de demander une analyse de l'ordinateur (Notez que la pornographie n'est pas illégale en France.)

mouviciel
la source
Sauf dans la mesure où il s'agit de matériel protégé par le droit d'auteur, tout élément peut être considéré comme un vol.
TRiG
6
En France, il y a la notion d'exception de copie privée: vous n'êtes pas autorisé à copier du matériel protégé par le droit d'auteur, mais les titulaires de droits d'auteur ne peuvent rien réclamer si votre copie est utilisée à titre privé.
mouviciel
Je veux vivre en France ... sauf que je ne parle pas français!
Type anonyme
5

Si les employés ont convenu que leur machine de travail appartient à l'entreprise et peut faire l'objet d'une recherche, alors oui, c'est légal. Pour preuve, l'archivage des fichiers serait très probablement nécessaire.

Quant à savoir comment trouver le matériel. Vous pourriez:

  1. Tout d'abord, scannez les noms de fichiers pour un certain ensemble de mots (porno, lesbiennes, etc.)
  2. Numérisez des documents texte pour le même ensemble de mots
  3. Pour les images, vous pouvez trouver la couleur moyenne de l'image, et si cette couleur se trouve dans une plage que la plupart qualifieraient de couleur `` chair '', puis marquez l'image (une vérification double de ces images signalées sera probablement nécessaire ). Je ne voudrais pas signaler quelqu'un pour une image qui finit par être une photo de famille de la plage.

Si vous analysez les fichiers lorsqu'ils entrent dans l'ordinateur (par exemple, si le programme est chargé sur chaque machine de travail et enregistrez les cas signalés dans une base de données centrale), je ne pense pas que ce serait trop envahissant (à part la méfiance flagrante l'employeur a clairement pour ses employés).

Avec les fichiers vidéo, je ne suis pas sûr à 100%. Peut-être une approche similaire à celle de la numérisation d'image (choisissez des images aléatoires et numérisez pour un certain niveau de couleur «chair»).

La numérisation des fichiers audio semble entrer dans la reconnaissance vocale, ce qui est une toute autre boîte de vers. La numérisation du nom de fichier, cependant, serait facile et pourrait se faire comme avec les documents, les images et la vidéo.

Ryan
la source
Ouais, je pensais dans le même sens. Les tons chair sont durs avec toutes les variétés. Sans oublier qu'un gros coup de tête de quelqu'un (comme mon gravatar) est susceptible de déclencher l'avertissement du rapport chair / non-chair. Un début génial, cependant.
Scant Roger
trop de risques de faux positifs (en partie en fonction de l'entreprise impliquée).
jwenting
Il y a un espace colorimétrique où la plupart des tons de peau humaine tombent dans une plage donnée. YCbCr si je me souviens bien. Découpez l'image en blocs et si dans la plupart des blocs la valeur moyenne des pixels se situe dans la plage, marquez-la comme une photo "skin".
Vitor Py
Il y a un autre problème. La personne chargée de vérifier la vidéo peut vous poursuivre. Je ne voudrais certainement pas faire cela. (Tout le porno n'est pas du goût de tous.)
Christopher Mahan
Le barrage vert (oui, du gouvernement du grand frère de l'est) est censé utiliser OpenCV pour ses capacités de détection de visages. Cela générera toujours beaucoup de faux positifs, même lorsqu'il est combiné avec la détection du teint.
rwong
4

Comme l'a dit @Ryan, l'analyse d'image peut se concentrer sur l'analyse des couleurs.

Faisabilité? Ma sœur travaille dans une zone du gouvernement où ils obtiennent une forme de vérification chaque année, et une fois pour le porno. Elle (géophysicien) avait plusieurs faux positifs (roches roses).

Rick Berge
la source
4

Il existe d'importantes recherches récentes sur la détection de la pornographie à l'aide de méthodes de classification conventionnelles. Des exemples sont disponibles ici et ici .

Nishant
la source
3
  • Est-ce éthique?

Dépend de la mise en œuvre et des attentes raisonnables des employés. Par exemple, si votre logiciel scanne n'importe quelle machine connectée au réseau, alors il y a une exigence supplémentaire qu'infra doit empêcher les machines non autorisées de se connecter. (Peut-être que cela devrait être évident, mais il est souvent négligé sur les réseaux que j'ai vus.)

  • Est-ce faisable? J'ai fait beaucoup de traitement / indexation d'images mais cela semble être un tout nouveau monde de complexité.

Est-il possible de faire un test de drogue pour chaque employé? Peut-être que oui, mais je doute de sa valeur. Je le randomiserais. Informez les employés que leurs machines peuvent être analysées à tout moment pour rechercher du contenu inapproprié.

  • Des références à des techniques réussies pour découvrir le porno?

Je ne touche pas à celui-ci. Je ne pense pas pouvoir contrôler mon sens de l'humour. Mais attention au problème de Scunthorpe lors de la recherche de texte.

  • Est-il approprié pour moi d'archiver les résultats lorsque quelque chose est découvert?

Celui-ci me concerne le plus et je demanderais à un avocat. Je soupçonne que si vous trouvez du contenu illégal, vous pourriez techniquement être légalement obligé de le divulguer. C'est mauvais, surtout si l'utilisateur n'a été exposé à aucune faute réelle de sa part. Vous (client) aurez besoin de véritables conseils juridiques sur la façon de gérer cela. Faites participer les RH et les avocats.

kojiro
la source
2

D'un point de vue purement technique: cela ressemble à un problème de reconnaissance de catégorie d'objet. Je n'ai jamais rien fait de tel, mais d'après ce que j'ai lu, les systèmes de reconnaissance des catégories de pointe fonctionnent comme ceci:

  • Vous recherchez d'abord un grand nombre de points d'intérêt (par exemple en utilisant un détecteur de coin Harris, des points extrêmes de filtres LoG / DoG dans l'espace d'échelle; certains auteurs suggèrent même de choisir des points aléatoires)
  • Ensuite, vous appliquez une transformation d'entité à chaque point (quelque chose comme SIFT, SURF, GLOH ou bien d'autres)
  • Combinez toutes les fonctionnalités que vous avez trouvées dans un histogramme (Bag-Of-Features)
  • Utilisez des algorithmes d'apprentissage automatique standard (comme les machines à vecteurs de support) pour apprendre la distinction entre les catégories d'objets à l'aide d'un grand nombre d'images d'apprentissage.
nikie
la source
2

Le système d'exploitation informatique de chacun a probablement été installé à partir d'une image disque.

  1. commencez par l'image du disque et obtenez une liste des fichiers que vous n'avez probablement pas besoin de numériser.
  2. obtenir une liste de tous les autres fichiers sur chaque PC.
  3. extraire les fichiers réels de 10 à 20 machines aléatoires et les utiliser comme banc d'essai
  4. rechercher des articles dans un dictionnaire de mots grossiers et douteux (chaudasses, cruches, «à peine légal», blague, etc.)
  5. Voir la vidéo - quelqu'un devrait-il avoir une vidéo?
  6. Voir les photos
  7. Tout fichier vidéo ou image discutable peut être utilisé pour rechercher les autres machines

Il faudra un ou deux employés pour se faire prendre avant que quiconque ne mette quoi que ce soit sur son ordinateur de travail.

Chargez une somme d'argent obscène pour ce service. Je serai Zappos ne ferait jamais ça à leurs employés.

JeffO
la source
2

En supposant que vous êtes un administrateur de domaine sur le réseau.

  1. C $ dans la machine de bureau de chaque utilisateur.
  2. Copiez des fichiers pornographiques dans un partage privé personnel.
  3. Supprimer de l'emplacement d'origine.
  4. Faire du popcorn.
  5. Analyse détaillée complète de toutes les "preuves".
Type anonyme
la source
1

Je voulais juste commenter, mais je n'ai qu'un représentant, donc je ne peux pas.

Dans le cas de Gravatar, vous pouvez ajouter une fonction pour filtrer une liste de sites propres dans des emplacements de cache Internet. IE Gravatar et d'autres sites dont vous ne voulez pas de faux positifs. Vous pouvez également filtrer des éléments comme le fond d'écran. S'ils affichent du porno sur le bureau, vous penseriez que les gens remarqueraient en dehors de votre audit.

a2j
la source
1

De telles choses ne fonctionnent jamais de manière fiable. Vous pouvez utiliser une liste de blocage pour bloquer des domaines soit sur leur nom, soit sur leur inclusion dans une liste (une pratique courante). Mais ces listes ne sont jamais complètes et le blocage du nom en fonction de critères peut conduire à de nombreux faux positifs.

Vous pouvez bloquer les mots apparaissant dans le texte des sites, mais encore une fois, cela peut conduire à des faux positifs (et devient très lent car vous devez analyser chaque bit de données qui passe à travers votre réseau afin de détecter les "bits coquins").

vous pouvez bloquer les images (et peut-être les sites qui les contiennent) qui montrent plus d'un certain pourcentage de skintones. Mais encore une fois, cela conduit à de nombreux faux positifs. Un service médical universitaire bloquant une encyclopédie médicale avec des images de membres et de torse montrant des blessures et des affections cutanées en est un exemple bien connu. Et bien sûr, ce serait raciste car cela ne bloquerait que certains teints. Si vous bloquez les couleurs correspondant à la peau du Caucase, il y a toujours du porno utilisant des acteurs noirs par exemple.

Mieux vaut simplement faire confiance à vos employés, et avoir des politiques en place lorsque cette confiance est rompue.

jwenting
la source
serveur proxy personnel, partition cachée cryptée, machines virtuelles. Il y a toujours un moyen de cacher des trucs. Bien sûr, il y a les smartphones Android avec 3G. Enfin, j'ai vérifié qu'il n'y avait aucun moyen pour un employeur d'empêcher son employé de regarder tout ce qu'il voulait sur son propre téléphone avec sa propre bande passante.
Christopher Mahan
c'est pourquoi les moyens techniques sont inutiles, certainement sans politique. Si les gens savent ce qui est autorisé et ce qui ne l'est pas (et je ne peux pas penser à une personne instruite qui utiliserait une machine de travail pour le porno, même sans de telles politiques, mais c'est une autre question), la plupart y adhéreront. Ceux qui ne le feront pas tôt ou tard découvriront s'il y a des moyens techniques en place ou non (très probablement, quelqu'un verra quelque chose sur son écran qu'ils n'étaient pas censés voir en passant devant).
jwenting
1

Je ne sais pas, il doit y avoir une réponse intermédiaire, qui n'est pas aussi invasive, mais qui résout le vrai problème, la RESPONSABILITÉ.

Demandez-leur de signer une renonciation, qui dégage l'entreprise de toute responsabilité pour les trucs illégaux trouvés sur les ordinateurs de travail, qui ne sont pas liés au travail.

crosenblum
la source
Je ne pense pas que la dérogation fonctionnerait aux États-Unis. Je ne connais pas d'autres pays.
David Thornley
Pourquoi ça ne marcherait pas? Si l'utilisateur a la possibilité de télécharger du contenu, d'installer un logiciel, il en assume naturellement la responsabilité.
crosenblum
Et, si l'entreprise a la capacité de filtrer le porno, ce qui est généralement supposé, et non, c'est en partie la responsabilité de l'entreprise.
David Thornley
pas partout. Dans certains pays, l'entreprise est responsable de tout ce qui se passe avec l'équipement qu'elle possède, que l'employé l'utilise ou non pour l'usage auquel il est destiné. Cela s'applique dans une certaine mesure aux États-Unis également, en fait, il y a eu des tentatives de poursuivre les entreprises pour utilisation illégale de leurs produits après que ces produits ont été vendus légalement (voir par exemple les poursuites constantes contre les fabricants d'armes à feu pour la responsabilité lorsque leurs produits sont utilisé dans des crimes, des poursuites qui, heureusement, sont généralement rejetées, mais malheureusement pas toujours).
jwenting
1
  1. indiquer à l'utilisateur qu'une URL est considérée comme adulte - le proxy bluecoat le fait.
  2. Accordez une licence à ce que Google fait dans sa recherche d'images http://code.google.com/apis/safebrowsing/ http://www.google.com/search?q=google+image+recognition+api
  3. analyser l'ordinateur pour les éléments ne figurant pas dans une liste pré-convenue.
mplungjan
la source
1

Analyse d'image et de contenu pour déterminer les différences entre une photographie de bon goût d'une personne, une photographie de maillot de bain, une photographie de nu, des représentations de pornographie ... pour autant que je sache, est loin d'être suffisamment sophistiqué pour être utilisé uniquement par un logiciel.

Heureusement, le crowdsourcing devrait être utile ici, comme l'a suggéré @ammoQ dans un commentaire. Cependant, je ne pense pas que les membres de 4chan ou de tout autre forum apprécieraient le grand nombre d' images non pornographiques, telles que les graphiques Web génériques pour les boutons, les cadres, les publicités, etc. affichés.

Ma recommandation serait d'étudier les solutions de crowdsourcing existantes, comme Amazon Mechanical Turk . (Cependant, les conditions d'utilisation peuvent interdire explicitement la participation de contenu pornographique, alors soyez avisé que vous devrez peut-être trouver une autre solution ou lancer la vôtre.)

Pour rendre le crowdsourcing possible, votre logiciel doit être prêt à effectuer tout ou partie des opérations suivantes:

  • Stocker des informations qui lient le contenu à l'ordinateur dont il est issu
  • Identifiez les doublons exacts sur l'ensemble de l'inventaire et supprimez-les (mais les informations d'origine sont conservées)
  • Sous-échantillonner les images dans une certaine dimension, peut-être 320 x 200, ce qui est suffisant pour identifier le contenu de l'image sans conserver les détails inutiles et gaspiller l'espace de stockage / la bande passante
  • Créez des images fixes de contenu vidéo à un intervalle régulier et appliquez la même règle de sous-échantillonnage

Enfin, la base de données d'images réduites qui représentent l'image et le contenu vidéo d'origine est vérifiée par les utilisateurs (ou une équipe désignée si vous avez les ressources) selon le code de conduite de votre entreprise. Le programme ou l'interface peut afficher une seule image à la fois, ou un écran de vignettes - tout ce que vous jugez le mieux pour obtenir des informations précises.

L'identité de l'ordinateur d'où proviennent les images doit être absolument secrète et inconnue des personnes évaluant les données. De plus, elle doit être randomisée et chaque image doit probablement être vérifiée plus d'une fois pour éliminer le biais.

La même technique peut être utilisée pour le texte, mais d'abord le contenu peut être évalué par des classements de mots clés qui suppriment la majeure partie du texte de la revue crowdsource. La classification d'un document long prendra bien sûr plus de temps que la classification d'une image.

JYelton
la source