Est-il acceptable de télécharger du contenu offensant sur GitHub? [fermé]

12

J'ai développé un vérificateur de contenu offensant pour mon site Web et je souhaite le publier sur GitHub . Cependant, le code source contient de nombreux contenus offensants, racistes et autrement méchants.

La source est entièrement documentée, mais je voulais votre avis sur s'il est acceptable de publier un tel travail sur GitHub ou de laisser le tableau de chaînes à l'imagination du lecteur?!

SimonGoldstone.com
la source
11
La question clé est probablement "est-ce vraiment offensant? Ou est-ce juste un 'dicton'?" qui pénètre dans le github TOS - §7 suggère qu'ils peuvent (mais ne sont pas obligés de) le supprimer. Vous souhaiterez peut-être extraire les chaînes dans un autre fichier, qui est ensuite crypté rot13 ou quelque chose de cette nature pour éviter d'offenser le navigateur causal.
1
Je suppose que c'est ok, avertissez simplement les lecteurs potentiels dans le fichier Lisez-moi, il y a beaucoup de mots offensants dans d'autres GitHub Repos. De plus, votre cas est de bonne foi.
jacktrades
5
Pourquoi ne pas mettre tous les mots dans un fichier texte ou une base de données et les charger lors de l'exécution. Ensuite, mettez un joli petit avertissement en tête du fichier que le texte ci-dessous n'est pas pour les faibles de cœur. Votre code est propre et vous pouvez utiliser différents fichiers texte pour différentes situations?
Ampt
@Sparticus merci pour votre commentaire. Je suis d'accord et je pense que c'est probablement la meilleure approche pour moi.
SimonGoldstone.com
5
Un mot en soi n'est pas offensant. L'intention derrière cela le rend offensant.
kaptan

Réponses:

45

Je dois être en désaccord avec la solution ROT-13. Brouiller vos mots interdits simplement parce que leur vue pourrait offenser quelqu'un est une perte de temps.

Votre dictionnaire de mauvais mots / règles de mauvais mots devrait de toute façon provenir d'un fichier distinct (qui pourrait être chargé au moment de l'exécution ou incorporé en tant que ressource) . L'obscurcissement de ce fichier rend simplement plus difficile pour vous / les autres développeurs / vos utilisateurs de le modifier ou de résoudre les problèmes. En outre, si je voyais un fichier appelé "banned_words.txt" sur mon disque dur, je m'attendrais à ce qu'il contienne une liste de mots offensants.

BlueRaja - Danny Pflughoeft
la source
Je suis d'accord. Je ne veux pas obscurcir les mots.
SimonGoldstone.com
5
+1 @simon Ces listes apparaissent déjà: github.com/snipe/banbuilder
dcaswell
2
@simon Je ne voulais pas dire que votre projet ne valait pas la peine, juste que github permet aux gens de stocker des listes comme vous le souhaitez. L'autre réponse n'a pas de oui ou de non, je voulais juste vous confirmer que la réponse était effectivement oui.
dcaswell
1
«réinventer la roue» fait partie de l'apprentissage ... c'est la plupart des enseignements du Collège.
WernerCD
2
Parfois, vous rencontrez des gens avec ... comment dire ... des sensibilités délicates qui peuvent avoir une certaine influence sur le maintien ou la disparition de la distribution du programme. Si la rotation du fichier signifie qu'il reste, cela aide le PO à atteindre son objectif d'avoir son code sur et à rester sur GitHub. Ce n'est pas une perte de temps dans mon livre.
Blrfl
16

"Tous les problèmes en informatique peuvent être résolus par un autre niveau d'indirection." ( par David Wheeler ).

Vos options ne se limitent pas à le télécharger ou non, si vous tenez compte du fait que vous pouvez encoder du contenu afin qu'il ne dérange pas les lecteurs.

  • Par exemple, le simple passage à la lettre suivante (A à B, B à C, etc., avec Z passant à A pour terminer le codage) peut transformer les célèbres mots de quatre lettres en Gvdl totalement inoffensif . Tout ce dont vous avez besoin pour l'utiliser dans votre application serait de le reculer dans la direction opposée, vers les lettres précédentes , avec A en passant à Z.

Comme souligné dans les commentaires , une approche comme celle ci-dessus est utilisée dans le chiffrement de substitution de lettres ROT13 , connu pour son utilisation "comme moyen de cacher ... les matériaux offensants du regard occasionnel ..."

 

http://upload.wikimedia.org/wikipedia/commons/thumb/3/33/ROT13_table_with_example.svg/320px-ROT13_table_with_example.svg.png


Dans un souci d'exhaustivité, envisagez également d'exécuter votre vérificateur sur un dictionnaire codé , afin de vous assurer que le codage choisi n'a pas accidentellement transformé un mot offensant en un autre.

Lorsque vous encodez des trucs comme ça, il est logique de revérifier, car on ne peut pas prédire les choses de manière fiable. Dans l'un de mes projets antérieurs, nous avons eu une panne de courrier assez grave lorsqu'un vérificateur mal configuré a commencé à découvrir du contenu offensant dans des séquences aléatoires de caractères (dans le contenu uuencodé des archives ZIP).


Comparé au passage du texte brut, Gvdl s, l'encodage a un avantage substantiel en évitant complètement les problèmes juridiques et tous les risques et dépendances impliqués .

Pensez-y. Disons que des conditions de service particulières à un référentiel particulier autorisent mon contenu, très bien.

Mais, s'ils décident de changer le TOS ? Ou, si je décide de passer à un autre référentiel, ayant des termes incompatibles. Qu'est ce que je vais faire?

Notez par ailleurs que même être dans un référentiel "convivial", ici et maintenant, n'est toujours pas totalement sûr.

Et si quelqu'un ne peut pas télécharger mon contenu à cause d' un filtre Web étrange ? Suis-je disposé à répondre aux plaintes des utilisateurs et à expliquer comment réparer le filtre? Leur filtre ...

... Vous voyez, je préfère réfléchir à deux fois avant de décider de ne pas encoder. Et même si je décidais, je m'assurerais d'avoir une très, très bonne raison à cela.

moucheron
la source
6
Rot13 est en quelque sorte la norme de facto pour cela. Double rot13 est encore mieux. :-)
Blrfl
5
@Blrfl tout comme le triple DES est meilleur que le DES, le triple rot13 est la voie à suivre.
1
Je pense qu'il existe des plugins pour de nombreux éditeurs qui rendent l'édition des fichiers rot13 plus difficile que l'édition de tout autre fichier dans un format spécialisé
JoelFan
2
@Simon ce n'est pas tant que rot13 est de l'obscufcation - mais plutôt juste un moyen standard de cacher trivialement le texte. Sachez que certains pare-feu peuvent être configurés pour bloquer certains modèles de caractères, ce qui rend difficile d'accéder à votre texte pour les fonctionnalités du programme. Ce n'est pas l'offensive qui est le problème probable, mais les autres obstacles technologiques qui peuvent ne pas faire la différence entre "quelque chose que vous voulez télécharger" et "quelque chose que vous voulez bloquer". Oui, ils peuvent obtenir le zip, mais ils ne pourront pas cloner, bifurquer ou pousser.
2
@ThomasEding Chiffre de décalage César d'une lettre. Le premier caractère est à l'origine un «F».