Type de contenu valide pour les documents XML, HTML et XHTML

123

Quels sont les types de contenu corrects pour les documents XML, HTML et XHTML?

J'ai besoin d'écrire un simple robot d'exploration qui ne récupère que ces types de fichiers.

De nos jours, http://example.net/index.html peut servir par exemple un fichier JPEG en raison de mod_rewrite, je dois donc vérifier le type de contenu à partir de l'en-tête de réponse et le comparer avec une liste de types de contenu autorisés.

D'où puis-je obtenir une telle liste?

astropanique
la source
À propos des fragments, voir stackoverflow.com/q/19303361/287948 et w3.org/TR/xml-fragment
Peter Krauss

Réponses:

206

HTML text/html:, point final.

XHTML: application/xhtml+xml, ou seulement si en suivant les directives de compatbility HTML, text/html. Voir la note sur les types de supports W3 .

XML: text/xml, application/xml( RFC 2376 ).

Il existe également de nombreux autres types de supports basés sur XML, par exemple application/rss+xmlou image/svg+xml. Il y a fort à parier que toute terminaison non reconnue mais enregistrée +xmlest basée sur XML. Consultez la liste IANA pour les types de médias enregistrés se terminant par +xml.

(Pour les x-types non enregistrés , tous les paris sont ouverts, mais vous espérez +xmlqu'ils seront respectés.)

bobince
la source
32
Sur les différences entre text/xmlet application/xmlvoir ici stackoverflow.com/questions/4832357/…
sanmai
La même chose est valable pour les fragments , voir w3.org/TR/xml-fragment ou cet autre qustion .
Peter Krauss