ChatGPT解决这个技术问题 Extra ChatGPT

XML、HTML 和 XHTML 文档的有效内容类型

XML、HTML 和 XHTML 文档的正确内容类型是什么?

我需要编写一个只获取这些文件的简单爬虫。

由于 mod_rewrite,现在 http://example.net/index.html 可以提供例如 JPEG 文件,因此我需要检查响应标头中的内容类型并将其与允许的内容类型列表进行比较。

我从哪里可以得到这样的清单?


b
bobince

HTML:text/html,句号。

XHTML:application/xhtml+xml,或仅在遵循 HTML 兼容性指南时,text/html。请参阅 W3 Media Types Note

XML:text/xmlapplication/xml (RFC 2376)。

还有许多其他基于 XML 的媒体类型,例如 application/rss+xmlimage/svg+xml。可以肯定的是,任何以 +xml 结尾的未识别但已注册的结尾都是基于 XML 的。有关以 +xml 结尾的已注册媒体类型,请参阅 IANA list

(对于未注册的 x- 类型,所有赌注都已取消,但您希望 +xml 会受到尊重。)


关于 text/xmlapplication/xml 之间的区别,请参见此处 stackoverflow.com/questions/4832357/…
fragments 也是如此,请参阅 w3.org/TR/xml-fragmentthis other qustion