Python爬取网站数据

时间 2020-02-08

标签 python 网站数据栏目 Python 繁體版

原文原文链接

编码问题由于涉及到中文，因此必然地涉及到了编码的问题，这一次借这个机会算是完全搞清楚了。html 问题要从文字的编码讲起。本来的英文编码只有0~255，恰好是8位1个字节。为了表示各类不一样的语言，天然要进行扩充。中文的话有GB系列。可能还据说过Unicode和UTF-8，那么，它们之间是什么关系呢？python Unicode是一种编码方案，又称万国码，可见其包含之广。可是具体存储到计算机上，

>>阅读原文<<