Python爬取网站数据

编码问题 由于涉及到中文,因此必然地涉及到了编码的问题,这一次借这个机会算是完全搞清楚了。html 问题要从文字的编码讲起。本来的英文编码只有0~255,恰好是8位1个字节。为了表示各类不一样的语言,天然要进行扩充。中文的话有GB系列。可能还据说过Unicode和UTF-8,那么,它们之间是什么关系呢?python Unicode是一种编码方案,又称万国码,可见其包含之广。可是具体存储到计算机上,
相关文章
相关标签/搜索