python处理中文编码和判断编码示例

 更新时间:2014年02月26日 11:22:03   作者:  
在开发自用爬虫过程中,有的网页是utf-8,有的是gb2312,有的是gbk,如果不加处理,采集到的都是乱码,解决的方法是将html处理成统一的utf-8编码
(福利推荐:【腾讯云】服务器最新限时优惠活动,云服务器1核2G仅99元/年、2核4G仅768元/3年,立即抢购>>>:9i0i.cn/qcloud

(福利推荐:你还在原价购买阿里云服务器?现在阿里云0.8折限时抢购活动来啦!4核8G企业云服务器仅2998元/3年,立即抢购>>>:9i0i.cn/aliyun

下面所说的都是针对python2.7

复制代码 代码如下:

#coding:utf-8
#chardet 需要下载安装

import chardet
#抓取网页html
line = "http://www.***.com"
html_1 = urllib2.urlopen(line,timeout=120).read()
#print html_1
encoding_dict = chardet.detect(html_1)
#print encoding
web_encoding = encoding_dict['encoding']
if web_encoding == 'utf-8' or web_encoding == 'UTF-8':

  html = html_1
else :
   html = html_1.decode('gbk','ignore').encode('utf-8')

#有以上处理,整个html就不会是乱码。

相关文章

  • Python使用20行代码实现微信聊天机器人

    Python使用20行代码实现微信聊天机器人

    这篇文章主要介绍了Python使用20行代码实现微信聊天机器人,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-06-06
  • Python使用openpyxl模块处理Excel文件

    Python使用openpyxl模块处理Excel文件

    这篇文章介绍了Python使用openpyxl模块处理Excel文件的方法,文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-06-06
  • Python SVM(支持向量机)实现方法完整示例

    Python SVM(支持向量机)实现方法完整示例

    这篇文章主要介绍了Python SVM(支持向量机)实现方法,结合完整实例形式分析了基于Python实现向量机SVM算法的具体步骤与相关操作注意事项,需要的朋友可以参考下
    2018-06-06
  • Python使用cx_Oracle库连接Oracle数据库指南

    Python使用cx_Oracle库连接Oracle数据库指南

    这篇文章主要为大家介绍了Python使用cx_Oracle库连接Oracle数据库指南,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-12-12
  • PyQt5+QtChart实现绘制区域图

    PyQt5+QtChart实现绘制区域图

    QChart是一个QGraphicScene中可以显示的QGraphicsWidget。本文将利用QtChart实现区域图的绘制,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一下
    2022-12-12
  • python解析Dwarf2格式ELF文件示例

    python解析Dwarf2格式ELF文件示例

    这篇文章主要为大家介绍了python解析Dwarf2格式ELF文件示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-08-08
  • python scatter函数用法实例详解

    python scatter函数用法实例详解

    这篇文章主要介绍了python scatter函数用法实例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-02-02
  • Python小白垃圾回收机制入门

    Python小白垃圾回收机制入门

    在本篇文章里小编给大家分享的是关于Python小白垃圾回收机制入门的相关知识点,需要的朋友们可以参考下。
    2020-06-06
  • python使用7z解压apk包的方法

    python使用7z解压apk包的方法

    这篇文章主要介绍了python使用7z解压apk包的方法,涉及Python的shell命令调用技巧,非常具有实用价值,需要的朋友可以参考下
    2015-04-04
  • python中文分词+词频统计的实现步骤

    python中文分词+词频统计的实现步骤

    词频统计就是输入一段句子或者一篇文章,然后统计句子中每个单词出现的次数,下面这篇文章主要给大家介绍了关于python中文分词+词频统计的相关资料,需要的朋友可以参考下
    2022-06-06

最新评论

?


http://www.vxiaotou.com