python字符串编码识别模块chardet简单应用

 更新时间:2015年06月15日 08:55:26   投稿:hebedich  
有时候需要先检测一个文件的编码,然后将其转化为另一种编码。这时候就会用到chardet(chardet是python的一个第三方库,是非常优秀的编码识别模块)
(福利推荐:【腾讯云】服务器最新限时优惠活动,云服务器1核2G仅99元/年、2核4G仅768元/3年,立即抢购>>>:9i0i.cn/qcloud

(福利推荐:你还在原价购买阿里云服务器?现在阿里云0.8折限时抢购活动来啦!4核8G企业云服务器仅2998元/3年,立即抢购>>>:9i0i.cn/aliyun

python的字符串编码识别模块(第三方库):

官方地址: http://pypi.python.org/pypi/chardet

 
import chardet
import urllib
 
# 可根据需要,选择不同的数据
TestData = urllib.urlopen('http://www.baidu.com/').read()
print chardet.detect(TestData)
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}
运行结果表示有99%的概率认为这段代码是GB2312编码方式。
 
import urllib
from chardet.universaldetector import UniversalDetector
usock = urllib.urlopen('http://www.baidu.com/')
# 创建一个检测对象
detector = UniversalDetector()
for line in usock.readlines():
# 分块进行测试,直到达到阈值
detector.feed(line)
if detector.done: break
# 关闭检测对象
detector.close()
usock.close()
# 输出检测结果
print detector.result
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}

应用背景,如果要对一个大文件进行编码识别,使用这种高级的方法,可以只读一部,去判别编码方式从而提高检测速度。如果希望使用一个检测对象检测多个数据,在每次检测完,一定要运行一下detector.reset()。清除之前的数据。

以上所述就是本文的全部内容了,希望大家能够喜欢。

相关文章

  • jupyter读取错误格式文件的解决方案

    jupyter读取错误格式文件的解决方案

    这篇文章主要介绍了jupyter读取错误格式文件的解决方案,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-03-03
  • 讲解Python中for循环下的索引变量的作用域

    讲解Python中for循环下的索引变量的作用域

    这篇文章主要介绍了讲解Python中for循环下的索引变量的作用域,是Python学习当中的基础知识,本文给出了Python3的示例帮助读者理解,需要的朋友可以参考下
    2015-04-04
  • python中if和elif的区别介绍

    python中if和elif的区别介绍

    这篇文章主要介绍了python中if和elif的区别,下面文章将举多个例子围绕if和eli的相关资料展开内容,需要的朋友可以参考一下,希望对你有所帮助
    2021-11-11
  • Python实现七个基本算法的实例代码

    Python实现七个基本算法的实例代码

    这篇文章主要介绍了Python实现七个基本算法的实例代码,代码简单易懂,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-10-10
  • python matplotlib 在指定的两个点之间连线方法

    python matplotlib 在指定的两个点之间连线方法

    今天小编就为大家分享一篇python matplotlib 在指定的两个点之间连线方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-05-05
  • python?DataFrame数据分组统计groupby()函数的使用

    python?DataFrame数据分组统计groupby()函数的使用

    在python的DataFrame中对数据进行分组统计主要使用groupby()函数,本文主要介绍了python?DataFrame数据分组统计groupby()函数的使用,具有一定的参考价值,感兴趣的可以了解一下
    2022-03-03
  • python 爬取天气网卫星图片

    python 爬取天气网卫星图片

    根据网站URL的规律编写的一个爬取天气网卫星图片的python爬虫,使用了requests包,感兴趣的朋友可以参考下
    2021-06-06
  • pandas中NaN缺失值的处理方法

    pandas中NaN缺失值的处理方法

    当我们用python进行数据处理时会遇到很多缺失值,对缺失值我们需要进行删除或者填补,本文主要介绍了pandas中NaN缺失值的处理方法,感兴趣的可以了解一下
    2021-05-05
  • Tensorflow2.1实现Fashion图像分类示例详解

    Tensorflow2.1实现Fashion图像分类示例详解

    这篇文章主要为大家介绍了Tensorflow2.1实现Fashion图像分类示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-11-11
  • python标准库sys和OS的函数使用方法与实例详解

    python标准库sys和OS的函数使用方法与实例详解

    这篇文章主要介绍了python标准库sys和OS的函数使用方法与实例详解,需要的朋友可以参考下
    2020-02-02

最新评论

?


http://www.vxiaotou.com