python?sklearn?画出决策树并保存为PDF的实现过程

 更新时间:2022年07月14日 15:11:41   作者:Dragon水魅  
这篇文章主要介绍了python?sklearn?画出决策树并保存为PDF的实现过程,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
(福利推荐:【腾讯云】服务器最新限时优惠活动,云服务器1核2G仅99元/年、2核4G仅768元/3年,立即抢购>>>:9i0i.cn/qcloud

(福利推荐:你还在原价购买阿里云服务器?现在阿里云0.8折限时抢购活动来啦!4核8G企业云服务器仅2998元/3年,立即抢购>>>:9i0i.cn/aliyun

利用sklearn画出决策树并保存为PDF

下载Graphviz

进入官网下载并安装:

https://graphviz.gitlab.io/_pages/Download/Download_windows.html

并将下列路径配置为环境变量:

  • D:\software\Graphviz\bin

在cmd中测试:

  • dot -version

python代码

import numpy as np
import pandas as pd
from sklearn import tree
import graphviz
# x,y是sklearn中需要拟合的数据
x = np.array(exam_train)
y = np.array(classes_train)
clf = tree.DecisionTreeClassifier(criterion='entropy', class_weight='balanced', max_depth=25)
clf = clf.fit(x, y)
dot_data = tree.export_graphviz(clf, out_file=None, feature_names=None, filled=True, rounded=True)  # 重要参数可定制
graph = graphviz.Source(dot_data)
graph.render(view=True, format="pdf", filename="decisiontree_pdf")

可以生成一张贼帅的决策树PDF:

python sklearn 决策树运用

数据形式(tree.csv)

age look income orderly target
older ugly low yes no
young ugly high no no
young handsome low no no
young handsome high yes yes
young handsome medium yes yes
young handsome medium no no

python源代码:

# -*- coding:utf-8*-
# 将字典 转化为 sklearn 用的数据形式 数据型 矩阵
from sklearn.feature_extraction import DictVectorizer
import csv
from sklearn import preprocessing
from sklearn import tree

allElectronicsData = open('c:/pic/data/tree.csv','rb')
reader = csv.reader(allElectronicsData)
header = reader.next()
# print header
## 数据预处理
featureList = []
labelList = []
for row in reader:
    # print row[-1]
    labelList.append(row[-1])
    # 下面这几步的目的是为了让特征值转化成一种字典的形式,就可以调用sk-learn里面的DictVectorizer,直接将特征的类别值转化成0,1值
    rowDict = {}
    for i in range(1, len(row) - 1):
        rowDict[header[i]] = row[i]
    featureList.append(rowDict)

for each in featureList:
    print each

# Vectorize features
vec = DictVectorizer()
dummyX = vec.fit_transform(featureList).toarray()
print("dummyX:"+str(dummyX))
print(vec.get_feature_names())

# label的转化,直接用preprocessing的LabelBinarizer方法
lb = preprocessing.LabelBinarizer()
dummyY = lb.fit_transform(labelList)
print("dummyY:"+str(dummyY))
print("labelList:"+str(labelList))

#criterion是选择决策树节点的 标准 ,这里是按照“熵”为标准,即ID3算法;默认标准是gini index,即CART算法。
clf = tree.DecisionTreeClassifier()
clf = clf.fit(dummyX,dummyY)
print("clf:"+str(clf))
# 导入相关函数,可视化决策树
# 导出的结果是一个dot文件(在系统默认路劲),需要安装Graphviz才能将它住哪华为PDF或png格式
# 输出的dot文件可以使用graphvize软件转为PDF,graphvize安装目录中的bin目录放入到环境变量的Path中
# 使用如下命令
#cmd
# dot -Tpdf  c:/tree.dot -o c:/tree.pdf
#下载地址:http://www.graphviz.org/Download_windows.php
#生成dot文件
with open("c:/tree.dot",'w') as f:
    f = tree.export_graphviz(clf, feature_names= vec.get_feature_names(),out_file= f)

以上为个人经验,希望能给大家一个参考,也希望大家多多支持程序员之家。

相关文章

  • 使用Python的urllib2模块处理url和图片的技巧两则

    使用Python的urllib2模块处理url和图片的技巧两则

    这篇文章主要介绍了使用Python的urllib2模块处理url和图片的两个小技巧,分别是获取带有中文参数的url内容和获取远程图片的大小和尺寸,需要的朋友可以参考下
    2016-02-02
  • Python中的with...as用法介绍

    Python中的with...as用法介绍

    这篇文章主要介绍了Python中的with...as用法介绍,本文直接给出用法实例,需要的朋友可以参考下
    2015-05-05
  • python使用pyqt写带界面工具的示例代码

    python使用pyqt写带界面工具的示例代码

    本篇文章主要介绍了python使用pyqt写带界面工具的示例代码,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-10-10
  • Python生成MD5值的两种方法实例分析

    Python生成MD5值的两种方法实例分析

    这篇文章主要介绍了Python生成MD5值的两种方法,结合实例形式较为详细的分析了Python实现MD5加密的常见操作技巧,需要的朋友可以参考下
    2019-04-04
  • 一起来学习Python的列表

    一起来学习Python的列表

    这篇文章主要为大家详细介绍了Python的列表,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
    2022-03-03
  • Python实现数据地址实体抽取

    Python实现数据地址实体抽取

    大家好,本篇文章主要讲的是Python实现数据地址实体抽取,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下
    2022-02-02
  • Macbook air m1安装python/anaconda全过程(图文)

    Macbook air m1安装python/anaconda全过程(图文)

    这篇文章主要介绍了Macbook air m1安装python/anaconda全过程(图文),文中通过图文介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-03-03
  • pytorch使用voc分割数据集训练FCN流程讲解

    pytorch使用voc分割数据集训练FCN流程讲解

    这篇文章主要介绍了pytorch使用voc分割数据集训练FCN流程,图像分割发展过程也经历了传统算法到深度学习算法的转变,传统的分割算法包括阈值分割、分水岭、边缘检测等等
    2022-12-12
  • Python语法学习之进程池与进程锁详解

    Python语法学习之进程池与进程锁详解

    这篇文章主要为大家介绍了Python进程中两个重要的知识点:进程池与进程锁,文中通过示例详细为大家讲解了二者的使用,感兴趣的可以了解下
    2022-04-04
  • python入门课程第四讲之内置数据类型有哪些

    python入门课程第四讲之内置数据类型有哪些

    这篇文章主要介绍了python入门课程第四讲之内置数据类型有哪些?本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-09-09

最新评论

?


http://www.vxiaotou.com