python模型转PMML--688IT编程网

python模型转PMML

关于python模型的部署，⽬前有以下⼏种⽅式

flask等python为服务框架，⽆需跨语⾔

xgb4j,lgb4j等Java包，需跨语⾔，但只⽀持xgb/lgb

PMML，跨语⾔，⽀持所有sklearn接⼝的模型

综上所述，当遇到跨语⾔部署时，PMML是个万⾦油⽅式，可以将所有sklearn接⼝的模型转换为PMML⽂件，并⽤JAVA/SCALA相关的包进⾏解析，然⽽经过⼀番调研，⽹上关于python如何转为PMML的信息却极为有限，故在此总结。

1、DataFrameMapper

⽬前DataFrameMapper⽀持sklearn.preprocessing中的若⼲类，如MinMaxScaler()、OneHotEncoder()等

DataFrameMapper⽀持⾃定义函数，可使⽤FunctionTransformer()，将⾃定义函数转换为类似MinMaxScaler()类的格式DataFrameMapper⽀持单列或多列级联变换

sklearn.preprocessing中的函数输⼊为numpy.ndarray

mapper = DataFrameMapper([

(["Sepal.Length"],FunctionTransformer(np.abs)),

(["Sepal.Width"],[MinMaxScaler(), Imputer()]),

(["Petal.Length"],None),

(["Petal.Width"],OneHotEncoder()),

(['Petal.Length','Petal.Width'],[MinMaxScaler(),StandardScaler()])

])

2、PMMLPipeline

PMMLPipeline中⽀持整体变换类，如PCA、SelectKBest、GBDT等，只要符合sklearn接⼝格式，具有fit transform即可理论上⽀持符合规则的⾃定义函数

iris_pipeline = PMMLPipeline([

("mapper", mapper),

("pca", PCA(n_components=3)),

("selector", SelectKBest(k=2)),#返回k个最佳特征

("classifier", GBDT)])

iris_pipeline.fit(df_x, y)

3、sklearn2pmml

保存为PMML⽂件

sklearn2pmml(iris_pipeline, savemodel, with_repr=True)

其他注意事项

由于DataFrameMapper对特征⼯程⽀持有限，特征⼯程可以线上线下分开单独做，也可以⽤ DataFrameMapper 的⽅式实现特征⼯程，导出到模型⽂件中，这样线上就⽆需再做⼀遍特征⼯程

完整代码

"""

⽂件说明：鸢尾花数据集

"""

import numpy as np

import pandas as pd

from sklearn.datasets import load_iris

semble import GradientBoostingClassifier

from sklearn2pmml import sklearn2pmml, PMMLPipeline

from sklearn2pmml.decoration import ContinuousDomain

from sklearn.feature_selection import SelectKBest

# frameworks for ML

from sklearn_pandas import DataFrameMapper

from sklearn.pipeline import make_pipeline

# transformers for category variables

from sklearn.preprocessing import LabelBinarizer

from sklearn.preprocessing import MultiLabelBinarizer

from sklearn.preprocessing import LabelEncoder

from sklearn.preprocessing import OneHotEncoder

from sklearn.preprocessing import Imputer

# transformers for numerical variables

from sklearn.preprocessing import MinMaxScaler

from sklearn.preprocessing import StandardScaler

from sklearn.preprocessing import Normalizer

# transformers for combined variables

from sklearn.decomposition import PCA

from sklearn.preprocessing import PolynomialFeatures

# user-defined transformers

from sklearn.preprocessing import FunctionTransformer

java调用python模型def read_data():

#读取鸢尾花数据

data=load_iris()

x=data.data

y=data.target

df_x = pd.DataFrame(x)

lumns =["Sepal.Length","Sepal.Width","Petal.Length","Petal.Width"]

return df_x,y

def all_classifiers_test(savemodel='GBDT.pmml'):

'''

GBDT模型

'''

GBDT = GradientBoostingClassifier()

df_x,y = read_data()

# 特征⼯程

mapper = DataFrameMapper([

(["Sepal.Length"],FunctionTransformer(np.abs)),

(["Sepal.Width"],[MinMaxScaler(), Imputer()]),

(["Petal.Length"],None),

(["Petal.Width"],OneHotEncoder()),

(['Petal.Length','Petal.Width'],[MinMaxScaler(),StandardScaler()])

])

# mapper = DataFrameMapper([

# (["Sepal.Length", "Sepal.Width", "Petal.Length", "Petal.Width"], [MinMaxScaler(),StandardScaler(),Imputer()]) # ])

iris_pipeline = PMMLPipeline([

("mapper", mapper),

("pca", PCA(n_components=3)),

("selector", SelectKBest(k=2)),#返回k个最佳特征

("classifier", GBDT)])

iris_pipeline.fit(df_x, y)

# iris_pipeline.fit(X_train.values, y_train)

# 导出模型⽂件

sklearn2pmml(iris_pipeline, savemodel, with_repr=True)

688IT编程网

python模型转PMML

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

python模型转PMML

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式