PMML: 用XML描述机器学习模型

关于

PMML是用XML来描述数据挖掘模型的一种通用可交换格式,利用PMML可以将各种工具生成的模型很方便的发布到生产环境!
目前著名的 sklearn 和 R中的模型,都支持导出为PMML格式!
http://dmg.org/pmml/

通用结构

<PMML version="4.1"
    xmlns="http://www.dmg.org/PMML-4_1"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
</PMML>

可以包含 copyright, description, Applilcation, name, version, Annotation
例子:

<Header copyright="www.tracholar.com"/>

MiningBuildTask

包含任意XML值,描述训练模型的配置,不是 PMML 必须。

DataDictionary

定义用于模型输入的数据的类型,范围等。
可以用在多个模型当中。

DataField

TransformationDictionary

对数据变换:

MODEL-ELEMENT

MiningModel

functionName

PMML 定义了5中挖掘函数,每个模型可以有一个属性 functionName 用来指定functionName。
可以取值为:

Segmentation

RegressionModel

回归模型

Extension

其他

modelName

用来指定模型民资

基本数据类型

NUMBER, INT-NUMER, REAL-NUMBER, PROB-NUMBER, PERCENTAGE-NUMBER, FIELD-NAME, ARRAY