关于
调研现阶段的机器学习平台
阿里巴巴
目前公开的平台是数加:https://data.aliyun.com/product/learn
特点:
- 构建于阿里云MaxCompute、GPU等计算集群之上
- 分布式算法,包括数据处理、特征工程、机器学习算法、文本算法等
- 基于MaxCompute、GPU集群,支持MR、MPI、SQL、BSP、SPARK等计算类型。
- 机器学习支持的功能如下
机器学习
- 输入输出源:ODPS数据表
- 特征预处理:
- 采样:随机采样;加权采样(某一列作为权值);分层采样
- 清洗:SQL条件过滤
- 缺失值填充:
- 归一化:log,MinMax,ZScore
- 特征工程:
- 降维去噪:PCA
- 规范化
- 离散化:等距等频
- 异常值平滑:Zscore平滑(3sigma),百分位平滑,阈值
- 特征选择:随机森林、GBDT特征重要性;线性模型特征重要性,重要性定义为 weight * std。即学到的系数与特征的标准差乘积?!(支持可视化)
- 偏好计算:
- 统计分析:
- 百分位统计
- 相关系数
- 直方图统计
- 特征分析:离散值和连续值
- 统计检验:t检验,卡方检验
- 机器学习:
- 分类和回归算法 + XGBOOST
- 文本分析和特征:
- word2vec
- 文本相似性
- 分词
微软 Azure
- 可视化交互,和阿里差不多
- 支持脚本!! Python R
- 更多的数据处理功能,滤波
- OpenCV?
亚马逊
不够开放
- 语音,图像,文本等都有很好的支持
- 基于API接口调用