模型上线和pmml简介

目前存在的几种模型上线的方式 1、R+pmml+spark+airflow调度 其他团队用R语言训练模型并转为pmml文件,然后我们使用spark将这个pmml文件封装为jar,使用airflow提交到yarn。 val is: InputStream = fs.open(pa

特征工程

背景 在之前学习机器学习技术中,很少关注特征工程(Feature Engineering),而且机器学习的书中基本上是已经处理好的数据或者作者自己构造的虚拟的数据。所以在机器学习的实践中,可能会选择使用这些算法,但是常常不知道怎么提取特征来建模。因此,结合网上的资料和项目中的经验

将uber的h3封装成jar及踩过的坑

背景 随着公司业务的发展,原来的自然行政区以及GeoHash区域划分方法显得有些粗犷,我们需要更细粒度的区域划分方式。 开源的Google S2 和Uber h3进入我们视线,经过研究uber h3更适合我们的需求。 但是uber h3是用C语言实现的,而我们主要使用的语言是ja

tensorflow on docker(windows 10)

简单暴力,直接开始。 1 开启windows自带的Hyper-V 控制面板-》程序和功能-》启动或关闭windows功能-》勾选Hyper-V》重启电脑。 2 安装docker docker官网下载docker https://store.docker.com/editions

xgboost算法和工程

理论 监督学习三要素 模型和参数 模型指给定输入Xi如何去预测 输出 Yi。 我们比较常见的模型如线性模型(包括线性回归和logistic regression)采用了线性叠加的方式进行预测 。这里的预测y可以有不同的解释,比如我们可以用它来作为回归目标的输出,或者进行sigm