madlib

Apache MADlib是一个在PostgreSQL、Greenplum中使用的,用于可扩展的数据库内分析的开源库。它为结构化和非结构化数据提供数学,统计,图形和机器学习方法的数据并行实现。

我们可以用madlib做什么?

分类

当期望的输出本质上是分类时,我们使用分类方法来构建模型,该模型预测新结果将落入哪个不同类别。分类的目标是能够使用正确的记录类正确标记传入记录。

示例:如果我们的数据描述了各种人口统计数据和申请贷款的个人的其他特征,并且我们有历史数据,其中包括过去贷款违约的情况,那么我们可以建立一个模型来描述一组新的人口统计数据的可能性 会导致贷款违约。 在这种情况下,类别是“将默认”或“不会默认”,这是两个不连续的输出类别。

回归

当期望的输出本质上是连续的时,我们使用回归方法来构建预测输出值的模型。

示例:如果我们有描述房地产列表属性的数据,那么我们可以建立一个模型来根据房屋的已知特征预测房屋的销售价值。 这是一个回归问题,因为输出响应本质上是连续的,而不是分类的。

深度学习

深度学习是一种机器学习,受大脑生物学的启发,使用一类称为人工神经网络的算法。 这些网络有效地解决了各种各样的问题,主要是在监督学习领域。 GPU加速被广泛用于加速深度神经网络的训练。

示例:如果我们想要将进入办公室大厅的员工的视频与她的图片进行匹配,我们可以使用卷积神经网络来完成此操作。 这将使她不必拿出她的员工徽章并将其刷入机器。 它还可以帮助减少早上赶时间的大厅排队。

聚类

在这里,我们尝试识别数据组,使得一个群集中的项目彼此更相似,而不是任何其他群集中的项目。

示例:在客户细分分析中,目标是识别以类似方式行事的特定客户群,以便可以设计各种营销活动以进入这些市场。 当预先知道客户群时,这将是监督的分类任务。 当我们让数据本身识别段时,这就成了一个聚类任务。

主题建模

主题建模类似于聚类,因为它尝试识别彼此相似的文档集群,但它更具体到文本域,它也在尝试识别这些文档的主要主题。

关联规则挖掘

也称为市场购物篮分析或频繁项目集挖掘,这是试图识别哪些项目往往比随机机会指示的更频繁地发生,表明项目之间的潜在关系。

示例:在在线Web商店中,关联规则挖掘可用于识别倾向于一起购买的产品。 然后,这可以用作产品推荐引擎的输入,以建议客户可能感兴趣的项目并提供加售机会。

描述性统计

描述性统计不提供模型,因此不被视为学习方法。 但是,它们可以帮助分析师提供信息以理解基础数据,并且可以为可能影响数据模型选择的数据提供有价值的见解。

示例:计算数据集的每个变量中的数据分布可以帮助分析人员了解哪些变量应该被视为分类变量,哪些变量应该被视为连续变量,包括值所属的分布类型。

验证

在不了解该模型的准确性的情况下使用模型可能导致不良结果。 因此,了解模型的错误并评估模型的测试数据准确性非常重要。 经常在数据分析中,训练数据和测试数据之间的分离仅仅是为了提供模型有效性的统计有效分析,并且评估模型不过度拟合训练数据。 还经常使用N倍交叉验证。

安装madlib

  • 安装
src/bin/madpack -p postgres -c postgres/postgres@localhost:5432/postgres install