Slash Youth

大数据概述

大数据: 收集到的数据已经远远超出了我们的处理能力。

大数据场景

假如你为一家网络购物商店工作，很多用户访问该网站，其中有些人会购买商品，有些人则随意浏览后就离开。
对于你来说，可能很想识别那些有购物意愿的用户。
那么问题就来了，数据集可能会非常大，在单机上训练要运行好几天。
接下来：我们讲讲 MapRedece 如何来解决这样的问题

阅读全文 »

SVD 概述

1
2

奇异值分解（SVD, Singular Value Decomposition）:
    提取信息的一种方法，可以把 SVD 看成是从噪声数据中抽取相关特征。从生物信息学到金融学，SVD 是提取信息的强大工具。

SVD 场景

信息检索-隐性语义检索（Latent Semantic Indexing, LSI）或隐形语义分析（Latent Semantic Analysis, LSA）

隐性语义索引：矩阵 = 文档 + 词语

是最早的 SVD 应用之一，我们称利用 SVD 的方法为隐性语义索引（LSI）或隐性语义分析（LSA）。
阅读全文 »

降维技术

场景

我们正通过电视观看体育比赛，在电视的显示器上有一个球。
显示器大概包含了100万像素点，而球则可能是由较少的像素点组成，例如说一千个像素点。
人们实时的将显示器上的百万像素转换成为一个三维图像，该图像就给出运动场上球的位置。
在这个过程中，人们已经将百万像素点的数据，降至为三维。这个过程就称为降维(dimensionality reduction)

阅读全文 »

前言

在第11章时我们已经介绍了用 Apriori 算法发现 频繁项集 与 关联规则。
本章将继续关注发现 频繁项集 这一任务，并使用 FP-growth 算法更有效的挖掘 频繁项集。

阅读全文 »

关联分析

关联分析是一种在大规模数据集中寻找有趣关系的任务。
这些关系可以有两种形式:

频繁项集（frequent item sets）: 经常出现在一块的物品的集合。
关联规则（associational rules）: 暗示两种物品之间可能存在很强的关系。

阅读全文 »

聚类

聚类，简单来说，就是将一个庞杂数据集中具有相似特征的数据自动归类到一起，称为一个簇，簇内的对象越相似，聚类的效果越好。它是一种无监督的学习(Unsupervised Learning)方法,不需要预先标注好的训练集。聚类与分类最大的区别就是分类的目标事先已知，例如猫狗识别，你在分类之前已经预先知道要将它分为猫、狗两个种类；而在你聚类之前，你对你的目标是未知的，同样以动物为例，对于一个动物集来说，你并不清楚这个数据集内部有多少种类的动物，你能做的只是利用聚类方法将它自动按照特征分为多类，然后人为给出这个聚类结果的定义（即簇识别）。例如，你将一个动物集分为了三簇（类），然后通过观察这三类动物的特征，你为每一个簇起一个名字，如大象、狗、猫等，这就是聚类的基本思想。

阅读全文 »

第9章树回归

发表于 2020-06-02 分类于机器学习 14k 13 分钟

树回归概述

我们本章介绍 CART(Classification And Regression Trees，分类回归树) 的树构建算法。该算法既可以用于分类还可以用于回归。

树回归场景

我们在第 8 章中介绍了线性回归的一些强大的方法，但这些方法创建的模型需要拟合所有的样本点（局部加权线性回归除外）。当数据拥有众多特征并且特征之间关系十分复杂时，构建全局模型的想法就显得太难了，也略显笨拙。而且，实际生活中很多问题都是非线性的，不可能使用全局线性模型来拟合任何数据。

阅读全文 »

第8章预测数值型数据：回归

发表于 2020-06-02 分类于机器学习 18k 16 分钟

回归（Regression）概述

我们前边提到的分类的目标变量是标称型数据，而回归则是对连续型的数据做出处理，回归的目的是预测数值型数据的目标值。

回归场景

回归的目的是预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式。

阅读全文 »

Slash Youth

第15章大数据与MapReduce

大数据概述

大数据场景

第14章利用SVD简化数据

SVD 概述

SVD 场景

第13章利用PCA来简化数据

降维技术

第12章使用FP-growth算法来高效发现频繁项集

前言

第11章使用Apriori算法进行关联分析

关联分析

第10章 K-Means（K-均值）聚类算法

聚类

第9章树回归

树回归概述

树回归场景

第8章预测数值型数据：回归

回归（Regression）概述

回归场景

大数据 概述

大数据 场景

SVD 概述

SVD 场景

降维技术

前言

关联分析

聚类

树回归 概述

树回归 场景

回归（Regression） 概述

回归 场景

大数据概述

大数据场景

树回归概述

树回归场景

回归（Regression）概述

回归场景