第七章 集成方法-随机森林和AdaBoost 发表于 2020-06-02 分类于 机器学习 15k 14 分钟 集成方法: ensemble method(元算法: meta algorithm) 概述 概念:是对其他算法进行组合的一种形式。 通俗来说: 当做重要决定时,大家可能都会考虑吸取多个专家而不只是一个人的意见。 机器学习处理问题时又何尝不是如此? 这就是集成方法背后的思想。 集成方法: 投票选举(bagging: 自举汇聚法 bootstrap aggregating): 是基于数据随机重抽样分类器构造的方法 再学习(boosting): 是基于所有分类器的加权求和的方法 阅读全文 »
第4章 朴素贝叶斯 发表于 2020-06-01 分类于 机器学习 20k 18 分钟 朴素贝叶斯 概述贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本章首先介绍贝叶斯分类算法的基础——贝叶斯定理。最后,我们通过实例来讨论贝叶斯分类的中最简单的一种: 朴素贝叶斯分类。 阅读全文 »
第5章 Logistic回归 发表于 2020-06-01 分类于 机器学习 16k 14 分钟 Logistic 回归 概述Logistic 回归 或者叫逻辑回归 虽然名字有回归,但是它是用来做分类的。其主要思想是: 根据现有数据对分类边界线(Decision Boundary)建立回归公式,以此进行分类。 阅读全文 »
第3章 决策树 发表于 2020-06-01 分类于 机器学习 8.5k 8 分钟 决策树 概述决策树(Decision Tree)算法是一种基本的分类与回归方法,是最经常使用的数据挖掘算法之一。我们这章节只讨论用于分类的决策树。 决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是 if-then 规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。 决策树学习通常包括 3 个步骤:特征选择、决策树的生成和决策树的修剪。 阅读全文 »
第2章 k-近邻算法 发表于 2020-05-31 分类于 机器学习 12k 10 分钟 KNN 概述k-近邻(kNN, k-NearestNeighbor)算法是一种基本分类与回归方法,我们这里只讨论分类问题中的 k-近邻算法。 一句话总结:近朱者赤近墨者黑! k 近邻算法的输入为实例的特征向量,对应于特征空间的点;输出为实例的类别,可以取多类。k 近邻算法假设给定一个训练数据集,其中的实例类别已定。分类时,对新的实例,根据其 k 个最近邻的训练实例的类别,通过多数表决等方式进行预测。因此,k近邻算法不具有显式的学习过程。 阅读全文 »
第1章 机器学习基础 发表于 2020-05-31 分类于 机器学习 6k 5 分钟 机器学习 概述机器学习(Machine Learning,ML) 是使用计算机来彰显数据背后的真实含义,它为了把无序的数据转换成有用的信息。是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。 阅读全文 »
Pandas学习笔记---002 发表于 2020-05-31 分类于 机器学习 542 1 分钟 Pandas学习笔记—002基础用法1. df.head(n) 和 df.tail() 默认n=5,同时n还可以取负值,对于head来说就是展示df[:-n],对于tail来说就是展示df[-n:] 2. 合并重叠数据集 有时,要合并两个相似的数据集,两个数据集里的其中一个的数据比另一个多。比如,展示特定经济指标的两个数据序列,其中一个是“高质量”指标, 阅读全文 »
Pandas学习笔记---001 发表于 2020-05-28 分类于 机器学习 1.9k 2 分钟 Pandas学习笔记 ——0011. 数据类型 Series:带标签的一维数组DataFrame:带标签的,大小可变的,二维异构表格 阅读全文 »