机器学习笔记

image-20211023164304466

监督学习

• 训练集中每个样本都有一个类别标记 • 所有类别事先已知

回归

用于研究自变量与因变量之间的关系

分类

朴素贝叶斯

先验概率:the initial guess 朴素 naive:忽略了语言的顺序等(难以全),只看出现的概率

image-20211023134020202

属性拆分为多个,比如大小、颜色。假定特征向量的各分量间相对于决策变量是相对独立的,也就是说各分量独立地作用于决策变量。

image-20211023134040452

image-20211023140836026

image-20211023134450064

K-NN K-近邻算法

相似度度量

image-20211023134538768

image-20211023134555450

SVM 支持向量机

最优分类面:要求分类面能将两类正确分开(训练错误率为0),且使分类间隔最大

image-20211023134617845

支持向量:

•支持向量是两类集合边界上的点。 •所有非支持向量的数据都可以从训练数据集合中去掉而不影响问题解的结果。

image-20211023140752436

决策树

非叶子节点上是 属性

image-20211023140739107


无监督学习

• 训练集中样本的类别标记未知 • 给定一组样本,发现其内在性质,如类别和聚类

聚类

K-means

image-20211023142156458

image-20211023142206161

image-20211023142221360

image-20211023140704196

image-20211023140717483

降维

在降低数据维度的同时,保证其中包含的主要信息是相似的(有效信息不丢失),主要包括特征抽取的方法和特征选择的方法。

PCA 主成分分析

数据降维后数据尽可能分散 归结为找角度:

image-20211023140408034

image-20211023134902512

image-20211023134907396

image-20211023134911348