统计学习方法 ¶
约 3356 个字 43 张图片 预计阅读时间 17 分钟 共被读过 次
1 统计学习方法概论 ¶
1.1 统计学习 ¶
- 统计学习的特点
- 以计算机及网络为平台
- 以数据为研究对象
- 目的是对数据进行预测与分析
- 交叉学科
- 统计学习的对象
- 是数据
- 统计学习的目的
- 统计学习的方法
- 主要有
- 监督学习(本书主要讨论)
- 非监督学习
- 半监督学习
- 强化学习
- 三要素
- 模型
- 策略
- 算法
- 实现步骤
- 得到一个训练数据集合
- 确定学习模型的集合
- 确定学习的策略
- 确定学习的算法
- 通过学习方法选择最优模型
- 利用学习的最优模型对新数据进行预测或分析
- 主要有
- 统计学习的研究
- 方法
- 理论
- 应用
- 统计学习的重要性
1.2 监督学习 ¶
1.2.1 基本概念 ¶
- 输入空间、特征空间与输出空间
- 每个输入是一个实例,通常由特征向量表示
- 监督学习从训练数据集合中学习模型,对测试数据进行预测
- 根据输入变量和输出变量的不同类型
- 回归问题 : 都连续
- 分类问题 : 输出有限离散
- 标注问题 : 都是变量序列
- 联合概率分布
- 假设空间
- 模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间
- 模型可以是(非)概率模型
1.2.2 问题的形式化 ¶
1.3 统计学习三要读 ¶
- 方法 = 模型 + 策略 + 算法
1.3.1 模型 ¶
- 模型就是索要学习的条件概率分布或决策函数
- 参数空间
- 同样可以定义为条件概率的集合
1.3.2 策略 ¶
- 损失函数和风险函数
- loos function or cost function
- 0-1 loss function
- quadratic loss function
- absolute loss function
- logarithmic loss function or log-likelihood loss function
- 0-1 loss function
- risk function or expected loss
- 但是联合分布位置,所以要学习,但是这样以来风险最小又要用到联合分布,那么这就成为了病态问题 (ill-formed problem)
- empirical risk or empirical loss
- 当
趋于无穷时,经验风险趋于期望风险- 这就关系到两个基本策略 :
- 经验风险最小化
- 结构风险最小化
- 这就关系到两个基本策略 :
- loos function or cost function
- 经验风险最小化与结构风险最小化
- empirical risk minimization (样本容量比较大的时候)
- maximum likelihood estimation
- structural risk minimization
- regularization
- 复杂度表示了对复杂模型的乘法
- maximum posterior probability estimation
- empirical risk minimization (样本容量比较大的时候)
1.3.3 算法 ¶
1.4 模型评估与模型选择 ¶
1.4.1 训练误差与测试误差 ¶
- generalization ability
1.4.2 过拟合与模型选择 ¶
1.5 正则化与交叉验证 ¶
1.5.1 正则化 ¶
1.5.2 交叉验证 ¶
- cross validation
- 数据集
- 训练集
- 验证集
- 测试集 1. 简单交叉验证 2.
折交叉验证 3. 留一交叉验证
1.6 泛化能力 ¶
1.6.1 泛化误差 ¶
- generalization error
1.6.2 泛化误差上界 ¶
1.7 生成模型与判别模型 ¶
- generative model
- 还原出联合概率分布
- 朴素贝叶斯法
- 隐马尔可夫模型
- 收敛速度快
- 还原出联合概率分布
- discriminative model
- 直接学习决策函数或条件概率分布
近邻法- 感知机
- 决策树
- 逻辑斯谛回归模型
- 最大熵模型
- 支持向量机
- 提升方法
- 条件随机场
- 准确度高
- 直接学习决策函数或条件概率分布
1.8 分类问题 ¶
- text classification
1.9 标注问题 ¶
- tagging 是 classificationd 一个推广
- 是 structure prediction 的简单形式
- 隐马尔可夫模型
- 条件随机场
1.10 回归问题 ¶
- regression
- (非)线性回归,一元回归,多元回归
2 感知机 ¶
- perception
- 感知机对应于输入空间中将实例划分成正负两类的分离超平面,属于判别模型
- 原始形式和对偶形式
2.1 感知机模型 ¶
2.2 感知机学习策略 ¶
2.2.1 数据集的线性可分性 ¶
2.2.2 感知机学习策略 ¶
- 定义损失函数并将损失函数极小化
2.2.3 感知机学习算法 ¶
2.2.4 感知机学习算法的原始形式 ¶
- stochastic gradient descent
2.2.5 算法的收敛性 ¶
- 为了得到唯一的超平面,需要对分离超平面增加约束条件,即线性支持向量机
- 如果训练集线性不可分,那么感知机学习算法不收敛
2.2.6 感知机学习算法的对偶形式 ¶
- Gram matrix
3 近邻法 ¶
- k-nearest neighbor
3.1 近邻算法 ¶
3.2 近邻模型 ¶
3.2.1 模型 ¶
3.3 距离度量 ¶
3.3.1 值的选择 ¶
- if k is small, then the approximation error will reduce
- estimation error
值的减小就意味着整体模型变得复杂,容易发生过拟合- 在应用中 ,
值一般取一个比较小的数值,通常采用交叉验证法来选取最优的 值
3.3.2 分类决策规则 ¶
3.4 近邻法的实现 : 树 ¶
- linear scan
- kd tree
3.4.1 构造 树 ¶
3.4.2 搜索 树 ¶
4 朴素贝叶斯法 ¶
- 基于贝叶斯定理与特征条件独立假设的分类方法
4.1 朴素贝叶斯法的学习与分类 ¶
4.1.1 基本方法 ¶
- 学习先验概率分布和条件概率分布于是学习到联合概率分布
- 引入了条件独立性假设
4.1.2 后验概率最大化的含义 ¶
- 期望风险最小化准则就得到联考后验概率最大化准则
4.2 朴素贝叶斯法的参数估计 ¶
4.2.1 极大似然估计 ¶
4.2.2 学习与分类算法 ¶
4.2.3 贝叶斯估计 ¶
- 极大似然估计可能会出现所要估计的概率值为 0 的情况
- 条件概率的贝叶斯估计
- when
, it's called Laplace smoothing
- 表明贝叶斯估计确实是一种概率分布
- 先验概率的贝叶斯估计
5 决策树 ¶
- decision tree
- 特征选择
- 决策树的生成
- 决策树的修剪
5.1 决策树模型与学习 ¶
5.1.1 决策树模型 ¶
5.1.2 决策树与 if-then 规则 ¶
- 互斥且完备
- 每一个实例都被一条路径会规则所覆盖,而且只被一条路径或一条规则所覆盖
5.1.3 决策树与条件概率分布 ¶
5.1.4 决策树学习 ¶
- 决策树学习本质上是从训练数据集中归纳出一组分类规则
- 在损失函数意义下选择最优决策树的问题,是 NP 完全问题,采用启发式方法,近似求解,这样得到的决策树是次最优(sub-optimal)
- 为了防止过拟合,我们需要对已生成的树自上而下进行剪枝
- 决策树的生成值考虑局部最优,剪枝则考虑全局最优
5.2 特征选择 ¶
5.2.1 特征选择问题 ¶
- 通常特征选择的准则是信息增益或信息增益比
- information gain
5.2.2 信息增益 ¶
- 熵和条件熵
5.2.3 信息增益比 ¶
5.3 决策树的生成 ¶
5.3.1 ID 3 算法 ¶
- ID 3 算法只有树的生成,所以该算法生成的树容易产生过拟合
5.3.2 C 4.5 的生成算法 ¶
5.4 决策树的剪枝 ¶
- pruning
5.5 CART 算法 ¶
- 分裂与回归树(classification and regression tree)
5.5.1 CART 生成 ¶
- 对回归树用平方误差最小化准则
- 对分类树用基尼指数(Gini index)最小化准则 1. 回归树的生成
- splitting variable
- splitting point
5.5.2 CART 剪枝 ¶
- 剪枝,形成一个子树序列
6 逻辑斯谛回归与最大熵模型 ¶
- logistic regression
- maximum entropy model
- 逻辑斯谛回归模型和最大熵模型都属于对数线性模型