课堂作业1
•
举例说明模式识别系统的构成。 • 你对模式识别与智能系统的认识。
– 两者关系
– 对人类社会未来的影响
答案:
课堂作业2
1. 人能不能避免错分类? 你是否总能感觉到自己分类的错误?
答案:不能。. 知觉的特性为选择性、整体性、理解性、恒常性。错觉是错误的知觉,是在特定条件下产生的对客观事物歪曲的知觉。认知是一个过程,需要大脑的参与. 人的认知并不神秘,也符合一定的规律,也会产生错误。
我能感觉到……(嫂嫂自己写的)
2. 什么是先验概率,后验概率,概率密度函数?(举例说明识别过程中的先验概率,后验概率,概率密度函数;并思考三个概率概念在分类中的作用)
答案:(见另一份文档,课上点名的例子)
课堂作业3
1. 举例说明什么是最小错误率决策
2. 举例说明什么是最小风险决策
答案:(见另一份文档,课上点名的例子)
3. 正态分布概率下采用最小错误率贝叶斯决策,满足什么条件时,分类边界是线性函数?
答案:在正态分布条件下,基于最小错误率贝叶斯决策只要能做到两类协方差矩阵是一样的,那么无论先验概率相等不相等,都可以用线性分界面实现。
/*补充
1) Σi =σ2I
● P (ωi )=P (ωj ) 条件下,正态分布概率模型下的最小错误率贝叶斯决策等价于最小距离分类器 ● P (ωi ) P (ωj ) 判别函数为
最小欧氏距距离分类器
2) Σi =Σ 判别函数
线性分类器
*/
课堂作业4
1. 极大似然估计:已经得到实验结果的情况下, 寻找着使得这个结果出现的可能性最大的那个数值作为θ的估
计
2. 贝叶斯估计基本思想:已知参数θ的概率密度函数, 根据样本的观测值, 基于最小风险的贝叶斯决策来估计参
数,希望决策方法使得风险最小化。需要构造一个衡量θ准确程度的函数,希望风险最小化。
(理解部分, 自己加吧加吧)
课堂作业5
1、 简要比较极大似然估计,贝叶斯估计和贝叶斯学习三种方法之间的区别
已知条件是什么:
估计目标是什么:
具体方法是什么:
极大似然估计:
已知条件: 每类的样本集满足独立同分布条件,Xi 中的样本不包含θj(i≠j) 的信息,类条件概率密度具有某种确定的函数形式
估计目标: 待估参数θ
具体方法: (略)PPT 第三章第2页
书p145
贝叶斯估计:
已知条件: θ的概率分布函数,学习样本x = (x1,x2,… xN)T ,每类样本独立同分布
估计目标: 待估参数θ
具体方法: (略)书p149
PPT 第三章第4页
贝叶斯学习:
已知条件: 样本X=(x1, x2,…. xN)T,总体分布形式
估计目标: 待估参数θ
具体方法: (略)书p151
PPT 第三章第5页
2、你对期望最大化(EM )算法的理解
解决问题:
带缺失数据或者隐藏参数的参数估计问题
基本思想:
样本数据分为标记样本和未标记样本
按照统计的观点,对于每一个样本的产生,其背后都有一个模型,即样本生成模型。
样本生成模型的参数先由标记样本确定,再通过标记样本和利用当前模型判断标记的未标记样本共同调整。
课堂作业6
1. 线性分类器的分界面是什么曲线?
在线性判别函数条件下它对应d 维空间的一个超平面
g(X)=0就是相应的决策面方程
2. 在两维空间存在一条不过原点的直线,a x 1+b x 2+c =0,采用增广向量形式:
那么,在增加一维的三维空间中,αT Y=0表示的是,它的方程表示为。
三维空间中决策面为一过原点的平面
这样,特征空间增加了一维,但保持了样本间的欧氏距离不变
对于分类效果也与原决策面相同,只是在Y 空间中决策面是通过坐标原点的
3. 设五维空间的线性方程为55x 1 + 68x 2 + 32x 3 + 16x 4 + 26x 5 + 10 = 0, 试求出其权向量与样本向量点积的表达式
W T X + w 0=0中的W , X 和w 0, 以及增广样本向量形式中αT Y 的α与Y 。
W=[55,68,32,16,26]T w0=10
X=(x1,x2,x3,x4,x5) T
A=[10,55,68,32,16,26] T
Y=[1,x1,x2,x3,x4,x5)] T
课堂作业7
1. 线性分类器的分界面是什么图形?线性分类器设计步骤是什么?
超平面
按需要确定一准则函数J 。
确定准则函数J 达到极值时W *及W *0的具体数值,从而确定判别函数,完成分类器设计。
2. Fisher线性判别函数是研究这类判别函数中最有影响的方法之一, 请简述它的准则.
Fisher 准则就是要找到一个最合适的投影轴,使两类样本在该轴上投影的交迭部分最少,从而使分类效果为最佳
3. 感知器的准则函数是什么?它通过什么方法得到最优解?
训练样本的错分最小
梯度下降和迭代法
课堂作业8
1. 画出前馈人工神经网络结构。
2、 简述误差反向传播算法。
第11章PPT ,第4大页
3. 思考你对人工神经网络的理解(人工神经网络与人的神经网络、人工智能的未来)
人工智能就是要用机器模拟、延伸和扩展人的智能。智能就像人类生命体的精髓一样,人工智能则是人造智能系统的精髓。今天,从智能理论到智能应用,从智能产品到智能产业,从个体智能到群体智能,从智能家居到智能社会,人工智能已无处不在,其新理论、新方法、新技术、新系统、新应用如雨后春笋般不断涌现。
创新智能技术,
深化智能应用是人工智能发展的根本。
人工神经网络是一种新的数学建模方式,它具有通过学习逼近任意非线性映射的能力。作为人工神经网络学习的典型算法反向传播(BP )算法,近年来国内外学者对这一算法提出了一些改进。其中,由宋绍云、仲涛提出的BP 人工神经网络网络的新算法解决了传统算法的局部极小及收敛速度慢的问题。该算法是在BP 神经网络现有的基础上提出的一种新的算法。人工神经网络的研究同样在实践中也有所发展。比如,基于人工神经网络的并行强化学习自适应路径规划,可以很好的应用于机器人蔽障系统。BP 算法在雷达目标识别中的应用以及在超声检测中的应用等都是在BP 算法改进的基础上实现的。
4. 如果让你编写程序实现用神经网络解决异或问题,你准备采取哪些步骤来完成该问题?(选择什么开发语言、如何显示结果等)
课堂作业9
1. 谈谈对期望风险、经验风险和结构风险的理解。
根据n 个独立同分布观测样本:(x1 , y1 ) , (x2 , y2 ) ,… , (xn, yn),在一组函数)}, ({ωx f 中求一个最优的函数对依赖关系进行估计, 使期望风险⎰=) , ()) , (, () (0y x dF x f y L R ωω 最小
经验风险最小并不一定意味着期望风险最小
结构风险最小化:
经验风险原则在样本有限时是不合理的, 我们需要同时最小化经验风险和置信范围
在传统方法中, 选择学习模型和算法的过程就是调整置信范围的过程. 因为缺乏理论指导, 这种选择过分依赖
使用者“技巧”
结构风险最小化(Structural Risk Minimization或译有序风险最小化) 即SRM 准则
实现SRM 原则可以有两种思路:
1)在每个子集中求最小经验风险, 然后选择使最小经验风险和置信范围之和最小的子集;
2)设计函数集的某种结构使每个子集中都能取得最小的经验风险(如使训练误差为0 ) ,然后只需选择选择适当的子集使置信范围最小
2. 判断人工神经网络和支持向量机分别最小化哪一种风险。
支撑向量机:结构风险最小化
人工神经网络:经验风险最小化
课堂作业10
课堂作业11
为什么要特征空间优化?
对特征空间的改造、优化、主要的目的是降维,即把维数高的特征空间改成维数低的特征空间
如果所选用的特征空间能使同类物体分布具有紧致性,即各类样本能分布在该特征空间中彼此分割开的区域内,这就为分类器设计成功提供良好的基础。反之,如果不同类别的样本在该特征空间中混杂在一起,再好的设计方法也无法提高分类器的准确性。
特征空间优化的基本方法有哪两种?
对特征空间进行优化有两种基本方法:一种为特征选择,一种为特征提取。
通过线性特征变换来优化特征空间的一般方法?
基于距离度量判据的典型优化方法,基于K-L 变换的特征空间优化方法。
课堂作业12
怎样利用距离可分性判据J2进行特征提取?
简述PCA 变换的基本思想?
进行特征降维变换,不能完全地表示原有的对象,能量总会有损失。希望找到一种能量最为集中的的变换方法使损失最小
简述PCA 变换的过程。
原始输入: x,变换后特征:y ,变换矩阵(线性变换):A,则y=AT x
考虑以R x 的特征向量作为A 的列,则
R y =AT R x A = [a 1,a 2……an ]T R x [ a1,a 2……an ] = [ a1,a 2……an ] T [λ1a 1, λ2a 2……λn a n ] =Λ
Λ为对角矩阵,对角线元素为λ1, λ2……λn 达到变换后特征不相关的目的
原有N 维,只保留m 维,如果对特征向量排序,舍到最小的特征,则损失的能量最小即去掉y m+1……yN 。
课堂作业13
什么是无监督学习?你能用无监督学习完成什么任务?
在样本标签已知的情况下,可以统计出各类训练样本不同的描述量,如其概率分布,或在特征空间分布的区域等,
利用这些参数进行分类器设计,称为有监督的学习方法。然而在实际应用中,不少情况下无法预先知道样本的标签,也就是说没有训练样本。因而只能从原先没有样本标签的样本集开始进行分类器设计,这就是通常说的无监督学习方法。
计算机视觉:
图像分割
基于内容的图像检索
数据挖掘:
推荐系统/协同过滤
文本分类
简述C 均值聚类算法?
误差平方和为准则,实现极小的聚类
选定代表点后要进行初始划分、迭代计算
C —均值算法可归纳成:
(1) 选择某种方法把N 个样本分成C 个聚类的初始划分,计算每个聚类的均值和误差平方和j c
(2) 选择一个备选样本y ,设其在第i 类
(3) 若Ni=1,则转(2),否则继续
(4) 计算
(5) 对于所有的j ,若e j 最小,则把y 放入第j 类
(6) 重新计算第i ,j 类的均值和j c
(7) 若连续迭代N 次(即所有样本都运算过) 不变,则停止,否则转到2。
上述C —均值算法都是在类别c 已知条件下进行的,在类别数未知情况下使用C —均值算法时,可以假设类别数是逐步增加的,例如对c =1,2,3,…,分别使用该算法
课堂作业1
•
举例说明模式识别系统的构成。 • 你对模式识别与智能系统的认识。
– 两者关系
– 对人类社会未来的影响
答案:
课堂作业2
1. 人能不能避免错分类? 你是否总能感觉到自己分类的错误?
答案:不能。. 知觉的特性为选择性、整体性、理解性、恒常性。错觉是错误的知觉,是在特定条件下产生的对客观事物歪曲的知觉。认知是一个过程,需要大脑的参与. 人的认知并不神秘,也符合一定的规律,也会产生错误。
我能感觉到……(嫂嫂自己写的)
2. 什么是先验概率,后验概率,概率密度函数?(举例说明识别过程中的先验概率,后验概率,概率密度函数;并思考三个概率概念在分类中的作用)
答案:(见另一份文档,课上点名的例子)
课堂作业3
1. 举例说明什么是最小错误率决策
2. 举例说明什么是最小风险决策
答案:(见另一份文档,课上点名的例子)
3. 正态分布概率下采用最小错误率贝叶斯决策,满足什么条件时,分类边界是线性函数?
答案:在正态分布条件下,基于最小错误率贝叶斯决策只要能做到两类协方差矩阵是一样的,那么无论先验概率相等不相等,都可以用线性分界面实现。
/*补充
1) Σi =σ2I
● P (ωi )=P (ωj ) 条件下,正态分布概率模型下的最小错误率贝叶斯决策等价于最小距离分类器 ● P (ωi ) P (ωj ) 判别函数为
最小欧氏距距离分类器
2) Σi =Σ 判别函数
线性分类器
*/
课堂作业4
1. 极大似然估计:已经得到实验结果的情况下, 寻找着使得这个结果出现的可能性最大的那个数值作为θ的估
计
2. 贝叶斯估计基本思想:已知参数θ的概率密度函数, 根据样本的观测值, 基于最小风险的贝叶斯决策来估计参
数,希望决策方法使得风险最小化。需要构造一个衡量θ准确程度的函数,希望风险最小化。
(理解部分, 自己加吧加吧)
课堂作业5
1、 简要比较极大似然估计,贝叶斯估计和贝叶斯学习三种方法之间的区别
已知条件是什么:
估计目标是什么:
具体方法是什么:
极大似然估计:
已知条件: 每类的样本集满足独立同分布条件,Xi 中的样本不包含θj(i≠j) 的信息,类条件概率密度具有某种确定的函数形式
估计目标: 待估参数θ
具体方法: (略)PPT 第三章第2页
书p145
贝叶斯估计:
已知条件: θ的概率分布函数,学习样本x = (x1,x2,… xN)T ,每类样本独立同分布
估计目标: 待估参数θ
具体方法: (略)书p149
PPT 第三章第4页
贝叶斯学习:
已知条件: 样本X=(x1, x2,…. xN)T,总体分布形式
估计目标: 待估参数θ
具体方法: (略)书p151
PPT 第三章第5页
2、你对期望最大化(EM )算法的理解
解决问题:
带缺失数据或者隐藏参数的参数估计问题
基本思想:
样本数据分为标记样本和未标记样本
按照统计的观点,对于每一个样本的产生,其背后都有一个模型,即样本生成模型。
样本生成模型的参数先由标记样本确定,再通过标记样本和利用当前模型判断标记的未标记样本共同调整。
课堂作业6
1. 线性分类器的分界面是什么曲线?
在线性判别函数条件下它对应d 维空间的一个超平面
g(X)=0就是相应的决策面方程
2. 在两维空间存在一条不过原点的直线,a x 1+b x 2+c =0,采用增广向量形式:
那么,在增加一维的三维空间中,αT Y=0表示的是,它的方程表示为。
三维空间中决策面为一过原点的平面
这样,特征空间增加了一维,但保持了样本间的欧氏距离不变
对于分类效果也与原决策面相同,只是在Y 空间中决策面是通过坐标原点的
3. 设五维空间的线性方程为55x 1 + 68x 2 + 32x 3 + 16x 4 + 26x 5 + 10 = 0, 试求出其权向量与样本向量点积的表达式
W T X + w 0=0中的W , X 和w 0, 以及增广样本向量形式中αT Y 的α与Y 。
W=[55,68,32,16,26]T w0=10
X=(x1,x2,x3,x4,x5) T
A=[10,55,68,32,16,26] T
Y=[1,x1,x2,x3,x4,x5)] T
课堂作业7
1. 线性分类器的分界面是什么图形?线性分类器设计步骤是什么?
超平面
按需要确定一准则函数J 。
确定准则函数J 达到极值时W *及W *0的具体数值,从而确定判别函数,完成分类器设计。
2. Fisher线性判别函数是研究这类判别函数中最有影响的方法之一, 请简述它的准则.
Fisher 准则就是要找到一个最合适的投影轴,使两类样本在该轴上投影的交迭部分最少,从而使分类效果为最佳
3. 感知器的准则函数是什么?它通过什么方法得到最优解?
训练样本的错分最小
梯度下降和迭代法
课堂作业8
1. 画出前馈人工神经网络结构。
2、 简述误差反向传播算法。
第11章PPT ,第4大页
3. 思考你对人工神经网络的理解(人工神经网络与人的神经网络、人工智能的未来)
人工智能就是要用机器模拟、延伸和扩展人的智能。智能就像人类生命体的精髓一样,人工智能则是人造智能系统的精髓。今天,从智能理论到智能应用,从智能产品到智能产业,从个体智能到群体智能,从智能家居到智能社会,人工智能已无处不在,其新理论、新方法、新技术、新系统、新应用如雨后春笋般不断涌现。
创新智能技术,
深化智能应用是人工智能发展的根本。
人工神经网络是一种新的数学建模方式,它具有通过学习逼近任意非线性映射的能力。作为人工神经网络学习的典型算法反向传播(BP )算法,近年来国内外学者对这一算法提出了一些改进。其中,由宋绍云、仲涛提出的BP 人工神经网络网络的新算法解决了传统算法的局部极小及收敛速度慢的问题。该算法是在BP 神经网络现有的基础上提出的一种新的算法。人工神经网络的研究同样在实践中也有所发展。比如,基于人工神经网络的并行强化学习自适应路径规划,可以很好的应用于机器人蔽障系统。BP 算法在雷达目标识别中的应用以及在超声检测中的应用等都是在BP 算法改进的基础上实现的。
4. 如果让你编写程序实现用神经网络解决异或问题,你准备采取哪些步骤来完成该问题?(选择什么开发语言、如何显示结果等)
课堂作业9
1. 谈谈对期望风险、经验风险和结构风险的理解。
根据n 个独立同分布观测样本:(x1 , y1 ) , (x2 , y2 ) ,… , (xn, yn),在一组函数)}, ({ωx f 中求一个最优的函数对依赖关系进行估计, 使期望风险⎰=) , ()) , (, () (0y x dF x f y L R ωω 最小
经验风险最小并不一定意味着期望风险最小
结构风险最小化:
经验风险原则在样本有限时是不合理的, 我们需要同时最小化经验风险和置信范围
在传统方法中, 选择学习模型和算法的过程就是调整置信范围的过程. 因为缺乏理论指导, 这种选择过分依赖
使用者“技巧”
结构风险最小化(Structural Risk Minimization或译有序风险最小化) 即SRM 准则
实现SRM 原则可以有两种思路:
1)在每个子集中求最小经验风险, 然后选择使最小经验风险和置信范围之和最小的子集;
2)设计函数集的某种结构使每个子集中都能取得最小的经验风险(如使训练误差为0 ) ,然后只需选择选择适当的子集使置信范围最小
2. 判断人工神经网络和支持向量机分别最小化哪一种风险。
支撑向量机:结构风险最小化
人工神经网络:经验风险最小化
课堂作业10
课堂作业11
为什么要特征空间优化?
对特征空间的改造、优化、主要的目的是降维,即把维数高的特征空间改成维数低的特征空间
如果所选用的特征空间能使同类物体分布具有紧致性,即各类样本能分布在该特征空间中彼此分割开的区域内,这就为分类器设计成功提供良好的基础。反之,如果不同类别的样本在该特征空间中混杂在一起,再好的设计方法也无法提高分类器的准确性。
特征空间优化的基本方法有哪两种?
对特征空间进行优化有两种基本方法:一种为特征选择,一种为特征提取。
通过线性特征变换来优化特征空间的一般方法?
基于距离度量判据的典型优化方法,基于K-L 变换的特征空间优化方法。
课堂作业12
怎样利用距离可分性判据J2进行特征提取?
简述PCA 变换的基本思想?
进行特征降维变换,不能完全地表示原有的对象,能量总会有损失。希望找到一种能量最为集中的的变换方法使损失最小
简述PCA 变换的过程。
原始输入: x,变换后特征:y ,变换矩阵(线性变换):A,则y=AT x
考虑以R x 的特征向量作为A 的列,则
R y =AT R x A = [a 1,a 2……an ]T R x [ a1,a 2……an ] = [ a1,a 2……an ] T [λ1a 1, λ2a 2……λn a n ] =Λ
Λ为对角矩阵,对角线元素为λ1, λ2……λn 达到变换后特征不相关的目的
原有N 维,只保留m 维,如果对特征向量排序,舍到最小的特征,则损失的能量最小即去掉y m+1……yN 。
课堂作业13
什么是无监督学习?你能用无监督学习完成什么任务?
在样本标签已知的情况下,可以统计出各类训练样本不同的描述量,如其概率分布,或在特征空间分布的区域等,
利用这些参数进行分类器设计,称为有监督的学习方法。然而在实际应用中,不少情况下无法预先知道样本的标签,也就是说没有训练样本。因而只能从原先没有样本标签的样本集开始进行分类器设计,这就是通常说的无监督学习方法。
计算机视觉:
图像分割
基于内容的图像检索
数据挖掘:
推荐系统/协同过滤
文本分类
简述C 均值聚类算法?
误差平方和为准则,实现极小的聚类
选定代表点后要进行初始划分、迭代计算
C —均值算法可归纳成:
(1) 选择某种方法把N 个样本分成C 个聚类的初始划分,计算每个聚类的均值和误差平方和j c
(2) 选择一个备选样本y ,设其在第i 类
(3) 若Ni=1,则转(2),否则继续
(4) 计算
(5) 对于所有的j ,若e j 最小,则把y 放入第j 类
(6) 重新计算第i ,j 类的均值和j c
(7) 若连续迭代N 次(即所有样本都运算过) 不变,则停止,否则转到2。
上述C —均值算法都是在类别c 已知条件下进行的,在类别数未知情况下使用C —均值算法时,可以假设类别数是逐步增加的,例如对c =1,2,3,…,分别使用该算法