博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
统计学习方法 李航---第6章 逻辑回归与最大熵模型
阅读量:7242 次
发布时间:2019-06-29

本文共 2112 字,大约阅读时间需要 7 分钟。

第6章 逻辑回归与最大熵
模型
逻辑回归(logistic regression)是统计学习中的经典分类方法。最大嫡是
概率模型学习的一个准则将其推广到分类问题得到最大
模型(maximum entropy 
model)。逻辑回归模型与最大
模型都属于对数线性模型。

6.1 逻辑回归模型

定义6.1(逻辑分布):设X是连续随机变量,X服从逻辑斯谛分布是指
X具有下列分布函数和密度函数
式中,u为位置参数,r>0为形状参数。
逻辑分布的密度函数f(x)和分布函数F(x)的图形如图所示。
分布函
数属于逻辑函数,其图形是一条S形曲线(sigmoid curve)。
该曲线以点(u, 1/2)
为中心对称,即满足
曲线在中心附近增长速度较快,在两端增长速度较慢形状参数Y的值越小,曲
线在中心附近增长得越快.
 
二项逻辑回归模型(binomial logistic regression model)是一种分类模型,用于二类分类。
由条件概率分布P(Y|X)表示,形式为参数化的逻辑分布。这里,随机变量X
取值为实数,随机变量Y取值为1或0。
定义6.2 (逻辑回归模型):二项逻辑回归模型是如下的条件概率
分布:
w称为权值向
量,b称为偏置,w.x为w和x的内积。
将权值向量和输入向量加以扩充为 w=(w, b), x =(x,1)
,逻辑回归模型如下
 
一个事件的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值,
如果事件发生的概率是p,那么该事件
的对数几率(log odds)或logit函数是
对逻辑回归而言,
这就是说,在逻辑回归模型中,
输出Y=1的对数几率是由输入x的线性函数表示的模型。

模型参数估计

可以应用极大似然估计法估计模型参数,对数似然函数为:
这样,问题就变成了以对数似然函数为目标函数的最优化问题。逻辑回
归学习中诵常采用梯度下降法及拟牛顿法。
 
多项逻辑回归模型(multi-nominal logistic regression model),用于多类分类,模型如下:
 
二项逻辑回归的参数估计法也可以推广到多项逻辑回归。

6.2 最大熵模型

最大熵模型(maxunum entropy model)由最
大熵
原理推导实现
最大
原理
是概率模型学习的一个准则。最
大熵
原理认为,学习概率模型时,
在所有可能的概率模型(分布)中,
最大的模型是最好的模型。通常用约束条
件来确定概率模型的集合,所以,最大
原理也可以表述为在满足约束条件的模
型集合中选取
最大的模型。均匀分布时,熵最大。
最大
原理
认为要选择的概率模型首先必须满足约
束条件。在没有更多信息的情况下,那些不确定的部分都是“等可能的”。
最大
原理通过
的最大化来表示等可能性.“等可能”不容易操作,而
则是一个
可优化的数值指标.

最大模型的定义

 

给定训练数据集,可以确定联合分布P(X,Y)
的经验分布和边缘分布P(X)的经验分布,
其中,v(X=x,Y=y)表示训练数据中样本(x,y)出现的频数,v(X = x)表示训练
数据中输入x出现的频数,N表示训练样本容量。
    
用特征函数(feature 
function) f(x,y)
描述输入x和输出Y之间的某一个事
实。其定义是
特征函数
f(x,y)关于经验分布P
~(X,Y)的期望值,用E
P
~(f)表示:
            
特征函数
f(x,y)
关于模型P(Y|X)与经验分布P~(X)的期望值,用EP(f)表示,
约束条件为

 

定义6
.3(最大
模型):假设满足所有约束条件的模型集合为
定义在条件概率分布P(Y|X)上的条件
则模型集合C中条件
H(P)最大的模型称为最大
模型

最大模型的学习

最大
模型的学习过程就是求解最大
模型的过程,可以
形式化为约束最优化问题:
转化为 
将约束最优化的原始问题转换为无约束最优化的对偶问题。通过求
解对偶问题求
解始问题。
 

 

最大
模型学习中
的对偶函数极大化等价于最大
模型的极大似然估计,
最大
模型的学习问题就转换为具体求解对数似然函数极大化或对偶
函数极大化的问题。
对数似然函数为:
目标函数为:
最大
模型的一般形式为:
 

 

6.3 模型学习的最优化算法

基于
改进的迭代尺度法
(improved iterative scaling, IIS)
最大模型学习算法
IIS的想法是假设最大嫡模型当前的参数向量是w=(w
1, ..., w
n)
T
希望找到一个新的参数向量
w + sigmal =(
w
1+sigmal
1
, ..., w
n
+
sigmal
n
)
T
,使得模型的对数
似然函数值增大。如果能有这样一种参数向量更新的方法:w-->
w + sigma,
那么就
可以重复使用这一方法,直至找到对数似然函数的最大值。
基于拟牛顿法(BFGS)最大模型学习算法

 

 

转载于:https://www.cnblogs.com/YongSun/p/4767100.html

你可能感兴趣的文章
Python3编写网络爬虫07-基本解析库pyquery的使用
查看>>
用OpenSSL命令行生成证书文件
查看>>
多线程的使用
查看>>
html5音频视频专题
查看>>
html怎样可是使文本框内容不可修改
查看>>
Linux安装禅道项目管理软件
查看>>
Bootstrap的jq匿名函数,实现分页技术--博客园老牛大讲堂
查看>>
深入理解Aspnet Core之Identity(4)
查看>>
指针解析
查看>>
CentOs7安装部署Zabbix3.4
查看>>
计算机一些常见名词解释
查看>>
1162: 零起点学算法69——查找最大元素
查看>>
linux awk命令用法
查看>>
我和JSON那些事儿
查看>>
注册 创建 显示 刷新窗口(注建显新),事件,消息循环,消息处理,钩子,dll钩子. (注重理解其中的逻辑关系)...
查看>>
Linux强大屏幕截图方法,理论能截取任何图形界面,包括登录界面
查看>>
【分块】bzoj3226 [Sdoi2008]校门外的区间
查看>>
SpringSecurity (Spring权限验证)
查看>>
MFC 实现CTreeCtrl单选
查看>>
HDU 1036 - Average is not Fast Enough!
查看>>