第6章 逻辑回归与最大熵 模型
逻辑回归(logistic regression)是统计学习中的经典分类方法。最大嫡是 概率模型学习的一个准则将其推广到分类问题得到最大 熵 模型(maximum entropy model)。逻辑回归模型与最大 熵 模型都属于对数线性模型。
6.1 逻辑回归模型
定义6.1(逻辑分布):设X是连续随机变量,X服从逻辑斯谛分布是指
X具有下列分布函数和密度函数
![](https://images0.cnblogs.com/blog/790160/201508/281731170621919.png)
式中,u为位置参数,r>0为形状参数。
逻辑分布的密度函数f(x)和分布函数F(x)的图形如图所示。 分布函 数属于逻辑函数,其图形是一条S形曲线(sigmoid curve)。 该曲线以点(u, 1/2) 为中心对称,即满足
![](https://images0.cnblogs.com/blog/790160/201508/281731178905805.png)
![](https://images2015.cnblogs.com/blog/790160/201508/790160-20150828173118328-725897160.png)
曲线在中心附近增长速度较快,在两端增长速度较慢形状参数Y的值越小,曲 线在中心附近增长得越快.
二项逻辑回归模型(binomial logistic regression model)是一种分类模型,用于二类分类。 由条件概率分布P(Y|X)表示,形式为参数化的逻辑分布。这里,随机变量X 取值为实数,随机变量Y取值为1或0。
定义6.2 (逻辑回归模型):二项逻辑回归模型是如下的条件概率 分布:
![](https://images0.cnblogs.com/blog/790160/201508/281731186725678.png)
w称为权值向 量,b称为偏置,w.x为w和x的内积。 将权值向量和输入向量加以扩充为 w=(w, b), x =(x,1) ,逻辑回归模型如下
![](https://images0.cnblogs.com/blog/790160/201508/281731190623263.png)
一个事件的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值, 如果事件发生的概率是p,那么该事件 的对数几率(log odds)或logit函数是
![](https://images0.cnblogs.com/blog/790160/201508/281731193757591.png)
对逻辑回归而言,
![](https://images0.cnblogs.com/blog/790160/201508/281731197508405.png)
这就是说,在逻辑回归模型中, 输出Y=1的对数几率是由输入x的线性函数表示的模型。
模型参数估计
可以应用极大似然估计法估计模型参数,对数似然函数为:
![](https://images0.cnblogs.com/blog/790160/201508/281731200785206.png)
![](https://images0.cnblogs.com/blog/790160/201508/281731204536021.png)
这样,问题就变成了以对数似然函数为目标函数的最优化问题。逻辑回 归学习中诵常采用梯度下降法及拟牛顿法。
多项逻辑回归模型(multi-nominal logistic regression model),用于多类分类,模型如下:
![](https://images2015.cnblogs.com/blog/790160/201508/790160-20150828173120797-160715728.png)
二项逻辑回归的参数估计法也可以推广到多项逻辑回归。
6.2 最大熵模型
最大熵模型(maxunum entropy model)由最 大熵 原理推导实现 。
最大 熵 原理 是概率模型学习的一个准则。最 大熵 原理认为,学习概率模型时, 在所有可能的概率模型(分布)中, 熵 最大的模型是最好的模型。通常用约束条 件来确定概率模型的集合,所以,最大 熵 原理也可以表述为在满足约束条件的模 型集合中选取 熵 最大的模型。均匀分布时,熵最大。
最大 熵 原理 认为要选择的概率模型首先必须满足约 束条件。在没有更多信息的情况下,那些不确定的部分都是“等可能的”。 最大 熵 原理通过 熵 的最大化来表示等可能性.“等可能”不容易操作,而 熵 则是一个 可优化的数值指标.
最大熵模型的定义
给定训练数据集,可以确定联合分布P(X,Y) 的经验分布和边缘分布P(X)的经验分布,
![](https://images2015.cnblogs.com/blog/790160/201508/790160-20150828173121359-613045637.png)
其中,v(X=x,Y=y)表示训练数据中样本(x,y)出现的频数,v(X = x)表示训练 数据中输入x出现的频数,N表示训练样本容量。
用特征函数(feature function) f(x,y) 描述输入x和输出Y之间的某一个事 实。其定义是
![](https://images0.cnblogs.com/blog/790160/201508/281731216253479.png)
特征函数 f(x,y)关于经验分布P ~(X,Y)的期望值,用E P ~(f)表示:
![](https://images0.cnblogs.com/blog/790160/201508/281731218591251.png)
特征函数 f(x,y) 关于模型P(Y|X)与经验分布P~(X)的期望值,用EP(f)表示,
![](https://images0.cnblogs.com/blog/790160/201508/281731249536795.png)
约束条件为
![](https://images2015.cnblogs.com/blog/790160/201508/790160-20150828173125375-1479291810.png)
定义6 .3(最大 熵 模型):假设满足所有约束条件的模型集合为
![](https://images0.cnblogs.com/blog/790160/201508/281731261254253.png)
定义在条件概率分布P(Y|X)上的条件 熵 为
![](https://images2015.cnblogs.com/blog/790160/201508/790160-20150828173126453-355943023.png)
则模型集合C中条件 熵 H(P)最大的模型称为最大 熵 模型 。
最大熵模型的学习
最大 熵 模型的学习过程就是求解最大 熵 模型的过程,可以 形式化为约束最优化问题:
![](https://images0.cnblogs.com/blog/790160/201508/281731269225598.png)
![](https://images0.cnblogs.com/blog/790160/201508/281731272032683.png)
将约束最优化的原始问题转换为无约束最优化的对偶问题。通过求 解对偶问题求 原 解始问题。
![](https://images0.cnblogs.com/blog/790160/201508/281731275318483.png)
![](https://images0.cnblogs.com/blog/790160/201508/281731281098826.png)
最大 熵 模型学习中 的对偶函数极大化等价于最大 熵 模型的极大似然估计, 最大 熵 模型的学习问题就转换为具体求解对数似然函数极大化或对偶 函数极大化的问题。
对数似然函数为:
![](https://images2015.cnblogs.com/blog/790160/201508/790160-20150828173128672-1656973221.png)
目标函数为:
![](https://images0.cnblogs.com/blog/790160/201508/281731290948228.png)
最大 熵 模型的一般形式为:
![](https://images0.cnblogs.com/blog/790160/201508/281731295628071.png)
![](https://images2015.cnblogs.com/blog/790160/201508/790160-20150828173132344-2101514723.png)
6.3 模型学习的最优化算法
基于 改进的迭代尺度法 (improved iterative scaling, IIS) 的最大熵模型学习算法
IIS的想法是假设最大嫡模型当前的参数向量是w=(w 1, ..., w n) T,
希望找到一个新的参数向量 w + sigmal =( w 1+sigmal 1 , ..., w n + sigmal n ) T ,使得模型的对数 似然函数值增大。如果能有这样一种参数向量更新的方法:w--> w + sigma, 那么就 可以重复使用这一方法,直至找到对数似然函数的最大值。 ![](https://images0.cnblogs.com/blog/790160/201508/281731335156745.jpg)
基于拟牛顿法(BFGS)的最大熵模型学习算法
![](https://images0.cnblogs.com/blog/790160/201508/281731338907560.png)