统计学习方法李航---第6章逻辑回归与最大熵模型-白红宇

统计学习方法李航---第6章逻辑回归与最大熵模型

阅读量：7242 次

发布时间：2019-06-29

本文共 2112 字，大约阅读时间需要 7 分钟。

第6章逻辑回归与最大熵

模型

逻辑回归(logistic regression)是统计学习中的经典分类方法。最大嫡是

概率模型学习的一个准则将其推广到分类问题得到最大

熵

模型(maximum entropy

model)。逻辑回归模型与最大

熵

模型都属于对数线性模型。

6.1 逻辑回归模型

定义6.1(逻辑分布)：设X是连续随机变量，X服从逻辑斯谛分布是指

X具有下列分布函数和密度函数

式中，u为位置参数，r>0为形状参数。

逻辑分布的密度函数f(x)和分布函数F(x)的图形如图所示。

分布函

数属于逻辑函数，其图形是一条S形曲线(sigmoid curve)。

该曲线以点(u, 1/2)

为中心对称，即满足

曲线在中心附近增长速度较快，在两端增长速度较慢形状参数Y的值越小，曲

线在中心附近增长得越快.

二项逻辑回归模型(binomial logistic regression model)是一种分类模型，用于二类分类。

由条件概率分布P(Y|X)表示，形式为参数化的逻辑分布。这里，随机变量X

取值为实数，随机变量Y取值为1或0。

定义6.2 (逻辑回归模型)：二项逻辑回归模型是如下的条件概率

分布：

w称为权值向

量，b称为偏置，w.x为w和x的内积。

将权值向量和输入向量加以扩充为 w=(w, b), x =(x,1)

，逻辑回归模型如下

一个事件的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值，

如果事件发生的概率是p，那么该事件

的对数几率(log odds)或logit函数是

对逻辑回归而言，

这就是说，在逻辑回归模型中，

输出Y=1的对数几率是由输入x的线性函数表示的模型。

模型参数估计

可以应用极大似然估计法估计模型参数，对数似然函数为：

这样，问题就变成了以对数似然函数为目标函数的最优化问题。逻辑回

归学习中诵常采用梯度下降法及拟牛顿法。

多项逻辑回归模型(multi-nominal logistic regression model)，用于多类分类，模型如下：

二项逻辑回归的参数估计法也可以推广到多项逻辑回归。

6.2 最大熵模型

最大熵模型(maxunum entropy model)由最

大熵

原理推导实现

。

最大

熵

原理

是概率模型学习的一个准则。最

大熵

原理认为，学习概率模型时，

在所有可能的概率模型(分布)中，

熵

最大的模型是最好的模型。通常用约束条

件来确定概率模型的集合，所以，最大

熵

原理也可以表述为在满足约束条件的模

型集合中选取

熵

最大的模型。均匀分布时，熵最大。

最大

熵

原理

认为要选择的概率模型首先必须满足约

束条件。在没有更多信息的情况下，那些不确定的部分都是“等可能的”。

最大

熵

原理通过

熵

的最大化来表示等可能性.“等可能”不容易操作，而

熵

则是一个

可优化的数值指标.

最大熵模型的定义

给定训练数据集，可以确定联合分布P(X,Y)

的经验分布和边缘分布P(X)的经验分布，

其中，v(X=x,Y=y)表示训练数据中样本(x,y)出现的频数，v(X = x)表示训练

数据中输入x出现的频数，N表示训练样本容量。

用特征函数（feature

function） f(x,y)

描述输入x和输出Y之间的某一个事

实。其定义是

特征函数

f(x,y)关于经验分布P

^~(X,Y)的期望值，用E

^~(f)表示：

特征函数

f(x,y)

关于模型P(Y|X)与经验分布P^~(X)的期望值，用E_P(f)表示,

约束条件为

定义6

.3(最大

熵

模型)：假设满足所有约束条件的模型集合为

定义在条件概率分布P(Y|X)上的条件

熵

为

则模型集合C中条件

熵

H(P)最大的模型称为最大

熵

模型

。

最大熵模型的学习

最大

熵

模型的学习过程就是求解最大

熵

模型的过程，可以

形式化为约束最优化问题：

转化为

将约束最优化的原始问题转换为无约束最优化的对偶问题。通过求

解对偶问题求

原

解始问题。

最大

熵

模型学习中

的对偶函数极大化等价于最大

熵

模型的极大似然估计，

最大

熵

模型的学习问题就转换为具体求解对数似然函数极大化或对偶

函数极大化的问题。

对数似然函数为：

目标函数为：

最大

熵

模型的一般形式为：

6.3 模型学习的最优化算法

基于

改进的迭代尺度法

(improved iterative scaling, IIS)

的最大熵模型学习算法

IIS的想法是假设最大嫡模型当前的参数向量是w=(w

₁, ..., w

_n)

^T，

希望找到一个新的参数向量

w + sigmal =(

₁+sigmal

₁

, ..., w

sigmal

)

，使得模型的对数

似然函数值增大。如果能有这样一种参数向量更新的方法：w-->

w + sigma，

那么就

可以重复使用这一方法，直至找到对数似然函数的最大值。

基于拟牛顿法（BFGS）的最大熵模型学习算法

转载于:https://www.cnblogs.com/YongSun/p/4767100.html

你可能感兴趣的文章

Python3编写网络爬虫07-基本解析库pyquery的使用

Bootstrap的jq匿名函数，实现分页技术--博客园老牛大讲堂

查看>>

深入理解Aspnet Core之Identity(4)

1162: 零起点学算法69——查找最大元素

注册创建显示刷新窗口(注建显新),事件,消息循环,消息处理,钩子,dll钩子. (注重理解其中的逻辑关系)...

查看>>

Linux强大屏幕截图方法，理论能截取任何图形界面，包括登录界面

查看>>

【分块】bzoj3226 [Sdoi2008]校门外的区间

查看>>

SpringSecurity (Spring权限验证)

查看>>

MFC 实现CTreeCtrl单选

查看>>

HDU 1036 - Average is not Fast Enough!

查看>>