最近事情比较多,这个星期从凤凰山回来了之后终于有了点比较完整的时间,所以才把A Comparative Study of Methods for Transductive Transfer Learning 这篇论文从头看了一遍,似乎解决了一些心中的疑惑,所以写出来记录一下。
首先我关注的是论文里用最大熵解决transductive transfer问题的这部分内容(前面也有inductive transfer问题,但是中间的推导实在没看明白就先跳过去了)
根据论文的介绍,transductive transfer问题是在有source domain训练语料,但是没有target domain的训练语料的情况下,如何通过训练source语料并通过调整预测概率分布(distribution)来使对target测试语料达到一个比较好的识别效果。
为了简单起见,记X为source语料的上下文集合,Y为source语料的标记的集合。这样
,
,其中每个
为source语料的一个时间,且source语料一共有
个事件。
记对source语料训练时所用的特征集合为
,训练得到的参数向量计为
这里我似乎原来理解的有错误,还是因为看原来最大熵模型时的概念先入为主,始终认为特征函数总会包含x和y这两个参数,现在看来,似乎这篇论文中的特征函数只需要x参数就可以了,对y的限制利用了计算特征函数对不同y的期望。这样对y的限制效果就从参数向量
上体现出来了,所以每个
都有两个下标i,j表示对应于第i个特征函数和第j个y标记。
这里我认为用传统的最大熵模型就可以将参数向量
计算出来,这时候是完全没有target语料的信息(顺便说一下,我认为作者为什么没有在特征向量中使用y参数原因可能是在transductive transfer中target语料并没有Y标记集合的信息,所以他希望通过这么做来绕开限制)。然后论文提出了一个
的概念,所希望达到的目标是
也就是说通过调整每个特征函数
的值来使source语料的期望尽量满足target语料的期望。
这里的
可以由
计算得到,而
则可以用对source语料的训练来计算的结果。
这样的话就可以通过
来计算适合target语料的新的特征函数
,这样似乎就可以用
和新的特征函数来计算
的概率分布,通过这个分布就可以来识别target语料。
这个应该就是论文这部分的基本意思,现在的问题是这个做法的特征函数和现在手上的easyME工具不太一样,我现在直观感觉可以简单的用最后的
这个公式套在现有的工具上,利用有x,y参数的特征函数,似乎在理论上也是说的过去的,这样的话就可以着手实现了,这部分问题会再好好思考一下。







在RSS里所有的图都裂了。。。
<br/>
<strong><font color=red>回复:这我也木有办法了</font></strong>