icek ME

最近事情比较多,这个星期从凤凰山回来了之后终于有了点比较完整的时间,所以才把A Comparative Study of Methods for Transductive Transfer Learning 这篇论文从头看了一遍,似乎解决了一些心中的疑惑,所以写出来记录一下。

首先我关注的是论文里用最大熵解决transductive transfer问题的这部分内容(前面也有inductive transfer问题,但是中间的推导实在没看明白就先跳过去了)

根据论文的介绍,transductive transfer问题是在有source domain训练语料,但是没有target domain的训练语料的情况下,如何通过训练source语料并通过调整预测概率分布(distribution)来使对target测试语料达到一个比较好的识别效果。

为了简单起见,记X为source语料的上下文集合,Y为source语料的标记的集合。这样,其中每个为source语料的一个时间,且source语料一共有个事件。

记对source语料训练时所用的特征集合为,训练得到的参数向量计为这里我似乎原来理解的有错误,还是因为看原来最大熵模型时的概念先入为主,始终认为特征函数总会包含x和y这两个参数,现在看来,似乎这篇论文中的特征函数只需要x参数就可以了,对y的限制利用了计算特征函数对不同y的期望。这样对y的限制效果就从参数向量上体现出来了,所以每个都有两个下标i,j表示对应于第i个特征函数和第j个y标记。

这里我认为用传统的最大熵模型就可以将参数向量计算出来,这时候是完全没有target语料的信息(顺便说一下,我认为作者为什么没有在特征向量中使用y参数原因可能是在transductive transfer中target语料并没有Y标记集合的信息,所以他希望通过这么做来绕开限制)。然后论文提出了一个的概念,所希望达到的目标是

也就是说通过调整每个特征函数的值来使source语料的期望尽量满足target语料的期望。

论文里假设了是一个一次函数,并且假设了

这里的可以由计算得到,而则可以用对source语料的训练来计算的结果。

则可以由source语料统计而来,即为,这样就可以得到

这样的话就可以通过来计算适合target语料的新的特征函数,这样似乎就可以用和新的特征函数来计算的概率分布,通过这个分布就可以来识别target语料。

这个应该就是论文这部分的基本意思,现在的问题是这个做法的特征函数和现在手上的easyME工具不太一样,我现在直观感觉可以简单的用最后的

这个公式套在现有的工具上,利用有x,y参数的特征函数,似乎在理论上也是说的过去的,这样的话就可以着手实现了,这部分问题会再好好思考一下。

Written on 六月 26th, 2012 , 学知识

发表评论

电子邮件地址不会被公开。 必填项已用 * 标注

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

COMMENTS
    yangzhe1991 commented

    在RSS里所有的图都裂了。。。
    <br/>
    <strong><font color=red>回复:这我也木有办法了</font></strong>

    回复
    2012 年 6 月 28 日 at 下午 4:11

icek ME is proudly powered by WordPress and the Theme Adventure by Eric Schwarz
Entries (RSS) and Comments (RSS).