第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定

基于全局和局部?jī)?nèi)聚的學(xué)生論文中的篇章結(jié)構(gòu)識(shí)別

標(biāo)簽:
大數(shù)據(jù)

找技术路线很头大啊,明天还要做一个技术分享(压力山大)...这篇论文的训练集是中国学生写的中文文章,虽然对我研究的托福雅思的英文议论文不同,但我想思路和技术方法可能是有一定借鉴作用的。

论文主要是通过探索整篇文章中句子与句子之间关系的内聚性来分析文章的篇章结构。通过这种方式能更好的识别Thesis、Main idea和Conclusion标签类别。论文将篇章结构的识别作为一个分类问题来看待,文章中的每个句子使用分类器(朴树贝叶斯、决策树和SVM等)独立分类,论文主要使用SVM模型和基于线性链的条件随机场模型(CRF)来对句子进行篇章结构标签分类。

1 基本特征:

  • 位置特征
  • 指示单词特征:in my opinion,in conclusion,should,hope等
  • 非文本特征:单词的长度,段落句子个数,标点符号特征等
  • 主题和提示信息特征:对每个句子提取与文章标题和提示信息的余弦相似性的特征

2 内聚链

这里主要挖掘关系与词汇的内聚特征,主要构建的是在文章所有句子范围内单词的身份链(identity chains)和词汇链(lexical chains)。

  • 身份链(identity chains):通过挖掘每个句子中的人物名称,第一、二、三人称等特征,将同属一类身份的部分组成一个身份链;
  • 词汇链(lexical chains):通过挖掘每个句子中不同词汇的重复,单词的同义表达等特征,将同属一类单词的部分组成一个词汇链。

3 全局链(global chains)与局部链(local chains)

基于第二部分的内聚链来构造一个句子链(Sentence Chains),一个句子链包含那些相似的身份链和词汇链。

局部链是那些只包含单一子主题的句子链,全局链那些只包含多个子主题的句子链。

图片描述

图1 训练样本中全局链与局部链图

网格中的每个实体节点表示一个句子中包含来自内聚链的单词。
文章假设一个段落就是一个子主题,所以将那些跨越三个段落的句子链分类为全局链,只在一个段落中的句子链为局部链。

4 基于句子链的内聚特征:

  • 链类型特征:global-identity, local-identity, global-lexical 和 local-lexical chains
  • 全局标题特征:全局链中的某个句子如果包含题目中的关键字,那么可能将这条句子分类为thesis标签
  • 相互作用特征:如果两个句子链中有超过1个共同句子,则认为两个句子链相互作用
  • 结构特征:句子链覆盖句子或段落的最大数和平均数

使用条件随机场(CRF)模型对三个不同主题的六种篇章结构分类效果如下图所示:
图片描述

图2 分类效果

我们可以发现添加了内聚特征的模型可以明显提升识别Main idea 和 Thesis类别标签的精确度。

點(diǎn)擊查看更多內(nèi)容
TA 點(diǎn)贊

若覺(jué)得本文不錯(cuò),就分享一下吧!

評(píng)論

作者其他優(yōu)質(zhì)文章

正在加載中
  • 推薦
  • 1
  • 收藏
  • 共同學(xué)習(xí),寫(xiě)下你的評(píng)論
感謝您的支持,我會(huì)繼續(xù)努力的~
掃碼打賞,你說(shuō)多少就多少
贊賞金額會(huì)直接到老師賬戶
支付方式
打開(kāi)微信掃一掃,即可進(jìn)行掃碼打賞哦
今天注冊(cè)有機(jī)會(huì)得

100積分直接送

付費(fèi)專欄免費(fèi)學(xué)

大額優(yōu)惠券免費(fèi)領(lǐng)

立即參與 放棄機(jī)會(huì)
微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)

舉報(bào)

0/150
提交
取消