您的当前位置:首页正文

一种生成式摘要模型构建、提取生成式摘要方法及系统[发明专利]

2023-06-06 来源:独旅网
(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 111966820 A(43)申请公布日 2020.11.20

(21)申请号 202010714359.0(22)申请日 2020.07.21

(71)申请人 西北工业大学

地址 710068 陕西省西安市友谊西路127号(72)发明人 蔡晓妍 石锴乐 杨黎斌 戴航 

刘森 (74)专利代理机构 西安恒泰知识产权代理事务

所 61216

代理人 孙雅静(51)Int.Cl.

G06F 16/34(2019.01)G06F 40/211(2020.01)G06F 40/284(2020.01)G06N 3/04(2006.01)G06N 3/08(2006.01)

权利要求书3页 说明书11页 附图1页

(54)发明名称

一种生成式摘要模型构建、提取生成式摘要方法及系统(57)摘要

一种生成式摘要模型构建、提取生成式摘要方法及系统,通过在传统的编码解码网络结合HITS注意力的重要性排序方法和分层解码算法等,并HITS注意力的重要性排序方法来迭代学习文档向量,每次解码会将上一时刻输出的生成句子向量与得分较高且未被参考过的已排序原文对应句子再次进行计算,直至得到收敛时刻得到的生成句子向量集、生成词向量集和收敛时刻的句子重要性排序,最后利用解码生成算法得到生成摘要文本。以此能够学习更多文本里的显著信息,降低结果中的冗余重复,维持生成结果的流畅度,产生出高质量的生成式摘要结果,整体自动化程度高,不需要进行人工干预。

CN 111966820 ACN 111966820 A

权 利 要 求 书

1/3页

1.一种生成式摘要模型构建方法,其特征在于,包括以下步骤:S1,获取多段文本,获得文本数据集;所述的每段文本包括多个句子,所述每段文本的每个句子包括多个词;

获取每段文本对应的摘要,获得摘要文本集;所述的每段摘要文本包括多个句子,所述每段摘要文本的每个句子包括多个词;

S2,对文本数据集和摘要文本集分别进行嵌入表示,获得训练集,所述训练集为文本数据集中每段文本中每个句子的每个词的嵌入表示和摘要文本集中每段摘要文本的嵌入表示;

所述每段文本中所有词的嵌入表示为词向量集,其中,输入数据为文本数据集中的全部词向量集,标签为所有摘要文本的嵌入表示;

S3,将所述的输入数据输入并训练编码-解码神经网络,以获得生成式摘要模型;所述的编码-解码神经网络包括依次设置的词编码网络、句子编码网络、解码网络;所述的词编码网络包括双向GRU编码器,用于将所述训练集输入词编码网络,得到所有文本中每段文本的句子向量集;

所述的句子编码网络包括双向GRU编码器,用于将词编码网络输出的所有文本中每段文本的句子向量集输入句子编码网络,得到所有文本中每段文本的文档向量;

所述的解码网络包括依次串联的句子重要性排序模块、GRU句子层解码器、GRU词层解码器以及解码生成模块;

其中词编码网络的输出端连接句子重要性排序模块的输入端,句子编码网络的输出端连接GRU句子层解码器的输入端,GRU句子层解码器的输出端连接句子重要性排序模块的输入端,句子重要性排序模块的输出端和GRU句子层解码器的输出端连接解码生成模块的输入端;

其中句子重要性排序模块采用结合HITS注意力的重要性排序方法,解码生成模块采用解码生成算法。

2.如权利要求1所述的生成式摘要模型构建方法,其特征在于,S3所述的重要性排序方法包括:

步骤A,获得句子向量集和词向量集,构建双向图G,所述的双向图G包括n个句子向量节点、m个词向量节点以及任意句子向量节点和任意词向量节点相连的边,所有边构成边向量集;

步骤B,根据边向量集获得所有句子向量和所有词向量的关系矩阵L,L=(lij)n×m;其中lij表示任意句子向量和任意词向量的关系,i∈[1,2,…,n],j∈[1,2,…,m];步骤C,根据式(1)计算句子得分矩阵P=[Pi],其中Pi表示第i个句子向量的句子得分;P=eigenvector(LLT);    (1)

其中eigenvector表示矩阵的主特征向量。

3.如权利要求2所述的生成式摘要模型构建方法,其特征在于,所述S3的训练步骤具体包括:

S31,所述词向量集通过S3所述的词编码网络,得到句子向量集;S32,将S31得到的句子向量集输入S3所述的句子编码网络,得到文档向量;S33,将所述词向量集、S31得到的句子向量集和S32得到的文档向量输入解码网络,得

2

CN 111966820 A

权 利 要 求 书

2/3页

到生成句子向量集、生成词向量集和收敛时刻的句子重要性排序;

S34,根据S33得到的生成句子向量集、生成词向量集和收敛时刻的句子重要性排序,利用解码生成算法得到生成摘要文本。

4.如权利要求3所述的生成式摘要模型构建方法,其特征在于,所述的S33具体包括:S331,将所述词向量集和S31得到的句子向量集输入句子重要性排序模块,利用重要性排序方法,计算得到第1时刻的句子得分矩阵P1,P1=[Pi1];

其中,i表示第i个句子向量,Pi1表示第1时刻第i个句子向量的句子得分;S332,将S331得到的P1通过式(2)计算第1时刻句子向量的注意力权重,并将第1时刻句子向量的注意力权重由大到小进行排序获得第1时刻句子重要性排序;

α’=μβ’;    (2)ii

其中,μ是权衡分散机制和KL散度的权重,

β是第1时刻分散机i’

制的基础值,表示第1时刻的第i个句子的句子得分,表示第1时刻第k个句子的句子得分;

S333,将S32得到的文档向量和S332得到的第t-1时刻句子重要性排序输入GRU句子层解码器,得到GRU句子层解码器第t-1时刻输出的生成句子向量,t是大于1的自然数;

S334,将t-1时刻输出的生成句子向量加入t时刻的句子向量集,并和词向量集再次输入句子重要性排序模块,利用重要性排序方法,计算第t时刻的句子得分矩阵Pt,Pt=[Pit];

其中,Pit表示第t时刻第i个句子向量的句子得分;S335,将S334得到的Pt通过式(3)计算第t时刻句子向量的注意力权重,并将第t时刻句子向量的注意力权重由大到小进行排序获得第t时刻句子重要性排序;

αμβμ)γi·1;    (3)i=i+(1-其中

其中,μ是权衡分散机制和KL散度的权重,βγi是KL散度基础值,i是分散机制的基础值,表示t时刻的第i个句子的句子得分,示t时刻第k个句子的句子得分,

表示t-1时刻的第i个句子的句子得分,表

表示t-1时刻第k个句子的句子得分;

S336,将S335得到的第t时刻句子重要性排序输入解码网络,并与所述文档向量计算得到解码网络第t时刻输出的生成句子向量;

S337,t=t+1,重复执行步骤S333至S337,直至句子得分矩阵Pt收敛,所有时刻的生成句子向量作为生成句子向量集,得到收敛时刻的句子重要性排序;

S338,将S337得到的生成句子向量集进行词解码,得到生成词向量集。5.如权利要求4所述的生成式摘要模型构建方法,其特征在于,所述μ的取值为0≤μ≤1。

6.如权利要求4所述的生成式摘要模型构建方法,其特征在于,所述μ=0.8。

3

CN 111966820 A

权 利 要 求 书

3/3页

7.如权利要求1所述的生成式摘要模型构建方法,其特征在于,S3所述的解码生成算法为分层beamsearch算法。

8.一种提取生成式摘要方法,其特征在于,包括以下步骤:S81,获取互联网上的文本数据信息,并对其进行嵌入表示,获得样本集;S82,将S81得到的样本集输入生成式摘要模型中,最终得到生成摘要文本;其中,所述的生成式摘要模型为权利要求1-7任一所述的生成式摘要模型构建方法构建得到的生成式摘要模型。

9.一种提取生成式摘要系统,其特征在于,包括文本数据采集及预处理模块和提取生成式摘要模块;

所述的文本数据采集及预处理模块,用于获取互联网上的文本数据信息并进行嵌入表示操作,获得样本集;

所述的提取生成式摘要模块,用于执行权利要求8所述的提取生成式摘要方法。

4

CN 111966820 A

说 明 书

1/11页

一种生成式摘要模型构建、提取生成式摘要方法及系统

技术领域

[0001]本发明涉及生成式摘要提取技术领域,具体涉及一种生成式摘要模型构建、提取生成式摘要方法及系统。

背景技术

[0002]自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。对于自动文摘系统,随着信息的快速增长,篇章级文本在篇幅和数量上的显著增长给网络信息地利用带来了新的挑战,为了更好地利用有效信息,各种信息抽取技术便由此产生。通过对文本的有效信息进行自动抽取,以此大幅提高信息的利用率。文章摘要的目的在于使用计算机从大量文本中提取关键信息,对于存在于互联网中篇幅量大,语义复杂的文本来说,这一技术更是十分重要。面对如今快速增长的数据信息,尤其对于信息获取的质量要求极高的科学研究领域,对设计一个可以自动生成高质量文本摘要的系统的需求是十分巨大的。

[0003]生成式摘要的自动生成是自然语言处理的一个重要的开放问题,传统的基于编码器-解码器(encoder-decoder)模型的生成式摘要方法存在重复和语义无关的问题。最近的研究将传统的注意力或基于图的注意力应用到编码器-解码器模型中来解决这个问题,基于假设原始文档中的所有句子都是无法区分的,然而集合中不同的词通常不是同等重要的,重要句子中的词被认为比普通句子中的词更突出。现有的方法不同程度上面临着信息冗余,不易获取显著信息,信息重复等问题。发明内容

[0004]本发明的目的在于提供一种生成式摘要模型构建、提取生成式摘要方法及系统,结合KL散度和分层解码算法等,能够学习更多原文本里的显著信息,降低结果中的冗余重复,维持生成结果的流畅度,产生出高质量的生成式摘要结果。[0005]为达到上述技术效果,本发明采取的技术方案为:[0006]一种生成式摘要模型构建方法,包括以下步骤:[0007]S1,获取多段文本,获得文本数据集;每段文本包括多个句子,每段文本的每个句子包括多个词;

[0008]获取每段文本对应的摘要,获得摘要文本集;每段摘要文本包括多个句子,每段摘要文本的每个句子包括多个词;[0009]S2,对文本数据集和摘要文本集分别进行嵌入表示,获得训练集,训练集为文本数据集中每段文本中每个句子的每个词的嵌入表示和摘要文本集中每段摘要文本的嵌入表示;

[0010]每段文本中所有词的嵌入表示为词向量集,其中,输入数据为文本数据集中的全部词向量集,标签为所有摘要文本的嵌入表示;[0011]S3,将输入数据输入并训练编码-解码神经网络,以获得生成式摘要模型;

5

CN 111966820 A[0012]

说 明 书

2/11页

编码-解码神经网络包括依次设置的词编码网络、句子编码网络、解码网络;

[0013]词编码网络包括双向GRU编码器,用于将训练集输入词编码网络,得到所有文本中每段文本的句子向量集;[0014]句子编码网络包括双向GRU编码器,用于将词编码网络输出的所有文本中每段文本的句子向量集输入句子编码网络,得到所有文本中每段文本的文档向量;[0015]解码网络包括依次串联的句子重要性排序模块、GRU句子层解码器、GRU词层解码器以及解码生成模块;

[0016]其中词编码网络的输出端连接句子重要性排序模块的输入端,句子编码网络的输出端连接GRU句子层解码器的输入端,GRU句子层解码器的输出端连接句子重要性排序模块的输入端,句子重要性排序模块的输出端和GRU句子层解码器的输出端连接解码生成模块的输入端;

[0017]其中句子重要性排序模块采用结合HITS注意力的重要性排序方法,解码生成模块采用解码生成算法。[0018]优选的,重要性排序方法包括:[0019]步骤A,获得句子向量集和词向量集,构建双向图G,双向图G包括n个句子向量节点、m个词向量节点以及任意句子向量节点和任意词向量节点相连的边,所有边构成边向量集;

[0020]步骤B,根据边向量集获得所有句子向量和所有词向量的关系矩阵L,L=(lij)n×m;[0021]其中lij表示任意句子向量和任意词向量的关系,i∈[1,2,…,n],j∈[1,2,…,m];[0022]步骤C,根据式(1)计算句子得分矩阵P=[Pi],其中Pi表示第i个句子向量的句子得分;

[0023]p=eigenvector(LLT);  (1)

[0024]其中eigenvector表示矩阵的主特征向量。[0025]优选的,S3的训练步骤具体包括:[0026]S31,词向量集通过S3词编码网络,得到句子向量集;[0027]S32,将S31得到的句子向量集输入S3句子编码网络,得到文档向量;[0028]S33,将词向量集、S31得到的句子向量集和S32得到的文档向量输入解码网络,得到生成句子向量集、生成词向量集和收敛时刻的句子重要性排序;[0029]S34,根据S33得到的生成句子向量集、生成词向量集和收敛时刻的句子重要性排序,利用解码生成算法得到生成摘要文本。[0030]优选的,S33具体包括:[0031]S331,将词向量集和S31得到的句子向量集输入句子重要性排序模块,利用重要性排序方法,计算得到第1时刻的句子得分矩阵P1,P1=[Pi1];[0032]其中i表示第i个句子向量,Pi1表示第1时刻第i个句子向量的句子得分;[0033]S332,将S331得到的P1通过式(1)计算第1时刻句子向量的注意力权重,并将第1时刻句子向量的注意力权重由大到小进行排序获得第2时刻句子重要性排序;[0034]α’=μβ’;  (2)ii

[0035]

其中,μ是权衡分散机制和KL散度的权重,β是第1时刻分i’

6

CN 111966820 A

说 明 书

3/11页

散机制的基础值,表示第1时刻的第i个句子的句子得分,表示第1时刻第k个句子的句子得分;

[0036]S333,将S32得到的文档向量和S332得到的第t-1时刻句子重要性排序输入GRU句子层解码器,得到GRU句子层解码器第t-1时刻输出的生成句子向量,t是大于1的自然数;[0037]S334,将t-1时刻输出的生成句子向量加入t时刻的句子向量集,并和词向量集再次输入句子重要性排序模块,利用重要性排序方法,计算第t时刻的句子得分矩阵Pt,Pt=[Pit];

[0038]其中,Pit表示第t时刻第i个句子向量的句子得分;[0039]S335,将S334得到的Pt通过式(3)计算第t时刻句子向量的注意力权重,并将第t时刻句子向量的注意力权重由大到小进行排序获得第t时刻句子重要性排序;[0040]αμβμ)γi·1;  (3)i=i+(1-[0041]

其中

[0042]

其中,μ是权衡分散机制和KL散度的权重,βγi是KL散度基i是分散机制的基础值,

表示t-1时刻的第i个句子的句子得分,

础值,表示t时刻的第i个句子的句子得分,表示t时刻第k个句子的句子得分,

[0043]

表示t-1时刻第k个句子的句子得分;

S336,将S335得到的第t时刻句子重要性排序输入解码网络,并与文档向量计算得到解码网络第t时刻输出的生成句子向量;[0044]S337,t=t+1,重复执行步骤S333至S337,直至句子得分矩阵Pt收敛,所有时刻的生成句子向量作为生成句子向量集,得到收敛时刻的句子重要性排序;[0045]S338,将S337得到的生成句子向量集进行词解码,得到生成词向量集。[0046]优选的,μ的取值为0≤μ≤1。[0047]优选的,μ=0.8。[0048]优选的,S3解码生成算法为分层beamsearch算法。[0049]一种提取生成式摘要方法,包括以下步骤:[0050]S81,获取互联网上的文本数据信息,并对其进行嵌入表示,获得样本集;[0051]S82,将S81得到的样本集输入生成式摘要模型中,最终得到生成摘要文本;[0052]其中,生成式摘要模型为本发明公开的生成式摘要模型构建方法构建得到的生成式摘要模型。

[0053]一种提取生成式摘要系统,包括文本数据采集及预处理模块和提取生成式摘要模块;

[0054]文本数据采集及预处理模块,用于获取互联网上的文本数据信息并进行嵌入表示操作,获得样本集;

[0055]提取生成式摘要模块,用于执行本发明公开的提取生成式摘要方法。[0056]由于采用上述技术方案,具有以下有益效果:

7

CN 111966820 A[0057]

说 明 书

4/11页

(1)本发明的方法构建的生成式摘要模型,能够学习更多原文本里的显著信息,降

低结果中的冗余重复,维持生成结果的流畅度,产生出高质量的生成式摘要结果。[0058](2)本发明的方法构建的生成式摘要模型,结合句子在文本中的多向作用,掌握对输入文本的句子间以及词间的关系,让模型容易去学习总结出文档的突出信息。[0059](3)本发明的提取生成式摘要方法及系统自动化程度高,生成式摘要模型经训练后不需要进行人工干预。

附图说明

[0060]图1为本发明提取生成式摘要方法的流程示意图;[0061]图2为图1中编码-解码神经网络网络结构示意图;

[0062]以下结合说明书附图和具体实施方式对本发明做具体说明。

具体实施方式

[0063]下面结合附图和实施例对本发明进行详细说明。以便本领域的技术人员更好的理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。

[0064]本发明的基于编码-解码神经网络的文本摘要生成系统及方法的其它构成以及作用对于本领域的技术人员而言都是已知的,为了减少冗余不做赘述。[0065]以下对本发明涉及的定义或概念内涵做以说明:[0066]GRU编码器:GRU编码器主要由更新门和重置门构成,更新门用来控制前一个时刻的信息被带入到当前时刻状态的程度;重置门用于控制忽略前一时刻的状态信息的程度。GRU通过门函数保留重要特征。[0067]GRU解码器:GRU解码器主要由更新门和重置门构成,更新门用来控制前一个时刻的信息被带入到当前时刻状态的程度;重置门用于控制忽略前一时刻的状态信息的程度。GRU通过门函数保留重要特征。[0068]嵌入表示:由于文本无法交由计算机直接进行处理,需要找到文本的特征表示。我们通过查表索引的方式找到每个词对应的特征向量,也即是将高维空间的词嵌入到一个连续的低维向量空间中的方式,也叫词嵌入。获得的词的特征表示,就是词的嵌入表示。[0069]KL散度:KL散度(Kullback-LeiblerDivergence)被用来量化两个概率分布之间的差异,又叫做相对熵。

[0070]分层beamsearch算法:分层beamsearch算法是解码时在词层和句子层进行分层计算,同时句子层筛选出的得分较高且未被参考过的文本对应句子,再按文本对应句子内容的相关性对参考句子重新排序,然后基于对照机制协助词层解码,计算词语得分。可参见文献:Jiwei Tan,Xiaojun Wan and Jianguo Xiao.2017.Abstractive document summarization with a graph-based attentional neural model.In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics,pages 1171-1181,Vancouver,Canada.[0071]隐藏状态:即为hidden state,在RNN网络(循环神经网络)中,它具有一种“记忆”能力,在每次计算时,能够记得之前节点的相关信息,更新当前状态。可对序列形数据提取

8

CN 111966820 A

说 明 书

5/11页

特征,然后再转换为输出。[0072]实施例1

[0073]在本实施例中公开了一种生成式摘要模型构建方法,包括以下步骤:[0074]方法按照以下步骤执行:[0075]S1,获取多段文本,获得文本数据集;每段文本包括多个句子,每段文本的每个句子包括多个词;获取每段文本对应的摘要,获得摘要文本集;每段摘要文本包括多个句子,每段摘要文本的每个句子包括多个词;其中每段文本包括30个句子;[0076]由于本专利所提出模型的强大的并行能力,可以处理较长的文本。经过简单的数据预处理之后,本专利所提出模型也能迁移到中文文本摘要任务中,并且具有优秀的摘要能力。

[0077]在本实施例中,文本为:[0078][when photo grapherjohanbavman became a father……[0079]how his native sweden is said to be the most generous nation on earth for parental leave.he immersed himself in fatherhood--twice over…..[0080]he used his photography to documentthe real-life experience of other fathers taking full advantage of sweden’s extraordinary program,which allows mothers and fathers to take long,long leaves from their careers so they can care for their newborns.[0081]………[0082]the remaining 90days are paid at a flat-rate benefit of 20euros a day,or$22.[0083]but there’s a catch.[0084]fathers have to share that leave with mothers.[0085]so to promote both parents to raise their children,sweden has mandated that 60of the 480days be“daddy months”….[0086]the more days that parents share the leave equally,they get a bonus that could total up to 1,500euros,or$1,649.[0087]the idea is for both parents to share the joys……….[0088]he did find and photograph,…..][0089]S2,对文本数据集和摘要文本集分别进行嵌入表示,获得训练集,训练集为文本数据集中每段文本中每个句子的每个词的嵌入表示和摘要文本集中每段摘要文本的嵌入表示;

[0090]每段文本中所有词的嵌入表示为词向量集,其中,输入数据为文本数据集中的全部词向量集,标签为所有摘要文本的嵌入表示;[0091]在嵌入表示时,具体包括:[0092]S21,清除文本数据集中与其对应的摘要无关的内容,比如html标签等;[0093]S22,对清理后的文本数据信息二元组表示,分词处理,统计词频,替换数字信息,去除停用词,标记实体信息;[0094]S23,保留40000个高词频的词语,其它词语用标签代替;然后利用正则表达

9

CN 111966820 A

说 明 书

6/11页

式对文本中的数字信息用‘#’代替。神经网络的输入格式是低维度的向量格式,利用预训练过的Glove模型初始化词向量表示,得到训练集。[0095]在本实施例中,与文本对应的摘要文本为:[0096][johanbavman photographed fathers in sweden,which has generous parental leave.sweden's policies encourage fathers to take just as much leave as mothers.][0097]S3,将输入数据并训练编码-解码神经网络,以获得生成式摘要模型;[0098]编码-解码神经网络包括依次设置的词编码网络、句子编码网络、解码网络;[0099]词编码网络包括双向GRU编码器,用于将训练集输入词编码网络,得到所有文本中每段文本的句子向量集;[0100]句子编码网络包括双向GRU编码器,用于将词编码网络输出的所有文本中每段文本的句子向量集输入句子编码网络,得到所有文本中每段文本的文档向量;[0101]解码网络包括依次串联的句子重要性排序模块、GRU句子层解码器、GRU词层解码器以及解码生成模块;

[0102]其中词编码网络的输出端连接句子重要性排序模块的输入端,句子编码网络的输出端连接GRU句子层解码器的输入端,GRU句子层解码器的输出端连接句子重要性排序模块的输入端,句子重要性排序模块的输出端和GRU句子层解码器的输出端连接解码生成模块的输入端;

[0103]其中句子重要性排序模块采用结合HITS注意力的重要性排序方法,解码生成模块采用解码生成算法。[0104]具体的,重要性排序方法包括:[0105]步骤A,获得句子向量集和词向量集,构建双向图G,双向图G包括n个句子向量节点、m个词向量节点以及任意句子向量节点和任意词向量节点相连的边,所有边构成边向量集;

[0106]步骤B,根据边向量集获得所有句子向量和所有词向量的关系矩阵L,L=(lij)n×m;[0107]其中lij表示任意句子向量和任意词向量的关系,i∈[1,2,…,n],j∈[1,2,…,m];[0108]步骤C,根据式(1)计算句子得分矩阵P=[Pi],其中Pi表示第i个句子向量的句子得分;

[0109]p=eigenvector(LLT);  (1)

[0110]其中eigenvector表示矩阵的主特征向量。[0111]具体的,S3的训练步骤具体包括:[0112]S31,词向量集通过S3词编码网络,得到句子向量集;[0113]S31具体包括:[0114]S311,词编码网络对词向量集中每个句子中的每个词正向顺序编码,获得每个句子中每个词的第一词隐藏状态;[0115]S312,词编码网络对词向量集中每个句子中的每个词反向顺序编码,获得每个句子中每个词的第二词隐藏状态;[0116]S313,将S311得到的每个句子中每个词的第一词隐藏状态和S312得到的每个句子中每个词的第二词隐藏状态拼接得到词向量集中的每个句子中每个词的词隐藏状态

10

CN 111966820 A[0117]

说 明 书

7/11页

S314,再将S313获得的每个句子中首词的词隐藏状态和每个句子中尾词的词隐藏

状态拼接得到句子向量集;[0118]S32,将S31得到的句子向量集输入S3句子编码网络,得到文档向量;[0119]S32具体包括:[0120]S321,句子编码网络对句子向量集正向顺序编码,获得句子向量集的第一句子隐藏状态;

[0121]S322,句子编码网络对句子向量集反向顺序编码,获得句子向量集的第二句子隐藏状态;

[0122]S323,将S321得到的句子向量集的第一句子隐藏状态和S322得到的句子向量集的第二句子隐藏状态拼接得到训练集中的每个句子的句子隐藏状态

[0123]

S324,再将S323获得的首句的句子隐藏状态和尾句的句子隐藏状态拼接得到文档

向量;

[0124]

S33,将词向量集、S31得到的句子向量集和S32得到的文档向量输入解码网络,得到生成句子向量集、生成词向量集和收敛时刻的句子重要性排序;[0125]S33具体包括:[0126]S331,将词向量集和S31得到的句子向量集输入句子重要性排序模块,利用重要性排序方法,计算得到第1时刻的句子得分矩阵P1,P1=[Pi1];[0127]其中i表示第i个句子向量,Pi1表示第1时刻第i个句子向量的句子得分;[0128]S332,将S331得到的P1通过式(2)计算第1时刻句子向量的注意力权重,并将第1时刻句子向量的注意力权重由大到小进行排序获得第1时刻句子重要性排序;[0129]α’=μβ’;  (2)ii

[0130]

其中,μ是权衡分散机制和KL散度的权重,β是第1时刻分i’

散机制的基础值,表示第1时刻的第i个句子的句子得分,表示第1时刻第k个句子的句子得分;

[0131]S333,将S32得到的文档向量和S332得到的第t-1时刻句子重要性排序输入GRU句子层解码器,得到GRU句子层解码器第t-1时刻输出的生成句子向量,t是大于1的自然数;[0132]S334,将t-1时刻输出的生成句子向量加入t时刻的句子向量集,并和词向量集再次输入句子重要性排序模块,利用重要性排序方法,计算第t时刻的句子得分矩阵Pt,Pt=[Pit];

[0133]其中,Pit表示第t时刻第i个句子向量的句子得分;[0134]S335,将S334得到的Pt通过式(3)计算第t时刻句子向量的注意力权重,并将第t时刻句子向量的注意力权重由大到小进行排序获得第t时刻句子重要性排序;[0135]αμβμ)γi·1;  (3)i=i+(1-[0136]

其中

11

CN 111966820 A[0137]

说 明 书

8/11页

其中,μ是权衡分散机制和KL散度的权重,βγi是KL散度基i是分散机制的基础值,

表示t-1时刻的第i个句子的句子得分,

础值,表示t时刻的第i个句子的句子得分,表示t时刻第k个句子的句子得分,

[0138]

表示t-1时刻第k个句子的句子得分;

S336,将S335得到的第t时刻句子重要性排序输入解码网络,并与文档向量计算得

到解码网络第t时刻输出的生成句子向量;[0139]其中,的取值为0≤μ≤1,且μ优选0.8;[0140]S337,t=t+1,重复执行步骤S333至S337,直至句子得分矩阵Pt收敛,所有时刻的生成句子向量作为生成句子向量集,得到收敛时刻的句子重要性排序;

[0141]根据所述重要性排序方法中的式(1)得出句子得分矩阵Pt为式(4),判断句子得分矩阵Pt是否收敛;

[0142]

其中Lt表示由t-1时刻输出的生成句子向量加入t时刻的句子向量集和词向量集

构建双向图G,得到的所有句子向量和所有词向量的关系矩阵;[0144]S338,将S337得到的生成句子向量集进行词解码,得到生成词向量集。[0145]S34,根据S33得到的生成句子向量集、生成词向量集和收敛时刻的句子重要性排序,利用解码生成算法得到生成摘要文本。[0146]在本实施例中,生成摘要文本为:[0147][Our Method:johanbayman photographed the experience of fathers in sweden which is generous for parental leave.sweden allows both parents to take long leaves and fathers should share the leave with mothers.and rewards parents for the more days they take the leave equally to raise their children.]

[0148]具体的,解码生成算法具体为分层beamsearch算法;

[0149]分层beamsearch算法是解码时在词层和句子层进行分层计算,同时句子层筛选出的得分较高且未被参考过的文本对应句子,再按文本对应句子内容的相关性对参考句子重新排序,然后基于对照机制协助词层解码,计算词得分,其中的对照机制是为了增加生成摘要与原文重叠度以便贴合原文内容且使得结果更加流畅。[0150]实施例2

[0151]本实施例提供了一种提取生成式摘要方法,包括以下步骤:[0152]S81,获取互联网上的文本数据信息,并对其进行嵌入表示,获得样本集;[0153]S82,将S81得到的样本集输入生成式摘要模型中,最终得到生成摘要文本;[0154]其中,生成式摘要模型为本发明公开的生成式摘要模型构建方法构建得到的生成式摘要模型。[0155]实施例3

[0156]本实施例还提供了一种提取生成式摘要系统,包括文本数据采集及预处理模块和提取生成式摘要模块;

[0157]文本数据采集及预处理模块,用于获取互联网上的文本数据信息并进行嵌入表示操作,获得样本集;

[0143]

12

CN 111966820 A[0158]

说 明 书

9/11页

提取生成式摘要模块,用于执行本发明公开的提取生成式摘要方法。

[0159]对比例

[0160]我们评价我们的模型是CNN/Daily Mail数据集,我们使用Hermann等人做的标准划分集。也就是说,CNN的训练、验证和测试集数量为90,266/1,220/1,093,DailyMail为196,961/12,148/10,397。[0161]结果:我们使用ROUGE[1]评价生成摘要的性能好坏;

[0162]我们将本发明公开的摘要提取方法与下面的文档摘要方法进行比较,以说明我们的方法的性能,Lead3常用的基线,一般通过选择前三句话作为摘要;[0163]表1显示了不同的摘要方法在CNN/Daily Mail数据集上的性能,表的上半部分报告了抽取式方法的性能,表的下半部分将我们的方法与相关的生成式方法进行了比较;我们的方法在CNN/Daily Mail数据集上获得了18.13ROUGE-2F1的得分,与三个无监督基线(即lead3,lexrank,wordHITS)相比,我们的方法在一定程度上表现得更好。我们的方法也可以与三种最先进的基于神经网络的抽取式方法相媲美,即REFRESH、NEUSUM和SUMO。我们的方法在ROUGE-1、ROUGE-2和ROUGE-L F1分数上也优于PGN和AOA这两种生成式的摘要方法,这是因为PGN在传统的注意力机制中只考虑复制和覆盖机制,AOA考虑如何优化上面的注意机制,而我们的方法集成了词层信息和句子层信息在传统的注意机制中,并添加KL-散度和对照机制,提高摘要生成的性能。

[0164]

[0165]

表1不同方法在CNN/Daily Mail测试集上的性能(结果标*的是从对应文章提取

的)

此外,我们在表2中展示了文档及其参考摘要的一个例子(加粗的词是参考摘要中

包含的显著部分),在表3中展示了使用对比的三种方法生成的摘要(蓝色的词是显著信息,红色的词是冗余)。发现LEAD3的流利性较好并不奇怪,因为LEAD3生成的摘要在原始文档中包含三个连续的句子。由AOA生成的摘要包含了一些重复的信息,并没有得到很多显著的信息。

[0167]这表明,通过整合对照机制,我们的方法可以产生内容重叠较少的摘要,因为它重新估计剩余句子的显著性,考虑到它们的内容和之前选择的句子;我们的模型也较多的获

13

[0166]

CN 111966820 A

说 明 书

10/11页

取到了显著信息,保持了较好的流畅度。

[0168]

[0169]

[0170]

表2文档及其摘要的示例

[0171]

[0172]

表3三种方法产生的结果

[0173]本申请是参照根据本申请实施例的方法、系统、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或

14

CN 111966820 A

说 明 书

11/11页

方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

[0174]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

[0175]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

15

CN 111966820 A

说 明 书 附 图

1/1页

图1

图2

16

因篇幅问题不能全部显示,请点此查看更多更全内容