目标
针对document-level RE and SA
展开调研,主要角度是1.主要方法 2.数据集 3.最好结果(SOAT),尤为关注基于预训练模型(BERT)加fine-tune的做法。
文档级关系抽取任务背景知识
目前大多数关系抽取方法抽取单个实体对在某个句子内反映的关系,有必要将关系抽取从句子级别推进到文档级别。
关系抽取任务RE
从非结构化文本中抽取信息就是为了抽取形如 (head, relation, tail)的三元组,有流水线和联合抽取两种方法。
根据文本的长度可以讲关系抽取任务划分为三类:句子级别、句袋级别和文档级别。
评价指标
RE任务的常用评价指标为 Precision、Recall和F1
$$
Precision = \frac{TP}{TP+FP},Recall=\frac{TP}{TP+FN},F1=\frac{2PrecisionRecall}{Precision+Recall}
$$
文档级关系抽取
https://zhuanlan.zhihu.com/p/353183322
主要方法
- 整个文档中可能有多个Mention指向同一个实体,建模层包含Mention层级
- 大量信息分布在不同的句子里,抽取全局信息
- 基于层级网络的方法,通过不同层级的网络实现token level -> sentence level -> document level的层次化特征抽取,并把不同层次的特征
concate
起来做实体之间的关系分类,典型代表是HIN - 基于全局图的方法,近年来最主流的方法,主要包括三部分:编码及构图、GNN迭代、实体对关系分类
- 编码:使用GloVe或BERT得到token level embedding,使用可训练权重对token的类别(实体类别,无类别等)进行映射得到type embedding,使用可训练权重对相对位置映射得到relative position embedding。总体上来说token level的信息源就是自身语义、类型及相对位置信息。
- 构图:本质上只需要确定两部分内容:一个是在图里有哪些类型的点(type of nodes),另一个是在图里有哪些类别的边(type of edges)。
- 迭代:使用GCN或GAT等完成多次迭代得到经过平滑后各个节点的结构化特征(structural feature)。
- 基于BERT硬编码的方法:通过原始Transformer或引入外部信息的改造Transformer来对全局信息进行建模。
- 基于层级网络的方法,通过不同层级的网络实现token level -> sentence level -> document level的层次化特征抽取,并把不同层次的特征
- 部分关系需要经过多重信息推理才能等到,实现多步推理(Relational Reasoning)
- 在使用Hierarchical Model的文章中通常认定层级性的Attention可以实现一定程度上的推理。
- 在使用GNN的文章中通常认定多次Message Passing的过程就等价于多步推理的过程。
- 此外还有使用
reconstructor
来拟合meta-path以提供下一跳node概率的方法,其使用Bi-LSTM来预测当前节点可能的下一跳节点,在inference时提供一个参考概率。
数据集
CDR(Chemical Disease Relation):生物医学领域的人类标注数据集,任务是预测化学和疾病概念之间的二元相互作用,包含500篇训练文章。
GDA(Gene Disease Association):生物医学领域的一个大规模数据集,任务是预测基因和疾病概念之间的二元相互作用由29192篇训练文章组成。
DocRED(Document-Level Relation Extraction Dataset):是一个大规模的众包数据集,原始语料基于维基百科,包含3053份文章,其中存在大约7%的实体对具有多种关系。该数据集在CodaLab上开放有benchmark。
SOTA
sota
: state of the art,(目前表现最好的方法或模型)baseline, benchmark
总的来说,当前使用GNN的方法占据上风,但使用何种类型的节点和边需要精巧的人工设计,这一点并不算优雅,这也是GNN当前在非图数据上应用普遍存在的一个问题。基于预训练模型(BERT等)的方法使用设计的子任务提升性能的思路可以在更大量数据上测试,同时将更多的全局依存信息,尤其是与位置相关的信息编码进使用transformer的模型中可能也会有更好的效果。
文档级情感分类
https://blog.csdn.net/linchuhai/article/details/102871650
文档级情感分类是指对一篇给定观点的文档(如产品评论)根据所持观点为正面或负面进行分类。
文档级情感分类一般假设文档表达的观点仅针对一个单独的实体,并且只包含一个观点持有者的观点。不过这种假设在现实中是很难符合的,因此,文档级情感分类也是最简单的情感分析任务,一般通过文本分类即可完成。
文档级情感分类方法
- 基于监督的情感分类
- 基于机器学习和深度学习的情感分类
- 使用自定义打分函数的情感分类
- 基于无监督的情感分类
- 使用句法模板和网页检索的情感分类
- 使用情感词典的情感分类
数据集
ChnSentiCorp_htl_all
数据集,7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论
online_shopping_10_cats
数据集,10 个类别(书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店),共 6 万多条评论数据,正、负向评论各约 3 万条
simplifyweibo_4_moods
数据集:36 万多条,带情感标注 新浪微博,包含 4 种情感,其中喜悦约 20 万条,愤怒、厌恶、低落各约 5 万条
https://pan.baidu.com/s/16c93E5x373nsGozyWevITg
SOTA
- 基于
bert
的文档级情感分类 - 基于文本筛选和改进
bert
的长文本方面级情感分析
This is copyright.