RE_SA学习

Posted by cjj on 2022-07-10
Words 1,477 and Reading Time 5 Minutes
Viewed Times

目标

针对document-level RE and SA展开调研,主要角度是1.主要方法 2.数据集 3.最好结果(SOAT),尤为关注基于预训练模型(BERT)加fine-tune的做法。

文档级关系抽取任务背景知识

目前大多数关系抽取方法抽取单个实体对在某个句子内反映的关系,有必要将关系抽取从句子级别推进到文档级别

关系抽取任务RE

从非结构化文本中抽取信息就是为了抽取形如 (head, relation, tail)的三元组,有流水线和联合抽取两种方法。

根据文本的长度可以讲关系抽取任务划分为三类:句子级别、句袋级别和文档级别。

评价指标

RE任务的常用评价指标为 Precision、Recall和F1
$$
Precision = \frac{TP}{TP+FP},Recall=\frac{TP}{TP+FN},F1=\frac{2PrecisionRecall}{Precision+Recall}
$$

文档级关系抽取

https://zhuanlan.zhihu.com/p/353183322

主要方法

  1. 整个文档中可能有多个Mention指向同一个实体,建模层包含Mention层级
  2. 大量信息分布在不同的句子里,抽取全局信息
    • 基于层级网络的方法,通过不同层级的网络实现token level -> sentence level -> document level的层次化特征抽取,并把不同层次的特征concate起来做实体之间的关系分类,典型代表是HIN
    • 基于全局图的方法,近年来最主流的方法,主要包括三部分:编码及构图、GNN迭代、实体对关系分类
      • 编码:使用GloVe或BERT得到token level embedding,使用可训练权重对token的类别(实体类别,无类别等)进行映射得到type embedding,使用可训练权重对相对位置映射得到relative position embedding。总体上来说token level的信息源就是自身语义、类型及相对位置信息。
      • 构图:本质上只需要确定两部分内容:一个是在图里有哪些类型的点(type of nodes),另一个是在图里有哪些类别的边(type of edges)。
      • 迭代:使用GCN或GAT等完成多次迭代得到经过平滑后各个节点的结构化特征(structural feature)。
    • 基于BERT硬编码的方法:通过原始Transformer或引入外部信息的改造Transformer来对全局信息进行建模。
  3. 部分关系需要经过多重信息推理才能等到,实现多步推理(Relational Reasoning)
    • 在使用Hierarchical Model的文章中通常认定层级性的Attention可以实现一定程度上的推理。
    • 在使用GNN的文章中通常认定多次Message Passing的过程就等价于多步推理的过程。
    • 此外还有使用reconstructor来拟合meta-path以提供下一跳node概率的方法,其使用Bi-LSTM来预测当前节点可能的下一跳节点,在inference时提供一个参考概率。

数据集

  • CDR(Chemical Disease Relation):生物医学领域的人类标注数据集,任务是预测化学和疾病概念之间的二元相互作用,包含500篇训练文章。

  • GDA(Gene Disease Association):生物医学领域的一个大规模数据集,任务是预测基因和疾病概念之间的二元相互作用由29192篇训练文章组成。

  • DocRED(Document-Level Relation Extraction Dataset):是一个大规模的众包数据集,原始语料基于维基百科,包含3053份文章,其中存在大约7%的实体对具有多种关系。该数据集在CodaLab上开放有benchmark。

SOTA

sota: state of the art,(目前表现最好的方法或模型)baseline, benchmark

总的来说,当前使用GNN的方法占据上风,但使用何种类型的节点和边需要精巧的人工设计,这一点并不算优雅,这也是GNN当前在非图数据上应用普遍存在的一个问题。基于预训练模型(BERT等)的方法使用设计的子任务提升性能的思路可以在更大量数据上测试,同时将更多的全局依存信息,尤其是与位置相关的信息编码进使用transformer的模型中可能也会有更好的效果。

文档级情感分类

https://blog.csdn.net/linchuhai/article/details/102871650

文档级情感分类是指对一篇给定观点的文档(如产品评论)根据所持观点为正面或负面进行分类。

文档级情感分类一般假设文档表达的观点仅针对一个单独的实体,并且只包含一个观点持有者的观点。不过这种假设在现实中是很难符合的,因此,文档级情感分类也是最简单的情感分析任务,一般通过文本分类即可完成。

文档级情感分类方法

  • 基于监督的情感分类
    • 基于机器学习和深度学习的情感分类
    • 使用自定义打分函数的情感分类
  • 基于无监督的情感分类
    • 使用句法模板和网页检索的情感分类
    • 使用情感词典的情感分类

数据集

  • ChnSentiCorp_htl_all数据集,7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论

https://raw.githubusercontent.com/SophonPlus/ChineseNlpCorpus/master/datasets/ChnSentiCorp_htl_all/ChnSentiCorp_htl_all.csv

  • online_shopping_10_cats数据集,10 个类别(书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店),共 6 万多条评论数据,正、负向评论各约 3 万条

https://link.zhihu.com/?target=https%3A//github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/online_shopping_10_cats/online_shopping_10_cats.zip

  • simplifyweibo_4_moods数据集:36 万多条,带情感标注 新浪微博,包含 4 种情感,其中喜悦约 20 万条,愤怒、厌恶、低落各约 5 万条

https://pan.baidu.com/s/16c93E5x373nsGozyWevITg

SOTA

  • 基于bert的文档级情感分类
  • 基于文本筛选和改进bert的长文本方面级情感分析

This is copyright.