目标

针对document-level RE and SA展开调研，主要角度是1.主要方法 2.数据集 3.最好结果（SOAT），尤为关注基于预训练模型（BERT）加fine-tune的做法。

文档级关系抽取任务背景知识

目前大多数关系抽取方法抽取单个实体对在某个句子内反映的关系，有必要将关系抽取从句子级别推进到文档级别。

关系抽取任务RE

从非结构化文本中抽取信息就是为了抽取形如（head, relation, tail）的三元组，有流水线和联合抽取两种方法。

根据文本的长度可以讲关系抽取任务划分为三类：句子级别、句袋级别和文档级别。

评价指标

RE任务的常用评价指标为 Precision、Recall和F1
$$
Precision = \frac{TP}{TP+FP},Recall=\frac{TP}{TP+FN},F1=\frac{2PrecisionRecall}{Precision+Recall}
$$

文档级关系抽取

https://zhuanlan.zhihu.com/p/353183322

主要方法

整个文档中可能有多个Mention指向同一个实体，建模层包含Mention层级
大量信息分布在不同的句子里，抽取全局信息
- 基于层级网络的方法，通过不同层级的网络实现token level -> sentence level -> document level的层次化特征抽取，并把不同层次的特征concate起来做实体之间的关系分类，典型代表是HIN
- 基于全局图的方法，近年来最主流的方法，主要包括三部分：编码及构图、GNN迭代、实体对关系分类
  - 编码：使用GloVe或BERT得到token level embedding，使用可训练权重对token的类别(实体类别，无类别等)进行映射得到type embedding，使用可训练权重对相对位置映射得到relative position embedding。总体上来说token level的信息源就是自身语义、类型及相对位置信息。
  - 构图：本质上只需要确定两部分内容：一个是在图里有哪些类型的点(type of nodes)，另一个是在图里有哪些类别的边(type of edges)。
  - 迭代：使用GCN或GAT等完成多次迭代得到经过平滑后各个节点的结构化特征(structural feature)。
- 基于BERT硬编码的方法：通过原始Transformer或引入外部信息的改造Transformer来对全局信息进行建模。
部分关系需要经过多重信息推理才能等到，实现多步推理（Relational Reasoning）
- 在使用Hierarchical Model的文章中通常认定层级性的Attention可以实现一定程度上的推理。
- 在使用GNN的文章中通常认定多次Message Passing的过程就等价于多步推理的过程。
- 此外还有使用reconstructor来拟合meta-path以提供下一跳node概率的方法，其使用Bi-LSTM来预测当前节点可能的下一跳节点，在inference时提供一个参考概率。

数据集

CDR（Chemical Disease Relation）：生物医学领域的人类标注数据集，任务是预测化学和疾病概念之间的二元相互作用，包含500篇训练文章。
GDA（Gene Disease Association）：生物医学领域的一个大规模数据集，任务是预测基因和疾病概念之间的二元相互作用由29192篇训练文章组成。
DocRED（Document-Level Relation Extraction Dataset）：是一个大规模的众包数据集，原始语料基于维基百科，包含3053份文章，其中存在大约7%的实体对具有多种关系。该数据集在CodaLab上开放有benchmark。

SOTA

sota: state of the art,（目前表现最好的方法或模型）baseline, benchmark

总的来说，当前使用GNN的方法占据上风，但使用何种类型的节点和边需要精巧的人工设计，这一点并不算优雅，这也是GNN当前在非图数据上应用普遍存在的一个问题。基于预训练模型(BERT等)的方法使用设计的子任务提升性能的思路可以在更大量数据上测试，同时将更多的全局依存信息，尤其是与位置相关的信息编码进使用transformer的模型中可能也会有更好的效果。

文档级情感分类

https://blog.csdn.net/linchuhai/article/details/102871650

文档级情感分类是指对一篇给定观点的文档（如产品评论）根据所持观点为正面或负面进行分类。

文档级情感分类一般假设文档表达的观点仅针对一个单独的实体，并且只包含一个观点持有者的观点。不过这种假设在现实中是很难符合的，因此，文档级情感分类也是最简单的情感分析任务，一般通过文本分类即可完成。

文档级情感分类方法

基于监督的情感分类
- 基于机器学习和深度学习的情感分类
- 使用自定义打分函数的情感分类
基于无监督的情感分类
- 使用句法模板和网页检索的情感分类
- 使用情感词典的情感分类

数据集

ChnSentiCorp_htl_all数据集，7000 多条酒店评论数据，5000 多条正向评论，2000 多条负向评论

https://raw.githubusercontent.com/SophonPlus/ChineseNlpCorpus/master/datasets/ChnSentiCorp_htl_all/ChnSentiCorp_htl_all.csv

online_shopping_10_cats数据集，10 个类别（书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店），共 6 万多条评论数据，正、负向评论各约 3 万条

https://link.zhihu.com/?target=https%3A//github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/online_shopping_10_cats/online_shopping_10_cats.zip

simplifyweibo_4_moods数据集：36 万多条，带情感标注新浪微博，包含 4 种情感，其中喜悦约 20 万条，愤怒、厌恶、低落各约 5 万条

https://pan.baidu.com/s/16c93E5x373nsGozyWevITg

SOTA

基于bert的文档级情感分类
基于文本筛选和改进bert的长文本方面级情感分析

RE_SA学习

目标

文档级关系抽取任务背景知识

关系抽取任务RE

评价指标

文档级关系抽取

主要方法

数据集

SOTA

文档级情感分类

文档级情感分类方法

数据集

SOTA

FEATURED TAGS

FRIENDS