什么是prompt
博客阅读资料:https://wmathor.com/index.php/archives/1587/
prompt learning,提示学习,最近一年在NLP领域较火的方向。
背景
基础:transformer、self-supervision,是一种训练范式:pre-train + prompt
,和 pre-train + fine-tune
并驾齐驱
与之紧密联系的
language model(语言模型):BERT(完型填空) + GPT(有输入得出下一个词的概率)
prompt for LM:prompt提示语
例子:设计一个影评的情感分类模型,我们搭建一个模型: 影评 + in a word, this movie is ____
。其中包含人工设计的模板 in a word …,这就是prompt的起源。
prompt相较于fine - tune的优势:1. 计算量小 2.存储空间小 (主要是模型参数少)
prompt learning
模板不用人工设计,可以由模型自己学习。方法:在输入之前使用一些embedding进行预训练
- 本质:让下游任务的数据分布向训练集的数据分布进行迁移
- 为什么有效:prompt(提示)可以改变transformer的注意力,适合全局特征,但不适合抽取式问答
prompt learning 和 CV
- NLP的prompt并不成熟,很多问题为解决
- CV的bert也没有大发展
结论:prompt在CV领域暂时不会有大发展
类似于一个QA任务,问题相当于prompt,分为离散型(人能理解的)和连续型
最新研究趋势
EMNLP 2021 论文预讲会
研究维度
从不同视角看Prompt论文发表情况
视角一:Pretrained Language Models
- GPT comes earlier
- BERT is the most widely-used one
- 分类任务
- knowledge probing
- T5 is more popular recently
- QA tasks
- Generation-based tasks
- support PLMs with richer sizes(大尺度)
- support cross-lingual PLMs(多语言)
视角二:Tuning Strategies
- Tuning-free(不改变参数) comes first and keeps popular
- Prompt-only(只改变prompt的参数)tuning gradually get more attention
- Tuning-all(既调预训练语言模型的参数,又调prompt的参数) parameters is less investigated
视角三:tasks
- Commonsense reasoning comes earliest, but grows slowly
- Classification, Generation, Knowledge Probing are top-3 tasks
- Classification is a late start but growing the fastest
- Machine translation is relatively under-explored
- Cross-lingual + encoder-decoder
- Vision(计算机视觉)comes late, but is growing now
视角四:Training Samples
- Zero-shot starts earliest, then few-shot follows
- Few-shot grows fastest, full data is also popular
未来发展
what can we do?
- New Tasks:将prompt learning 放到新的任务上,任务价值?
- New Strategy:不同的tuning 策略
- New Explorations:更深入的理解
- 多任务Prompt learning
- Prompt-based Data Generation/Bias Analysis
- Pre-training
This is copyright.