https://zhuanlan.zhihu.com/p/440169921
1. 答案提示型prompt, 根据任务的目标、答案的类型设计prompt,通过prompt引出答案。
2. 任务提示型prompt,提醒模型是要做什么任务,因为同样输入一句话,可以做的任务太多了,通过prompt让模型知道这次是要做什么任务。
https://github.com/thunlp/OpenPrompt
目标数据集
TREC dataset
TREC数据集是用于问题分类的数据集,由分为广泛语义类别的开放领域,基于事实的问题组成。它有六级(TREC-6)和五十级(fifty-class)(TREC-50)版本。两者都有5,452个训练示例和500个测试示例,但TREC-50具有更细粒度的标签。模型根据准确性进行评估。
1 | dataset_trec( |
dir:字符,存储数据的目录的路径。如果为 NULL,则将使用user_cache_dir来确定路径。
split:返回训练(“训练”)数据或测试(“测试”)数据。默认为“训练”。
version:字符。版本 6(“6”) 或版本 50(“50”)。默认值为“6”。
delete:设置为true为删除数据集。
return_path:设置为true返回数据的路径
clean:设置 TRUE 以删除中间文件。这可以大大减小尺寸。默认值为 FALSE。
manual_download:如果您手动下载了文件并将其放在运行此函数指定的文件夹中,则设置为 true,return_path = TRUE。
source
https://trec.nist.gov/data/qa.html
Value
5452 or 500 rows for “train” and “test” respectively and 2 variables:
class: Character, denoting the class,表示类
text: Character, question text
See also
https://emilhvitfeldt.github.io/textdata/reference/dataset_dbpedia.html
ABBREVIATION
abb
exp
ENTITY
animal
body
color
creative
currency
dis.med.
event
food
instrument
lang
letter
other
plant
product
religion
sport
substance
symbol
technique
term
vehicle
word
DESCRIPTION
definition
description
manner
reason
HUMAN
group
ind
title
description
LOCATION
city
country
mountain
other
state
NUMERIC
code
count
date
distance
money
order
other
period
percent
speed
temp
size
weight
This is copyright.