实战prompt

Posted by cjj on 2022-07-12
Words 470 and Reading Time 2 Minutes
Viewed Times

https://zhuanlan.zhihu.com/p/440169921

1. 答案提示型prompt, 根据任务的目标、答案的类型设计prompt,通过prompt引出答案。

2. 任务提示型prompt,提醒模型是要做什么任务,因为同样输入一句话,可以做的任务太多了,通过prompt让模型知道这次是要做什么任务。

https://github.com/thunlp/OpenPrompt

目标数据集

TREC dataset

TREC数据集是用于问题分类的数据集,由分为广泛语义类别的开放领域,基于事实的问题组成。它有六级(TREC-6)和五十级(fifty-class)(TREC-50)版本。两者都有5,452个训练示例和500个测试示例,但TREC-50具有更细粒度的标签。模型根据准确性进行评估。

1
2
3
4
5
6
7
8
9
dataset_trec(
dir = NULL,
split = c("train", "test"),
version = c("6", "50"),
delete = FALSE,
return_path = FALSE,
clean = FALSE,
manual_download = FALSE
)

dir:字符,存储数据的目录的路径。如果为 NULL,则将使用user_cache_dir来确定路径。

split:返回训练(“训练”)数据或测试(“测试”)数据。默认为“训练”。

version:字符。版本 6(“6”) 或版本 50(“50”)。默认值为“6”。

delete:设置为true为删除数据集。

return_path:设置为true返回数据的路径

clean:设置 TRUE 以删除中间文件。这可以大大减小尺寸。默认值为 FALSE。

manual_download:如果您手动下载了文件并将其放在运行此函数指定的文件夹中,则设置为 true,return_path = TRUE。

source

https://trec.nist.gov/data/qa.html

Value

5452 or 500 rows for “train” and “test” respectively and 2 variables:

class: Character, denoting the class,表示类

text: Character, question text

See also

https://emilhvitfeldt.github.io/textdata/reference/dataset_dbpedia.html

ABBREVIATION
abb
exp
ENTITY
animal
body
color
creative
currency
dis.med.
event
food
instrument
lang
letter
other
plant
product
religion
sport
substance
symbol
technique
term
vehicle
word
DESCRIPTION
definition
description
manner
reason
HUMAN
group
ind
title
description
LOCATION
city
country
mountain
other
state
NUMERIC
code
count
date
distance
money
order
other
period
percent
speed
temp
size
weight


This is copyright.