目标数据集

TREC dataset

TREC数据集是用于问题分类的数据集，由分为广泛语义类别的开放领域，基于事实的问题组成。它有六级（TREC-6）和五十级(fifty-class)（TREC-50）版本。两者都有5，452个训练示例和500个测试示例，但TREC-50具有更细粒度的标签。模型根据准确性进行评估。

dataset_trec(
  dir = NULL,
  split = c("train", "test"),
  version = c("6", "50"),
  delete = FALSE,
  return_path = FALSE,
  clean = FALSE,
  manual_download = FALSE
)

dir：字符，存储数据的目录的路径。如果为 NULL，则将使用user_cache_dir来确定路径。

split：返回训练（“训练”）数据或测试（“测试”）数据。默认为“训练”。

version：字符。版本 6（“6”）或版本 50（“50”）。默认值为“6”。

delete：设置为true为删除数据集。

return_path：设置为true返回数据的路径

clean：设置 TRUE 以删除中间文件。这可以大大减小尺寸。默认值为 FALSE。

manual_download：如果您手动下载了文件并将其放在运行此函数指定的文件夹中，则设置为 true，return_path = TRUE。

source

https://trec.nist.gov/data/qa.html

Value

5452 or 500 rows for “train” and “test” respectively and 2 variables:

class: Character, denoting the class，表示类

text: Character, question text

实战prompt

目标数据集

source

Value

See also

FEATURED TAGS

FRIENDS