ChatGPT 的训练数据来源是什么
ChatGPT的训练数据来源广泛,主要包括维基百科、书籍、期刊、Reddit链接、Common Crawl和其他数据集。这些数据总计约45TB,包含了近1万亿个单词的文本内容。具体来说:
维基百科:一个免费的多语言协作在线百科全书,包含大量有价值的文本,跨越多种语言和领域。
书籍:包括Project Gutenberg和Smashwords (Toronto BookCorpus/BookCorpus)等,主要用于训练模型的故事讲述能力和反应能力。
期刊:预印本和已发表期刊中的论文为数据集提供了坚实而严谨的基础。
Reddit链接:WebText数据集是从社交媒体平台Reddit所有出站链接网络中爬取的,代表了流行内容的风向标。
Common Crawl:一个存档互联网上公开可用的数据集,包括了数百亿个网页、网站和其他类型的文本数据,文本来自不同语言、不同领域。
其他数据集:包括GitHub等代码数据集、StackExchange等对话论坛和视频字幕数据集。
ChatGPT的训练数据还来自BooksCorpus、WebText等,涉及多种领域。这些数据既包括了通用领域的文本,也包括了特定领域的文本,如科技、体育、时政等。在数据预处理阶段,还会进行句子分割、去除HTML标记等操作,以确保模型学习的多样性和代表性。