请问你们罕见的开源的数据呢?
#3
by
Johnson0817
- opened
“罕见的开源了高质量预训练数据集,我们将我们的训练数据Skywork-150B数据进行开源,该数据集对中文网页进行精心清洗和过滤,大约包含1500亿中文字符,硬盘大小约为600G,是目前最大的开源中文数据集。”
请问你们罕见的开源的数据呢?
https://huggingface.co/datasets/Skywork/SkyPile-150B/tree/main/data
weitianwen
changed discussion status to
closed