Text Generation
Transformers
PyTorch
skywork
custom_code

请问你们罕见的开源的数据呢?

#3
by Johnson0817 - opened

“罕见的开源了高质量预训练数据集,我们将我们的训练数据Skywork-150B数据进行开源,该数据集对中文网页进行精心清洗和过滤,大约包含1500亿中文字符,硬盘大小约为600G,是目前最大的开源中文数据集。”

请问你们罕见的开源的数据呢?

https://huggingface.co/datasets/Skywork/SkyPile-150B/tree/main/data

Skywork org

https://huggingface.co/datasets/Skywork/SkyPile-150B
天工开源150B中文预训练语料安全审核后已重新开放

weitianwen changed discussion status to closed

Sign up or log in to comment