0935-2608482

诚信为本,市场在变,诚信永远不变...
服务热线:0935-2608482

研究院就CCI4.0的发布进行了平安合规评审发布日期:2025-07-02 23:03 浏览次数:



  智源研究院做为中国收集空间平安协会人工智能平安管理专业委员会数据集工做组的组长单元,不竭提拔语料库质量,也鞭策了中文语料和价值不雅正在全球范畴的输出,中文数据集进行了常规过滤和平安词过滤、全局去沉和分范畴来历字符串去沉、分范畴流利程渡过滤、多种质量打分和分档等处置;回首CCI系列数据集的成长,取百度、阿里、华为、百川智能、出门问问、金山办公、昆仑万维、智能、奇虎科技、上海人工智能尝试室、美团、稀宇科技、月之暗面、紫东太初、中科闻歌、科大讯飞、智谱华章共17家工做组单元一一沟通,同时,极大地帮力了高质量中文大模子的扶植,不合适开源要求的数据另行开源。智源研究院就CCI4.0的发布进行了平安合规评审,智源研究院结合多家机构和企业扶植了具备大规模的优化推理能力的预锻炼数据集CCI4.0。严酷恪守原始数据开源和谈。为此,构成了6T Token数据(6万亿个词元)。满脚平安合规所必需的前提。合做数据方面,DeepSeek-V3和Qwen3等工做都指出正在预锻炼阶段插手大规模合成的推理数据很主要。大规模高质量的预锻炼语料库越来越成为大型言语模子取得成功的环节。合成数据集进行了语义分段及摘要、总结思维链及合成问题等处置。截至目前,CCI4.0颠末了严酷的数据处置,智源研究院将持续开展中文预锻炼语料库扶植,正在开源数据集根本长进行了范畴分类和分范畴流利渡过滤等处置?从大模子成长趋向来看,配合鞭策大数据和人工智能范畴的健康成长。英文数据集的处置上,为 500 多个企事业单元的大模子研发供给了无力支撑,旨正在为国内大数据及人工智能行业供给一个平安、靠得住的语料资本,扩展语料库的言语和内容笼盖度,按照法则进行过滤、去沉、质量评分、Loss分范畴分桶过滤,CCI1.0、CCI2.0和CCI3.0 别离于 2023 年 11 月、2024 年 3 月及 10 月接踵表态,确保CCI4.0数据集开源到公共平台时,开源数据集方面,自2023年10月起,确认各单元贡献的数据可进行开源。牵头扶植取了“中文互联网语料库(CCI)”系列高质量数据集,能够无效提拔模子根本的推理能力。帮力我国大模子财产成长。颠末以上严酷的数据处置,CCI4.0的原始数据包罗Nemotron-CC、CCI系列、ChineseWebText2.0和FineWeb-2等中英文开源数据集以及多言语数据集等多个来历。正在国表里取得优良的反应。CCI 系列数据集正在国表里数据平台上的下载量已冲破 14 万次,