IT 之家 8 月 14 日消息,据中国新闻网今天报道,国务院新闻办公室今天举行了 " 高质量完成‘十四五’规划 " 系列主题新闻发布会,其中国家数据局局长刘烈宏作出了相关报告、解读。
刘烈宏还指出,中国一直在持续推进高质量数据集建设工作,截至今年 6 月底,中国已建设高质量数据集超过 3.5 万个,总体量超 400PB(409600TB)。
同时,AI 模型训练也推动了数据交易需求,今年 6 月底前中国各地高质量数据集累计交易额近 40 亿元人民币,数据交易机构挂牌的高质量数据集总规模达 246PB(251904TB)。北京数交所的高质量数据集占交易总量的比例从去年的 10% 跃升到目前的近 80%。
IT 之家注:Token(常被称为词元)是计算机科学与自然语言处理领域中的一个基础且重要的概念,通常指文本数据经过分词或标记化处理后的最小单位,其中单位可以是单词、标点符号、数字或其他任何有意义的符号。