时间序列预测来到真正意义上的 " 高维赛场 "!
从原来几百维的小数据集到万维系统,时序预测模型面对真实世界,终于不用再 " 一碰就脆 "。

该基准涵盖神经科学、云计算、气象、金融等十个领域的 16 个数据集,变量数量最高可达两万。
团队还围绕该基准发布了首个高维时序开源框架Time-HD-Lib,提供了标准化预处理、统一评估策略、自动化超参数搜索以及分布式训练,系统地填补了高维时序预测评测的空白。
同时提出预测模型U-Cast,不仅可以在多个数据集中将误差降低15%,训练速度还能提升近一倍。
下面是有关该基准的更多细节内容。
时序预测领域向高维迈进
从金融市场的上千支股票,到智慧城市交通网络的上万个传感器,毫无疑问我们正全面进入一个由高维时间序列数据驱动的时代。
然而,当前主流的时间序列预测(TSF)模型,大多仍停留在仅包含几个或几百个变量的低维环境(如 ETT、Traffic)。

另外也只有高维环境才能真正释放通道依赖型模型的价值。
在现有的低维数据集上,通道依赖型(Channel-Dependent, CD)模型相较通道独立型(Channel-Independent,CI)模型并未表现出稳定且显著的优势。
而大规模数据集已被证明是多个研究领域取得突破的关键支撑,例如,CV 中的 ImageNet、MS COCO,NLP 中的 GLUE、SQuAD,以及 Graph 中的 OGB,都在推动相应领域的发展中发挥了决定性作用。
但在时序预测领域,始终缺乏同类的大规模基准,现有的大多数基准并不包含高维数据集,其中 Time-MoE 和 TFB 仅各包含一个高维数据集(分别为 1K 和 2K 维),而且用于训练基础模型的数据集通常存在数据点未对齐的问题,无法直接用于评测。

为时序预测设立全新高维基准
为了进一步推动时序社区发展,研究团队构建了Time-HD——首个专为高维时间序列预测设计的大规模基准,具有以下特性:

Time-HD 包含 16 个高维时间序列预测数据集,这些数据集的变量数(维度)范围从 1161 到 20000,显著高于常用基准(如 ETT、Weather、ECL、Solar 和 Traffic,它们通常仅包含 7 – 862 个通道)。

Time-HD 同时包含模拟数据集和真实世界数据集。
Neurolib 和 SIRS 是基于领域知识的微分方程进行模拟生成的,适用于科学建模与假设检验,其余数据集则来源于真实观测数据,能够用于评估预测模型在实际场景中的泛化能力。
3、数据规模多层次(Varied Scales):
Time-HD 提供了不同规模的数据集,其规模由变量数量和时间序列长度共同决定,并可通过磁盘占用反映这种差异。
如表所示,其中包含 4 个大规模(GB 级)、8 个中等规模(数百 MB 级)和 4 个小规模(数十 MB 级)数据集。
中小规模数据集可以在单个 GPU 的内存中运行,适合用于评估计算资源密集型模型;而大规模数据集则支持基于小批量和分布式训练的可扩展方法研究。
4、采样频率多样性(Different Sampling Frequencies):
Time-HD 覆盖了多种采样频率,包括毫秒、分钟、小时和天,这种多样性反映了不同应用领域的真实场景,使得模型能够在不同时间分辨率下进行评估。
此外,Time-HD 采用与采样频率对应的预测长度,而非以往基准中常见的固定预测步长,从而更贴近实际预测需求。
5、领域覆盖广泛(Broad Domain Coverage):
Time-HD 包含来自 10 个不同领域的数据集,包括神经科学、能源、云计算、气象、交通、流行病学、金融和社会行为等。
这样的多领域覆盖支持通用型预测模型的开发,并便于与特定领域方法进行对比研究。

复杂的层级结构:在大规模系统中,变量之间往往呈现出隐含的层级关系(例如,金融市场中从板块到行业再到具体公司的层次),而现有模型大多无法有效捕捉这种多尺度关联 。
效率与扩展性瓶颈:传统的依赖通道间交互的模型,在面对上千个变量时,其计算成本和内存消耗会呈指数级增长,变得不切实际。
其核心设计包括:
1、层级式潜查询网络(Hierarchical Latent Query Network):
U-Cast 不再依赖在所有变量间进行全局注意力计算的传统方式,而是引入一小组可学习的" 潜查询 "(latent queries)。
这些潜查询如同信息提取器,能够逐层从高维变量中筛选并压缩关键信息,从而高效建构数据的潜在层级结构,实现对复杂多尺度依赖关系的建模。
Channel Embedding

Hierarchical Latent Query Network

Hierarchical Upsampling Network

Output Projection

2、全秩正则化(Full-Rank Regularization):
高维时间序列普遍存在冗余性,导致模型容易陷入学习重复或低效表示,为此,U-Cast 在训练过程中引入一种新颖的正则化目标,以约束表示空间保持更高秩的多样性。
该机制能够有效减少通道间冗余信息,促使模型学习到更加独立且结构化的特征表示,从而提升预测的精度与稳健性。

3、优化目标(Overall Objective):

实验效果

而且 U-Cast 不仅预测得更准,还更快、更省资源。
如图所示,在达到最低预测误差(MSE)的同时,U-Cast 的训练速度(12ms/iter)和显存占用(0.2GB)远低于表现相近的iTransformer(20.8ms, 2.8GB)等模型 。



研究团队通过发布 Time-HD 基准,开源 Time-HD-Lib 框架,和提出 U-Cast 方法,为高维时间序列预测设立了新的标杆。
不仅提供了性能卓越、效率优越的基线模型,也为研究社区探索更大规模、更真实场景的时序预测开辟了新方向。
未来高维时序预测研究有望迎来新一轮创新浪潮,助力时序预测迈向高维。
论文链接:https://arxiv.org/pdf/2507.15119
代码链接:https://github.com/UnifiedTSAI/Time-HD-Lib
数据集链接:https://huggingface.co/datasets/Time-HD-Anonymous/High_Dimensional_Time_Series
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情

科技前沿进展每日见