Chronos-2: From Univariate to Universal Forecasting——从单变量到通用预测

发布时间:2026/7/5 14:44:20
Chronos-2: From Univariate to Universal Forecasting——从单变量到通用预测 1. 研究背景与问题现状现有预训练时间序列模型如 Chronos、TimesFM在单变量预测上表现优异但无法处理多变量预测和协变量信息预测限制了其在现实场景中的应用。挑战任务异质性不同任务的变量数量、语义不同。高质量的多变量协变量训练数据稀缺。2. 核心贡献Chronos-2 模型Chronos-2 是一个通用的零样本预训练预测模型能够统一处理三类任务单变量预测多变量预测带协变量过去/已知、数值/类别的预测3. 关键技术亮点技术模块说明组注意力机制核心创新。在时间序列组内进行信息共享组可以是一个序列、多个相关序列、多变量变量、或目标协变量。支持上下文学习ICL和交叉学习。输入处理鲁棒缩放标准化 sinh⁻¹变换 时间索引 掩码元特征 Patching 残差嵌入。架构编码器-only TransformerT5风格交替使用时间注意力和组注意力RoPE位置编码。输出直接预测21个分位数含0.01和0.99极端分位数支持概率预测。训练数据真实单变量数据 大量合成数据TSI、TCM、多变量化器生成的多元/协变量数据。训练策略两阶段训练先2048上下文再扩展至8192上下文支持长序列和长视野预测。4. 主要实验结果在三大基准上均达到SOTA最先进水平基准关键结果fev-bench100任务含多元协变量胜率90.7%技能得分47.3%显著优于TiRex、TimesFM-2.5等。GIFT-Eval97任务高频长视野WQL胜率81.9%MASE胜率83.8%全面领先。Chronos Benchmark II27任务短历史WQL胜率79.8%MASE胜率81.5%同样最优。上下文学习ICL带来的增益单变量任务ICL通过跨序列信息共享提升预测尤其对短历史任务效果显著。多变量任务ICL增益有限单变量模式已能超过Toto-1.0原生多变量模型。协变量任务ICL增益最大Chronos-2大幅优于所有基线包括TabPFN-TS、COSMIC。领域案例能源、零售能源EPF-DE使用负荷可再生能源协变量预测次日电价ICL显著提升精度。零售Rossmann使用促销假期协变量ICL捕捉销售动态远超单变量模式。5. 消融实验结论变体结论小模型28M参数性能接近1.2B基础模型推理速度快2倍适合资源受限环境。仅合成数据训练性能略低于混合真实合成数据但仍很强表明合成数据潜力巨大。长上下文后训练将上下文从2048扩展到8192对高频/长周期数据集如GIFT-Eval有明显提升。6. 总体结论与展望Chronos-2 是首个能统一处理单变量、多变量、协变量预测的零样本预训练模型。组注意力机制是实现通用上下文学习的核心。协变量任务上的巨大性能差距突显了该能力的实际重要性。合成数据在模型训练中起到关键作用未来可能减少对真实数据的依赖。未来方向支持多模态输入如文本、检索增强预测、更多元数据分组策略。Chronos-2 通过创新的组注意力机制和合成数据训练将预训练时间序列模型从“单变量专用”提升为“通用预测引擎”在多元和协变量任务上实现了显著突破。这里是自己的论文阅读记录感兴趣的话可以参考一下如果需要阅读原文的话可以看这里如下所示项目地址在这里如下所示摘要预训练时间序列模型已使得仅需推理的预测系统成为可能这些系统无需针对特定任务进行训练即可产生准确的预测。然而现有方法主要集中在单变量预测上这限制了它们在多变量数据和协变量发挥关键作用的现实场景中的应用。我们提出了 Chronos-2一个预训练模型能够以零样本方式处理单变量、多变量和协变量信息预测任务。Chronos-2 采用了一种组注意力机制通过在一个组内的多个时间序列之间进行高效的信息共享促进上下文学习ICL。这个组可以代表一组相关序列、一个多变量序列的各个变量或一个预测任务中的目标和协变量。这些通用能力是通过在合成数据集上训练实现的这些数据集将单变量序列施加了多样的多变量结构。Chronos-2 在三个综合基准测试上均达到了最先进的性能fev-bench、GIFT-Eval 和 Chronos Benchmark II。在强调多变量和协变量信息预测的 fev-bench 上Chronos-2 的通用 ICL 能力带来了相较于现有模型的显著提升。在涉及协变量的任务上它始终以大幅优势超越基线模型。能源和零售领域的案例研究进一步突显了其实际优势。Chronos-2 的上下文学习能力使其成为一种通用预测模型可以在现实世界的预测流程中“开箱即用”。1 引言预训练模型也称为基础模型的出现给时间序列预测带来了范式转变。不再需要为每个时间序列局部模型Hyndman Athanasopoulos, 2018或每个数据集任务特定模型Lim et al., 2021; Challu et al., 2023训练一个模型而是可以在大规模时间序列数据上训练一个单一模型然后应用于不同的预测问题Ansari et al., 2024; Das et al., 2024b。预训练模型通过消除针对每个用例从头开始训练的需求极大地简化了预测流程。更值得注意的是它们常常达到或超过了任务特定模型的预测精度Aksu et al., 2024。尽管有这些进步一个根本性的限制依然存在大多数预训练模型仅处理单变量数据仅考虑单个时间序列的历史观测值来生成预测。虽然单变量预测很重要但现实世界的预测任务类别远不止于此。在实践中可能会遇到需要同时预测多个共同演化时间序列的任务多变量预测Banbura et al., 2010; Cohen et al., 2025或者预测依赖于各种外部因素的任务协变量信息预测。例如CPU使用率、内存消耗和存储I/O等云基础设施指标共同演化并且受益于联合建模Cohen et al., 2025。同样零售需求受到促销活动的强烈影响活动而能源消费模式则受天气条件驱动Petropoulos et al., 2022。缺乏多变量和协变量信息预测能力阻碍了预训练模型在现实世界生产系统中的广泛采用。图1完整的 Chronos-2 流程。输入时间序列目标和协变量首先使用鲁棒缩放方案进行归一化然后添加时间索引和掩码元特征。结果序列被分割成不重叠的 patches并通过残差网络映射到高维嵌入。核心的 Transformer 堆栈处理这些 patch 嵌入并生成对应于作为输入提供的被掩码的未来 patches 的多 patch 分位数输出。每个 Transformer 块交替进行时间注意力和组注意力层时间注意力层聚合单个时间序列内各 patches 的信息而组注意力层则在每个 patch 索引处聚合组内所有序列的信息。组是一个灵活的相关性概念可以对应于单个时间序列、共享来源或元数据的多个序列、多变量序列的各个变量或者目标及其相关的协变量。该图说明了两个多变量时间序列每个都有一个已知协变量相应的组分别以蓝色和红色突出显示。此示例仅用于说明Chronos-2 支持任意数量的目标和可选协变量。开发能够同时处理多变量依赖关系和协变量的通用预训练模型由于两个因素而具有挑战性。首先预测问题的异质性需要重新思考模型架构。每个下游任务在维度的数量及其语义上都不同。由于无法先验地知道变量在未见任务中将如何交互模型必须从可用的上下文中推断这些交互。其次具有多变量依赖性和信息性协变量的高质量预训练数据稀缺。在这项工作中我们提出了 Chronos-2一个预训练模型旨在以零样本方式处理任意预测任务——单变量、多变量和协变量信息。Chronos-2 利用上下文学习ICL来支持多变量预测和任意协变量无论是仅过去past-only的还是未来值已知的known实值或类别型的。其增强的 ICL 能力还通过实现交叉学习cross learning改善了单变量预测即模型在批次中的单变量时间序列之间共享信息从而产生更准确的预测。Chronos-2 的 ICL 能力的核心是组注意力机制。它使得时间序列组内的信息交换成为可能这些组可以代表任意一组相关序列、多变量序列的各个变量或者预测任务中的目标与协变量包括仅过去和已知的。组注意力层不是通过拼接目标和协变量来扩展上下文而是沿着批次轴在组内共享信息使其能够优雅地随变量数量扩展。Chronos-2 的一个关键创新在于我们的训练方法为了实现其 ICL 能力我们依赖于通过对从基础单变量生成器采样的时间序列施加多变量结构而生成的合成时间序列数据。Chronos-2 的完整推理流程包括分词和建模如图 1 所示。在综合预测基准上的实证评估包括fev-benchShchur et al., 2025、GIFT-EvalAksu et al., 2024和Chronos Benchmark IIAnsari et al., 2024表明 Chronos-2 达到了最先进的性能。在涵盖了广泛预测任务——单变量、多变量、和协变量信息预测——的 fev-bench 上Chronos-2 在所有类别中均优于基线模型。最大的提升体现在协变量信息任务上证明了 Chronos-2 在这个实际重要场景中的优势。Chronos-2 在提供这些新能力的同时保持了高计算效率能够在单块中端 GPUNVIDIA A10G上运行吞吐量达到每秒 300 个时间序列。¹本技术报告其余部分组织如下。第 2 节介绍了时间序列预测的背景以及现有预测方法特别关注预训练模型。在第 3 节中我们描述了 Chronos-2 的架构并讨论了其训练和推理流程。第 4 节简要讨论了 Chronos-2 的训练语料库。在第 5 节中我们展示了在三个预测基准上的主要结果、能源和零售领域的案例研究以及消融实验。我们在第 6 节总结了报告并讨论了未来可能的工作。表 1预训练预测模型能力比较。仅过去协变量支持仅在历史中观测到的协变量已知协变量支持未来值已知的协变量类别协变量支持协变量中的名义特征交叉学习支持跨相关时间序列的上下文学习内存扩展推理内存需求与总变量数量 V包括目标和协变量的关系。2 背景与相关工作在预训练模型范式之前预测方法大致可以分为局部模型和全局模型。局部模型为数据集中的每个时间序列拟合一组参数。这包括经典方法如 ARIMA、指数平滑Hyndman Athanasopoulos, 2018和 ThetaAssimakopoulos Nikolopoulos, 2000。相比之下全局模型在特定数据集内的所有时间序列之间共享其参数。过去十年中这一类别中的深度学习方法变得越来越普遍。全局模型的显著例子包括循环神经网络RNN如 DeepStateRangapuram et al., 2018、DeepARSalinas et al., 2020和 TimeGradRasul et al., 2021堆叠架构如 N-BEATSOreshkin et al., 2020和 N-HiTSChallu et al., 2023以及基于 Transformer 的架构如 TFTLim et al., 2021和 PatchTSTNie et al., 2023。预训练预测模型最近已成为时间序列预测中的一种新范式。虽然早期工作已经展示了预测的有限迁移学习能力Orozco Roberts, 2020Oreshkin et al.,2021Jin et al., 2022Nie et al., 2023但预训练模型采用了类似于大型语言模型LLM的原则并能在多样化数据集上实现零样本泛化。最初的尝试侧重于直接将语言模型应用于时间序列任务Gruver et al., 2023Jin et al., 2024而最近的方法则主要借鉴了 LLM 的架构概念但将其在时间序列数据上进行预训练Das et al., 2024bGarza et al., 2024Ansari et al., 2024。大多数预训练模型仅限于单变量预测Rasul et al., 2023Das et al., 2024bAnsari et al., 2024Liu et al., 2025Auer et al., 2025b在多变量场景中独立处理每个维度并忽略协变量。值得注意的例外包括 Moirai-1Woo et al., 2024和 TotoCohen et al., 2025它们将多变量结构纳入了其架构中。Moirai-1 支持多变量输入但在内部将其展平这限制了其在高维情况下的可扩展性。Toto 引入了交叉变量注意力机制但不支持已知或类别协变量。COSMICAuer et al., 2025a通过合成增强推动了协变量的利用但仍局限于单变量目标。TabPFN-TSHoo et al., 2025是一个适用于时间序列的表格基础模型可以整合已知协变量但它不建模仅过去协变量或多变量目标。尽管有这些进展实证分析表明大多数方法相较于单变量模型仅提供了边际收益Zukowska et al., 2024Auer et al., 2025a这表明在零样本设置中联合建模多个变量并有效整合协变量仍然是一个悬而未决的挑战。我们的方法通过一种组注意力机制解决了这一差距该机制推广了多变量预测的交叉注意力架构Zhang Yan, 2023Rao et al., 2021Arnab et al., 2021以及跨多个单变量序列的交叉学习Das et al., 2024a思想。与先前的方法不同组注意力机制对相关时间序列的组进行操作并自然地适应多样化的预测设置包括单变量、多变量和协变量信息任务且无需进行架构更改或任务特定调整。表 1 比较了 Chronos-2 与现有预训练模型的能力。3 Chronos-2 模型在本节中我们介绍 Chronos-2 模型。我们从缩放和分词开始然后是模型的架构包括实现 Chronos-2 上下文学习能力的组注意力机制。随后我们讨论 Chronos-2 的训练和推理流程。Chronos-2 的完整推理流程如图 1 所示。3.1 缩放与分词3.2 架构Chronos-2 是一个编码器-only TransformerVaswani et al., 2017模型它紧密遵循 T5 编码器的设计Raffel et al., 2020。下面我们讨论 Chronos-2 的关键架构组件。时间注意力。时间注意力层是典型序列模型中常见的注意力层。它沿时间轴应用自注意力并聚合相同输入维度的各个 patches 之间的信息。我们将原始 T5 模型自注意力层中使用的相对位置嵌入替换为旋转位置嵌入RoPESu et al., 2024后者已成为现代基于 Transformer 模型中位置嵌入的事实标准Touvron et al., 2023。组注意力。我们在 Transformer 堆栈中引入了一个组注意力层这是实现 Chronos-2 上下文学习能力的核心。该层在给定 patch 索引处聚合属于同一组的时间序列之间的信息。一个组指的是一组相关的时间序列根据预测任务的不同它可以指代不同的内容。例如一个组可以包含单个时间序列最小的分组模型在此模式下进行单变量预测而不参考批次中的其他时间序列。一组具有共享来源或元数据的时间序列这种分组使模型能够通过对相关时间序列进行联合预测来实现跨项目的交叉学习也称为少样本学习而不是仅根据单个时间序列的历史来生成单变量预测。在以下情况下共享相关信息可能特别有帮助所有或部分冷启动场景时间序列的历史较短或者下游数据集的特性与训练数据分布存在显著差异。一组具有共享动态的变量这种分组支持多变量预测其中模型联合预测所有具有共享动态的变量。一组目标、仅过去协变量和已知协变量这是最一般的情况模型在考虑协变量的同时预测目标。3.3 训练在训练期间批次被构建为包含异构的预测任务单变量预测、多变量预测这也涵盖了具有仅过去协变量的任务以及具有已知协变量的多变量预测。每个任务由目标维度数 D、协变量数 MM 以及每个维度的角色目标、仅过去协变量或已知协变量来表征。每个任务被分配一个唯一的组 ID组 ID g 的组合以及未来输入 W 是否被观测到使得模型能够推断出特定的预测设置。该模型使用分位数回归目标进行训练训练分为两个阶段。首先模型以最大上下文长度 2048 和较少的最大输出 patches 数量进行预训练。在第二阶段上下文长度扩展到 8192并且采样的最大输出 patches 数量增加。更长的上下文使模型能够捕捉高频时间序列中的长期季节性而多 patch 输出则允许进行长视野预测而无需依赖启发式方法。3.4 推理单变量预测批次中的每个项目被分配一个唯一的组 ID。这确保模型为批次中的每个时间序列独立地进行预测。多变量预测属于同一个多变量序列的每个变量被分配相同的组 ID而来自不同多变量序列的变量则具有不同的组 ID。这允许模型在多元时间序列的不同变量之间共享动态信息。带协变量的预测属于同一任务的所有目标、仅过去协变量和已知协变量被分配相同的组 ID。对应于已知协变量的未来输入 W 包含其已知的未来值。模型为协变量生成的预测将被忽略。表 2通过适当地指定组 ID 和未来输入可以解决不同的预测任务。这里g 和 W 分别表示提供给模型的组 ID 和未来值。目标和仅过去协变量的未来输入被掩码为缺失值用 ∗ 表示。为了清晰起见这些示例使用了固定数量的变量但 Chronos-2 可以处理任意维度。表 2 总结了如何指定组 ID 和未来输入来解决不同的预测任务。除此之外Chronos-2 还可以在完全交叉学习模式下使用即批次中的每个项目都被分配相同的组 ID无论该项目是目标、仅过去协变量还是已知协变量。由于每个项目都属于同一组模型会跨批次中的项目共享信息并对整个批次进行联合预测。4 训练数据对于像 Chronos-2 这样的通用预训练模型训练数据通常比模型的具体架构起着更具决定性的作用。尽管最近的努力扩大了大规模时间序列数据集的可用性Woo et al., 2024Ansari et al., 2024Aksu et al., 2024但它们主要包含单变量数据。为了克服这一限制并赋予 Chronos-2 上下文学习能力我们广泛地依赖了合成数据。4.1 单变量数据我们将 ChronosAnsari et al., 2024和 GIFT-EvalAksu et al., 2024预训练语料库中的选定数据集纳入了 Chronos-2 的训练语料库。数据集的完整列表在附录的表 6 中提供。为了进一步增加数据多样性我们使用两种方法生成了合成数据TSI趋势、季节性和不规则性基于 Bahrpeyma et al. (2021)该生成器通过随机构建和组合不同的趋势、季节性和不规则分量来产生多样的合成序列。TCM时间因果模型该生成器从时间因果模型Runge et al., 2023中随机采样因果图并通过自回归生成时间序列。4.2 多变量数据对于多变量和协变量信息任务我们完全依赖合成数据。为了实现广泛的多变量结构我们引入了多变量化器multivariateizers的概念。一个多变量化器从基础单变量生成器中采样多个时间序列并在它们之间施加依赖关系以创建多变量动态。作为基础单变量生成器我们采用了多样化的集合包括自回归AR模型、指数平滑ETS模型、TSI 和 KernelSynthAnsari et al., 2024。我们使用了两个大类的多变量化器同期Cotemporaneous多变量化器在从基础单变量生成器采样的时间序列的相同时间步上应用线性或非线性变换。这在时间序列之间引入了瞬时相关性从而产生一个多变量时间序列。序列Sequential多变量化器引入跨时间的依赖关系生成更丰富的多变量特性如超前-滞后效应和协整性。从多变量化器生成的多变量时间序列被用于构建多变量任务其中所有变量都必须被预测和协变量信息任务在后者中一部分变量被随机指定为已知协变量。5 实验在本节中我们首先通过三个综合基准对 Chronos-2 与最先进方法进行评估展示实证结果第 5.1 节。然后我们展示了在单变量、多变量和协变量信息预测任务上通过上下文学习所获得的收益第 5.2 节。接下来我们考察 Chronos-2 在能源和零售领域任务上的性能在这些领域中协变量通常对准确预测很重要第 5.3 节。最后我们报告了 Chronos-2 的消融变体的结果第 5.4 节包括一个更小的模型、一个仅使用合成数据训练的版本以及长上下文后训练之前的模型。5.1 基准测试结果表 3fev-bench 结果。平均胜率和技能得分是相对于缩放分位数损失SQL指标计算的。两者都是越高越好。Chronos-2 在这个包含单变量、多变量和协变量信息预测任务的基准上大幅超越了所有现有的预训练模型。基线结果以及处理某些任务中数据泄露的插补策略均来自 Shchur et al. (2025)。其他预测指标的结果见附录中的表 7 至表 9。我们在三个综合预测基准上评估了拥有 1.2 亿参数的基础 Chronos-2 模型fev-benchShchur et al., 2025、GIFT-EvalAksu et al., 2024和Chronos Benchmark IIAnsari et al., 2024。为了将其性能置于背景下我们将其与在这些基准上取得最强结果的最先进时间序列基础模型进行了比较。这些模型包括 TiRexAuer et al., 2025b、TimesFM-2.5Das et al., 2024b、Toto-1.0Cohen et al., 2025、Moirai-2.0Woo et al., 2024、TabPFN-TSHoo et al., 2025、COSMICAuer et al., 2025a、SundialLiu et al., 2025和 Chronos-BoltAnsari et al., 2024后者是 Chronos 最新公开发布的版本。作为额外的基线我们还包含了 AutoARIMA、AutoETS、AutoTheta 及其集成模型Petropoulos Svetunkov, 2020它们代表了统计预测文献中成熟的方法Hyndman Athanasopoulos, 2018。我们仅将 Chronos-2 与上述模型进行比较并将任务特定的深度学习模型排除在我们的评估之外因为先前的研究Aksu et al., 2024Ansari et al., 2024—— 包括我们工作中考虑的三个基准中的两个GIFT-Eval 和 Chronos Benchmark II —— 已经表明预训练模型的平均表现与任务特定模型相当或更好。图 2在 fev-bench 上排名前四的预训练模型的成对胜率 (a) 和技能得分 (b)附带了通过自助法bootstrapping获得的 95% 置信区间CIs。Chronos-2 在两项指标上均以统计显著的方式超越了次优模型TiRex 和 TimesFM。完整的图表和其他预测指标的结果可在附录的图 12 至图 19 中找到。表 4GIFT-Eval 结果。关于 (a)加权分位数损失WQL和 (b)平均绝对缩放误差MASE指标的平均胜率和技能得分。两者都是越高越好。Chronos-2 超越了之前的最佳模型 TimesFM-2.5 和 TiRex。基线结果取自 GIFT-Eval 排行榜Aksu et al., 2024。GIFT-Eval。GIFT-Eval 基准包含来自 55 个数据集的 97 个任务特别强调高频时间序列和长视野预测。表 4 中的结果表明在加权分位数损失WQL和平均绝对缩放误差MASE指标下Chronos-2 在胜率和技能得分方面均超越了先前领先的模型TiRex 和 TimesFM-2.5。在构建 Chronos-2 的预训练语料库时我们仔细确保其与任何 GIFT-Eval 任务的测试部分在任何采样频率下都没有重叠。尽管如此该语料库确实包含与某些 GIFT-Eval 数据集训练部分的部分重叠。对于严格零样本的结果请参考第 5.4 节我们在该节评估了完全在合成数据上训练的 Chronos-2 变体。表 5Chronos Benchmark II 结果。关于 (a)加权分位数损失WQL和 (b)平均绝对缩放误差MASE指标的平均胜率和技能得分。两者都是越高越好。Chronos-2 在所有指标上均取得了最佳结果。Chronos Benchmark II。该基准最初由 Ansari et al. (2024) 提出用于评估第一代 Chronos 模型包含 27 个任务其中大多数涉及短历史平均少于 300 个时间步。这些数据集均未包含在 Chronos-2 的训练语料库中。在该基准上如表 5 所示Chronos-2 在概率WQL和点MASE预测指标下的胜率和技能得分方面始终优于现有模型。综上所述这些结果表明Chronos-2 不仅在三个基准上优于所有竞争模型而且相对于其前身 Chronos-Bolt 有显著改进突显了 Chronos-2 在架构和训练方面的改进所带来的影响。5.2 上下文学习的改进第 5.1 节中的结果对应于启用了上下文学习ICL的 Chronos-2具体是在第 3.4 节中描述的完全交叉学习模式下。在本节中我们将 ICL 带来的收益与单变量推理相比进行分解。为此我们将 fev-bench 分为三个子集单变量子集包含 32 个涉及单个目标时间序列且无协变量的任务多变量子集包含 26 个包含多个目标但无协变量的任务以及协变量子集包含 42 个至少包含一个仅过去或已知协变量的任务。我们将启用了 ICL 的 Chronos-2 与其单变量推理模式在这三个子集上以及在 GIFT-Eval 和 Chronos Benchmark II 上进行比较。在单变量模式下批次中的每个时间序列被独立预测并且如果存在协变量则被忽略。图 3Chronos-2 在单变量模式下的概率预测结果以及通过上下文学习ICL带来的相应改进显示为堆叠条形图分别对应 (a) fev-bench 的单变量子集(b) GIFT-Eval和 (c) Chronos Benchmark II。对于这些单变量基准ICL 实现了交叉学习允许模型在批次内的项目之间共享信息从而生成比单独的单变量推理更准确的预测。点预测指标的结果见附录图 9。单变量任务。ICL 在单变量任务上提供了技能得分的提升如图 3 所示。这种效果在 Chronos Benchmark II图 3 (b)上尤为显著该基准包含许多上下文较短的任务。这表明当启用 ICL 时Chronos-2 可以利用来自相关时间序列的信息来改进预测特别是在时间序列历史有限的情况下。图 4Chronos-2 在单变量模式下的概率预测结果以及通过上下文学习ICL带来的相应增益显示为堆叠条形图分别对应 fev-bench 的多变量和协变量子集。在多变量任务上ICL 仅提供了适度的改进尽管 Chronos-2 在单变量模式下已经超越了支持多变量的 Toto-1.0 模型。然而在协变量子集上ICL 带来了最大的增益证明了 Chronos-2 有效利用协变量的能力。除了 Chronos-2只有 TabPFN-TS 和 COSMIC 支持协变量而 Chronos-2 以大幅优势超越了所有基线包括 TabPFN-TS 和 COSMIC。点预测指标的结果见附录图 10a 和 10b。多变量任务。在 fev-bench 的多变量子集上ICL 相较于单变量推理仅带来了适度的增益图 4a (a)。有趣的是在单变量模式下Chronos-2 甚至超越了原生支持多变量预测的 Toto-1.0 模型。这表明尽管这些任务涉及可能具有共享动态的多个变量但显式多变量建模的益处可能有限。一个可能的直觉来自 Takens 嵌入定理Takens, 2006该定理暗示系统的动态通常可以通过单一变量的延迟观测值来重建。在实践中这意味着如果历史足够长一个强大的单变量模型可能能够捕捉到与多变量模型相同的大部分结构。其他研究也报告了类似的实证发现例如Nie et al. (2023) 观察到单变量“通道独立”模型通常与多变量“通道依赖”模型表现相当尽管是在不同的基准上。带协变量的任务。ICL 带来的最大增益是在包含协变量的任务上观察到的图 4a (b)。在这里性能差距清楚地表明与忽略协变量的单变量推理相比带有 ICL 的 Chronos-2 可以有效利用协变量来改进预测。Chronos-2 在此子集上以大幅优势超越了基线模型。不出所料第二名被 TabPFN-TS 占据这是另一个支持已知协变量的模型。这些结果突显了 Chronos-2 的优势以及现有预训练模型的局限性——其中大多数缺乏协变量支持而协变量支持在实际应用中至关重要。图 5Chronos-2 与基线模型在能源和零售领域中包含动态协变量的任务上的比较。Chronos-2 以大幅优势超越了所有基线包括在 fev-bench 协变量子集上最强的基线 TabPFN-TS 和 TiRex图 4b。对于零售领域我们考虑了适合该领域的 WQL 指标。点预测指标的结果见附录图 11a 和 11b。图 6在能源价格预测任务上Chronos-2 在单变量模式下上图即不使用协变量以及带有上下文学习时第二张图生成的预测。垂直灰色虚线表示预测开始日期阴影区域表示中位数预测周围的 80% 预测区间。通过 ICLChronos-2 利用 Amprion 负荷以及太阳能风能协变量产生了更准确的预测。5.3 领域案例研究我们对来自能源和零售领域的任务进行了进一步分析在这些领域中协变量通常为准确预测提供关键信息。对于这两个领域我们选择了 fev-bench 中所有带有动态协变量的任务分别得到 16 个和 17 个任务详细内容见附录中的表 10 和 11。作为基线我们使用了 TabPFN-TS 和 TiRex它们是在 fev-bench 协变量子集上表现最强的两个模型如图 4b 所示。图 5a 和 5b 中的结果表明Chronos-2 始终以大幅优势超越这些基线。纳入协变量为 Chronos-2 带来了显著的性能提升这巩固了协变量在现实世界预测任务中的关键作用。与图 4b 一致第二好的结果是由 TabPFN-TS 取得的这是另一个能够利用协变量的模型。为了说明 Chronos-2 如何使用 ICL 利用协变量我们比较了在单变量模式下与使用 ICL 时生成的预测。我们从每个领域中选择了一个 ICL 带来最大提升的任务。图 7在 Rossmann 销售预测任务上Chronos-2 在单变量模式下上图即不使用协变量以及带有上下文学习时第二张图生成的预测。垂直灰色虚线表示预测开始日期阴影区域表示中位数预测周围的 80% 预测区间。通过 ICLChronos-2 通过捕捉促销和假期协变量对未来销售的影响生成了显著更准确的预测。图 6 显示了德国能源价格预测任务EPF-DE上的预测目标是根据历史价格、负荷以及可再生能源太阳能和风能发电量的日前预测来预测次日的小时能源价格。在单变量模式下Chronos-2 做出了合理但不精确的预测。然而通过 ICLChronos-2 有效地利用了协变量生成了显著更准确的预测。图 7 中的零售任务涉及预测欧洲药品连锁店 Rossmann 下一季度的周销售额使用历史销售额以及协变量历史客流量以及指示商店运营、促销期和节假日的已知协变量。Chronos-2 的单变量预测几乎是平坦的且具有很高的不确定性。相比之下ICL 预测利用了协变量——特别是促销和假期信息——来捕捉预测范围内的真实销售动态。5.4 消融研究图 8主要 Chronos-2 模型1.2 亿参数与 (a) 一个较小的 2800 万参数模型(b) 一个仅在合成数据上训练的模型以及 (c) 长上下文后训练之前的主要模型的比较。在本节中我们提供了额外的实验和消融研究以分解不同设计选择的影响。我们考察了 Chronos-2 在不同参数量下的性能评估了仅在合成数据上训练的模型并证明了在长上下文场景中进行后训练的重要性。模型大小。我们训练了一个 2800 万参数的小型模型以了解模型大小对预测性能的影响。如图 8a 所示尽管尺寸减小小型模型仍提供了强劲的性能。例如在 GIFT-Eval 上其技能得分仅落后基础模型 1%同时提供了近 2× 的推理速度。这使得它特别适用于资源受限的环境例如仅 CPU 的设置或者推理速度优先于最大预测精度的应用。仅合成数据。合成时间序列数据在推进预训练预测模型方面发挥了关键作用Ansari et al., 2024Das et al., 2024b。TabPFN-TSHoo et al., 2025证明即使训练完全依赖合成数据也能实现强劲的性能。为了检验这种方法的极限我们训练了一个仅使用合成数据的 Chronos-2 版本。在 Chronos Benchmark II 和 GIFT-Eval 上这个模型Chronos-2-Synth的性能仅略低于在其预训练语料库中包含真实数据的版本图 8b。它在 fev-bench 上也提供了强劲的结果尽管性能差距更大。这些结果突显了合成数据的重要性表明通过进一步的研究真实数据甚至可能不是有效预训练所必需的。长上下文后训练。如第 3.3 节所述Chronos-2 最初以 2,048 个时间步的上下文长度进行训练然后以 8,192 步的扩展上下文进行后训练。图 8c 将基础模型标记为 Chronos-2-2K与后训练变体进行了比较。扩展上下文长度带来了收益特别是在包含许多具有长季节性周期的高频数据集的 GIFT-Eval 基准上。6 讨论我们介绍了 Chronos-2这是一个预训练时间序列模型旨在以零样本方式处理广泛的预测场景包括单变量、多变量和协变量信息任务。在三个综合基准上Chronos-2 始终优于现有的基础模型证明了上下文学习可以提升不同任务类型的预测性能。一个特别大的性能差距出现在协变量信息任务上Chronos-2 大幅超越了先前的模型。这既突显了现有模型的局限性也突显了上下文信息例如协变量在准确预测中所起的关键作用。虽然 Chronos-2 仅支持数值型和类别型协变量但将预训练模型扩展到整合多模态输入如文本代表了未来研究的一个有前景的方向Zhang et al., 2025。我们的结果进一步强调了合成数据在实现通用预测中的重要性。Chronos-2 超越单变量预测的能力完全依赖于合成数据而消融研究表明完全在合成数据上训练的模型性能仅略逊于在真实和合成数据集混合上训练的模型。我们预计合成数据将在推进预训练时间序列模型方面发挥越来越核心的作用。最后Chronos-2 中灵活的组注意力机制为进一步的应用开辟了机会。例如可以使用稀疏元数据或密集嵌入对时间序列进行分组以实现检索增强预测这有可能在小数据或冷启动场景中提升性能。