伊利诺伊大学厄巴纳-香槟分校揭秘:给AI模型建“档案”,让路由系统

制造 2026-05-28

这项由伊利诺伊大学厄巴纳-香槟分校与南洋理工大学联合开展的研究，于2026年4月以预印本形式发布，论文编号为arXiv:2605.00180，有兴趣深入了解的读者可以通过该编号查询完整论文。

**当你的工具箱里有十把锤子，怎么决定用哪把？**

假设你是一位装修师傅，工具箱里装着十几种不同的工具——有适合敲钉子的、有适合拧螺丝的、有适合锯木头的。每来一项任务，你需要迅速判断：这次用哪个工具最合适？你的判断依据是什么？当然是对每件工具性能的了解——它擅长什么、在哪类材料上表现最好、遇到什么样的情况会发挥失常。

现在把这个场景搬到人工智能的世界里。今天的AI领域就像一个巨大的工具库，里面摆满了几十款、甚至上百款大型语言模型（就是那些能聊天、写文章、解数学题的AI）。有的模型擅长写代码，有的精通数学推理，有的在常识问题上表现出色，还有的特别擅长处理多语言内容。面对一个新问题，到底该调用哪款模型？这就是所谓的"LLM路由"（模型路由）问题——它是一套决策系统，负责把每个用户请求精准地分配给最合适的AI模型。

然而，这套决策系统要想运转良好，前提是它必须对每款模型的能力有充分的了解。用装修师傅的比喻来说，如果你连每件工具的性能都不清楚，又怎么可能做出正确的选择？这正是这篇论文的出发点：研究人员发现，过去的工作大多专注于设计更聪明的"决策机制"（路由器），却忽略了一个同样关键的问题——怎样给每款AI模型建立一份准确、全面的"能力档案"（LLM Profile）。

这份研究提出了一个名为RouteProfile的系统框架，专门研究如何科学地为AI模型建档，并通过大量实验揭示了不同的建档方式会如何影响路由系统的表现。

---

**一、为什么给AI模型"建档"这件事比想象中难得多**

给一个人写履历，你可以列出他的学历、工作经历、技能认证，这些信息基本上是现成的。但给一款AI模型写"履历"，情况就复杂多了。

首先，模型的能力并不是一张固定的成绩单，而是在不同任务、不同问题类型上表现各异。就像一位厨师，炒菜和烘焙烤蛋糕是完全不同的技能，单纯说"他很擅长烹饪"并不能告诉你他到底擅长做什么。研究团队用一张雷达图直观地展示了这一点：同样几款模型，在"数学题"、"代码编写"、"常识问答"、"推理"等不同维度上的表现差异相当显著，没有哪款模型在所有维度上都是第一名。

其次，可以用来描述模型能力的信息来自非常不同的层面。有的信息来自宏观的"领域"层面，比如某款模型整体上在数学领域表现好；有的来自"任务"层面，比如它在某个特定的数学竞赛题库上得了多少分；还有的来自非常具体的"查询"层面，比如对于某道特定的几何证明题，它答对了还是答错了。这些信息的粒度相差悬殊，而且彼此之间并不是孤立的——一道具体的题目反映了某类任务的特征，某类任务又属于某个大领域。

现有的建档方式大多相当粗糙。有些系统用一个简单的"编号"来代表每个模型，就像用员工工号代替员工档案，完全看不出任何能力信息。有些系统让一个强大的AI模型用自然语言描述其他模型的能力，但这种描述往往不够准确，而且覆盖的范围很有限。还有一些系统只统计模型在几个标准测试上的平均分，相当于把一位厨师的所有烹饪技能压缩成一个总分，丢失了大量细节。

研究团队指出，建档这件事的核心难点在于：它不是简单地提取某一条信息，而是需要把来自不同层次、不同类型的历史交互记录整合成一幅完整的画像。换句话说，这是一个"结构化信息整合"问题——如何把碎片化的、多粒度的、相互关联的信息有机地组合起来？

---

**二、用"关系网络图"来理解模型能力**

研究团队提出了一个非常直观的解决思路：把所有相关信息组织成一张"关系网络图"，让图中的每个节点和连线都承载有意义的信息。

可以把这张图理解成一个庞大的"知识地图"。地图上有五种不同类型的节点，各自代表不同层次的信息。第一类是"模型节点"，代表每一款具体的AI模型，比如某款70亿参数的Llama模型或者176亿参数的Mixtral混合专家模型。第二类是"模型家族节点"，代表具有相同架构血统的一组模型，比如所有Qwen2.5系列的模型都属于同一个家族，它们在设计理念和训练方式上有共同的基因。第三类是"领域节点"，代表知识和技能的大类，比如"数学"、"推理"、"代码"、"知识"等。第四类是"任务节点"，代表具体的测试基准，比如专门考验数学竞赛能力的MATH500题库，或者专门考验代码生成能力的HumanEval测试集。第五类是"查询节点"，代表最具体的单道题目或问题实例。

这五类节点之间通过四种类型的连线相互关联：模型和模型家族之间有连线，表明它们的血缘关系；模型和任务之间有连线，连线上还标注了这款模型在该任务上的具体得分；任务和领域之间有连线，表明该任务属于哪个能力领域；任务和具体查询之间有连线，表明某道题目来自哪个测试集。

整张图包含来自25款不同AI模型、15个标准测试数据集、4个能力领域的信息，还有大量具体的题目实例。这张图本身就是一个信息极为丰富的"能力全景地图"，远比"某模型在某测试上得了多少分"这样的单一数据点要全面得多。

给每个节点赋予初始特征时，研究团队借助GPT-4o这样的强大AI来生成自然语言描述，然后再用一个专门处理长文本的语言模型（Longformer）把这些描述转换成数字向量，方便后续的数学计算。对于模型节点，初始描述会包括它的架构特点、参数量、指令微调情况等信息；对于任务节点，会描述这个测试集的考核重点和题目类型；对于领域节点，会描述这个能力大类的核心技能要求；对于具体题目节点，描述就是题目本身的文本。

---

**三、四个维度，决定档案质量**

有了这张关系网络图之后，关键问题变成：怎样从图中提取每款模型的"能力档案"？研究团队把这个提取过程——也叫"信息聚合函数"——的设计分解成了四个关键维度，这四个维度共同构成了RouteProfile这个框架。

第一个维度叫做"组织形式"，它决定的是在提取档案信息时，是否要利用图中的结构关系。可以用两种不同的方式来组织信息：一种是"平铺式"，就像把所有相关信息直接摊在桌上、按顺序拼接在一起，不考虑它们之间的关联关系；另一种是"结构化"，像真正在图上"行走"一样，从模型节点出发，沿着连线依次访问相邻的任务节点、领域节点、题目节点，把这些关联信息有机地整合起来。

第二个维度叫做"表示类型"，它决定的是最终生成的档案是什么形式。一种选择是"文本式"，生成的档案是一段人类可读的自然语言描述，比如"这款模型在数学推理上表现优秀，尤其擅长代数类题目，但在开放性常识问答上略显不足"；另一种选择是"向量式"，生成的档案是一串数字，不可直接阅读，但能被神经网络直接处理和计算。

第三个维度叫做"聚合深度"，它决定的是在图上"行走"多远——也就是从模型节点出发，要经过几步才停下来收集信息。深度为0意味着只看模型节点本身的信息，不去访问任何邻居；深度为1意味着看模型节点加上它直接相连的节点；深度为2、3、4则依次向外扩展，纳入更多间接相关的节点信息。

第四个维度叫做"学习配置"，它决定的是这套信息聚合的方式是固定不变的，还是可以通过数据驱动的学习来优化。"无需训练"的方式用固定的数学规则来聚合信息；"可训练"的方式则用机器学习来优化聚合过程，让系统自己找出最有效的整合方式。

这四个维度的不同组合，产生了几种具体的档案构建方法。最简单的是"平铺聚合"，即不使用图结构，直接把模型的相关信息拼接成文本，不做任何深度信息整合。稍复杂一些的是"基于文本的图神经网络"，它在图上进行传播，每一步都由AI模型把当前节点的文本与其邻居的文本整合成一段新的描述，经过K步传播后得到最终的文本档案。再进一步是"基于向量的图神经网络"，同样在图上传播，但操作的对象是数字向量而非文字，聚合方式是对邻居向量进行加权平均，如果连线上有性能分数，就用分数作为权重。最后一种是"可训练图神经网络"，在向量聚合的基础上加入了学习机制——通过随机遮掩图中部分节点或连线的特征，然后让模型尝试从剩余信息中恢复被遮掩的内容，以此来训练出更有表达力的聚合方式。

---

**四、三款路由器，一场全面的评测**

为了验证不同档案设计对路由效果的影响，研究团队选了三款具有代表性的"路由器"来进行实验，这三款路由器的工作原理各不相同，代表了目前主流的几种技术路线。

第一款叫SimRouter，是最简单的相似度路由器。它的工作方式非常直接：把用户的问题转换成一个向量，再把每款候选模型的档案也表示成一个向量，然后计算问题向量和每个档案向量之间的相似程度，选择相似度最高的那款模型来回答问题。这相当于说：哪款模型的能力特征和这道题的特征最"像"，就派哪款模型上阵。它不需要任何额外的训练，是一个纯粹基于规则的轻量级决策器。

第二款叫MLPRouter，它要复杂一些。它用两个独立的神经网络（MLP，即多层感知机）分别对问题向量和模型档案向量进行变换，把它们投影到同一个"潜在空间"中，然后再在这个空间中计算相似度。通过训练，这两个神经网络可以学会如何让"适合"的问题和模型在潜在空间中靠得更近、"不适合"的组合靠得更远。

第三款叫GraphRouter，是三者中最复杂的，它本身就是一个基于图结构的路由器。它把用户查询、候选模型、任务类别等信息都组织成一张图，然后用图神经网络来捕捉这些元素之间的关系，最终做出路由决策。值得注意的是，这款路由器本身就已经使用了图结构，所以它和RouteProfile框架中结构化档案的结合尤为有趣。

评测分两种场景进行。第一种是"标准路由"，即所有候选模型都已知，评测指标是路由系统平均选出的模型在各类问题上的回答准确率。第二种是更有挑战性的"新模型冷启动"场景：大多数模型有完整的历史记录可以参考，但有一款新模型（Mistral-Small-24B）此前没有被纳入图中，路由系统必须在几乎没有该模型历史数据的情况下，判断哪些问题适合交给它来回答。这个场景的意义在于检验档案系统能否在模型"初来乍到"时依然有效工作。

评测使用了12个涵盖数学、推理、知识和代码的测试集，每个测试集各取50道题，候选模型池包含8款来自不同家族的模型，参数量从30亿到1760亿不等。

---

**五、实验结果：三条清晰的结论**

经过大量实验，研究团队得到了三条清晰的结论。

**结构化档案一致地胜过平铺档案。** 无论在哪款路由器上，无论使用文本形式还是向量形式，只要档案构建利用了图的结构关系（即经过至少一跳的信息传播），就几乎总能比直接平铺信息的档案表现更好。这一发现说明，路由系统的质量不仅仅取决于路由器本身的设计，同样取决于模型档案的质量，而保留结构信息是提升档案质量的关键。

从具体数字来看，平铺索引档案（用编号代表模型）在SimRouter上的平均性能约为0.499，而结构化、可训练的档案在同一路由器上最高可达0.613，提升幅度超过10个百分点。在GraphRouter上，从平铺索引的0.532提升到结构化档案的0.614，也有明显的进步。

**查询层面的信号比领域层面更可靠。** 在探索哪些数据来源对档案质量贡献最大时，研究团队发现了一个有趣的现象：加入具体的题目级别信息（即把真实的问题实例纳入图中）对路由性能的提升更加稳定，而加入粗粒度的"领域"信息（比如"数学领域"、"推理领域"这样的大类标签）则不仅提升有限，有时甚至会降低性能。

这背后的逻辑并不难理解：一道具体的题目提供了非常精确的信息——这款模型在这种类型的问题上对还是错，这是"事实"；而"领域"是一个高度抽象的概念，同样叫"推理"的题目可以差异极大，笼统的领域标签很难捕捉这种细微差别。换句话说，宁可要100道真实题目的答对率记录，也不要一句"擅长推理"的概括。

**冷启动场景下，结构化且可训练的档案是关键。** 这是最引人注目的发现之一。在新模型冷启动测试中，研究团队用一个专门设计的指标来衡量：路由系统把问题分配给新模型、且该模型确实答对了这道题的概率（即"无缝接入成功率"）。

结果显示，平铺式档案在这个指标上接近于零——系统几乎不会把问题分配给从未见过的新模型，哪怕这款新模型其实很擅长这类问题。结构化档案会好一些，但真正显著的突破发生在结构化加可训练配置上：具有学习能力的图神经网络档案在多个路由器上将冷启动成功率提升到了0.4甚至0.5以上，意味着有接近一半的新模型最佳匹配题目被成功路由过去了。

原因在于，可训练的档案学会了"理解"模型之间的相对关系——哪些模型在能力上相似、哪些在不同维度上互补——这让它能够在新模型加入时，通过它与旧模型在图中的关联来推断它的能力范围，即使没有直接的历史表现数据。

不过，研究团队也发现了一个有趣的现象：这些提升并非在所有路由器上都以同样的方式实现。GraphRouter在冷启动指标上总体表现最强，而不同类型的结构化档案与SimRouter、MLPRouter的配合效果有所不同。这说明档案的设计和路由器的设计需要配套考虑，不能割裂来看。

---

**六、聚合深度的微妙影响**

值得单独聊一聊聚合深度这个维度，因为它的行为比想象中更有意思。

在无需训练的配置下，无论是文本式还是向量式的档案，增加聚合的跳数（从1跳增加到2、3、4跳）总体上有助于提升路由性能，虽然提升幅度不均匀，在某些跳数上会有小幅波动，但整体趋势是往上走的。这说明引入更多间接相关的上下文信息（比如从模型的邻居任务，再到那些任务下的具体题目）有助于刻画模型的能力轮廓。

然而，在可训练的配置下，情况就不那么单调了。更多的聚合跳数对SimRouter来说仍然有益，性能随跳数增加稳步提升；但对MLPRouter和GraphRouter而言，跳数超过一定程度后反而会导致性能下滑。

研究团队把这种现象归因于图神经网络中常见的"过度平滑"问题——一旦经过太多次传播，不同节点的特征向量会越来越趋于相似、失去区分度，就像用同一种颜料反复涂抹同一块画布，最终所有颜色都混成了一团泥灰。对于需要模型档案具有足够区分度的路由器来说，这种特征均质化会显著损害选择效果。

这个发现提醒我们：更深不一定更好，深度的最优值依赖于具体的档案类型和路由器设计，需要在实践中根据具体组合来调整。

---

**七、这一切意味着什么**

归根结底，这项研究的核心信息可以用一句话概括：**在AI模型选择系统中，"给模型建什么样的档案"和"用什么样的路由器"同等重要，前者在过去被严重低估了。**

一个类比或许能帮助理解这件事的实际意义。假设你是一家大公司的HR总监，负责把不同项目分配给合适的员工。你有一个评估系统（路由器）来做匹配，但这个系统依赖于每位员工的档案。如果员工档案只有一个编号，评估系统再聪明也无从判断；如果档案包含详细的项目经历、技能评分、失败案例，那评估系统才能真正发挥作用。RouteProfile研究的意义，就是告诉HR部门：你们一直在升级评估系统，却忘了先把员工档案做好。

对于AI应用的开发者和研究者来说，这意味着在设计模型选择系统时，需要同等重视两个方向的工作：一方面继续探索更好的路由算法，另一方面也要认真考虑如何为候选模型构建信息丰富、结构合理的能力档案。

对于普通用户来说，这项研究描述的技术最终的落地效果是：当你向一个集成了多款AI模型的智能助手提问时，它能更准确地判断哪款模型最适合回答你的具体问题，从而给你更好的答案——哪怕其中某款模型是刚刚加入系统的"新面孔"，也能被合理地利用起来。

当然，这项研究也存在一些尚待深入探索的方向。实验中使用的候选模型池规模有限（8款模型），路由评估使用的是相对较小的样本量（每个数据集50道题），这些都可能影响结论的普适性。此外，如何在实际部署中高效地维护和更新这张不断扩展的关系图，以及如何在计算成本和档案质量之间取得平衡，都是下一步需要面对的实际问题。

说到底，这是一项在看起来已经被充分研究的领域里翻出了新问题的工作——不是在问"路由器怎么变得更聪明"，而是在问"路由器赖以工作的基础信息怎么变得更准确"。这个角度的转换，或许会给整个AI模型路由领域带来新的研究思路。

---

**Q&A**

Q1：LLM路由系统是什么，日常中有什么用处？

A：LLM路由系统是一种智能调度机制，当用户提出问题时，它负责从多款AI模型中选出最适合回答该问题的那一款，而不是每次都用同一个模型。在实际应用中，这意味着数学题可能被分配给擅长推理的模型，代码问题被分配给擅长编程的模型，从而整体上提升用户获得正确答案的概率，同时也能节省计算成本。

Q2：RouteProfile框架中的"结构化档案"相比"平铺档案"具体强在哪里？

A：平铺档案只是把模型相关的信息直接拼接在一起，不考虑信息之间的关联关系，就像把员工所有资料堆成一堆没有分类的文件。结构化档案则通过图神经网络在关系网络上传播信息，让模型档案不仅包含自身的信息，还融合了关联任务、题目实例等上下文信号。实验结果显示，结构化档案在多种路由器上的性能均优于平铺档案，且在新模型冷启动场景下的优势尤为明显。

Q3：RouteProfile是如何处理一款从未见过的新AI模型的路由问题的？

A：这是冷启动问题。RouteProfile的做法是通过模型在关系图中的结构位置来推断其能力——新模型和旧模型属于同一家族或连接到相同任务节点时，系统可以借助这些关联来估计新模型的能力范围，即使没有直接的历史表现数据。实验表明，使用可训练图神经网络构建的结构化档案在冷启动场景下能将路由成功率从接近零显著提升到0.4以上。

‹ 电气工程师证书报考过程、怎么报考和证书… 工业富联首秀封住涨停市值超越海康威视… ›

伊利诺伊大学厄巴纳-香槟分校揭秘:给AI模型建“档案”,让路由系统

相关阅读

向时代提问-08:数字经济的发展如何影响劳动市场和就业结构?_腾讯

巴菲特的自动扶梯,直击AI投资狂潮的要害_

电器行业黑马股打造智能电气+智能制造双驱动格局

如何考取电气工程师证书?考了有什么用?报考条件是什么?_考试_考生