网站页面排版,国家高新技术企业有什么好处,一份优秀的网络推广方案,微信商城小程序搭建教程研究背景大型语言模型虽能力强大#xff0c;却常受困于事实幻觉和知识滞后 [1]。检索增强生成技术通过引入外部知识源#xff08;如知识图谱 KG#xff09;来弥补这些缺陷#xff0c;已成为提升模型可靠性的关键 [2]。然而#xff0c;当 RAG 系统需要访问包含个人隐私或商…研究背景大型语言模型虽能力强大却常受困于事实幻觉和知识滞后 [1]。检索增强生成技术通过引入外部知识源如知识图谱 KG来弥补这些缺陷已成为提升模型可靠性的关键 [2]。然而当 RAG 系统需要访问包含个人隐私或商业机密的私有知识图谱时一个严峻的挑战浮出水面如何防止敏感数据在检索和生成过程中泄露传统 RAG 方法直接将知识图谱中的事实三元组暴露给 LLM其“黑盒”特性和潜在的数据传输风险使得隐私保护成为应用落地的重大障碍。为了解决这一难题本文首次探索了隐私保护的 RAG 场景其中知识图谱中的所有实体对 LLM 匿名化从而阻止 LLM 访问实体语义。但这也带来了新的挑战当实体变成无意义的机器标识符后RAG 系统又该如何有效检索相关知识论文题目Privacy-protected Retrieval-Augmented Generation for Knowledge Graph Question Answering论文来源AAAI 2026论文链接https://arxiv.org/abs/2508.08785代码链接https://github.com/NLPGM/ARoG核心挑战匿名实体下的知识检索在隐私保护 RAG 场景下如图 1 所示实体如 “Bronny”、“L.A.”被替换为无语义的机器标识符如 ID.1, ID.5。这使得利用 LLM 直接进行实体语义匹配如 ToG [2]的传统 RAG 方法彻底失效。▲ 图1. 隐私保护的 RAG 系统和传统 RAG 系统的比较因此为了实现一个有效的隐私保护 RAG 系统必须解决两个核心挑战1如何将匿名实体转化为可检索的信息2如何检索与问题相关的匿名实体解决方案ARoG 框架横空出世为应对上述挑战研究团队提出了一种新颖的图抽象推理框架。该框架包含两大核心策略并构建了完整的检索-生成流水线。1. 关系中心抽象此策略旨在解决挑战1。它将匿名实体视作主语/宾语名词将其相邻关系视作谓语动词并利用 LLM 的生成能力将这些关系动态抽象为高层概念补充到匿名标识符之后。例如一个与“时区”、“包含于”、“人口”等关系相邻的实体可被抽象为“地理位置”。这样无意义的 ID 就变成了 “ID地理位置”为后续检索提供了语义基础。2. 结构导向抽象此策略旨在解决挑战2。它将非结构化的自然语言问题转化为结构化的抽象概念路径。例如问题“举办 ‘The Mrs. Carter Show World Tour’ 的艺术家其女儿的名字是什么”被转化为路径“艺术家 → 举办 → The Mrs. Carter Show World Tour艺术家 → 拥有女儿 → 人”。即使生成的实体名称不准确这条路径也能通过其关系结构与知识图谱中被抽象后的实体的概念有效对齐从而精准引导检索。基于以上策略ARoG 框架包含四个模块如图 2 所示关系中心抽象模块将 KG 中的匿名实体转化为抽象概念。结构导向抽象模块将用户问题转化为抽象概念路径。抽象驱动检索模块基于上述抽象信息从 KG 中检索问题相关的三元组。生成模块基于检索到的证据生成最终答案。▲ 图2. ARoG 框架概览实验结果性能与隐私的完美平衡为了评估 ARoG 框架的有效性研究团队在 WebQSP、CWQ 和 GrailQA 三个主流数据集上进行了实验并于基线方法进行了对比。1. 性能全面领先如图 3 所示在 #Total全集和 #Filtered严格隐私保护的子集两种设置下ARoG 在所有数据集上均达到最好的性能显著优于现有的 RAG 方法以及隐私保护的语义解析SP方法。其中在 #Filtered 设置下LLM 自身知识无法正确回答数据集中的问题必须依赖于知识图谱此设置用以模拟严格隐私保护的场景。当进入 #Filtered 设置时传统 RAG 方法性能急剧下降而 ARoG 凭借其抽象策略依然保持了强大的性能证明了其在隐私保护场景下的卓越鲁棒性。▲ 图3 ARoG 与基线方法的性能比较2. 隐私鲁棒性显著如图 4 所示研究团队测试了 ARoG 与传统 RAG 系统在不同隐私保护场景下的性能表现。其中P-RAG 意为在检索阶段和生成阶段暴露实体名P-G 为在生成阶段暴露实体名P-R 为在检索阶段暴露实体名Private 为完全的实体匿名化。实验结果表明随着隐私保护程度加深ToG 的推理准确性逐渐下降而 ARoG 凭借其抽象策略依然保持了强大的性能证明了其显著的隐私鲁棒性。▲ 图4. ARoG 与传统 RAG 系统在不同隐私保护场景下的性能表现3. 效率问题如图 5 所示在计算效率方面ARoG 也展现出竞争力尤其是在处理复杂问题时其总 token 消耗甚至低于部分基线模型。▲ 图5. 不同 RAG 系统的计算效率总结和未来研究方向本文首次系统性地研究了隐私保护场景下的 RAG 技术并提出了创新的 ARoG 框架。该框架通过关系中心抽象和结构导向抽象两大策略成功解决了匿名实体下的知识检索难题在严格保护数据隐私的同时实现了高性能的知识图谱问答。这项工作为隐私敏感领域的 RAG 应用开辟了新的实用方向。未来研究团队将继续探索如何将人类经验更深入地融入抽象过程并研究 ARoG 在更广泛任务中的应用潜力。参考文献[1] Ji, Z.; Lee, N.; Frieske, R.; Yu, T.; Su, D.; Xu, Y.; Ishii, E.; Bang, Y. J.; Madotto, A.; and Fung, P. 2023. Survey of Hallucination in Natural Language Generation. ACM Comput. Surv., 55(12)[2] Sun, J.; Xu, C.; Tang, L.; Wang, S.; Lin, C.; Gong, Y.; Ni, L.; Shum, H.-Y.; and Guo, J. 2024. Think-on-Graph: Deep and Responsible Reasoning of Large Language Model on Knowledge Graph. In The Twelfth International Conference on Learning Representations.更多阅读#投 稿 通 道#让你的文字被更多人看到如何才能让更多的优质内容以更短路径到达读者群体缩短读者寻找优质内容的成本呢答案就是你不认识的人。总有一些你不认识的人知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁促使不同背景、不同方向的学者和学术灵感相互碰撞迸发出更多的可能性。PaperWeekly 鼓励高校实验室或个人在我们的平台上分享各类优质内容可以是最新论文解读也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个让知识真正流动起来。稿件基本要求• 文章确系个人原创作品未曾在公开渠道发表如为其他平台已发表或待发表的文章请明确标注• 稿件建议以markdown格式撰写文中配图以附件形式发送要求图片清晰无版权问题• PaperWeekly 尊重原作者署名权并将为每篇被采纳的原创首发稿件提供业内具有竞争力稿酬具体依据文章阅读量和文章质量阶梯制结算投稿通道• 投稿邮箱hrpaperweekly.site• 来稿请备注即时联系方式微信以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信pwbot02快速投稿备注姓名-投稿△长按添加PaperWeekly小编现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·