国外的创意设计网站,马来西亚网站建设,长沙是什么时候建立的,沈阳德泰诺网站建设公司 概况PageIndex是一种不依赖向量的推理型RAG框架#xff0c;针对传统向量检索在长文档处理中的五大痛点#xff08;如语义不匹配、上下文割裂等#xff09;#xff0c;通过树结构化文档和LLM推理导航#xff0c;实现精准检索。它无需向量数据库和文本分块#xff0c;保持语义完…PageIndex是一种不依赖向量的推理型RAG框架针对传统向量检索在长文档处理中的五大痛点如语义不匹配、上下文割裂等通过树结构化文档和LLM推理导航实现精准检索。它无需向量数据库和文本分块保持语义完整性支持可解释的检索路径尤其适合处理复杂、专业的长文档知识检索需求。最近在调研RAG的各种技术关注到了PageIndex觉得其思路颇有借鉴意义故整理下PageIndex相关知识要点。1、PageIndex是什么PageIndex 是一种不依赖向量的、基于推理reasoning-based的信息检索框架用于从长篇、复杂文档中进行知识检索其设计理念是模拟人类专家阅读和定位信息的方式通过将文档结构化为树并让大模型在该结构上进行推理导航从而实现可解释、无向量的长文档检索。核心特点包括无向量Vectorless检索不使用 embedding、向量相似度搜索不需要向量数据库如Faiss、Milvus等树结构索引Tree-structured Index将文档转换为层级化的树结构类似目录/大纲保留文档的逻辑结构而不是简单切chunk基于Agent的推理式检索由LLM在树结构上进行“逐步导航”和推理像人类专家一样判断“该往哪一节看”、“是否继续深入”可追溯、可解释检索路径清晰可见可以解释为什么选择某一页或某一节点无需Chunking不需要人为切分文本避免chunk过小或上下文割裂的问题感兴趣的可以去PageIndex官网去体验下。2、PageIndex为什么要这样设计传统基于向量的RAG的痛点基于向量的RAG依靠语义嵌入和向量数据库来识别相关的文本块。在预处理阶段文档首先被分割成更小的块然后每个块使用嵌入模型被嵌入到向量空间中生成的向量被存储在诸如Chroma或Pinecone之类的向量数据库中。在查询阶段使用相同的嵌入模型对用户查询进行嵌入处理在向量数据库中搜索语义相似的文本块系统检索出排名前k的结果这些结果随后被用于构成模型的输入上下文。尽管对于短文本而言简单有效但基于向量的RAG面临着几个主要挑战查询与知识空间不匹配核心问题向量检索以 “语义相似” 为核心匹配逻辑默认语义最相似的文本就是最相关的内容。关键局限用户查询通常表达的是“需求意图”而非具体的“文本内容”二者存在本质差异导致检索结果常偏离实际需求。语义相似不等于真实相关核心问题向量检索仅能识别文本表面的语义关联无法判断内容在实际场景中的相关性。关键局限在金融财报、法律条文、技术手册等领域文档中大量文本片段语义高度相近如不同年份的同类财务指标描述但实际对应的业务含义、适用场景差异极大向量检索无法区分这种关键相关性差异。硬切分破坏语义与上下文完整性核心问题为适配嵌入模型的输入长度限制文档需被强制切分为固定长度的文本块如 512 tokens、1000 tokens。关键局限这种“硬切分”方式会切断完整的句子、段落逻辑或章节结构如将一个完整的实验结论拆分为两个独立片段导致文本语义碎片化丢失关键的上下文关联影响后续理解与推理。无法整合对话历史核心问题向量检索将每个用户查询视为独立请求不关联历史对话内容。关键局限无法支持多轮连续交互场景例如用户先询问“2023年营收数据”后续追问“该数据与2022年相比有何变化”时检索器无法基于前序查询定位到同一文档的关联内容需用户重复提供背景信息影响交互效率与体验。难以处理文档内交叉引用核心问题文档中常见的“参见附录G”、“参考表5.3”等交叉引用其引用语句与被引用内容的语义相似度极低。关键局限向量检索无法识别这种“指向性关联”若不额外构建知识图谱等预处理工具会直接遗漏被引用的关键信息导致检索结果不完整。3、PageIndex如何解决上述痛点问题传统基于向量的RAG存在查询与知识空间不匹配、语义相似不等于真实相关、硬切分破坏语义完整性、无法整合聊天历史、难以处理文档内交叉引用五大痛点而以 PageIndex为代表的基于推理的RAG框架通过模仿人类阅读长文档的逻辑结合结构化索引与动态推理流程针对性地解决了这些问题具体方法如下解决 “查询与知识空间不匹配”用推理定位信息位置而非依赖语义相似。传统向量RAG仅通过匹配“语义相似文本”检索无法衔接“查询意图”与“信息位置”基于推理的RAG则让 LLM 通过文档结构推理确定检索方向。先读取文档的目录ToC或 JSON 层级索引理解文档整体结构如“财务摘要”“附录G”等章节分工根据查询意图主动推断可能包含答案的章节例如用户问“债务趋势”LLM 会推理“债务相关内容通常在财务摘要或附录G”直接定位到对应板块以“意图-结构匹配”替代“文本-文本相似匹配”填补查询与知识空间的gap。解决“语义相似不等于真实相关”聚焦“contextual relevance上下文相关性”而非表面语义。针对专业文档中“语义相近但相关性差异大”的问题基于推理的RAG通过上下文理解 结构化导航筛选真正相关的信息。LLM先解析查询的核心需求如 “2023 年营收同比变化”而非机械提取关键词结合目录索引解读各章节的实际含义如 “2023 年财务报表” 章节 vs “2022 年财务回顾” 章节排除语义相似但年份、主题不符的内容直接检索 “能满足查询需求的章节”而非 “与查询词语义最像的文本块”例如在技术手册中即使 “设备安装步骤” 与 “设备拆卸步骤” 语义相近也能通过章节定位区分。解决 “硬切分破坏语义与上下文完整性”动态检索 “语义连贯单元”而非固定长度文本块。传统向量 RAG 为适配嵌入模型将文档切分为固定长度块如 512 tokens易断裂逻辑基于推理的 RAG 则以完整语义单元为检索单位。以 “章节、段落、完整页面” 等天然语义单元作为检索对象而非强制切割若检测当前检索的单元信息不完整如某章节仅包含 “营收增长数据”缺少 “营收基数”会自动迭代检索相邻单元如下一章节、子节点内容直到获取完整上下文例如在法律文件中能完整检索 “合同违约责任” 整节内容而非被切分的 “违约责任第 1 条”、“违约责任第 2 条” 碎片。解决 “无法整合聊天历史”多轮推理关联历史上下文实现连贯检索针对 “每轮查询独立处理” 的问题基于推理的 RAG 将聊天历史融入检索决策。检索时会参考前序对话内容明确当前查询的 “上下文背景”例如用户先问 “2023 年金融资产”后续问 “那负债呢”LLM 会自动关联 “2023 年财务报表” 同一文档的 “负债” 章节把历史查询的 “检索范围、已获取信息” 作为当前检索的依据避免重复检索无关内容同时支持递进式问题解答如从 “营收数据” 到 “营收构成” 再到 “营收同比分析”。解决 “难以处理文档内交叉引用”通过层级索引追踪引用无需额外预处理。传统向量 RAG 因 “引用语句与被引用内容语义不相似”无法识别 “参见附录 G”“参考表 5.3” 等关联基于推理的 RAG 则借助结构化索引直接导航引用内容。文档的 JSON 层级索引包含所有章节、附录、表格的关联关系如 “表 5.3”“附录 G” 均为独立节点且有明确的 node_id当 LLM 遇到交叉引用时会通过索引定位到被引用的节点直接检索对应内容例如看到 “参见附录 G”会从目录索引中找到 “附录 G” 节点获取其下的 “统计表格” 数据无需额外构建知识图谱等预处理工具即可实现自动、精准的交叉引用追踪例如在财报中能通过 “表 5.3” 的引用定位到具体的收入、支出明细。3、ToC结构{ structure: [ { nodes: [ { title: Abstract, node_id: 0001, summary: This text discusses the increasing importance of fine-tuning large language models (LLMs) for human intent alignment, highlighting the need for efficient resource utilization. It contrasts Reinforcement Learning from Human or AI Preferences (RLHF/RLAIF), which is complex and unstable, with Direct Preference Optimization (DPO), a simpler alternative. The work introduces an active learning strategy for DPO, proposing an acquisition function that uses predictive entropy and the certainty of the implicit preference model to improve the efficiency and effectiveness of fine-tuning with pairwise preference data., end_index: 1, start_index: 1 }, { nodes: [ { title: 3.1. Acquisition functions, node_id: 0005, summary: ### 3.1. Acquisition functions\n\nIn selecting scoring methods (step 8 in 1) we aim for options that are straightforward to implement and do not require modifications to the model architectures or the fine-tuning procedure itself. This allows for a drop in addition to existing implementations. As a result, we propose using the predictive entropy of $p_{\\theta_t}(y|x)$ as well as a measure of certainty under the Bradley-Terry preference model, which leverages the implicit reward model in DPO.\n, end_index: 4, start_index: 3 } ], title: 3 Active Preference Learning, node_id: 0004, summary: This text introduces Active Preference Learning (APL), a machine learning paradigm for efficiently selecting the most informative data points during training, specifically within a pool-based active learning setting. The APL training procedure involves iteratively sampling prompts, generating pairs of completions using the current model, ranking these pairs with an acquisition function, selecting the highest-ranked pairs for preference labeling by an oracle, and then fine-tuning the model with these labeled preferences. This approach augments the standard DPO fine-tuning loop with an outer data acquisition loop, where the number of acquisition steps is determined by the labeling budget and batch size. A key difference from traditional active learning is the necessity of generating completions for acquired data before scoring, especially if the acquisition function requires them. The text also outlines crucial design considerations, including the selection of acquisition functions, fine-tuning implementation details, the choice of oracle, and experimental settings for sampling parameters. Algorithm 1 provides a detailed step-by-step breakdown of the entire APL procedure., end_index: 3, start_index: 2 } ]}4、PageIndex检索方式文档检索PageIndex会根据你的query先检索哪些文档相关联。文档检索大概有以下三种方式Metadata文档元信息存储到数据库可以根据元信息来查询相关联的文档例如根据文档名称、文档摘要、文档标签等信息来筛选Semantics和传统的基于向量的RAG一样文档切片存储到向量库然后根据query召回文档切片然后再根据召回的切片计算文档相关性得分Description将文档列表给模型让模型来推理哪些文档相关prompt f You are given a list of documents with their IDs, file names, and descriptions. Your task is to select documents that may contain information relevant to answering the user query.Query: {query}Documents: [ { doc_id: xxx, doc_name: xxx, doc_description: xxx }]Response Format:{{ thinking: Your reasoning for document selection, answer: Python list of relevant doc_ids, e.g. [doc_id1, doc_id2]. Return [] if no documents are relevant.}}Return only the JSON structure, with no additional output.ToC树检索让大模型根据目录树来推理相关联的node节点获取到node节点内容之后再进行迭代式生成。prompt fYou are given a query and the tree structure of a document.You need to find all nodes that are likely to contain the answer.Query: {query}Document tree structure: {PageIndex_Tree}Reply in the following JSON format:{{ thinking: your reasoning about which nodes are relevant, node_list: [node_id1, node_id2, ...]}}除此之外还支持混合树检索例如基于chunk进行召回筛选出node节点。5、参考文献主题链接PageIndex: Next-Generation Vectorless, Reasoning-based RAGhttps://pageindex.ai/blog/pageindex-introPageIndex官方文档https://docs.pageindex.ai/RAG for Technical Manuals: Challenges Solutionshttps://pageindex.ai/blog/technical-manualsVectless RAGhttps://docs.pageindex.ai/cookbook/vectorless-rag-pageindexVision RAGhttps://docs.pageindex.ai/cookbook/vision-rag-pageindex如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2025 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取