合肥市网站制作,网站做seo要多少钱,建站之星模板的使用,陈木胜个人资料简介
Embedding是将复杂事物转化为数字向量的技术#xff0c;使计算机能理解事物间的逻辑关系。训练过程包括设定任务、随机初始化、计算损失函数反向传播和海量练习。相似度计算常用余弦相似度#xff0c;向量数据库用于存储和高效检索这些向量#xff0c;为大模型提供长期…简介Embedding是将复杂事物转化为数字向量的技术使计算机能理解事物间的逻辑关系。训练过程包括设定任务、随机初始化、计算损失函数反向传播和海量练习。相似度计算常用余弦相似度向量数据库用于存储和高效检索这些向量为大模型提供长期记忆和实现语义搜索等功能。一、什么是Embedding大多数同学第一次听说Embedding可能是通过大语言模型相关的知识包括我之前写过一篇关于“词嵌入”的文章也是针对Embedding在大语言模型的应用。然而它不仅仅可以表示大语言模型中文字间的关系Embedding嵌入 是把现实世界中复杂的事物比如文字、图片、商品、甚至是你自己转化成一串数字向量它的核心目的是让计算机能够通过这些数字“听懂”事物之间的逻辑关系和相似程度。举个例子——水果的“数字身份证”。想象一下如果你要向一个从来没见过水果的外星人介绍“苹果”、“香蕉”和“西瓜”。你可以给每种水果建立一个坐标系用两个特征维度来描述它们甜度从 0 到 1大小从 0 到 1那么这些水果就变成了坐标系上的点苹果甜度 0.7大小 0.3 →[0.7, 0.3]西瓜甜度 0.8大小 0.9 → [0.8, 0.9]柠檬甜度 0.1大小 0.2 → [0.1, 0.2]这个过程就是 Embedding我们把“水果”这个抽象的概念嵌入到了一个数学空间里。会发现苹果和柠檬在坐标纸上离得比较远而苹果和西瓜在“甜度”这个维度上比较近。计算机就是通过计算这些数字之间的“距离”来判断谁和谁更像。在没有 Embedding 之前计算机看词汇就像看孤立的符号。比如“猫”和“狗”在计算机眼里只是两个不同的字符串。有了 Embedding 之后Word2Vec词嵌入模型发现这些数字之间甚至可以做算术运算“国王” 的向量 - “男人” 的向量 “女人” 的向量 ≈ “女王” 的向量这意味着 Embedding 不仅仅是给事物打标签它还抓住了事物背后的内在逻辑。生活中我们每天其实都在被 Embedding 服务抖音/小红书推荐系统把你喜欢的视频转化成 Embedding把你这个人也转化成 Embedding。当这两个 Embedding 在数学空间里的距离足够近时系统就会把视频推给你。淘宝搜图你拍一张衣服的照片系统把图片转成一串数字Embedding然后在数据库里寻找数字最接近的商品。ChatGPT它能和你聊天是因为它把所有的文字都转成了复杂的 Embedding从而理解了你说话的意图。Embedding 就是一种“翻译官”它把人类能理解的感性世界文字、图片、喜好翻译成计算机能处理的理性世界数字、向量。它的精髓在于降维把复杂的特征浓缩成一串数字。保留关系让相关的事物在数字空间里依然靠在一起。二、Embedding的训练过程计算机最初并不懂什么是“猫”什么是“狗”在它眼里所有的东西最初都是一堆乱码随机生成的数字。它通过以下四个步骤把这些乱码磨练成了精准的 Embedding。第1步设定一个任务计算机不会凭空学习它需要一个目标。最经典的方法叫做 Word2Vec词转向量它给计算机布置了一个任务“通过上下文猜中间的词”。比如它读到一句话可爱的[ ? ]正在屋顶上晒太阳发出了喵喵声。”计算机的任务就是不断地尝试填空。为了完成这个任务它必须理解词与词之间的联系。说明如果是中文在进行Word2Vec之前需要进行词拆分一常用工具是jieba如果是英文则一个单词为一个单元无需再次拆分。一个常用的Word2Vec工具是gensim它可以从非结构化文本中无监督地学习到隐层的主题向量表达第2步随机初始化在训练开始的第 1 秒计算机给每个词分配的 Embedding 都是随机生成的这里的向量长度由人为指定例如100维、128维等为了简便下面的例子的向量维度为3。“猫”的向量可能是[0.1, -0.5, 0.8]“狗”的向量可能是[-0.9, 0.2, 0.1]“太阳”的向量可能是[0.4, 0.4, -0.3]这时候的向量没有任何意义就像一个完全不懂中文的人在考卷上瞎写。第3步计算损失函数并进行反向传播这是最关键的一步。预测计算机用它那组随机数字去猜“[ ? ]”里应该是“苹果”。纠错算法告诉它“错了正确答案是‘猫’。”计算差距算法会计算“苹果”和“猫”在数学上的距离差。微调数字根据这个差距算法会通过一种叫梯度下降Gradient Descent的方法微微修改“猫”和“上下文屋顶、喵喵”的 Embedding 数字。逻辑是如果“猫”经常出现在“喵喵”和“屋顶”旁边那么在数学空间里就把“猫”的坐标往“喵喵”和“屋顶”的坐标那里挪近一点。第4步海量练习量变产生质变计算机不是只读一句话它会读完整个维基百科、整个互联网。当它读了 1 万次关于“猫”和“喵喵”的句子两者的坐标就会靠得很近。当它发现“狗”也经常出现在“宠物”、“骨头”旁边而“猫”也经常出现在这些词旁边它就会发现“原来猫和狗的社交圈子很重叠啊”于是在数学空间里“猫”和“狗”的距离也会被拉近。经过几亿次的反复微调每个词的坐标都找到了最合适的位置。计算机并不真的“认识”猫但它精准地掌握了“猫”这个词在人类语言环境中的生存位置。小结总结一下训练的三部曲随机分座位先给每个词随便找个位置坐。看邻居是谁发现经常在一起玩的词座位应该靠在一起。反复调整通过成千上万次的挪动最终形成一个逻辑自洽的“座位表”。Embedding模型将文本等离散数据转换为低维、稠密的向量捕捉其语义信息。向量空间中的距离如余弦相似度可反映文本间的语义相似度。关于Embedding模型业内有一个MTEB (Massive Text Embedding Benchmark) 榜单MTEB是一个全面的评测基准它涵盖了分类、聚类、检索、排序等8大类任务和58个数据集。通过MTEB榜单可以清晰地看到不同模型如BGE系列, GTE, Jina 等在不同任务类型上的性能表现。例如某些模型在检索任务上表现优异而另一些则可能在聚类或分类任务上更具优势。这有助于我们根据具体应用场景做出初步的模型筛选。网站参考https://huggingface.co/spaces/mteb/leaderboard三、怎样计算两个目标的相似度计算机判断目标“像不像”的方法其实就是量一下它们之间的距离或角度。在所有方法中最常用、也最符合直觉的就是余弦相似度Cosine Similarity。1. 为什么用“角度”而不是“距离”想象你在网易云音乐听歌小明听了 100 遍周杰伦100 遍陈奕迅。小红听了 1 遍周杰伦1 遍陈奕迅。小刚听了 100 遍周杰伦0 遍陈奕迅。如果你计算直线距离欧氏距离小明和小红离得非常远100 vs 1反而小明和小刚更近。但这显然不符合逻辑——小明和小红的口味比例是一模一样的余弦相似度解决的就是这个问题它不看你跑了多远只看你的箭头指向哪个方向。2. 数学表达余弦公式在 Embedding 的多维空间里两个向量 A和B的相似度计算公式如下结果为 1角度为 0°两个向量完全重合完全一样。结果为 0角度为 90°两个向量垂直完全没关系比如“苹果”和“勾股定理”。结果为 -1角度为 180°两个向量完全相反比如“爱”和“恨”。3. 实际案例推荐系统是怎么做的假设我们要判断两部电影是否相似它们的 Embedding 简化为两个维度动作指数文艺指数《战狼》: [0.9, 0.1]《红海行动》: [0.85, 0.15]《情书》: [0.05, 0.95]计算过程当你在看《战狼》时后台会对库里几万部电影跑一遍余弦计算。《战狼》vs《红海行动》角度非常小余弦值接近 0.99 - 强力推荐《战狼》vs《情书》角度接近 90°余弦值接近 0.08 - 不推荐。4. Python实现计算目标相似度仅需一行代码from sklearn.metrics.pairwise import cosine_similarity import numpy as np # 假设这是两部电影的 Embedding 向量 movie_a np.array([[0.9, 0.1]]) movie_b np.array([[0.85, 0.15]]) # 计算相似度 similarity cosine_similarity(movie_a, movie_b) print(f这两部电影的相似度是: {similarity[0][0]:.4f}) # 输出结果通常是0.9986四、向量数据库1、向量数据库概要介绍向量数据库AI时代的核心记忆体与传统的关系型数据库不同向量数据库用于存储和查询由非结构化数据如文本、图片、音视频转化而来的高维向量嵌入Embeddings。这些向量在多维空间中的距离代表了原始数据的语义相似度。向量数据库的核心能力是高效的相似性检索。向量数据库的核心价值为大模型提供长期记忆弥补LLM上下文窗口Context Window长度限制和知识更新延迟的问题。实现私有知识库的问答与搜索将企业内部文档、产品信息等转化为向量实现基于语义的智能检索。赋能推荐系统、以图搜图等多种应用通过计算用户、物品的向量相似度提供更精准的推荐。不同向量数据库对比分析向量数据库与传统数据对比特性向量数据库 (Vector DB)传统数据库 (SQL/NoSQL)存储内容Embedding 向量一串数字组成的坐标文本、数字、日期、布尔值结构化搜索逻辑相似度搜索 (Similarity Search)精确匹配 (Exact Match)查询方式距离计算 (余弦相似度, 欧氏距离)SQL 语句 (WHERE price 100)索引技术ANN 算法 (如 HNSW, IVF, PQ)B-Tree, Hash 索引结果准确性概率性近似找最像的可能有细微偏差100% 准确是就是不是就不是擅长领域图片搜图、AI 聊天、个性化推荐银行转账、员工管理、库存记录2、Embedding数据的存储与检索过程以FAISS数据库为例介绍一下Embedding数据的存储与检索过程Step1, 数据清洗与准备确保原始数据如文本文档、图片的质量进行必要的预处理。Step2, 生成向量使用预训练的Embedding Model将原始数据转换成向量。Step3, 创建元数据存储将生成的向量及与其关联的元数据Metadata一同存入向量数据库。Step4, 构建 FAISS 索引使用faiss.IndexFlatL2 创建一个基础的索引这里使用L2距离欧氏距离进行精确搜索。用faiss.IndexIDMap 将基础索引包装起来这样就可以添加带有自定义ID的向量了。Step5, 添加数据到索引将生成的向量和对应的ID即元数据列表的索引添加到IndexIDMap中。Step6, 执行搜索 对一个新的查询文本生成向量在FAISS 索引中搜索最相似的向量FAISS 会返回最相似向量的ID。Step7, 检索元数据 使用返回的ID从元数据存储中查找到原始文本和元数据。五、如何学习AI大模型如果你对AI大模型入门感兴趣那么你需要的话可以点击这里大模型重磅福利入门进阶全套104G学习资源包免费分享这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】这是一份大模型从零基础到进阶的学习路线大纲全览小伙伴们记得点个收藏第一阶段从大模型系统设计入手讲解大模型的主要方法第二阶段在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用第三阶段大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统第四阶段大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统第五阶段大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型第六阶段以SD多模态大模型为主搭建了文生图小程序案例第七阶段以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。100套AI大模型商业化落地方案大模型全套视频教程200本大模型PDF书籍学会后的收获• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力• 能够利用大模型解决相关实际项目需求 大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能 学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力 大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。LLM面试题合集大模型产品经理资源合集大模型项目实战合集获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】