做艺术教育类网站如何申请关于公司网站建设的请示-万宁市网站建设公司-Seo优化

做艺术教育类网站如何申请,关于公司网站建设的请示,开发一款电商app需要多少钱,wordpress 很差本文详细解析了构建ChatGPT式大模型的三步核心流程#xff1a;预训练阶段通过海量互联网文本训练基础模型#xff0c;预测下一个Token#xff1b;监督微调阶段使用高质量对话数据集将基础模型转化为能对话的AI助手#xff1b;强化学习阶段通过自主练习和探索提升模型复杂推…本文详细解析了构建ChatGPT式大模型的三步核心流程预训练阶段通过海量互联网文本训练基础模型预测下一个Token监督微调阶段使用高质量对话数据集将基础模型转化为能对话的AI助手强化学习阶段通过自主练习和探索提升模型复杂推理能力。文章还解释了模型幻觉、分词、推理等关键概念帮助读者建立对大语言模型的全局理解适合AI初学者入门学习。本文主要根据我的赛博导师 Karpathy 的视频《Deep Dive into LLMs like ChatGPT》整理非常适合刚入门 AI 的朋友建立关于大语言模型Large Language Model下文统称为 LLM的全局观对非技术的朋友也非常友好我刚学习 AI 的时候有很多这样的问题经常听到的“调参”是什么意思为什么模型有时会一本正经地胡说八道推理模型真的会思考吗Tokenization、SFT、RLHF这些又是什么…别急希望看完本文也强烈推荐看原视频哦你会对以上问题有个清楚的答案Q开发像 ChatGPT 这样的 LLM 一共需要多少步A只需要三步预训练、监督微调和强化学习后训练 Post-training指的就是后面两步不开玩笑真要开始学了1. 预训练Pre-training预训练是成本最贵、也最耗时的阶段通过在海量互联网文本上训练模型来预测下一个词Token构建出一个基础模型Base Model。1.1 数据收集与处理如图收集到的原始数据需要经过多步的过滤和清洗以确保数据的质量、多样性URL过滤移除包含恶意软件、垃圾邮件等不良网站的 URL文本提取从原始 HTML 代码中提取正文内容去除导航栏、广告、代码标记等无关信息语言过滤通过语言分类器筛选出特定语言的文本这一步决定了模型未来的多语言能力去重与PII移除去除重复内容并识别和删除个人身份信息PII如地址、号码等1.2 分词Tokenization分词过程是将原始文本转换为神经网络能处理的一维符号Token序列也就是将人类的语言翻译成大模型的语言。业界普遍使用字节对编码Byte Pair Encoding, BPE算法或其变体可以将文本中连续的、高频出现的符号对合并成一个新的 Token从而在压缩序列长度的同时构建一个高效的词汇表。如图我们看到的是“Hello World!”而大模型看到的实际是一串数字比如下图中“19923, 4495, 3”。诶为什么这里用的是“比如”因为每个模型的训练数据、算法和协议会有差异所以同一段文本在不同模型中得到的分词序列Token ID 序列是不一样的。如图“Hello World!”在 Qwen2.5-72B 模型看来就是“9707, 4337, 0”。1.3 训练神经网络训练神经网络的核心目标是预测序列中的下一个 Token。在训练开始时模型的参数是完全随机设定的。模型接收一段 Token 序列作为上下文将序列输入到神经网络中然后通过计算一个数学表达式预测下一个 Token 的概率分布。可以将模型理解为一个巨大的数学表达式参考下图会将 Token 输入和参数混合在一起进行数学运算然后预测概率。因为模型是由输入的数据训练的我们知道正确的下一个 Token 是什么。然后模型就会计算预测概率与正确答案之间的差异称为损失通过不断调整参数也称权重让损失降低也就是提高正确 Token 的预测概率。训练的本质就是找到一组最优的参数设置使得模型能够最好地拟合训练数据中的模式。可以将这个训练过程想象成操作 DJ 设备你要不断调整设备上的旋钮使得出来的效果刚刚好。没错模型名称中的数字代表的就是参数数量。比如下面这个模型Qwen3-Next Instruct80Bbillions of parameters指的是模型总共包含 800 亿个参数A3B 代表只有 3B 参数被激活和使用。这意味着每次生成 Token 时实际参与计算的参数量会大幅减少那么计算消耗的资源也会减少也就是说单位时间内可以处理更多的 Token 或用户请求。1.4 推理Inference训练完成后模型参数会被固定下来然后进入推理阶段即生成新文本。用户输入的文本Prompt作为初始上下文。模型基于这个上下文预测下一个 Token 的概率分布然后从分布中随机采样Sampling一个 Token。这个新采样的 Token 会被添加到上下文末尾成为下一次预测的新输入。如此循环模型便逐个 Token 地生成了完整的回答。注意这里的关键词随机这也就解释了为什么即使输入相同模型每次也会生成不同的的答案。另外概率高的 Token 更可能被选中但不是唯一的可能。在实际应用中Temperature温度是控制概率分布“尖锐”程度的参数。低 Temperature 意味着概率分布更尖锐出现概率高的 Token 被选中的可能性更大生成的文本更具确定性。小结预训练阶段的最终产物被称为基础模型相当于一个互联网文档模拟器internet document simulator能够生成类似输入数据的文字但不具备对话能力无法理解指令或问题。模型通过参数来存储从海量互联网数据中学习到的信息这些知识就像是对预训练数据的一种有损压缩lossy compression类似我们模糊的记忆你就说记没记。另外模型在推理时可以访问的上下文窗口就像人类的工作记忆容量有限但记忆更准确。2. 监督微调Supervised Fine-Tuning, SFT这个阶段的目标是将基础模型训练为一个能对话的AI 助手Assistant。如图监督微调会用一个全新的、高质量的对话数据集替换掉预训练时的互联网文本并继续在基础模型上进行训练。这个阶段的数据来源以下三个方面人工标注标注员根据详细的标注指南例如要求回答做到“有用、真实、无害”来编写各种各样的问题Prompt以及参考回答专家参与请专业领域如编程、法律的专家进行标注以确保数据质量合成数据大量使用 LLM 来辅助生成对话数据再人工编辑、筛选以扩大数据集规模和多样性为了让模型理解对话结构还需要引入特殊的控制 Token如[ASSISTANT]或im_start等将多轮对话编码成单一的 Token 序列。监督微调的本质是通过在这些“参考对话”上训练让模型学会模仿回答。这就可以解释模型为什么会编造答案了。另外我们常说的模型性格也是在这个阶段训练形成的。那么如何减少模型幻觉呢测试模型知识的边界并在其知识盲区向训练数据中添加如“对不起我不知道”作为正确回答范例让模型使用工具比如通过上网搜索或写代码解决问题3. 强化学习Reinforcement Learning, RL强化学习的目标是让模型通过自主练习和探索试错发现最能稳定解决问题的路径。这个阶段能进一步提升模型能力尤其是复杂推理能力。3.1 可验证领域的 RL在数学、编程等有明确正确答案的领域RL 的应用流程如下生成多种解决方案 (Rollouts)针对一个问题让模型生成上千种不同的解决过程自动评分用一个程序或另一个 LLM 作为裁判判断每个解题过程是否得出了正确答案强化训练只在那些成功得出正确答案的序列上进行训练这会“奖励”并强化模型学会正确解法在 RL 阶段模型会自发地学到一些复杂的认知策略而不是被规定的比如自我反思“等等让我重新检查一下这一步”多角度验证“我用另一种方法比如建立方程再算一遍看看结果是否一致”回溯修正发现错误后返回并修正经过这种训练的模型被称为“推理模型”或“思考模型”Thinking Mode。这种模型的回答一般更长且会包含内部的思考过程也能更准确地解决复杂问题。模型需要 Token 来思考模型生成的每一个 Token 都需要一次计算但计算量是有限的。所以为了解决复杂问题模型必须学习将推理和计算分散到多个 Token 序列中也就是生成中间步骤。如下图不推荐在一开始就给出答案逐步推理得出答案的准确性会更高。感觉这也是一种“大力出奇迹”比如 Claude Code 中用 Ultra Think 模式的效果会更好因为很舍得花 token3.2 不可验证领域的 RLRLHF对于写作这类没有正确答案的领域无法自动评分于是有了基于人类反馈的强化学习Reinforcement Learning from Human Feedback, RLHF。核心思想训练一个“裁判”让模型针对一个创意性问题生成多个不同的回答请标注员对这些回答进行排序从最好到最差训练一个独立的神经网络称为奖励模型 (Reward Model)让它学习模仿人类的偏好和排序用这个奖励模型作为自动“裁判”对 LLM 生成的大量回答进行打分并据此进行强化学习优点让 RL 也能处理主观评价问题。对人类来说给几个答案排序比亲自写一个完美答案要容易很多这大大降低了人工标注的成本缺点奖励模型本质上只是对人类偏好的一个粗略模拟而且容易被钻空子。RL 过程特别擅长找到奖励模型的漏洞然后产生一些毫无意义、但能骗取高分的答案。所以RLHF 只能作为有限的微调方法不能持续提升模型能力总结说了这么多不知道有没有似曾相识的感觉搭建 LLM 和学生时代的学习过程不是一样吗首先要通读教材预训练理解所有内容打好基础。然后看例题监督微调通过参考标准答案学习解题思路。最后是刷题强化学习只知道题目和结果要反复尝试后得出正确的方法。区别可能是你每次只能学一个章节但是 LLM 能学习海量数据。LLM 现在的能力就像这个奶酪看着没啥问题但会有些随机的小坑比如经典的错判“9.11 比 9.9 大”。因为模型的世界是由 Token 构成的就是一堆数字而不是我们看到的字符所以模型在处理字符、计数、拼写相关任务时表现会不大好。这里要注意不能完全照搬大模型的回答要保持判断对自己交付的内容负责bhys有点说教了但真的是血泪教训。最后Karpathy 还提到了未来发展方向25年初的视频预测好准25年就是 Agent 之年和推荐的资源详看参考资料多模态Multimodality模型将原生支持文本、图像、音频的输入和输出实现更自然的交互智能体Agents模型将能执行更长期、多步骤的任务从简单的问答工具演变为工作助手比如 Manus普适化与隐形化Pervasive InvisibleLLM 将深度集成到操作系统和各种应用中成为无处不在的后台能力参考豆包手机助手计算机使用Computer-Using模型将能代表用户在浏览器或应用程序中执行复杂的任务和操作比如 ChatGPT Operator测试时训练Test-time Training探索让模型在推理过程中也能持续学习和更新参数的方法而不再是“一次训练永久固定”最后的最后还想再分享一下很喜欢韦青老师在播客中提到的一点在中文环境中把 large language model 翻译成大语言模型是一个很大的误导。这一轮的大模型学的是文字所以 LLM 实际上是大文字模型。中文是象形文字文字只是语言的一部分还有很多隐性的知识比如声音、表情是大模型还不能理解的。最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**

做艺术教育类网站如何申请关于公司网站建设的请示

创口贴网站模板网站建设报告书总结

网站框架怎么搭建手机商城页面设计

全网推广外包公司济南网络推广seo

网站制作火星科技wordpress搜索按分类

济宁网站建设企业谷网络建设公司有哪些

建站公司排名品牌vi标志设计公司

做艺术教育类网站如何申请关于公司网站建设的请示

创口贴网站模板网站建设报告书总结

网站框架怎么搭建手机商城页面设计

全网推广外包公司济南网络推广seo

网站制作 火星科技wordpress搜索按分类

济宁网站建设 企业谷网络建设公司有哪些

建站公司排名品牌vi标志设计公司

网站制作火星科技wordpress搜索按分类

济宁网站建设企业谷网络建设公司有哪些