实时视频网站怎么做毕业设计指导网站开发-万宁市网站建设公司-Seo优化

实时视频网站怎么做,毕业设计指导网站开发,成都住建局官网房源,网站开发如何定位Datawhale干货作者#xff1a;陈思州#xff0c;Datawhale成员本文为Hello-Agents番外篇#xff0c;完整项目学习地址#x1f449;《Hello-Agents》项目正式发布#xff0c;一起从零学习智能体#xff01;引言#xff1a;当 AI 学会看屏幕想象一下这样的场…Datawhale干货作者陈思州Datawhale成员本文为Hello-Agents番外篇完整项目学习地址《Hello-Agents》项目正式发布一起从零学习智能体引言当 AI 学会看屏幕想象一下这样的场景你对着手机说帮我订一张明天去上海的高铁票二等座上午 10 点左右出发然后 AI 自动打开铁路 12306 APP填写出发地、目的地和日期筛选符合条件的车次完成预订并付款——整个过程无需你手动操作AI 就像一个真实的助手一样看着屏幕理解界面点击按钮。这不是科幻而是GUI Agent图形用户界面智能体正在实现的现实。在过去的二十年中企业自动化的主流方案是RPA机器人流程自动化。然而RPA 有一个致命弱点它依赖于固定的 UI 元素选择器Selectors一旦界面稍有变化脚本就会失效。这种脆弱性导致了巨大的维护成本。而 GUI Agent 的出现彻底改变了这个局面。它不是简单地回放预设的脚本而是像人类一样通过视觉感知理解屏幕内容通过大语言模型的推理能力规划操作路径在动态、未知的软件环境中自主完成任务。本文将带你深入了解 GUI Agent 的技术原理并通过两个实战案例让你真正掌握如何使用和部署这些前沿的智能体系统。一、AI手机的核心技术GUI Agent1、GUI Agent 是什么GUI Agent图形用户界面智能体是一类能够自主理解和操作图形界面的 AI 系统。与传统的 API 调用或命令行工具不同GUI Agent 直接与人类使用的图形界面交互——无论是手机 APP、桌面软件还是网页应用。1从 RPA 到 AI Agent 的范式转变让我们通过一个对比来理解这种转变核心区别RPA 是脆弱的自动化而 GUI Agent 是智能的自主化。2为什么 GUI Agent 突然火了GUI Agent 的爆发并非偶然而是多个技术领域同步成熟的结果。首先是多模态大模型的突破性进展。从GPT-4o、Claude 3.5 Sonnet、Qwen-VL 这些模型开始大模型不仅能理解文字还能看懂图像这为 GUI Agent 提供了强大的眼睛。当你把一张屏幕截图喂给这些模型时它们能准确识别出这是一个登录按钮、这里有一个搜索框甚至能理解复杂的界面布局。更关键的是定位能力的突破。早期的视觉模型就像一个近视眼——它知道屏幕上有个按钮但说不清楚按钮在哪里。而最新的模型如 GUI-Owl、Qwen-VL经过专门训练能够精确输出 UI 元素的屏幕坐标这让 Agent 不仅能看见还能点准。最后是推理能力的质变。大语言模型的链式思考Chain of Thought能力让 Agent 拥有了大脑。它能将订一张明天的高铁票这样的模糊指令分解成打开APP → 选择日期 → 输入地点 → 筛选车次 → 确认支付这样的具体步骤并在执行过程中不断反思和纠错。2、GUI Agent 的核心技术架构一个完整的 GUI Agent 系统可以被分解为三个核心模块感知Perception→推理Reasoning→执行Action。这是一个闭环的自主决策系统。图 1 GUI Agent 的感知-推理-执行闭环1感知层机器如何看见屏幕感知层负责将屏幕信息转化为机器可理解的数据。目前主要有两种技术路线它们代表了两种截然不同的设计哲学。第一种路线是基于 DOM 或可访问性树的结构化感知。这种方法通过系统 API 获取应用的内部结构——比如网页的 HTML DOM 树或者 Android 应用的 View Hierarchy。就像是给 Agent 提供了一份建筑图纸它能精确知道每个按钮、文本框的类型和位置。这种方法的优势是精确高效但问题也很明显许多现代应用根本不暴露这些结构化信息。Canvas 绘制的界面、游戏、远程桌面软件对于基于 DOM 的方案来说都是黑盒。而且这种方法丢失了视觉布局信息很难理解元素之间的空间关系跨平台兼容性也很差。第二种路线是基于纯视觉的感知这也是目前最前沿的方向。Agent 直接截取屏幕图像用视觉大模型VLM像人类一样看屏幕。这种方法的通用性极强——不管你的界面是用什么技术实现的只要能显示在屏幕上Agent 就能理解。更重要的是它具备语义弹性。即使某个按钮从蓝色变成了绿色或者位置稍微移动了基于视觉的 Agent 仍然能通过语义识别出这是登录按钮。传统 RPA 遇到这种情况就会失效但 GUI Agent 能轻松应对。当然纯视觉方案也有挑战最大的难点是定位精度——模型不仅要识别出按钮是什么还要输出它的精确屏幕坐标。2推理层大脑的决策过程推理层是 GUI Agent 的大脑负责将用户的抽象指令转化为具体的操作序列。这里涉及几个关键能力。首先是任务分解能力。当你对 Agent 说帮我订一张明天去上海的高铁票二等座上午10点左右出发它需要理解这句话背后的复杂逻辑。Agent 会自动将这个模糊的需求拆解成一系列具体步骤打开 12306 APP → 点击车票预订 → 输入出发地北京 → 输入目的地上海 → 选择日期明天 → 点击查询 → 筛选车次二等座上午10点前后→ 选择符合条件的车次 → 点击预订 → 填写乘客信息 → 确认支付。这个分解过程依赖于大语言模型对常识和业务流程的理解。更精妙的是思维链机制。为了提高复杂任务的成功率现代 GUI Agent 会在每一步操作前生成内心独白。比如当前屏幕是 12306 首页用户目标是预订高铁票Agent 会先分析我看到屏幕上有车票预订、订单查询等选项需要点击车票预订才能进入购票流程。然后决策点击坐标 (540, 320) 处的车票预订按钮。这种显式的思考过程不仅让 Agent 的行为更可解释还能显著降低多步操作中的误差累积。最后是反思与纠错能力。如果 Agent 点击查询按钮后发现没有出现预期的车次列表而是弹出请选择出发日期的提示它会立即意识到我漏掉了选择日期的步骤。然后调整策略先点击日期选择器选择明天的日期再重新查询。这种自我修正能力让 Agent 能够应对真实世界中的各种意外情况。3执行层从决策到行动执行层是 GUI Agent 的双手负责将模型的决策转化为实际的系统操作。与文本生成的开放空间不同GUI 操作的动作空间是有限且明确的。点击、双击、长按、滑动、输入、滚动、拖拽——这些基本动作构成了所有复杂操作的基础。每种动作都有其特定的参数比如点击需要坐标 (x, y)滑动需要起点和终点 (x1, y1, x2, y2)输入需要文本内容。这里有一个关键的技术细节坐标系统的转换。视觉模型如 Qwen-VL通常输出归一化坐标0-1000而实际手机或电脑的屏幕分辨率可能是 1920x1080。执行层必须进行精确的坐标映射将模型的输出转换成物理坐标。而且不同设备还有不同的 DPI 和系统缩放比例这些都需要考虑进去。一个简单的映射函数可能是这样的先将归一化坐标除以 1000再乘以屏幕的实际宽高最后取整得到物理坐标。更复杂的是多平台适配。在 Android 上所有操作都通过 ADBAndroid Debug Bridge发送指令实现比如adb shell input tap 500 1000执行点击adb shell input swipe 500 1000 500 500执行滑动。在 iOS 上需要通过 libimobiledevice 或 WDAWebDriverAgent来实现类似功能。而在 Windows、Mac、Linux 桌面环境通常使用 pyautogui、pynput 这样的 Python 库直接控制鼠标和键盘。同一个点击动作在不同平台上的实现方式完全不同执行层需要为每个平台提供统一的抽象接口。3、主流开源框架全景对比2024-2025年是 GUI Agent 的爆发期各大科技公司和研究机构纷纷开源了自己的框架。让我们系统地对比几个最具代表性的项目图 2 主流 GUI Agent 框架全景对比雷达图4、应用场景与技术局限1五大典型应用场景GUI Agent 的应用潜力远超我们的想象。在智能座舱领域驾驶过程中的语音交互需求正在爆发。想象你在开车时说导航到最近的咖啡店并在到达前 10 分钟帮我点一杯拿铁GUI Agent 能够跨应用协调导航 APP 和外卖 APP理解复杂的时间逻辑还能适应不同品牌车机的UI差异。这正是传统车机系统难以做到的。在软件测试领域GUI Agent 带来了革命性的变化。传统的自动化测试依赖 Selenium 等工具每次 UI 改版都需要更新测试脚本维护成本极高。而 GUI Agent 能够自适应 UI 变化——即使按钮的位置调整了、颜色改变了Agent 仍能通过语义识别找到正确的元素。它还能进行视觉回归测试自动检测 UI 异常甚至主动进行探索性测试发现那些人类测试工程师可能忽略的边界情况。企业级的 RPA 场景是另一个巨大的市场。传统 RPA 无法处理那些没有 API 的老旧系统但 GUI Agent 可以。从 Excel 提取数据填入 ERP 系统发送邮件通知——整个跨系统工作流可以完全自动化。对于那些运行了二三十年、没有任何现代接口的遗留系统GUI Agent 终于提供了自动化的可能性。在个人生活中GUI Agent 可以成为真正的智能助理。定时发布内容到多个社交平台每天早上自动汇总新闻、天气、日程记录运动数据和饮食习惯——这些重复性的数字劳动都可以交给 Agent 完成。而对于视障、肢体障碍的用户GUI Agent 更是打开了新世界的大门。完全通过语音控制手机、智能阅读屏幕内容、将复杂操作转化为简单指令这些功能正在让技术真正惠及每一个人。2当前技术的三大局限但我们也必须清醒地认识到GUI Agent 技术仍处于发展的早期阶段面临着一些实质性的挑战。最令人担忧的是安全性与幻觉风险。大语言模型的幻觉问题在 GUI Agent 上可能导致严重后果。用户要求清理桌面Agent 可能误解为删除所有文件转账操作中的一个数字错误可能造成经济损失。目前的缓解方案包括对高风险操作强制要求人工确认详细记录操作日志并支持回滚以及在沙箱环境中充分测试。但这些都是权宜之计从根本上解决模型幻觉问题仍需要时间。成本与效率问题同样不容忽视。每一步操作都需要调用大模型进行推理如果使用云端 API成本会随着调用次数线性增长。一个复杂任务可能需要数十次迭代整体耗时较长。本地部署小模型能降低成本但准确率会有所下降。操作缓存、模式识别、混合架构简单任务用 RPA复杂任务用 AI是目前探索的方向但还没有形成成熟的最佳实践。最后是准确率瓶颈。即使是最好的系统在真实场景中的成功率也只有 40-50%。复杂界面的元素定位、动态内容的处理广告、弹窗、长链条任务的错误累积这些都是实实在在的技术难题。突破方向包括更强的视觉大模型、通过强化学习优化操作策略、以及人在回路Human-in-the-loop的协作设计。但从 50% 提升到 90% 的商业化可用水平可能还需要一段时间。二、保姆级教程手搓你的“AI手机”理论学习之后让我们通过两个难度递增的实战案例真正掌握 GUI Agent 的使用和部署。实战一Mobile-Agent 在线体验零门槛1访问在线 DemoMobile-Agent-v3 不仅支持手机还能操作电脑。如图 3 所示我们在 ModelScope 的 Demo 页面中将左上角的设备选择切换为 “电脑”即可进入 PC Agent 的体验环境。选项一ModelScope Demo推荐链接https://modelscope.cn/studios/wangjunyang/Mobile-Agent-v3选项二阿里云百炼链接https://bailian.console.aliyun.com/next?tabdemohouse#/experience/adk-computer-use/pc这两个平台都提供了云手机/云电脑环境无需本地部署即可体验完整功能。2界面功能导览进入页面后你将看到如图 3 所示的操作界面。为了确保体验一致请务必进行以下关键设置设备选择在左上角的下拉菜单中确认选择“电脑”而非手机。桌面预览右侧窗口展示的是云端分配给你的 Windows 10 桌面预装了 Office、浏览器等基础软件。交互区左下角为指令输入区Agent 的思考过程Thinking Process和操作步骤将显示在上方对话框中。图 3 Mobile-Agent-v3 在线 Demo 界面说明在这个界面中你可以直接指挥 Agent 进行办公操作不过目前使用时间有限时。3典型任务演练根据界面提供的预设能力建议新手从以下两类任务开始尝试系统级控制尝试让 Agent 修改系统设置。指令示例“将系统颜色设置为浅色模式。”观察点Agent 能否像人一样打开“开始菜单 - 设置 - 个性化”。跨应用办公尝试让 Agent 联动浏览器和办公软件。指令示例“在 Edge 浏览器中搜索阿里巴巴的股价然后在 WPS 中新建一个表格填入公司名和当前股价。”观察点Agent 能否准确处理“搜索信息”到“录入信息”的跨软件上下文切换。4提示词工程如何指挥 PC Agent在 GUI 场景下高质量的 Prompt 是成功的关键。结合上述办公场景我们总结了三个核心技巧明确应用边界 (Explicit Context)避免笼统指令如“写个简介”。推荐写法“在WPS Office 文档中写一段简介……”解析明确指定软件名称App Name能减少 Agent 寻找工具的时间。步骤链式拆解 (Chain of Steps)不要试图用一句话包含所有复杂逻辑。推荐写法“第一步打开 Edge 搜索……第二步确认网页加载完成后截取数据……第三步打开 Excel 粘贴。”解析GUI 操作具有严格的时序性分步指令能显著降低执行错误率。视觉属性描述 (Visual Attributes)Agent 是通过“看”屏幕来操作的利用视觉特征描述更有效。推荐写法“点击右上角的蓝色保存按钮” 或 “将字体颜色改为红色”。5在线体验的价值与局限ModelScope 提供的在线 Demo 最大的价值在于零门槛体验。你不需要配置任何环境不需要准备手机甚至不需要下载任何软件就能直接感受到 GUI Agent 的魔力。这对于快速验证想法、了解技术边界非常有帮助。但在线环境也有其局限性。首先是隐私问题所有操作都在云端虚拟机上进行你无法访问真实的个人数据。其次是功能限制虚拟环境中只预装了部分常用 APP无法测试特定的应用场景。最后是性能差异云端推理的延迟会比本地部署稍高。因此在线体验适合作为学习和探索的起点但如果要在真实场景中应用 GUI Agent你需要尝试本地部署。Mobile-Agent-v3官方提供了一个教程可以自行尝试接下来的实战二就将带你使用最近智谱开源的AutoGLM走进这个更深入的世界。实战二AutoGLM 本地部署与手机实战在线体验让我们感受到了 GUI Agent 的能力但真正的力量在于部署在自己的设备上控制真实的应用。AutoGLM 是一个非常适合个人开发者入门的框架它的架构清晰文档完善部署过程相对简单。这个实战的目标是在你的电脑上部署 AutoGLM连接你的 Android 手机然后让 AI 帮你完成一些真实的任务——比如自动回复微信消息或者定时刷新某个 APP 获取最新数据。1环境准备你需要什么Open-AutoGLM 的部署需要两样核心设备一台能运行 Python 的电脑以及一部 Android 手机。电脑的配置并不需要太高因为 AutoGLM 支持调用云端 API不一定要在本地运行大模型。如果你打算使用云端 API如智谱的 GLM-4V一台普通的笔记本就足够了。但如果你想体验完全本地化的方案那么一块至少 8GB 显存的 GPU 会让体验好很多。手机方面Android 7.0 或更高版本都可以不需要 Root 权限。iPhone 用户暂时无法使用因为 iOS 的封闭性导致 ADB 调试方案无法直接应用。软件环境方面你需要安装 Python 3.10 或更高版本以及 ADBAndroid Debug Bridge工具。ADB 是连接电脑和手机的桥梁所有的屏幕截图、点击、滑动操作都要通过它来实现。安装 ADB 工具macOS / Linux根据你的系统在终端执行以下命令# macOS 使用 Homebrew brew install android-platform-tools # Linux (Ubuntu/Debian) sudo apt install android-tools-adbWindows 用户通常可以直接下载 Platform Tools 压缩包并配置环境变量。2第一步安装 Open-AutoGLM如果你拥有Claude Code你可以配置 GLM Coding Planhttps://bigmodel.cn/glm-coding 后输入以下提示词快速部署访问文档为我安装 AutoGLM https://raw.githubusercontent.com/zai-org/Open-AutoGLM/refs/heads/main/README.md如果没有类似的CLI请按照以下手动步骤操作打开命令行终端先克隆 Open-AutoGLM 的代码仓库git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM接下来安装依赖。除了基础的依赖包一定要执行项目的安装命令以确保所有模块能被正确调用# 1. 安装基础依赖 pip install -r requirements.txt # 2. 以编辑模式安装项目本身 (关键步骤) pip install -e . # 3. (可选) 如果你是开发者需要额外安装开发依赖 pip install -e .[dev]这个过程通常需要几分钟取决于你的网络速度。安装完成后你需要配置 API 密钥。如果使用智谱的 GLM-4V API先去智谱开放平台注册账号并获取 API Key然后在项目根目录创建一个.env文件# .env 文件内容 GLM_API_KEYyour_api_key_hereAutoGLM-Phone-9B · 模型库https://modelscope.cn/models/ZhipuAI/AutoGLM-Phone-9B3第二步连接你的 Android 手机现在到了关键的一步让电脑能够看见并控制你的手机。这需要三个小步骤开启开发者模式、开启 USB 调试、以及安装 ADB Keyboard。1. 启用开发者模式 USB 调试在 Android 手机上进入设置 → 关于手机找到版本号连续点击 7 次或直到出现提示你会看到您已处于开发者模式的提示。返回设置主界面进入开发者选项找到USB 调试并开启。2. 安装 ADB Keyboard (必须)为了让 AI 能在手机上输入文字我们需要安装专用的 ADB 键盘。下载地址https://github.com/senzhk/ADBKeyBoard/raw/master/ADBKeyboard.apk安装后记得在手机设置的“输入法”中启用并切换到ADB Keyboard。3. 验证连接用 USB 数据线将手机连接到电脑手机上弹出授权框时点击允许。在电脑终端输入Bashadb devices如果一切正常你会看到设备序列号List of devices attached ABC12345 device如果显示device恭喜你硬件连接打通了如果显示unauthorized请检查手机屏幕是否弹出了授权确认框。对于 Windows 用户可能还需要安装手机的驱动程序。大部分品牌的手机如小米、华为、OPPO都会在连接电脑时自动安装驱动但如果遇到问题可以去官网下载对应的 USB 驱动。图 4 Android 手机 ADB 连接完整配置流程4第三步运行你的第一个任务连接成功后让我们来执行一个简单但实用的任务。有两种直接调用API的连接方式1. 智谱 BigModel文档: https://docs.bigmodel.cn/cn/api/introduction--base-url:https://open.bigmodel.cn/api/paas/v4--model:autoglm-phone--apikey: 在智谱平台申请你的 API Key2. ModelScope魔搭社区文档: https://modelscope.cn/models/ZhipuAI/AutoGLM-Phone-9B--base-url:https://api-inference.modelscope.cn/v1--model:ZhipuAI/AutoGLM-Phone-9B--apikey: 在 ModelScope 平台申请你的 API Key官方的readme里提供了一个命令行接口你可以直接输入# 使用智谱 BigModel python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model autoglm-phone --apikey your-bigmodel-api-key打开美团搜索附近的火锅店 # 使用 ModelScope python main.py --base-url https://api-inference.modelscope.cn/v1 --model ZhipuAI/AutoGLM-Phone-9B --apikey your-modelscope-api-key打开美团搜索附近的火锅店执行这个命令后AutoGLM 会启动推理流程。你会在终端看到实时的日志输出同时手机屏幕上会开始自动操作。整个过程大概是这样的首先AutoGLM 会通过 ADB 截取当前屏幕的截图将图像发送给模型分析。模型会识别出屏幕上的所有 APP 图标并在像素级别定位到美团的位置。然后 AutoGLM 发送点击指令通过adb shell input tap x y唤醒应用。等待美团启动后AutoGLM 再次截屏。这次它的目标是找到首页上方的搜索栏。识别并点击搜索框后它会调用我们在环境准备阶段安装的 ADB Keyboard将附近的火锅这串字符输入进去最后自动点击搜索按钮。整个过程通常需要 15-20 秒搜索任务步骤稍多具体时间取决于模型的推理速度和网络延迟。如果你使用的是云端 API每一步的思考时间大约是 2-3 秒。如果是本地部署的模型配置较好的 GPU 可以将单步时间压缩到 1 秒左右。三、总结与展望通过这两个层次递进的实战我们完整地体验了 GUI Agent 从在线演示到本地部署的全过程。Mobile-Agent 的在线 Demo 让我们快速理解了技术的可能性AutoGLM 的手机实战让我们掌握了实际部署的技能而 GLM-ZERO 的端侧方案则展示了隐私保护和离线应用的未来。GUI Agent 技术仍在快速演进中。当前的系统虽然已经能够处理大部分日常任务但在准确率、推理速度和成本控制上还有很大的提升空间。随着视觉大模型的持续进步以及端侧推理芯片的发展我们有理由相信GUI Agent 将成为未来人机交互的重要范式。或许不久的将来每个人都将拥有一个真正智能的数字助手它不仅能理解你的意图还能跨越不同的应用和平台帮你完成各种重复性的工作。那时候我们今天费力编写的自动化脚本都将变成一句简单的自然语言指令。这个未来其实已经在路上了。参考资料1. Mobile-Agent-v3 论文https://arxiv.org/abs/2508.151442. Open-AutoGLM GitHubhttps://github.com/zai-org/Open-AutoGLM3. UI-TARS 项目https://github.com/bytedance/UI-TARS一起“点赞”三连↓

实时视频网站怎么做毕业设计指导网站开发

蓝彩网络科技_齐齐哈尔微信营销_齐齐哈尔网站建设WordPress推送服务

做云词图的网站wordpress的总结

外国公司做网站温州建设学校网站

网站界面设计基础网站空间商是什么

阿里巴巴国际网站官网中华网

学校网站建设汇报北京网络安全大会