松阳建设局网站聊城网站推广公司

张小明 2025/12/31 2:52:08
松阳建设局网站,聊城网站推广公司,梅州网络推广,服务 信誉好的网站制作本文来源#xff1a;k学长的深度学习宝库#xff0c;点击查看源码详细教程。深度学习#xff0c;从入门到进阶#xff0c;你想要的#xff0c;都在这里。包含学习专栏、视频课程、论文源码、实战项目、云盘资源等。 1、Monodepth 的背景和动机 1.1、背景 在计算机视觉…本文来源k学长的深度学习宝库点击查看源码详细教程。深度学习从入门到进阶你想要的都在这里。包含学习专栏、视频课程、论文源码、实战项目、云盘资源等。1、Monodepth 的背景和动机1.1、背景在计算机视觉里“深度”Depth指的是场景中物体距离相机的远近。 想象你用手机拍一张街景照片虽然照片是二维的但我们人类能直观感受到哪些车更近、哪些建筑更远。这是因为我们的大脑利用了各种视觉线索比如 大小对比远处车看起来更小、遮挡关系近处的东西挡住远处、阴影和光照等。对于机器来说理解深度也非常重要特别是在以下场景中自动驾驶汽车要知道行人、车辆与自己的距离机器人机械臂需要估计物体深度来完成抓取AR/VR虚拟物体需要准确插入现实世界场景中1.2、传统做法的挑战历史上获取深度的方法主要有两类硬件测量比如用激光雷达LiDAR直接打点测距。 缺点是昂贵、笨重并且在复杂场景下精度有限。多视角方法比如用双目相机像人眼或者多张不同角度的照片通过几何计算得到深度。用一个通俗的比喻来解释“双目相机/多视角几何计算得到深度”的过程为什么需要两只眼睛想象一下你用一只眼睛看世界东西是“平”的很难判断远近。打开两只眼睛你就能感受到深度。这是因为左右眼看到的画面略有差别比如近处的物体在左眼画面里偏左在右眼画面里偏右。核心原理视差这种左右画面的差别叫 “视差”。 举个例子把手指放在眼前然后左右眼轮流闭眼。你会发现手指相对背景位置“跳来跳去”。跳动的大小就是视差。越近的物体跳得越厉害越远的物体几乎不跳。所以物体的距离可以通过视差来推算。几何计算的过程通俗版用相机来说就是已知两台相机的相对位置“基线长度”就像两只眼睛之间的距离。拍摄得到两张略有差别的照片。找点在两张照片里找到同一个物体上的点比如同一只小猫的鼻子。测视差看这个点在左图和右图里的水平位置差了多少。套公式根据三角形几何关系用公式算出深度距离相机多远。但这需要 多台相机 或者 视频序列而且必须校准严格。在深度学习兴起后有人尝试直接训练神经网络从单张图像里预测深度。但这类方法通常需要 大量真实的深度标注数据图像精确的深度值而这些数据获取起来极为困难。 比如要训练一个自动驾驶模型需要为成千上万张街景图片提供精确的像素级深度信息这在现实中几乎不可行。1.3、Monodepth 的动机作者提出了一个新想法能不能只用普通的双目相机拍摄的左右图像而不需要昂贵的激光雷达深度标注就让模型学会预测单张图像的深度关键点在于从左图生成右图或者反过来其实本质上就是“图像重建”问题如果模型能成功做到这一点说明它学会了图像里“远近关系”的规律也就是深度。当说“从左图生成右图或反过来是图像重建”时意思是如果模型只看了一张眼睛的图比如左眼就能把另一只眼睛应该看到的图右眼画出来。这等于它在脑子里“重建”了场景的三维结构。为什么这说明模型学会了深度因为要把左眼图变成右眼图它必须知道哪些物体离得近要偏移很多哪些物体离得远偏移很少这正是 远近关系/深度 的规律。 所以如果模型能做到双目图的互相生成就说明它已经“看懂了深度”。 用更简单的比喻就像你闭上一只眼睛如果你能凭经验想象另一只眼睛看到的画面说明你其实已经理解了物体在空间里的远近位置。因此Monodepth 的核心动机就是 把深度预测转化为图像重建问题用双目图像训练让模型学会单目深度估计而无需真实深度标注。1.4、打个形象的比喻你可以把 Monodepth 想象成一个 “学画” 的过程老师给它看一张左眼拍的照片左图要求它凭想象画出右眼应该看到的画面右图。如果它画得像模像样说明它理解了哪些东西近、哪些远。久而久之它学会了在只看一张图时也能脑补出场景的三维结构。这就是 Monodepth 想要解决的核心问题 让机器像人一样从单眼图像里“看出”立体感。1.5、Monodepth 的核心思想Monodepth 的关键点就是 利用双目相机的左右图像把“深度估计”转化为“图像重建”问题。具体来说输入一张左图像或者右图像预测模型输出这张图的每个像素的“视差图”disparity map视差可以理解为“两个眼睛看到的同一个点的水平偏移量”视差和深度成反比物体越近偏移越大物体越远偏移越小。重建通过预测的视差把左图“挪动”一下生成右图或者反过来。监督拿生成的图像和真实的右图相机拍的比较差异越小说明模型越好。 总结一下模型通过图像重建的准确性来间接学习深度信息而完全不需要激光雷达的深度标注。2、Monodepth 的最大创新点1、如果要用一句话概括Monodepth 最大的创新点就是把“单目深度估计”转化为一个“无监督的图像重建问题”并引入左右一致性约束来提升几何精度。左右一致性约束是啥单靠上面的“图像重建”可能会有歧义某些纹理少或重复的地方比如白墙、天空网络可能随便预测一个深度也能凑合把图像对齐。这样得到的深度会很不稳定。所以作者引入了一个额外的约束既然我能从 左图预测深度得到左→右的视差也能从 右图预测深度得到右→左的视差那么这两个视差应该是互相一致的。举个例子假设左图里某个像素通过预测视差落在右图的某个位置。那么从右图预测的视差再“跳回”左图时应该能回到原来的位置。如果跳不回去就说明预测的深度不合理。这就是 左右一致性约束Left-Right Consistency Constraint。2、三种策略你站在马路边用 左眼 和 右眼 各拍了一张照片。现在你的任务是 只给 AI 一张照片比如左眼图让它学会“补出另一只眼睛看到的画面”。这个过程中就有三种策略对应图里的三列image.png图中共同元素先认一下Input底部红/蓝框分别是左图 Il与右图 Ir双目相机拍的一对校正图像。CNN紫色“沙漏”输入图像经编码器-解码器得到视差图绿色框 d。视差越大表示物体越近。Sampler橙色带 ⊗ 的模块是双线性采样器来自 STN用“视差”去从源图采样来生成目标图形成可微的反向映射backward warping。Output / Target输出是重建的图 I~与真实的目标图 I 做外观匹配损失像素 L1 SSIM还会加视差平滑损失与如果有左右一致性损失Naïve天真的方法做法AI 看左眼照片直接尝试画出右眼的样子。问题它画出来的右眼图看上去还行但其实它心里想的是“右眼坐标系”跟左眼输入没完全对齐。形象比喻就像一个学生照着别人的画来临摹但没对准纸画偏了位置坐标全乱了。后果AI 在训练时好像表现不错但一旦只给它一只眼左图去预测深度就会乱套没法直接用。No LR没有左右一致性做法这次换个角度AI 不再直接画右眼而是用左眼图去推测深度再从右眼图里“拼”出左眼。优点这样学到的结果至少和左眼输入对齐了坐标对上了。问题但 AI 有时候会“投机取巧”——比如马路边有个柱子右眼其实看不到后面的墙它还是硬生生把纹理“抹上去”导致画面出现拉花或鬼影。形象比喻学生画画时不会的地方就“瞎补”结果边界模糊、图像歪掉。Ours论文的方法做法论文的方法最聪明AI 只看左眼照片但它一次性要画出两份深度——既要能合成右眼画面也要能合成回左眼画面。左右两份预测还要互相对照必须匹配上否则会被惩罚。优点这样一来AI 不光要让画看起来像还要保证左右两张画在空间上对得上。形象比喻就像画立体画的学生老师要求“你得同时画出左眼和右眼的透视图”“而且这两张画必须对得上号”。 这样学生就不能再瞎蒙而是必须真正理解物体的远近关系。总结一句话Naïve图像坐标对不上预测不能用。No LR坐标对上了但容易瞎补出错。Ours双眼互相监督既对齐又一致学到真正的立体几何。3、Monodepth 的网络结构与损失函数设计编码器左边绿色方块 → 相当于眼睛的大脑前端输入一张单目照片左眼图像或者右眼图像。功能就像人类大脑的“初级视觉皮层”把照片里的各种边缘、颜色、纹理等特征提取出来。输出一个大“特征图”大小是 H × W × D。H、W → 图像的高和宽但可能被缩小过。D → 特征维度表示每个像素位置上提取了多少“特征描述”比如 64 种特征。 通俗理解编码器把一张照片变成了“包含很多隐藏信息的特征版照片”。解码器中间紫色方块们 → 相当于大脑在猜“物体有多远”功能接收编码器提取的特征再一步步“还原”空间细节。输出预测的 视差图disparity map。紫色方块就是解码器预测的结果dˡ左图的视差dʳ右图的视差 通俗理解解码器就像是在看照片后尝试给每个像素点一个“远近标签”近的视差大远的视差小。 为什么要同时预测左和右因为这样才能互相对照保证预测合理这就是“左右一致性约束”的基础。重建与监督右边彩色部分 → 相当于自我检查我预测的远近对不对橙色方块采样 / 重建模块。原理把预测的视差当作“桥”去另一张图像里找对应像素并“重建”出目标图。工具这里用的是 双线性采样器Sampler, 来自 STN它能平滑地采样并且过程是“可微”的这样误差能反传回去训练。彩色部分的输出生成的“重建图” Ĩ网络预测出来的。与真实图 I 对比计算损失误差包括外观匹配损失 (L1 SSIM) → 看图像重建得像不像。视差平滑损失 → 让深度预测不要乱跳。左右一致性损失 → 保证 dˡ 和 dʳ 的预测对得上。 通俗理解网络先猜“物体远近”再用这个猜测去“拼出另一只眼睛的画面”。如果拼得像就说明猜得对如果拼得不像网络就要调整自己。4、外观匹配损失 Cap图的左上角标注了三种关键损失函数每种损失对应一种直觉约束直觉合成的图要和真实图“看起来一样”。image.png实现方式用像素差 (L1) 结构相似度指标 (SSIM)。L1 损失像素差含义就是 逐像素对比两张图的亮度差异。公式上L1 |I_real − I_recon|举例如果真实图某个像素亮度是 100重建图预测出来是 90那误差就是 10。这种误差会被累积起来形成整体的 L1 损失。 直观理解L1 就像“对位对表”看每个像素值差多少。它要求重建图和原图在颜色上尽量接近。SSIM结构相似度指标, Structural Similarity Index含义不是单纯看像素差而是从更高层次的结构、对比度、纹理来比较两张图。范围0 ~ 1越接近 1 说明越相似。优势有些地方亮度稍有偏差但整体的边缘、形状还在这时候 L1 可能给出很大惩罚而 SSIM 能“容忍”这种小偏差。它更关注“这两张图的结构是不是一致”。 直观理解SSIM 更像人眼在判断两张图片是不是“看起来一样”而不是死板逐像素比较。为什么要 L1 SSIM 一起用L1保证像素级别的准确。SSIM保证整体结构和感知效果。两者结合既严格要求像素相近又能确保图像结构不跑偏。 就像老师批改作业L1 是逐字对答案扣字面分。SSIM 是看整体意思对不对结构合理分。两者结合才能全面反映“像不像”。5、视差平滑损失 Cds如果你看一张真实的深度图大部分区域比如墙面、地面、天空都是 连续、平滑 的不会出现“一个像素远、下一个像素突然很近”的跳跃。所以 Monodepth 在训练时加了个 平滑约束希望预测的视差图在相邻像素之间变化要小。 就像画地形图正常情况 → 像山坡缓慢变化。特殊情况 → 碰到“悬崖”物体边界可以突然变化。image.png为什么要乘上 e−∣∂I∣直接要求“所有地方都平滑”会出问题物体边界本来就该突变但你硬要拉平会导致边缘模糊。所以用图像梯度作为“参考”图像没边界 → 强约束要平滑。图像有边界 → 弱约束允许突变。 就像“山坡 vs 悬崖”草地上要平滑过渡。悬崖边缘允许突然掉下去。视差平滑损失就是 惩罚相邻像素视差差异但在图像边缘处放宽要求。 这样网络预测出来的深度图既平滑又能在物体边界处保持清晰。6、 左右一致性损失 Clr 左右一致性损失就是让网络“自己和自己对话”保证左右预测的结果能对上。image.png直觉出发人眼看东西左眼和右眼看到的画面虽然有差异但它们对同一个物体的远近判断是一致的。如果左眼说“这只猫离我 2 米”右眼却说“离我 5 米”显然就不合理。 所以 Monodepth 强调左视差图和右视差图要一致否则深度预测就不符合几何规律。公式怎么做假设左图预测的视差是 d^l右图预测的视差是 d^rr。从左图某个像素 (i,j)出发加上视差 di,jl能定位到右图的一个像素位置。那么在这个对应位置上右图的预测视差 dr 应该能“跳回”到左图的原位置。如果跳不回来就说明两边预测不一致要惩罚。7、流程串联结合图按照图片流程串起来就是输入左图 → 编码器提取特征。解码器预测视差 dl和 dr。用预测的视差把左图合成右图 (I~r)用右图合成左图 (I~l)。计算三类损失Cap合成图和真实图是否像Cds视差图是否平滑自然Clr左右预测是否一致。反向传播更新网络参数。最终网络就学会了从单张图像中预测合理的深度视差而且不需要激光雷达的标注数据。4、Monodepth 的主要缺陷来自原论文结论与讨论遮挡边界伪影只靠光度重建训练遮挡处两眼看不到同一像素容易出“拉花/虚影”。作者明确把“显式遮挡推理”列为改进方向。有些地方左眼能看到右眼看不到比如电线杆后面的背景模型硬要“补”结果会出鬼影。比喻就像你画一幅画桌子后面的部分没看到你硬想当然地画上去画歪了。镜面/透明体失真光度一致性假设Monodepth 的核心训练思路是假设场景里的表面都是 朗伯面Lambertian surface即表面看起来颜色一致不随角度变化。所以从左眼和右眼看过去同一个点的颜色、亮度应该是一样的。这样才成立 光度一致性损失用视差把右图采样过来和左图像素比对看差不差。2. 问题非朗伯面镜面 / 透明体但现实世界里很多表面不是朗伯的玻璃透过它看到的是背后的景物而不是玻璃本身。左眼和右眼透过去的角度不同 → 背景的折射不同 → 两边像素颜色对不上。水面会有反射、折射左右眼看到的波纹、倒影可能完全不同。镜子 / 光亮金属你看到的是“另一边的景象”而且反射角度敏感左右眼差别很大。 在这些情况下光度一致性假设被破坏了。Monodepth 论文里提到对于这种情况简单的像素差 (L1) 或 SSIM 已经不够用了。作者建议用 更复杂、更鲁棒的相似性度量比如多尺度特征相似性不是直接比像素而是比高层特征。或者结合语义信息知道“这里是玻璃”就别太依赖光度损失。有些后续工作还会用 Mask把这些区域权重降低。域/标定差异敏感不同数据集相机内参、基线、分辨率跨域时数值表现会掉需要在目标域微调。如果训练数据和测试数据的相机参数比如焦距、分辨率不同效果会掉。5、后续的哪些模型是如何基于此进行改进Monodepth → Monodepth2Godard et al., 2019主要改进自监督从双目扩展到视频序列不仅用左右眼还用前后帧做监督进一步摆脱双目数据的限制。更精细的重建损失引入多尺度、多区域的损失设计更鲁棒。自动遮挡处理在光度一致性里遮挡会带来噪声Monodepth2 提出了遮挡感知的损失。 通俗理解从“必须有双目”升级到“单目视频也能训练”。Stereo/Mono Self-Supervised 方向很多工作发现利用时序信息视频能进一步提高稳定性。SfMLearner (Zhou et al., 2017)预测相机位姿 深度同时训练开创了“单目视频自监督”的思路。Later works (比如 MegaDepth, DDVO)改进了位姿估计和优化方法让网络更稳。 通俗理解网络一边学“物体多远”一边学“自己往哪走”。改进损失函数Monodepth 的核心损失是光度一致性 视差平滑 左右一致性。后来很多研究改进了这部分遮挡感知 (Occlusion-aware loss)解决物体遮挡导致的重建失败。更鲁棒的相似性度量替代 L1SSIM比如用特征空间的相似性。边界感知平滑让深度在边缘更锐利。 通俗理解让网络少被“玻璃、反射、遮挡”骗。融合语义与深度一些工作引入 语义分割比如知道哪里是车、哪里是天空帮助深度估计。代表Semantic Monodepth (Klingner et al., 2020)。 通俗理解知道“这是一辆车”后深度预测会更合理。更强的网络结构使用 更强的编码器ResNet, EfficientNet, Transformer替代原始的简单 CNN。PackNet-SfM (Guizilini et al., 2020)通过特殊卷积结构保留更多几何信息。最近有 Transformer-based 方法比如 DPT, AdaBins利用全局建模获得更平滑深度。 通俗理解从“小模型”升级到“大模型 Transformer”预测更精准。6、模型结果用了哪个数据集作者主要在 KITTI 数据集上做实验。使用的是 KITTI Stereo benchmark 的子集也叫 KITTI raw dataset 的子集。具体来说训练使用 Eigen 等人定义的训练划分常见的 split大约 23k 左右训练图像。测试在 KITTI 官方的 Eigen split 测试集697 张图上评测。同时他们还在 KITTI 官方的 online stereo benchmark 上提交了结果与其他方法比较。论文里主要用了以下标准深度估计指标Abs Rel平均相对误差Sq Rel平方相对误差RMSE均方根误差RMSE loglog 空间的 RMSEδ 1.25, δ 1.25², δ 1.25³预测值和真值在一定容差内的比例本文来源k学长的深度学习宝库点击查看源码详细教程。深度学习从入门到进阶你想要的都在这里。包含学习专栏、视频课程、论文源码、实战项目、云盘资源等。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

网站如何开启gzip压缩上海最近热点事件

城通网盘直连解析工具:3步获取高速下载链接 【免费下载链接】ctfileGet 获取城通网盘一次性直连地址 项目地址: https://gitcode.com/gh_mirrors/ct/ctfileGet 还在为城通网盘下载速度慢而烦恼吗?ctfileGet这款开源工具能够帮助你在3步内快速获取…

张小明 2025/12/24 6:57:32 网站建设

落地页需要建网站吗网页制作基础教程课件葛艳玲

计算机发展历程:从早期到量子计算 1. 早期计算机的启示 早期的计算工具如计算尺,对于小数字的计算是精确的,但对于大多数大数字的计算则是近似的。在过去,快速得到一个近似结果往往就足够了,因为使用纸笔计算或使用当时珍贵的大型计算机时间来得出更精确的结果,可能需要…

张小明 2025/12/24 6:56:29 网站建设

中国建信网官方网站网站名称重要吗

Python天体力学终极指南:poliastro太空仿真工具完整教程 【免费下载链接】poliastro poliastro - :rocket: Astrodynamics in Python 项目地址: https://gitcode.com/gh_mirrors/po/poliastro 探索宇宙奥秘,计算星际轨迹,现在用Python…

张小明 2025/12/24 6:55:26 网站建设

美食分享网站怎么做手机怎么制作网站

嵌入式软件调试:从基础到高级技巧 1. 远程调试启动配置 在进行远程调试时,需要为目标程序配置不同的调试启动设置。以下是具体步骤: 1. 打开调试配置对话框 :在项目资源管理器视图中选择 measure 项目,通过“运行” - “调试配置” 或点击小虫子图标旁的下拉箭头并…

张小明 2025/12/24 6:53:22 网站建设

做网站客户一般会问什么问题打开链接的网站

Kotaemon RSS订阅集成:实时获取最新资讯并可查询 在信息更新以分钟为单位迭代的今天,一个智能助手如果只能回答“昨天之前”的问题,那它本质上还停留在过去。企业越来越需要能够感知当下、理解趋势、快速响应变化的AI系统——无论是监控行业动…

张小明 2025/12/25 16:34:08 网站建设

代理会计公司网站模版网站开发实践研究报告

AI视频增强技术深度评测:多模型架构分析与性能对比 【免费下载链接】paper2gui Convert AI papers to GUI,Make it easy and convenient for everyone to use artificial intelligence technology。让每个人都简单方便的使用前沿人工智能技术 项目地址…

张小明 2025/12/24 6:50:15 网站建设