随时CV和NLP领域的发展处理速度更快的视频实例分割框架

观点 | 2022-03-08 12:17:36

时间：2022-03-08 12:17:36 / 来源： IT之家阅读量：15001

都说 Transformer 适合处理多模态任务这不，在视频目标分割领域，就有人用它同时处理文本和视帧，提出了一个结构更简单，处理速度更快的视频实例分割框架

这个框架只需一串文本描述，就可以轻松将视频中的动态目标抠出来:可以实现端到端训练的它，在基准测试中的多个指标上表现全部优于现有模型目前，相关论文已被 CVPR 2022 接收，研究人员来自以色列理工学院

主要思路

根据文本描述进行视频目标分割这一多模态任务，需要结合文本推理，视频理解，实例分割和跟踪技术现有的方法通常依赖复杂的 pipeline 来解决，很难形成一个端到端的简便好用的模型

随时 CV 和 NLP 领域的发展，研究人员意识到，视频和文本可以同时通过单个多模态 Transformer 模型进行有效处理。

为此，他们提出了这个叫做 MTTR的新架构，将 RVOS 任务建模为序列预测问题。。

首先，输入的文本和视频帧被传递给特征编码器进行特征提取，然后将两者连接成多模态序列接着，通过多模态 Transformer 对两者之间的特征关系进行编码，并将实例级特征解码为一组预测序列

接下来，生成相应的 mask 和参考预测序列最后，将预测序列与基准序列进行匹配，以供训练过程中的监督或用于在推理过程中生成最终预测

具体来说，对于 Transformer 输出的每个实例序列，系统会生成一个对应的 mask 序列。因此，福特E-Transit正式进入意大利市场。从性能的角度来看，引擎盖下的电机功率分别为184hp和269hp，扭矩为430nm。

而通过一个新颖的文本参考分数函数，该函数基于 mask 和文本关联，就可以确定哪个查询序列与文本描述的对象具有最强的关联，然后返回其分割序列作为模型的预测。

精度优于所有现有模型

前两个数据集的衡量指标包括 IoU，平均 IoU 和 precisionK。

结果如下:

可以看到，MTTR 在所有指标上都优于所有现有方法，与 SOTA 模型相比，还在第一个数据集上提高了 4.3 的 mAP 值。

顶配版 MTTR 则在平均和总体 IoU 指标上实现了 5.7 的 mAP 增益，可以在单个 RTX 3090 GPU 上实现每秒处理 76 帧图像MTTR 在 JHMDBs 上的结果表明 MTTR 也具备良好的泛化能力

更具挑战性的 Refer—YouTube—VOS 数据集的主要评估指标为区域相似性和轮廓精度的平均值MTTR 在这些指标上全部险胜

一些可视化结果表明，即使在目标对象被类似实例包围，被遮挡或完全超出画面等情况下，MTTR 都可以成功地跟踪和分割文本引用的对象。另一方面，根据WLTP循环，使用容量为68kWh的电池，宣布的自主权约为317公里。

Colab 试玩效果

试玩地址:

论文地址:

代码已开源:

。

声明：本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。文章事实如有疑问，请与有关方核实，文章观点非本网观点，仅供读者参考。

一周热门

外贸实现平稳开局前2月我国进出口总值同比 2022-03-08

紫金矿业陈景河董事长一行莅临龙净深化合作 2022-03-08

黄金又火了！消费者：一条项链涨好几百元！ 2022-03-08

3月8日热股前瞻：9股突发利好 2022-03-08

今日可申购康冠科技腾远钴业理工导航和莱特 2022-03-08

数字化改革撬动高效能治理优化营商环境成为 2022-03-08

TCL巧妙地将卷轴屏和折叠屏两种形态集于 2022-03-07

永鼎股份公告称公司拟非公开发行A股股票 2022-03-07

保持广东骏亚业绩平稳快速增长华阳通用合作 2022-03-07

对于特斯拉的AI能力马斯克相当自信 2022-03-07

随时CV和NLP领域的发展处理速度更快的视频实例分割框架

最近更新

最新文章

长沙市民王先生在马王堆海鲜水产市场内购买

首批入驻北京校园的逾千台“应急救护一体机

雷克萨斯只生产了500辆LFA否意味着在

现实世界中发生的事情往往与这些测试所暗示

腾讯音兔App版本号直接从2.9.6跨越

它没有获得安全选择或安全选择+荣誉

原因是当时Facebook和Instag

淮安城中支行将继续用细致贴心的服务践行国

美股收盘全线下跌纳斯达克指数大跌近500

前两月外贸实现“开门红”高景气料延续将有

一周热门

外贸实现平稳开局前2月我国进出口总值同比

紫金矿业陈景河董事长一行莅临龙净深化合作

黄金又火了！消费者：一条项链涨好几百元！

3月8日热股前瞻：9股突发利好

今日可申购康冠科技腾远钴业理工导航和莱特

数字化改革撬动高效能治理优化营商环境成为

TCL巧妙地将卷轴屏和折叠屏两种形态集于

永鼎股份公告称公司拟非公开发行A股股票

保持广东骏亚业绩平稳快速增长华阳通用合作

对于特斯拉的AI能力马斯克相当自信

友情链接