联系hashgameCONTACT hashgame
地址:广东省广州市
手机:13988889999
电话:020-88889999
邮箱:admin@qq.com
查看更多
Rhashgamehashgame
你的位置: 首页 > hashgame

SIGIR 2025 视频检索新范式!北邮、北大等联合提出AV-NAS:首个音视频哈希搜索架构让Mamba与THASH GAME - Online Skill Game ET 300ransformer自动“组队”

发布时间:2026-01-09 22:24:43  点击量:

  HASH GAME - Online Skill Game GET 300

SIGIR 2025 视频检索新范式!北邮、北大等联合提出AV-NAS:首个音视频哈希搜索架构让Mamba与THASH GAME - Online Skill Game GET 300ransformer自动“组队”

  AV-NAS(Audio-Visual Neural Architecture Search)提出了一种多层语义音视频哈希架构搜索框架,能够在统一的搜索空间内自动寻找最优的多模态哈希网络结构。其整体模型如图 1 所示,网络结构包括输入特征提取、Encoder 编码模块、Fusion 融合模块、Transformation 语义变换模块和 Hash Layer 哈希模块等。AV-NAS 设计了一个高效的三阶段架构搜索策略,训练过程中采用对比学习中常用的 InfoNCE 损失作为优化目标。

  AV-NAS 从 Transformer 中的 CrossAttention 机制汲取灵感,提出了一种基于 Mamba 的新型跨模态融合机制,称为 CrossSSM:它借鉴 Cross-Attention 的“用另一模态来调制当前模态”的思想,但将注意力机制替换为基于 SSM 的选择性扫描,从而以更高效的序列建模方式实现跨模态对齐与信息注入,如图 3 和 4。与此同时,搜索空间也保留了更轻量的融合策略,例如 Add、Hadamard 以及门控式融合,使模型能够在“复杂交互”与“高效融合”之间自动权衡,选择最适合数据的融合路径。

  在同一 AV-NAS 搜索空间下,分别在 ActivityNet 与 FCVID 上得到两套最优结构 Arch-1 和 Arch-2。两者整体框架高度一致,Fusion 与 Transformation 基本相同,差异主要集中在 Encoder 的细节组件。搜索结果在视觉建模的选择上与专家先验一致(如关键帧的时空建模),但在音频时序建模上明显偏离常见选择:更倾向 “FFN + CNN” 组合,而不是纯 Transformer 或 Mamba,体现出 NAS 能发现更贴合音频特性的结构搭配。

  表 1(行 3-11, 23-24 )展示了 AV-NAS 的实验效果。AV-NAS 在 mAP 指标上整体优于其他方法,体现了其在大规模视频检索场景中的有效性;相较于 AVHash,提升具有统计显著性(p-value 0.05)。其中,Arch-1(ActivityNet 最优)与 Arch-2(FCVID 最优)分别取得了在各自数据集上的最高 mAP;在交叉测试中,由于两者结构高度相似、差异主要集中在 Encoder 细节,因此检索指标仍能保持在较高水平且波动很小。

【返回列表页】

顶部

地址:广东省广州市  电话:020-88889999 手机:13988889999
Copyright © 2018-2025 哈希游戏(hash game)官方网站 版权所有 非商用版本 ICP备案编: