“基于多模态信息融合的视频语义检索”讲座

  • Super User
  • 日期:2008-11-17
  • 862
“基于多模态信息融合的视频语义检索”讲座
( 2008-11-17 14:12:00 )
     (记者团 徐海洲 报道)11月5日上午,中科院自动化所模式识别国家重点实验室王金桥博士来到学院,就“基于多模态信息融合的视频语义检索”及其最新的研究进展与同学们做了交流。王金桥博士首先介绍了自动化所模式识别国家重点实验室的概况和研究领域,并介绍了视频语义检索的研究和应用背景,通过分多个部分全面介绍了基于多模态信息融合的视频语义检索的研究。
    首先是视频的结构分析和表达的研究。王博士先介绍了视频语义的整体框架、语义层次模型、底层特征抽取、中间层场景理解和高层语义描述,之后又分别介绍了基于镜头、场景和节目的视频分析。王金桥博士重点介绍了多模态的视频分割和其视频的结构特点,并从节目的制作和生成过程出发提出了三种中层特征:POIM图像、音频场景变化和文本内容变化。最后用实例演示了这种算法的性能效果,指出与传统的基于场景的节目分割的方法相比,该算法能得到更好的节目分割结果,同时该算法具有较好的稳定性和扩展性。
    其次向同学们讲解了视频片断相似性的检索。王金桥博士回顾了传统的视频片断相似性的检索并提出融合了基于领域的知识和基于DTW匹配的方法,提出了一种由粗到精的广播视频检索框架,使得POIM图像的定位能够在庞大的视频数据库中快速的搜索。最后王博士向同学们展示了这种新方法与传统的方法的对比研究。与传统的方法相比,该算法能够克服颜色扭曲、码流变化等造成的影响,增加了视频检索的鲁棒性。
     然后王博士向我们演示了他们设计的一个全自动的多目标检测和跟踪系统。该系统能够在动态场景中跟踪可变数量的目标,即使存在摄像机的运动和目标间的相互遮挡也能够比较好的保持目标的标识。王博士指出所提出的BIDPF非常适合于跟踪可变数量的目标,基于Boosting的proposal分布能够快速的检测进入场景的目标,同时相互影响模型能够在发生遮挡的时候保持每个目标的标识。
    最后王博士介绍了面向无线设备的视频处理。他先后讲解了图像的自适应显示技术,基于交互的显示浏览,FDM(Focus Density Map)和基于3D的网格的最优化方法。实验结果显示这些算法都表现出了很好的性能。
    讲座后,王博士热心的回答了同学们的各种提问并结合同学们关心的话题与同学们进行了深入的讨论。讲座让同学们了解了基于多模态信息融合的视频语义检索和发展趋势,同学们在与导师交流中,将不断明确专业方向和研究兴趣。
  
主讲人简介:
    王金桥,博士,中科院自动化所模式识别国家重点实验室。主要从事视频语义分析和理解、视频检索、目标检测和跟踪、智能监控方面的研究,已在多媒体领域IEEE Transaction on Multimedia 和 IEEE Multimedia等顶级期刊和国际会议发表论文近20篇。在2005年与新加坡科技局合作参加国际视频检索比赛中(Trecvid2005),在底层特征提取方面获得世界亚军。