一、面向用户的多媒体检索中的多模态界面框架设计(论文文献综述)
程述立[1](2021)在《基于深度哈希的智能检索关键技术研究及应用》文中认为近年来,网络科技进步日新月异以及伴随着成像设备的更加成熟,网络上产生了大规模多媒体数据,大规模多媒体数据的飞速增长显着增大了数据中心的承载压力,如何从这些大规模多媒体数据中实现信息的快速检索显得尤为重要。由于哈希技术具有存储成本低和检索效率高的特性,这使得哈希技术成为当前大规模多媒体数据存储和检索的主流方法。与此同时,大规模多媒体检索具有广阔的市场和学术意义,在视觉常识推理、语音身份识别、淘宝购物、京东购物、智能导航和推荐系统等方面表现突出。在当前研究中,大规模多媒体检索仍然面临模态内的语义一致性问题和模态间的语义鸿沟问题。充分利用大规模多媒体数据的模态内部信息并建立不同模态数据的共享表示,这有利于提升大规模多媒体检索的性能。本文以图像数据和跨模态图像-文本数据为研究对象,结合哈希技术和注意力机制,从语义空间信息重构和哈希学习理论出发,重点提升大规模多媒体检索在实际应用中的可靠性和有效性。本文主要研究成果如下:(1)为了提升大规模图像检索的存储效率和检索实时性,分别提出了两种不同类型的深度哈希算法,即集成深度快速监督离散哈希算法和自适应非对称残差哈希算法。在集成深度快速监督离散哈希算法研究中,该算法采用两个并行特征提取器和自适应加权融合策略来构成集成网络模型以增强图像的特征表示,然后采用快速监督离散哈希来完成哈希编码。考虑到对称哈希学习方式的深度哈希算法和集成网络模型难以适应实际场景的应用需求,进而本文提出一种非对称哈希学习算法,即自适应非对称残差哈希算法。该算法首先采用自适应非对称残差哈希来学习查询点哈希码,然后数据库哈希码通过直接生成的方式获取,最后提出非对称成对损失来关联查询哈希码和数据库哈希码。所提出的算法优化残差哈希网络参数同时更新数据库哈希码。实验结果表明所提算法具有较好的图像检索性能。(2)为了进一步提升大规模图像检索的安全性和有效性,提出了保护图像数据隐私的检索方案,该方案不同于现存的检索方案,所提出的方案主要关注图像加密模块及索引提取模块。具体来说,在图像加密部分,本文采用四维超混沌系统和DNA编码技术来保护图像数据的隐私;在索引提取模块,本文采用深度哈希算法来构建图像索引,并且基于安全近似最近邻算法保护数据库样本的索引和查询样本的索引。云服务器采用安全近似最近邻算法来完成密文相似度计算。实验结果表明所提出的方案具有较好的安全性和有效性,该方案能抵御数据在传输过程中遭遇的常见类型攻击。(3)为了进一步提升模态信息的利用率以及挖掘模态间互补信息,提出了双向聚集语义对齐注意力网络的跨模态检索算法。所提算法首先采用双向聚集语义对齐注意力网络来共享模态语义信息以消除无关语义信息对跨模态检索的消极影响,然后利用轻量长时的条带池化注意力网络来捕获模态空间语义信息,最后使用全局协方差池化来对齐图像模态和文本模态的语义。在损失函数部分,提出双向聚集语义对齐损失,该损失包含排序损失和语义对齐损失以共同优化跨模态网络的模型参数。实验验证了双向聚集语义对齐注意力网络具有较好的图像搜文本和文本搜图像的检索效果。(4)为了进一步提升大规模跨模态图像-文本数据的存储和检索效率,提出了深度语义保持重构哈希的跨模态检索算法。所提出的算法首先采用二阶协方差池化和轻量长时的条带池化注意力网络来构建特征空间,然后使用特征重构层来实现跨模态语义信息的交互,最后提出语义保持重构损失来优化网络参数。从特征提取角度出发,通过轻量长时的注意力机制来获取重要的上下文模态语义信息;从网络优化角度出发,使用全局协方差池化来丰富语义并加速网络的收敛;在特征重构层中,使用两个瓶颈自编码来实现图像-文本模态语义的交互;在度量学习策略方面,本文设计了一种语义保持重构损失来优化模型参数以保留图像模态与文本模态的语义相关性。实验验证了深度语义保持重构哈希具有较好的跨模态图像-文本检索性能。(5)为了进一步减少哈希算法在应用场景中的模型复杂度以及提升哈希算法的检索精度,提出了多重语义重构哈希算法。在网络设计方面,本文构建了一种轻量双重注意力网络,该网络由有效通道注意力和高阶张量重构组成;接下来基于二阶统计优化算法来加快模型的收敛速度并在遥感特征哈希重构层中丰富遥感图像的语义表示;在度量学习策略方面,本文提出多重语义重构损失来训练遥感图像检索的网络模型。研究发现多重语义重构损失的超参数对数据集不敏感,因此本文将所提出的算法应用在组织病理学领域,实验结果表明多重语义重构哈希在遥感和组织病理学领域均发挥着重要作用。
李静[2](2020)在《基于语义和兴趣的图像/视频检索与认证技术研究》文中研究说明随着互联网、社交媒体以及移动多媒体终端的迅猛发展,文本、图像、音频、视频等多媒体数据越来越深入地融入到人们的生活、工作、学习中。特别是,随着多媒体应用的日益增多,以图像和视频为主体的多媒体数据的生成、获取、处理和传播变得越来越普及,人们获取信息的载体从传统的文本形式,扩展到了现在以图像和视频为主的多样化的多媒体形式。在当今的信息社会中,图像和视频已经成为了最主要的信息载体,图像和视频检索也逐渐成为人们获取信息的主流途径之一。自从上世纪七十年代图像检索兴起以来,图像和视频检索就一直是信息检索理论研究和实际应用领域中的热点。近年来,随着多媒体技术和各类多媒体应用的蓬勃发展,用户对检索在性能和体验方面的需求不断提升,精准、高效、安全和个性化的检索已经逐渐成为用户的刚性需求。对于一个检索系统来说,从用户确定检索目的、形成查询输入搜索引擎,到检索系统根据查询进行数据的比对匹配,最后检索系统再将数据反馈给用户,构成一个完整、闭合的过程。在整个检索过程中,每一个环节的信息损失和失配都会对检索性能造成影响;因此,本文从目前制约检索性能提升的关键因素出发,针对搜索引擎与数据之间的“语义鸿沟”、用户与查询之间的“意图鸿沟”和数据(或搜索引擎)与用户之间的“信任鸿沟”等三个影响检索性能的关键问题,探讨了解决思路并分别提出了解决方法。从“语义鸿沟”到“意图鸿沟”再到“信任鸿沟”的研究,是满足用户不断提升的检索需求的需要。“语义鸿沟”是指图像和视频的视觉特征与用户对图像和视频理解的语义之间的距离,弥补“语义鸿沟”的目的是能够精准和高效地检索到在主题上与查询匹配的结果。随着用户对检索结果的个性化需求越来越高,对于检索的评价开始从“主题”扩展到“意图”维度上;也就是说,用户希望检索到能够符合其内在搜索意图或者个人兴趣的结果。弥补用户内在的搜索意图与其提交给检索系统的查询之间存在的“意图鸿沟”,就成为了进一步提升检索质量的关键。同时,随着图像和视频的编辑技术越来越普及,图像和视频的伪造和篡改现象越来越严重,致使检索结果的可信性问题逐渐凸显出来。人们对检索结果的信任度与媒体数据自身的可信度之间的差距,即“信任鸿沟”,成为了图像和视频检索领域不得不解决的问题;对检索结果进行可信性认证十分必要。本文针对图像和视频检索中存在的“语义鸿沟”、“意图鸿沟”以及“信任鸿沟”等三个关键问题展开研究,创新性成果主要包括:1、针对“语义鸿沟”问题,以对视频特征的语义表达能力和区分能力要求更高的视频拷贝检测为关注点,提出了一种基于3D CNN的视频拷贝检测方法。该方法采用三维卷积神经网络3D CNN同时捕捉视频空域和时域两个方面的特征,并在降低3D CNN训练过程复杂度和解决数据资源不足两个方面进行了研究。为了降低网络的构建难度和计算复杂度,降低对硬件配置的要求,提出了一种3D CNN组成的并行体系结构,将多分类任务分解为多个二分类任务的组合。由于该并行体系结构中的每个3D CNN仅用作一个二分类器,使得对CNN的训练难度和数据量的要求大大降低。此外,并行3D CNN的网络结构具有对未知类别数据进行分类的能力,并且可以随着新类别的加入而扩展。为了解决数据资源不足的问题,采用等间隔采样的分段方法对视频数据进行了增强处理,保证每个视频段均能最大化呈现视频内容;在测试阶段,只需输入少数视频段就能达到较高的识别率,大大节省了识别时间,为视频分类的实时处理提供了参考。实验表明,该方法在拷贝检测中得到了很好的效果,所提取的视频特征具有很强的语义表达能力。2、针对“意图鸿沟”问题,以对用户意图和兴趣具有高度依赖的电影推荐系统为参考,提出了一种基于电影推荐的用户兴趣计算方法。该方法根据IMDB以图文并茂的形式进行电影介绍的特点,结合面向图文检索的跨媒体学习方法,构建能够同时体现电影图文信息的特征向量;在进行用户兴趣计算的过程中,在用户评分矩阵的基础上,引入时间因子,在综合用户长期兴趣与短期兴趣对兴趣计算影响的基础上,进行用户兴趣的初始化;然后,将电影的特征向量与初始化用户的兴趣向量进行迭代,获得优化后的用户兴趣;最终,根据计算得到的用户兴趣,通过基于用户的协同过滤的评分预测机制进行电影推荐,采用对电影推荐的评价实现对用户兴趣计算性能的评价。通过在Movielens数据集上的电影推荐进行验证表明,该方法在预测用户兴趣的准确性和收敛性上都有明显的提高,有望在缓解图像和视频检索中的“意图鸿沟”问题方面得到应用。3、针对“信任鸿沟”问题,采用主动认证的方式对图像/视频进行内容完整性和真实性认证,提出了一种保证图像质量的认证水印方法。该方法基于人类视觉系统在视觉感知过程中对不同方向的感知灵敏度差异,利用三个低频系数提取包括图像中水平、垂直和对角线信息的复杂方向特征图。同时,利用每个图像DCT块的直流系数和三个低频交流系数分别生成亮度和纹理特征图,将上述三个特征图进行融合,得到最终的视觉显着图。根据该视觉显着图对JND模型进行优化,将优化后的JDN模型应用于调控认证水印的视觉质量。实验结果表明,提出的水印方案在认证方面有较好的性能。
苟婷婷[3](2020)在《基于DCGAN的图文跨模态检索系统设计与实现》文中进行了进一步梳理随着当今网络技术的成熟,互联网用户活跃于网络社交的同时产生了大量不同模态的多媒体数据(如图像、文本、语音、视频等),促进了与多媒体相关研究的发展,跨模态检索技术即是其中研究热点之一。跨模态检索是指图像、文本、音频等多模态数据之间的相互检索,如何度量多模态数据之间的相关性是该领域的研究难点。在公共子空间学习的基础上,本文利用极限学习机方法提高跨模态检索精度,挖掘更深层次的数据特征并最大化不同模态间的相关性,使得学习到的共享子空间更加具有判别性;同时提出通过深度卷积生成对抗网络实现跨模态检索,利用无标签样本进一步挖掘不同模态数据关联性,提升跨模态检索的性能。主要工作及创新点如下:1.提出基于极限学习机的跨模态检索方法。该方法通过单层神经网络计算语义之间的距离衡量相似度,在此基础上引入分类标签,使用有监督学习的方法提高模型自主学习能力,具有较好的泛化性能,能够自主学习到更具判别性的投影子空间。经在公开数据集的实验对比表明,本方法的跨检索准确率有所提升。2.提出基于深度卷积生成对抗网络的跨模态检索方法。该方法基于深度卷积生成对抗网络,融合深度典型相关分析方法,有效地提高了跨模态检索过程中不同模态数据关联性和无标签样本的利用率。在图像与文本两个单模态的表示层间增加深度典型相关分析约束,构建图文特征投影模型挖掘样本对的语义关联性;在此基础上,以DCGAN作为整个模型基本框架,利用无标签样本进行训练。同时,以图文特征投影模型作为生成器,以卷积神经网络建立模态特征分类器作为判别器;最后通过二者之间的相互对抗学习到样本的公共子空间表示。在公开数据集与其他主流方法进行对比实验,表明本方法获得了较优的性能。通过对现有跨模态检索方法的实验与对比,选用本文提出的基于深度卷积生成对抗网络的跨模态检索方法设计并实现了图文跨模态检索系统。该系统具有图像与文本互相检索的功能,提高了检索结果的准确率,满足了用户对于信息检索方式多样化的需要。
刘秋丽[4](2019)在《基于社交媒体的多媒体内容分析与理解研究》文中研究说明随着数字媒体技术的飞速发展、智能终端的普及、以及社交网络的火热,越来越多的信息采用多媒体内容呈现,使得多媒体数据爆炸式增长。多媒体数据包含了文字、图像、视频等多种形式,具有信息丰富、表观差异大、规模数据量庞大等特性特点。因此,面对当前的挑战,如何针对多媒体数据的特点,对大规模多媒体数据进行有效的内容分析和理解成为了当前的热门研究问题,也是一个极具挑战性的研究难题。社交网络多媒体具有丰富的社交媒体信息,比如用户提供的标签信息以及视觉对象的属性信息等。这些信息有助于多媒体数据的内容分析与理解。而多媒体内容分析与理解涉及到多媒体数据表示、图像-标签关联关系预测和高效索引等问题。因此,本论文重点研究了如何借助于社交媒体信息进行多媒体数据的属性特征表示、图像-标签关联关系预测和大规模数据高效索引问题。本文以基于社交媒体的多媒体内容分析与理解为研究课题,重点研究了图像的判别辅助属性特征学习、社交网络图像-标签关联关系预测和深度哈希索引等,主要研究内容和贡献如下。1)基于辅助属性学习的图像内容表示。针对人工定义属性数量有限以及不完整等问题,提出了一种辅助属性特征学习方法,通过学习判别辅助特征来实现图像内容表示的语义属性增强。针对小样本分类问题,为了学习判别性辅助特征,本方法在传统的预定义属性的基础上,同时学习辅助属性特征和多个分类器。为了学习得到的辅助属性特征更具有区分性,通过引入列稀疏约束,同时学习未知类别的辅助特征和分类器,使辅助属性特征和分类器具有最佳的相容性。在小样本分类问题上验证了该方法所提出的辅助属性特征学习方法的有效性。2)基于投影非负矩阵分解的社交网络图像标签优化。针对社交网络多媒体的用户标签存在噪声、缺失等问题,提出了一种新颖的投影非负矩阵分解模型,预测社交网络图像和标签之间的关联关系,对社交网络图像的标签进行优化。在非负矩阵分解的基础之上,本文通过假设图像潜在表示是通过正交变换矩阵从其原始特征表示投影而来的,从而无缝的解决了矩阵分解的新样本问题。同时,为了处理不相关的视觉特征,引入了行稀疏范数正则化来学习适合于选择出有效特征的映射矩阵。为了维持用户标签空间和视觉空间的局部几何结构,在矩阵分解时同时联合探索了视觉相似性和标签相关性。本文将方法应用于社交网络图像检索问题,取得了显着的检索性能,说明了该方法能够有效的改进社交网络图像-标签的关联关系,提高图像的标签质量。3)基于多级相似性学习的深度哈希索引。为了快速高效的索引海量的社交网络图像,提出了一种基于多级相似性的深度跨模态哈希索引方法,学习紧凑且有辨别性的哈希编码,探索多媒体数据多级语义相似相关性,并将其应用于大规模社交网络图像检索。该方法是第一次尝试联合深度特征表示学习、哈希函数学习和多级语义相似度学习形成的一个完整框架。其通过深度神经网络探索多媒体数据的多级语义相似相关性来学习有判别性的和紧凑的二进制哈希码。具体地,通过同时利用局部结构信息和语义标签信息来学习图像之间的多级语义相似度。同时,考虑用位平衡和量化约束进一步使统一的二进制编码更加紧凑。在两个广泛使用的多模态数据集上的结果验证了该方法在基于图像查询文本和基于文本查询图像两个检索任务上的优越性能。
邓颖慧[5](2019)在《基于语义关联的微信跨媒体检索研究》文中研究说明微信作为一款可以实现信息获取、交流、检索和传播的即时通讯软件,受到广大手机用户的青睐。随着大数据时代的到来,微信数据也逐渐呈现出了多样性、海量性以及复杂性等特点,其中包含了丰富的多媒体数据资源,且普遍存在底层特征异构,高层语义丰富的特点,给传统的多媒体检索带来了巨大的挑战。如何挖掘和关联多媒体数据的语义特征,实现不同类型数据的灵活跨越,是跨媒体检索的关键问题。本文首先采用文献计量方法对2004-2018年间发表的跨媒体检索相关文献进行分析,在讨论跨媒体检索的研究背景、研究意义以及研究现状等内容的基础上,根据文献发布时间、学科、期刊、机构、作者和关键词分布情况,挖掘跨媒体检索的发展脉络和研究热点,为进一步推动国内相关跨媒体检索研究发展提供参考意义。针对微信文本和图像在底层特征上的异构性和语义鸿沟问题,实现多媒体数据之间的语义关联变得尤为关键,于是本文设计了一种基于语义关联的微信跨媒体检索模型。多媒体数据的特征提取是实现跨媒体检索的基础,因此首先通过对微信用户提交的查询示例进行特征分析与提取,研究了文本和图像在底层内容特征上的统计关系,在特征降维的同时最大程度地保持了潜在相关性,使用相关技术挖掘文本和图像的语义特征,通过典型相关性分析进行特征映射,并存储在跨媒体语义关联子空间中;然后通过距离函数计算文本和图像之间的语义关联度,实现文本和图像之间的跨媒体检索;最后,通过相关反馈策略和用户交互行为即时更新跨媒体语义关联子空间,为用户提供更符合检索需求的结果。基于语义关联的微信跨媒体检索模型可以实现文本和图像之间的相互检索,并且通过与仅采用典型相关性分析的跨媒体检索和基于语义相似度的跨媒体检索结果进行对比分析,证明本文提出的方法具有可行性且检索性能良好。
郭姜[6](2019)在《基于多模态深度哈希学习的信息检索》文中提出信息检索是人们上网的最大需求,以往主流的方式就是在搜索引擎中输入关键文本信息来获取相关的文本、图像等信息。然而随着大数据时代的到来,不同模态信息之间的相互检索已经成为一种不可忽视的需求,它也成为了信息检索领域中的研究重点和难点。为了实现任意多模态数据之间的相互检索,并且单个模态的数据能同时检索到多个不同模态的数据,本文利用深度学习模型中高斯受限玻尔兹曼机(Gaussian-binary Restricted Boltzmann Machine,GRBM)的灵活扩展性,提出了基于GRBM的自适应模态深度哈希模型。并在此研究的基础上,结合流形学习的思想,提出了基于多图正则化的改进模型,进一步提高了模型的检索性能。具体研究工作如下:1.针对现有的绝大部分深度哈希模型无法实现在两个以上模态数据上扩展的问题,本文提出了基于GRBM的自适应模态深度哈希模型(AMH)及学习算法。该模型可以根据多模态数据的类型和模态数量自适应调整结构。模型分为深度特征学习和共享哈希码学习两个部分,首先利用深度特征学习部分获得多模态数据的深度特征,再将深度特征作为模态自适应GRBM(Adaptive modal GRBM,AGRBM)的可视层的输入,训练得到的隐层结果直接作为多模态数据的共享哈希码。由此实现任意模态数据的互相检索,并且单个模态的数据能同时检索到多个不同模态的数据。在双模态数据集上的实验表明AMH能够在MAP结果上与现有的最优秀的跨模态哈希模型竞争;在三模态和四模态数据集上的实验证明模型能够自适应多模态数据调整结构,获取共享哈希码并实现多模态数据互相检索。2.针对GRBM在训练过程中忽略数据内在流形结构的问题,在现有工作的基础上,结合流形学习的思想,提出了基于多图正则化的自适应模态哈希模型(AMH-G)。在原模型的基础上,根据多模态数据的深度特征构建多个近邻图矩阵,再根据数据的标签构建一个标签矩阵。将构建的多个近邻图矩阵和标签矩阵融合,作为图正则化矩阵。在哈希码学习部分,AGRBM的训练结合图正则化矩阵,使得到的隐层能学习到多模态数据的分布同时保持数据内在的几何结构信息。在双模态数据上的实验表明,AMH-G在MAP和PR曲线结果上都超越了对比的最优秀的方法。在三模态数据上实验表明,AMH-G与原有模型相比有15%的提升。3.设计与实现了一个多模态图像检索的仿真系统。该系统的核心是基于本文提出的自适应模态哈希及其改进算法。该系统能够让用户选择一个多模态数据集,然后将某一模态的一张待检索图像导入到系统,并且选择检索需求,系统就能根据用户的检索需求检索到其他模态的图像结果并呈现在系统界面。该系统是一个原型系统,如能应用到大规模数据中,能满足用户的各种检索需求,极大提高用户的检索体验。
金露[7](2019)在《面向多媒体检索的哈希算法研究》文中研究指明随着社交网站(例如,Facebook、You Tube、Instagram等)和数字电子设备(诸如数码相机、手机等)的普及,互联网上的视频、图像、文本等多媒体数据呈现爆炸式的增长,如何从海量多媒体数据中快速并且准确地搜索出用户所需要的多媒体数据变得极其具有挑战性。此外,多媒体数据往往使用高维的特征表示,不同的特征表示又具有不同的数据结构,由此产生的多媒体数据间的异构性也是一个难题。为此,如何有效地获取紧凑且具有鉴别性的特征表示变成近年来的一个研究热点。哈希算法将高维空间的数据映射到低维的汉明空间,来学习到紧凑的二进制码。由于在计算、存储等方面的高效性,哈希技术已经被广泛地应用于相似性检索。本文针对多媒体数据,结合哈希学习、深度学习,深入研究单模态和跨模态媒体内容的检索算法。本文的主要研究成果和贡献如下:(1)提出了一种新的基于空间关注的深度排序哈希算法。大多数现有的深度哈希方法通过编码全局语义信息直接学习哈希函数,却忽略了图像的局部空间信息。然而局部空间结构的丢失成为哈希函数的性能瓶颈,从而限制了它在相似性检索中的性能。在这项工作中,我们探索由局部和全局视角构造的特征空间的排序结构来学习序数表示,并将它用来生成基于排序的哈希码。其中,局部空间信息是利用全卷积网络(FCN)学习得到的,全局语义信息则是通过卷积神经网络(CNN)学习得到的。此外,本文设计了有效的空间关注模型,通过选择性地学习与目标对象密切相关的位置来捕获局部空间信息。总之,这种哈希框架实现了以端到端的、排序到哈希的方式捕获图像的局部空间和全局语义特性。(2)提出了一种基于语义近邻图哈希算法。大多数现有的跨模态哈希方法基于度量距离或语义标签来定义相似性关系,然而它们忽略了度量空间中固有的类内和类间变化。由此,本文提出同时利用语义监督信息和局部近邻结构来构造语义近邻图,并且对图的局部相似性结构进行编码,通过探索类内和类间变化来保留样本的细粒度相似性关联。具体来说,分别对图像和文本模态构造语义图以捕获它们的局部相似性结构;此外,本文基于语义图的局部相似性定义一个函数,通过对类内和类间变化进行编码来自适应地计算细粒度相似性。在获得统一的哈希码之后,采用基于核的逻辑回归来独立地对每种模态学习哈希函数。(3)提出了一种深度语义多模态哈希网络,用于可扩展的多模态检索。近年来深度哈希方法由于其完美的检索性能而受到前所未有的研究关注。然而,现有的深度哈希方法大多通过保留相似性关系来学习二进制哈希码,并没有利用语义标签信息,导致学习到的二进制哈希码不是最优。而在本文中,本文通过明确地保留模态间相似性和模态内语义标签信息来联合学习两组模态特定的哈希函数,以得到更优的哈希码。本文通过将语义标签嵌入网络的哈希层,从而使网络学习到的哈希码对于分类任务是最优。不同于先前的深度哈希方法,只能关联某些特定形式的损失函数,本文所提的深度哈希框架可以灵活地与不同类型的损失函数集成。此外,约束哈希码的每个位为1或-1的概率为50%,从而使哈希码更紧凑。总体而言,基于特征表示学习、模态间相似性保留学习、语义标签保持学习和具有位平衡约束的哈希函数学习,本文提出了统一的哈希框架来学习紧凑且高质量的哈希码,实现有效的单模态和跨模态检索任务。(4)提出了一种新的基于排序的端到端哈希框架,称为深度语义保留排序哈希。深度跨模态哈希方法同时进行特征表示和哈希函数学习,已显示出优越的性能。然而,大多数现有的深度跨模态哈希方法采用二进制量化函数(例如sign(·))来生成二值哈希码,但是二进制量化函数对数值的变化敏感,致使生成的哈希码的检索性能受到限制。本文所提方法利用神经网络来探索特征维度的相对排序结构,然后对其编码以生成排序表示,并据此学习哈希函数。受益于排序相关度量的稳定性,网络可以学到更鲁棒的哈希码。本文所提方法将排序表示来预测类别标签,让基于排序的哈希函数学习与标签预测最佳地兼容,从而学到较高判别性的哈希码。同时,本文所提方法保留了模态间相似性,以保证不同模态的哈希码一致。重要的是,本文所提网络结构可以与不同类型的网络架构有效集成,展示了本文提出的哈希框架的灵活性和可扩展性。
徐彤阳,邓颖慧[8](2019)在《基于知识融合的微信多媒体检索研究》文中研究表明【目的/意义】随着微信中多媒体信息资源的增长,传统的微信检索已不能满足用户的检索需求,如何快速高效地从多媒体数据中检索出用户需要的信息是微信检索面临的关键问题。【方法/过程】为解决上述问题,本文提出一种基于知识融合的微信多媒体检索框架,利用知识融合技术来揭示不同模态数据之间潜在的关联。【结果/结论】基于知识融合的微信多媒体检索模型,将多媒体信息构成一个资源群体,可有效消除数据冗余,提高微信检索效率。
潘滢炜[9](2018)在《基于高层语义的跨模态应用研究》文中进行了进一步梳理随着互联网2.0技术的快速发展,一系列围绕着多媒体内容的研究不停地涌现出来。身处于这样一个多媒体的时代,人们也在日常生活中不停创造并分享传播着图像和视频这些常见的多媒体素材。而在这一过程中,用户并不局限于仅仅分享传播图像视频这些单一视觉信息,很多时候还会加上他们对图像视频内容在语义层面的理解,比如标签或者描述这些文本信息。这样就为多媒体领域衍生出了很多跨模态间的应用。具体而言,这其中不仅包含有从文本出发查询相关图像的多媒体检索技术,也包含有从视频素材直接到文本的视频描述生成,更有一些大胆的跨模态应用比如从文本出发,自动生成相关的视频内容。这些跨模态应用的本质都是在视觉信息和文本信息这两个不同模态间的互相转换。目前的技术手段大部分都依赖于多模态学习与深度学习的现有框架来简单实现不同模态间的转换,却忽视了不同模态间本质存在的高层语义联系。而在模态转换的过程中强调这一高层语义信息对深度理解视觉内容以及最终提高模态间转换质量而言都是至关重要的。针对这一问题,本论文从视觉信息和文本信息间本质存在的高层语义信息出发,研究如何利用高层语义信息来帮助并提升多媒体检索(文本到图像)、视频描述生成(视频到文本)、视频内容生成(文本到视频)这些跨模态的应用。本论文包含以下几个创新点:(1)论文提出一种基于高层语义的多媒体检索算法,可利用搜索引擎中用户点击数据挖掘出查询关键词和图像的高层语义关系,并以此构建出一个语义子空间来直接度量这两种不同模态间的语义相关性,实现查询关键词到图像转换的多媒体检索。在该方法中语义子空间的构建主要遵循两个原则,即最小化查询关键词与对应的点击过的图像在语义子空间中的距离,并同时保留每个模态在自己原本空间的固有关系结构来。通过在一个大规模的用户点击图像检索数据集上的实验,本文证明了该算法相比于传统支持向量机的排序模型在语义相关性的评测标准上提高了 4.0%。(2)论文提出一种基于隐式高层语义的视频描述生成算法,自动生成语法连贯而且语义和视频内容一致的描述语句。该方法在利用长短时记忆神经网络对词和词之间的语法连贯性建模的同时,还设计了一个全新的视觉语义嵌入式模块来约束整个语句和视频内容的隐式语义相关性。这其中长短时记忆神经网络与视觉语义嵌入式模块是共同训练与优化的。本文在三个视频描述生成数据集上进行了大量实验并证明了所提出方法的有效性,其中所提出方法在YouTube2Text数据集上相比于基于长短时记忆神经网络的方法在METEOR指标上提高了 4.7%。(3)除了利用视频和描述语句间隐含的语义相关性,论文还提出一种基于显式高层语义的视频描述生成算法,进一步提高从视频内容到描述语句的转换质量。该方法首先挖掘出视频中包含的显式高层语义信息(也就是语义属性),然后将这一高层语义信息动态地融入到基于循环神经网络的传统视频描述生成模型中,从而大大提高了生成的视频描述语句与视频内容的语义相关性。同样地,本论文在三个视频描述生成数据集上验证了基于显式高层语义的视频描述生成模型的有效性。其中在MSVD数据集上,该方法取得了迄今为止公开的最高性能:52.8%的 BLEU@4 与 74.0%的 CIDEr-D。(4)论文提出了一种基于高层语义的视频内容生成算法,实现了从描述语句到视频内容的直接转换。该算法以生成式对抗网络(GANs)为基础,在视频内容生成过程中同时考虑了语义一致性和时序连贯性,从而使得生成视频的帧时序上连贯而且语义也和描述语句一致。实验上则通过两个合成构造的视频数据集与一个真实视频数据集证明了该算法的有效性。
张龙涛[10](2018)在《基于社交感知的跨模态检索研究》文中进行了进一步梳理近年来,随着信息技术的发展,具有相同语义的文本、图像、视频等跨模态数据呈爆炸式增长。用户可以随时随地产生、分享与传播这些数据,形成了用户与数据间紧密复杂的社会交互。因此,跨模态数据和用户都不是孤立存在的,都有明显“社交化”的趋势。分析与挖掘模态间的关联进行跨模态检索已成为该领域的重要研究课题,但现有方法大多孤立研究跨模态数据,没有处理数据中由于“社交化”带来的复杂语义关联,也就不能有效缓解跨模态数据的异构鸿沟问题。此外,现有跨模态检索研究都是侧重学习数据的关联匹配,但并未考虑这种匹配是否是用户需要的,即没有深入分析检索中用户的个性化需求,解决存在的用户意图鸿沟问题,导致/1用户很难精确检索到需要的信息。因此,充分挖掘跨模态数据间的语义关联以及理解个性化的用户需求对提升跨模态检索的性能具有重要意义。该研究课题依托于北京市教育委员会的科学研究与研究生培养共建的科研项目——基于社交感知的跨媒体数据分析与挖掘研究。本论文通过感知社交信息,对跨模态检索中的数据异构鸿沟问题与用户意图鸿沟问题做了深入研究,旨在从两个方面提高检索性能。主要的研究内容与创新成果包括:1.针对跨模态数据的异构鸿沟问题,提出一个结合链接与内容的跨模态关联学习方法。现有跨模态检索的方法大多利用数据的共现与互补特性,研究跨模态数据的关联表达,未能充分挖掘数据间的语义关联。本论文利用跨模态数据社交性的特点,感知跨模态数据的社交信息,利用社交关联增强异构数据的语义关联。在本研究中,针对数据中存在的复杂关联,本文利用异构信息网络对数据进行建模,网络中的语义链接可以有效表示不同的社交关联。为了学习跨模态间的语义关联,本文将链接关联与跨模态底层内容整合到一个统一的框架中,并学习一种有效的映射机制,将异构的数据映射到一个共同的语义子空间中,进而缓解数据的空间异构问题,实现模态间的相互检索。在扩充的NUS-WIDE数据集中的大量实验表明,所提的关联学习方法能有效提升跨模态检索的性能。2.针对跨模态检索中的用户意图鸿沟问题,提出一种基于社交多模态主题模型的用户兴趣建模方法。在跨模态检索中,用户经常不能清楚准确地表达自己在另一种模态下的信息需求,经常存在查询模糊、不明确等问题,但传统利用用户元数据、查询或点击日志等单模态数据的建模方法不适用于跨模态检索情景。因此,本文提出感知社交媒体中用户丰富的多模态行为数据来挖掘用户兴趣,并利用长期兴趣表达检索意图,得到个性化的检索结果。在本研究中,针对数据的多模态性及稀疏性等挑战,本文构建了一种社交多模态主题模型。该模型不仅同时对多模态数据进行建模,使得兴趣模型能灵活地应用在跨模态检索中;而且在模型中还考虑了用户好友兴趣的社交影响,提高了兴趣表达的鲁棒性与准确性。此外,在真实数据集中的大量实验证明了该建模方法的有效性。
二、面向用户的多媒体检索中的多模态界面框架设计(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、面向用户的多媒体检索中的多模态界面框架设计(论文提纲范文)
(1)基于深度哈希的智能检索关键技术研究及应用(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 单模态图像检索研究现状 |
1.2.2 隐私保护图像检索方案研究现状 |
1.2.3 跨模态图像-文本检索研究现状 |
1.2.4 相关应用 |
1.3 课题来源 |
1.4 本文研究内容及章节安排 |
1.4.1 论文研究内容 |
1.4.2 论文章节安排 |
第2章 相关理论和技术介绍 |
2.1 单模态图像检索相关理论与技术 |
2.1.1 传统哈希的图像检索算法 |
2.1.2 深度哈希的图像检索算法 |
2.2 跨模态图像-文本检索相关理论与技术 |
2.2.1 实值跨模态图像-文本检索 |
2.2.2 深度哈希跨模态图像-文本检索 |
2.3 算法评价指标 |
2.4 本章小结 |
第3章 基于深度哈希的单模态图像检索 |
3.1 引言 |
3.1.1 集成深度网络模型与传统哈希算法 |
3.1.2 残差学习与目标哈希码生成 |
3.2 基于深度哈希的单模态图像检索方法概述 |
3.2.1 集成深度快速监督离散哈希 |
3.2.2 自适应非对称残差哈希 |
3.3 实验结果及分析 |
3.3.1 集成深度快速监督离散哈希实验及分析 |
3.3.2 自适应非对称残差哈希实验及分析 |
3.4 本章小结 |
第4章 基于哈希索引隐私保护的图像检索方案 |
4.1 引言 |
4.2 基于哈希索引隐私保护的图像检索方案方法概述 |
4.2.1 隐私保护图像检索方案 |
4.2.2 索引提取及密文相似度计算 |
4.2.3 图像隐私保护 |
4.3 实验结果及分析 |
4.3.1 图像加密密钥敏感性分析 |
4.3.2 图像加密熵值分析 |
4.3.3 图像加密相关性分析 |
4.3.4 抗阻塞攻击分析 |
4.3.5 检索性能分析 |
4.3.6 隐私保护检索方案的数据流向 |
4.4 本章小结 |
第5章 基于双向聚集语义对齐注意力网络的跨模态检索 |
5.1 引言 |
5.2 双向聚集语义对齐注意力网络方法概述 |
5.2.1 多模态特征提取 |
5.2.2 多模态信息增强模块 |
5.2.3 双向聚集注意力机制 |
5.2.4 语义对齐模块 |
5.2.5 双向聚集语义对齐损失函数 |
5.3 实验结果及分析 |
5.3.1 实验参数设置 |
5.3.2 算法性能比较 |
5.3.3 消融分析 |
5.3.4 注意力机制分析 |
5.3.5 可视化分析 |
5.4 本章小结 |
第6章 基于深度语义保持重构哈希的跨模态检索 |
6.1 引言 |
6.1.1 深度哈希跨模态图像-文本研究 |
6.1.2 高阶统计优化研究 |
6.2 深度语义保持重构哈希方法概述 |
6.2.1 语义保持重构哈希网络架构 |
6.2.2 视觉-语言特征空间 |
6.2.3 特征重构层 |
6.2.4 语义保持重构损失 |
6.3 实验结果及分析 |
6.3.1 实验参数设置 |
6.3.2 算法性能比较 |
6.3.3 消融分析 |
6.3.4 相关指标分析 |
6.4 本章小结 |
第7章 深度哈希在遥感和组织病理学领域应用 |
7.1 引言 |
7.1.1 深度哈希在遥感领域相关应用 |
7.1.2 深度哈希在组织病理学领域相关应用 |
7.2 低秩语义重构哈希方法概述 |
7.2.1 低秩语义特征重构哈希网络架构 |
7.2.2 多重语义重构损失 |
7.3 遥感领域相关应用 |
7.3.1 实验参数设置 |
7.3.2 算法性能比较 |
7.3.3 参数敏感度分析 |
7.3.4 消融分析 |
7.4 组织病理学领域相关应用 |
7.4.1 实验参数设置 |
7.4.2 算法性能比较 |
7.5 本章小结 |
第8章 总结和展望 |
8.1 工作总结 |
8.2 工作展望 |
参考文献 |
致谢 |
个人简历、在学期间发表的学术论文及研究成果 |
(2)基于语义和兴趣的图像/视频检索与认证技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 选题背景及意义 |
1.1.1 选题背景 |
1.1.2 研究意义 |
1.2 图像和视频检索面临的挑战 |
1.2.1 语义鸿沟 |
1.2.2 意图鸿沟 |
1.2.3 信任鸿沟 |
1.3 研究内容和贡献 |
1.4 论文的组织结构 |
第二章 图像和视频检索中的关键问题 |
2.1 概述 |
2.2 语义鸿沟的弥补 |
2.2.1 基于单模态媒体的方法 |
2.2.2 基于多模态媒体的方法 |
2.3 意图鸿沟的弥补 |
2.3.1 基于相关反馈的方法 |
2.3.2 基于用户信息收集的方法 |
2.4 信任鸿沟的弥补 |
2.4.1 主动的认证方法 |
2.4.2 被动的认证方法 |
2.5 本章小结 |
第三章 基于3D CNN的视频拷贝检测 |
3.1 概述 |
3.2 拷贝检测 |
3.3 视频特征提取 |
3.3.1 静态特征 |
3.3.2 运动特征 |
3.4 所提出的方法 |
3.4.1 3D CNN |
3.4.2 并行3D CNN |
3.4.3 视频数据集 |
3.5 实验与分析 |
3.5.1 对完整视频和子视频的分类 |
3.5.2 对未知类别视频的分类 |
3.5.3 对不同结构的性能比较 |
3.6 本章小结 |
第四章 基于电影推荐的用户兴趣计算 |
4.1 概述 |
4.2 用户意图与兴趣 |
4.2.1 意图识别 |
4.2.2 兴趣计算 |
4.3 电影 |
4.3.1 电影预告片 |
4.3.2 电影描述 |
4.3.3 电影属性 |
4.3.4 电影情感的估计 |
4.4 所提出的方法 |
4.4.1 电影特征向量建模 |
4.4.2 用户兴趣向量的建立 |
4.5 实验与分析 |
4.5.1 数据集介绍 |
4.5.2 实验结果评价方法 |
4.5.3 参数的影响 |
4.5.4 与基于电影推荐的兴趣计算方法比较 |
4.6 本章小结 |
第五章 基于数字水印的图像内容认证 |
5.1 概述 |
5.2 传统的伪造方法 |
5.3 深度伪造的方法 |
5.4 数字认证水印 |
5.4.1 数字认证水印的基本特性 |
5.4.2 现有方法介绍 |
5.5 所提出的方法 |
5.5.1 视觉显着性模型 |
5.5.2 基于视觉显着性的JND模型 |
5.5.3 基于JND的水印量化 |
5.6 实验与分析 |
5.6.1 质量评价标准 |
5.6.2 鲁棒性实验 |
5.6.3 认证实验 |
5.7 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
攻读博士学位期间发表的学术论文和授权的发明专利 |
攻读博士学位期间承担和参与的科研项目 |
致谢 |
参考文献 |
(3)基于DCGAN的图文跨模态检索系统设计与实现(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 研究现状 |
1.2.1 跨模态检索方法研究现状 |
1.2.2 极限学习机应用现状 |
1.2.3 GAN应用现状 |
1.3 主要研究内容 |
1.4 论文组织结构 |
第二章 相关理论及技术基础 |
2.1 跨模态检索机制 |
2.2 极限学习机的基本理论 |
2.3 深度典型相关分析的基本理论 |
2.3.1 典型相关分析 |
2.3.2 深度典型相关分析 |
2.4 深度卷积对抗生成网络的基本理论 |
2.4.1 对抗思想介绍 |
2.4.2 GAN算法 |
2.4.3 DCGAN网络结构 |
2.5 技术基础 |
2.5.1 开发工具 |
2.5.2 深度学习框架 |
2.5.3 开发框架 |
2.6 本章小结 |
第三章 基于极限学习机的跨模态检索方法 |
3.1 相关匹配方法 |
3.2 语义匹配方法 |
3.3 基于极限学习机的跨模态检索方法 |
3.4 实验配置 |
3.4.1 数据集 |
3.4.2 评价指标 |
3.5 实验结果及分析 |
3.5.1 W参数调优实验 |
3.5.2 激活函数参数调优实验 |
3.5.3 距离函数参数调优实验 |
3.5.4 map对比实验 |
3.5.5 分类预测实验 |
3.6 本章小结 |
第四章 基于深度卷积生成对抗网络的跨模态检索方法 |
4.1 对抗跨模态检索 |
4.2 基于深度卷积生成对抗网络的跨模态检索方法 |
4.2.1 建立图文特征投影模型 |
4.2.2 建立图文跨模态检索模型 |
4.2.3 模型训练 |
4.3 实验结果与分析 |
4.3.1 参数设置实验 |
4.3.2 对比实验 |
4.4 本章小结 |
第五章 系统设计与实现 |
5.1 系统需求分析 |
5.1.1 系统功能概述 |
5.1.2 系统功能需求分析 |
5.1.3 系统非功能需求分析 |
5.2 系统设计 |
5.2.1 系统架构设计 |
5.2.2 系统功能模块设计 |
5.3 系统实现 |
5.3.1 系统界面实现 |
5.3.2 功能实现 |
5.4 系统测试 |
5.4.1 测试软硬件环境 |
5.4.2 测试内容 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
个人简介 |
(4)基于社交媒体的多媒体内容分析与理解研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究工作的背景和意义 |
1.2 研究问题 |
1.3 国内外研究现状 |
1.3.1 特征学习 |
1.3.2 哈希算法 |
1.3.3 社交图像检索 |
1.3.4 深度模型 |
1.4 本文的主要工作和创新点 |
1.4.1 判别式辅助属性学习 |
1.4.2 图像-标签关联关系预测 |
1.4.3 深度跨模态哈希 |
1.5 论文章节安排 |
第二章 基于辅助属性学习的图像内容表示 |
2.1 引言 |
2.2 相关工作 |
2.3 提出的方法 |
2.3.1 目标函数 |
2.4 优化分析 |
2.5 实验 |
2.5.1 数据集 |
2.5.2 在AwA数据集上的结果 |
2.5.3 在Caltech256数据集上的结果 |
2.6 模型深度扩展 |
2.7 本章小结 |
第三章 基于投影非负矩阵分解的社交网络图像标签优化 |
3.1 引言 |
3.2 相关工作 |
3.3 PTNMF算法 |
3.3.1 非负矩阵分解 |
3.3.2 目标函数 |
3.3.3 目标函数优化 |
3.4 实验 |
3.4.1 实验设置 |
3.4.2 对比方法 |
3.4.3 参数敏感性分析 |
3.5 实验结果分析 |
3.6 本章小结 |
第四章 基于多级相似性学习的深度哈希索引 |
4.1 引言 |
4.2 相关工作 |
4.3 深度跨模态哈希 |
4.3.1 符号定义 |
4.3.2 多级语义相似相关性构造 |
4.3.3 统一的二进制哈希码学习 |
4.3.4 网络框架 |
4.3.5 特征表示学习 |
4.3.6 深度哈希函数学习 |
4.3.7 实现和网络训练 |
4.4 实验 |
4.4.1 数据集 |
4.4.2 比较方法 |
4.4.3 实验评价准则 |
4.4.4 实验结果 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 全文总结 |
5.2 后续工作展望 |
致谢 |
参考文献 |
攻读博士学位期间取得的成果 |
(5)基于语义关联的微信跨媒体检索研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景和意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 国内外研究现状 |
1.3 研究内容和方法 |
1.3.1 研究内容 |
1.3.2 研究方法 |
1.4 主要工作和创新 |
1.5 论文的组织结构 |
第2章 跨媒体检索研究综述 |
2.1 传统的多媒体检索 |
2.1.1 基于关键词的多媒体检索 |
2.1.2 基于内容的多媒体检索 |
2.2 跨媒体检索 |
2.2.1 跨媒体检索的含义 |
2.2.2 跨媒体检索的相关研究 |
2.2.3 跨媒体检索面临的挑战 |
2.3 本章小结 |
第3章 跨媒体检索研究可视化分析 |
3.1 研究工具 |
3.2 数据来源 |
3.3 国际跨媒体检索发展与布局分析 |
3.3.1 文献的时间分布 |
3.3.2 学科和期刊布局分析 |
3.3.3 机构合作网络知识图谱 |
3.3.4 核心作者网络知识图谱 |
3.3.5 关键词共现知识图谱 |
3.4 本章小结 |
第4章 基于语义关联的跨媒体检索模型设计与分析 |
4.1 文本特征提取 |
4.2 图像特征分析 |
4.2.1 图像底层特征提取 |
4.2.2 PCA降维 |
4.2.3 图像语义标注 |
4.3 语义关联分析 |
4.4 相关反馈 |
4.5 本章小结 |
第5章 基于语义关联的微信跨媒体检索系统的实验设计 |
5.1 基于语义关联的微信跨媒体检索系统结构模型 |
5.2 基于语义关联的微信跨媒体检索架构模型 |
5.3 系统功能模块设计 |
5.3.1 微信用户界面模块设计 |
5.3.2 微信数据预处理及特征提取模块设计 |
5.3.3 微信跨媒体检索综合处理模块设计 |
5.4 实验结果与分析 |
5.4.1 实验数据集介绍 |
5.4.2 评价指标 |
5.4.3 对比实验设计与分析 |
5.5 本章小结 |
第6章 总结与展望 |
6.1 本文工作总结 |
6.2 未来工作展望 |
参考文献 |
致谢 |
攻读硕士学位期间发表的论文和其它科研情况 |
(6)基于多模态深度哈希学习的信息检索(论文提纲范文)
摘要 |
abstract |
第1章 引言 |
1.1 研究背景和意义 |
1.2 研究现状 |
1.2.1 多模态深度学习研究现状 |
1.2.2 深度哈希研究现状 |
1.3 研究内容与创新 |
1.4 论文组织架构 |
第2章 深度哈希算法研究及其在跨模态信息检索中的应用 |
2.1 深度学习概述 |
2.1.1 卷积神经网络 |
2.1.2 受限玻尔兹曼机 |
2.2 哈希学习论述 |
2.3 深度哈希 |
2.3.1 深度哈希在跨模态信息检索中的应用 |
2.3.2 跨模态深度哈希检索框架 |
2.4 本章小结 |
第3章 基于自适应模态深度哈希学习的多模态信息检索方法 |
3.1 基于高斯受限玻尔兹曼机的自适应模态深度哈希模型 |
3.1.1 多模态特征学习 |
3.1.2 共享哈希码学习 |
3.1.3 模型算法 |
3.2 验证实验 |
3.2.1 数据集 |
3.2.2 对比方法和评价指标 |
3.2.3 实验结果分析 |
3.3 本章小结 |
第4章 基于多图正则化自适应模态深度哈希学习的多模态信息检索方法 |
4.1 流形学习基本概述 |
4.2 基于多图正则化的自适应模态深度哈希模型 |
4.2.1 多图正则化矩阵的构建及融合 |
4.2.2 图正则化自适应模态高斯受限玻尔兹曼机 |
4.2.3 模型算法 |
4.3验证实验 |
4.3.1 数据集 |
4.3.2 对比方法和评价指标 |
4.3.3 实验结果分析 |
4.4 本章小结 |
第5章 自适应多模态图像检索原型系统 |
5.1 自适应多模态图像检索原型系统的开发环境 |
5.2 自适应多模态图像检索原型系统的设计 |
5.3 自适应多模态图像检索原型系统功能测试 |
5.4 本章小结 |
第6章 总结和展望 |
6.1 工作总结 |
6.2 工作展望 |
参考文献 |
致谢 |
攻读硕士学位期间从事的科研工作及取得的成果 |
(7)面向多媒体检索的哈希算法研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 哈希方法概述 |
1.2.2 深度学习概述 |
1.2.3 基于非深度哈希的多媒体检索相关方法 |
1.2.4 基于深度哈希的多媒体检索相关方法 |
1.2.5 多媒体检索数据集 |
1.2.6 多媒体检索评价指标 |
1.3 本文的研究工作概述 |
1.4 本文的组织 |
2 基于空间关注深度排序哈希的图像检索 |
2.1 引言 |
2.2 相关工作 |
2.2.1 关注感知相关方法介绍 |
2.2.2 基于排序的哈希学习 |
2.3 深度排序哈希 |
2.3.1 问题描述 |
2.3.2 网络架构 |
2.3.3 空间关注模型 |
2.3.4 局部和全局感知表示 |
2.3.5 基于排序的深度哈希函数 |
2.4 优化 |
2.5 实验 |
2.5.1 实验数据集 |
2.5.2 比较方法和评价指标 |
2.5.3 实验设置 |
2.5.4 实验结果 |
2.5.5 与两个变体的比较 |
2.5.6 检索性能的展示 |
2.5.7 参数的分析 |
2.6 本章小结 |
3 基于语义近邻图哈希的跨模态检索 |
3.1 引言 |
3.2 语义近邻图哈希 |
3.2.1 问题描述 |
3.2.2 语义近邻图构建 |
3.2.3 基于语义近邻图的细粒度语义相似性度量 |
3.2.4 目标函数和优化 |
3.2.5 计算复杂度分析 |
3.2.6 基于核函数的哈希函数的学习 |
3.3 实验结果与分析 |
3.3.1 实验数据集和实验设置 |
3.3.2 比较方法 |
3.3.3 评价指标 |
3.3.4 实验结果 |
3.3.5 参数敏感性分析 |
3.4 本章小结 |
4 基于深度语义哈希的多媒体检索 |
4.1 引言 |
4.2 相关工作介绍 |
4.3 深度语义哈希方法介绍 |
4.3.1 问题描述 |
4.3.2 模态特定的深度哈希函数 |
4.3.3 基于模态间相似一致性的二值编码 |
4.3.4 基于标签一致性的二值编码 |
4.4 整体目标函数及其优化 |
4.5 实验结果与分析 |
4.5.1 实验数据集设置 |
4.5.2 比较方法和评价指标 |
4.5.3 实验设置 |
4.5.4 实验结果 |
4.5.5 不同损失函数的分析 |
4.6 本章小结 |
5 基于深度语义保持排序哈希的跨模态检索 |
5.1 引言 |
5.2 深度语义保留排序哈希 |
5.2.1 问题描述 |
5.2.2 模态特定的深度排序哈希函数 |
5.2.3 模型公式 |
5.2.4 模态间相似性学习 |
5.2.5 模态内语义标签学习 |
5.2.6 与LSRH的关联 |
5.2.7 优化 |
5.2.8 K-ary哈希码的学习 |
5.3 实验 |
5.3.1 实验数据集和比较方法 |
5.3.2 实验设置 |
5.3.3 实验结果分析 |
5.3.4 不同网络结构的分析 |
5.3.5 特征维度K的分析 |
5.4 本章小结 |
结束语 |
致谢 |
参考文献 |
附录 |
(9)基于高层语义的跨模态应用研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景 |
1.1.1 多媒体检索 |
1.1.2 多媒体理解(多媒体内容的描述与自动生成) |
1.2 国内外研究现状 |
1.3 本文研究内容与结构安排 |
第2章 基于高层语义的多媒体检索算法 |
2.1 背景介绍 |
2.2 相关工作 |
2.2.1 多模态嵌入式学习 |
2.2.2 用户点击数据在检索中的应用 |
2.3 基于用户点击数据的多模态子空间学习法 |
2.3.1 符号声明 |
2.3.2 多模态间的距离项 |
2.3.3 结构保持项 |
2.3.4 整体优化目标 |
2.3.5 优化策略 |
2.3.6 算法流程 |
2.3.7 复杂度分析 |
2.3.8 算法的扩展 |
2.4 实验评估 |
2.4.1 数据集 |
2.4.2 实验设置 |
2.4.3 优化分析 |
2.4.4 性能比较 |
2.4.5 语义子空间的维度的影响 |
2.4.6 最近邻数量的影响 |
2.4.7 折衷参数λ的作用 |
2.5 讨论与总结 |
第3章 基于隐式高层语义的视频描述生成算法 |
3.1 背景介绍 |
3.2 相关工作 |
3.3 视频描述的语法连贯性与语义一致性 |
3.3.1 问题建模 |
3.3.2 视觉语义嵌入式模块:语义一致性 |
3.3.3 基于序列学习的LSTM模块:语法连贯性 |
3.4 基于隐式高层语义的视频描述生成算法 |
3.4.1 长短时记忆模型 |
3.4.2 带有视觉语义嵌入式模块的长短时记忆模型 |
3.5 实验评估 |
3.5.1 实验设置 |
3.5.2 性能比较 |
3.5.3 实验分析 |
3.6 讨论与总结 |
第4章 基于显式高层语义的视频描述生成算法 |
4.1 背景介绍 |
4.2 相关工作 |
4.3 方法介绍 |
4.3.1 问题建模 |
4.3.2 视频内容中的高层语义 |
4.3.3 基于显式高层语义的视频描述生成算法 |
4.4 实验评估 |
4.4.1 数据集和实验设置 |
4.4.2 比较的方法 |
4.4.3 性能比较 |
4.4.4 实验分析 |
4.5 讨论与总结 |
第5章 基于高层语义的视频内容生成算法 |
5.1 背景介绍 |
5.2 相关工作 |
5.3 从描述语句自动生成视频内容 |
5.3.1 生成式对抗网络 |
5.3.2 基于高层语义的视频内容生成(TGANs-C) |
5.3.3 测试过程 |
5.4 实验评估 |
5.4.1 数据集 |
5.4.2 实验设置 |
5.4.3 比较的方法 |
5.4.4 优化分析 |
5.4.5 定性评估 |
5.4.6 人工评估 |
5.4.7 定量评估 |
5.5 讨论与总结 |
第6章 总结与展望 |
6.1 全文总结 |
6.2 未来展望 |
参考文献 |
致谢 |
在读期间发表的学术论文与取得的研究成果 |
(10)基于社交感知的跨模态检索研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景 |
1.2 研究的科学问题 |
1.3 研究内容与主要贡献 |
1.4 论文组织结构 |
第二章 相关研究综述 |
2.1 信息检索概述 |
2.2 跨模态信息检索研究现状 |
2.2.1 基于子空间学习的跨模态检索 |
2.2.2 基于概率图模型的跨模态检索 |
2.3 个性化信息检索研究现状 |
2.3.1 用户兴趣表达与建模 |
2.3.2 个性化的查询扩展技术 |
2.3.3 个性化的重排序技术 |
2.4 本章小结 |
第三章 社交信息嵌入的跨模态检索研究 |
3.1 引言 |
3.2 结合链接与内容关联学习的跨模态检索 |
3.2.1 社交信息嵌入的研究框架 |
3.2.2 构建异构信息网络 |
3.2.3 学习基于链接的关联 |
3.2.4 学习跨模态间的关联 |
3.3 实验结果与评估 |
3.3.1 数据集 |
3.3.2 比较方法与评价指标 |
3.3.3 实验结果分析 |
3.4 本章小结 |
第四章 面向用户意图的个性化跨模态检索研究 |
4.1 引言 |
4.2 基于用户兴趣建模的个性化跨模态检索 |
4.2.1 基于社交多模态主题模型的用户兴趣建模 |
4.2.2 跨模态的个性化查询扩展 |
4.3 实验结果与评估 |
4.3.1 实验设置 |
4.3.2 评估方法 |
4.3.3 结果分析 |
4.4 本章小结 |
第五章 总结与展望 |
5.1 工作总结 |
5.2 未来展望 |
参考文献 |
致谢 |
攻读硕士学位期间发表的学术论文目录 |
四、面向用户的多媒体检索中的多模态界面框架设计(论文参考文献)
- [1]基于深度哈希的智能检索关键技术研究及应用[D]. 程述立. 新疆大学, 2021
- [2]基于语义和兴趣的图像/视频检索与认证技术研究[D]. 李静. 山东师范大学, 2020(08)
- [3]基于DCGAN的图文跨模态检索系统设计与实现[D]. 苟婷婷. 宁夏大学, 2020(03)
- [4]基于社交媒体的多媒体内容分析与理解研究[D]. 刘秋丽. 电子科技大学, 2019(04)
- [5]基于语义关联的微信跨媒体检索研究[D]. 邓颖慧. 山西财经大学, 2019(01)
- [6]基于多模态深度哈希学习的信息检索[D]. 郭姜. 重庆邮电大学, 2019(02)
- [7]面向多媒体检索的哈希算法研究[D]. 金露. 南京理工大学, 2019(01)
- [8]基于知识融合的微信多媒体检索研究[J]. 徐彤阳,邓颖慧. 情报科学, 2019(01)
- [9]基于高层语义的跨模态应用研究[D]. 潘滢炜. 中国科学技术大学, 2018(10)
- [10]基于社交感知的跨模态检索研究[D]. 张龙涛. 北京邮电大学, 2018(11)