一、综合非语境因素的语音数据分类与声学建模研究(论文文献综述)
徐华南[1](2021)在《基于深度学习的语音情感识别研究》文中研究表明随着人工智能和深度学习的发展,人机交互领域越来越注重情感表达,而语音作为表达情感最直接的方式,是实现自然人机交互的重要前提。如何让计算机自动识别人类情感和如何利用深度学习自动提取有效表征语音情感的关键特征是如今研究的热点。本文结合目前流行的深度学习网络构建语音信号特征提取和情感识别的模型,重点寻找有效表征说话者情绪的高级情感特征和模拟人类注意力机制去识别情感。主要工作如下:(1)针对语音情感识别任务中特征提取单一、分类准确率低等问题,给出一种基于时频特征融合的情感识别算法。本文计算语音信号的Log-Mel特征和一阶差分、二阶差分特征,合并成3-D Log-Mel特征集。将3-D Log-Mel特征集输入到BCNN-LSTM-attention网络中提取频域特征,将语音划分等长度片段输入到CNN-LSTM网络中得到时域特征,融合频域特征和时域特征。在IEMOCAP和EMO-DB数据库上实验证明,特征融合算法与提取单一频域特征或时域特征算法相比识别率提高。(2)保留(1)中提取的3-D Log-Mel特征集,给出一种基于自身注意力时空特征的语音情感识别算法,对关键的时空依赖关系进行建模。利用双线性卷积神经网络、长短期记忆网络去自动学习语音信号的最佳时空表征。引入多组注意力机制,探索语音中的关键帧信息。在IEMOCAP和EMO-DB数据库上实验证明,时空特征融合算法与单一的空间特征或时间特征算法相比识别率提高,同时多组注意力机制提高了整个系统的性能。(3)给出一种在线语音情感识别系统设计,将基于自注意力时空特征模型应用到语音情感识别系统中,所有功能模块通过EXE可执行文件的调用实现,实验结果证明了本文提出算法的优越性和语音情感识别系统的有效性。
李泽瑞[2](2021)在《基于RNN-Transducer的端到端长时语音识别模型研究及系统实现》文中提出随着计算机科学技术的快速发展,人们对人机自由交互的需求日益增大,语音识别技术作为实现人机智能交互的重要技术之一,迅速成为了研究的热点。在深度学习的影响下,端到端语音识别系统在减化语音识别复杂流程的同时,其性能逐渐超过传统算法。但是当前端到端语音识别技术依然面临一些问题与难点:(1)端到端语音识别模型语言建模能力不足;(2)模型对长时语音识别的泛化能力和鲁棒性较差;(3)算法模型参数量大及时间和空间复杂度高。针对以上问题,本文对长时语音识别和语音模型压缩技术展开研究,主要工作如下:1.提出融合语言模型的RNN-Transducer模型。针对端到端语音识别模型无法有效整合语言模型进行联合优化,语言建模能力不足的问题,本文提出了融合语言模型的RNN-Transducer 模型。首先为 RNN-Transducer 预测网络增加语言建模辅助任务,使用多任务学习联合优化方法帮助模型训练。然后利用知识蒸馏算法将外部语言学知识传递给预测网络语言模型,在训练过程中将语言模型集成到RNN-Transducer模型中,进一步提升模型的语言建模能力。经实验证明,本文所提算法可以更好地学习文本信息,并且保证了模型的端到端地训练优化,降低模型字符错误率约1个百分点。2.提出长时音频语音识别算法。针对长时语音识别场景中模型鲁棒性较差的问题,本文提出了长时音频语音识别算法。首先,提出跨句上下文模块用于保留跨句子的历史上下文语义信息,使模型可以更好地学习会话级别的语境信息,提升长时语音识别的性能。然后采用初始化隐层状态的训练方式在训练过程中模拟长时语音训练,提高了模型的识别准确率。经实验表明,本文所提算法在合成长时语音数据上取得了出色的识别准确率,在短句和长句测试集上识别错误率相差不超过1个百分点,有效地提高模型对于长时语音识别场景的泛化能力与鲁棒性。3.提出基于互学习的序列级别知识蒸馏算法。针对语音识别模型参数量大且计算复杂度高的问题,本文提出了基于互学习的序列级别知识蒸馏算法。结合知识蒸馏算法,采用多个不同结构学生模型间的相互学习,引入模型之间的多样性,学习其结构差异性来实现互补,以将老师模型中更多丰富且正确的信息传递给学生模型,进一步提升学生模型的性能。经实验表明,本文所提出的算法可以有效地减少模型参数量及计算复杂度,同时保证语音识别任务的性能,达到了两者较好的平衡。综上所述,本文提出了一种可行、鲁棒、快速的语音识别方法,有效地缓解了端到端模型“语言建模能力不足”、“长时语音识别鲁棒性和泛化能力较差”、“模型参数量大及计算复杂度高”等问题。最后,在本文研究内容的基础上,设计并实现了一个语音识别演示系统。
叶良攀[3](2021)在《基于BiLSTM的铁路调度语音识别系统研究》文中进行了进一步梳理铁路安全运营对促进经济增长、增进民生福祉、强化国防安全有重要意义。铁路调度是铁路运营的“中枢神经”,而车务调度人员与列车司机、电务、工务等铁路运营生产单位之间的调度通话作业是铁路运营组织过程中的核心组成部分。以往的语音识别研究主要聚焦通用语、日常用语的识别,面向铁路领域的应用研究侧重于引导购票、客运服务等非安全语音内容的识别。但是针对直接影响行车安全和效率的铁路调度语音识别研究很少论及。本文以铁路调度语音为研究对象,在铁路车务虚拟仿真实验平台的培训考核过程中的铁路调度用语语音识别展开深入研究。本文丰富了语音识别在铁路领域的应用研究,为车务人员的培训和考核提供更全面的评价指标,具有一定的现实意义和实用价值。首先,结合现有语音识别技术的工作原理,对铁路调度语音识别的类型、系统框架作了进一步界定与设计。针对语音信号在发声、传递、采集等过程中掺杂环境噪声及冗余信息等问题,利用预处理及特征提取方法对原始语音信号进行处理和分析,将得到的FBank特征和MFCC特征用于铁路调度语音识别系统的输入,为铁路调度声学模型的搭建奠定基础。为了模拟一线车务工作人员间的通话内容,依据车机联控用语标准库,构建以铁路调度通话数据集为主的联合语音数据集。根据铁路调度用语的应用环境,对不同语言模型进行适用性分析和选取。为了解决铁路调度语音在发音、语调上的特殊性和调度用语中词语重要程度不一的问题,对词典标注提出相应的解决方案。其次,为了提升铁路调度语音识别的准确率,搭建合适的声学模型。分别采用高斯混合模型(GMM)和深度神经网络(DNN)构建基于隐马尔可夫模型(HMM)的铁路调度声学模型,以GMM/DNN拟合观测概率分布且将HMM的其他概率参数为训练对象。采用双向长短时记忆神经网络(BiLSTM)并结合链接时序分类(CTC)构建基于循环神经网络的铁路调度声学模型,以链接时序分类CTC为损失函数训练多层BiLSTM。针对以上三个模型完成对比试验,通过词错误率比较,证明基于BiLSTM-CTC的声学模型在铁路调度语音识别领域有突出优势。最后,为了解决铁路车务虚拟仿真实验平台的“调度语音-操作”一致性检查要求,以铁路调度语音识别结果为输入进行识别文本后处理。针对铁路调度用语的关键词特征和位置特征,提出相应的铁路调度语义解决方案,在一定程度上避免实验平台对识别结果的误判,提高实验平台的智能化水平。
肖科[4](2021)在《基于深度学习的声音识别分类系统》文中研究说明声音无处不在,人听到声音后,不断地有意识地或潜意识地处理和理解这些音频,从而向我们提供有关周围环境的信息。智能环境声音分类是在众多实际应用中不断发展的研究领域。尽管在音频领域(例如语音和音乐)进行了大量研究,但对环境中的声音进行分类的工作相对较少。而利用深度学习对声音图像化处理后的分类还未出现,这就引出了利用卷积神经网络对随着时间而发生的离散声音信号进行分类的研究。本研究是将深度学习技术应用于环境中声音的分类,使用深度学习技术对生活中的声音进行分类。当给出持续几秒钟的计算机可读格式(例如.wav文件)的音频样本时,希望能够确定它是否是数据集中声音之一以及相应的似然评分。相反,如果未检测到目标声音,我们将获得一个未知分数。主要研究内容如下:(1)声音分类的意义以及在现实中应用声音作为一种携带信息的载体,是人类社会中无法缺少的元素,它包含在人类生活的方方面面。虽然人耳能够有效的识别部分声音,但在更复杂的情况下,其能力是有限的,于是就需要智能的声音分类系统来协助人类识别声音,以达到某些目的。当前,对声音识别分类的应用需求是非常多的,例如协助聋哑人的日常活动、能够内外识别声音的汽车、机器预测性维护,这些应用将有助于改善人们的生活提高人们的工作效率。(2)研究深度学习技术中的卷积神经网络(CNN)对声音图像化处理后的图像进行高精度和大规模分类本课题使用深度学习中CNN技术对生活环境中的声音进行分类,根据需求对采集到的声音数据集进行图像化,然后对声音图像每一帧声音数据进行预处理,以及用梅尔频谱倒谱系数(MFCC)来提取训练模型所需的声音特征,将这些有特征标签的数据集进行分割处理,并将分类标签一起存储在Panda中的Dataframe中,然后再将数据集放入到所建立的声音分类模型中进行训练。(3)优化了声音分类精确度的算法声音分类模型的建立中,涉及到深度学习算法的应用,而一般的基准算法不能达到相应的精度要求,需要在相应模型中进行算法的改进来达到提高识别精度的要求,本文在五种基准模型算法(决策树、KNN、随机森林、支持向量机以及多数投票算法)的基础上,通过改进MLP(多层感知器)模型和CNN(卷积神经网络)模型,将其中的层级结构、特征参数以及每层的模型的节点数等进行优化,创建一个有较高分类精度的声音识别系统。(4)系统测试及算法比较分析研究将8733个时长为几秒钟的.wav文件输入到优化的声音识别分类系统中,系统能够将输入的声音与模型中学习的声音精确匹配,对每一种声音都会给出一个评分,评分最高声音类别即是目标声音的类别。同时将样本声音用上述五种算法以及改进的MLP和CNN模型继续训练,五种基准算法中识别精度最高是SVM为68%,识别精度在改进MLP和CNN模型上分别达到了88%和92%,并在汽车发动机的故障分析上得到了有效的应用。
茆廷志[5](2021)在《语音识别中欠表示命名实体识别问题研究》文中认为近年来,人机语音交互已经越来越受到人们的关注和喜爱。其中,语音识别在人机语音交互系统中扮演着重要的角色。在语音识别服务中,经常需要识别一些命名实体,例如:人名、组织、国家等等。然而,这些命名实体很容易被系统错误识别。尤其对一些欠表示命名实体(这里指命名实体在训练数据中词频小于10或者没有出现在训练数据中),语音识别系统的识别性能会急剧下降。而错误的识别这些命名实体可导致下游一些应用的失败,人机语音交互的效率也会降低。在语音识别中,正确的识别欠表示命名实体是一个极具挑战性的任务。因为这些命名实体在训练数据中没有充分的实例以及语境信息覆盖不足,所以很难学习到欠表示命名实体的可靠表示和估计。为了提高语音识别中欠表示命名实体识别准确度,本文在基于HMM语音识别系统框架上提出了若干个方法来进行研究和分析。针对语音识别系统中音素发音字典的制作成本高和G2P处理集外词会引入一些错误的问题,特别对一些欠表示命名实体,由于它们的发音不规则,G2P很难学习到可靠的发音序列。因此,本文使用字素发音字典替换了语音识别系统中常用的音素发音字典来连接声学模型和语言模型。在此基础上,本文提出了三个丰富欠表示命名实体的表示方法来提高语音识别系统对欠表示命名实体的识别性能。具体地来说,本文首先确保欠表示命名实体出现在First-Pass解码生成的词Lattice中,为此本文借鉴了基于类的语言模型建模的思想,提出了根据欠表示命名实体的类来进行样例句子的生成方法。再通过使用这些样例句子来更新N-gram语言模型,使得更多的欠表示命名实体出现在词Lattice中。然后,在Second-Pass中本文又提出了两个Lattice重打分方法来进一步提高系统的识别性能。其中,第一个重打分是在预训练循环神经网络语言模型中利用充分表示命名实体Embedding信息来增强欠表示命名实体Embedding信息表示,从而使得Lattice更偏向于欠表示命名实体。第二个重打分是直接通过提高Lattice中包含欠表示命名实体的句子的似然分数来进一步得到性能的提升。最后,这些方法的组合显着地提高了语音识别中欠表示命名实体的识别性能。
张雅洁[6](2021)在《基于表征学习的语音合成声学建模方法研究》文中指出语音合成技术是实现人机语音通信的重要途径和必要技术,产生高清晰度和高自然度的合成语音是当前阶段语音合成研究的目标。统计参数语音合成具有自动训练、灵活性强等优点,是目前构建语音合成系统的主流方法之一。传统的统计参数语音合成由前端文本分析器、声学特征预测模型、时长模型和声码器等模块构成,且各模块之间独立训练,存在模块之间特征不匹配、误差累积等问题。近年来,基于序列到序列神经网络的语音合成声学模型将声学模型和时长模型整合到一个完整的模型中联合训练,不仅简化了语音合成建模难度,还提升了语音合成的自然度。传统基于序列到序列神经网络的语音合成声学模型使用<文本特征,声学特征>对进行模型训练,文本特征通常为目标句子文本的字符或音素序列以及韵律描述,声学特征通常使用人工定义的特征,如梅尔谱、倒谱与基频等。这样的特征使用方法依然存在一些缺陷。例如,文本特征的选择没有考虑语境的影响,忽略了语义信息;声学特征缺少对于高层韵律变化的描述,造成合成语音自然度受限、韵律控制困难。另一方面,基于神经网络的表征学习方法近年来得到了广泛关注。该方法通过学习数据的底层结构,将原始数据转化为能够被机器学习有效利用的表征。因此,本文围绕基于表征学习的的语音合成声学建模方法开展研究,将表征学习引入基于序列到序列神经网络的语音合成声学模型,通过提取和利用更丰富的文本和声学表征,提高语音合成的自然度和可控性。本文的具体研究内容包括:首先,研究了基于变分自编码器的合成语音风格迁移与控制方法。现有的全局风格标识模型中不同风格标识所代表的语音特征不具备解耦合特性,不能保证风格标识权值空间的连续性。因此本文提出了基于变分自编码器的合成语音风格迁移与控制方法,用无监督的表征学习方式学习说话风格的声学表征,利用变分自编码器实现隐空间的连续性和特征解耦合,通过灵活地控制声学隐变量实现了合成语音的风格迁移与控制。其次,研究了结合预训练语言模型与段落文本表征的语音合成声学建模方法。传统的声学模型通常使用音素序列、韵律标注作为文本输入,没有充分利用目标句和目标句周围上下文的语义信息。因此,本文提出了利用预训练语言模型提取具有深度和广度特性的上下文文本表征,并将该文本表征与序列到序列声学模型相结合,提高了合成语音的自然度。最后,研究了基于细粒度声学隐变量的语音合成声学建模方法。现有多数结合声学隐变量的语音合成声学模型仅学习句子级的韵律表征,缺乏对于合成语音中细粒度韵律表征的提取与预测能力。因此本文提出了一种基于细粒度声学隐变量的语音合成声学建模方法。该方法引入了细粒度的离散隐变量来描述单词级的声学特征变化,构建了基于序列到序列声学模型的声学隐变量提取模型,以及结合预训练语言模型的声学隐变量预测模型,进一步探索了声学隐变量与文本表征解耦的对抗学习方法,最终提高了合成语音的自然度。
钟韬[7](2021)在《汽车提示音交互设计与研究》文中指出听觉交互正在打破传统以视觉为主导的汽车交互设计边界,成为了一个新的研究热点。汽车提示音在驾驶过程中起到关键信息提醒和保障安全驾驶等重要作用,提示音警示性效果以及驾驶情绪会对驾驶行为和决策产生直接地影响。在安全驾驶的目标下,汽车提示音不仅提供了一种直接有效的听觉交互途径,同时在警示提醒、快速反应和情感体验等方面更有着视觉交互无法替代的作用。本研究以汽车提示音交互设计为主要研究内容,在综述以往有关声音对驾驶行为、决策、反应及情绪影响的研究基础上,系统地分析和总结了汽车提示音交互设计流程和方法以及提示音对驾驶反应和驾驶情绪的影响,不仅对促进汽车提示音交互设计研究具有一定的理论意义,而且对于构建汽车提示音设计流程方法和设计指导原则和保障行车安全等具有一定的实践应用意义。目前汽车声音设计在汽车行业还处于起步阶段,缺乏有针对性的评价标准和设计方法,汽车提示音设计问题较容易被忽略和遮蔽,弱听化状况较为普遍。汽车交互设计人员在进行提示音设计时存在主观性、盲目性和片面性。为了解决汽车提示音交互设计流程和方法问题,清晰、准确地设计出更符合安全驾驶和听觉体验的汽车提示音,本研究围绕着汽车提示音交互设计做了以下主要工作:(1)汽车提示音交互设计流程及方法研究。针对汽车提示音交互设计的流程及方法进行了分析和研究。分析了汽车声音信息系统和声音交互设计特点,结合声音景观理论和组织符号学方法,有针对性地提出了适用于汽车提示音交互设计的设计流程和设计方法。(2)汽车提示音设计实验研究。提示音的警示性和驾驶情绪会对驾驶反应以及驾驶行为产生直接地影响,在紧急情况下反应时间越短表明驾驶员越能够做出快速反应和决策,确保安全驾驶。汽车提示音设计实验研究主要研究提示音对驾驶反应地影响,包括:提示音的警示度对不同方位车道驾驶反应的影响实验和提示音情绪维度对驾驶反应的影响实验二个部分。汽车提示音的主要功能是在驾驶过程中通过听觉信息对驾驶员进行提醒和警示,传递特定的意义以达到安全驾驶目标。为了安全驾驶以及减少设计师在汽车提示音设计时的主观成分,提供更为清晰准确的提示音设计标准,本研究通过对提示音警示度以及提示音情绪对驾驶反应的影响系列实验,分析和讨论了不同类型提示音在频率、节奏、声音速度以及情绪等影响因素下对驾驶反应地影响,初步总结了基于安全驾驶的提示音交互设计指导原则以及设计评价指标。研究结论:(1)汽车提示音设计要将提示音的声音物理属性与提示音的信息意义以及提示音应用情境相结合,从物理参数(技术层)、声音意向和传递意义(正式层)和理解和规范(社会层)这三个层面综合立体地对提示音进行设计及评价。(2)设计警示性汽车提示音,提示音的声音节奏和声音的速度是重要的设计指标。研究表明节奏较快、速度较慢的提示音警示性效果更好,在进行警示性汽车提示音设计时应该选用自然类声音(听标),其警示性意义传递更明确。(3)汽车提示音可以加快驾驶反应,在进行警示性汽车提示音设计的时候,应该选用高频率以及中慢节奏的听标类提示音,同时还应该增加左方位的视觉信息刺激,可以更好地起到加快驾驶反应效果。(4)汽车提示音设计中选用中低频率、低音调和快节奏的提示音会更令人感觉愉悦,中高频率和快节奏的听标类提示音较容易让人兴奋,低频率低音调提示音并且声音传递意义指向明确的提示音让人舒适。(5)提示音刺激下绿色视觉信息下的驾驶反应最快,高频率中慢节奏的提示音与左方位绿色视觉信息可以更好地加快驾驶反应速度。本文创新点:基于声音景观学理论和组织符号学方法构建了汽车提示音声音信息组织框架,提出了汽车提示音交互设计新的设计流程和方法。实验研究了汽车提示音的警示性效果并提出了警示性提示音设计指标,研究了汽车提示音对不同方位车道的驾驶反应地影响并提出了提示音设计建议,研究了多类提示音情绪维度,对提示音的愉悦度、唤醒度和体验度进行了概括并提出了设计建议,研究了不同情绪下汽车提示音对驾驶行为地影响并得出了结论。
岳鲁鹏[8](2021)在《基于Kaldi的说话人识别技术研究》文中指出说话人识别SR(Speaker Recognition)又称声纹识别VR(Voiceprint Recognition),是一种根据语音信息对说话人身份(Identify)进行辨识的生物特征识别技术。语音中包含着非富多彩的信息,既有反映说话内容的共性信息,也有表征说话人个性特征的差异性信息,和语音识别关注共性信息不同,说话人识别则更多关注差异性信息,以此来鉴别说话人的身份。与面部识别等其他识别技术相比,说话人识别优势突出,它不仅操作便捷、成本较低,并且识别精度高,现已在金融、军事等多个行业得到了大力推广和积极应用,应用前景非常可观。本文综合考虑各种声学特征的特性、建模方法以及打分策略等问题,利用Kaldi语音识别工具和信号处理的相关理论和技术,结合不同声学特征和声学模型的优劣势,对待测语音数据进行评测。首先,利用特征提取和特征处理技术,将不同声学特征进行动态融合,互补不同声学特征的差异,减少噪声等杂糅信息对说话人特征的影响,形成新的输入特征。其次,利用深度学习和自然语言处理的相关理论和技术,将特征进行提纯,再次减少噪声等杂糅信息对说话人特征的影响。最后,利用说话人识别中打分策略技术,将特征流入i-vector、x-vector等说话人识别模型,并结合打分函数和激活函数,对待测语音数据进行评测,从而过滤与说话人无关的特征,识别与说话人相关的特征,分阶段实现说话人识别信息的检测。本文的主要研究内容如下:(1)利用基于多特征i-vector的说话人识别算法实现待测语音的第一阶段工作。首先,采用Kaldi语音识别工具在TIMIT语料库上采集不同的声学特征并将其构成一个高维特征向量。然后,通过主成分分析法PCA(Principal Components Analysis)有效地剔除高维特征向量的关联,确保各种特征之间正交化。最后,采用概率线性判别分析PLDA(Probabilistic Linear Discriminant Analysis)进行建模和打分,同时在一定程度上降低空间维度,并采用等错误率EER(Equal Error Ratio)来评价说话人识别系统的综合性能。(2)利用基于多特征和多任务学习的x-vector说话人识别算法实现待测语音的第二阶段工作。首先,采用Kaldi语音识别工具在Vox Celeb1语料库中采集具有互补性的不同尺度的声学特征,并将其同时输入到网络中。然后,在网络内部整合不同互补特征的特性,并将流进网络的特征在全连接的拼接层进行左右拼接。最后,结合注意力机制进行帧权重的计算和线性整流函数Re LU(Rectified Linear Unit)来降低梯度弥散,并采用EER和检测代价函数DCF(Detection Cost Function)来评价说话人识别系统的综合性能。(3)利用基于语谱图和多头注意力机制的说话人识别算法实现说话人识别的最后阶段检测。首先,采用Kaldi语音识别工具在Vox Celeb2语料库中采集语谱图、MFCC两种声学特征,并将二者相继送入TDNN和CNN。然后,设置不同结构的CNN,并利用CNN处理图片的优势对语谱图进行加工。最后,结合多头注意力机制对网络处理后的特征进行加权,并采用EER和DCF来评价说话人识别系统的综合性能。本论文在说话人识别TIMIT评测集验证了第一阶段所提算法的有效性,与单特征i-vector模型相比,EER最佳取得了90.0%的相对降低(8.33%降至0.833%),在区分性别差异的模型中,男性和女性的EER最佳分别取得了85.6%的相对降低(11.67%降至1.38%)和92.3%的相对降低(9.72%降至0.69%)。在说话人识别Vox Celeb1评测集验证了第二阶段所提算法的有效性,与x-vector基线模型相比,添加了注意力机制的统计层模型在EER上最佳取得了24.4%的相对降低(2.01%降至1.52%),在此基础上引入多任务学习并采用拼接层后,在EER上最佳取得了29.0%的相对降低(1.38%降至0.98%)。在说话人识别Vox Celeb2评测集验证了最后阶段所提算法的有效性,与x-vector基线模型相比,采用语谱图和CNN结合的方式在EER上最佳取得了6.69%的相对降低(6.58%降至6.14%),在此基础上引入多头注意力机制后,在EER上最佳取得了26.14%的相对降低(6.58%降至4.36%)。
更太加[9](2020)在《融合形态结构与语法关系的藏语语言模型》文中研究说明语言是现实生活中最主要的信息交流方式。语言模型是语言研究中的一项基础工作,能够提供有效的词表征以及词序列的概率化表示,可以应用于语音识别、机器翻译、手写体识别和句法分析等相关研究。目前,语言模型在英语、汉语和日语等语料相对充足语言领域已经取得了比较理想的效果。而针对藏语的相关研究仍处在初级阶段,由于藏语语料资源的匮乏和研究人员的稀少,严重制约了藏语语言模型的研究发展。在此背景下,本文从藏语自身的语言特点着手:一方面构建了藏语语料库,以验证本文研究结果的合理性;另一方面是从藏语形态结构出发,解决在有限的语料中获取更加有效的信息来补充资源缺乏的问题。藏语作为资源匮乏的语言之一,目前没有公开的、标准的音频和文本数据资源。根据藏语拉萨方言的特点和藏语文本的特殊性,本文考虑了音素平衡以及文本域问题,构建了藏语的音频和文本语料库。基于藏语句子中一些虚词接续错误和低频词问题,本文重点关注了藏语中后缀对虚词的影响,以及形态动词对低频词的影响。在上述基础上,首先,本文提出了藏语静态形态结构关系的语言模型。与其他语言不同,藏语中特有的静态形态结构关系(即后缀对虚词接续关系)会严重影响藏语句子的语义理解。具体地,除了字本身的信息之外,字的后缀信息能够使其更加准确接续正确的虚词。因此,本文将静态形态结构融入到字的信息中,以纠正句子中一些语法错误,从而使句子语义能够准确表达。其次,本文提出了藏语动态形态结构关系的语言模型。我们发现在语料中有一些动态形态结构关系(即藏语中的形态屈折变化词),这类词比较特殊且重要,对句子的语义会产生重要影响,尤其是在语音识别中的同音字,预测错误的可能性较大。由于词类中候选词越多,其对应的候选词权重越低,被选中的概率就越低。为此,我们对藏语中的形态动词进行加权,使其不但能够被分配到更高的词类中,而且能更加准确地表示句子语义。最后,本文提出了融合静态和动态形态结构的藏语语言模型。经统计发现,静态形态结构关系可以纠正句子中语法错误的问题,而动态形态结构可以使句子中形态动词的权重发生变化,这两种结构具有互补的关系,能够进一步增强对藏语句子语义的理解。我们有效融合了静态和动态形态结构,不仅考虑到后缀对虚词的影响,而且对形态动词进行了加权以增强句子的语义理解,比仅考虑单个特性的模型在性能上有所提升。综上所述,通过构建藏语语料库以及对其分析,我们发现语法和低频词问题。进而将后缀对虚词的语法问题以及形态动词对低频词的影响应用于藏语语言模型的研究中,可以有效提升藏语句子的识别和理解能力。除了语音识别,本文的工作还可被应用到手写体识别、机器翻译和句法分析等藏语自然语言处理的不同任务上,希望该工作能为藏语信息处理研究做出一点绵薄之力。
彭智朝[10](2020)在《融入生理学和行为学特征的言语情感识别研究》文中进行了进一步梳理即将到来的万物互联时代为人机交互领域提供了巨大的发展机遇,言语交互是人机交互中最自然,最便捷的交互方式。言语情感识别是言语交互中非常重要的一环,只有准确地识别说话人的言语情感信息,才能理解说话人的言外之意,实现有效言语交互。互联网环境中,言语情感信息可以在文本(如微博等)和语音两个言语通道上进行传递。文本情感通常是指说话人有意识的情感表达。从情感言语生成角度看,说话人的心理和生理状态都会反映在言语内容和行为信息等特征上,从这些特征信息中可以挖掘用户的情感状态。比如,微博用户的心理和生理状态会导致其言语内容和交互行为特征上的不同,通过这些特征信息可以挖掘用户是否有抑郁倾向情绪。语音情感更多的是一种无意识的、不由自主的情感表达。从情感言语感知的角度来看,声音进入听话人的听觉生理系统进行一系列的转换到达听觉皮层,通过语音音调、强度和持续时间等特征识别用户情感状态。本文根据文本产生和语音感知的特点,从不同的角度将生理学和行为学特征融入到言语情感识别研究中。在文本情感识别中,我们主要通过微博的文本内容和交互行为学特征挖掘微博用户的生理和心理状态,在语音情感识别中则主要利用听话人的听觉机理抽取语音中和情感相关的有效特征表示来提高情感的识别率。基于这个研究思路,本文在文本情感挖掘和语音情感识别中,在以下四个方面进行了创新性研究:(1)本文提出了一种结合用户行为特征的口语化文本情感识别方法,具体是指在文本言语通道上的抑郁倾向人群识别。首先根据口语化文本的新特点构建了抑郁情感词典并基于该词典提取文本特征表示,然后结合用户言语交互行为特征采用多核学习方法找到异构特征与情感的最优映射来实现抑郁倾向人群识别。实验结果表明,结合文本特征表示和交互行为特征是一种有效的情感挖掘方法。(2)本文首先提出了基于耳蜗滤波的情感识别方法,虽然该方法取得了比基于MFCC的方法更好的结果,但它存在明显的缺点,因此本文进一步提出了基于听觉调制的情感识别方法。基于听觉调制的方法引入了调制滤波来产生多维时间调制线索,然后采用3D CNN(convolutional neural network)模型直接对调制线索进行联合谱时特征学习。实验结果表明,3D CNN可以从时间调制线索中有效提取情感区分性的听觉表征。(3)受人耳听觉注意机制的启发,本文提出了一种基于注意力模型的滑动循环网络(Attention-based sliding recurrent neural network,ASRNN)模型来识别语音情感。其中,通过滑动窗来实现持续关注并提取连续的段级内部表征,然后通过时域注意力模型来实现选择性注意机制。最后通过注意力听辨实验对注意力模型和人耳听觉注意机制的相关性进行了比较分析。实验结果表明,该模型能从听觉表征中有效地捕获显着的情绪区域。(4)受人耳听觉系统多尺度调制的启发,本文提出了基于多分辨率调制耳蜗图(multi-resolution modulation-filtered cochleagram,MMCG)特征的维度情感识别方法。其中MMCG把时间调制线索编码成不同分辨率的调制耳蜗图来捕获时间和上下文调制线索。考虑到MMCG中的每种调制耳蜗图包含不同尺度的调制线索,本文设计了一种并行LSTM网络结构从不同分辨率特征中建立多个时间依赖关系并跟踪情感在时间序列上的动态性。实验结果表明,MMCG特征能够获得多尺度情感信息,而并行LSTM能够有效地跟踪情感的时间动态。
二、综合非语境因素的语音数据分类与声学建模研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、综合非语境因素的语音数据分类与声学建模研究(论文提纲范文)
(1)基于深度学习的语音情感识别研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.3 目前面临的问题 |
1.4 研究内容和主要工作安排 |
1.5 本章小结 |
第二章 语音情感识别概述 |
2.1 情感的基本理论 |
2.2 语音情感识别的流程 |
2.3 语音情感数据库 |
2.3.1 常见的语音情感数据库 |
2.3.2 实验研究的IEMOCAP和 EMODB数据库 |
2.4 语音信号预处理 |
2.4.1 预加重 |
2.4.2 分帧与加窗 |
2.5 语音情感特征参数的提取 |
2.5.1 Mel频率倒谱系数 |
2.5.2 3-D Log-Mel系数 |
2.6 语音情感识别所用的分类模型 |
2.7 评价指标 |
2.8 本章小结 |
第三章 基于时频特征融合的语音情感识别研究 |
3.1 引言 |
3.2 深度学习模型 |
3.2.1 卷积神经网络 |
3.2.2 双线性卷积神经网络 |
3.2.3 长短期记忆模型 |
3.2.4 注意力机制 |
3.3 基于时频特征融合的语音情感识别 |
3.3.1 频域特征 |
3.3.2 时域特征 |
3.3.3 时频特征融合 |
3.4 实验结果与分析 |
3.4.1 实验设置 |
3.4.2 实验结果分析 |
3.4.3 与不同方案比较 |
3.5 本章小结 |
第四章 基于自身注意力时空特征的语音情感识别研究 |
4.1 引言 |
4.2 BCNN模型提取空间特征 |
4.3 LSTM模型提取时间特征 |
4.4 基于多组注意力判别性时空特征提取 |
4.4.1 自身注意力机制 |
4.4.2 多组注意力机制 |
4.4.3 多组注意力提取判别性时空特征 |
4.5 实验结果与分析 |
4.5.1 head数目的影响 |
4.5.2 实验结果分析 |
4.5.3 与不同方案比较 |
4.6 本章小结 |
第五章 在线语音情感识别系统的设计 |
5.1 实验软硬件平台介绍 |
5.2 系统设计 |
5.3 界面功能介绍 |
5.4 系统测试 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 未来工作展望 |
致谢 |
参考文献 |
作者简介 |
(2)基于RNN-Transducer的端到端长时语音识别模型研究及系统实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 选题研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 语音识别技术 |
1.2.2 模型压缩技术 |
1.3 论文主要研究内容及创新点 |
1.4 论文结构与内容安排 |
第二章 语音识别与模型压缩相关理论 |
2.1 语音识别关键技术 |
2.1.1 传统语音识别技术 |
2.1.2 端到端语音识别模型 |
2.2 模型压缩关键技术 |
2.2.1 帧级别知识蒸馏 |
2.2.2 序列级别知识蒸馏 |
2.3 实验数据集 |
2.3.1 中文数据集 |
2.3.2 英文数据集 |
2.3.3 合成长时语音数据集 |
2.4 相关评价指标 |
2.4.1 语音识别性能评价指标 |
2.4.2 模型压缩评价指标 |
2.5 本章小结 |
第三章 融合语言模型的RNN-Transducer模型 |
3.1 融合语言模型的RNN-Transducer模型 |
3.1.1 多任务学习联合优化 |
3.1.2 融合语言模型的端到端网络框架 |
3.2 实验结果与分析 |
3.2.1 实验设置与模型结构 |
3.2.2 多任务学习联合优化实验结果与分析 |
3.2.3 融合语言模型实验结果与分析 |
3.2.4 对比实验结果与分析 |
3.3 本章小结 |
第四章 长时音频语音识别算法 |
4.1 长时音频语音识别算法 |
4.1.1 跨句上下文模块 |
4.1.2 模拟长时音频训练 |
4.2 实验结果与分析 |
4.2.1 实验设置与模型训练 |
4.2.2 跨句上下文模块实验结果与分析 |
4.2.3 模拟长时音频训练实验结果与分析 |
4.2.4 对比实验结果与分析 |
4.3 本章小结 |
第五章 基于互学习的序列级别知识蒸馏算法 |
5.1 基于互学习的序列级别知识蒸馏算法 |
5.1.1 相互学习算法 |
5.1.2 基于互学习的知识蒸馏框架 |
5.2 实验结果与分析 |
5.2.1 实验设置与模型结构 |
5.2.2 TIMIT数据集实验结果与分析 |
5.2.3 LibriSpeech数据集实验结果与分析 |
5.2.4 模型参数量及计算量对比 |
5.2.5 RNN-Transducer模型压缩 |
5.3 本章小结 |
第六章 语音识荆系统设计与实现 |
6.1 系统设计 |
6.2 系统实现 |
6.3 系统运行效果 |
6.4 本章小结 |
第七章 总结与展望 |
7.1 工作总结 |
7.2 展望 |
参考文献 |
致谢 |
攻读学位期间取得的研究成果 |
(3)基于BiLSTM的铁路调度语音识别系统研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 选题背景及意义 |
1.2 语音识别概述 |
1.3 语音识别发展概况 |
1.3.1 语音识别研究历史与现状 |
1.3.2 轨道交通领域的语音识别研究现状 |
1.3.3 研究现状的不足 |
1.4 铁路调度通话 |
1.5 铁路调度语音识别在铁路仿真实训领域的应用 |
1.5.1 现有车务仿真培训系统及存在问题 |
1.5.2 铁路车务虚拟仿真实验平台 |
1.6 研究内容与论文结构 |
2 铁路调度语音识别相关理论 |
2.1 铁路调度语音识别基本原理 |
2.2 铁路调度语音信号分析 |
2.3 铁路调度语音信号特征提取 |
2.3.1 语音信号预处理 |
2.3.2 语音信号特征提取 |
2.4 联合数据集 |
2.4.1 数据集的采样和量化 |
2.4.2 数据集的构建 |
2.5 声学模型 |
2.6 语言模型 |
2.7 词典 |
2.8 本章小结 |
3 铁路调度通话声学模型搭建 |
3.1 铁路调度通话GMM-HMM和DNN-HMM声学模型 |
3.1.1 HMM基本概念 |
3.1.2 GMM与DNN的比较 |
3.1.3 GMM-HMM和DNN-HMM声学模型结构 |
3.2 铁路调度通话BiLSTM-CTC声学模型 |
3.2.1 双向长短时记忆网络 |
3.2.2 链接时序分类 |
3.2.3 BiLSTM-CTC声学模型结构 |
3.3 实验测试与结果分析 |
3.3.1 GMM-HMM和DNN-HMM声学建模实验 |
3.3.2 BiLSTM-CTC声学建模实验 |
3.3.3 实验对比分析 |
3.4 本章小结 |
4 铁路调度语义理解方法设计与实现 |
4.1 “调度语音-操作”一致性检查 |
4.2 铁路调度语义特征 |
4.3 铁路调度语义理解方法与实现 |
4.3.1 关键词特征处理 |
4.3.2 位置特征处理 |
4.4 本章小结 |
结论 |
致谢 |
参考文献 |
攻读学位期间的研究成果 |
(4)基于深度学习的声音识别分类系统(论文提纲范文)
摘要 |
Abstract |
缩略词表 |
1 绪论 |
1.1 研究背景及意义 |
1.1.1 声音识别的概述 |
1.1.2 声音识别研究的背景 |
1.1.3 声音识别的应用和发展 |
1.1.4 声音识别面临的问题 |
1.2 国内外研究现状 |
1.3 论文主要研究内容及结构安排 |
2 声音识别分类的基本原理 |
2.1 声音识别基本原理 |
2.1.1 声音的定义 |
2.1.2 声音识别的理论 |
2.1.3 实现声音识别总体思路 |
2.2 声学特征分析 |
2.3 基于MFCC算法的声音识别分类研究 |
2.3.1 声谱图的介绍 |
2.3.2 倒谱分析(Cepstrum Analysis) |
2.3.3 Mel频率分析(Mel-Frequency Analysis) |
2.3.4 梅尔频谱系数(Mel-Frequency Cepstral Coefficients) |
2.4 声学模型 |
2.4.1 隐马尔可夫模型(Hidden Markov Model,HMM) |
2.4.2 高斯混合模型(Gaussion Mixture Model,GMM) |
2.5 语言模型 |
2.5.1 n-gram语言模型 |
2.5.2 RNN语言模型 |
2.6 本章小结 |
3 基于深度学习的声音分类算法研究 |
3.1 深度学习背景 |
3.2 深度学习的算法 |
3.2.1 线性回归 |
3.2.2 Softmax回归 |
3.2.3 多层感知器(MLP) |
3.3 卷积神经网络 |
3.3.1 卷积神经网络概念 |
3.3.2 二维卷积 |
3.3.3 CNN的多输入通道和多输出通道 |
3.3.4 池化层 |
3.3.5 批量归一化 |
3.3.6 残差网络 |
3.4 循环神经网络 |
3.5 本章小结 |
4 基于深度学习的声音识别分类系统的建立 |
4.1 元数据 |
4.2 音频信号分析 |
4.3 模型参数的选择 |
4.4 模型构架 |
4.5 交叉验证 |
4.6 模型改进方向 |
4.7 本章小结 |
5 基于深度学习的声音分类算法的优化与测试 |
5.1 系统结构设计 |
5.1.1 数据探索和可视化 |
5.1.2 数据预处理 |
5.1.3 MFCC特征提取 |
5.2 模型优化的总体思路 |
5.2.1 MLP模型和CNN模型的初步构造 |
5.2.2 评估标准的建立 |
5.3 MLP模型的实施 |
5.3.1 基准算法的验证(Benchmark model) |
5.3.2 MLP算法模型的优化 |
5.3.3 模型参数的优化 |
5.3.4 MLP模型的训练 |
5.3.5 MLP模型的测试 |
5.3.6 MLP模型的预测和验证 |
5.3.7 MLP模型的深度优化 |
5.4 CNN优化模型的实施 |
5.4.1 CNN优化模型的构造 |
5.4.2 CNN优化模型的编译 |
5.4.3 CNN优化模型的训练 |
5.4.4 CNN优化模型的测试 |
5.4.5 CNN优化模型预测和验证 |
5.4.6 错误分类可靠性分析 |
5.5 结果 |
5.5.1 模型的评估与验证 |
5.5.2 实验结果对比 |
5.5.3 系统的实际应用 |
5.6 小结 |
6 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
攻读学位期间发表的论文与研究成果清单 |
致谢 |
(5)语音识别中欠表示命名实体识别问题研究(论文提纲范文)
摘要 |
abstract |
主要符号对照表 |
第1章 绪论 |
1.1 语音识别的背景及意义 |
1.1.1 语音识别的发展 |
1.1.2 欠表示命名实体在语音识别中的研究 |
1.1.3 语音识别的研究意义 |
1.2 论文的主要研究内容 |
1.3 论文的结构安排 |
第2章 基于HMM自动语音识别系统 |
2.1 自动语音识别系统 |
2.1.1 自动语音识别基本原理 |
2.1.2 HMM语音识别系统架构 |
2.2 特征提取 |
2.3 说话人归一化处理 |
2.4 发音字典 |
2.5 基于DNN-HMM模型 |
2.5.1 隐马尔科夫模型 |
2.5.2 神经网络结构 |
2.5.3 TDNN-HMM结构图 |
2.6 语音识别系统评价标准 |
2.6.1 词错率 |
2.6.2 命名实体错误率 |
2.7 本章小结 |
第3章 统计语言模型和神经网络语言模型 |
3.1 N-gram语言模型 |
3.2 平滑处理技术 |
3.3 神经网络语言模型 |
3.4 语言模型评价标准 |
3.5 本章小节 |
第4章 提高欠表示命名实体在Lattice中发生率 |
4.1 字素发音字典 |
4.2 数据增强技术 |
4.2.1 速度扰动 |
4.2.2 音量扰动 |
4.2.3 频谱增强 |
4.3 样例句子的生成 |
4.3.1 数据定义 |
4.3.2 样例句子的生成规则 |
4.4 实验数据描述 |
4.5 实验结果及分析 |
4.5.1 实验配置 |
4.5.2 发音字典性能比较 |
4.5.3 数据增强的方法 |
4.5.4 样例句子的生成实验分析 |
4.5.5 实验结果 |
4.6 本章小节 |
第5章 Lattice重打分提升欠表示命名实体识别性能 |
5.1 Lattice重打分 |
5.2 丰富UR-NE重打分 |
5.3 UR-NE偏置重打分 |
5.3.1 关键词检索技术 |
5.3.2 偏置重打分技术 |
5.4 实验结果及分析 |
5.4.1 丰富UR-NE重打分技术分析 |
5.4.2 实验结果 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
个人简历、在学期间发表的学术论文与研究成果 |
(6)基于表征学习的语音合成声学建模方法研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 语音合成方法概述 |
1.1.1 语音和语言的区别与联系 |
1.1.2 语音信号的产生模型 |
1.1.3 语音合成技术历史及发展概述 |
1.1.4 语音合成评测指标 |
1.2 统计参数语音合成回顾 |
1.2.1 从传统声码器到神经网络声码器 |
1.2.2 基于HMM的语音合成声学模型 |
1.2.3 基于DNN的语音合成声学模型 |
1.2.4 基于序列到序列神经网络的语音合成声学模型 |
1.3 基于表征学习的语音合成方法回顾 |
1.3.1 基于声学隐变量的语音合成声学建模 |
1.3.2 融合文本语义表征的语音合成声学建模 |
1.4 本文主要内容及组织结构 |
1.4.1 现有方法存在的不足 |
1.4.2 主要内容 |
1.4.3 组织结构 |
第2章 基于变分自编码器的合成语音风格迁移与控制 |
2.1 概述 |
2.2 变分自编码器 |
2.2.1 VAE模型简介 |
2.2.2 变分下界 |
2.2.3 重参数技巧 |
2.2.4 KL损失坍塌问题 |
2.2.5 基于变分自编码器的语音合成相关研究 |
2.3 基于变分自编码器的语音合成声学建模 |
2.3.1 模型结构 |
2.3.2 损失函数 |
2.3.3 KL损失坍塌问题的解决方案 |
2.3.4 模型的训练与合成 |
2.4 实验设置 |
2.4.1 实验数据 |
2.4.2 基线模型 |
2.5 实验结果 |
2.5.1 隐变量特性分析 |
2.5.2 主观评价 |
2.6 本章小结 |
第3章 结合预训练语言模型与段落文本表征的语音合成声学建模 |
3.1 概述 |
3.2 预训练语言模型BERT简介 |
3.2.1 BERT模型结构 |
3.2.2 BERT预训练 |
3.2.3 BERT微调 |
3.2.4 语音合成与BERT |
3.3 所提方法 |
3.3.1 CS-BERT-Tacotron2模型结构 |
3.3.2 句窗上下文编码器 |
3.3.3 段落级上下文编码器 |
3.4 实验设置 |
3.4.1 Blizzard Challenge 2019数据集 |
3.4.2 训练参数设置 |
3.5 实验结果 |
3.5.1 客观评价 |
3.5.2 主观评价 |
3.5.3 不同类型上下文输入的分析 |
3.6 本章小节 |
第4章 基于细粒度声学隐变量的语音合成声学建模 |
4.1 概述 |
4.2 所提方法 |
4.2.1 基于WSV的语音合成模型结构 |
4.2.2 基于WSV的语音合成声学模型的训练与生成方法 |
4.2.3 音素级声学隐变量的对抗学习 |
4.3 实验设置 |
4.3.1 实验配置 |
4.3.2 实验对比模型 |
4.4 实验结果 |
4.4.1 主观评价 |
4.4.2 客观评价 |
4.4.3 案例分析 |
4.4.4 消融实验分析 |
4.4.5 分析讨论 |
4.4.6 声学隐变量对抗训练的实验结果 |
4.5 本章小节 |
第5章 总结 |
5.1 本文的主要贡献与创新点 |
5.2 后续的研究工作 |
参考文献 |
致谢 |
在读期间发表的学术论文与取得的研究成果 |
(7)汽车提示音交互设计与研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景 |
1.2 研究意义 |
1.3 汽车提示音相关研究进展 |
1.3.1 声音警示性对驾驶安全影响的相关研究 |
1.3.2 声音对驾驶行为影响的相关研究 |
1.3.3 声音对驾驶反应时长影响的相关研究 |
1.3.4 声音情绪对驾驶安全影响的相关研究 |
1.3.5 研究梳理 |
1.4 论文研究内容与结构 |
1.4.1 研究目标与要解决的问题 |
1.4.2 论文的组织与框架 |
第二章 声音设计的理论与应用研究 |
2.1 声音的基本知识 |
2.1.1 声音物理维度 |
2.1.2 听觉特性 |
2.2 声音景观学 |
2.2.1 声音景观概念 |
2.2.2 声音景观学发展脉络 |
2.2.3 声音景观学研究现状 |
2.3 声音设计应用研究 |
2.3.1 听觉场景分析 |
2.3.2 声音交互设计研究 |
2.3.3 汽车声品质评价 |
2.4 本章小节 |
第三章 汽车提示音设计流程和方法研究 |
3.1 组织符号学 |
3.1.1 组织符号学框架 |
3.1.2 汽车声音系统的组织符号学框架 |
3.1.3 组织洋葱模型 |
3.3 汽车提示音设计流程分析 |
3.3.1 传统产品设计流程分析 |
3.3.2 交互设计流程分析 |
3.3.3 提示音设计流程研究 |
3.4 基于洋葱模型的汽车提示音设计流程 |
3.4.1 目标与计划 |
3.4.2 需求定义 |
3.4.3 原型设计 |
3.4.4 测试评价 |
3.4.5 汽车提示音设计流程洋葱模型 |
3.5 需求提取的组织符号学方法 |
3.5.1 问题清晰法 |
3.5.2 语义分析法 |
3.5.3 规范分析法 |
3.6 汽车提示音的用户需求分析及需求提取案例 |
3.6.1 汽车提示音的用户需求分析 |
3.6.2 汽车提示音的用户需求提取案例 |
3.7 本章小结 |
第四章 汽车提示音警示性研究 |
4.1 汽车提示音分析 |
4.2 汽车提示音警示性分析 |
4.3 提示音的警示性测评实验 |
4.3.1 实验被试人员 |
4.3.2 实验环境及设备 |
4.3.3 实验材料 |
4.3.4 实验方案 |
4.3.5 实验具体步骤 |
4.3.6 实验流程 |
4.3.7 实验结果 |
4.4 警示性评测实验讨论 |
4.5 警示性评测实验结论 |
第五章 汽车提示音对中位车道驾驶反应的影响研究 |
5.1 实验设计背景 |
5.2 提示音警示性对中位车道的视觉反应实验 |
5.2.1 实验被试人员 |
5.2.2 实验设备 |
5.2.3 实验声音刺激材料和视觉刺激材料 |
5.2.4 中位车道实验方案 |
5.2.5 实验步骤 |
5.2.6 实验流程 |
5.2.7 实验结果 |
5.3 中位车道驾驶反应实验讨论 |
5.4 中位车道驾驶反应实验结论 |
第六章 汽车提示音对左右位车道驾驶反应的影响研究 |
6.1 汽车提示音对左右位车道驾驶反应的影响实验 |
6.1.1 实验被试 |
6.1.2 实验设备 |
6.1.3 实验材料 |
6.1.4 左右位车道驾驶反应实验方案 |
6.1.5 左右位车道驾驶反应实验具体步骤 |
6.1.6 实验流程 |
6.1.7 不同方位车道驾驶反应实验结果 |
6.2 左中右位车道驾驶反应实验综合讨论 |
6.3 实验结论 |
第七章 汽车提示音情绪维度评测研究 |
7.1 实验设计背景 |
7.2 汽车提示音情绪维度评测实验 |
7.2.1 实验被试人员 |
7.2.2 相关实验设备 |
7.2.3 实验提示音材料 |
7.2.4 实验方案 |
7.2.5 实验具体步骤 |
7.2.6 情绪维度评测实验流程 |
7.2.7 情绪维度评测实验结果 |
7.3 情绪维度评测实验讨论 |
7.4 实验结论 |
第八章 不同情绪下汽车提示音对驾驶反应的影响研究 |
8.1 实验设计背景 |
8.2 不同情绪下汽车提示音对驾驶反应的影响实验 |
8.2.1 实验测试人员 |
8.2.2 实验环境及设备 |
8.2.3 实验情绪诱发视频材料和听觉视觉刺激材料 |
8.2.4 实验方案 |
8.2.5 实验具体步骤 |
8.2.6 实验流程 |
8.2.7 实验结果 |
8.3 实验讨论 |
8.4 实验总结 |
总结和展望 |
参考文献 |
攻读学位期间取得与学位论文相关的成果 |
致谢 |
(8)基于Kaldi的说话人识别技术研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 说话人识别技术面临的问题 |
1.4 研究内容与结构组织 |
1.4.1 研究内容 |
1.4.2 结构组织 |
第2章 说话人识别原理和技术 |
2.1 引言 |
2.2 说话人识别分类 |
2.3 说话人识别流程 |
2.4 前端声学特征的提取与处理 |
2.5 后端说话人识别模型 |
2.5.1 高斯混合模型 |
2.5.2 i-vector模型 |
2.5.3 d-vector模型 |
2.5.4 x-vector模型 |
2.5.5 端到端识别模型 |
2.6 评测算法分析 |
2.6.1 线性判别分析 |
2.6.2 概率性判别分析 |
2.7 评价标准 |
2.7.1 等错误率 |
2.7.2 检测代价函数 |
2.7.3 实时因子 |
2.8 Kaldi平台介绍 |
2.9 本章小结 |
第3章 基于多特征i-vector的说话人识别算法 |
3.1 引言 |
3.2 识别流程设计 |
3.2.1 算法总体架构 |
3.2.2 数据预处理 |
3.2.3 特征提取 |
3.3 实验及结果分析 |
3.3.1 实验环境 |
3.3.2 数据集 |
3.3.3 参数选择 |
3.3.4 实验结果分析 |
3.4 本章小结 |
第4章 基于多任务学习和注意力机制的x-vector说话人识别算法 |
4.1 引言 |
4.2 识别流程设计 |
4.2.1 算法总体架构 |
4.2.2 数据预处理 |
4.2.3 特征构造 |
4.3 实验及结果分析 |
4.3.1 数据集 |
4.3.2 参数选择 |
4.3.3 实验结果分析 |
4.4 本章小结 |
第5章 基于语谱图和多头注意力机制的说话人识别算法 |
5.1 引言 |
5.2 识别流程设计 |
5.2.1 算法总体架构 |
5.2.2 数据预处理 |
5.2.3 特征构造 |
5.3 实验及结果分析 |
5.3.1 数据集 |
5.3.2 参数选择 |
5.3.3 实验结果分析 |
5.4 本章小结 |
总结与展望 |
参考文献 |
致谢 |
附录 A 攻读学位期间发表的学术论文和获奖情况 |
附录 B 攻读学位期间参与的科研项目 |
(9)融合形态结构与语法关系的藏语语言模型(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景和意义 |
1.2 研究的现状 |
1.3 研究的内容和创新点 |
1.4 章节关系和安排 |
第2章 语言模型概述 |
2.1 语言模型的简介 |
2.1.1 N-gram语言模型 |
2.1.2 语言模型自适应方法 |
2.1.3 循环神经网络语言模型 |
2.2 藏语语言模型以及相关研究 |
2.2.1 资源丰富的语言 |
2.2.2 藏语以及藏语语言模型 |
2.2.3 藏语语言模型的研究与存在的问题 |
2.3 评价标准 |
2.3.1 困惑度 |
2.3.2 语音识别的词错误率 |
2.4 本章小结 |
第3章 藏语语料的构建和测试 |
3.1 拉萨方言语音数据库构建和测试 |
3.1.1 拉萨方言语音数据库构建 |
3.1.2 藏语音频语料库在不同音素集声学模型上的测试 |
3.2 藏语文本数据库构建和测试 |
3.2.1 藏语文本数据库构建 |
3.2.2 基于形态结构的组合基字藏语语言模型的测试 |
3.3 本章小结 |
第4章 基于静态形态结构的藏语语言模型 |
4.1 藏语虚词及相关研究 |
4.1.1 藏语虚词 |
4.1.2 现有研究中问题及贡献 |
4.2 藏语后缀对虚词的影响 |
4.2.1 藏语字符形态结构 |
4.2.2 后缀的作用以及语义影响 |
4.3 考虑后缀的藏语建模 |
4.3.1 标准的RNNLM |
4.3.2 藏文后缀特征融合 |
4.4 实验结果与分析 |
4.4.1 数据 |
4.4.2 结果 |
4.4.3 分析 |
4.5 本章小结 |
第5章 基于动态形态结构的藏语语言模型 |
5.1 引言 |
5.2 相关研究 |
5.3 藏语中形态动词的作用 |
5.3.1 藏语形态动词 |
5.3.2 基于类的藏语语言模型 |
5.4 基于形态动词的藏语语言模型 |
5.4.1 藏语语言模型中形态动词的重要性 |
5.4.2 离线学习通过字频率重新调整 |
5.4.3 在线调整权重 |
5.5 实验结果与分析 |
5.5.1 实验准备 |
5.5.2 结果 |
5.5.3 分析 |
5.6 本章小结 |
第6章 有效融合静态和动态形态结构的藏语语言模型 |
6.1 引言 |
6.2 语法关系和形态动词 |
6.2.1 藏语语法关系 |
6.2.2 形态动词对句子的影响 |
6.3 考虑语法和形态动词的藏语语言模型 |
6.3.1 RNNLM |
6.3.2 语法关系影响藏语语言模型 |
6.3.3 形态动词相关的藏语语言模型 |
6.3.4 静态和动态结构相结合的语言模型 |
6.4 实验结果与分析 |
6.4.1 困惑度评价 |
6.4.2 ASR evaluation |
6.4.3 分析 |
6.5 本章小结 |
第7章 总结与展望 |
7.1 研究工作的总结 |
7.2 未来展望 |
参考文献 |
附录 |
发表论文和参加科研情况说明 |
致谢 |
(10)融入生理学和行为学特征的言语情感识别研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题研究背景 |
1.2 课题研究意义 |
1.3 国内外研究现状 |
1.3.1 国内外研究历史回顾 |
1.3.2 口语化文本情感研究现状 |
1.3.3 口语语音情感研究现状 |
1.4 言语情感识别面临的问题与挑战 |
1.5 课题研究内容 |
1.6 本文章节结构 |
第2章 言语情感识别概述 |
2.1 情感描述方法 |
2.2 常用情感数据库 |
2.2.1 离散情感数据库 |
2.2.2 维度情感数据库 |
2.3 言语情感识别特征 |
2.3.1 口语化文本特征 |
2.3.2 言语行为特征 |
2.3.3 声学特征 |
2.3.4 听觉生理特征 |
2.4 言语情感识别模型 |
2.4.1 支持向量机SVM |
2.4.2 卷积神经网络CNN |
2.4.3 循环神经网络RNN |
2.5 评价指标 |
2.5.1 分类模型评价 |
2.5.2 回归模型评价 |
2.6 本章小结 |
第3章 结合言语行为特征的口语化文本情感识别 |
3.1 引言 |
3.2 数据处理与用户行为分析 |
3.2.1 数据处理 |
3.2.2 用户行为分析 |
3.3 抑郁情感词典构建 |
3.3.1 言语特征分析 |
3.3.2 情感词典本体 |
3.3.3 情感词典的建立过程 |
3.4 基于多核SVM的识别模型 |
3.5 实验结果与分析 |
3.6 本章小结 |
第4章 基于听觉生理特征的语音情感识别 |
4.1 引言 |
4.2 基于耳蜗滤波的情感识别 |
4.2.1 情感识别框架 |
4.2.2 段级特征提取 |
4.2.3 语句级特征提取 |
4.2.4 实验结果与分析 |
4.3 基于听觉调制的情感识别 |
4.3.1 听觉调制感知模型 |
4.3.2 三维卷积循环神经网络 |
4.3.3 实验设置 |
4.3.4 实验结果与分析 |
4.4 基于听觉生理情感识别方法比较 |
4.5 本章小结 |
第5章 基于听觉注意机制的语音情感识别 |
5.1 引言 |
5.2 联合谱时特征提取 |
5.2.1 听觉前端信号处理 |
5.2.2 谱时表示 |
5.2.3 3D卷积 |
5.3 基于注意力模型的滑动循环网络 |
5.4 实验结果与分析 |
5.5 注意力行为听辨实验 |
5.6 讨论 |
5.7 本章小结 |
第6章 基于调制耳蜗图特征的维度语音情感识别 |
6.1 引言 |
6.2 基线特征 |
6.2.1 声学基线特征 |
6.2.2 听觉基线特征 |
6.3 多分辨率调制耳蜗图特征 |
6.3.1 MMCG特征 |
6.3.2 MMCG分析 |
6.4 时间序列建模 |
6.4.1 Plain LSTM网络架构 |
6.4.2 Parallel LSTM网络结构 |
6.4.3 损失函数与多任务学习 |
6.5 实验结果与分析 |
6.5.1 实验设置 |
6.5.2 基线特征实验结果 |
6.5.3 MRCG和 MMCG的实验结果与分析 |
6.5.4 SEWA数据库上实验结果与分析 |
6.6 讨论 |
6.7 本章小结 |
第7章 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
发表论文和参加科研情况说明 |
致谢 |
四、综合非语境因素的语音数据分类与声学建模研究(论文参考文献)
- [1]基于深度学习的语音情感识别研究[D]. 徐华南. 南京信息工程大学, 2021(01)
- [2]基于RNN-Transducer的端到端长时语音识别模型研究及系统实现[D]. 李泽瑞. 北京邮电大学, 2021(01)
- [3]基于BiLSTM的铁路调度语音识别系统研究[D]. 叶良攀. 兰州交通大学, 2021
- [4]基于深度学习的声音识别分类系统[D]. 肖科. 重庆三峡学院, 2021(01)
- [5]语音识别中欠表示命名实体识别问题研究[D]. 茆廷志. 新疆大学, 2021
- [6]基于表征学习的语音合成声学建模方法研究[D]. 张雅洁. 中国科学技术大学, 2021(09)
- [7]汽车提示音交互设计与研究[D]. 钟韬. 广东工业大学, 2021(08)
- [8]基于Kaldi的说话人识别技术研究[D]. 岳鲁鹏. 兰州理工大学, 2021(01)
- [9]融合形态结构与语法关系的藏语语言模型[D]. 更太加. 天津大学, 2020(01)
- [10]融入生理学和行为学特征的言语情感识别研究[D]. 彭智朝. 天津大学, 2020(01)