音调索引是指能够基于一段唱出、哼出的或其他其他方法导出的歌曲来检索音乐。音乐库通常要求找到一段匹配部分唱出或哼出调子的一支曲子。音调索引一般基于语音识别技术和索引技术实现。在音调索引基础上,用户能够唱出一个小节,然后就能检索和展示出和这个调子和音符匹配的歌曲。
简介随着多媒体技术的不断发展,音调索引作为基于内容的音乐检索的一个分支为众多用户提供了一种最新的检索方式,是指用户能够依据对哼唱音符起始点识别,在较大规模的音乐数据库中搜索出目标歌曲。对特征音调检索的哼唱音符起始点智能识别是保障音调检索质量的关键前提,由此也成为了计算机音乐领域亟待解决的主要任务1。
面向特征音调检索的音符起始点智能识别方法对各个哼唱音符起始点进行多层次区分性特征表达,完成面向特征音调检索的音符起始点智能识别是解决完成上述任务的有效手段,不少方法被提出来,例如一种基于内容和旋律的面向特征音调检索的音符起始点智能识别方法。该方法先获取面向特征音调检索的哼唱音符起始点各种类型特征,将音符起始点智能识别分为哼唱音符起始点训练、特征识别、失真测度三个不同的阶段,在此基础上完成对面向音频检索的音符起始点智能识别。该方法识别稳定性较强,但是存在成本较高的问题。另一种基于引入帧间相关信息的面向特征音调检索的哼唱音符起始点智能识别方法。该方法先利用相继的复数帧组成哼唱音符起始点特征参数向量,计算出复数帧段输入HMM的输出概率分布函数,完成面向特征音调检索的哼唱音符起始点智能识别。该方法识别效率较高,但是采用当前方法进行语音识别时,无法进行旋律基音提取,存在无法识别出哼唱音符起始点问题。
音调声音频率的高低叫做音调(Pitch),是声音的三个主要的主观属性,即音量(响度)、音调、音色(也称音品) 之一。表示人的听觉分辨一个声音的调子高低的程度。音调主要由声音的频率决定,同时也与声音强度有关。对一定强度的纯音,音调随频率的升降而升降;对一定频率的纯音、低频纯音的音调随声强增加而下降,高频纯音的音调却随强度增加而上升。
音调的高低还与发声体的结构有关,因为发声体的结构影响了声音的频率。大体上,2000 赫兹以下的低频纯音的音调随响度的增加而下降,3000 赫兹以上高频纯音的音调随响度的增加而上升。对音调可以进行定量的判断。音调的单位称为美(mel):取频率1000赫兹、声压级为40 分贝的纯音的音调作标准,称为1000 美,另一些纯音,听起来调子高一倍的称为2000 美,调子低一倍的称为500 美,依此类推,可建立起整个可听频率内的音调标度。
语音识别语音识别是将人类的声音信号转化为文字或者指令的过程。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支。语音识别的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域,是一个多学科综合性研究领域2。
根据在不同限制条件下的研究任务,产生了不同的研究领域。这些领域包括:根据对说话人说话方式的要求,可分为孤立字(词)、连接词和连续语音识别系统;根据对说话人的依赖程度,可分为特定人和非特定人语音识别系统;根据词汇量的大小,可分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成:
信号处理及特征提取模块。该模块的主要任务是从输入信号中提取特征,供声学模型处理。同时,它一般也包括了一些信号处理技术,以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。
声学模型。典型系统多采用基于一阶隐马尔科夫模型进行建模。
发音词典。发音词典包含系统所能处理的词汇集及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。
语言模型。语言模型对系统所针对的语言进行建模。理论上,包括正则语言,上下文无关文法在内的各种语言模型都可以作为语言模型,但各种系统普遍采用的还是基于统计的N元文法及其变体。
解码器。解码器是语音识别系统的核心之一,其任务是对输入的信号,根据声学、语言模型及词典,寻找能够以最大概率输出该信号的词串。
语音识别技术有着非常广泛的应用领域和市场前景。在语音输入控制系统中,它使得人们可以甩掉键盘,通过识别语音中的要求、请求、命令或询问来作出正确的响应,这样既可以克服人工键盘输入速度慢,极易出差错的缺点,又有利于缩短系统的反应时间,使人机交流变得简便易行,比如用于声控语音拨号系统、声控智能玩具、智能家电等领域。在智能对话查询系统中,人们通过语音命令,可以方便地从远端的数据库系统中查询与提取有关信息,享受自然、友好的数据库检索服务,例如信息网络查询、医疗服务、银行服务等。
计算机音乐计算机音乐是指利用计算机进行音乐信息处理的技术。计算机具有强大的信息处理能力, 而音乐虽然最终表现为声波的振动,但声波只是音乐信息的载体,音乐信息本身则完全可以用计算机来处理。音乐信息具有不同的层次,粗略地可分为信号层、内部表示层和人机界面层。信号层上的音乐信息是符合一定标准的数字指令,可以被配有 MIDI接口的任何电子乐器接受并实时转换成具有听觉效果的声音;内部表示层上的音乐信息按某种计算机可读的格式储存并接受处理;人机界面层上的音乐信息则表现为人类可读的乐谱。
本词条内容贡献者为:
王慧维 - 副研究员 - 西南大学