WO2009103226A1 - 一种语音识别频道选择系统、方法及频道转换装置 - Google Patents

一种语音识别频道选择系统、方法及频道转换装置 Download PDF

Info

Publication number
WO2009103226A1
WO2009103226A1 PCT/CN2009/070380 CN2009070380W WO2009103226A1 WO 2009103226 A1 WO2009103226 A1 WO 2009103226A1 CN 2009070380 W CN2009070380 W CN 2009070380W WO 2009103226 A1 WO2009103226 A1 WO 2009103226A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
channel
recognition
user
signal
Prior art date
Application number
PCT/CN2009/070380
Other languages
English (en)
French (fr)
Inventor
吴治国
张勤伟
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Publication of WO2009103226A1 publication Critical patent/WO2009103226A1/zh

Links

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08CTRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
    • G08C23/00Non-electrical signal transmission systems, e.g. optical systems
    • G08C23/02Non-electrical signal transmission systems, e.g. optical systems using infrasonic, sonic or ultrasonic waves
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • H04N21/42222Additional components integrated in the remote control device, e.g. timer, speaker, sensors for detecting position, direction or movement of the remote control, microphone or battery charging device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • GPHYSICS
    • G08SIGNALLING
    • G08CTRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
    • G08C2201/00Transmission systems of control signals via wireless link
    • G08C2201/30User interface
    • G08C2201/31Voice input
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)

Description

一种语音识别频道选择系统、 方法及频道转换装置 本申请要求于 2008 年 2 月 23 日提交中国专利局, 申请号为 200810065417.0, 发明名称为 "一种语音识别频道选择系统、 方法及频道转换 装置" 的中国专利申请的优先权, 其全部内容通过引用结合在本申请中。 技术领域 本发明实施例涉及通信技术领域, 尤其涉及一种语音识别频道选择系 统、 方法及频道转换装置。 背景技术 近年来随着信息技术和广播电视技术的发展, 有线数字电视和 IPTV ( Internet Protocol Television, 网络交互电视) 等业务发展迅速。 在机顶盒 ( Set-top Box, STB ) , 如 IP机顶盒和数字机顶盒等, 逐步市场化的趋势下, 机顶盒的完备功能逐渐取代了传统的 VCD机和 DVD机。 另一方面, 随着 自动语音识别技术的发展, 使得机顶盒通过语音来选择频道成为可能, 该技 术也成为业界研发的重点。
传统的语音识别选择频道有两种方式:一种是通过在遥控器上增加语音 识别处理器的方式,在识别时通过用户输入下载语音模板与用户输入的语音 数据匹配确定的语音数据来转换频道;一种是通过在网络中设置专门的语音 识别服务器。
在实现本发明的过程中, 发明人发现现有技术至少存在以下问题: 通过在遥控器上增加语音识别处理器的方式,由于在识别时每次更新语 音模板都需要用户手动操作下载到遥控器上, 操作起来十分复杂、 不便, 同 时, 也增加了遥控器的成本; 通过在网络中设置专门的语音识别服务器的方 式, 由于识别语音时需要将语音信号上传到网络, 响应时间较长, 并且通过 网络上行和下行传输两次数据包丟失的可能性也会增大,另外专门的语音识 别服务器也增加了构建网络的成本。 发明内容 本发明实施例提供一种操作方便、 节省成本的语音识别频道选择方法、 系统和装置。
本发明实施例提供一种语音识别频道选择方法, 包括如下步骤: 控制器接收用户的语音输入信号;
频道转换装置根据输入的语音信号及识别词表识别出待匹配名称; 根据所述待匹配名称与匹配表进行匹配得出需要切换的频道;
切换到所述需要切换的频道。
本发明实施例提供一种语音识别频道选择系统, 包括: 控制器, 用于与 频道转换处理装置进行通信;
所述控制器用于接收用户的语音输入信号;
所述频道转换处理装置用于根据所述输入的语音输入信号及识别词表 识别出待匹配名称,根据所述待匹配名称与匹配表进行匹配得出需要切换的 频道, 并切换到所述需要切换的频道。
本发明实施例提供一种频道转换装置, 包括:
接收模块, 用于接收控制器发送的用户的语音输入信号;
识别处理模块,用于根据所述输入的语音输入信号及识别词表识别出待 匹配名称;
查询匹配模块,用于根据所述待匹配名称与匹配表进行匹配得出需要切 换的频道;
频道转换控制模块, 用于切换到所述需要切换的频道。
与现有技术相比, 本发明实施例通过控制器接收用户的语音输入信号, 通过频道转换装置根据所述输入的语音输入信号识别出待匹配名称,根据所 述待匹配名称与匹配表进行匹配得出需要切换的频道,并切换到所述需要切 换的频道, 避免了在控制器上进行语音识别操作复杂和成本高的问题, 使得 用户在操作起来十分方便, 并且充分利用频道转换装置的性能, 节省了控制 的成本。 通过频道转换装置识别出待匹配名称, 不需要在网络中设置专门的 语音识别服务器,防止响应时间过长,避免了由于网络传输数据丟失的问题, 并且节约了构建网络的成本。 附图说明 图 1为本发明实施例语音识别频道转换系统结构示意图。
图 2为本发明实施例控制器结构示意图。
图 3为本发明实施例频道转换处理装置结构示意图。
图 4为本发明实施例语音识别频道选择方法流程图。
图 5为本发明实施例频道和节目表更新方法流程图。
图 6为本发明实施例识别词表和匹配表更新方法流程图。 具体实施方式 请参看图 1 ,本发明实施例语音识别频道转换系统 100包括:控制器 102、 频道转换装置 104和电子节目指南 ( Electronic Program Guide, EPG )服务 器 106。 控制器 102 , 用于接收用户的语音输入信号。 频道转换装置 104, 用于根据输入的语音输入信号及识别词表识别出待匹配名称,根据待匹配名 称与匹配表进行匹配得出需要切换的频道, 并切换到需要切换的频道。 EPG 月良务器 106, 用于提供待更新的最新的匹配表和 /或最新的更新的识别词表, 频道转换装置 104 可以根据最新的匹配表更新匹配表, 和 /或根据最新的识 别词表更新识别词表。 控制器 102可以是系统外接控制器、 HS ( Handset, 手机) 或遥控器, 本实施例中, 以遥控器为例。 频道转换装置 104 可以是 PC( Personal Computer,个人电脑;)、 STB( Set-top Box,机顶盒)、 NB( Notebook Computer, 笔记本电脑) 、 HS ( Handset, 手机) 、 GP ( Game Player , 游戏 机) 或 ODD ( Optical Disc Drive, 光碟机) 等, 本实施例中, 以 STB为例 进行说明。
请结合参看图 2, 本实施例中, 控制器 102包括: 语音接收模块 202、 语音信号处理模块 204、输入模块 210、控制器接收模块 212和发送模块 216。
语音信号接收模块 202, 用于接收用户的语音输入信号, 本实施例中, 语音输入模块可以是一个遥控器上的麦克风。
语音信号处理模块 204, 用于处理用户的语音输入信号。 语音信号处理 模块 204还包括:语音转换单元 206和语音编码单元 208。语音转换单元 206 , 用于将语音信号转换成为数字信号, 本实施例中, 语音转换单元 206可以是 A/D转换电路。 语音编码单元 208 , 用于编码语音转换单元 206转换后的数 字信号, 该编码可以是压缩编码, 包括有损压缩编码或无损压缩编码。 用户 的语音采集和处理可以有不同的方案, 本实施例中, 以 16KHz采样率进行 采样, 按 16或 8bit的精度进行量化。 语音信号经过采样和处理后的编码格 式为 PCM ( Pulse Code Modulation, 脉沖编码调制 )格式。
输入模块 210, 用于接收用户输入的指令, 如, 语音激活指令, 用于控 制频道转换装置激活语音,本实施例中,输入模块 210可以是键盘或触摸屏。
控制器接收模块 212, 用于接收频道转换装置 104发送的信号, 该信号 包括返回的指令信号和通知消息等。
发送模块 216, 用于发送用户输入的语音编码后的信号和操作信号, 本 实施例中, 发送模块 216 可以是红外、 蓝牙等无线通讯装置, 如可以通过 Bluetooth2.0 (蓝牙 2.0技术),紫蜂 Zigbee或高速红外协议等能够保证 PCM ( Pulse Code Modulation, 脉沖编码调制)语音数据能够实时传输的高速无 线通信技术。 发送模块 216还包括: 操作信号发送单元 218 , 用于发送用户 输入的操作信号, 例如, 键盘输入和触摸屏输入信号。 语音信号发送单元 214 , 用于发送用户输入的语音信号, 该信号为经过 A/D转换的数字信号, 也可以是压缩编码后的信号。
请结合参看图 3 , 本实施例中, 频道转换装置 104 ( STB ) 包括: 接收 模块 302、 静音控制模块 308、 语言选择模块 310、 识别处理模块 312、 发送 模块 322、 拒绝识别提示模块 324、 存储模块 326、 查询匹配模块 336、 频道 转换控制模块 338和更新模块 340。
接收模块 302, 用于接收控制器发送的用户的语音输入信号和用户的操 作控制指令, 本实施例中, 用户输入信号包括用户的语音输入信号和用户的 操作控制指令, 若全部为语音输入, 也可以不包含用户控制指令信号。 用户 的语音输入信号为经过模拟 /数字 A/D转换后的数字语音信号。接收模块 302 还包括操作信号接收单元 304和语音信号接收单元 306。 操作信号接收单元 304用于接收用户的操作控制指令, 例如激活语音控制指令。 语音信号接收 单元 306用于接收用户的语音输入信号。
静音控制模块 308 , 用于根据用户输入的激活语音的指令, 将频道转换 装置置为静音状态, 及在语音采集后将静音状态切换为非静音状态。 语言选择模块 310 , 用于根据用户输入的语言选择信号, 选择一个与所 述语言选择信号对应的声学模型。
识别处理模块 312, 用于根据输入的语音信号及识别词表识别出待匹配 名称。 识别处理模块 312包括: 语音激活检测单元 314、 语音特征提取单元 316、 语音识别单元 318和语音判断单元 320。
语音激活检测单元 314, 用于检测实际语音段的起点和终点。 本实施例 中,语音激活检测单元 314采用稳健的端点检测算法检测出实际语音的起点 和终点, 以区分出输入的语音信号中实际语音段和非语音段。
语音特征提取单元 316, 用于将语音信号进行语音特征提取。 本实施例 中,语音特征提取单元 316将话音激活检测单元 314传送过来的语音信号进 行处理,提取出语音特征数据。语音特征类型可以采用 MFCC( Mel-Frequency Ceptral Coefficients , 美尔频率倒语系数) 特征, PLP ( Perceptually Linear Prediction, 感知线性预测)特征或 LPCC ( Linear Predictive Cepstral Coding , 线性预测倒谱系数)特征, 为了提高抗噪效果, 可以在语音特征提取过程中 运用倒谱均值减的处理。 考虑到 MFCC 特征利用了人耳的声学感知特性而 对噪音具有较好的稳健性, 优选 MFCC 特征作为语音特征。 语音信号作为 短时平稳信号, 语音帧之间具有帧间相关性, 为此可以对 MFCC 特征提取 一阶差分或一阶及二阶差分来提高语音识别的准确率。
语音识别单元 318 , 用于根据声学模型和识别词表计算出输入的语音特 征数据相对于词条的声学距离。 本实施例中, 语音识别单元 318根据声学模 型数据和孤立词表数据得到每个孤立词的最短累积声学距离,然后取最短声 学距离最小的孤立词作为该语音首选识别结果。语音识别采用的声学模型包 括连续的 HMM ( Hidden Markov Model 隐含马尔可夫模型) 模型和离散 HMM模型。 此外, 语音识别单元 318还可以给出多个候选的识别结果让用 户选择, 排序的依据为最短累积声学距离。
语音判断单元 320 , 用于判断语音特征数据相对于词条的声学距离是否 小于阈值, 若语音特征数据相对于词条的声学距离小于阈值, 根据识别词表 和匹配表计算出当前语音对应的频道名称。
发送模块 322, 用于向控制器 102发送识别处理信号, 在识别处理完毕 后, 控制器 102可以停止采集用户的语音输入信号。 本实施例中, 发送模块 322也可以采用蓝牙、 红外等无线方式传送信号。
拒绝识别提示模块 324, 用于在识别结果为非语音时, 提示用户重新输 入语音。 该提示可以是消息提示、 视频显示提示或声音提示, 本实施例中, 采用在屏幕上显示提示文字的方式提示用户。
存储模块 326, 用于存储频道和节目表、 识别词表、 声学模型和匹配表 等数据。 本实施例中, 存储模块 326包括: 频道和节目表存储单元 328、 识 别词表存储单元 330、 声学模型存储单元 332、 匹配表存储单元 334。
频道和节目表存储单元 328 ,用于存储频道和节目对应表,本实施例中, 表的每一个记录项为直播电视的频道名称以及当前时刻该频道正在播放的 节目名称。 该频道和节目对应表可以根据 EPG服务器 106更新, 更新周期 可以设置为一天或一个星期, 具体的时间间隔可以参考 IPTV或有线数字电 视系统的 EPG服务器更新间隔。
识别词表存储单元 330, 用于存储识别词表, 本实施例中, 识别词表还 包括一张用于孤立词语音识别的孤立词表。
声学模型存储单元 332, 用于存储待匹配的声学模型。 本实施例中, 采 用包含针对 HMM模型的双语种混合建模的声学模型的模型参数。双语种混 合声学模型的参数与说话人无关, 即为针对非特定人的模型。 模型参数需要 事先根据标注好的预料数据经过训练器进行训练,训练得到的参数就可以固 化到声学模型参数存储部用于孤立词的语音识别,声学模型参数包括隐含马 尔可夫模型的状态参数和状态输出观测特征矢量的概率分布函数。
匹配表存储单元 334, 用于存储匹配表, 匹配表存储了用户需要切换的 频道与用户的语音输入的频道对应关系。
查询匹配模块 336, 用于根据待匹配的名称与匹配表进行匹配得出需要 切换的频道。 本实施例中, 以识别出的孤立词作为查询关键字, 首先在频道 节目表中查询所包含表的频道名列中查询符合关键词的记录项。
频道转换控制模块 338 , 用于切换到需要切换的频道。 若存在匹配的记 录项, 查询结果为单个记录项时, 控制机顶盒直播电视切换到记录项中频道 名属性标识的频道; 查询结果为多个记录时, 控制电视屏幕显示多个记录项 的频道名的属性值,并提示用户通过遥控器选择其中一个频道观看直播电视 节目, 待用户完成选择后, 控制电视切换到用户选择的频道。 更新模块 340 , 用于根据 EPG服务器跟新匹配表和 /或识别词表。 更新 模块 340还包括:更新定时单元 342和更新控制单元 344。更新定时单元 342 , 用于记录更新的时间,并在更新时间到达或超时时,触发更新,本实施例中 , 频道和节目表更新时间可以设置为每天更新,识别词表和匹配表更新时间可 以设置为每分钟更新。 更新控制单元 344 , 用于在满足更新时间时, 控制更 新匹配表和 /或识别词表。
本发明实施例通过控制器接收用户的语音输入信号,通过频道转换装置 根据所述输入的语音输入信号识别出待匹配名称,根据所述待匹配名称与匹 配表进行匹配得出需要切换的频道, 并切换到所述需要切换的频道, 避免了 在控制器上进行语音识别操作复杂和成本高的问题,使得用户在操作起来十 分方便, 并且充分利用频道转换装置的性能, 节省了控制的成本。 通过频道 转换装置识别出待匹配名称, 不需要在网络中设置专门的语音识别服务器, 防止响应时间过长, 避免了由于网络传输数据丟失的问题, 并且节约了构建 网络的成本。 本发明实施例通过截取实际语音段, 语音识别的准确率得到提 高。 通过静音控制单元控制语音输入时, 将机顶盒静音, 防止电视播放的声 音对用户语音的干扰。 通过更新模块从 EPG服务器自动更新频道和节目表, 识别词表和匹配表避免了用户手工造作带来操作不便的弊端。
请结合参看图 4,本发明实施例语音识别频道选择方法, 包括如下步骤: 步骤 402, 控制器接收用户输入的激活语音指令。 本实施例中, 语音激 活指令可以是用户输入的按键信号,用户可以通过键盘或触摸屏等输入设备 输入的指令信号。
步骤 404, 控制器向频道转换装置发送启动语音识别控制指令信号。 本 实施例中, 以蓝牙、 高速红外协议、 紫蜂 Zigbee 等无线发送方式为例, 通 过遥控器向机顶盒发送启动语音识别控制指令信号。
步骤 406, 频道转换装置置为静音状态。
步骤 408 , 频道转换装置向控制器发送启动语音采集控制指令信号。 若 不采用静音功能时, 也可以不包括以上步骤, 不再赘述。
步骤 410, 控制器接收用户的语音输入信号, 采集和处理用户输入的语 音信号, 本实施例中, 通过 A/D 转换器将模拟语音信号转换成数字语音信 号, 并通过无线方式传送给频道转换装置。 步骤 412, 频道转换装置检测实际语音段的起点和终点, 根据实际语音 段的起点和终点用于识别出待匹配的名称。 本实施例中, 语音激活检测采用 稳健的端点检测算法检测出实际语音的起点和终点,以区分出输入的语音信 号中实际语音段和非语音段。
步骤 414, 频道转换装置向控制器发送停止语音采集控制信号。 在识别 处理完毕后, 控制器可以停止采集用户的语音输入信号。 本实施例中, 发送 方式也可以采用蓝牙、 高速红外协议和 Zigbee等无线方式传送信号。
步骤 416, 控制器根据频道转换装置的停止语音采集控制信号的控制停 止采集和处理语音信号。
步骤 418, 控制器将起点和终点之间的实际语音段的信号传送给语音特 征提取单元。 步骤 418和步骤 414可以没有先后关系, 也可以先执行步骤 418后执行步骤 416, 不再赘述。
步骤 420, 语音特征提取单元根据输入的语音信号提取语音特征, 将语 音信号进行特征提取,本实施例中,若之前有获取实际语音段落检测的步骤, 就只需提取实际语音段。 语音特征类型可以采用 MFCC特征, PLP特征或 LPCC特征, 为了提高抗噪效果, 可以在语音特征提取过程中运用倒谱均值 减的处理。 考虑到 MFCC 特征利用了人耳的声学感知特性而对噪音具有较 好的稳健性, 优选 MFCC特征作为语音特征。 语音信号作为短时平稳信号, 语音帧之间具有帧间相关性, 为此可以对 MFCC 特征提取一阶差分或一阶 及二阶差分来提高语音识别的准确率。
步骤 422, 根据声学模型和识别词表计算出输入的语音特征数据相对于 词条的声学距离。 本实施例中, 语音识别根据声学模型数据和孤立词表数据 得到每个孤立词的最短累积声学距离,然后取最短声学距离最小的孤立词作 为该语音首选识别结果。语音识别采用的声学模型包括连续 HMM模型和离 散 HMM模型。此外,语音识别还可以给出多个候选的识别结果让用户选择, 排序的依据为最短累积声学距离。 本实施例中, 采用包含针对 HMM的双语 种混合建模的声学模型的模型参数。双语种混合声学模型的参数与说话人无 关, 即为针对非特定人的模型。 模型参数需要事先根据标注好的预料数据经 过训练器进行训练,训练得到的参数就可以固化到声学模型参数存储部用于 孤立词的语音识别,声学模型参数包括 HMM的状态参数和状态输出观测特 征矢量的概率分布函数。 本步骤之前, 还可以包含根据用户输入的语言选择 信号, 选择一个与该语言选择信号对应的声学模型的步骤。
步骤 424, 判断语音特征数据相对于每个词条声学距离是否小于阈值, 若声学距离不小于阈值,执行步骤 426;若声学距离小于阈值,执行步骤 428。
步骤 426, 若语音特征数据相对于词条的声学距离大于或等于阈值, 识 别结果为非语音, 提示用户重新输入。 该提示可以是消息提示、 视频显示提 示或声音提示, 本实施例中, 采用在屏幕上显示提示文字的方式提示用户。 执行完步骤 426后, 结束本识别过程。
步骤 428 , 若语音特征数据相对于词条的声学距离小于阈值, 根据识别 词表和匹配表计算出当前语音对应的频道名称。 本实施例中, 根据声学模型 数据和孤立词表数据得到每个孤立词的最短累积声学距离,然后取最短声学 距离最小的孤立词作为该语音首选识别结果。语音识别采用的声学模型包括 连续 HMM模型和离散 HMM模型。 此外, 还可以给出多个候选的识别结果 让用户选择, 排序的依据为最短累积声学距离。
步骤 430, 根据识别出来的频道名称切换到需要切换的频道。 若存在匹 配的记录项, 查询结果为单个记录项时, 控制机顶盒直播电视切换到记录项 中频道名属性标识的频道; 查询结果为多个记录时, 控制电视屏幕显示多个 记录项的频道名的属性值,并提示用户通过遥控器选择其中一个频道观看直 播电视节目, 待用户完成选择后, 控制电视切换到用户选择的频道。
请结合参看图 5 , 本发明实施例频道和节目表更新方法包括如下步骤: 步骤 502, 检查频道和节目表是否满足更新设置条件, 更新设置条件可 以根据用户的需求设置, 识别词表和匹配表的更新可以设置为一天。 若满足 更新设置条件执行步骤 504 , 否则重新执行步骤 502。
步骤 504, 频道转换装置从 EPG服务器下载最新的频道和节目表数据。 步骤 506, 更新频道和节目表。
该更新的目标可以是 EPG服务器, 也可以是本地的网络或光盘等。 请结合参看图 6, 本发明实施例识别词表和匹配表更新方法包括如下步 骤:
步骤 602, 检查识别词表和匹配表是否满足更新设置条件, 更新设置条 件可以根据用户的需求设置, 识别词表和匹配表的更新可以设置为一分钟。 若满足更新设置条件执行步骤 604, 否则返回步骤 602。
步骤 604, 根据频道和节目表更新本地的识别词表和匹配表。
本领域普通技术人员可以理解,上述方法中的全部或部分步骤可以通过 程序指令相关的硬件完成, 该程序可以存储在计算机可读存储介质中, 该存 储介质如, RAM、 ROM或光盘等。
本发明实施例通过控制器接收用户的语音输入信号,通过频道转换装置 根据所述输入的语音输入信号识别出待匹配名称,根据所述待匹配名称与匹 配表进行匹配得出需要切换的频道, 并切换到所述需要切换的频道, 避免了 在控制器上进行语音识别操作复杂和成本高的问题,使得用户在操作起来十 分方便, 并且充分利用频道转换装置的性能, 节省了控制的成本。 通过频道 转换装置识别出待匹配名称, 不需要在网络中设置专门的语音识别服务器, 防止响应时间过长, 避免了由于网络传输数据丟失的问题, 并且节约了构建 网络的成本。 本发明实施例通过截取实际语音段, 语音识别的准确率得到提 高, 并且去除了噪音的干扰。 通过静音控制单元控制语音输入时, 将机顶盒 静音, 防止电视播放的声音对用户语音的干扰。 通过更新模块从 EPG服务 器自动更新频道和节目表,识别词表和匹配表避免了用户手工造作带来操作 不便的弊端。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发 明可以通过硬件实现,也可以可借助软件加必要的通用硬件平台的方式来实 现基于这样的理解, 本发明的技术方案可以以软件产品的形式体现出来, 该 软件产品可以存储在一个非易失性存储介质(可以是 CD-ROM, U盘, 移动 硬盘等) 中, 包括若干指令用以使得一台计算机设备(可以是个人计算机, 服务器, 或者网络设备等)执行本发明各个实施例所述的方法。
总之, 以上所述仅为本发明的较佳实施例而已, 并非用于限定本发明的保 护范围。 凡在本发明的精神和原则之内, 所作的任何修改、 等同替换、 改进等, 均应包含在本发明的保护范围之内。

Claims

权利要求
1、 一种语音识别频道选择方法, 该方法包括:
控制器接收用户的语音输入信号;
频道转换装置根据输入的语音信号及识别词表识别出待匹配名称; 根据所述待匹配名称与匹配表进行匹配得出需要切换的频道;
切换到所述需要切换的频道。
2、 如权利要求 1所述的语音识别频道选择方法, 该方法进一步包括: 接收 用户输入的激活语音的指令, 该指令用于控制所述频道转换装置激活语音, 并 且将频道转换装置置为静音状态。
3、 如权利要求 1所述的语音识别频道选择方法, 所述频道转换装置根据输 入的语音信号及识别词表识别出待匹配名称包括: 采集和处理用户输入的语音 信号, 检测实际语音段的起点和终点, 根据所述实际语音段的起点和终点识别 出所述待匹配名称。
4、 如权利要求 1所述的语音识别频道选择方法, 所述频道转换装置根据输 入的语音信号及识别词表识别出待匹配名称包括: 将语音信号进行语音特征提 取; 根据声学模型和识别词表计算出所述语音特征数据相对于识别词表中的词 条的声学距离; 若语音特征数据相对于词条的声学距离小于阈值, 根据识别词 表和匹配表计算出当前语音对应的频道名称。
5、 如权利要求 4所述的语音识别频道选择方法, 该方法还包括: 若语音特 征数据相对于词条的声学距离大于或等于阈值, 提示用户重新输入语音。
6、 如权利要求 5所述的语音识别频道选择方法, 所述提示用户重新输入语 音的方式为通过电视屏幕显示用户当前输入的语音无法识别, 提示用户重新输 入。
7、 如权利要求 1所述的语音识别频道选择方法, 该方法还进一步包括: 频 道转换装置向控制器发送停止语音采集控制信号, 控制器根据所述停止语音采 集控制信号控制停止采集和处理语音信号。
8、 如权利要求 1所述的语音识别频道选择方法, 该方法进一步包括: 频道 转换装置根据电子节目指南 EPG服务器更新所述匹配表和 /或所述识别词表。
9、 如权利要求 1所述的语音识别频道选择方法, 该方法进一步包括: 根据 用户输入的语言选择信号, 选择一个与所述语言选择信号对应的声学模型。
10、如权利要求 1所述的语音识别频道选择方法,所述控制器与所述频道转 换装置通过无线传输协议进行通信。
11、如权利要求 10所述的语音识别频道选择方法, 所述无线传输协议包括: 高速红外协议、 蓝牙传输协议和紫蜂 Zigbee传输协议中的一种或多种。
12、 一种语音识别频道选择系统, 该系统包括: 控制器, 用于与频道转换处 理装置进行通信;
所述控制器用于接收用户的语音输入信号;
所述频道转换处理装置用于根据所述输入的语音输入信号及识别词表识别 出待匹配名称, 根据所述待匹配名称与匹配表进行匹配得出需要切换的频道, 并切换到所述需要切换的频道。
13、 如权利要求 12所述的语音识别频道选择系统, 该系统还包括: 电子节 目指南 EPG服务器, 用于提供待更新的匹配表和 /或最更新的识别词表, 所述 频道转换装置根据所述待更新的匹配表更新所述匹配表, 和 /或根据所述最新的 识别词表更新所述识别词表。
14、 一种频道转换装置, 该装置包括:
接收模块, 用于接收控制器发送的用户的语音输入信号;
识别处理模块,用于根据所述输入的语音输入信号及识别词表识别出待匹配 名称;
查询匹配模块,用于根据所述待匹配名称与匹配表进行匹配得出需要切换的 频道;
频道转换控制模块, 用于切换到所述需要切换的频道。
15、 如权利要求 14所述的频道转换装置, 该装置还包括:
静音控制模块,用于根据用户输入的激活语音的指令,将频道转换装置置为 静音状态。
16、 如权利要求 14所述的频道转换装置, 所述识别处理模块进一步包括: 语音激活检测单元, 用于检测实际语音段的起点和终点。
17、 如权利要求 14所述的频道转换装置, 所述识别处理模块进一步包括: 语音特征提取单元, 用于对语音信号进行语音特征提取;
语音识别单元,用于根据声学模型和识别词表计算出输入的语音特征数据相 对于识别词表中词条的声学距离;
语音判断单元, 用于判断语音特征数据相对于词条的声学距离是否小于阈 值, 若语音特征数据相对于词条的声学距离小于阈值, 根据识别词表和匹配表 计算出当前语音对应的频道名称。
18、 如权利要求 17所述的频道转换装置, 该装置还包括:
拒绝识别提示模块, 用于在识别结果为非语音时, 提示用户重新输入语音。
19、 如权利要求 14所述的频道转换装置, 该装置还包括:
更新模块, 用于根据电子节目指南 EPG服务器更新所述匹配表和 /或所述识 别词表。
20、 如权利要求 14所述的频道转换装置, 该装置还包括:
语言选择模块,用于根据用户输入的语言选择信号,选择一个与所述语言选 择信号对应的声学模型。
PCT/CN2009/070380 2008-02-23 2009-02-09 一种语音识别频道选择系统、方法及频道转换装置 WO2009103226A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN200810065417.0 2008-02-23
CNA2008100654170A CN101516005A (zh) 2008-02-23 2008-02-23 一种语音识别频道选择系统、方法及频道转换装置

Publications (1)

Publication Number Publication Date
WO2009103226A1 true WO2009103226A1 (zh) 2009-08-27

Family

ID=40985065

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2009/070380 WO2009103226A1 (zh) 2008-02-23 2009-02-09 一种语音识别频道选择系统、方法及频道转换装置

Country Status (2)

Country Link
CN (1) CN101516005A (zh)
WO (1) WO2009103226A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102938864A (zh) * 2012-11-27 2013-02-20 四川长虹电器股份有限公司 基于自定义语音实现电视频道切换的方法
EP2728890A3 (en) * 2012-10-31 2014-11-12 Samsung Electronics Co., Ltd Broadcast receiving apparatus, server and control methods thereof

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103209369A (zh) * 2012-01-16 2013-07-17 晨星软件研发(深圳)有限公司 电子装置的声控系统以及相关控制方法
CN102546034B (zh) * 2012-02-07 2013-12-18 深圳市纽格力科技有限公司 一种语音信号处理方法及设备
CN103297725A (zh) * 2012-02-28 2013-09-11 联想(北京)有限公司 一种电子设备控制方法及装置、遥控器
CN103366740B (zh) * 2012-03-27 2016-12-14 联想(北京)有限公司 语音命令识别方法及装置
CN103366743A (zh) * 2012-03-30 2013-10-23 北京千橡网景科技发展有限公司 操作语音命令的方法和装置
CN103489447A (zh) * 2012-06-13 2014-01-01 华为技术有限公司 遥控器的语音输入方法、遥控器和多媒体终端系统
CN102789176B (zh) * 2012-07-04 2015-08-05 北京捷通华声语音技术有限公司 一种家电终端控制方法和系统
TW201408050A (zh) * 2012-08-09 2014-02-16 Wistron Corp 控制方法與影音播放系統
CN102833634A (zh) * 2012-09-12 2012-12-19 康佳集团股份有限公司 一种电视机语音识别功能的实现方法及电视机
CN102999161B (zh) * 2012-11-13 2016-03-02 科大讯飞股份有限公司 一种语音唤醒模块的实现方法及应用
US9087516B2 (en) * 2012-11-19 2015-07-21 International Business Machines Corporation Interleaving voice commands for electronic meetings
KR102009316B1 (ko) * 2013-01-07 2019-08-09 삼성전자주식회사 대화형 서버, 디스플레이 장치 및 그 제어 방법
CN103916685B (zh) * 2013-01-08 2017-11-03 联想(北京)有限公司 一种电视频道更换方法、装置及电视机
CN103458287A (zh) * 2013-09-02 2013-12-18 四川长虹电器股份有限公司 基于数字电视遥控技术实现对游戏语音控制的系统及方法
CN103491411B (zh) * 2013-09-26 2017-09-12 深圳Tcl新技术有限公司 基于语言推荐频道的方法及其装置
CN103607609B (zh) * 2013-11-27 2017-09-05 Tcl集团股份有限公司 一种电视机频道的语音切换方法和装置
CN103634644A (zh) * 2013-12-09 2014-03-12 乐视致新电子科技(天津)有限公司 通过语音进行智能电视频道切换的方法和系统
CN104766608A (zh) * 2014-01-07 2015-07-08 深圳市中兴微电子技术有限公司 一种语音控制方法及装置
CN103945152A (zh) * 2014-03-14 2014-07-23 京东方科技集团股份有限公司 一种语音控制电视机的方法及其电视机
CN105573709A (zh) * 2014-10-10 2016-05-11 讯飞智元信息科技有限公司 语音输入设备控制方法及系统
CN104363517B (zh) * 2014-11-12 2018-05-11 科大讯飞股份有限公司 基于电视场景及语音助手的语音切换方法及系统
CN104506944B (zh) * 2014-11-12 2018-09-21 科大讯飞股份有限公司 基于电视场景及语音助手的语音交互辅助方法及系统
CN104461446B (zh) * 2014-11-12 2018-05-18 科大讯飞股份有限公司 基于语音交互的软件运行方法及系统
WO2017035844A1 (zh) * 2015-09-06 2017-03-09 何兰 语音匹配频道编组时的信息提示方法和遥控系统
WO2017035845A1 (zh) * 2015-09-06 2017-03-09 何兰 根据语音调取频道编组的方法和遥控系统
CN107205169A (zh) * 2016-03-16 2017-09-26 中航华东光电(上海)有限公司 语音控制智能电视直播节目切换方法
CN105847900B (zh) * 2016-05-26 2018-10-26 无锡天脉聚源传媒科技有限公司 一种节目频道确定方法及装置
KR102594022B1 (ko) * 2016-11-24 2023-10-26 삼성전자주식회사 전자 장치 및 그의 채널맵 업데이트 방법
CN106971703A (zh) * 2017-03-17 2017-07-21 西北师范大学 一种基于hmm的歌曲合成方法及装置
KR102540001B1 (ko) * 2018-01-29 2023-06-05 삼성전자주식회사 디스플레이 장치 및 디스플레이 장치의 화면 표시방법
CN110631064B (zh) * 2018-05-31 2021-01-15 宁波方太厨具有限公司 一种声音识别方法及应用有该声音识别方法的吸油烟机的自动控制方法
CN110782886A (zh) * 2018-07-30 2020-02-11 阿里巴巴集团控股有限公司 语音处理的系统、方法、电视、设备和介质
CN112860205A (zh) * 2021-03-17 2021-05-28 Vidaa美国公司 显示设备的通道切换方法及显示设备
JP7241142B1 (ja) * 2021-09-27 2023-03-16 Tvs Regza株式会社 受信装置および選局システム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000042731A (ko) * 1998-12-26 2000-07-15 전주범 텔레비전의 음성인식에 의한 채널전환장치
US6314398B1 (en) * 1999-03-01 2001-11-06 Matsushita Electric Industrial Co., Ltd. Apparatus and method using speech understanding for automatic channel selection in interactive television
CN2518278Y (zh) * 2001-12-31 2002-10-23 海尔集团公司 声控电视遥控器
CN2657310Y (zh) * 2003-12-02 2004-11-17 肖奇 声控电视机
CN2681491Y (zh) * 2003-01-22 2005-02-23 程松林 电视语音点播器
CN1975799A (zh) * 2006-12-15 2007-06-06 广东协联科贸发展有限公司 一种按键语音一体化遥控装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000042731A (ko) * 1998-12-26 2000-07-15 전주범 텔레비전의 음성인식에 의한 채널전환장치
US6314398B1 (en) * 1999-03-01 2001-11-06 Matsushita Electric Industrial Co., Ltd. Apparatus and method using speech understanding for automatic channel selection in interactive television
CN2518278Y (zh) * 2001-12-31 2002-10-23 海尔集团公司 声控电视遥控器
CN2681491Y (zh) * 2003-01-22 2005-02-23 程松林 电视语音点播器
CN2657310Y (zh) * 2003-12-02 2004-11-17 肖奇 声控电视机
CN1975799A (zh) * 2006-12-15 2007-06-06 广东协联科贸发展有限公司 一种按键语音一体化遥控装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2728890A3 (en) * 2012-10-31 2014-11-12 Samsung Electronics Co., Ltd Broadcast receiving apparatus, server and control methods thereof
CN102938864A (zh) * 2012-11-27 2013-02-20 四川长虹电器股份有限公司 基于自定义语音实现电视频道切换的方法

Also Published As

Publication number Publication date
CN101516005A (zh) 2009-08-26

Similar Documents

Publication Publication Date Title
WO2009103226A1 (zh) 一种语音识别频道选择系统、方法及频道转换装置
JP6811758B2 (ja) 音声対話方法、装置、デバイス及び記憶媒体
US20210243490A1 (en) Voice enabled media presentation systems and methods
KR102304052B1 (ko) 디스플레이 장치 및 그의 동작 방법
EP3428899A1 (en) Apparatus, system and method for directing voice input in a controlling device
JP6482911B2 (ja) 機器制御方法および電気機器
EP2674941B1 (en) Terminal apparatus and control method thereof
KR102056461B1 (ko) 디스플레이 장치 및 디스플레이 장치의 제어 방법
CN109074806A (zh) 控制分布式音频输出以实现语音输出
KR101605862B1 (ko) 디스플레이 장치, 전자 장치, 대화형 시스템 및 이들의 제어 방법
US20140006022A1 (en) Display apparatus, method for controlling display apparatus, and interactive system
WO2013128999A1 (ja) 機器操作システム、機器操作装置、サーバ、機器操作方法およびプログラム
KR102003267B1 (ko) 전자 장치 및 그의 제어 방법
KR102158315B1 (ko) 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법
KR101914708B1 (ko) 서버 및 서버의 제어 방법
CN104904227A (zh) 显示设备以及用于控制显示设备的方法
KR20140055502A (ko) 방송 수신 장치, 서버 및 그 제어 방법
KR20130134545A (ko) 리모컨을 이용한 디지털tv 음성 검색 시스템 및 방법
CN113362813A (zh) 一种语音识别方法、装置和电子设备
JP7197992B2 (ja) 音声認識装置、音声認識方法
US20140046668A1 (en) Control method and video-audio playing system
EP3735687A1 (en) Apparatus, system and method for directing voice input in a controlling device
CN110839169B (zh) 一种智能设备遥控装置及基于其的控制方法
JPWO2016006088A1 (ja) 電子機器及び方法及びプログラム
KR101687614B1 (ko) 음성 인식 방법 및 그에 따른 영상 표시 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09713488

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09713488

Country of ref document: EP

Kind code of ref document: A1