WO2021073161A1 - 基于语音识别的老人挂号方法、装置、设备及存储介质 - Google Patents

基于语音识别的老人挂号方法、装置、设备及存储介质 Download PDF

Info

Publication number
WO2021073161A1
WO2021073161A1 PCT/CN2020/099481 CN2020099481W WO2021073161A1 WO 2021073161 A1 WO2021073161 A1 WO 2021073161A1 CN 2020099481 W CN2020099481 W CN 2020099481W WO 2021073161 A1 WO2021073161 A1 WO 2021073161A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
preset
result
text
voice signal
Prior art date
Application number
PCT/CN2020/099481
Other languages
English (en)
French (fr)
Inventor
洪振厚
王健宗
朱星华
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2021073161A1 publication Critical patent/WO2021073161A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C11/00Arrangements, systems or apparatus for checking, e.g. the occurrence of a condition, not provided for elsewhere
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C11/00Arrangements, systems or apparatus for checking, e.g. the occurrence of a condition, not provided for elsewhere
    • G07C2011/04Arrangements, systems or apparatus for checking, e.g. the occurrence of a condition, not provided for elsewhere related to queuing systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • This application relates to the field of voice processing technology, and in particular to a method, device, equipment, and storage medium for registering an elderly person based on voice recognition.
  • Speech recognition is an important field in the field of artificial intelligence. Speech recognition is a natural ability for humans, but for artificial intelligence, it represents a high-level development of technology. Giants such as Ping An, Microsoft, and Apple are all deploying Speech recognition in artificial intelligence. Humans can interact with machines through voice to achieve convenient operations. Through voice extraction of the information, the machine can quickly and accurately make the results or operations that people need. Speech recognition has a wide range of applications in all walks of life, especially in the medical field. Speech recognition can improve service quality and increase patient satisfaction.
  • the present application provides a method, device, equipment and storage medium for registering the elderly based on voice recognition, which are used to enhance the voice signal of the elderly, help the elderly accurately make an appointment registration, and increase the probability that the elderly can successfully register an appointment through self-service.
  • the first aspect of the embodiments of this application provides a voice recognition-based registration method for the elderly, including: obtaining a pure voice signal through a dedicated channel, the dedicated channel uses wavelet transform to enhance the voice signal; and recognizing the pure voice signal through a preset voice model
  • the voice signal is used to obtain unit data; the unit data is parsed through a preset analysis model to obtain a voice text; a matching result is obtained according to the voice text according to a preset rule; and the appointment result is displayed according to the matching result according to a preset display rule.
  • the second aspect of the embodiments of the present application provides an elderly registration device based on voice recognition, including a memory, a processor, and a computer program stored on the memory and running on the processor, and the processor executes
  • the computer program implements the following steps:
  • the third aspect of the embodiments of the present application provides a computer-readable storage medium having instructions stored in the computer-readable storage medium, which when run on a computer, cause the computer to perform the following steps:
  • the reservation result is displayed according to the preset display rule.
  • the fourth aspect of the embodiments of the present application provides a device for registering an elderly person based on voice recognition, including:
  • the first acquisition unit is configured to acquire a pure voice signal through a dedicated channel, and the dedicated channel uses wavelet transform to enhance the voice signal;
  • a recognition unit configured to recognize the pure voice signal through a preset voice model to obtain unit data
  • the second obtaining unit is used to obtain the matching result according to the preset rule according to the voice text; the display unit is used to display the appointment result according to the preset display rule according to the matching result.
  • the present application provides a method, device, equipment, and storage medium for registering an elderly person based on voice recognition.
  • the pure voice signal is obtained through a dedicated channel that uses wavelet transform to enhance the voice signal; and the pure voice is recognized through a preset voice model Signal to obtain unit data; analyze unit data through a preset analysis model to obtain voice text; obtain matching results according to the voice text according to preset rules; display the appointment results according to the matching results according to the preset display rules.
  • the embodiments of the application help the elderly to accurately make an appointment registration, and increase the probability that the elderly successfully make an appointment registration through a self-service.
  • FIG. 2 is a schematic diagram of another embodiment of the method for registering an elderly person based on voice recognition in this application;
  • Fig. 5 is a schematic diagram of an embodiment of an elderly registration device based on voice recognition in this application.
  • an embodiment of the method for registering an elderly person based on voice recognition in the embodiment of the present application includes:
  • the server obtains the pure voice signal through a dedicated channel, and the dedicated channel uses wavelet transform to enhance the voice signal.
  • the server needs to enhance the voice signal of the elderly through a dedicated channel, so as to better recognize the needs of the elderly.
  • the old man touches the control button on the display screen to activate the dedicated channel.
  • the old man speaks through the microphone, such as: hang up the internal medicine number, my stomachache, headache, or measure blood pressure, etc., through the dedicated channel
  • These voice signals will be enhanced in a dedicated channel to the vague voice signals to obtain a pure voice signal.
  • the preset speech model in this embodiment is an LSTM model
  • the LSTM model is a long- and short-term memory network model, which is a time recurrent neural network model, which is suitable for processing and predicting important events with relatively long intervals and delays in a time sequence.
  • the LSTM model uses "gates" to control the discarding or adding of information, so as to realize the function of forgetting or memory.
  • the LSTM model includes multiple LSTM units. Each LSTM unit includes an input gate, a forget gate and an output gate. The input gate controls the addition of new voice features, and the forget gate controls the degree of forgetting of the unit data obtained by the previous LSTM unit, and the output gate The degree to which the control unit data is filtered.
  • the pure voice signal of "My stomachache” has different voice features at different moments.
  • multiple LSTM units are needed to input voice features of different timings into different LSTM cell, through the input gate, forget gate and output gate to get the cell data of each different sequence.
  • the LSTM model needs to be trained through a large amount of training data, and a large amount of training is carried out to improve the accuracy of the data processed by the LSTM model.
  • the server determines whether the current voice feature history record exists in the database. If the current voice feature history record exists in the database, it directly calls the history record in the database as training data to train the LSTM model. Such training This method can effectively improve the accuracy of the data processed by the LSTM model, so as to provide better services to the elderly in the future.
  • the server parses the unit data through the preset analysis model to obtain the voice text.
  • the CTC model is used to search for the maximum classification probability, and the unit data corresponding to the maximum classification probability is obtained, and finally the voice text matching the unit data is obtained through the unit data.
  • the server obtains the matching result according to the voice text according to the preset rules.
  • the voice text is "Stomach Pain", match “Stomach Pain” with the preset subject category, and the voice text "Stomach Pain” matches the Gastroenterology in the preset subject category, then get the number number of Gastroenterology, such as 3; if The voice text is words such as "Obstetrics”. Match “Ostetrics” with the preset subject category. If the "Ostetrics" cannot be matched with the preset subject category, an error result will be obtained.
  • the appointment result is displayed according to the preset display rules.
  • the matching result obtained by the server is a digital number, indicating that the voice text matches the preset subject category
  • a successful result will be displayed.
  • the successful result includes the word "successful appointment" and the text corresponding to the digital number, such as number 3; if the matching result is an error result, It means that the voice text cannot match the preset subject category, and the word appointment failure is displayed.
  • the server decomposes the speech waveform
  • Symmetry a preset function with symmetry, which can effectively avoid phase distortion in waveform processing
  • I a basic small waveform
  • j determines the degree of zoom
  • k determines the amplitude of translation
  • n 2 j + k
  • multiple speech scale coefficients can be obtained. For example, if the number of decomposition layers is set to 15, then the speech waveform can obtain 15 speech scale coefficients through the Symlets wavelet function.
  • the server compresses the voice scale coefficient according to the threshold and the threshold denoising function to obtain the high-frequency voice scale coefficient.
  • the threshold is selected according to the maximum-min criterion and the scale coefficient; the threshold denoising function is selected according to the threshold; the speech scale coefficient is filtered according to the threshold denoising function to obtain the high-frequency speech scale coefficient.
  • the server uses a preset algorithm to recombine the voice signal according to the voice scale coefficient and the high-frequency voice scale coefficient to obtain a pure voice signal.
  • the server recognizes the pure voice signal through the preset voice model, and obtains the unit data.
  • the server processes the pure voice signal into frame data; the server obtains voice features from the frame data; the server inputs the voice features into a preset voice model for processing to obtain unit data, and the preset voice model is a trained model.
  • the preset speech model in this embodiment is an LSTM model
  • the LSTM model is a long- and short-term memory network model, which is a time recurrent neural network model, which is suitable for processing and predicting important events with relatively long intervals and delays in a time sequence.
  • the LSTM model uses "gates" to control the discarding or adding of information, so as to realize the function of forgetting or memory.
  • the LSTM model includes multiple LSTM units. Each LSTM unit includes an input gate, a forget gate and an output gate. The input gate controls the addition of new voice features, and the forget gate controls the degree of forgetting of the unit data obtained by the previous LSTM unit, and the output gate The degree to which the control unit data is filtered.
  • the pure voice signal into frame data, extract the voice features at t-1, t, and t+1 from these frame data, and input the voice features at t-1 from the input gate into the first LSTM unit ,
  • the first data to be forgotten at time t-1 is obtained.
  • the first data to be forgotten can be the data of "wwwooo", and the first data to be forgotten is multiplied by the forgetting factor at the forgetting gate, thereby forgetting some unnecessary data.
  • the LSTM model needs to be trained through a large amount of training data. After a large amount of training, the accuracy of the LSTM model's data processing can be improved.
  • the server determines whether the current voice feature history record exists in the database. If the current voice feature history record exists in the database, it directly calls the history record in the database as the training data to train the LSTM model. This training method It can effectively improve the accuracy of the data processed by the LSTM model, so as to provide better services to the elderly in the future.
  • the server parses the unit data through the preset analysis model to obtain the voice text.
  • the server obtains multiple unit data.
  • the server inputs these unit data into the probability model to obtain classification probabilities and form a probability sequence.
  • the CTC model searches for the largest classification probability in the probability sequence, and the server classifies according to the maximum Probabilistic search for the unit data corresponding to it, and the server obtains the voice text matching the unit data according to the unit data.
  • the server judges whether the matching result is a digital number; if the matching result is a digital number, the server displays a successful result, and the successful result belongs to the reservation result.
  • the successful result includes the word "successful reservation" and the number text matching the digital number; if the matching result is not If it is a digital number, the server will display the failure result, the failure result belongs to the reservation result, and the failure result is the word reservation failure.
  • the matching result obtained by the server is a digital number, indicating that the voice text matches the preset subject category, the words and number text of appointment success will be displayed; if the appointment result is an error result, it means that the voice text cannot match the preset subject category, then Shows the message that the appointment has failed.
  • the server informs the elderly that the appointment has failed and needs to be re-registered by displaying the appointment failed.
  • the embodiments of the application help the elderly to accurately make an appointment registration, and increase the probability that the elderly successfully make an appointment registration through a self-service.
  • the first obtaining unit 301 specifically includes:
  • the second processing subunit 3015 is used to recombine the voice signal according to the voice scale coefficient and the high-frequency voice scale coefficient using a preset algorithm to obtain a pure voice signal.
  • the preset subject category is the category of the department where the elderly often suffer from illness

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种基于语音识别的老人挂号方法、装置、设备及存储介质,用于帮助老人准确进行预约挂号,提高了老人通过自助服务预约挂号成功的概率;本方法包括:通过专用通道获取纯净语音信号,专用通道使用小波变换增强语音信号(101);通过预置语音模型识别纯净语音信号,得到单元数据(102);通过预置解析模型解析单元数据,得到语音文本(103);根据语音文本按照预置规则获取匹配结果(104);根据匹配结果按照预置显示规则显示预约结果(105)。

Description

基于语音识别的老人挂号方法、装置、设备及存储介质
本申请要求于2019年10月18日提交中国专利局、申请号为201910991653.3,发明名称为“基于语音识别的老人挂号方法、装置、设备及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在申请中。
技术领域
本申请涉及语音处理技术领域,尤其涉及一种基于语音识别的老人挂号方法、装置、设备及存储介质。
背景技术
语音识别是人工智能领域重要的领域,语音识别对于人类来说是一种天生的能力,而对于人工智能来说,却代表了科技的高水平发展,中国平安、微软、苹果等巨头都在布局人工智能中的语音识别。人类能够通过语音与机器交互实现操作的便捷,通过语音提取出当中的信息,机器能够快速准确的做出人们需要的结果或者操作。语音识别在各行各业有广泛的应用,特别是医疗方面,语音识别能够改善服务质量,提高病人满意度。
在医疗方面,采用现场排队挂号会浪费病人的时间,为了节省挂号时间,医疗行业推出了一种预约挂号系统,病人可以通过医院终端或客户端软件来预约挂号,方便病人挂号,节省挂号时间。
发明人意识到这种预约挂号系统的操作界面对老人不友好,预约挂号时要面对复杂、冗长、繁琐的导航菜单,老人需要逐层听取菜单提示,根据引导一步步进行按键操作才能得到预定病号,这样会使老人花大量时间去学习操作,并且由于科目类别相对复杂,很大概率会选错,甚至无法通过这种便捷的挂号系统获得号码。
发明内容
本申请的提供一种基于语音识别的老人挂号方法、装置、设备及存储介质,用于增强老人语音信号,帮助老人准确进行预约挂号,提高了老人通过自助服务预约挂号成功的概率。
为本申请实施例的第一方面提供一种基于语音识别的老人挂号方法,包括:通过专用通道获取纯净语音信号,所述专用通道使用小波变换增强语音信号;通过预置语音模型识别所述纯净语音信号,得到单元数据;通过预置解析模型解析所述单元数据,得到语音文本;根据所述语音文本按照预置规则获取匹配结果;根据所述匹配结果按照预置显示规则显示预约结果。
本申请实施例的第二方面提供了一种基于语音识别的老人挂号设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
通过专用通道获取纯净语音信号,所述专用通道使用小波变换增强语音信号;
通过预置语音模型识别所述纯净语音信号,得到单元数据;
通过预置解析模型解析所述单元数据,得到语音文本;
根据所述语音文本按照预置规则获取匹配结果;
根据所述匹配结果按照预置显示规则显示预约结果。
本申请实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如下步骤:
通过专用通道获取纯净语音信号,所述专用通道使用小波变换增强语音信号;
通过预置语音模型识别所述纯净语音信号,得到单元数据;
通过预置解析模型解析所述单元数据,得到语音文本;
根据所述语音文本按照预置规则获取匹配结果;
根据所述匹配结果按照预置显示规则显示预约结果。
本申请实施例的第四方面提供一种基于语音识别的老人挂号装置,包括:
第一获取单元,用于通过专用通道获取纯净语音信号,所述专用通道使用小波变换增强语音信号;
识别单元,用于通过预置语音模型识别所述纯净语音信号,得到单元数据;
解析单元,用于通过预置解析模型解析单元数据,得到语音文本;
第二获取单元,用于根据语音文本按照预置规则获取匹配结果;显示单元,用于根据匹配结果按照预置显示规则显示预约结果。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请的提供一种基于语音识别的老人挂号方法、装置、设备及存储介质,通过专用通道获取纯净语音信号,所述专用通道使用小波变换增强语音信号;通过预置语音模型识别所述纯净语音信号,得到单元数据;通过预置解析模型解析单元数据,得到语音文本;根据语音文本按照预置规则获取匹配结果;根据匹配结果按照预置显示规则显示预约结果。本申请实施例帮助老人准确进行预约挂号,提高了老人通过自助服务预约挂号成功的概率。
附图说明
图1为本申请中基于语音识别的老人挂号方法的一个实施例示意图;
图2为本申请中基于语音识别的老人挂号方法的另一个实施例示意图;
图3为本申请中基于语音识别的老人挂号装置的一个实施例示意图;
图4为本申请中基于语音识别的老人挂号装置的另一个实施例示意图;
图5为本申请中基于语音识别的老人挂号设备的一个实施例示意图。
具体实施方式
本申请的提供一种基于语音识别的老人挂号方法,用于增强老人语音信号,帮助老人准确进行预约挂号,提高了老人通过自助服务预约挂号成功的概率。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,本申请实施例中基于语音识别的老人挂号方法一个实施例包括:
101、通过专用通道获取纯净语音信号,专用通道使用小波变换增强语音信号。
服务器通过专用通道获取纯净语音信号,专用通道使用小波变换增强语音信号。
需要说明的是,由于老人的声音在音量上相对较小、说话速度相对缓慢及发音比较含糊等问题,服务器需要通过专用通道对老人的语音信号进行语音增强,从而更好的识别老人的需求。
为了便于理解,下面结合举例场景进行说明:
老人用手触碰显示屏上的控制按钮,从而激活专用通道,在触碰控制按钮之后,老人通过麦克风讲话,例如:挂内科号、我的胃痛、头痛或者测量血压等语言,通过专用通道获取这些语音信号,并将在专用通道中对含糊不清的语音信号进行增强,得到语音纯净信号。
102、通过预置语音模型识别纯净语音信号,得到单元数据。
服务器通过预置语音模型识别纯净语音信号,得到单元数据。
本实施例中的预置语音模型为LSTM模型,LSTM模型为长短时期记忆网络模型,是一种时间递归神经网络模型,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM模型通过“门”来控制丢弃信息或者增加信息,从而实现遗忘或者记忆的功能。LSTM模型中包括多个LSTM单元,每个LSTM单元包括输入门、遗忘门与输出门,输入门控制新语音特征的加入,遗忘门控制上一个LSTM单元所得到的单元数据的遗忘程度,输出门控制单元数据被过滤的程度。
例如,“我的胃痛”的纯净语音信号,在不同时刻有不同的语音特征,对这些不同时刻的语音特征一一进行识别,需要用到多个LSTM单元,将不同时序的语音特征输入不同的LSTM单元,经过输入门、遗忘门和输出门得到每个不同时序的单元数据。
需要说明的是,在进行将语音特征输入LSTM模型中之前,需要通过大量的训练数据对LSTM模型进行训练,经过大量训练来提高LSTM模型处理数据的准确性。在提取语音特征之后,服务器判断当前语音特征的历史记录是否存在数据库中,如果当前语音特征的历史记录存在数据库中,则直接调用数据库中的历史记录作为训练数据对LSTM模型进行训练,这样的训练方式能够有效的提高LSTM模型处理数据的准确性,以便后续为老人提供更好的服务。
103、通过预置解析模型解析单元数据,得到语音文本。
服务器通过预置解析模型解析单元数据,得到语音文本。
本实施例中的预置解析模型为CTC模型,CTC的全称为Connectionist Temporal Classification,CTC主要解决输入序列和输出序列对应的问题,被广泛应用于文本识别和语音识别中。
本实施例中采用CTC模型搜索最大分类概率,得到与最大分类概率相对应的单元数据,最后通过单元数据得到与其相匹配的语音文本。
例如,[wo de weitong]的概率序列为[0.2 0.1 0.7],那么最大分类概率为0.7,单元数据为weitong的数据,根据“weitong”的单元数据得到“胃痛”的语音文本。
104、根据语音文本按照预置规则获取匹配结果。
服务器根据语音文本按照预置规则获取匹配结果。
需要说明的是,由于本方案的服务器专用于老人的预约挂号,所以儿科、产科等科目类别都被排除在外,适用于老人的预置科目类别大致包括内科、消化内科、外科、眼科、耳鼻喉科和口腔科等;是否住院则根据医生的建议,不包括在预订病号系统。
例如,语音文本为“胃痛”,将“胃痛”与预置科目类别进行匹配,语音文本“胃痛”与预置科目类别中的消化内科相匹配,则获取消化内科的数字号码,比如3;如果语音文本为“产科”之类的词语,将“产科”与预置科目类别进行匹配,“产科”无法与预置科目类别进行匹配,则获得错误结果。
105、根据匹配结果按照预置显示规则显示预约结果。
服务器根据匹配结果按照预置显示规则显示预约结果。
如果服务器获得的匹配结果为数字号码,说明语音文本与预置科目类别相匹配,则显示成功结果,成功结果包括预约成功字样和数字号码对应的文本,比如3号;若匹配结果为错误结果,说明语音文本无法与预置科目类别相匹配,则显示预约失败字样。
例如,服务器判断获得3的数字号码,则服务器显示预约成功,并显示3号使老人知道自己预约成功和代表自己的号码;如果服务器没有获得号码,则显示预约失败,通知老人知道自己预约失败,需要重新进行预约。
本申请实施例帮助老人准确进行预约挂号,提高了老人通过自助服务预约挂号成功的概率。
请参阅图2,本申请实施例中基于语音识别的老人挂号方法另一个实施例包括:
201、通过专用通道获取语音信号。
服务器通过专用通道获取语音信号。
服务器通过已经激活的专用通道,获取老人发出的语音信号,语音信号可以为挂内科号、我的胃痛、头痛或者测量血压等语音信号。
202、将语音信号转换为语音波形。
服务器将语音信号转换为语音波形。
203、根据预置函数与分解层数对语音波形进行分解,得到多个语音尺度系数,语音尺度系数的数量与分解层数相对应。
服务器根据预置函数与分解层数对语音波形进行分解,得到多个语音尺度系数,语音尺度系数的数量与分解层数相对应。
服务器在分解语音波形时,需要参照以下标准来选取分解语音波形的预置函数:
(1)支撑长度;支撑长度较较短的预置函数比较好;
(2)对称性:具有对称性的预置函数,在波形处理中可以有效的避免相位畸变;
(3)消失炬:消失炬对于数据压缩和特征提取是非常有用的,消失炬越大,就有更多为零的小波尺度系数;
(4)正则性:正则性好的预置函数,能在信号或图像的重构中获得较好的平滑效果,减小量化或减小涉入误差的影响;
(5)相似性:选择和信号波形相似的预置函数,这对于压缩和消噪是有参考价值的。
综上,在本实施例中选取Symlets小波函数处理语音波形,Symlets小波函数去噪性能强且在工程实践中最具价值。
服务器根据分解层数与Symlets小波函数对语音波形进行分解,以下为Symlets小波函数的公式:
Figure PCTCN2020099481-appb-000001
式中,
Figure PCTCN2020099481-appb-000002
为基本小波形,j决定缩放程度,k决定平移幅度,n=2 j+k,j为满足2 j≤n的最大整数,比如n=3时,对应j=1且k=1;语音波形经过Symlets小波函数,就能够得到多个语音尺度系数,例如,假设将分解层数设置为15层,那么语音波形经过Symlets小波函数能够得到15个语音尺度系数。
204、根据阈值与阈值去噪函数对语音尺度系数进行压缩,得到高频语音尺度系数。
服务器根据阈值与阈值去噪函数对语音尺度系数进行压缩,得到高频语音尺度系数。
具体的,根据极大极小准则与尺度系数,选取阈值;根据阈值选取阈值去噪函数;根据阈值去噪函数对语音尺度系数进行过滤,得到高频语音尺度系数。
服务器采用极大极小准则选取阈值,以下为极大极小准则的公式:
Figure PCTCN2020099481-appb-000003
式中,N为每一层的语音尺度系数,如果语音尺度系数N大于或等于32,则使用σ(0.3936+0.1829log 2N)这一公式计算阈值,其中σ为噪声标准方差,阈值具体为多少,需要根据尺度系数N来决定;如果语音尺度系数N小于32,则阈值为0。
服务器采用阈值去噪函数计算高频语音尺度系数,阈值去噪函数的公式如下:
Figure PCTCN2020099481-appb-000004
式中,TH为阈值,WT为语音尺度系数,WT TH为每层语音尺度系数相对应的高频语音尺度系数,如果语音尺度系数的绝对值大于阈值,则使用sgn(N)(|WT|-TH)这一公式计算高频语音尺度系数,如果语音尺度系数的绝对值小于或等于阈值,则高频语音尺度系数为0。
205、采用预置算法根据语音尺度系数与高频语音尺度系数对语音信号进行重组,得到纯净语音信号。
服务器采用预置算法根据语音尺度系数与高频语音尺度系数对语音信号进行重组,得到纯净语音信号。
本实施例中的预置算法为Mallat算法,如果随着语音尺度系数的增大,高频语音尺度系数锐减,则判断该层语音尺度系数对应的语音波形是由噪声生成的语音波形;如果随着语音尺度系数的增大,高频语音尺度系数也逐渐增大,则判断该层语音尺度系数对应的语音波形是由语音信号产生的语音波形;服务器采用Mallat算法去除由噪声生成的语音波形,保留由声音信号生成的语音波形,从而实现语音信号的重组,得到重组后的语音信号,纯净语音信号。
206、通过预置语音模型识别纯净语音信号,得到单元数据。
服务器通过预置语音模型识别纯净语音信号,得到单元数据。
具体的,服务器将纯净语音信号处理为帧数据;服务器从帧数据中获取语音特征;服务器将语音特征输入预置语音模型进行处理,得到单元数据,预置语音模型为训练后的模型。
服务器将纯净语音信号处理为一帧一帧的帧数据,在从这些帧数据中提取语音特征,根据语音特征进行语音识别;服务器将语音特征输入至LSTM模型中,经过LSTM模型的的多个LSTM单元,得到多个单元数据。
本实施例中的预置语音模型为LSTM模型,LSTM模型为长短时期记忆网络模型,是一种时间递归神经网络模型,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM模型通过“门”来控制丢弃信息或者增加信息,从而实现遗忘或者记忆的功能。LSTM模型中包括多个LSTM单元,每个LSTM单元包括输入门、遗忘门与输出门,输入门控制新语音特征的加入,遗忘门控制上一个LSTM单元所得到的单元数据的遗忘程度,输出门控制单元数据被过滤的程度。
例如,“我的胃痛”的纯净语音信号,在不同时刻有不同的语音特征,对这些不同时刻的语音特征一一进行识别,需要用到多个LSTM单元,将不同时序的语音特征输入不同的LSTM单元,经过输入门、遗忘门和输出门得到每个不同时序的单元数据。
为了便于理解,下面结合具体场景进行说明:
将纯净语音信号处理为帧数据,在这些帧数据中提取t-1时刻、t时刻和t+1时刻的语音特征,将t-1时刻的语音特征从输入门中输入到第一LSTM单元中,得到t-1时刻的第一待遗忘数据,第一待遗忘数据可以为“wwwooo”的数据,并且在遗忘门将第一待遗忘数据与遗忘因子相乘,从而遗忘一些不必要的数据,得到第一单元数据,第一单元数据可以为“wo”的数据;再将t时刻的语音特征输入到第二LSTM单元中,得到t时刻的第二待遗忘数据,第二待遗忘数据可以为“ddddeeeeeee”的数据,并将第二待遗忘数据与遗忘因子相乘,得到第二单元数据,第二单元数据可以为“de”的单元数据;将t+1时刻的语音特征输入到第三LSTM单元中,得到第三待遗忘数据,第三单元待遗忘数据可以为“wwweeeiiiitttooonngggg”的数据,将第三待遗忘数据与遗忘因子相乘,得到第三单元数据,第三单元数据可以为“weitong”的数据。
需要说明的是,在进行将语音特征输入LSTM模型中之前,需要通过大量的训练数 据对LSTM模型进行训练,经过大量训练来提高LSTM模型处理数据的准确性。在提取语音特征之后,服务器判断当前语音特征的历史记录是否存在数据库中,如果当前语音特征的历史记录存在数据库中,则直接调用数据库中的历史记录作为训练数据对LSTM模型进行训练,这样训练方式能够有效的提高LSTM模型处理数据的准确性,以便后续为老人提供更好的服务。
207、通过预置解析模型解析单元数据,得到语音文本。
服务器通过预置解析模型解析单元数据,得到语音文本。
具体的,服务器通过概率模型处理单元数据,得到概率序列,概率序列为多个分类概率的集合;服务器采用预置解析模型搜寻概率序列中的最大分类概率;服务器根据最大分类概率搜寻与最大分类概率相对应的单元数据;服务器将单元数据转换为语音文本。
通过LSTM模型的多个LSTM单元,服务器得到多个单元数据,服务器将这些单元数据输入概率模型中,得到分类概率并形成概率序列,CTC模型在概率序列中搜寻最大的分类概率,服务器根据最大分类概率搜寻与其相对应的单元数据,服务器根据单元数据得到与单元数据相匹配的语音文本。
为了便于理解,下面结合具体场景进行说明:
将第一单元数据“wo”、第二单元数据“de”和第三单元数据“weitong”输入softmax函数,得到概率序列[0.2 0.1 0.7],采用CTC模型搜寻与预置科目类别相匹配的分类概率最大的单元数据,在本实施例中,分类概率最大的单元数据是概率为0.7的第三单元数据“weitong”,根据第三单元数据得到相对应“胃痛”的语音文本。
需要说明的是,本方案识别语音的过程为端到端的过程,即输入端(语音特征)—输出端(语音文本)的过程,在这一过程中,无需使用声学模型和语音模型,只采用LSTM模型识别语音内容,由CTC模型识别语音文本的识别过程避免了采用其他模型带来的误差率,提高语音识别的准确率。
208、根据语音文本按照预置规则获取匹配结果。
服务器根据语音文本按照预置规则获取匹配结果。
具体的,服务器判断语音文本与预置科目类别是否匹配,预置科目类别包括内科、消化内科、外科、眼科、耳鼻喉科和口腔科;若语音文本与预置科目类别相匹配,服务器则获取数字号码,数字号码属于匹配结果,数字号码为相匹配的预置科目类别的预约号码;若语音文本与预置科目类别不匹配,服务器则获取错误结果,错误结果属于匹配结果,错误结果为文字提示消息。
需要说明的是,由于本方案的服务器专用于老人的预约挂号,所以儿科、产科等科目类别都被排除在外,适用于老人的科目类别大致包括内科、消化内科、外科、眼科、耳鼻喉科和口腔科等;是否住院则根据医生的建议,不包括在预订病号系统。
例如,服务器获得“胃痛”的语音文本,服务器判断“胃痛”的语音文本与预置科目类别是否相匹配,从医学角度上讲,胃痛属于消化内科的疾病,如果“胃痛”的语音文本与预置科目类别相匹配,则获取消化内科的数字号码,比如3;如果服务器获得的语音文本为“产科”之类的文本,将“产科”的语音文本与预置科目类别相匹配,但是由于产科不是适用于老人的科目类别,所以“产科”的语音文本无法得到预置科目类别的数字号码,服务器则获得错误结果,错误结果可以为匹配错误或者无法匹配的文字提示消息。
209、根据匹配结果按照预置显示规则显示预约结果。
服务器根据匹配结果按照预置显示规则显示预约结果。
具体的,服务器判断匹配结果是否为数字号码;若匹配结果为数字号码,服务器则显示成功结果,成功结果属于预约结果,成功结果包括预约成功字样和数字号码相匹配的号码文本;若匹配结果不为数字号码,服务器则显示失败结果,失败结果属于预约结果,失败结果为预约失败字样。
如果服务器获得的匹配结果为数字号码,说明语音文本与预置科目类别相匹配,则显示预约成功字样和号码文本;若预约结果为错误结果,说明语音文本无法与预置科目类别相匹配,则显示预约失败字样。
例如,服务器判断获得3的数字号码,则显示成功结果为预约结果,成功结果为预约成功字样和3号的号码文本;如果服务器没有获得数字号码,则显示失败结果为预约结果,失败结果为预约失败字样,服务器通过显示预约失败字样通知老人预约挂号失败需要重新进行预约挂号。
本申请实施例帮助老人准确进行预约挂号,提高了老人通过自助服务预约挂号成功的概率。
上面对本申请实施例中基于语音识别的老人挂号方法进行了描述,下面对本申请实施例中基于语音识别的老人挂号装置进行描述,请参阅图3,本申请实施例中基于语音识别的老人挂号装置一个实施例包括:
第一获取单元301,用于通过专用通道获取纯净语音信号,专用通道使用小波变换增强语音信号;
识别单元302,用于通过预置语音模型识别纯净语音信号,得到单元数据;
解析单元303,用于通过预置解析模型解析单元数据,得到语音文本;
第二获取单元304,用于根据语音文本按照预置规则获取匹配结果;
显示单元305,用于根据匹配结果按照预置显示规则显示预约结果。
本申请实施例帮助老人准确进行预约挂号,提高了老人通过自助服务预约挂号成功的概率。
请参阅图4,本申请实施例中基于语音识别的老人挂号装置另一个实施例包括:
第一获取单元301,用于通过专用通道获取纯净语音信号,专用通道使用小波变换增强语音信号;
识别单元302,用于通过预置语音模型识别纯净语音信号,得到单元数据;
解析单元303,用于通过预置解析模型解析单元数据,得到语音文本;
第二获取单元304,用于根据语音文本按照预置规则获取匹配结果;
显示单元305,用于根据匹配结果按照预置显示规则显示预约结果。
可选的,第一获取单元301具体包括:
获取子单元3011,用于通过专用通道获取语音信号;
转换子单元3012,用于将语音信号转换为语音波形;
分解子单元3013,用于根据预置函数与分解层数对语音波形进行分解,得到多个语音尺度系数,语音尺度系数的数量与分解层数相对应;
第一处理子单元3014,用于根据阈值与阈值去噪函数对语音尺度系数进行压缩,得到高频语音尺度系数;
第二处理子单元3015,用于采用预置算法根据语音尺度系数与高频语音尺度系数对语音信号进行重组,得到纯净语音信号。
可选的,第一处理子单元3014具体用于:
根据极大极小准则与尺度系数,选取阈值;
根据阈值选取阈值去噪函数;
根据阈值去噪函数对语音尺度系数进行过滤,得到高频语音尺度系数。
可选的,识别单元302具体用于:
将纯净语音信号处理为帧数据;
从帧数据中获取语音特征;
将语音特征输入预置语音模型进行处理,得到单元数据,预置语音模型为训练后的模型。
可选的,解析单元303具体用于:
通过概率模型处理单元数据,得到概率序列,概率序列为多个分类概率的集合;
采用预置解析模型搜寻概率序列中的最大分类概率;
根据最大分类概率搜寻与最大分类概率相对应的单元数据;将单元数据转换为语音文本。
可选的,第二获取单元304具体用于:
判断语音文本与预置科目类别是否匹配,预置科目类别为老人常患病的科室类别;
若语音文本与预置科目类别相匹配,则获取数字号码,数字号码属于匹配结果,数字号码为相匹配的预置科目类别的预约号码;
若语音文本与预置科目类别不匹配,则获取错误结果,错误结果属于匹配结果,错误结果为文字提示消息。
可选的,显示单元305具体用于:
判断匹配结果是否为数字号码;
若匹配结果为数字号码,则显示成功结果,成功结果属于预约结果,成功结果包括预约成功字样和所述数字号码相匹配的号码文本;
若预约结果不为数字号码,则显示失败结果,失败结果属于预约结果,所述失败结果为预约失败字样。
本申请实施例用于帮助老人准确进行预约挂号,提高了老人通过自助服务预约挂号成功的概率。
上面图3至图4从模块化功能实体的角度对本申请实施例中的基于语音识别的老人挂号装置进行详细描述,下面从硬件处理的角度对本申请实施例中基于语音识别的老人挂号设备进行详细描述。
下面结合图5对基于语音识别的老人挂号设备的各个构成部件进行具体的介绍:
图5是本申请实施例提供的一种基于语音识别的老人挂号设备的结构示意图,该基于语音识别的老人挂号的设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)501(例如,一个或一个以上处理器)和存储器509,一个或一个以上存储应用程序507或数据506的存储介质508(例如一个或一个以上海量存储设备)。其中,存储器509和存储介质508可以是短暂存储或持久存储。存储在存储介质508的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对签到管理设备中的一系列指令操作。更进一步地,处理器501可以设置为与存储介质508通信,在基于语音识别的老人挂号设备500上执行存储介质508中的一系列指令操作。
基于语音识别的老人挂号设备500还可以包括一个或一个以上电源502,一个或一个以上有线或无线网络接口503,一个或一个以上输入输出接口504,和/或,一个或一个以上操作系统505,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5中示出的基于语音识别的老人挂号设备结构并不构成对基于语音识别的老人挂号设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图5对基于语音识别的老人挂号设备的各个构成部件进行具体的介绍:
处理器501是基于语音识别的老人挂号设备的控制中心,可以按照基于语音识别的老人挂号方法进行处理。处理器501利用各种接口和线路连接整个基于语音识别的老人挂号设备的各个部分,通过运行或执行存储在存储器509内的软件程序和/或模块,以及调用存储在存储器509内的数据,利用纯净语音信号实现端到端的语音识别,提高老人挂号成功的概率。存储介质508和存储器509都是存储数据的载体,本申请实施例中,存储介质508可以是指储存容量较小,但速度快的内存储器,而存储器509可以是储存容量大,但储存 速度慢的外存储器。
存储器509可用于存储软件程序以及模块,处理器501通过运行存储在存储器509的软件程序以及模块,从而执行基于语音识别的老人挂号设备500的各种功能应用以及数据处理。存储器509可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据基于语音识别的老人挂号设备的使用所创建的数据等。此外,存储器509可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在本申请实施例中提供的基于语音识别的老人挂号程序和接收到的数据流存储在存储器中,当需要使用时,处理器501从存储器509中调用。
在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、双绞线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,光盘)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本申请还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行基于语音识别的老人挂号方法的步骤。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本 申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (20)

  1. 一种基于语音识别的老人挂号方法,其中,所述基于语音识别的老人挂号方法包括:
    通过专用通道获取纯净语音信号,所述专用通道使用小波变换增强语音信号;
    通过预置语音模型识别所述纯净语音信号,得到单元数据;
    通过预置解析模型解析所述单元数据,得到语音文本;
    根据所述语音文本按照预置规则获取匹配结果;
    根据所述匹配结果按照预置显示规则显示预约结果。
  2. 根据权利要求1所述的基于语音识别的老人挂号方法,其中,所述通过专用通道获取纯净语音信号,所述专用通道使用小波变换增强语音信号包括:
    通过所述专用通道获取语音信号;
    将所述语音信号转换为语音波形;
    根据预置函数与分解层数对所述语音波形进行分解,得到多个语音尺度系数,所述语音尺度系数的数量与所述分解层数相对应;
    根据阈值与阈值去噪函数对所述语音尺度系数进行压缩,得到高频语音尺度系数;
    采用预置算法根据所述语音尺度系数与所述高频语音尺度系数对所述语音信号进行重组,得到所述纯净语音信号。
  3. 根据权利要求2所述基于语音识别的老人挂号方法,其中,所述根据阈值与阈值去噪函数对所述语音尺度系数进行压缩,得到高频语音尺度系数包括:
    根据极大极小准则与所述尺度系数选取阈值;
    根据所述阈值选取阈值去噪函数;
    根据所述阈值去噪函数对所述语音尺度系数进行过滤,得到所述高频语音尺度系数。
  4. 根据权利要求1所述基于语音识别的老人挂号方法,其中,所述通过预置语音模型识别所述纯净语音信号,得到单元数据包括:
    将所述纯净语音信号处理为帧数据;
    从所述帧数据中获取语音特征;
    将所述语音特征输入预置语音模型进行处理,得到单元数据,所述预置语音模型为训练后的模型。
  5. 根据权利要求1所述基于语音识别的老人挂号方法,其中,所述通过预置解析模型解析单元数据,得到语音文本包括:
    通过概率模型处理所述单元数据,得到概率序列,所述概率序列为多个分类概率的集合;
    采用预置解析模型搜寻所述概率序列中的最大分类概率;
    根据所述最大分类概率搜寻与最大分类概率相对应的所述单元数据;
    将所述单元数据转换为语音文本。
  6. 根据权利要求1-5中任一项所述基于语音识别的老人挂号方法,其中,所述根据语音文本按照预置规则获取匹配结果包括:
    判断所述语音文本与预置科目类别是否匹配,所述预置科目类别包括内科、消化内科、外科、眼科、耳鼻喉科和口腔科;
    若所述语音文本与所述预置科目类别相匹配,则获取数字号码,所述数字号码属于所述匹配结果,所述数字号码为相匹配的预置科目类别的预约号码;
    若语音文本与所述预置科目类别不匹配,则获取错误结果,所述错误结果属于所述匹配结果,所述错误结果为文字提示消息。
  7. 根据权利要求6所述基于语音识别的老人挂号方法,其中,所述根据匹配结果按照预置显示规则显示预约结果包括:
    判断所述匹配结果是否为所述数字号码;
    若所述匹配结果为所述数字号码,则显示成功结果,所述成功结果属于所述预约结果,所述成功结果包括预约成功字样和所述数字号码相匹配的号码文本;
    若所述匹配结果不为所述数字号码,则显示失败结果,所述失败结果属于所述预约结果,所述失败结果为预约失败字样。
  8. 一种基于语音识别的老人挂号设备,其中,所述基于语音识别的老人挂号设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
    通过专用通道获取纯净语音信号,所述专用通道使用小波变换增强语音信号;
    通过预置语音模型识别所述纯净语音信号,得到单元数据;
    通过预置解析模型解析所述单元数据,得到语音文本;
    根据所述语音文本按照预置规则获取匹配结果;
    根据所述匹配结果按照预置显示规则显示预约结果。
  9. 如权利要求8所述的基于语音识别的老人挂号设备,其中,所述计算机程序被所述处理器执行实现所述通过专用通道获取纯净语音信号,所述专用通道使用小波变换增强语音信号时,包括如下步骤:
    通过所述专用通道获取语音信号;
    将所述语音信号转换为语音波形;
    根据预置函数与分解层数对所述语音波形进行分解,得到多个语音尺度系数,所述语音尺度系数的数量与所述分解层数相对应;
    根据阈值与阈值去噪函数对所述语音尺度系数进行压缩,得到高频语音尺度系数;
    采用预置算法根据所述语音尺度系数与所述高频语音尺度系数对所述语音信号进行重组,得到所述纯净语音信号。
  10. 如权利要求9所述的基于语音识别的老人挂号设备,其中,所述计算机程序被所述处理器执行实现所述根据阈值与阈值去噪函数对所述语音尺度系数进行压缩,得到高频语音尺度系数时,包括如下步骤:
    根据极大极小准则与所述尺度系数选取阈值;
    根据所述阈值选取阈值去噪函数;
    根据所述阈值去噪函数对所述语音尺度系数进行过滤,得到所述高频语音尺度系数。
  11. 如权利要求8所述的基于语音识别的老人挂号设备,其中,所述计算机程序被所述处理器执行实现所述通过预置语音模型识别所述纯净语音信号,得到单元数据时,包括如下步骤:
    将所述纯净语音信号处理为帧数据;
    从所述帧数据中获取语音特征;
    将所述语音特征输入预置语音模型进行处理,得到单元数据,所述预置语音模型为训练后的模型。
  12. 如权利要求8所述的基于语音识别的老人挂号设备,其中,所述计算机程序被所述处理器执行实现所述通过预置解析模型解析单元数据,得到语音文本时,包括如下步骤:
    通过概率模型处理所述单元数据,得到概率序列,所述概率序列为多个分类概率的集合;
    采用预置解析模型搜寻所述概率序列中的最大分类概率;
    根据所述最大分类概率搜寻与最大分类概率相对应的所述单元数据;
    将所述单元数据转换为语音文本。
  13. 如权利要求8-12中任一项所述的基于语音识别的老人挂号设备,其中,所述计算机程序被所述处理器执行实现所述根据语音文本按照预置规则获取匹配结果时,包括如 下步骤:
    判断所述语音文本与预置科目类别是否匹配,所述预置科目类别包括内科、消化内科、外科、眼科、耳鼻喉科和口腔科;
    若所述语音文本与所述预置科目类别相匹配,则获取数字号码,所述数字号码属于所述匹配结果,所述数字号码为相匹配的预置科目类别的预约号码;
    若语音文本与所述预置科目类别不匹配,则获取错误结果,所述错误结果属于所述匹配结果,所述错误结果为文字提示消息。
  14. 如权利要求13所述的基于语音识别的老人挂号设备,其中,所述计算机程序被所述处理器执行实现所述根据匹配结果按照预置显示规则显示预约结果时,包括如下步骤:
    判断所述匹配结果是否为所述数字号码;
    若所述匹配结果为所述数字号码,则显示成功结果,所述成功结果属于所述预约结果,所述成功结果包括预约成功字样和所述数字号码相匹配的号码文本;
    若所述匹配结果不为所述数字号码,则显示失败结果,所述失败结果属于所述预约结果,所述失败结果为预约失败字样。
  15. 一种计算机可读存储介质,其中,所述计算机可读存储介质中存储计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如下步骤:
    通过专用通道获取纯净语音信号,所述专用通道使用小波变换增强语音信号;
    通过预置语音模型识别所述纯净语音信号,得到单元数据;
    通过预置解析模型解析所述单元数据,得到语音文本;
    根据所述语音文本按照预置规则获取匹配结果;
    根据所述匹配结果按照预置显示规则显示预约结果。
  16. 如权利要求15所述的计算机可读存储介质,其中,当所述计算机指令在计算机上运行时,使得计算机还执行如下步骤:
    通过所述专用通道获取语音信号;
    将所述语音信号转换为语音波形;
    根据预置函数与分解层数对所述语音波形进行分解,得到多个语音尺度系数,所述语音尺度系数的数量与所述分解层数相对应;
    根据阈值与阈值去噪函数对所述语音尺度系数进行压缩,得到高频语音尺度系数;
    采用预置算法根据所述语音尺度系数与所述高频语音尺度系数对所述语音信号进行重组,得到所述纯净语音信号。
  17. 如权利要求16所述的计算机可读存储介质,其中,当所述计算机指令在计算机上运行时,使得计算机还执行如下步骤:
    根据极大极小准则与所述尺度系数选取阈值;
    根据所述阈值选取阈值去噪函数;
    根据所述阈值去噪函数对所述语音尺度系数进行过滤,得到所述高频语音尺度系数。
  18. 如权利要求15所述的计算机可读存储介质,其中,当所述计算机指令在计算机上运行时,使得计算机还执行如下步骤:
    将所述纯净语音信号处理为帧数据;
    从所述帧数据中获取语音特征;
    将所述语音特征输入预置语音模型进行处理,得到单元数据,所述预置语音模型为训练后的模型。
  19. 如权利要求15所述的计算机可读存储介质,其中,当所述计算机指令在计算机上运行时,使得计算机还执行如下步骤:
    通过概率模型处理所述单元数据,得到概率序列,所述概率序列为多个分类概率的集 合;
    采用预置解析模型搜寻所述概率序列中的最大分类概率;
    根据所述最大分类概率搜寻与最大分类概率相对应的所述单元数据;
    将所述单元数据转换为语音文本。
  20. 一种基于语音识别的老人挂号装置,其中,所述基于语音识别的老人挂号装置包括:
    第一获取单元,用于通过专用通道获取纯净语音信号,所述专用通道使用小波变换增强语音信号;
    识别单元,用于通过预置语音模型识别所述纯净语音信号,得到单元数据;
    解析单元,用于通过预置解析模型解析单元数据,得到语音文本;
    第二获取单元,用于根据语音文本按照预置规则获取匹配结果;
    显示单元,用于根据匹配结果按照预置显示规则显示预约结果。
PCT/CN2020/099481 2019-10-18 2020-06-30 基于语音识别的老人挂号方法、装置、设备及存储介质 WO2021073161A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910991653.3A CN110874879A (zh) 2019-10-18 2019-10-18 基于语音识别的老人挂号方法、装置、设备及存储介质
CN201910991653.3 2019-10-18

Publications (1)

Publication Number Publication Date
WO2021073161A1 true WO2021073161A1 (zh) 2021-04-22

Family

ID=69717880

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/099481 WO2021073161A1 (zh) 2019-10-18 2020-06-30 基于语音识别的老人挂号方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN110874879A (zh)
WO (1) WO2021073161A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110874879A (zh) * 2019-10-18 2020-03-10 平安科技(深圳)有限公司 基于语音识别的老人挂号方法、装置、设备及存储介质
CN115118823A (zh) * 2022-06-23 2022-09-27 中国银行股份有限公司 一种语音服务处理方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170169813A1 (en) * 2015-12-14 2017-06-15 International Business Machines Corporation Discriminative training of automatic speech recognition models with natural language processing dictionary for spoken language processing
WO2018016760A1 (ko) * 2016-07-21 2018-01-25 삼성전자 주식회사 전자 장치 및 그의 제어 방법
CN108932234A (zh) * 2017-05-17 2018-12-04 武汉默联股份有限公司 医疗处理方法、装置以及医用终端
CN108962252A (zh) * 2017-05-17 2018-12-07 武汉默联股份有限公司 数据处理方法、装置以及医用终端
CN108962229A (zh) * 2018-07-26 2018-12-07 汕头大学 一种基于单通道、无监督式的目标说话人语音提取方法
CN109147146A (zh) * 2018-08-21 2019-01-04 平安科技(深圳)有限公司 语音取号的方法及终端设备
CN110874879A (zh) * 2019-10-18 2020-03-10 平安科技(深圳)有限公司 基于语音识别的老人挂号方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107895200A (zh) * 2017-11-15 2018-04-10 广东天泽阳光康众医疗投资管理有限公司 一种智能预约挂号方法、装置、终端设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170169813A1 (en) * 2015-12-14 2017-06-15 International Business Machines Corporation Discriminative training of automatic speech recognition models with natural language processing dictionary for spoken language processing
WO2018016760A1 (ko) * 2016-07-21 2018-01-25 삼성전자 주식회사 전자 장치 및 그의 제어 방법
CN108932234A (zh) * 2017-05-17 2018-12-04 武汉默联股份有限公司 医疗处理方法、装置以及医用终端
CN108962252A (zh) * 2017-05-17 2018-12-07 武汉默联股份有限公司 数据处理方法、装置以及医用终端
CN108962229A (zh) * 2018-07-26 2018-12-07 汕头大学 一种基于单通道、无监督式的目标说话人语音提取方法
CN109147146A (zh) * 2018-08-21 2019-01-04 平安科技(深圳)有限公司 语音取号的方法及终端设备
CN110874879A (zh) * 2019-10-18 2020-03-10 平安科技(深圳)有限公司 基于语音识别的老人挂号方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110874879A (zh) 2020-03-10

Similar Documents

Publication Publication Date Title
US20180322954A1 (en) Method and device for constructing medical knowledge graph and assistant diagnosis method
WO2019085329A1 (zh) 基于循环神经网络的人物性格分析方法、装置及存储介质
WO2019085330A1 (zh) 人物性格分析方法、装置及存储介质
WO2019104890A1 (zh) 结合音频分析和视频分析的欺诈识别方法、装置及存储介质
CN111316281A (zh) 基于机器学习的自然语言情境中数值数据的语义分类
WO2021073161A1 (zh) 基于语音识别的老人挂号方法、装置、设备及存储介质
US11862188B2 (en) Method for detecting and classifying coughs or other non-semantic sounds using audio feature set learned from speech
WO2023165012A1 (zh) 问诊方法和装置、电子设备及存储介质
US11948690B2 (en) Pulmonary function estimation
CN111274365A (zh) 基于语义理解的智能问诊方法、装置、存储介质及服务器
WO2021147363A1 (zh) 一种基于文本的抑郁症识别方法
EP4345840A1 (en) Emergency treatment system, emergency treatment method, and electronic device
WO2016115835A1 (zh) 人体特征数据的处理方法及装置
CN109299227B (zh) 基于语音识别的信息查询方法和装置
KR102066225B1 (ko) 인공지능 기능의 스마트 진단 장치, 시스템 및 방법
CN111223481B (zh) 信息提取方法、装置、计算机可读存储介质及电子设备
CN107480135B (zh) 数据处理方法、医学用语处理系统和医学诊疗系统
CN113094477B (zh) 数据结构化方法、装置、计算机设备及存储介质
WO2023029501A1 (zh) 智能问诊方法、装置、电子设备及存储介质
Xia et al. Exploring machine learning for audio-based respiratory condition screening: A concise review of databases, methods, and open issues
WO2022257630A1 (zh) 基于多模态隐匿信息测试的风险检测方法及装置
CN109243549B (zh) 一种智能随访方法、装置及服务器
JP2023514023A (ja) 質問の検索装置、質問の検索方法、デバイス、および記憶媒体
CN113571184A (zh) 一种用于精神健康测评的对话交互设计方法及系统
Preum et al. CognitiveEMS: A cognitive assistant system for emergency medical services

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20877187

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20877187

Country of ref document: EP

Kind code of ref document: A1