KR20230120790A - Speech Recognition Healthcare Service Using Variable Language Model - Google Patents
Speech Recognition Healthcare Service Using Variable Language Model Download PDFInfo
- Publication number
- KR20230120790A KR20230120790A KR1020220017442A KR20220017442A KR20230120790A KR 20230120790 A KR20230120790 A KR 20230120790A KR 1020220017442 A KR1020220017442 A KR 1020220017442A KR 20220017442 A KR20220017442 A KR 20220017442A KR 20230120790 A KR20230120790 A KR 20230120790A
- Authority
- KR
- South Korea
- Prior art keywords
- language
- voice
- voice recognition
- language model
- speech
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/22—Social work
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
Abstract
본 명세서의 일 실시예에 따른 음성 인식 장치는, 음성 입력부를 통해 입력된 사용자의 음성에 대해 상기 저장부에 저장된 상기 언어모델을 이용하여 음성인식을 수행하되, 입력된 음성에 적어도 하나의 언어장애가 존재하는 경우, 언어장애 유형을 구분하고, 구분된 언어장애 유형에 따른 튜닝 언어모델을 저장부로부터 선택하여 튜닝 언어모델을 이용하여 상기 음성인식을 수행한다. 이에 따라, 입력된 스피치에 언어 장애 요소가 포함되는 경우에도 음성 인식률을 향상시킬 수 있다.A voice recognition device according to an embodiment of the present specification performs voice recognition using the language model stored in the storage unit for a user's voice input through a voice input unit, but if at least one language disorder occurs in the input voice If there is, the speech recognition is performed using the tuning language model by classifying the language disorder type and selecting a tuning language model according to the classified language disorder type from the storage unit. Accordingly, the voice recognition rate can be improved even when the input speech includes a language impediment component.
Description
본 명세서는 음성인식 장치 및 방법에 관한 것이다.The present specification relates to a voice recognition apparatus and method.
음성, 음향, 장애인 특유의 발성이 섞여 음성 인식 장치를 통해 대화를 진행할 경우 비자애인은 이해가 어려운 경우가 발생되어, 음성을 통한 원활한 소통에 어려움이 발생하는 경우가 있다. 특히 동일한 발음을 하더라도 기계를 통해 상대에게 전달시 전혀 다른 의미의 단어나 OOV(Out of vocabulary)로 인식되는 경우가 종종 발생된다.When a conversation is conducted through a voice recognition device in which voice, sound, and vocalization peculiar to the disabled are mixed, it may be difficult for non-loving people to understand, resulting in difficulties in smooth communication through voice. In particular, even if the pronunciation is the same, it is often recognized as a word with a completely different meaning or OOV (Out of Vocabulary) when transmitted to the other party through the machine.
특히, 파킨슨병, 뇌졸중, 실어증 등 다양한 언어 장애 질병이 존재하며, 이러한 언어 장애인의 음성을 종래의 음성인식 시스템을 통해 인식하기는 매우 어려운 문제가 있다.In particular, various language disorders such as Parkinson's disease, stroke, and aphasia exist, and it is very difficult to recognize the voice of a person with such a language disorder through a conventional voice recognition system.
본 명세서는 전술한 문제점을 해결하기 위한 것으로서, 언어 장애 유형에 따른 특징을 반영한 다수의 언어 모델을 이용함으로써, 음성 인식 성능을 향상시킬 수 있는 음성 인식 장치 및 방법을 제공한다.The present specification is intended to solve the above problems, and provides a speech recognition apparatus and method capable of improving speech recognition performance by using a plurality of language models reflecting characteristics according to the type of speech impairment.
본 발명이 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 이하의 발명의 상세한 설명으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The technical problems to be achieved by the present invention are not limited to the above-mentioned technical problems, and other technical problems not mentioned are clear to those skilled in the art from the detailed description of the invention below. will be understandable.
본 명세서의 일 실시예에 따른 음성 인식 장치는, 음성 입력부; 음성인식을 수행하기 위한 적어도 하나의 언어모델이 저장된 저장부; 상기 음성 입력부를 통해 입력된 사용자의 음성에 대해 상기 저장부에 저장된 상기 언어모델을 이용하여 음성인식을 수행하는 음성 인식부; 및 상기 음성 입력부를 통해 입력된 음성에 적어도 하나의 언어장애가 존재하는 것으로 판단된 경우, 언어장애 유형을 구분하고, 구분된 언어장애 유형에 따른 튜닝 언어모델을 상기 저장부로부터 선택하고, 상기 선택된 튜닝 언어모델을 이용하여 상기 음성인식을 수행하도록 상기 음성 인식부를 제어하는 프로세서;를 포함한다.A voice recognition device according to an embodiment of the present specification includes a voice input unit; a storage unit storing at least one language model for performing speech recognition; a voice recognition unit performing voice recognition on the user's voice input through the voice input unit using the language model stored in the storage unit; and when it is determined that at least one language disorder exists in the voice inputted through the voice input unit, the type of language disorder is classified, a tuning language model according to the classified language disorder type is selected from the storage unit, and the selected tuning language model is selected. and a processor controlling the voice recognition unit to perform the voice recognition using a language model.
상기 프로세서는, 상기 입력된 음성에 대하여 미리 정해진 스피치 패턴을 감지한 경우, 상기 언어장애가 존재하는 것으로 판단하고, 상기 미리 정해진 스피치 패턴은, 말 더듬기, 반복 읽기, 발음 부정확, 긴 휴지, 음량 부족 중 적어도 하나를 포함할 수 있다.When the processor detects a predetermined speech pattern with respect to the input voice, it is determined that the speech disorder exists, and the predetermined speech pattern is among stuttering, repetitive reading, inaccurate pronunciation, long pause, and lack of volume. may contain at least one.
상기 저장부는, 말 더듬기 패턴에 대응하는 제1 언어모델, 반복 읽기 패턴에 대응하는 제2 언어모델, 발음 부정확 패턴에 대응하는 제3 언어모델, 상기 언어장애로 판단되는 스피치 패턴 중 적어도 둘 이상이 조합된 패턴에 대응하는 제4 언어모델을 포함할 수 있다.The storage unit may include at least two or more of a first language model corresponding to a stuttering pattern, a second language model corresponding to a repetitive reading pattern, a third language model corresponding to an inaccurate pronunciation pattern, and a speech pattern determined to be the language disorder. A fourth language model corresponding to the combined pattern may be included.
상기 프로세서는, 상기 언어장애에 대응하는 스피치 패턴을 학습데이터로 획득하는 학습데이터 획득부; 상기 학습데이터에 대하여 지도학습 과정을 통해 특정 언어장애에 대응하는 언어모델을 학습하는 모델 학습부;를 더 포함할 수 있다.The processor may include: a learning data acquiring unit acquiring a speech pattern corresponding to the language disorder as learning data; It may further include a model learning unit for learning a language model corresponding to a specific language disorder through a supervised learning process with respect to the learning data.
상기 프로세서는, 상기 음성 입력부를 통해 입력된 음성에 적어도 하나의 언어장애가 존재하는 것으로 판단된 경우, 상기 음성인식을 수행하는 과정에서 상기 저장부에 저장된 언어모델 중 일반 언어모델 및 특정 언어장애에 대응하는 상기 튜닝 언어모델 각각을 적용하여 음성인식 결과를 출력하도록 제어할 수 있다.When it is determined that at least one language disorder exists in the voice input through the voice input unit, the processor responds to a general language model and a specific language disorder among language models stored in the storage unit in the process of performing the voice recognition. It is possible to control to output a voice recognition result by applying each of the tuning language models.
본 명세서의 다른 실시예에 따른 음성 인식 방법은 음성 입력부를 통해 사용자의 음성을 입력받는 단계; 상기 음성 입력부를 통해 입력된 사용자의 음성에 대해 저장부에 저장된 언어모델을 이용하여 음성인식을 수행하는 단계;를 포함하되, 상기 음성 입력부를 통해 입력된 음성에 적어도 하나의 언어장애가 존재하는 것으로 판단된 경우, 언어장애 유형을 구분하고, 구분된 언어장애 유형에 따른 튜닝 언어모델을 상기 저장부로부터 선택하는 단계; 및 상기 선택된 튜닝 언어모델을 이용하여 상기 음성인식을 수행하도록 상기 음성 인식부를 제어하는 단계;를 포함한다.A voice recognition method according to another embodiment of the present specification includes receiving a user's voice through a voice input unit; and performing voice recognition on the user's voice input through the voice input unit using a language model stored in a storage unit, wherein it is determined that at least one language disorder exists in the voice input through the voice input unit. if it is, classifying the language disorder type and selecting a tuning language model according to the classified language disorder type from the storage unit; and controlling the voice recognition unit to perform the voice recognition using the selected tuning language model.
상기 음성 인식 방법은, 상기 입력된 음성에 대하여 미리 정해진 스피치 패턴을 감지한 경우, 상기 언어장애가 존재하는 것으로 판단하는 단계;를 더 포함하고, 상기 미리 정해진 스피치 패턴은, 말 더듬기, 반복 읽기, 발음 부정확, 긴 휴지, 음량 부족 중 적어도 하나를 포함할 수 있다.The voice recognition method further includes determining that the speech disorder exists when a predetermined speech pattern is detected for the input voice, wherein the predetermined speech pattern includes stuttering, repetitive reading, and pronunciation. It may include at least one of inaccuracies, long pauses, and lack of volume.
상기 저장부는, 말 더듬기 패턴에 대응하는 제1 언어모델, 반복 읽기 패턴에 대응하는 제2 언어모델, 발음 부정확 패턴에 대응하는 제3 언어모델, 상기 언어장애로 판단되는 스피치 패턴 중 적어도 둘 이상이 조합된 패턴에 대응하는 제4 언어모델을 포함할 수 있다.The storage unit may include at least two or more of a first language model corresponding to a stuttering pattern, a second language model corresponding to a repetitive reading pattern, a third language model corresponding to an inaccurate pronunciation pattern, and a speech pattern determined to be the language disorder. A fourth language model corresponding to the combined pattern may be included.
상기 음성 인식 방법은, 상기 언어장애에 대응하는 스피치 패턴을 학습데이터로 획득하는 학습데이터 획득하는 단계; 상기 학습데이터에 대하여 지도학습 과정을 통해 특정 언어장애에 대응하는 언어모델을 학습하는 단계;를 더 포함할 수 있다.The voice recognition method may include acquiring learning data for acquiring a speech pattern corresponding to the language disorder as learning data; The method may further include learning a language model corresponding to a specific language disorder through a supervised learning process with respect to the learning data.
상기 음성 입력부를 통해 입력된 음성에 적어도 하나의 언어장애가 존재하는 것으로 판단된 경우, 상기 음성인식을 수행하는 과정에서 상기 저장부에 저장된 언어모델 중 일반 언어모델 및 특정 언어장애에 대응하는 언어모델 각각을 적용하여 음성인식 결과를 출력하도록 제어하는 단계;를 더 포함할 수 있다.When it is determined that there is at least one language disorder in the voice inputted through the voice input unit, a general language model and a language model corresponding to a specific language disorder among the language models stored in the storage unit are each in the process of performing the voice recognition. It may further include; controlling to output a voice recognition result by applying.
본 명세서의 다른 실시예는 전술한 음성 인식 방법을 실행시키도록 구현되어 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램을 포함한다.Another embodiment of the present specification includes a computer program implemented to execute the above-described voice recognition method and stored in a computer-readable recording medium.
본 명세서의 일 실시예에 따르면, 언어 장애 유형에 따른 특징을 반영한 다수의 언어 모델을 이용함으로써, 음성 인식 성능을 향상시킬 수 있다.According to an embodiment of the present specification, speech recognition performance may be improved by using a plurality of language models reflecting characteristics according to the type of language impairment.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The effects obtainable in the present invention are not limited to the effects mentioned above, and other effects not mentioned will be clearly understood by those skilled in the art from the description below. .
본 명세서에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 명세서에 대한 실시예를 제공하고, 상세한 설명과 함께 본 명세서의 기술적 특징을 설명한다.
도 1은 본 명세서의 일 실시예에 따른 음성 인식 장치의 구성을 설명하기 위한 도면이다.
도 2는 본 명세서의 일 실시예에 따른 음성처리 모듈을 구체적으로 설명하기 위한 도면이다.
도 3은 본 명세서의 일 실시예에 따른 음성인식 방법의 흐름도이다.The accompanying drawings, which are included as part of the detailed description to aid understanding of the present specification, provide examples of the present specification and describe technical features of the present specification together with the detailed description.
1 is a diagram for explaining the configuration of a voice recognition apparatus according to an embodiment of the present specification.
2 is a diagram for specifically explaining a voice processing module according to an embodiment of the present specification.
3 is a flowchart of a voice recognition method according to an embodiment of the present specification.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.Hereinafter, the embodiments disclosed in this specification will be described in detail with reference to the accompanying drawings, but the same or similar components are given the same reference numerals regardless of reference numerals, and redundant description thereof will be omitted. The suffixes "module" and "unit" for components used in the following description are given or used together in consideration of ease of writing the specification, and do not have meanings or roles that are distinct from each other by themselves. In addition, in describing the embodiments disclosed in this specification, if it is determined that a detailed description of a related known technology may obscure the gist of the embodiment disclosed in this specification, the detailed description thereof will be omitted. In addition, the accompanying drawings are only for easy understanding of the embodiments disclosed in this specification, the technical idea disclosed in this specification is not limited by the accompanying drawings, and all changes included in the spirit and technical scope of the present invention , it should be understood to include equivalents or substitutes.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.Terms including ordinal numbers, such as first and second, may be used to describe various components, but the components are not limited by the terms. These terms are only used for the purpose of distinguishing one component from another.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.It is understood that when an element is referred to as being "connected" or "connected" to another element, it may be directly connected or connected to the other element, but other elements may exist in the middle. It should be. On the other hand, when an element is referred to as “directly connected” or “directly connected” to another element, it should be understood that no other element exists in the middle.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.Singular expressions include plural expressions unless the context clearly dictates otherwise.
본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.In this application, terms such as "comprise" or "have" are intended to designate that there is a feature, number, step, operation, component, part, or combination thereof described in the specification, but one or more other features It should be understood that the presence or addition of numbers, steps, operations, components, parts, or combinations thereof is not precluded.
도 1은 본 명세서의 일 실시예에 따른 음성 인식 장치의 구성을 설명하기 위한 도면이다.1 is a diagram for explaining the configuration of a voice recognition apparatus according to an embodiment of the present specification.
음성인식 장치(100)는 AI 프로세싱을 수행할 수 있는 AI 모듈을 포함하는 전자 기기 또는 상기 AI 모듈을 포함하는 서버 등을 포함할 수 있다. 상기 AI 프로세싱은, 디바이스의 제어와 관련된 모든 동작들을 포함할 수 있다.The
상기 음성인식 장치(100)는 휴대폰, 스마트폰, 데스크탑 컴퓨터, 노트북, 디지털방송용 단말기, PDA(personal digital assistants), PMP(portable multimedia player), 태블릿 PC, 웨어러블 장치, 셋톱박스(STB), DMB 수신기, 로봇과 같은 고정형 기기 또는 이동 가능한 기기 등으로 구현될 수 있다. 위 예시는 사용자 단말의 예시에 불과하면, 상기 음성인식 장치(100)는 네트워크와 연결된 서버 장치일 수도 있다.The
상기 음성인식 장치(100)는 트레이닝 데이터(110), 러닝 유닛(120), 신경망 모델(130), 통신부(140), 입력부(150), 출력부(160), 프로세서(170)를 포함할 수 있다. 입력된 음성을 처리하는 음성처리 모듈(voice processor)은 프로세서(170)에 포함되거나 독립된 모듈로 구비될 수 있다.The
트레이닝 데이터(110)는 인공신경망을 학습시키기 위한 데이터로서, 경험이나 교육을 통해 획득한 사실, 정보 및 기술(Information about objects, events, concepts or rules, their relationships and properties, organized of goal-oriented systematic use) 등을 의미할 수 있다. 상기 트레이닝 데이터(110)는 트레이닝 데이터 획득부의 의미를 포함할 수 있다.The
본 명세서의 일 실시예에 의하면 트레이닝 데이터(110)는 음성인식 장치(100)에 입력되는 음성신호(voice signal)을 포함할 수 있다. 또는 상기 트레이닝 데이터(110)는 상기 음성인식 장치(100)에 입력되는 음성신호 중 언어장애 요소가 포함되어 있는 특정 음성신호만을 의미할 수도 있다. 또는 프로세서(170)는 입력된 음성신호에 대하여 음성인식을 수행한 결과 음성 인식률이 미리 정해진 인식률 이하인 음성신호를 구분하고, 음성 인식률이 저조한 음성신호를 트레이닝 데이터(110)로 획득할 수 있다.According to an embodiment of the present specification, the
또는 프로세서(170)는 미리 정해진 스피치 패턴에 대응되는 음성이 입력되는 경우, 음성인식을 수행하는 과정과 별도로 트레이닝 데이터로 활용할 수 있다. 여기서 미리 정해진 스피치 패턴은 본 명세서의 일 실시예에 따라 언어장애 유형으로 구분될 수 있는 적어도 하나의 언어장애 스피치 패턴에 대응되는 음성신호를 포함할 수 있다. 상기 미리 정해진 스피치 패턴에 대응되는 음성인지 여부를 판단하기 위해 프로세서(170)는 음성인식을 통해 음성신호를 텍스트로 변환한 후, 상기 변환된 텍스트를 분석하여 입력된 음성이 언어장애 스피치 패턴에 대응되는 음성신호인지 여부를 판단할 수도 있다.Alternatively, when a voice corresponding to a predetermined speech pattern is input, the
일 실시예에 따라 상기 미리 정해진 언어장애 스피치 패턴은, 말 더듬기, 반복 읽기, 발음 부정확, 긴 휴지, 음량 부족 등으로 인해 원활한 음성인식이 불가능한 상태의 스피치 패턴을 의미할 수 있다. 한편, 전술한 말 더듬기, 반복 읽기, 발음 부정확, 긴 휴지, 음량 부족 등의 스피치 패턴은 본 명세서의 기술적 사상을 설명하기 위한 예시이며, 상기 미리 정해진 언어장애 스피치 패턴은 전술한 예로 한정되지 않고 새롭게 발견되는 언어장애 유형을 등록함으로써, 다양한 언어장애 증세에 최적화된 음성인식 언어모델을 구축할 수 있다.According to an embodiment, the predetermined speech pattern for speech impairment may refer to a speech pattern in a state in which smooth speech recognition is impossible due to stuttering, repetitive reading, inaccurate pronunciation, long pauses, insufficient volume, and the like. On the other hand, the aforementioned speech patterns such as stuttering, repetitive reading, inaccurate pronunciation, long pauses, and lack of volume are examples for explaining the technical idea of the present specification, and the predetermined speech pattern for speech impairment is not limited to the above-described examples and is a new one. By registering the type of language disorder found, it is possible to build a speech recognition language model optimized for various symptoms of language disorder.
학습부(120)는 데이터 분류/인식을 판단하기 위하여 어떤 학습 데이터를 이용할지, 학습 데이터를 이용하여 데이터를 어떻게 분류하고 인식할지에 관한 기준을 학습할 수 있다. 학습부(120)는 학습에 이용될 학습 데이터를 획득하고, 획득된 학습데이터를 신경망 모델에 적용함으로써, 신경망 모델을 학습할 수 있다.The
학습부(120)는 적어도 하나의 하드웨어 칩 형태로 제작되어 음성인식 장치(100)에 탑재될 수 있다. 예를 들어, 학습부(120)는 인공지능(AI)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 범용 프로세서(CPU) 또는 그래픽 전용 프로세서(GPU)의 일부로 제작되어 음성인식 장치(100)에 탑재될 수도 있다. 또한, 학습부(120)는 소프트웨어 모듈로 구현될 수 있다. 소프트웨어 모듈(또는 인스트럭션(instruction)을 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록 매체(non-transitory computer readable media)에 저장될 수 있다. 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 애플리케이션에 의해 제공될 수 있다.The
본 명세서의 일 실시예에 따른 학습부(Learning unit, 120)는 트레이닝 데이터(110)가 확정되면 트레이닝 데이터(110)에 전처리 과정을 수행하고, 전처리된 데이터를 이용하여 인공신경망을 학습시킨다.When the
학습부(120)는 데이터 획득부(미도시) 및 모델 학습부(미도시)를 더 포함할 수 있다.The
학습 데이터 획득부는 데이터를 분류하고 인식하기 위한 신경망 모델에 필요한 학습 데이터를 획득할 수 있다. 예를 들어, 데이터 획득부(23)는 학습 데이터로서, 신경망 모델에 입력하기 위한 샘플 데이터를 획득할 수 있다. 본 명세서의 일 실시예에 의하면, 상기 학습을 위한 샘플 데이터는 음성인식 장치(100)로 인력되는 모든 음성 신호이거나, 미리 정해진 스피치 패턴이 등록되어 있는 경우, 상기 미리 정해진 스피치 패턴에 해당되는 음성신호를 추출하여 학습데이터로 정의할 수 있다.The learning data acquisition unit may acquire learning data required for a neural network model for classifying and recognizing data. For example, the data acquisition unit 23 may acquire sample data to be input to a neural network model as training data. According to an embodiment of the present specification, the sample data for learning are all voice signals attracted to the
모델 학습부는 상기 획득된 학습 데이터를 이용하여, 신경망 모델이 소정의 데이터를 어떻게 분류할지에 관한 판단 기준을 가지도록 학습할 수 있다. 이 때 모델 학습부는 학습 데이터 중 적어도 일부를 판단 기준으로 이용하는 지도 학습(supervised learning)을 통하여, 신경망 모델을 학습시킬 수 있다. 또는 모델 학습부는 지도 없이 학습 데이터를 이용하여 스스로 학습함으로써, 판단 기준을 발견하는 비지도 학습(unsupervised learning)을 통해 신경망 모델을 학습시킬 수 있다. 또한, 모델 학습부는 학습에 따른 상황 판단의 결과가 올바른지에 대한 피드백을 이용하여 강화 학습(reinforcement learning)을 통하여, 신경망 모델을 학습시킬 수 있다. 또한, 모델 학습부는 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient decent)을 포함하는 학습 알고리즘을 이용하여 신경망 모델을 학습시킬 수 있다.The model learning unit may learn to have a criterion for determining how to classify predetermined data by using the acquired training data. At this time, the model learning unit may learn the neural network model through supervised learning using at least a part of the learning data as a criterion. Alternatively, the model learning unit may learn the neural network model through unsupervised learning in which a decision criterion is discovered by self-learning using training data without guidance. In addition, the model learning unit may train the neural network model through reinforcement learning using feedback about whether the result of the situation judgment according to learning is correct. In addition, the model learning unit may train the neural network model using a learning algorithm including error back-propagation or gradient decent.
신경망 모델이 학습되면, 모델 학습부는 학습된 신경망 모델을 메모리에 저장할 수 있다. 모델 학습부는 학습된 신경망 모델을 음성인식 장치(100)와 유선 또는 무선 네트워크로 연결된 서버의 메모리에 저장할 수도 있다.When the neural network model is learned, the model learning unit may store the learned neural network model in memory. The model learning unit may store the learned neural network model in a memory of a server connected to the
학습부(120)는 인식 모델의 분석 결과를 향상시키거나, 인식 모델의 생성에 필요한 리소스 또는 시간을 절약하기 위해 학습 데이터 전처리부(미도시) 및 학습 데이터 선택부(미도시)를 더 포함할 수도 있다.The
학습 데이터 전처리부는 획득된 데이터가 상황 판단을 위한 학습에 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 예를 들어, 학습 데이터 전처리부는, 모델 학습부가 음성인식 장치(100)에 입력된 음성 데이터, 음성인식 결과에 대응하는 텍스트 데이터를 학습 데이터로 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다.The learning data pre-processing unit may pre-process the acquired data so that the acquired data can be used for learning for situation determination. For example, the learning data pre-processing unit may process the acquired data into a preset format so that the model learning unit can use voice data input to the
또한, 학습 데이터 선택부는, 학습 데이터 획득부에서 획득된 학습 데이터 또는 전처리부에서 전처리된 학습 데이터 중 학습에 필요한 데이터를 선택할 수 있다. 본 명세서의 일 실시예에 따르면, 언어장애 요소를 가지는 특정 스피치 패턴은 단일 언어장애 증상을 보이는 스피치 패턴, 두 가지의 언어장애 증상이 포함된 스피치 패턴, 두 가지 이상의 언어장애 증상이 포함된 스피치 패턴 등을 포함할 수 있다. 프로세서는 학습 데이터를 선택하는 과정에서 전술한 단일 언어증상 스피치 패턴의 데이터를 학습데이터로 하여 단일 언어장애 언어모델을 학습할 수 있다. 또한 프로세서는 복수의 언어증상 스피치 패턴의 데이터를 학습데이터로 하여 복합 언어장애 언어모델을 학습할 수 있다. 예를 들어, 프로세서는 말 더듬 스피치 패턴과 반복 읽기 스피치 패턴의 데이터를 언어모델 튜닝을 위한 학습데이터로 이용할 수 있다.In addition, the learning data selector may select data necessary for learning from among the learning data acquired by the learning data acquisition unit or the learning data preprocessed by the preprocessor. According to one embodiment of the present specification, a specific speech pattern having a language disorder component includes a speech pattern showing a single language disorder symptom, a speech pattern including two symptoms of a language disorder, and a speech pattern including two or more symptoms of a language disorder. etc. may be included. In the process of selecting training data, the processor may learn a single language disorder language model using the above-described single language symptom speech pattern data as training data. In addition, the processor may learn a complex language disorder language model using data of a plurality of speech patterns of speech symptoms as learning data. For example, the processor may use data of a stuttering speech pattern and a repeated reading speech pattern as training data for tuning a language model.
또한, 학습부(120)는 신경망 모델의 분석 결과를 향상시키기 위하여 모델 평가부(미도시)를 더 포함할 수도 있다.In addition, the
모델 평가부는, 신경망 모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 분석 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(120)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 인식 모델을 평가하기 위한 기 정의된 데이터일 수 있다. 일 예로, 모델 평가부는 평가 데이터에 대한 학습된 인식 모델의 분석 결과 중, 분석 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정되 임계치를 초과하는 경우, 소정 기준을 만족하지 못한 것으로 평가할 수 있다.The model evaluation unit inputs evaluation data to the neural network model, and when an analysis result output from the evaluation data does not satisfy a predetermined criterion, it may cause the
통신부(140)는 프로세서(170)에 의한 AI 프로세싱 결과를 외부 전자 기기로 전송할 수 있다. 여기서 외부 전자 기기는 외부 서버, 사용자 단말 등을 포함할 수 있다.The
통신부(140)가 이용하는 통신 기술에는 GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), LTE(Long Term Evolution), 5G, WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), 블루투스(Bluetooth?), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), ZigBee, NFC(Near Field Communication) 등이 있다.Communication technologies used by the
입력부(140)는 다양한 종류의 데이터를 획득할 수 있다. 입력부(120)는 영상 신호 입력을 위한 카메라, 오디오 신호를 수신하기 위한 마이크로폰, 사용자로부터 정보를 입력 받기 위한 사용자 입력부 등을 포함할 수 있다. 여기서, 카메라나 마이크로폰을 센서로 취급하여, 카메라나 마이크로폰으로부터 획득한 신호를 센싱 데이터 또는 센서 정보라고 할 수도 있다.The
입력부(150)는 모델 학습을 위한 학습 데이터 및 학습 모델을 이용하여 출력을 획득할 때 사용될 입력 데이터 등을 획득할 수 있다. 입력부(150)는 가공되지 않은 입력 데이터를 획득할 수도 있으며, 이 경우 프로세서(170)는 입력 데이터에 대하여 전처리로써 입력 특징점(input feature)을 추출할 수 있다.The
출력부(160)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시킬 수 있다. 출력부(160)에는 시각 정보를 출력하는 디스플레이부, 청각 정보를 출력하는 스피커, 촉각 정보를 출력하는 햅틱 모듈 등이 포함될 수 있다.The
프로세서(170)는 학습부(120)에서 인공신경망 학습이 완료되면 메모리(미도시)에 신경망 모델(NN Model, 130)을 저장할 수 있다.The
프로세서(170)는 메모리(미도시)에 저장된 프로그램을 이용하여 신경망을 학습할 수 있다. 특히, 프로세서(170)는 음성인식 장치(100)에 입력된 음성에 언어장애 요소가 포함된 경우, 언어장애 요소에도 불구하고 음성 인식률을 높이기 위해 언어장애 요소가 포함된 학습데이터에 기초하여 신경망을 학습할 수 있다. 여기서, 신경망은 인간의 뇌 구조를 컴퓨터 상에서 모의하도록 설계될 수 있으며, 인간의 신경망의 뉴런(neuron)을 모의하는, 가중치를 갖는 복수의 네트워크 노드들을 포함할 수 있다. 복수의 네트워크 모드들은 뉴런이 시냅스(synapse)를 통해 신호를 주고받는 뉴런의 시냅틱 활동을 모의하도록 각각 연결 관계에 따라 데이터를 주고받을 수 있다. 여기서 신경망은 신경망 모델에서 발전한 딥러닝 모델을 포함할 수 있다. 딥 러닝 모델에서 복수의 네트워크 노드들은 서로 다른 레이어에 위치하면서 컨볼루션(convolution) 연결 관계에 따라 데이터를 주고 받을 수 있다. 신경망 모델의 예는 심층 신경망(DNN, deep neural networks), 합성곱 신경망(CNN, convolutional deep neural networks), 순환 신경망(RNN, Recurrent Boltzmann Machine), 제한 볼츠만 머신(RBM, Restricted Boltzmann Machine), 심층 신뢰 신경망(DBN, deep belief networks), 심층 Q-네트워크(Deep Q-Network)와 같은 다양한 딥 러닝 기법들을 포함하며, 컴퓨터비젼, 음성인식, 자연어처리, 음성/신호처리 등의 분야에 적용될 수 있다.The
한편, 전술한 바와 같은 기능을 수행하는 프로세서는 범용 프로세서(예를 들어, CPU)일 수 있으나, 인공지능 학습을 위한 AI 전용 프로세서(예를 들어, GPU)일 수 있다.Meanwhile, the processor performing the functions described above may be a general-purpose processor (eg, CPU), or may be an AI-only processor (eg, GPU) for artificial intelligence learning.
한편, 음성인식 장치(100)는 메모리(미도시)를 더 포함할 수 있다. 상기 메모리는 음싱인식 동작에 필요한 각종 프로그램 및 데이터를 저장할 수 있다. 메모리는 비 휘발성 메모리, 휘발성 메모리, 플래시 메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SDD) 등으로 구현할 수 있다. 메모리는 프로세서(170)에 의해 엑세스되며, 프로세서(170)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 또한, 메모리는 본 발명의 일 실시예에 따른 데이터 분류/인식을 위한 학습 알고리즘을 통해 생성된 신경망 모델(예를 들어, 특정 언어장애에 대응하는 언어모델, 복수의 언어장애 증상에 대응되는 복합 언어모델)을 저장할 수 있다.Meanwhile, the
본 명세서는 음성인식 장치가 활용될 수 있는 다양한 기기 예를 들어, 감시용 카메라, 자율주행 차량, 사용자 단말기 및 서버 중 하나 이상이 인공 지능(Artificial Intelligence) 모듈, 로봇, 증강현실(Augmented Reality, AR) 장치, 가상 현실(Virtual reality, VT) 장치, 5G 서비스와 관련된 장치 등과 연계될 수 있다.In the present specification, one or more of various devices to which a voice recognition device can be utilized, for example, a surveillance camera, an autonomous vehicle, a user terminal, and a server, an artificial intelligence module, a robot, and an augmented reality (AR) ) device, a virtual reality (VT) device, and a device related to 5G service.
한편, 도 2를 참조하면, 본 명세서의 일 실시예에 따른 음성인식 장치(100)는 음성처리 모듈(이하, 프로세서 170 내부에 구비된 음성처리 모듈로 가정하여 설명함)을 포함할 수 있다. 음성 처리모듈(170)은 자동 음성 인식(Auto Speech Recognition, ASR) 모듈(171), 지능형 에이전트(Artificial Intelligent Agent)(172), 자연어 이해(Natural Language Understanding, NLU) 모듈(173), 텍스트 음성 변환(Text-to-Speech, TTS) 모듈(174)를 포함할 수 있다.Meanwhile, referring to FIG. 2 , the
ASR 모듈(171)은 수신된 사용자 음성 입력을 텍스트 데이터로 변환할 수 있다. ASR 모듈(171)은 프론트-엔드 스피치 프리프로세서(front-end speech pre-processor)를 포함할 수 있다. 프론트-엔드 스피치 프리프로세서는 스피치 입력으로부터 대표적인 특징을 추출한다. 예를 들어, 프론트-엔드 스피치 프리프로세서는 스피치 입력을 푸리에 변환을 수행하여 대표적인 다차원 벡터의 시퀀스로서 스피치 입력을 특징짓는 스펙트럼 특징을 추출한다. 또한, ASR 모듈(171)은 하나 이상의 스피치 인식 모델(예컨대, 음향 모델 및/또는 언어 모델)을 포함하고, 하나 이상의 스피치 인식 엔진을 구비할 수 있다. 스피치 인식 모델의 예는 은닉 마르코프 모델(Hidden Markov Models), 가우시안 혼합 모델(Gaussian-Mixture Models), 딥 신경망 모델(Deep Neural Network Models), n-gram 언어 모델, 및 기타 통계 모델을 포함할 수 있다. 스피치 인식 엔진의 예는 동적 시간 왜곡 기반 엔진 및 가중치 유한 상태 변환기(WFST) 기반 엔진을 포함할 수 있다. 하나 이상의 스피치 인식 모델 및 하나 이상의 스피치 인식 엔진은 중간 인식 결과들(예를 들어, 음소, 음소 문자열, 및 하위 단어들), 및 궁극적으로 텍스트 인식 결과들(예컨대, 단어, 단어 문자열, 또는 토큰들의 시퀀스)을 생성하기 위해 프론트-엔드 스피치 프리프로세서의 추출된 대표 특징들을 처리하는 데 사용될 수 있다.The
ASR 모듈(171)이 텍스트 문자열(예를 들어, 단어들, 또는 단어들의 시퀀스, 또는 토큰들의 시퀀스)을 포함하는 인식 결과를 생성하면, 인식 결과는 의도 추론을 위해 자연 언어 처리 모듈(173)로 전달될 수 있다. 일부 예들에서, ASR 모듈(171)은 스피치 입력의 다수의 후보 텍스트 표현들을 생성한다. 각각의 후보 텍스트 표현은 스피치 입력에 대응하는 단어들 또는 토큰들의 시퀀스이다.When
NLU 모듈(173)은 문법적 분석(Syntactic analyze) 또는 의미적 분석(Semantic analyze)을 수행하여 사용자 의도를 파악할 수 있다. 상기 문법적 분석은 문법 단위(예를 들어, 단어, 구, 형태소 등)를 나누고, 나누어진 단위가 어떠한 문법적인 요소를 갖는지 파악할 수 있다. 상기 의미적 분석은 의미(semantic) 매칭, 룰(rule) 매칭, 포뮬러(formula) 매칭 등을 이용하여 수행할 수 있다. 이에 따라, NUL 모듈(173)은 사용자 입력이 어느 도메인(domain), 의도(intent) 또는 상기 의도를 표현하는데 필요한 파라미터(parameter)를 획득할 수 있다.The
상기 NLU 모듈(173)은 도메인, 의도 및 상기 의도를 파악하는데 필요한 파라미터로 나누어진 매핑 규칙을 이용하여 사용자의 의도 및 파라미터를 결정할 수 있다. 예를 들어, 하나의 도메인(예를 들어, 날씨정보)은 복수의 의도(예를 들어, 더워, 추워, 날씨에 대한 감정표현 등)를 포함할 수 있고, 하나의 의도는 복수의 파라미터(예를 들어, 시간, 반복 횟수, 알람음 등)을 포함할 수 있다. 복수의 룰은, 예를 들어, 하나 이상의 필수 요소 파라미터를 포함할 수 있다. 상기 매칭 규칙은 자연어 이해 데이터 베이스(Natural Language Understanding Database)에 저장될 수 있다.The
상기 NLU 모듈(173)은 형태소, 구 등의 언어적 특징(예를 들어, 문법적 요소)을 이용하여 사용자 입력으로부터 추출된 단어의 의미를 파악하고, 상기 파악된 단어의 의미를 도메인 및 의도에 매칭시켜 사용자의 의도를 결정한다. 예를 들어, NLU 모듈(173)은 각각의 도메인 및 의도에 사용자 입력에서 추출된 단어가 얼마나 포함되어 있는지를 계산하여 사용자 의도를 결정할 수도 있다. 일 실시예에 따르면, NLU 모듈(173)은 상기 의도를 파악하는데 기초가된 단어를 이용하여 사용자 입력의 파라미터를 결정할 수 있다. 일 실시예에 따르면, NLU 모듈(173)은 사용자 입력의 의도를 파악하기 위한 언어적 특징이 저장된 자연어 인식 데이터 베이스를 이용하여 사용자의 의도를 결정할 수 있다. 또한 일 실시예에 따르면, NLU 모듈(173)은 개인화 언어 모델(personal language model, PLM)을 이용하여 사용자의 의도를 결정할 수 있다. 예를 들어, NLU 모듈(173)은 개인화된 정보(예를 들어, 언어이용 특성, 언어장애 여부 등)을 이용하여 사용자의 의도를 결정할 수 있다. 상기 개인화 언어 모델은, 예를 들어, 자연어 인식 데이터 베이스에 저장될 수 있다. 일 실시예에 따르면, NLU 모듈(173) 뿐 아니라 ASR 모듈(173)도 자연어 인식 데이터 베이스에 저장된 개인화 언어 모델을 참고하여 사용자 음성을 인식할 수 있다.The
NLU 모듈(173)은 자연어 생성 모듈(미도시)을 더 포함할 수 있다. 상기 자연어 생성 모듈은 지정된 정보를 텍스트 형태로 변경할 수 있다. 상기 텍스트 형태로 변경된 정보는 자연어 발화의 형태일 수 있다. 상기 지정된 정보는 예를 들어, 추가 입력에 대한 정보, 사용자 입력에 대응되는 동작의 완료를 안내하는 정보 또는 사용자의 추가 입력을 안내하는 정보 등을 포함할 수 있다. 상기 텍스트 형태로 변경된 정보는 클라이언트 디바이스로 전송되어 디스플레이에 표시되거나, TTS 모듈로 전송되어 음성 형태로 변경될 수 있다.The
여기서 상기 NLU 모듈(173)은 사용자의 의도를 추론함에 있어서, 일반적인 언어모델을 사용할 수도 있다. 상기 일반적인 언어모델이라 함은, 스피커(speaker)가 별다른 언어장애 현상 없는 음성을 입력한 경우, 음성인식 장치(100)에서 이용하는 언어모델일 수 있다. 그러나 본 명세서의 일 실시예에 따르면, 상기 일반적인 언어모델을 사용하여 사용자의 의도가 정상적으로 추론되지 못한 경우, 특히 입력된 음성이 언어장애 요소를 포함하여 상기 일반적인 언어모델을 이용한 경우 정상적인 음성인식이 불가능한 것으로 판단한 경우, 일반적인 언어모델에서 언어장애의 특징요소가 튜닝된 튜닝 언어모델을 사용할 수 있다.Here, the
일 실시예에 따라 프로세서는 상기 NLU 모듈(173)에서 상기 일반적인 언어모델을 이용하여 음성인식을 수행한 결과, 사용자의 의도 추출이 불가능한 경우를 입력된 음성에 언어장애 요소가 포함된 것으로 판단할 수 있다.According to an embodiment, as a result of performing voice recognition using the general language model in the
또한, 일 실시예에 따라 프로세서는 상기 ASR 모듈(171)에서 입력된 음성을 텍스트로 변환한 결과를 NLU 모듈(173)에서 상기 문법적 분석을 수행한 결과 구분된 형태소가 어떠한 문법적인 요소를 갖는지 파악할 수 없는 경우, 입력된 음성에 언어장애 요소가 포함된 것으로 판단할 수도 있다.In addition, according to an embodiment, the processor performs the grammatical analysis in the
입력된 음성에 언어장애 요소가 포함된 것으로 판단하는 방법은 전술한 예시에 한정되지 않고 다양한 방법을 통해 구현될 수 있다.The method of determining that the input voice includes a language impediment component is not limited to the above example and may be implemented through various methods.
음성 합성 모듈(TTS 모듈, 174)은 텍스트 형태의 정보를 음성 형태의 정보로 변경할 수 있다. TTS 모듈(174)은 NLU 모듈(173)의 자연어 생성 모듈로부터 텍스트 형태의 정보를 수신하고, 상기 텍스트 형태의 정보를 음성 형태의 정보로 변경하여 음성 형태의 정보를 스피커를 통해 출력할 수 있다.The voice synthesis module (TTS module, 174) may change text-type information into voice-type information. The
음성 합성 모듈(174)은 제공된 텍스트에 기초하여 스피치 출력을 합성한다. 예를 들어, 음성 인식 모듈(ASR)(171)에서 생성된 결과는 텍스트 문자열의 형태이다. 음성 합성 모듈(174)은 텍스트 문자열을 가청 스피치 출력으로 변환한다. 음성 합성 모듈(174)은, 텍스트로부터의 스피치 출력을 생성하기 위하여 임의의 적절한 스피치 합성 기법을 사용하는데, 이는 편집 합성(concatenative synthesis), 단위 선택 합성(unit selection synthesis), 다이폰 합성, 도메인-특정 합성, 포먼트 합성(Formant synthesis), 조음 합성(Articulatory synthesis), HMM(hidden Markov model) 기반 합성, 및 정현파 합성(sinewave synthesis)을 포함하지만 이로 한정되지 않는다.
일부 예들에서, 음성 합성 모듈(174)은 단어들에 대응하는 음소 문자열에 기초하여 개별 단어들을 합성하도록 구성된다. 예를 들어, 음소 문자열은 생성된 텍스트 문자열의 단어와 연관된다. 음소 문자열은 단어와 연관된 메타데이터에 저장된다. 음성 합성 모듈(174)은 스피치 형태의 단어를 합성하기 위해 메타데이터 내의 음소 문자열을 직접 프로세싱하도록 구성된다.In some examples,
본 명세서의 일 실시예에 따라, ASR 모듈(171), NLU 모듈(173)의 음성 처리 결과를 TTS(174)를 통해 음성합성을 수행한 결과, TTS(174)의 출력이 독립적인 언어적 의미를 갖지 못하는 경우 예를 들어, 사용자의 의도는 "더워" 라는 음성을 입력하고자 하였으나, 사용자의 언어장애로 인해 "더더워", "더더더워", "더더어더워" 등의 TTS(174) 결과를 출력한 경우, 입력된 음성에 언어장애 요소가 포함된 것으로 판단하고, 상기 입력된 음성을 추후 언어모델 튜닝을 위한 학습 데이터로 저장할 수 있다. 즉, 본 명세서의 일 실시예는 ASR 모듈(171), NLU 모듈(173)을 통해서만 입력 음성의 언어장애 포함여부를 판단하는 것이 아니라, ASR 모듈(171), NLU 모듈(173)의 음성 처리 결과에서는 언어장애 요소가 포함되어 있는지 판단하지 못하였으나, 최종적으로 TTS(174) 출력 결과를 통해서 언어장애 포함여부를 판단할 수도 있다.According to an embodiment of the present specification, as a result of performing speech synthesis through the
한편, 본 발명의 일 실시예에 따른 챗봇 대화 처리 장치는 지능형 에이전트(Artificial Intelligence Agent, AI 에이전트)(172)를 더 포함할 수 있다. 상기 지능형 에이전트(172)는 전술한 ASR 모듈(171), NLU 모듈(173) 및/또는 TTS 모듈(173)이 수행하는 기능 중 적어도 일부의 기능을 수행하도록 설계될 수 있다. 또한 상기 지능형 에이전트 모듈(172)은 ASR 모듈(171), NLU 모듈(173) 및/또는 TTS 모듈(174) 각각의 독립적인 기능을 수행하는데 기여할 수 있다.Meanwhile, the chatbot conversation processing apparatus according to an embodiment of the present invention may further include an artificial intelligence agent (AI agent) 172. The
상기 지능형 에이전트 모듈(173)은 심층학습(딥러닝)을 통해 전술한 기능들을 수행할 수 있다. 상기 심층학습은 심층 신경망(DNN, deep neural networks), 합성곱 신경망(CNN, convolutional deep neural networks), 순환 신경망(RNN, Recurrent Boltzmann Machine), 제한 볼츠만 머신(RBM, Restricted Boltzmann Machine), 심층 신뢰 신경망(DBN, deep belief networks), 심층 Q-네트워크(Deep Q-Network)와 같은 다양한 딥 러닝 기법들이 컴퓨터비젼, 음성인식, 자연어처리, 음성/신호처리 등의 분야에 적용될 수 있다.The
지능형 에이전트 모듈(172)은 자연어 처리 분야에서 심층 인공신경망 구조를 이용하여 자동 번역(machine translation), 감정 분석(emotion analysis), 정보 검색(information retrieval)을 비롯한 다양한 자연언어처리 과정을 수행할 수 있다.The
본 명세서의 일 실시예는 지능형 에이전트 모듈(172)을 통해 입력된 음성에 언어장애 요소가 포함되어 있는지 여부를 판단할 수도 있다. 지능형 에이전트 모듈(172)은 특히 다양한 개인화된 정보를 수집하여, 개인화된 언어모델을 학습하는데 활용될 수 있다. 일 실시예에 따라, 음성인식 장치(100) 사용자에 의해 주로 발현되는 주요 언어장애 유형들을 판단하고, 해당 언어장애 유형에 대응되는 언어모델에 대하여 튜닝을 수행할 수 있다. 지능형 에이전트 모듈(172)은 상기 개인화된 언어모델을 학습하는데, 개인화된 정보 예를 들어, 맵(maps), SMS, News, Music, Stock, Weather, wikipedia 정보를 활용할 수도 있다.An embodiment of the present specification may determine whether a speech input through the
상기 지능형 에이전트(172)은 설명의 편의를 위해 ASR 모듈(171), NLU 모듈(173) 및 TTS 모듈(174)과 구분되도록 별도의 블럭으로 표현하였으나, 상기 지능형 에이전트(172)는 상기 각 모듈(171,173,174)의 적어도 일부 또는 전부의 기능을 수행할 수도 있다.The
도 3은 본 명세서의 일 실시예에 따른 음성인식 방법의 흐름도이다. 상기 음성인식 방법은 도 1의 프로세서(Processor) 또는 음성처리 모듈(Voice Processor)을 통해 구현될 수 있다.3 is a flowchart of a voice recognition method according to an embodiment of the present specification. The voice recognition method may be implemented through a processor or a voice processor of FIG. 1 .
도 3을 참조하면, 프로세서(170)은 입력부를 통해 음성입력을 수신할 수 있다(S300). 프로세서(170)는 입력된 음성에 언어장애 요소가 포함되어 있는지를 판단할 수 있다(S310). 프로세서(170)는 일반적으로 음성인식 동작에 사용되는 언어모델을 사용할 것인지, 언어장애가 포함된 음성에 특화된 튜닝 언어모델을 사용할 것인지 판단하기 위해 음성인식 장치(100)에 입력된 음성에 언어장애 요소가 포함되어 있는지 여부를 판단할 필요가 있다.Referring to FIG. 3 , the
전술한 바와 같이 프로세서(170)는 입력된 음성에 대하여 ASR 결과, NLU 결과 및/또는 TTS 결과에 기초하여 입력된 음성에 언어장애 요소가 포함되어 있는지 여부를 판단할 수 있다. 일 실시예에 따라 프로세서(170)는 입력된 음성에 대하여 미리 정해진 스피치 패턴을 감지한 경우, 상기 언어장애가 존재하는 것으로 판단할 수 있다. 여기서 언어장애 요소를 판단하기 위한 상기 미리 정해진 스피치 패턴은 말 더듬기, 반복 읽기, 발음 부정확, 긴 휴지, 음량 부족 중 적어도 하나를 포함할 수 있다.As described above, the
프로세서(170)는 입력된 음성에 언어장애 요소가 포함된 것으로 판단한 경우, 상기 언어장애의 유형을 구분할 수 있다. 상기 언어장애 유형은 말 더듬기, 반복 읽기, 발음 부정확, 긴 휴지, 음량 부족 등의 항목으로 구분될 수 있으며, 프로세서(170)는 입력된 음성이 위 예시된 언어장애 유형 중 적어도 하나에 포함되는지 여부를 판단한다(S320). 프로세서(170)는 상기 입력된 음성이 위 예시된 언어장애 유형 중 적어도 하나에 포함되지 않는 것으로 판단한 경우, 입력된 음성에 대하여 새로운 언어장애 유형으로 등록하고 상기 새로운 언어장애 유형에 대한 튜닝 언어모델 생성을 위한 학습 데이터 획득부에 전달할 수 있다. 일 예에 따라 프로세서(170)는 위 예시된 언어장애 유형 중 적어도 하나에 포함되지 않는 경우, 일반 언어 모델을 적용하여 음성인식이 수행되도록 제어할 수도 있다.When it is determined that the input voice includes a language disorder component, the
프로세서(170)는 언어장애 유형이 구분된 경우, 구분된 언어장애 유형에 대응되는 튜닝 언어모델을 저장부로부터 선택할 수 있다(S330).When the type of language disorder is classified, the
상기 저장부는, 말 더듬기 패턴에 대응하는 제1 언어모델, 반복 읽기 패턴에 대응하는 제2 언어모델, 발음 부정확 패턴에 대응하는 제3 언어모델을 포함할 수 있다. 일 실시예에 따라 상기 저장부는 언어장애로 판단되는 스피치 패턴 중 적어도 둘 이상이 조합된 패턴에 대응하는 제4 언어모델을 포함할 수도 있다. 예를 들어, 상기 제4 언어모델은, 말 더듬 패턴과 반복 읽기 패턴에 특화된 튜닝 모델, 말 더듬 패턴과 긴 휴지 패턴에 특화된 튜닝 모델, 말 더듬 패턴, 긴 휴지패턴 및 음량 부족 패턴이 동시에 포함된 음성에 특화된 튜닝 모델 등, 언어장애 증상별로 최적화어 튜닝된 언어모델 들을 포함할 수 있다. 즉, 제4 언어모델은 2개의 언어장애 증상, 또는 3개의 언어장애 증상이 복합적으로 나타나는 입력 음성에 대하여 음성인식(사용자 의도 파악) 과정에서 적용될 수 있다. 일 예에 따라, 프로세서(170)는 입력된 음성에 말 더듬 패턴과 반복 읽기 패턴이 입력 음성에 동시에 확인된 경우, 상기 저장부에서 제4 언어모델 중 어느 하나를 선택하여 음성처리를 할 수 있다.The storage unit may include a first language model corresponding to a stuttering pattern, a second language model corresponding to a repetitive reading pattern, and a third language model corresponding to an inaccurate pronunciation pattern. According to an embodiment, the storage unit may include a fourth language model corresponding to a pattern in which at least two or more of the speech patterns determined to be a language disorder are combined. For example, the fourth language model includes a tuning model specialized for a stuttering pattern and a repetitive reading pattern, a tuning model specialized for a stuttering pattern and a long pause pattern, a stuttering pattern, a long pause pattern, and a lack of volume pattern at the same time. It may include language models optimized for each language disorder symptom, such as a tuning model specialized for speech. That is, the fourth language model can be applied in the process of voice recognition (determining user's intention) to an input voice in which two symptoms of language disorder or three symptoms of language disorder appear in combination. According to an example, the
프로세서(170)는 상기 저장부에서 선택된 튜닝 언어모델을 적용하여 음성인식 동작을 수행할 수 있다(S340). 한편, 본 명세서의 일 실시예는 음향 모델은 일반적인 음성 인식 동작과 동일하게 적용될 수 있다.The
한편, 일 실시예에 따라, 프로세서(170)는 언어장애 요소가 포함된 경우, 튜닝 언어모델 사용 뿐 아니라, 일반 언어모델을 적용해서 음성인식을 함께 수행할 수도 있으며, 두 가지의 결과를 함께 제공할 수도 있다.On the other hand, according to an embodiment, when the language disorder element is included, the
일 실시예에 따라, 프로세서(170)는 언어장애에 대응하는 스피치 패턴을 학습데이터로 획득하고, 학습데이터에 대하여 지도학습 과정을 통해 특정 언어장애에 대응하는 언어모델을 지속적으로 학습할 수 있다.According to an embodiment, the
전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.The above-described present invention can be implemented as computer readable code on a medium on which a program is recorded. The computer-readable medium includes all types of recording devices in which data that can be read by a computer system is stored. Examples of computer-readable media include Hard Disk Drive (HDD), Solid State Disk (SSD), Silicon Disk Drive (SDD), ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage device, etc. , and also includes those implemented in the form of a carrier wave (eg, transmission over the Internet). Accordingly, the above detailed description should not be construed as limiting in all respects and should be considered illustrative. The scope of the present invention should be determined by reasonable interpretation of the appended claims, and all changes within the equivalent scope of the present invention are included in the scope of the present invention.
Claims (10)
음성인식을 수행하기 위한 적어도 하나의 언어모델이 저장된 저장부;
상기 음성 입력부를 통해 입력된 사용자의 음성에 대해 상기 저장부에 저장된 상기 언어모델을 이용하여 음성인식을 수행하는 음성 인식부; 및
상기 음성 입력부를 통해 입력된 음성에 적어도 하나의 언어장애가 존재하는 것으로 판단된 경우, 언어장애 유형을 구분하고, 구분된 언어장애 유형에 따른 튜닝 언어모델을 상기 저장부로부터 선택하고, 상기 선택된 튜닝 언어모델을 이용하여 상기 음성인식을 수행하도록 상기 음성 인식부를 제어하는 프로세서;
를 포함하는 음성 인식 장치.voice input unit;
a storage unit storing at least one language model for performing speech recognition;
a voice recognition unit performing voice recognition on the user's voice input through the voice input unit using the language model stored in the storage unit; and
When it is determined that at least one language disorder exists in the voice input through the voice input unit, a language disorder type is classified, a tuning language model according to the classified language disorder type is selected from the storage unit, and the selected tuning language is selected. a processor controlling the voice recognition unit to perform the voice recognition using a model;
Voice recognition device comprising a.
상기 프로세서는,
상기 입력된 음성에 대하여 미리 정해진 스피치 패턴을 감지한 경우, 상기 언어장애가 존재하는 것으로 판단하고,
상기 미리 정해진 스피치 패턴은, 말 더듬기, 반복 읽기, 발음 부정확, 긴 휴지, 음량 부족 중 적어도 하나를 포함하는 것을 특징으로 하는 음성 인식 장치.According to claim 1,
the processor,
When a predetermined speech pattern is detected for the input voice, it is determined that the language disorder exists;
The speech recognition device of claim 1 , wherein the predetermined speech pattern includes at least one of stuttering, repetitive reading, inaccurate pronunciation, long pauses, and lack of volume.
상기 저장부는,
말 더듬기 패턴에 대응하는 제1 언어모델, 반복 읽기 패턴에 대응하는 제2 언어모델, 발음 부정확 패턴에 대응하는 제3 언어모델, 상기 언어장애로 판단되는 스피치 패턴 중 적어도 둘 이상이 조합된 패턴에 대응하는 제4 언어모델을 포함하는 것을 특징으로 하는 음성 인식 장치.According to claim 2,
the storage unit,
A pattern combining at least two of a first language model corresponding to a stuttering pattern, a second language model corresponding to a repetitive reading pattern, a third language model corresponding to an inaccurate pronunciation pattern, and a speech pattern determined to be the language disorder A voice recognition device comprising a corresponding fourth language model.
상기 프로세서는,
상기 언어장애에 대응하는 스피치 패턴을 학습데이터로 획득하는 학습데이터 획득부; 및
상기 학습데이터에 대하여 지도학습 과정을 통해 특정 언어장애에 대응하는 언어모델을 학습하는 모델 학습부;
를 더 포함하는 것을 특징으로 하는 음성 인식 장치.According to claim 1,
the processor,
a learning data acquiring unit acquiring a speech pattern corresponding to the language disorder as learning data; and
a model learning unit for learning a language model corresponding to a specific language disorder through a supervised learning process with respect to the learning data;
Voice recognition device further comprising a.
상기 프로세서는,
상기 음성 입력부를 통해 입력된 음성에 적어도 하나의 언어장애가 존재하는 것으로 판단된 경우, 상기 음성인식을 수행하는 과정에서 상기 저장부에 저장된 언어모델 중 일반 언어모델 및 특정 언어장애에 대응하는 상기 튜닝 언어모델 각각을 적용하여 음성인식 결과를 출력하도록 제어하는 것을 특징으로 하는 음성 인식 장치.According to claim 1,
the processor,
When it is determined that there is at least one language disorder in the voice inputted through the voice input unit, the general language model and the tuning language corresponding to the specific language disorder among the language models stored in the storage unit in the process of performing the voice recognition. A voice recognition device characterized by controlling to output a voice recognition result by applying each model.
상기 음성 입력부를 통해 입력된 사용자의 음성에 대해 저장부에 저장된 언어모델을 이용하여 음성인식을 수행하는 단계;를 포함하되,
상기 음성 입력부를 통해 입력된 음성에 적어도 하나의 언어장애가 존재하는 것으로 판단된 경우, 언어장애 유형을 구분하고, 구분된 언어장애 유형에 따른 튜닝 언어모델을 상기 저장부로부터 선택하는 단계;
상기 선택된 튜닝 언어모델을 이용하여 상기 음성인식을 수행하도록 상기 음성 인식부를 제어하는 단계;
를 포함하는 것을 특징으로 하는 음성 인식 방법.receiving a user's voice through a voice input unit;
Performing voice recognition using a language model stored in a storage unit for the user's voice input through the voice input unit;
if it is determined that at least one language disorder exists in the voice inputted through the voice input unit, classifying a language disorder type and selecting a tuning language model according to the classified language disorder type from the storage unit;
controlling the voice recognition unit to perform the voice recognition using the selected tuning language model;
Voice recognition method comprising a.
상기 입력된 음성에 대하여 미리 정해진 스피치 패턴을 감지한 경우, 상기 언어장애가 존재하는 것으로 판단하는 단계;를 더 포함하고,
상기 미리 정해진 스피치 패턴은, 말 더듬기, 반복 읽기, 발음 부정확, 긴 휴지, 음량 부족 중 적어도 하나를 포함하는 것을 특징으로 하는 음성 인식 방법.According to claim 6,
Further comprising: determining that the language disorder exists when a predetermined speech pattern is detected with respect to the input voice;
The speech recognition method of claim 1 , wherein the predetermined speech pattern includes at least one of stuttering, repetitive reading, inaccurate pronunciation, long pauses, and lack of volume.
상기 저장부는,
말 더듬기 패턴에 대응하는 제1 언어모델, 반복 읽기 패턴에 대응하는 제2 언어모델, 발음 부정확 패턴에 대응하는 제3 언어모델, 상기 언어장애로 판단되는 스피치 패턴 중 적어도 둘 이상이 조합된 패턴에 대응하는 제4 언어모델을 포함하는 것을 특징으로 하는 음성 인식 방법.According to claim 6,
the storage unit,
A pattern combining at least two of a first language model corresponding to a stuttering pattern, a second language model corresponding to a repetitive reading pattern, a third language model corresponding to an inaccurate pronunciation pattern, and a speech pattern determined to be the language disorder A speech recognition method comprising a corresponding fourth language model.
상기 언어장애에 대응하는 스피치 패턴을 학습데이터로 획득하는 학습데이터 획득하는 단계;
상기 학습데이터에 대하여 지도학습 과정을 통해 특정 언어장애에 대응하는 언어모델을 학습하는 단계;
를 더 포함하는 것을 특징으로 하는 음성 인식 방법.According to claim 6,
Acquiring learning data for obtaining a speech pattern corresponding to the language disorder as learning data;
learning a language model corresponding to a specific language disorder through a supervised learning process with respect to the learning data;
Voice recognition method further comprising a.
상기 음성 입력부를 통해 입력된 음성에 적어도 하나의 언어장애가 존재하는 것으로 판단된 경우, 상기 음성인식을 수행하는 과정에서 상기 저장부에 저장된 언어모델 중 일반 언어모델 및 특정 언어장애에 대응하는 언어모델 각각을 적용하여 음성인식 결과를 출력하도록 제어하는 단계;
를 더 포함하는 것을 특징으로 하는 음성 인식 방법.According to claim 6,
When it is determined that there is at least one language disorder in the voice inputted through the voice input unit, a general language model and a language model corresponding to a specific language disorder among the language models stored in the storage unit are each in the process of performing the voice recognition. controlling to output a voice recognition result by applying;
Voice recognition method further comprising a.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220017442A KR20230120790A (en) | 2022-02-10 | 2022-02-10 | Speech Recognition Healthcare Service Using Variable Language Model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220017442A KR20230120790A (en) | 2022-02-10 | 2022-02-10 | Speech Recognition Healthcare Service Using Variable Language Model |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20230120790A true KR20230120790A (en) | 2023-08-17 |
Family
ID=87800138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220017442A KR20230120790A (en) | 2022-02-10 | 2022-02-10 | Speech Recognition Healthcare Service Using Variable Language Model |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20230120790A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102587471B1 (en) * | 2023-02-15 | 2023-10-12 | 주식회사 코트라스 | Artificial Intelligence Language Impairment Interpretation System |
-
2022
- 2022-02-10 KR KR1020220017442A patent/KR20230120790A/en unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102587471B1 (en) * | 2023-02-15 | 2023-10-12 | 주식회사 코트라스 | Artificial Intelligence Language Impairment Interpretation System |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111933129B (en) | Audio processing method, language model training method and device and computer equipment | |
Mehrish et al. | A review of deep learning techniques for speech processing | |
EP3384488B1 (en) | System and method for implementing a vocal user interface by combining a speech to text system and a speech to intent system | |
Agarwalla et al. | Machine learning based sample extraction for automatic speech recognition using dialectal Assamese speech | |
US11282501B2 (en) | Speech recognition method and apparatus | |
US11705105B2 (en) | Speech synthesizer for evaluating quality of synthesized speech using artificial intelligence and method of operating the same | |
Swain et al. | A DCRNN-based ensemble classifier for speech emotion recognition in Odia language | |
Tanveer et al. | Ensemble deep learning in speech signal tasks: A review | |
Basak et al. | Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems. | |
Jha et al. | Machine learning techniques for speech emotion recognition using paralinguistic acoustic features | |
Sekkate et al. | A statistical feature extraction for deep speech emotion recognition in a bilingual scenario | |
KR20230120790A (en) | Speech Recognition Healthcare Service Using Variable Language Model | |
KR102221963B1 (en) | Artificial intelligence device and method for providing image information | |
Chauhan et al. | A method for simplifying the spoken emotion recognition system using a shallow neural network and temporal feature stacking & pooling (TFSP) | |
KR20220070466A (en) | Intelligent speech recognition method and device | |
KR20200144366A (en) | Generating trigger recognition models for robot | |
Hasan et al. | Effect of vocal tract dynamics on neural network‐based speech recognition: A Bengali language‐based study | |
CN114898779A (en) | Multi-mode fused speech emotion recognition method and system | |
Anindya et al. | Development of Indonesian speech recognition with deep neural network for robotic command | |
Wang | Deep learning in speech and language processing | |
Shome et al. | Speaker Recognition through Deep Learning Techniques: A Comprehensive Review and Research Challenges | |
Dhakal | Novel Architectures for Human Voice and Environmental Sound Recognitionusing Machine Learning Algorithms | |
Song et al. | Towards realizing sign language to emotional speech conversion by deep learning | |
KR20230149894A (en) | Personalized machine learning-based driver abnormal behavior detection system | |
CN112951270B (en) | Voice fluency detection method and device and electronic equipment |