KR20230120790A - Speech Recognition Healthcare Service Using Variable Language Model - Google Patents

Speech Recognition Healthcare Service Using Variable Language Model Download PDF

Info

Publication number
KR20230120790A
KR20230120790A KR1020220017442A KR20220017442A KR20230120790A KR 20230120790 A KR20230120790 A KR 20230120790A KR 1020220017442 A KR1020220017442 A KR 1020220017442A KR 20220017442 A KR20220017442 A KR 20220017442A KR 20230120790 A KR20230120790 A KR 20230120790A
Authority
KR
South Korea
Prior art keywords
language
voice
voice recognition
language model
speech
Prior art date
Application number
KR1020220017442A
Other languages
Korean (ko)
Inventor
송민규
윤종성
Original Assignee
미디어젠(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 미디어젠(주) filed Critical 미디어젠(주)
Priority to KR1020220017442A priority Critical patent/KR20230120790A/en
Publication of KR20230120790A publication Critical patent/KR20230120790A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/22Social work
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Abstract

본 명세서의 일 실시예에 따른 음성 인식 장치는, 음성 입력부를 통해 입력된 사용자의 음성에 대해 상기 저장부에 저장된 상기 언어모델을 이용하여 음성인식을 수행하되, 입력된 음성에 적어도 하나의 언어장애가 존재하는 경우, 언어장애 유형을 구분하고, 구분된 언어장애 유형에 따른 튜닝 언어모델을 저장부로부터 선택하여 튜닝 언어모델을 이용하여 상기 음성인식을 수행한다. 이에 따라, 입력된 스피치에 언어 장애 요소가 포함되는 경우에도 음성 인식률을 향상시킬 수 있다.A voice recognition device according to an embodiment of the present specification performs voice recognition using the language model stored in the storage unit for a user's voice input through a voice input unit, but if at least one language disorder occurs in the input voice If there is, the speech recognition is performed using the tuning language model by classifying the language disorder type and selecting a tuning language model according to the classified language disorder type from the storage unit. Accordingly, the voice recognition rate can be improved even when the input speech includes a language impediment component.

Description

가변적 언어모델을 이용한 음성인식 헬스케어 서비스{Speech Recognition Healthcare Service Using Variable Language Model}Speech Recognition Healthcare Service Using Variable Language Model

본 명세서는 음성인식 장치 및 방법에 관한 것이다.The present specification relates to a voice recognition apparatus and method.

음성, 음향, 장애인 특유의 발성이 섞여 음성 인식 장치를 통해 대화를 진행할 경우 비자애인은 이해가 어려운 경우가 발생되어, 음성을 통한 원활한 소통에 어려움이 발생하는 경우가 있다. 특히 동일한 발음을 하더라도 기계를 통해 상대에게 전달시 전혀 다른 의미의 단어나 OOV(Out of vocabulary)로 인식되는 경우가 종종 발생된다.When a conversation is conducted through a voice recognition device in which voice, sound, and vocalization peculiar to the disabled are mixed, it may be difficult for non-loving people to understand, resulting in difficulties in smooth communication through voice. In particular, even if the pronunciation is the same, it is often recognized as a word with a completely different meaning or OOV (Out of Vocabulary) when transmitted to the other party through the machine.

특히, 파킨슨병, 뇌졸중, 실어증 등 다양한 언어 장애 질병이 존재하며, 이러한 언어 장애인의 음성을 종래의 음성인식 시스템을 통해 인식하기는 매우 어려운 문제가 있다.In particular, various language disorders such as Parkinson's disease, stroke, and aphasia exist, and it is very difficult to recognize the voice of a person with such a language disorder through a conventional voice recognition system.

본 명세서는 전술한 문제점을 해결하기 위한 것으로서, 언어 장애 유형에 따른 특징을 반영한 다수의 언어 모델을 이용함으로써, 음성 인식 성능을 향상시킬 수 있는 음성 인식 장치 및 방법을 제공한다.The present specification is intended to solve the above problems, and provides a speech recognition apparatus and method capable of improving speech recognition performance by using a plurality of language models reflecting characteristics according to the type of speech impairment.

본 발명이 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 이하의 발명의 상세한 설명으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The technical problems to be achieved by the present invention are not limited to the above-mentioned technical problems, and other technical problems not mentioned are clear to those skilled in the art from the detailed description of the invention below. will be understandable.

본 명세서의 일 실시예에 따른 음성 인식 장치는, 음성 입력부; 음성인식을 수행하기 위한 적어도 하나의 언어모델이 저장된 저장부; 상기 음성 입력부를 통해 입력된 사용자의 음성에 대해 상기 저장부에 저장된 상기 언어모델을 이용하여 음성인식을 수행하는 음성 인식부; 및 상기 음성 입력부를 통해 입력된 음성에 적어도 하나의 언어장애가 존재하는 것으로 판단된 경우, 언어장애 유형을 구분하고, 구분된 언어장애 유형에 따른 튜닝 언어모델을 상기 저장부로부터 선택하고, 상기 선택된 튜닝 언어모델을 이용하여 상기 음성인식을 수행하도록 상기 음성 인식부를 제어하는 프로세서;를 포함한다.A voice recognition device according to an embodiment of the present specification includes a voice input unit; a storage unit storing at least one language model for performing speech recognition; a voice recognition unit performing voice recognition on the user's voice input through the voice input unit using the language model stored in the storage unit; and when it is determined that at least one language disorder exists in the voice inputted through the voice input unit, the type of language disorder is classified, a tuning language model according to the classified language disorder type is selected from the storage unit, and the selected tuning language model is selected. and a processor controlling the voice recognition unit to perform the voice recognition using a language model.

상기 프로세서는, 상기 입력된 음성에 대하여 미리 정해진 스피치 패턴을 감지한 경우, 상기 언어장애가 존재하는 것으로 판단하고, 상기 미리 정해진 스피치 패턴은, 말 더듬기, 반복 읽기, 발음 부정확, 긴 휴지, 음량 부족 중 적어도 하나를 포함할 수 있다.When the processor detects a predetermined speech pattern with respect to the input voice, it is determined that the speech disorder exists, and the predetermined speech pattern is among stuttering, repetitive reading, inaccurate pronunciation, long pause, and lack of volume. may contain at least one.

상기 저장부는, 말 더듬기 패턴에 대응하는 제1 언어모델, 반복 읽기 패턴에 대응하는 제2 언어모델, 발음 부정확 패턴에 대응하는 제3 언어모델, 상기 언어장애로 판단되는 스피치 패턴 중 적어도 둘 이상이 조합된 패턴에 대응하는 제4 언어모델을 포함할 수 있다.The storage unit may include at least two or more of a first language model corresponding to a stuttering pattern, a second language model corresponding to a repetitive reading pattern, a third language model corresponding to an inaccurate pronunciation pattern, and a speech pattern determined to be the language disorder. A fourth language model corresponding to the combined pattern may be included.

상기 프로세서는, 상기 언어장애에 대응하는 스피치 패턴을 학습데이터로 획득하는 학습데이터 획득부; 상기 학습데이터에 대하여 지도학습 과정을 통해 특정 언어장애에 대응하는 언어모델을 학습하는 모델 학습부;를 더 포함할 수 있다.The processor may include: a learning data acquiring unit acquiring a speech pattern corresponding to the language disorder as learning data; It may further include a model learning unit for learning a language model corresponding to a specific language disorder through a supervised learning process with respect to the learning data.

상기 프로세서는, 상기 음성 입력부를 통해 입력된 음성에 적어도 하나의 언어장애가 존재하는 것으로 판단된 경우, 상기 음성인식을 수행하는 과정에서 상기 저장부에 저장된 언어모델 중 일반 언어모델 및 특정 언어장애에 대응하는 상기 튜닝 언어모델 각각을 적용하여 음성인식 결과를 출력하도록 제어할 수 있다.When it is determined that at least one language disorder exists in the voice input through the voice input unit, the processor responds to a general language model and a specific language disorder among language models stored in the storage unit in the process of performing the voice recognition. It is possible to control to output a voice recognition result by applying each of the tuning language models.

본 명세서의 다른 실시예에 따른 음성 인식 방법은 음성 입력부를 통해 사용자의 음성을 입력받는 단계; 상기 음성 입력부를 통해 입력된 사용자의 음성에 대해 저장부에 저장된 언어모델을 이용하여 음성인식을 수행하는 단계;를 포함하되, 상기 음성 입력부를 통해 입력된 음성에 적어도 하나의 언어장애가 존재하는 것으로 판단된 경우, 언어장애 유형을 구분하고, 구분된 언어장애 유형에 따른 튜닝 언어모델을 상기 저장부로부터 선택하는 단계; 및 상기 선택된 튜닝 언어모델을 이용하여 상기 음성인식을 수행하도록 상기 음성 인식부를 제어하는 단계;를 포함한다.A voice recognition method according to another embodiment of the present specification includes receiving a user's voice through a voice input unit; and performing voice recognition on the user's voice input through the voice input unit using a language model stored in a storage unit, wherein it is determined that at least one language disorder exists in the voice input through the voice input unit. if it is, classifying the language disorder type and selecting a tuning language model according to the classified language disorder type from the storage unit; and controlling the voice recognition unit to perform the voice recognition using the selected tuning language model.

상기 음성 인식 방법은, 상기 입력된 음성에 대하여 미리 정해진 스피치 패턴을 감지한 경우, 상기 언어장애가 존재하는 것으로 판단하는 단계;를 더 포함하고, 상기 미리 정해진 스피치 패턴은, 말 더듬기, 반복 읽기, 발음 부정확, 긴 휴지, 음량 부족 중 적어도 하나를 포함할 수 있다.The voice recognition method further includes determining that the speech disorder exists when a predetermined speech pattern is detected for the input voice, wherein the predetermined speech pattern includes stuttering, repetitive reading, and pronunciation. It may include at least one of inaccuracies, long pauses, and lack of volume.

상기 저장부는, 말 더듬기 패턴에 대응하는 제1 언어모델, 반복 읽기 패턴에 대응하는 제2 언어모델, 발음 부정확 패턴에 대응하는 제3 언어모델, 상기 언어장애로 판단되는 스피치 패턴 중 적어도 둘 이상이 조합된 패턴에 대응하는 제4 언어모델을 포함할 수 있다.The storage unit may include at least two or more of a first language model corresponding to a stuttering pattern, a second language model corresponding to a repetitive reading pattern, a third language model corresponding to an inaccurate pronunciation pattern, and a speech pattern determined to be the language disorder. A fourth language model corresponding to the combined pattern may be included.

상기 음성 인식 방법은, 상기 언어장애에 대응하는 스피치 패턴을 학습데이터로 획득하는 학습데이터 획득하는 단계; 상기 학습데이터에 대하여 지도학습 과정을 통해 특정 언어장애에 대응하는 언어모델을 학습하는 단계;를 더 포함할 수 있다.The voice recognition method may include acquiring learning data for acquiring a speech pattern corresponding to the language disorder as learning data; The method may further include learning a language model corresponding to a specific language disorder through a supervised learning process with respect to the learning data.

상기 음성 입력부를 통해 입력된 음성에 적어도 하나의 언어장애가 존재하는 것으로 판단된 경우, 상기 음성인식을 수행하는 과정에서 상기 저장부에 저장된 언어모델 중 일반 언어모델 및 특정 언어장애에 대응하는 언어모델 각각을 적용하여 음성인식 결과를 출력하도록 제어하는 단계;를 더 포함할 수 있다.When it is determined that there is at least one language disorder in the voice inputted through the voice input unit, a general language model and a language model corresponding to a specific language disorder among the language models stored in the storage unit are each in the process of performing the voice recognition. It may further include; controlling to output a voice recognition result by applying.

본 명세서의 다른 실시예는 전술한 음성 인식 방법을 실행시키도록 구현되어 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램을 포함한다.Another embodiment of the present specification includes a computer program implemented to execute the above-described voice recognition method and stored in a computer-readable recording medium.

본 명세서의 일 실시예에 따르면, 언어 장애 유형에 따른 특징을 반영한 다수의 언어 모델을 이용함으로써, 음성 인식 성능을 향상시킬 수 있다.According to an embodiment of the present specification, speech recognition performance may be improved by using a plurality of language models reflecting characteristics according to the type of language impairment.

본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The effects obtainable in the present invention are not limited to the effects mentioned above, and other effects not mentioned will be clearly understood by those skilled in the art from the description below. .

본 명세서에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 명세서에 대한 실시예를 제공하고, 상세한 설명과 함께 본 명세서의 기술적 특징을 설명한다.
도 1은 본 명세서의 일 실시예에 따른 음성 인식 장치의 구성을 설명하기 위한 도면이다.
도 2는 본 명세서의 일 실시예에 따른 음성처리 모듈을 구체적으로 설명하기 위한 도면이다.
도 3은 본 명세서의 일 실시예에 따른 음성인식 방법의 흐름도이다.
The accompanying drawings, which are included as part of the detailed description to aid understanding of the present specification, provide examples of the present specification and describe technical features of the present specification together with the detailed description.
1 is a diagram for explaining the configuration of a voice recognition apparatus according to an embodiment of the present specification.
2 is a diagram for specifically explaining a voice processing module according to an embodiment of the present specification.
3 is a flowchart of a voice recognition method according to an embodiment of the present specification.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.Hereinafter, the embodiments disclosed in this specification will be described in detail with reference to the accompanying drawings, but the same or similar components are given the same reference numerals regardless of reference numerals, and redundant description thereof will be omitted. The suffixes "module" and "unit" for components used in the following description are given or used together in consideration of ease of writing the specification, and do not have meanings or roles that are distinct from each other by themselves. In addition, in describing the embodiments disclosed in this specification, if it is determined that a detailed description of a related known technology may obscure the gist of the embodiment disclosed in this specification, the detailed description thereof will be omitted. In addition, the accompanying drawings are only for easy understanding of the embodiments disclosed in this specification, the technical idea disclosed in this specification is not limited by the accompanying drawings, and all changes included in the spirit and technical scope of the present invention , it should be understood to include equivalents or substitutes.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.Terms including ordinal numbers, such as first and second, may be used to describe various components, but the components are not limited by the terms. These terms are only used for the purpose of distinguishing one component from another.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.It is understood that when an element is referred to as being "connected" or "connected" to another element, it may be directly connected or connected to the other element, but other elements may exist in the middle. It should be. On the other hand, when an element is referred to as “directly connected” or “directly connected” to another element, it should be understood that no other element exists in the middle.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.Singular expressions include plural expressions unless the context clearly dictates otherwise.

본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.In this application, terms such as "comprise" or "have" are intended to designate that there is a feature, number, step, operation, component, part, or combination thereof described in the specification, but one or more other features It should be understood that the presence or addition of numbers, steps, operations, components, parts, or combinations thereof is not precluded.

도 1은 본 명세서의 일 실시예에 따른 음성 인식 장치의 구성을 설명하기 위한 도면이다.1 is a diagram for explaining the configuration of a voice recognition apparatus according to an embodiment of the present specification.

음성인식 장치(100)는 AI 프로세싱을 수행할 수 있는 AI 모듈을 포함하는 전자 기기 또는 상기 AI 모듈을 포함하는 서버 등을 포함할 수 있다. 상기 AI 프로세싱은, 디바이스의 제어와 관련된 모든 동작들을 포함할 수 있다.The voice recognition apparatus 100 may include an electronic device including an AI module capable of performing AI processing or a server including the AI module. The AI processing may include all operations related to device control.

상기 음성인식 장치(100)는 휴대폰, 스마트폰, 데스크탑 컴퓨터, 노트북, 디지털방송용 단말기, PDA(personal digital assistants), PMP(portable multimedia player), 태블릿 PC, 웨어러블 장치, 셋톱박스(STB), DMB 수신기, 로봇과 같은 고정형 기기 또는 이동 가능한 기기 등으로 구현될 수 있다. 위 예시는 사용자 단말의 예시에 불과하면, 상기 음성인식 장치(100)는 네트워크와 연결된 서버 장치일 수도 있다.The voice recognition device 100 includes mobile phones, smart phones, desktop computers, laptops, digital broadcasting terminals, personal digital assistants (PDAs), portable multimedia players (PMPs), tablet PCs, wearable devices, set-top boxes (STBs), and DMB receivers. , it can be implemented as a fixed device such as a robot or a movable device. If the above example is only an example of a user terminal, the voice recognition device 100 may be a server device connected to a network.

상기 음성인식 장치(100)는 트레이닝 데이터(110), 러닝 유닛(120), 신경망 모델(130), 통신부(140), 입력부(150), 출력부(160), 프로세서(170)를 포함할 수 있다. 입력된 음성을 처리하는 음성처리 모듈(voice processor)은 프로세서(170)에 포함되거나 독립된 모듈로 구비될 수 있다.The voice recognition device 100 may include training data 110, a learning unit 120, a neural network model 130, a communication unit 140, an input unit 150, an output unit 160, and a processor 170. there is. A voice processor that processes the input voice may be included in the processor 170 or provided as an independent module.

트레이닝 데이터(110)는 인공신경망을 학습시키기 위한 데이터로서, 경험이나 교육을 통해 획득한 사실, 정보 및 기술(Information about objects, events, concepts or rules, their relationships and properties, organized of goal-oriented systematic use) 등을 의미할 수 있다. 상기 트레이닝 데이터(110)는 트레이닝 데이터 획득부의 의미를 포함할 수 있다.The training data 110 is data for training the artificial neural network, and is information about objects, events, concepts or rules, their relationships and properties, organized of goal-oriented systematic use acquired through experience or education. ) and the like. The training data 110 may include the meaning of a training data acquisition unit.

본 명세서의 일 실시예에 의하면 트레이닝 데이터(110)는 음성인식 장치(100)에 입력되는 음성신호(voice signal)을 포함할 수 있다. 또는 상기 트레이닝 데이터(110)는 상기 음성인식 장치(100)에 입력되는 음성신호 중 언어장애 요소가 포함되어 있는 특정 음성신호만을 의미할 수도 있다. 또는 프로세서(170)는 입력된 음성신호에 대하여 음성인식을 수행한 결과 음성 인식률이 미리 정해진 인식률 이하인 음성신호를 구분하고, 음성 인식률이 저조한 음성신호를 트레이닝 데이터(110)로 획득할 수 있다.According to an embodiment of the present specification, the training data 110 may include a voice signal input to the voice recognition apparatus 100. Alternatively, the training data 110 may mean only a specific voice signal including a language disorder component among voice signals input to the voice recognition apparatus 100 . Alternatively, as a result of performing voice recognition on the input voice signal, the processor 170 may distinguish a voice signal having a voice recognition rate equal to or less than a predetermined recognition rate, and obtain a voice signal having a low voice recognition rate as the training data 110 .

또는 프로세서(170)는 미리 정해진 스피치 패턴에 대응되는 음성이 입력되는 경우, 음성인식을 수행하는 과정과 별도로 트레이닝 데이터로 활용할 수 있다. 여기서 미리 정해진 스피치 패턴은 본 명세서의 일 실시예에 따라 언어장애 유형으로 구분될 수 있는 적어도 하나의 언어장애 스피치 패턴에 대응되는 음성신호를 포함할 수 있다. 상기 미리 정해진 스피치 패턴에 대응되는 음성인지 여부를 판단하기 위해 프로세서(170)는 음성인식을 통해 음성신호를 텍스트로 변환한 후, 상기 변환된 텍스트를 분석하여 입력된 음성이 언어장애 스피치 패턴에 대응되는 음성신호인지 여부를 판단할 수도 있다.Alternatively, when a voice corresponding to a predetermined speech pattern is input, the processor 170 may use it as training data separately from the process of performing voice recognition. Here, the predetermined speech pattern may include a voice signal corresponding to at least one speech pattern that can be classified into a speech disorder type according to an embodiment of the present specification. In order to determine whether or not the voice corresponds to the predetermined speech pattern, the processor 170 converts the voice signal into text through voice recognition, and then analyzes the converted text so that the input voice corresponds to the speech pattern of speech impairment. It may be determined whether or not the signal is a voice signal.

일 실시예에 따라 상기 미리 정해진 언어장애 스피치 패턴은, 말 더듬기, 반복 읽기, 발음 부정확, 긴 휴지, 음량 부족 등으로 인해 원활한 음성인식이 불가능한 상태의 스피치 패턴을 의미할 수 있다. 한편, 전술한 말 더듬기, 반복 읽기, 발음 부정확, 긴 휴지, 음량 부족 등의 스피치 패턴은 본 명세서의 기술적 사상을 설명하기 위한 예시이며, 상기 미리 정해진 언어장애 스피치 패턴은 전술한 예로 한정되지 않고 새롭게 발견되는 언어장애 유형을 등록함으로써, 다양한 언어장애 증세에 최적화된 음성인식 언어모델을 구축할 수 있다.According to an embodiment, the predetermined speech pattern for speech impairment may refer to a speech pattern in a state in which smooth speech recognition is impossible due to stuttering, repetitive reading, inaccurate pronunciation, long pauses, insufficient volume, and the like. On the other hand, the aforementioned speech patterns such as stuttering, repetitive reading, inaccurate pronunciation, long pauses, and lack of volume are examples for explaining the technical idea of the present specification, and the predetermined speech pattern for speech impairment is not limited to the above-described examples and is a new one. By registering the type of language disorder found, it is possible to build a speech recognition language model optimized for various symptoms of language disorder.

학습부(120)는 데이터 분류/인식을 판단하기 위하여 어떤 학습 데이터를 이용할지, 학습 데이터를 이용하여 데이터를 어떻게 분류하고 인식할지에 관한 기준을 학습할 수 있다. 학습부(120)는 학습에 이용될 학습 데이터를 획득하고, 획득된 학습데이터를 신경망 모델에 적용함으로써, 신경망 모델을 학습할 수 있다.The learning unit 120 may learn criteria regarding which training data to use and how to classify and recognize data using the training data in order to determine data classification/recognition. The learning unit 120 may learn the neural network model by obtaining learning data to be used for learning and applying the obtained learning data to the neural network model.

학습부(120)는 적어도 하나의 하드웨어 칩 형태로 제작되어 음성인식 장치(100)에 탑재될 수 있다. 예를 들어, 학습부(120)는 인공지능(AI)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 범용 프로세서(CPU) 또는 그래픽 전용 프로세서(GPU)의 일부로 제작되어 음성인식 장치(100)에 탑재될 수도 있다. 또한, 학습부(120)는 소프트웨어 모듈로 구현될 수 있다. 소프트웨어 모듈(또는 인스트럭션(instruction)을 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록 매체(non-transitory computer readable media)에 저장될 수 있다. 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 애플리케이션에 의해 제공될 수 있다.The learning unit 120 may be manufactured in the form of at least one hardware chip and mounted in the voice recognition device 100 . For example, the learning unit 120 may be manufactured in the form of a dedicated hardware chip for artificial intelligence (AI), or manufactured as a part of a general-purpose processor (CPU) or a graphics-only processor (GPU) for the voice recognition device 100. may be mounted. Also, the learning unit 120 may be implemented as a software module. When implemented as a software module (or a program module including instructions), the software module may be stored in a computer-readable, non-transitory computer readable recording medium (non-transitory computer readable media). In this case, at least one software module may be provided by an Operating System (OS) or an application.

본 명세서의 일 실시예에 따른 학습부(Learning unit, 120)는 트레이닝 데이터(110)가 확정되면 트레이닝 데이터(110)에 전처리 과정을 수행하고, 전처리된 데이터를 이용하여 인공신경망을 학습시킨다.When the training data 110 is determined, the learning unit 120 according to an embodiment of the present specification performs a pre-processing process on the training data 110 and uses the pre-processed data to learn the artificial neural network.

학습부(120)는 데이터 획득부(미도시) 및 모델 학습부(미도시)를 더 포함할 수 있다.The learning unit 120 may further include a data acquisition unit (not shown) and a model learning unit (not shown).

학습 데이터 획득부는 데이터를 분류하고 인식하기 위한 신경망 모델에 필요한 학습 데이터를 획득할 수 있다. 예를 들어, 데이터 획득부(23)는 학습 데이터로서, 신경망 모델에 입력하기 위한 샘플 데이터를 획득할 수 있다. 본 명세서의 일 실시예에 의하면, 상기 학습을 위한 샘플 데이터는 음성인식 장치(100)로 인력되는 모든 음성 신호이거나, 미리 정해진 스피치 패턴이 등록되어 있는 경우, 상기 미리 정해진 스피치 패턴에 해당되는 음성신호를 추출하여 학습데이터로 정의할 수 있다.The learning data acquisition unit may acquire learning data required for a neural network model for classifying and recognizing data. For example, the data acquisition unit 23 may acquire sample data to be input to a neural network model as training data. According to an embodiment of the present specification, the sample data for learning are all voice signals attracted to the voice recognition apparatus 100 or, when a predetermined speech pattern is registered, a voice signal corresponding to the predetermined speech pattern. can be extracted and defined as learning data.

모델 학습부는 상기 획득된 학습 데이터를 이용하여, 신경망 모델이 소정의 데이터를 어떻게 분류할지에 관한 판단 기준을 가지도록 학습할 수 있다. 이 때 모델 학습부는 학습 데이터 중 적어도 일부를 판단 기준으로 이용하는 지도 학습(supervised learning)을 통하여, 신경망 모델을 학습시킬 수 있다. 또는 모델 학습부는 지도 없이 학습 데이터를 이용하여 스스로 학습함으로써, 판단 기준을 발견하는 비지도 학습(unsupervised learning)을 통해 신경망 모델을 학습시킬 수 있다. 또한, 모델 학습부는 학습에 따른 상황 판단의 결과가 올바른지에 대한 피드백을 이용하여 강화 학습(reinforcement learning)을 통하여, 신경망 모델을 학습시킬 수 있다. 또한, 모델 학습부는 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient decent)을 포함하는 학습 알고리즘을 이용하여 신경망 모델을 학습시킬 수 있다.The model learning unit may learn to have a criterion for determining how to classify predetermined data by using the acquired training data. At this time, the model learning unit may learn the neural network model through supervised learning using at least a part of the learning data as a criterion. Alternatively, the model learning unit may learn the neural network model through unsupervised learning in which a decision criterion is discovered by self-learning using training data without guidance. In addition, the model learning unit may train the neural network model through reinforcement learning using feedback about whether the result of the situation judgment according to learning is correct. In addition, the model learning unit may train the neural network model using a learning algorithm including error back-propagation or gradient decent.

신경망 모델이 학습되면, 모델 학습부는 학습된 신경망 모델을 메모리에 저장할 수 있다. 모델 학습부는 학습된 신경망 모델을 음성인식 장치(100)와 유선 또는 무선 네트워크로 연결된 서버의 메모리에 저장할 수도 있다.When the neural network model is learned, the model learning unit may store the learned neural network model in memory. The model learning unit may store the learned neural network model in a memory of a server connected to the voice recognition device 100 through a wired or wireless network.

학습부(120)는 인식 모델의 분석 결과를 향상시키거나, 인식 모델의 생성에 필요한 리소스 또는 시간을 절약하기 위해 학습 데이터 전처리부(미도시) 및 학습 데이터 선택부(미도시)를 더 포함할 수도 있다.The learning unit 120 may further include a learning data pre-processing unit (not shown) and a learning data selection unit (not shown) in order to improve the analysis result of the recognition model or save resources or time required for generating the recognition model. may be

학습 데이터 전처리부는 획득된 데이터가 상황 판단을 위한 학습에 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 예를 들어, 학습 데이터 전처리부는, 모델 학습부가 음성인식 장치(100)에 입력된 음성 데이터, 음성인식 결과에 대응하는 텍스트 데이터를 학습 데이터로 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다.The learning data pre-processing unit may pre-process the acquired data so that the acquired data can be used for learning for situation determination. For example, the learning data pre-processing unit may process the acquired data into a preset format so that the model learning unit can use voice data input to the voice recognition device 100 and text data corresponding to a voice recognition result as training data. can

또한, 학습 데이터 선택부는, 학습 데이터 획득부에서 획득된 학습 데이터 또는 전처리부에서 전처리된 학습 데이터 중 학습에 필요한 데이터를 선택할 수 있다. 본 명세서의 일 실시예에 따르면, 언어장애 요소를 가지는 특정 스피치 패턴은 단일 언어장애 증상을 보이는 스피치 패턴, 두 가지의 언어장애 증상이 포함된 스피치 패턴, 두 가지 이상의 언어장애 증상이 포함된 스피치 패턴 등을 포함할 수 있다. 프로세서는 학습 데이터를 선택하는 과정에서 전술한 단일 언어증상 스피치 패턴의 데이터를 학습데이터로 하여 단일 언어장애 언어모델을 학습할 수 있다. 또한 프로세서는 복수의 언어증상 스피치 패턴의 데이터를 학습데이터로 하여 복합 언어장애 언어모델을 학습할 수 있다. 예를 들어, 프로세서는 말 더듬 스피치 패턴과 반복 읽기 스피치 패턴의 데이터를 언어모델 튜닝을 위한 학습데이터로 이용할 수 있다.In addition, the learning data selector may select data necessary for learning from among the learning data acquired by the learning data acquisition unit or the learning data preprocessed by the preprocessor. According to one embodiment of the present specification, a specific speech pattern having a language disorder component includes a speech pattern showing a single language disorder symptom, a speech pattern including two symptoms of a language disorder, and a speech pattern including two or more symptoms of a language disorder. etc. may be included. In the process of selecting training data, the processor may learn a single language disorder language model using the above-described single language symptom speech pattern data as training data. In addition, the processor may learn a complex language disorder language model using data of a plurality of speech patterns of speech symptoms as learning data. For example, the processor may use data of a stuttering speech pattern and a repeated reading speech pattern as training data for tuning a language model.

또한, 학습부(120)는 신경망 모델의 분석 결과를 향상시키기 위하여 모델 평가부(미도시)를 더 포함할 수도 있다.In addition, the learning unit 120 may further include a model evaluation unit (not shown) to improve the analysis result of the neural network model.

모델 평가부는, 신경망 모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 분석 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(120)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 인식 모델을 평가하기 위한 기 정의된 데이터일 수 있다. 일 예로, 모델 평가부는 평가 데이터에 대한 학습된 인식 모델의 분석 결과 중, 분석 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정되 임계치를 초과하는 경우, 소정 기준을 만족하지 못한 것으로 평가할 수 있다.The model evaluation unit inputs evaluation data to the neural network model, and when an analysis result output from the evaluation data does not satisfy a predetermined criterion, it may cause the model learning unit 120 to learn again. In this case, the evaluation data may be predefined data for evaluating the recognition model. For example, the model evaluator may evaluate that the predetermined criterion is not satisfied when the number or ratio of the evaluation data for which the analysis result is inaccurate among the analysis results of the learned recognition model for the evaluation data exceeds a preset threshold. there is.

통신부(140)는 프로세서(170)에 의한 AI 프로세싱 결과를 외부 전자 기기로 전송할 수 있다. 여기서 외부 전자 기기는 외부 서버, 사용자 단말 등을 포함할 수 있다.The communication unit 140 may transmit the AI processing result by the processor 170 to an external electronic device. Here, the external electronic device may include an external server, a user terminal, and the like.

통신부(140)가 이용하는 통신 기술에는 GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), LTE(Long Term Evolution), 5G, WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), 블루투스(Bluetooth?), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), ZigBee, NFC(Near Field Communication) 등이 있다.Communication technologies used by the communication unit 140 include Global System for Mobile communication (GSM), Code Division Multi Access (CDMA), Long Term Evolution (LTE), 5G, Wireless LAN (WLAN), Wireless-Fidelity (Wi-Fi), There are Bluetooth?, Radio Frequency Identification (RFID), Infrared Data Association (IrDA), ZigBee, Near Field Communication (NFC), and the like.

입력부(140)는 다양한 종류의 데이터를 획득할 수 있다. 입력부(120)는 영상 신호 입력을 위한 카메라, 오디오 신호를 수신하기 위한 마이크로폰, 사용자로부터 정보를 입력 받기 위한 사용자 입력부 등을 포함할 수 있다. 여기서, 카메라나 마이크로폰을 센서로 취급하여, 카메라나 마이크로폰으로부터 획득한 신호를 센싱 데이터 또는 센서 정보라고 할 수도 있다.The input unit 140 may acquire various types of data. The input unit 120 may include a camera for inputting a video signal, a microphone for receiving an audio signal, and a user input unit for receiving information from a user. Here, a camera or microphone may be treated as a sensor, and signals obtained from the camera or microphone may be referred to as sensing data or sensor information.

입력부(150)는 모델 학습을 위한 학습 데이터 및 학습 모델을 이용하여 출력을 획득할 때 사용될 입력 데이터 등을 획득할 수 있다. 입력부(150)는 가공되지 않은 입력 데이터를 획득할 수도 있으며, 이 경우 프로세서(170)는 입력 데이터에 대하여 전처리로써 입력 특징점(input feature)을 추출할 수 있다.The input unit 150 may obtain learning data for model learning and input data to be used when obtaining an output using the learning model. The input unit 150 may obtain raw input data, and in this case, the processor 170 may extract input features as preprocessing of the input data.

출력부(160)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시킬 수 있다. 출력부(160)에는 시각 정보를 출력하는 디스플레이부, 청각 정보를 출력하는 스피커, 촉각 정보를 출력하는 햅틱 모듈 등이 포함될 수 있다.The output unit 160 may generate an output related to sight, hearing, or touch. The output unit 160 may include a display unit that outputs visual information, a speaker that outputs auditory information, and a haptic module that outputs tactile information.

프로세서(170)는 학습부(120)에서 인공신경망 학습이 완료되면 메모리(미도시)에 신경망 모델(NN Model, 130)을 저장할 수 있다.The processor 170 may store the neural network model (NN Model, 130) in a memory (not shown) when the artificial neural network learning is completed in the learning unit 120.

프로세서(170)는 메모리(미도시)에 저장된 프로그램을 이용하여 신경망을 학습할 수 있다. 특히, 프로세서(170)는 음성인식 장치(100)에 입력된 음성에 언어장애 요소가 포함된 경우, 언어장애 요소에도 불구하고 음성 인식률을 높이기 위해 언어장애 요소가 포함된 학습데이터에 기초하여 신경망을 학습할 수 있다. 여기서, 신경망은 인간의 뇌 구조를 컴퓨터 상에서 모의하도록 설계될 수 있으며, 인간의 신경망의 뉴런(neuron)을 모의하는, 가중치를 갖는 복수의 네트워크 노드들을 포함할 수 있다. 복수의 네트워크 모드들은 뉴런이 시냅스(synapse)를 통해 신호를 주고받는 뉴런의 시냅틱 활동을 모의하도록 각각 연결 관계에 따라 데이터를 주고받을 수 있다. 여기서 신경망은 신경망 모델에서 발전한 딥러닝 모델을 포함할 수 있다. 딥 러닝 모델에서 복수의 네트워크 노드들은 서로 다른 레이어에 위치하면서 컨볼루션(convolution) 연결 관계에 따라 데이터를 주고 받을 수 있다. 신경망 모델의 예는 심층 신경망(DNN, deep neural networks), 합성곱 신경망(CNN, convolutional deep neural networks), 순환 신경망(RNN, Recurrent Boltzmann Machine), 제한 볼츠만 머신(RBM, Restricted Boltzmann Machine), 심층 신뢰 신경망(DBN, deep belief networks), 심층 Q-네트워크(Deep Q-Network)와 같은 다양한 딥 러닝 기법들을 포함하며, 컴퓨터비젼, 음성인식, 자연어처리, 음성/신호처리 등의 분야에 적용될 수 있다.The processor 170 may learn the neural network using a program stored in a memory (not shown). In particular, when the speech input to the voice recognition apparatus 100 includes a language impairment factor, the processor 170 uses a neural network based on the training data including the language disability factor to increase the voice recognition rate despite the language disability factor. can learn Here, the neural network may be designed to simulate the structure of the human brain on a computer, and may include a plurality of network nodes having weights that simulate neurons of the human neural network. A plurality of network modes may transmit and receive data according to a connection relationship, respectively, so as to simulate synaptic activity of neurons that transmit and receive signals through synapses. Here, the neural network may include a deep learning model developed from a neural network model. In the deep learning model, a plurality of network nodes may exchange data according to a convolution connection relationship while being located in different layers. Examples of neural network models are deep neural networks (DNN), convolutional deep neural networks (CNN), recurrent Boltzmann machines (RNNs), restricted Boltzmann machines (RBMs), deep trust It includes various deep learning techniques such as deep belief networks (DBN) and deep Q-networks, and can be applied to fields such as computer vision, voice recognition, natural language processing, and voice/signal processing.

한편, 전술한 바와 같은 기능을 수행하는 프로세서는 범용 프로세서(예를 들어, CPU)일 수 있으나, 인공지능 학습을 위한 AI 전용 프로세서(예를 들어, GPU)일 수 있다.Meanwhile, the processor performing the functions described above may be a general-purpose processor (eg, CPU), or may be an AI-only processor (eg, GPU) for artificial intelligence learning.

한편, 음성인식 장치(100)는 메모리(미도시)를 더 포함할 수 있다. 상기 메모리는 음싱인식 동작에 필요한 각종 프로그램 및 데이터를 저장할 수 있다. 메모리는 비 휘발성 메모리, 휘발성 메모리, 플래시 메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SDD) 등으로 구현할 수 있다. 메모리는 프로세서(170)에 의해 엑세스되며, 프로세서(170)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 또한, 메모리는 본 발명의 일 실시예에 따른 데이터 분류/인식을 위한 학습 알고리즘을 통해 생성된 신경망 모델(예를 들어, 특정 언어장애에 대응하는 언어모델, 복수의 언어장애 증상에 대응되는 복합 언어모델)을 저장할 수 있다.Meanwhile, the voice recognition apparatus 100 may further include a memory (not shown). The memory may store various programs and data required for speech recognition operation. The memory may be implemented as non-volatile memory, volatile memory, flash-memory, hard disk drive (HDD) or solid state drive (SDD). The memory is accessed by the processor 170, and data can be read/written/modified/deleted/updated by the processor 170. In addition, the memory is a neural network model (e.g., a language model corresponding to a specific language disorder, a complex language corresponding to a plurality of symptoms of a language disorder) generated through a learning algorithm for data classification / recognition according to an embodiment of the present invention. model) can be saved.

본 명세서는 음성인식 장치가 활용될 수 있는 다양한 기기 예를 들어, 감시용 카메라, 자율주행 차량, 사용자 단말기 및 서버 중 하나 이상이 인공 지능(Artificial Intelligence) 모듈, 로봇, 증강현실(Augmented Reality, AR) 장치, 가상 현실(Virtual reality, VT) 장치, 5G 서비스와 관련된 장치 등과 연계될 수 있다.In the present specification, one or more of various devices to which a voice recognition device can be utilized, for example, a surveillance camera, an autonomous vehicle, a user terminal, and a server, an artificial intelligence module, a robot, and an augmented reality (AR) ) device, a virtual reality (VT) device, and a device related to 5G service.

한편, 도 2를 참조하면, 본 명세서의 일 실시예에 따른 음성인식 장치(100)는 음성처리 모듈(이하, 프로세서 170 내부에 구비된 음성처리 모듈로 가정하여 설명함)을 포함할 수 있다. 음성 처리모듈(170)은 자동 음성 인식(Auto Speech Recognition, ASR) 모듈(171), 지능형 에이전트(Artificial Intelligent Agent)(172), 자연어 이해(Natural Language Understanding, NLU) 모듈(173), 텍스트 음성 변환(Text-to-Speech, TTS) 모듈(174)를 포함할 수 있다.Meanwhile, referring to FIG. 2 , the voice recognition apparatus 100 according to an embodiment of the present specification may include a voice processing module (hereinafter described as a voice processing module provided inside the processor 170). The voice processing module 170 includes an Auto Speech Recognition (ASR) module 171, an Artificial Intelligent Agent (172), a Natural Language Understanding (NLU) module 173, and text-to-speech conversion. (Text-to-Speech, TTS) module 174 may be included.

ASR 모듈(171)은 수신된 사용자 음성 입력을 텍스트 데이터로 변환할 수 있다. ASR 모듈(171)은 프론트-엔드 스피치 프리프로세서(front-end speech pre-processor)를 포함할 수 있다. 프론트-엔드 스피치 프리프로세서는 스피치 입력으로부터 대표적인 특징을 추출한다. 예를 들어, 프론트-엔드 스피치 프리프로세서는 스피치 입력을 푸리에 변환을 수행하여 대표적인 다차원 벡터의 시퀀스로서 스피치 입력을 특징짓는 스펙트럼 특징을 추출한다. 또한, ASR 모듈(171)은 하나 이상의 스피치 인식 모델(예컨대, 음향 모델 및/또는 언어 모델)을 포함하고, 하나 이상의 스피치 인식 엔진을 구비할 수 있다. 스피치 인식 모델의 예는 은닉 마르코프 모델(Hidden Markov Models), 가우시안 혼합 모델(Gaussian-Mixture Models), 딥 신경망 모델(Deep Neural Network Models), n-gram 언어 모델, 및 기타 통계 모델을 포함할 수 있다. 스피치 인식 엔진의 예는 동적 시간 왜곡 기반 엔진 및 가중치 유한 상태 변환기(WFST) 기반 엔진을 포함할 수 있다. 하나 이상의 스피치 인식 모델 및 하나 이상의 스피치 인식 엔진은 중간 인식 결과들(예를 들어, 음소, 음소 문자열, 및 하위 단어들), 및 궁극적으로 텍스트 인식 결과들(예컨대, 단어, 단어 문자열, 또는 토큰들의 시퀀스)을 생성하기 위해 프론트-엔드 스피치 프리프로세서의 추출된 대표 특징들을 처리하는 데 사용될 수 있다.The ASR module 171 may convert the received user voice input into text data. The ASR module 171 may include a front-end speech pre-processor. A front-end speech preprocessor extracts representative features from speech input. For example, a front-end speech preprocessor performs a Fourier transform on a speech input to extract spectral features characterizing the speech input as a sequence of representative multi-dimensional vectors. Additionally, the ASR module 171 includes one or more speech recognition models (eg, acoustic models and/or language models) and may include one or more speech recognition engines. Examples of speech recognition models may include Hidden Markov Models, Gaussian-Mixture Models, Deep Neural Network Models, n-gram language models, and other statistical models. . Examples of speech recognition engines may include dynamic time warping based engines and weighted finite state transformer (WFST) based engines. One or more speech recognition models and one or more speech recognition engines may generate intermediate recognition results (e.g., phonemes, phoneme strings, and subordinate words), and ultimately text recognition results (e.g., words, word strings, or tokens). sequence) can be used to process the extracted representative features of the front-end speech preprocessor.

ASR 모듈(171)이 텍스트 문자열(예를 들어, 단어들, 또는 단어들의 시퀀스, 또는 토큰들의 시퀀스)을 포함하는 인식 결과를 생성하면, 인식 결과는 의도 추론을 위해 자연 언어 처리 모듈(173)로 전달될 수 있다. 일부 예들에서, ASR 모듈(171)은 스피치 입력의 다수의 후보 텍스트 표현들을 생성한다. 각각의 후보 텍스트 표현은 스피치 입력에 대응하는 단어들 또는 토큰들의 시퀀스이다.When ASR module 171 generates a recognition result comprising a text string (eg, words, or sequences of words, or sequences of tokens), the recognition results are passed to natural language processing module 173 for intent inference. can be conveyed In some examples, ASR module 171 generates multiple candidate textual representations of speech input. Each candidate text representation is a sequence of words or tokens corresponding to speech input.

NLU 모듈(173)은 문법적 분석(Syntactic analyze) 또는 의미적 분석(Semantic analyze)을 수행하여 사용자 의도를 파악할 수 있다. 상기 문법적 분석은 문법 단위(예를 들어, 단어, 구, 형태소 등)를 나누고, 나누어진 단위가 어떠한 문법적인 요소를 갖는지 파악할 수 있다. 상기 의미적 분석은 의미(semantic) 매칭, 룰(rule) 매칭, 포뮬러(formula) 매칭 등을 이용하여 수행할 수 있다. 이에 따라, NUL 모듈(173)은 사용자 입력이 어느 도메인(domain), 의도(intent) 또는 상기 의도를 표현하는데 필요한 파라미터(parameter)를 획득할 수 있다.The NLU module 173 may determine user intention by performing syntactic analysis or semantic analysis. The grammatical analysis may divide grammatical units (eg, words, phrases, morphemes, etc.) and determine which grammatical elements the divided units have. The semantic analysis may be performed using semantic matching, rule matching, formula matching, and the like. Accordingly, the NUL module 173 may obtain a domain, an intention, or a parameter required to express the intention.

상기 NLU 모듈(173)은 도메인, 의도 및 상기 의도를 파악하는데 필요한 파라미터로 나누어진 매핑 규칙을 이용하여 사용자의 의도 및 파라미터를 결정할 수 있다. 예를 들어, 하나의 도메인(예를 들어, 날씨정보)은 복수의 의도(예를 들어, 더워, 추워, 날씨에 대한 감정표현 등)를 포함할 수 있고, 하나의 의도는 복수의 파라미터(예를 들어, 시간, 반복 횟수, 알람음 등)을 포함할 수 있다. 복수의 룰은, 예를 들어, 하나 이상의 필수 요소 파라미터를 포함할 수 있다. 상기 매칭 규칙은 자연어 이해 데이터 베이스(Natural Language Understanding Database)에 저장될 수 있다.The NLU module 173 may determine the user's intention and parameters using a mapping rule divided into a domain, an intention, and parameters necessary to determine the intention. For example, one domain (eg, weather information) may include a plurality of intents (eg, hot, cold, emotional expression for weather, etc.), and one intent may include a plurality of parameters (eg, For example, time, number of repetitions, alarm sound, etc.) may be included. A plurality of rules may include, for example, one or more mandatory element parameters. The matching rules may be stored in a Natural Language Understanding Database.

상기 NLU 모듈(173)은 형태소, 구 등의 언어적 특징(예를 들어, 문법적 요소)을 이용하여 사용자 입력으로부터 추출된 단어의 의미를 파악하고, 상기 파악된 단어의 의미를 도메인 및 의도에 매칭시켜 사용자의 의도를 결정한다. 예를 들어, NLU 모듈(173)은 각각의 도메인 및 의도에 사용자 입력에서 추출된 단어가 얼마나 포함되어 있는지를 계산하여 사용자 의도를 결정할 수도 있다. 일 실시예에 따르면, NLU 모듈(173)은 상기 의도를 파악하는데 기초가된 단어를 이용하여 사용자 입력의 파라미터를 결정할 수 있다. 일 실시예에 따르면, NLU 모듈(173)은 사용자 입력의 의도를 파악하기 위한 언어적 특징이 저장된 자연어 인식 데이터 베이스를 이용하여 사용자의 의도를 결정할 수 있다. 또한 일 실시예에 따르면, NLU 모듈(173)은 개인화 언어 모델(personal language model, PLM)을 이용하여 사용자의 의도를 결정할 수 있다. 예를 들어, NLU 모듈(173)은 개인화된 정보(예를 들어, 언어이용 특성, 언어장애 여부 등)을 이용하여 사용자의 의도를 결정할 수 있다. 상기 개인화 언어 모델은, 예를 들어, 자연어 인식 데이터 베이스에 저장될 수 있다. 일 실시예에 따르면, NLU 모듈(173) 뿐 아니라 ASR 모듈(173)도 자연어 인식 데이터 베이스에 저장된 개인화 언어 모델을 참고하여 사용자 음성을 인식할 수 있다.The NLU module 173 identifies the meaning of words extracted from user input using linguistic features (eg, grammatical elements) such as morphemes and phrases, and matches the meaning of the identified words to domains and intents. to determine the user's intent. For example, the NLU module 173 may determine the user intent by calculating how many words extracted from the user input are included in each domain and intent. According to an embodiment, the NLU module 173 may determine a parameter of the user input using a word based on determining the intention. According to an embodiment, the NLU module 173 may determine the user's intention by using a natural language recognition database in which linguistic features for identifying the intention of the user input are stored. Also, according to an embodiment, the NLU module 173 may determine the user's intention using a personal language model (PLM). For example, the NLU module 173 may determine the user's intention using personalized information (eg, language use characteristics, language disorder, etc.). The personalized language model may be stored, for example, in a natural language recognition database. According to an embodiment, the ASR module 173 as well as the NLU module 173 may recognize a user's voice by referring to a personalized language model stored in a natural language recognition database.

NLU 모듈(173)은 자연어 생성 모듈(미도시)을 더 포함할 수 있다. 상기 자연어 생성 모듈은 지정된 정보를 텍스트 형태로 변경할 수 있다. 상기 텍스트 형태로 변경된 정보는 자연어 발화의 형태일 수 있다. 상기 지정된 정보는 예를 들어, 추가 입력에 대한 정보, 사용자 입력에 대응되는 동작의 완료를 안내하는 정보 또는 사용자의 추가 입력을 안내하는 정보 등을 포함할 수 있다. 상기 텍스트 형태로 변경된 정보는 클라이언트 디바이스로 전송되어 디스플레이에 표시되거나, TTS 모듈로 전송되어 음성 형태로 변경될 수 있다.The NLU module 173 may further include a natural language generation module (not shown). The natural language generating module may change designated information into a text form. The information changed to the text form may be in the form of natural language speech. The designated information may include, for example, additional input information, information guiding completion of an operation corresponding to a user input, or information guiding additional user input. The information changed in text form may be transmitted to a client device and displayed on a display, or may be transmitted to a TTS module and changed into a voice form.

여기서 상기 NLU 모듈(173)은 사용자의 의도를 추론함에 있어서, 일반적인 언어모델을 사용할 수도 있다. 상기 일반적인 언어모델이라 함은, 스피커(speaker)가 별다른 언어장애 현상 없는 음성을 입력한 경우, 음성인식 장치(100)에서 이용하는 언어모델일 수 있다. 그러나 본 명세서의 일 실시예에 따르면, 상기 일반적인 언어모델을 사용하여 사용자의 의도가 정상적으로 추론되지 못한 경우, 특히 입력된 음성이 언어장애 요소를 포함하여 상기 일반적인 언어모델을 이용한 경우 정상적인 음성인식이 불가능한 것으로 판단한 경우, 일반적인 언어모델에서 언어장애의 특징요소가 튜닝된 튜닝 언어모델을 사용할 수 있다.Here, the NLU module 173 may use a general language model in inferring the user's intention. The general language model may be a language model used by the voice recognition device 100 when a speaker inputs a voice without any language disorder. However, according to one embodiment of the present specification, when the user's intention is not normally inferred using the general language model, in particular, when the input voice includes a language disorder element and uses the general language model, normal voice recognition is impossible. If it is determined that it is, a tuning language model in which characteristic elements of language disorder are tuned in a general language model may be used.

일 실시예에 따라 프로세서는 상기 NLU 모듈(173)에서 상기 일반적인 언어모델을 이용하여 음성인식을 수행한 결과, 사용자의 의도 추출이 불가능한 경우를 입력된 음성에 언어장애 요소가 포함된 것으로 판단할 수 있다.According to an embodiment, as a result of performing voice recognition using the general language model in the NLU module 173, the processor may determine that the input voice contains a language impediment component when it is impossible to extract the user's intention. there is.

또한, 일 실시예에 따라 프로세서는 상기 ASR 모듈(171)에서 입력된 음성을 텍스트로 변환한 결과를 NLU 모듈(173)에서 상기 문법적 분석을 수행한 결과 구분된 형태소가 어떠한 문법적인 요소를 갖는지 파악할 수 없는 경우, 입력된 음성에 언어장애 요소가 포함된 것으로 판단할 수도 있다.In addition, according to an embodiment, the processor performs the grammatical analysis in the NLU module 173 on the result of converting the input voice into text in the ASR module 171, and determines what grammatical elements the classified morphemes have. If not, it may be determined that the input voice includes a language disorder element.

입력된 음성에 언어장애 요소가 포함된 것으로 판단하는 방법은 전술한 예시에 한정되지 않고 다양한 방법을 통해 구현될 수 있다.The method of determining that the input voice includes a language impediment component is not limited to the above example and may be implemented through various methods.

음성 합성 모듈(TTS 모듈, 174)은 텍스트 형태의 정보를 음성 형태의 정보로 변경할 수 있다. TTS 모듈(174)은 NLU 모듈(173)의 자연어 생성 모듈로부터 텍스트 형태의 정보를 수신하고, 상기 텍스트 형태의 정보를 음성 형태의 정보로 변경하여 음성 형태의 정보를 스피커를 통해 출력할 수 있다.The voice synthesis module (TTS module, 174) may change text-type information into voice-type information. The TTS module 174 may receive text-type information from the natural language generation module of the NLU module 173, convert the text-type information into voice-type information, and output the voice-type information through a speaker.

음성 합성 모듈(174)은 제공된 텍스트에 기초하여 스피치 출력을 합성한다. 예를 들어, 음성 인식 모듈(ASR)(171)에서 생성된 결과는 텍스트 문자열의 형태이다. 음성 합성 모듈(174)은 텍스트 문자열을 가청 스피치 출력으로 변환한다. 음성 합성 모듈(174)은, 텍스트로부터의 스피치 출력을 생성하기 위하여 임의의 적절한 스피치 합성 기법을 사용하는데, 이는 편집 합성(concatenative synthesis), 단위 선택 합성(unit selection synthesis), 다이폰 합성, 도메인-특정 합성, 포먼트 합성(Formant synthesis), 조음 합성(Articulatory synthesis), HMM(hidden Markov model) 기반 합성, 및 정현파 합성(sinewave synthesis)을 포함하지만 이로 한정되지 않는다.Speech synthesis module 174 synthesizes speech output based on the provided text. For example, the result generated by the speech recognition module (ASR) 171 is in the form of a text string. Speech synthesis module 174 converts the text string into audible speech output. Speech synthesis module 174 uses any suitable speech synthesis technique to generate speech output from text, including concatenative synthesis, unit selection synthesis, diphone synthesis, domain- but is not limited to specific synthesis, formant synthesis, articulatory synthesis, hidden Markov model (HMM) based synthesis, and sinewave synthesis.

일부 예들에서, 음성 합성 모듈(174)은 단어들에 대응하는 음소 문자열에 기초하여 개별 단어들을 합성하도록 구성된다. 예를 들어, 음소 문자열은 생성된 텍스트 문자열의 단어와 연관된다. 음소 문자열은 단어와 연관된 메타데이터에 저장된다. 음성 합성 모듈(174)은 스피치 형태의 단어를 합성하기 위해 메타데이터 내의 음소 문자열을 직접 프로세싱하도록 구성된다.In some examples, speech synthesis module 174 is configured to synthesize individual words based on phoneme strings corresponding to the words. For example, a phoneme string is associated with a word in a generated text string. Phoneme strings are stored in metadata associated with words. Speech synthesis module 174 is configured to directly process phoneme strings in the metadata to synthesize words in speech form.

본 명세서의 일 실시예에 따라, ASR 모듈(171), NLU 모듈(173)의 음성 처리 결과를 TTS(174)를 통해 음성합성을 수행한 결과, TTS(174)의 출력이 독립적인 언어적 의미를 갖지 못하는 경우 예를 들어, 사용자의 의도는 "더워" 라는 음성을 입력하고자 하였으나, 사용자의 언어장애로 인해 "더더워", "더더더워", "더더어더워" 등의 TTS(174) 결과를 출력한 경우, 입력된 음성에 언어장애 요소가 포함된 것으로 판단하고, 상기 입력된 음성을 추후 언어모델 튜닝을 위한 학습 데이터로 저장할 수 있다. 즉, 본 명세서의 일 실시예는 ASR 모듈(171), NLU 모듈(173)을 통해서만 입력 음성의 언어장애 포함여부를 판단하는 것이 아니라, ASR 모듈(171), NLU 모듈(173)의 음성 처리 결과에서는 언어장애 요소가 포함되어 있는지 판단하지 못하였으나, 최종적으로 TTS(174) 출력 결과를 통해서 언어장애 포함여부를 판단할 수도 있다.According to an embodiment of the present specification, as a result of performing speech synthesis through the TTS 174 on the speech processing results of the ASR module 171 and the NLU module 173, the output of the TTS 174 has independent linguistic meaning. For example, the user's intention was to input the voice "hot", but due to the user's language impairment, TTS 174 results such as "hotter", "more hotter", "more hotter", etc. is output, it is determined that the input voice includes a language disorder component, and the input voice may be stored as learning data for language model tuning later. That is, in an embodiment of the present specification, it is not determined whether or not the input voice includes a language disorder only through the ASR module 171 and the NLU module 173, but the voice processing result of the ASR module 171 and the NLU module 173. Although it was not determined whether a language disorder element was included in <RTI ID=0.0>,</RTI> it is possible to finally determine whether or not a language disorder is included through the output result of the TTS (174).

한편, 본 발명의 일 실시예에 따른 챗봇 대화 처리 장치는 지능형 에이전트(Artificial Intelligence Agent, AI 에이전트)(172)를 더 포함할 수 있다. 상기 지능형 에이전트(172)는 전술한 ASR 모듈(171), NLU 모듈(173) 및/또는 TTS 모듈(173)이 수행하는 기능 중 적어도 일부의 기능을 수행하도록 설계될 수 있다. 또한 상기 지능형 에이전트 모듈(172)은 ASR 모듈(171), NLU 모듈(173) 및/또는 TTS 모듈(174) 각각의 독립적인 기능을 수행하는데 기여할 수 있다.Meanwhile, the chatbot conversation processing apparatus according to an embodiment of the present invention may further include an artificial intelligence agent (AI agent) 172. The intelligent agent 172 may be designed to perform at least some of the functions performed by the aforementioned ASR module 171, NLU module 173, and/or TTS module 173. In addition, the intelligent agent module 172 may contribute to performing independent functions of each of the ASR module 171, the NLU module 173, and/or the TTS module 174.

상기 지능형 에이전트 모듈(173)은 심층학습(딥러닝)을 통해 전술한 기능들을 수행할 수 있다. 상기 심층학습은 심층 신경망(DNN, deep neural networks), 합성곱 신경망(CNN, convolutional deep neural networks), 순환 신경망(RNN, Recurrent Boltzmann Machine), 제한 볼츠만 머신(RBM, Restricted Boltzmann Machine), 심층 신뢰 신경망(DBN, deep belief networks), 심층 Q-네트워크(Deep Q-Network)와 같은 다양한 딥 러닝 기법들이 컴퓨터비젼, 음성인식, 자연어처리, 음성/신호처리 등의 분야에 적용될 수 있다.The intelligent agent module 173 may perform the aforementioned functions through deep learning (deep learning). The deep learning includes deep neural networks (DNN), convolutional deep neural networks (CNN), recurrent Boltzmann Machine (RNN), Restricted Boltzmann Machine (RBM), and deep trust neural networks. Various deep learning techniques such as deep belief networks (DBN) and deep Q-networks can be applied to fields such as computer vision, voice recognition, natural language processing, and voice/signal processing.

지능형 에이전트 모듈(172)은 자연어 처리 분야에서 심층 인공신경망 구조를 이용하여 자동 번역(machine translation), 감정 분석(emotion analysis), 정보 검색(information retrieval)을 비롯한 다양한 자연언어처리 과정을 수행할 수 있다.The intelligent agent module 172 can perform various natural language processing processes including machine translation, emotion analysis, and information retrieval by using a deep artificial neural network structure in the field of natural language processing. .

본 명세서의 일 실시예는 지능형 에이전트 모듈(172)을 통해 입력된 음성에 언어장애 요소가 포함되어 있는지 여부를 판단할 수도 있다. 지능형 에이전트 모듈(172)은 특히 다양한 개인화된 정보를 수집하여, 개인화된 언어모델을 학습하는데 활용될 수 있다. 일 실시예에 따라, 음성인식 장치(100) 사용자에 의해 주로 발현되는 주요 언어장애 유형들을 판단하고, 해당 언어장애 유형에 대응되는 언어모델에 대하여 튜닝을 수행할 수 있다. 지능형 에이전트 모듈(172)은 상기 개인화된 언어모델을 학습하는데, 개인화된 정보 예를 들어, 맵(maps), SMS, News, Music, Stock, Weather, wikipedia 정보를 활용할 수도 있다.An embodiment of the present specification may determine whether a speech input through the intelligent agent module 172 includes a language impediment component. The intelligent agent module 172 may be used to learn a personalized language model by collecting various personalized information. According to an embodiment, it is possible to determine major types of language disorder mainly expressed by the user of the voice recognition apparatus 100, and to perform tuning on a language model corresponding to the type of language disorder. The intelligent agent module 172 may utilize personalized information, for example, maps, SMS, News, Music, Stock, Weather, and wikipedia information, to learn the personalized language model.

상기 지능형 에이전트(172)은 설명의 편의를 위해 ASR 모듈(171), NLU 모듈(173) 및 TTS 모듈(174)과 구분되도록 별도의 블럭으로 표현하였으나, 상기 지능형 에이전트(172)는 상기 각 모듈(171,173,174)의 적어도 일부 또는 전부의 기능을 수행할 수도 있다.The intelligent agent 172 is expressed as a separate block to be distinguished from the ASR module 171, NLU module 173, and TTS module 174 for convenience of description, but the intelligent agent 172 is each of the modules ( 171,173,174) may perform at least some or all of the functions.

도 3은 본 명세서의 일 실시예에 따른 음성인식 방법의 흐름도이다. 상기 음성인식 방법은 도 1의 프로세서(Processor) 또는 음성처리 모듈(Voice Processor)을 통해 구현될 수 있다.3 is a flowchart of a voice recognition method according to an embodiment of the present specification. The voice recognition method may be implemented through a processor or a voice processor of FIG. 1 .

도 3을 참조하면, 프로세서(170)은 입력부를 통해 음성입력을 수신할 수 있다(S300). 프로세서(170)는 입력된 음성에 언어장애 요소가 포함되어 있는지를 판단할 수 있다(S310). 프로세서(170)는 일반적으로 음성인식 동작에 사용되는 언어모델을 사용할 것인지, 언어장애가 포함된 음성에 특화된 튜닝 언어모델을 사용할 것인지 판단하기 위해 음성인식 장치(100)에 입력된 음성에 언어장애 요소가 포함되어 있는지 여부를 판단할 필요가 있다.Referring to FIG. 3 , the processor 170 may receive a voice input through an input unit (S300). The processor 170 may determine whether the input voice includes a language disorder component (S310). The processor 170 determines whether to use a language model that is generally used for voice recognition operation or a tuning language model specialized for speech including a language disorder. It is necessary to determine whether it is included or not.

전술한 바와 같이 프로세서(170)는 입력된 음성에 대하여 ASR 결과, NLU 결과 및/또는 TTS 결과에 기초하여 입력된 음성에 언어장애 요소가 포함되어 있는지 여부를 판단할 수 있다. 일 실시예에 따라 프로세서(170)는 입력된 음성에 대하여 미리 정해진 스피치 패턴을 감지한 경우, 상기 언어장애가 존재하는 것으로 판단할 수 있다. 여기서 언어장애 요소를 판단하기 위한 상기 미리 정해진 스피치 패턴은 말 더듬기, 반복 읽기, 발음 부정확, 긴 휴지, 음량 부족 중 적어도 하나를 포함할 수 있다.As described above, the processor 170 may determine whether or not a speech impediment component is included in the input speech based on the ASR result, the NLU result, and/or the TTS result of the input speech. According to an embodiment, the processor 170 may determine that the language disorder exists when a predetermined speech pattern is detected with respect to the input voice. Here, the predetermined speech pattern for determining the language disorder component may include at least one of stuttering, repetitive reading, inaccurate pronunciation, long pauses, and lack of volume.

프로세서(170)는 입력된 음성에 언어장애 요소가 포함된 것으로 판단한 경우, 상기 언어장애의 유형을 구분할 수 있다. 상기 언어장애 유형은 말 더듬기, 반복 읽기, 발음 부정확, 긴 휴지, 음량 부족 등의 항목으로 구분될 수 있으며, 프로세서(170)는 입력된 음성이 위 예시된 언어장애 유형 중 적어도 하나에 포함되는지 여부를 판단한다(S320). 프로세서(170)는 상기 입력된 음성이 위 예시된 언어장애 유형 중 적어도 하나에 포함되지 않는 것으로 판단한 경우, 입력된 음성에 대하여 새로운 언어장애 유형으로 등록하고 상기 새로운 언어장애 유형에 대한 튜닝 언어모델 생성을 위한 학습 데이터 획득부에 전달할 수 있다. 일 예에 따라 프로세서(170)는 위 예시된 언어장애 유형 중 적어도 하나에 포함되지 않는 경우, 일반 언어 모델을 적용하여 음성인식이 수행되도록 제어할 수도 있다.When it is determined that the input voice includes a language disorder component, the processor 170 may distinguish the type of the language disorder. The type of language disorder may be classified into items such as stuttering, repetitive reading, inaccurate pronunciation, long pauses, lack of volume, and the like, and the processor 170 determines whether the input voice is included in at least one of the above-exemplified language disorder types. Determine (S320). When the processor 170 determines that the input voice is not included in at least one of the above exemplified language disorder types, the processor 170 registers the input voice as a new language disorder type and creates a tuning language model for the new language disorder type. It can be transmitted to the learning data acquisition unit for. According to an example, the processor 170 may control speech recognition to be performed by applying a general language model when at least one of the above-exemplified speech impairment types is not included.

프로세서(170)는 언어장애 유형이 구분된 경우, 구분된 언어장애 유형에 대응되는 튜닝 언어모델을 저장부로부터 선택할 수 있다(S330).When the type of language disorder is classified, the processor 170 may select a tuning language model corresponding to the classified language disorder type from the storage unit (S330).

상기 저장부는, 말 더듬기 패턴에 대응하는 제1 언어모델, 반복 읽기 패턴에 대응하는 제2 언어모델, 발음 부정확 패턴에 대응하는 제3 언어모델을 포함할 수 있다. 일 실시예에 따라 상기 저장부는 언어장애로 판단되는 스피치 패턴 중 적어도 둘 이상이 조합된 패턴에 대응하는 제4 언어모델을 포함할 수도 있다. 예를 들어, 상기 제4 언어모델은, 말 더듬 패턴과 반복 읽기 패턴에 특화된 튜닝 모델, 말 더듬 패턴과 긴 휴지 패턴에 특화된 튜닝 모델, 말 더듬 패턴, 긴 휴지패턴 및 음량 부족 패턴이 동시에 포함된 음성에 특화된 튜닝 모델 등, 언어장애 증상별로 최적화어 튜닝된 언어모델 들을 포함할 수 있다. 즉, 제4 언어모델은 2개의 언어장애 증상, 또는 3개의 언어장애 증상이 복합적으로 나타나는 입력 음성에 대하여 음성인식(사용자 의도 파악) 과정에서 적용될 수 있다. 일 예에 따라, 프로세서(170)는 입력된 음성에 말 더듬 패턴과 반복 읽기 패턴이 입력 음성에 동시에 확인된 경우, 상기 저장부에서 제4 언어모델 중 어느 하나를 선택하여 음성처리를 할 수 있다.The storage unit may include a first language model corresponding to a stuttering pattern, a second language model corresponding to a repetitive reading pattern, and a third language model corresponding to an inaccurate pronunciation pattern. According to an embodiment, the storage unit may include a fourth language model corresponding to a pattern in which at least two or more of the speech patterns determined to be a language disorder are combined. For example, the fourth language model includes a tuning model specialized for a stuttering pattern and a repetitive reading pattern, a tuning model specialized for a stuttering pattern and a long pause pattern, a stuttering pattern, a long pause pattern, and a lack of volume pattern at the same time. It may include language models optimized for each language disorder symptom, such as a tuning model specialized for speech. That is, the fourth language model can be applied in the process of voice recognition (determining user's intention) to an input voice in which two symptoms of language disorder or three symptoms of language disorder appear in combination. According to an example, the processor 170 may perform voice processing by selecting one of the fourth language models from the storage unit when a stuttering pattern and a repetitive reading pattern are simultaneously identified in the input voice. .

프로세서(170)는 상기 저장부에서 선택된 튜닝 언어모델을 적용하여 음성인식 동작을 수행할 수 있다(S340). 한편, 본 명세서의 일 실시예는 음향 모델은 일반적인 음성 인식 동작과 동일하게 적용될 수 있다.The processor 170 may perform a voice recognition operation by applying the tuning language model selected from the storage unit (S340). Meanwhile, according to an embodiment of the present specification, an acoustic model may be applied in the same manner as a general voice recognition operation.

한편, 일 실시예에 따라, 프로세서(170)는 언어장애 요소가 포함된 경우, 튜닝 언어모델 사용 뿐 아니라, 일반 언어모델을 적용해서 음성인식을 함께 수행할 수도 있으며, 두 가지의 결과를 함께 제공할 수도 있다.On the other hand, according to an embodiment, when the language disorder element is included, the processor 170 may perform voice recognition together by applying a general language model as well as using a tuning language model, and provide two results together. You may.

일 실시예에 따라, 프로세서(170)는 언어장애에 대응하는 스피치 패턴을 학습데이터로 획득하고, 학습데이터에 대하여 지도학습 과정을 통해 특정 언어장애에 대응하는 언어모델을 지속적으로 학습할 수 있다.According to an embodiment, the processor 170 may acquire a speech pattern corresponding to a language disorder as learning data, and continuously learn a language model corresponding to a specific language disorder through a supervised learning process with respect to the learning data.

전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.The above-described present invention can be implemented as computer readable code on a medium on which a program is recorded. The computer-readable medium includes all types of recording devices in which data that can be read by a computer system is stored. Examples of computer-readable media include Hard Disk Drive (HDD), Solid State Disk (SSD), Silicon Disk Drive (SDD), ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage device, etc. , and also includes those implemented in the form of a carrier wave (eg, transmission over the Internet). Accordingly, the above detailed description should not be construed as limiting in all respects and should be considered illustrative. The scope of the present invention should be determined by reasonable interpretation of the appended claims, and all changes within the equivalent scope of the present invention are included in the scope of the present invention.

Claims (10)

음성 입력부;
음성인식을 수행하기 위한 적어도 하나의 언어모델이 저장된 저장부;
상기 음성 입력부를 통해 입력된 사용자의 음성에 대해 상기 저장부에 저장된 상기 언어모델을 이용하여 음성인식을 수행하는 음성 인식부; 및
상기 음성 입력부를 통해 입력된 음성에 적어도 하나의 언어장애가 존재하는 것으로 판단된 경우, 언어장애 유형을 구분하고, 구분된 언어장애 유형에 따른 튜닝 언어모델을 상기 저장부로부터 선택하고, 상기 선택된 튜닝 언어모델을 이용하여 상기 음성인식을 수행하도록 상기 음성 인식부를 제어하는 프로세서;
를 포함하는 음성 인식 장치.
voice input unit;
a storage unit storing at least one language model for performing speech recognition;
a voice recognition unit performing voice recognition on the user's voice input through the voice input unit using the language model stored in the storage unit; and
When it is determined that at least one language disorder exists in the voice input through the voice input unit, a language disorder type is classified, a tuning language model according to the classified language disorder type is selected from the storage unit, and the selected tuning language is selected. a processor controlling the voice recognition unit to perform the voice recognition using a model;
Voice recognition device comprising a.
제 1 항에 있어서,
상기 프로세서는,
상기 입력된 음성에 대하여 미리 정해진 스피치 패턴을 감지한 경우, 상기 언어장애가 존재하는 것으로 판단하고,
상기 미리 정해진 스피치 패턴은, 말 더듬기, 반복 읽기, 발음 부정확, 긴 휴지, 음량 부족 중 적어도 하나를 포함하는 것을 특징으로 하는 음성 인식 장치.
According to claim 1,
the processor,
When a predetermined speech pattern is detected for the input voice, it is determined that the language disorder exists;
The speech recognition device of claim 1 , wherein the predetermined speech pattern includes at least one of stuttering, repetitive reading, inaccurate pronunciation, long pauses, and lack of volume.
제 2 항에 있어서,
상기 저장부는,
말 더듬기 패턴에 대응하는 제1 언어모델, 반복 읽기 패턴에 대응하는 제2 언어모델, 발음 부정확 패턴에 대응하는 제3 언어모델, 상기 언어장애로 판단되는 스피치 패턴 중 적어도 둘 이상이 조합된 패턴에 대응하는 제4 언어모델을 포함하는 것을 특징으로 하는 음성 인식 장치.
According to claim 2,
the storage unit,
A pattern combining at least two of a first language model corresponding to a stuttering pattern, a second language model corresponding to a repetitive reading pattern, a third language model corresponding to an inaccurate pronunciation pattern, and a speech pattern determined to be the language disorder A voice recognition device comprising a corresponding fourth language model.
제 1 항에 있어서,
상기 프로세서는,
상기 언어장애에 대응하는 스피치 패턴을 학습데이터로 획득하는 학습데이터 획득부; 및
상기 학습데이터에 대하여 지도학습 과정을 통해 특정 언어장애에 대응하는 언어모델을 학습하는 모델 학습부;
를 더 포함하는 것을 특징으로 하는 음성 인식 장치.
According to claim 1,
the processor,
a learning data acquiring unit acquiring a speech pattern corresponding to the language disorder as learning data; and
a model learning unit for learning a language model corresponding to a specific language disorder through a supervised learning process with respect to the learning data;
Voice recognition device further comprising a.
제 1 항에 있어서,
상기 프로세서는,
상기 음성 입력부를 통해 입력된 음성에 적어도 하나의 언어장애가 존재하는 것으로 판단된 경우, 상기 음성인식을 수행하는 과정에서 상기 저장부에 저장된 언어모델 중 일반 언어모델 및 특정 언어장애에 대응하는 상기 튜닝 언어모델 각각을 적용하여 음성인식 결과를 출력하도록 제어하는 것을 특징으로 하는 음성 인식 장치.
According to claim 1,
the processor,
When it is determined that there is at least one language disorder in the voice inputted through the voice input unit, the general language model and the tuning language corresponding to the specific language disorder among the language models stored in the storage unit in the process of performing the voice recognition. A voice recognition device characterized by controlling to output a voice recognition result by applying each model.
음성 입력부를 통해 사용자의 음성을 입력받는 단계;
상기 음성 입력부를 통해 입력된 사용자의 음성에 대해 저장부에 저장된 언어모델을 이용하여 음성인식을 수행하는 단계;를 포함하되,
상기 음성 입력부를 통해 입력된 음성에 적어도 하나의 언어장애가 존재하는 것으로 판단된 경우, 언어장애 유형을 구분하고, 구분된 언어장애 유형에 따른 튜닝 언어모델을 상기 저장부로부터 선택하는 단계;
상기 선택된 튜닝 언어모델을 이용하여 상기 음성인식을 수행하도록 상기 음성 인식부를 제어하는 단계;
를 포함하는 것을 특징으로 하는 음성 인식 방법.
receiving a user's voice through a voice input unit;
Performing voice recognition using a language model stored in a storage unit for the user's voice input through the voice input unit;
if it is determined that at least one language disorder exists in the voice inputted through the voice input unit, classifying a language disorder type and selecting a tuning language model according to the classified language disorder type from the storage unit;
controlling the voice recognition unit to perform the voice recognition using the selected tuning language model;
Voice recognition method comprising a.
제 6 항에 있어서,
상기 입력된 음성에 대하여 미리 정해진 스피치 패턴을 감지한 경우, 상기 언어장애가 존재하는 것으로 판단하는 단계;를 더 포함하고,
상기 미리 정해진 스피치 패턴은, 말 더듬기, 반복 읽기, 발음 부정확, 긴 휴지, 음량 부족 중 적어도 하나를 포함하는 것을 특징으로 하는 음성 인식 방법.
According to claim 6,
Further comprising: determining that the language disorder exists when a predetermined speech pattern is detected with respect to the input voice;
The speech recognition method of claim 1 , wherein the predetermined speech pattern includes at least one of stuttering, repetitive reading, inaccurate pronunciation, long pauses, and lack of volume.
제 6 항에 있어서,
상기 저장부는,
말 더듬기 패턴에 대응하는 제1 언어모델, 반복 읽기 패턴에 대응하는 제2 언어모델, 발음 부정확 패턴에 대응하는 제3 언어모델, 상기 언어장애로 판단되는 스피치 패턴 중 적어도 둘 이상이 조합된 패턴에 대응하는 제4 언어모델을 포함하는 것을 특징으로 하는 음성 인식 방법.
According to claim 6,
the storage unit,
A pattern combining at least two of a first language model corresponding to a stuttering pattern, a second language model corresponding to a repetitive reading pattern, a third language model corresponding to an inaccurate pronunciation pattern, and a speech pattern determined to be the language disorder A speech recognition method comprising a corresponding fourth language model.
제 6 항에 있어서,
상기 언어장애에 대응하는 스피치 패턴을 학습데이터로 획득하는 학습데이터 획득하는 단계;
상기 학습데이터에 대하여 지도학습 과정을 통해 특정 언어장애에 대응하는 언어모델을 학습하는 단계;
를 더 포함하는 것을 특징으로 하는 음성 인식 방법.
According to claim 6,
Acquiring learning data for obtaining a speech pattern corresponding to the language disorder as learning data;
learning a language model corresponding to a specific language disorder through a supervised learning process with respect to the learning data;
Voice recognition method further comprising a.
제 6 항에 있어서,
상기 음성 입력부를 통해 입력된 음성에 적어도 하나의 언어장애가 존재하는 것으로 판단된 경우, 상기 음성인식을 수행하는 과정에서 상기 저장부에 저장된 언어모델 중 일반 언어모델 및 특정 언어장애에 대응하는 언어모델 각각을 적용하여 음성인식 결과를 출력하도록 제어하는 단계;
를 더 포함하는 것을 특징으로 하는 음성 인식 방법.
According to claim 6,
When it is determined that there is at least one language disorder in the voice inputted through the voice input unit, a general language model and a language model corresponding to a specific language disorder among the language models stored in the storage unit are each in the process of performing the voice recognition. controlling to output a voice recognition result by applying;
Voice recognition method further comprising a.
KR1020220017442A 2022-02-10 2022-02-10 Speech Recognition Healthcare Service Using Variable Language Model KR20230120790A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220017442A KR20230120790A (en) 2022-02-10 2022-02-10 Speech Recognition Healthcare Service Using Variable Language Model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220017442A KR20230120790A (en) 2022-02-10 2022-02-10 Speech Recognition Healthcare Service Using Variable Language Model

Publications (1)

Publication Number Publication Date
KR20230120790A true KR20230120790A (en) 2023-08-17

Family

ID=87800138

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220017442A KR20230120790A (en) 2022-02-10 2022-02-10 Speech Recognition Healthcare Service Using Variable Language Model

Country Status (1)

Country Link
KR (1) KR20230120790A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102587471B1 (en) * 2023-02-15 2023-10-12 주식회사 코트라스 Artificial Intelligence Language Impairment Interpretation System

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102587471B1 (en) * 2023-02-15 2023-10-12 주식회사 코트라스 Artificial Intelligence Language Impairment Interpretation System

Similar Documents

Publication Publication Date Title
CN111933129B (en) Audio processing method, language model training method and device and computer equipment
Mehrish et al. A review of deep learning techniques for speech processing
EP3384488B1 (en) System and method for implementing a vocal user interface by combining a speech to text system and a speech to intent system
Agarwalla et al. Machine learning based sample extraction for automatic speech recognition using dialectal Assamese speech
US11282501B2 (en) Speech recognition method and apparatus
US11705105B2 (en) Speech synthesizer for evaluating quality of synthesized speech using artificial intelligence and method of operating the same
Swain et al. A DCRNN-based ensemble classifier for speech emotion recognition in Odia language
Tanveer et al. Ensemble deep learning in speech signal tasks: A review
Basak et al. Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems.
Jha et al. Machine learning techniques for speech emotion recognition using paralinguistic acoustic features
Sekkate et al. A statistical feature extraction for deep speech emotion recognition in a bilingual scenario
KR20230120790A (en) Speech Recognition Healthcare Service Using Variable Language Model
KR102221963B1 (en) Artificial intelligence device and method for providing image information
Chauhan et al. A method for simplifying the spoken emotion recognition system using a shallow neural network and temporal feature stacking & pooling (TFSP)
KR20220070466A (en) Intelligent speech recognition method and device
KR20200144366A (en) Generating trigger recognition models for robot
Hasan et al. Effect of vocal tract dynamics on neural network‐based speech recognition: A Bengali language‐based study
CN114898779A (en) Multi-mode fused speech emotion recognition method and system
Anindya et al. Development of Indonesian speech recognition with deep neural network for robotic command
Wang Deep learning in speech and language processing
Shome et al. Speaker Recognition through Deep Learning Techniques: A Comprehensive Review and Research Challenges
Dhakal Novel Architectures for Human Voice and Environmental Sound Recognitionusing Machine Learning Algorithms
Song et al. Towards realizing sign language to emotional speech conversion by deep learning
KR20230149894A (en) Personalized machine learning-based driver abnormal behavior detection system
CN112951270B (en) Voice fluency detection method and device and electronic equipment