KR20190046631A - 자연어 프로세싱을 위한 시스템 및 방법 - Google Patents
자연어 프로세싱을 위한 시스템 및 방법 Download PDFInfo
- Publication number
- KR20190046631A KR20190046631A KR1020180117334A KR20180117334A KR20190046631A KR 20190046631 A KR20190046631 A KR 20190046631A KR 1020180117334 A KR1020180117334 A KR 1020180117334A KR 20180117334 A KR20180117334 A KR 20180117334A KR 20190046631 A KR20190046631 A KR 20190046631A
- Authority
- KR
- South Korea
- Prior art keywords
- speech recognition
- result
- results
- correct
- result set
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000003058 natural language processing Methods 0.000 title claims abstract description 15
- 230000004927 fusion Effects 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 6
- 230000008569 process Effects 0.000 claims abstract description 5
- 230000014509 gene expression Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims 1
- 230000001755 vocal effect Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G06F17/271—
-
- G06F17/2765—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
복수의 음성 인식 엔진, 복수의 음성 인식 엔진으로부터 올바른 결과를 식별하기 위한 데이터 융합 모델 및 올바른 결과를 프로세싱하기 위한, 음성 인식 모델과 별개이며 구별되는 의미 이해 모델을 이용해 자연어 프로세싱의 정확도를 개선하기 위한 시스템 및 방법. 올바른 결과를 이용해 말뭉치가 형성되며 상기 말뭉치는 데이터 융합 모델 및 의미 이해 모델을 훈련하는 데 사용된다.
Description
본 발명은 자동 음성 인식을 위한 자연어 프로세싱과 관련되며 더 구체적으로 자연어 프로세싱의 정확도를 개선하는 것과 관련된다.
연결성이 흔한 일이 되고 있는 세계에서, 사용자와 연결된 장치 사이에 존재하는 인간-기계 인터페이스를 개선하기 위한 음성 인식 기술이 통합된 많은 장치가 존재한다. 예를 들어, 차량에서, 내비게이션 시스템, 인포테인먼트 시스템(infotainment system), 기후 제어 시스템, 또는 그 밖의 다른 차량 운영이 모두 음성 인식 기술을 이용해 제어될 수 있다. 커넥티드 홈(connected home)에서, 가전 아이템, 가령, 텔레비전, 시계, 가전기기, 조명 스위치, 온도조절장치(thermostat) 및 진공 청소기에 음성 인식 기술이 통합될 수 있다. 그 밖의 다른 휴대용 장치, 가령, 개인 어시스턴트, 스마트 시계, 태블릿, 모바일 폰 등에 또한 음성 인식 기술이 통합된다.
현재의 장치 실무에서, 단일 음성 인식 엔진이 자동 음성 인식과 의미 이해 기능을 수행한다. 그러나 음성 인식 엔진은 완벽하지 못하게 덜 정확하며 종종 자연어 프로세싱에서의 에러를 인식하거나 식별하지 못한다.
음성 인식 기술에서 사용되는 자연어 프로세싱의 정확도를 개선할 필요가 있다.
복수의 음성 인식 엔진, 복수의 음성 인식 엔진으로부터 올바른 결과를 식별하기 위한 데이터 융합 모델 및 올바른 결과를 프로세싱하기 위한, 음성 인식 모델과 별개이며 구별되는 의미 이해 모델을 이용해 자연어 프로세싱의 정확도를 개선하기 위한 시스템 및 방법. 올바른 결과를 이용해 말뭉치가 형성되며 상기 말뭉치는 데이터 융합 모델 및 의미 이해 모델을 훈련하는 데 사용된다.
도 1은 자연어 프로세싱을 위한 시스템의 시스템 아키텍처의 블록도이다.
도 2는 자연어 프로세싱을 위한 방법의 흐름도이다.
도 3은 올바른 결과를 결정하기 위한 방법의 흐름도이다.
도면에서 요소 및 단계가 단순성과 명료성을 위해 도시되며 반드시 임의의 특정 순서에 따라 렌더링될 필요는 없다. 예를 들어, 본 발명의 실시예의 이해를 향상시키는 데 도움이 되도록 동시에 또는 상이한 순서로 수행될 수 있는 단계가 도면에 도시된다.
도 2는 자연어 프로세싱을 위한 방법의 흐름도이다.
도 3은 올바른 결과를 결정하기 위한 방법의 흐름도이다.
도면에서 요소 및 단계가 단순성과 명료성을 위해 도시되며 반드시 임의의 특정 순서에 따라 렌더링될 필요는 없다. 예를 들어, 본 발명의 실시예의 이해를 향상시키는 데 도움이 되도록 동시에 또는 상이한 순서로 수행될 수 있는 단계가 도면에 도시된다.
본 발명의 다양한 양태가 특정 예시적 실시예를 참조하여 기재되지만, 본 발명은 이러한 실시예에 한정되지 않고, 추가 변경, 응용, 및 실시예가 본 발명의 범위 내에서 구현될 수 있다. 도면에서, 유사한 도면부호가 동일한 구성요소를 나타내기 위해 사용될 것이다. 해당 분야의 통상의 기술자라면 본 명세서에 제공된 다양한 구성요소가 본 발명의 범위 내에서 변경될 수 있음을 알 것이다.
기존에는, 장치가 단 하나의 음성 인식 엔진(음성 인식 엔진)을 이용했다. 이러한 단일 엔진이 자동 음성 인식 기능과 의미 이해 기능을 모두 수행한다. 도 1은 장치, 가령, 휴대용 또는 모바일 폰 또는 태블릿, 컴퓨터, 인포테인먼트 시스템, 또는 음성 인식 기술을 구현하는 그 밖의 다른 임의의 장치 상에서의 자연어 프로세싱을 위한 시스템(100)의 블록도이다. 시스템은 다양한 프로그래밍 언어 및/또는 기술을 이용해 컴퓨터 프로그램으로부터 컴파일 또는 번역될 수 있는 컴퓨터 실행형 명령을 포함한다. 일반적으로, 프로세서(가령, 마이크로프로세서)는 가령 메모리, 컴퓨터 판독형 매체 등으로부터 명령을 수신하고 명령을 실행시킨다. 상기 프로세서는 소프트웨어 프로그램의 명령을 실행시킬 수 있는 비-일시적 컴퓨터 판독형 저장 매체를 포함한다. 컴퓨터 판독형 저장 매체는, 전자 저장 장치, 자기 저장 장치, 광학 저장 장치, 전자기 저장 장치, 반도체 저장 장치, 또는 이들의 임의의 적합한 조합일 수 있으나, 이에 한정되지는 않는다. 통신 수단, 가령, 프로세서와 통신하기 위한 데이터 버스가 또한 포함된다.
입력 장치(102), 가령, 마이크로폰이 자연어 입력, 가령, 사용자로부터의 구두 명령어(verbal command)를 수신하고, 구두 입력 명령어를 프로세서에 의해 액세스 가능한 복수의 음성 인식 엔진(104a-n)으로 제공한다. 음성 인식 엔진(104a-n)은 상용화된 엔진, 가령, iFlyTek, Baidu, Hound, Siri, Amazon Alexa 및 Microsoft Cortana 등이다. 복수의 음성 인식 엔진(104a-n)의 각각의 음성 인식 엔진(104)은 자연어 프로세싱의 자동 음성 인식 부분만 수행한다. 의미 이해 부분은 본 명세서에서 차후 설명될 의미 이해 모델(106)에서 따로 수행된다.
복수의 음성 인식 엔진(104a-n)의 각각의 음성 인식 엔진(104)이 하나씩의 결과(108)를 제공함으로써, 복수의 결과(108a-n)가 생성된다. 구두 입력 명령어의 경우, 음성 인식 엔진(104a-n) 간에 서로 다른 결과가 생성될 것이다. 데이터 융합 모델(data fusion model)(110)은 복수의 결과(108a-n)를 포함하여 올바른 결과를 선택할 수 있다. 의미 이해 모델(106)이 장치에 의해 사용될 올바른 결과를 수신한다. 복수의 음성 인식 엔진의 각각의 음성 인식 엔진(104)의 방식의 세부사항은 본 명세서에서 언급되지 않을 것이다. 각각의 음성 인식 엔진이 자신의 대응하는 결과(108)에 도달하는 방법에 대해 몇 가지 방식이 존재하며, 선택할 어떠한 올바른 결과도 존재하지 않는 경우에 올바른 결과를 선택할 때 또는 올바른 결과를 결정할 때 이러한 다양성은 데이터 융합 모델(106)에 본질적으로 유용하다.
또한, 시스템(100)은 입력 신호를 향상시키기 위해 입력(102)에서 수신되는 오디오 신호를 디지털 프로세싱하는 프로세서를 포함할 수 있다. 예를 들어, 입력(102)에서 수신된 구두 명령어가 디지털화되고 필터링되어 배경 노이즈가 제거될 수 있다.
도 2를 참조하면, 방법(200)의 흐름도가 도시되어 있다. 음성, 또는 오디오 입력이 입력부, 가령, 마이크로폰에서 수신되고(202) 복수의 음성 인식 엔진으로 전송된다(204). 각각의 음성 인식 엔진이 결과를 생성하며 상기 결과는 데이터 융합 모델에 의해 수신되고 결과의 세트(206)로 컴파일된다. 올바른 결과가 식별되고(208), 올바른 결과가 의미 이해 모델로 전송되어(210) 장치에 의해 프로세싱된다. 각각의 음성 인식 엔진으로부터의 결과들이 서로 동일할 때 올바른 결과가 쉽게 식별된다. 그러나 결과가 서로 다를 때, 올바른 결과를 식별하기 위해 추가 개발이 필요하다.
많은 시나리오에서 발생할 가능성이 높은, 복수의 음성 인식 엔진으로부터의 결과가 동일하지 않을 때, 통계적 언어 모델링에 의해 올바른 결과의 결정이 이뤄진다. 문장, 즉, 구두 명령어의 확률을 계산하는 데 통계적 언어 모델링이 사용된다. 이용 가능한 많은 통계적 언어 모델링 방법이 존재한다. 한 가지 예로는 N-그램 모델(N-gram model)이 있다.
도 3을 참조하여, 복수의 음성 인식 엔진으로부터 수집된 올바른 결과를 이용해 말뭉치(corpus)를 개발함으로써 이뤄지는 올바른, 또는 최적의 결과의 결정 및 언어 모델의 훈련을 설명하기 위해 더 상세한 흐름도(300)가 나타난다. 복수의 음성 인식 결과로부터의 각각의 결과가 컴파일되고(302) 서로 비교된다(304). 모든 결과가 동일한 경우(306), 올바른 결과가 식별된다(308). 결과가 모두 동일한 것은 아닌 경우(310), 언어 모델(314)을 적용하고 각각의 결과에 확률을 할당함으로써 결과가 선택된다(312). 결과는 올바른 결과일 확률을 기초로 선택된다(312). 선택(312)된 결과는 결과 세트 중에서 올바른 결과일 가장 높은 확률을 가질 것이다. 즉, 올바른 결과인 확률이 가장 높은 결과 세트가 선택된다.
결과의 확률은 적용된 언어 모델(314)을 이용해 결정될 때 현재의 애플리케이션 또는 맥락에서의 문장, 또는 구두 명령어를 기초로 한다. 올바른 결과가 기록되고(316) 말뭉치(318)에 포함된다. 모델, 가령, N-그램 모델이 올바른 말뭉치를 선택하도록 적용되고 언어 모델(314)을 훈련하도록 사용될 수 있다(320). 예를 들어, Viterbi 알고리즘이 적용되어 올바른 결과일 가장 높은 확률을 갖는 결과를 선택할 수 있고(312), 선택된 결과가 올바른 결과로서 식별된다(312). 요컨대, 데이터 융합 모델에서 발생하는 데이터 융합이 복수의 식별된 결과로부터 올바른 결과를 선택하거나, 통계적으로 더 정확한 결과를 생성하도록 조합된 결과로부터 최적의 결과를 선택하게 할 수 있다.
예를 들어, 사용자가 구두 명령어 "I want to go to Mike's house(나는 마이크의 집에 가기를 원한다)"를 입력한다. 음성 인식 엔진 1이 결과 1 "I want to go to Mike's house(나는 마이크의 집에 가기를 원한다)"을 반환한다. 음성 인식 엔진 2가 결과 2 "I want to go to Mike's horse(나는 마이크의 말로 가기를 원한다)"를 반환한다. 음성 인식 엔진 3이 결과 3 "I won't to go to Mike's house(나는 마이크의 집에 가지 않을 것이다)"를 반환한다. 자명하게도, 결과 1이 보통의 표현을 나타내고 이것이 올바른 결과일 더 높은 결합 확률(결합 확률)을 가질 것이다. 또 다른 예시에서, 사용자가 구두 명령어 "Start Music(음악 시작)"를 입력한다. 음성 인식 엔진 1이 결과 1 "Music start(음악 시작)"을 반환하고, 음성 인식 엔진 2가 결과 2 "Music star(뮤직 스타)"를 반환한다. 이 예시는 더 복잡한데, 왜냐하면 두 문장 모두 보통의 표현일 수 있기 때문이다. 그러나 "대화" 대상 장치인 차량 환경을 고려하여, "Music start(음악 시작)"이 더 가능성이 높기 때문에 올바른 결과로서 식별될 더 높은 결합 확률을 도출할 것이다.
음성 인식 모델을 통해, 음성이 텍스트로 인식된다. 데이터 융합 모델을 통해, 올바른 결과가 식별된다. 의미 이해 모델을 통해, 올바른 또는 최적의 결과가 논리적인 방식으로 제공되도록 데이터가 구조화된다. 복수의 음성 인식 엔진의 결과를 통합시키는 것이 올바른 결과가 식별될 확률을 높인다. 마찬가지로, 정확도 개선이 의미 이해 모델에 적용될 것이다. 예를 들어, 입력 문장 "I need to go to the store(나는 상점에 가야 한다)"가 음성 인신 모델에 의해 프로세싱되고 올바른 결과가 "I need to go to the store(나는 상점에 가야 한다)"로 식별된다. 의미 이해 모델이 도착지가 "(the store)상점"이도록 "내비게이션(navigation)"에서의 동작을 식별할 것이다. 앞서 언급된 바와 같이, 이 모델에 적용될 수 있는 많은 기법이 존재하며, 동작, 즉, 내비게이션을 식별하기 위해 텍스트 분류를 이용하고, 그 후 대응하는 파라미터, 즉, 상점 도착지를 식별하기 위해 정보 추출 방법을 이용한다. 지원 벡터 머신(SVM: support vector machine)이 텍스트 카테고리화를 구현하는 데 사용될 수 있으며 조건부 랜덤 필드(CRM: conditional random field)가 정보 추출을 구현하는 데 사용될 수 있다.
문장 입력이 복수의 음성 인식 엔진으로 전송되기 때문에, 복수의 음성 인식 엔진의 결과가 컴파일된다. 따라서 언어 모델(314)이라고도 알려진 의미 이해 모델을 훈련시키는 데 사용되는 더 많은 말뭉치를 수집함으로써 시스템(100) 및 방법(200, 300)의 정확도가 개선된다.
데이터 융합 모델(110) 및 의미 이해 모델(106)이 올바른 음성 인식 결과를 획득함으로써 지속적으로 개선되는 중이다. 데이터 융합 모델을 위한 더 많은 말뭉치는 더 우수한 훈련을 의미하며, 따라서 올바른 결과를 식별할 확률이 증가함을 의미한다. 마찬가지로, 의미 이해 모델의 경우, 더 많은 말뭉치가 더 우수한 훈련을 의미하고 올바른 결과를 인식할 확률의 증가를 의미한다. 말뭉치는 음성 인식 엔진의 모든 결과를 기록함으로써 수집된다. 말뭉치는 낮은 결합 확률을 갖는 입력 문장을 선택함으로써 배열된다. 입력 문장이 정규 표현인지 여부를 수동으로 결정하는 것이 필요할 수 있다. 이러한 결정 후, 입력 문장이 말뭉치에 추가된다. 말뭉치가 지정 크기에 도달할 때 모델이 재훈련될 수 있다. 그 후 재훈련된 모델은 장치 상에서 사용 중인 또는 장치에 의해 사용되는 시스템의 업데이트로서 적용된다.
앞서, 본 발명의 주제는 특정 예시적 실시예를 참조하여 기재되었다. 그러나 다양한 수정 및 변경이 청구항으로 제공된 본 발명의 범위 내에서 이뤄질 수 있다. 명세서 및 도면은 제한이 아니라 예시이며, 수정이 본 발명의 범위 내에 포함되는 것으로 의도된다. 따라서 본 발명의 범위는 기재된 예시에 의해서가 아니라 청구항 및 이의 적법한 균등물에 의해 결정되어야 한다.
예를 들어, 임의의 방법 또는 프로세스 청구항에서 언급된 단계들은 임의의 순서로 실행될 수 있으며 청구항에서 제공되는 특정 순서에 한정되서는 안 된다. 덧붙여, 임의의 장치 청구항에서 언급된 구성요소 및/또는 요소가 다양한 순열로 조합 또는 그 밖의 다른 방식으로 동작 가능하게 구성될 수 있기 때문에 청구항에서 언급된 특정 구성에 한정되지 않는다.
혜택, 그 밖의 다른 이점 및 문제 해결책이 앞서 특정 실시예와 관련하여 기재되었지만, 임의의 혜택, 이점, 문제 해결책, 또는 임의의 특정 혜택, 이점 또는 해결책이 발생하게 할 수 있거나 더 두드러지게 만들 수 있는 임의의 요소가 임의의 또는 모든 청구항의 요구되는 또는 필수 특징부 또는 구성요소로 해석되지 않아야 한다.
용어 "포함하다(comprise)", "포함하다(comprises)", "포함하는(comprising)", "갖는(having)", "포함하는(including)", "포함하다(includes)" 또는 이들의 임의의 변형이 비-배제적 포함을 지칭하도록 의도되며, 이로써, 요소들의 리스트를 포함하는 프로세서, 방법, 물품, 조성 또는 장치가 언급된 요소들만 포함하는 것이 아니라 명시적으로 나열되지 않거나 이러한 프로세스, 방법, 물품, 조성, 또는 장치에 내재적인 다른 요소까지 포함할 수 있다. 본 발명의 주제 사항을 실시할 때 사용되는 앞서 기재된 구조, 배열, 응용, 비율, 요소, 물질 또는 성분의 그 밖의 다른 조합 및/또는 수정이, 구체적으로 언급되지 않은 것에 추가로, 이의 일반적인 원리에서 벗어나지 않고 변형되거나 특정 환경, 제조 규격, 설계 파라미터 또는 그 밖의 다른 동작 요건에 그 밖의 다른 방식으로 특정하게 적응될 수 있다.
Claims (14)
- 자연어 프로세싱의 정확도를 개선하기 위한 시스템으로서, 상기 시스템은
자연어 입력 장치,
자동 음성 인식 기능만을 위한 복수의 음성 인식 엔진 - 상기 복수의 음성 인식 엔진은 입력 장치에 연결되고, 복수의 음성 인식 엔진은 입력 장치로부터 입력을 수신하며 음성 인식 결과를 음성 인식 결과 세트의 일부로서 제공함 - ,
음성 인식 결과 세트를 수신하고 상기 음성 인식 결과 세트로부터 올바른 결과를 식별하기 위한 데이터 융합 모델, 및
올바른 결과를 프로세싱하기 위한, 복수의 음성 인식 엔진과 별개이며 구별되는 의미 이해 모델
을 포함하는, 자연어 프로세싱의 정확도를 개선하기 위한 시스템. - 제1항에 있어서, 상기 데이터 융합 모델이 음성 인식 결과 세트로부터 올바른 결과를 식별하는 것은 음성 인식 결과 세트의 각각의 결과가 동일할 때 올바른 결과가 식별되는 것을 더 포함하는, 자연어 프로세싱의 정확도를 개선하기 위한 시스템.
- 제1항에 있어서, 상기 데이터 융합 모델이 음성 인식 결과 세트로부터 올바른 결과를 식별하는 것은 음성 인식 결과 세트 내에서 올바른 결과일 확률이 가장 높은 결과로서 올바른 결과가 식별되는 것을 더 포함하는, 자연어 프로세싱의 정확도를 개선하기 위한 시스템.
- 제1항에 있어서, 데이터 융합 모델 및 의미 이해 모델을 훈련시키는 데 사용되는 말뭉치(corpora)를 형성하는 복수의 음성 인식 결과의 모든 결과의 모음을 더 포함하는, 자연어 프로세싱의 정확도를 개선하기 위한 시스템.
- 자연어 입력 장치, 복수의 음성 인식 엔진, 데이터 융합 모델 및 의미 이해 모델을 포함하는 시스템에서의 자연어 프로세싱을 위한 방법으로서, 상기 방법은
자연어 입력 장치에서 입력 문장을 수신하는 단계,
복수의 음성 인식 엔진에서 입력 문장을 프로세싱하는 단계 - 복수의 음성 인식 엔진의 각각의 음성 인식 엔진은 모든 음성 인식 엔진에 대한 결과 세트의 일부인 결과를 생성함 - ,
결과 세트로부터 올바른 결과를 식별하도록 데이터 융합 모델을 적용하는 단계, 및
의미 이해 모델에서 올바른 결과를 프로세싱하는 단계
를 수행하기 위한 컴퓨터 실행 명령을 갖는 프로세서에서 수행되는, 자연어 프로세싱을 위한 방법. - 제5항에 있어서, 올바른 결과를 식별하기 위해 데이터 융합 모델을 적용하는 단계는 음성 인식 결과 세트 내 각각의 결과가 동일함으로써 올바른 결과가 식별되는 단계를 더 포함하는, 자연어 프로세싱을 위한 방법.
- 제5항에 있어서, 음성 인식 결과 세트로부터 올바른 결과를 식별하기 위해 데이터 융합 모델을 적용하는 단계는 음성 인식 결과 세트 내에서 올바른 결과일 확률이 가장 높은 결과로서 올바른 결과를 식별하는 단계를 더 포함하는, 자연어 프로세싱을 위한 방법.
- 제5항에 있어서,
복수의 음성 인식 엔진으로부터의 모든 결과를 기록하여 말뭉치(corpora)를 형성하는 단계, 및
개발된 말뭉치를 이용해 데이터 융합 모델 및 의미 이해 모델을 훈련하는 단계를 더 포함하는, 자연어 프로세싱을 위한 방법. - 제8항에 있어서, 복수의 음성 인식 엔진의 결과를 기록하여 말뭉치를 형성하는 단계는
올바른 결과일 확률이 낮은 입력 문장에 대해 결과 세트로부터 하나 이상의 결과를 선택하는 단계,
입력 문장이 정규 표현임을 수동으로 결정하는 단계, 및
입력 문장을 형성된 말뭉치에 추가하는 단계
를 더 포함하는, 자연어 프로세싱을 위한 방법. - 컴퓨터 판독형 매체로서, 하나 이상의 프로세서에 의해 실행될 때
복수의 음성 인식 엔진을 이용해 입력 장치에 의해 수신된 입력 문장을 프로세싱하는 동작,
복수의 음성 인식 엔진의 각각의 음성 인식 엔진에 대한 모든 결과를 포함하는 결과 세트를 생성하는 동작,
결과 세트로부터 올바른 결과를 식별하기 위해 결과 세트에 데이터 융합 모델을 적용하는 동작, 및
의미 이해 모델에서 올바른 결과를 프로세싱하는 동작
을 수행하게 하는 프로그램을 포함하는 컴퓨터 판독형 매체. - 제10항에 있어서, 프로그램이 결과 세트로부터 올바른 결과를 식별하기 위해 결과 세트에 데이터 융합 모델을 적용하는 동작을 수행하는 것은 결과 세트 내 모든 결과가 동일할 때 올바른 결과가 식별되는 것을 더 포함하는, 컴퓨터 판독형 매체.
- 제10항에 있어서, 프로그램이 결과 세트로부터 올바른 결과를 식별하기 위해 결과 세트에 데이터 융합 모델을 적용하는 동작을 수행하는 것은 음성 인식 결과 세트 내에서 올바른 결과일 확률이 가장 높은 결과로서 올바른 결과가 식별되는 것을 더 포함하는, 컴퓨터 판독형 매체.
- 제10항에 있어서, 프로그램은
말뭉치를 형성하기 위해 복수의 음성 인식 엔진으로부터의 모든 결과를 기록하는 것, 및
형성된 말뭉치를 이용해 데이터 융합 모델 및 의미 이해 모델을 훈련시키는 것
을 포함하는 동작을 수행하는, 컴퓨터 판독형 매체. - 제13항에 있어서, 말뭉치를 형성하기 위해 복수의 음성 인식 엔진의 결과를 기록하는 것을 포함하는 동작은
올바른 결과일 확률이 낮은 입력 문장에 대해 결과 세트로부터 하나 이상의 결과를 선택하는 것,
입력 문장이 정규 표현임을 수동으로 결정하는 것, 및
입력 문장을 형성된 말뭉치에 추가하는 것
을 포함하는 동작을 더 포함하는, 컴퓨터 판독형 매체.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/794,114 US10395647B2 (en) | 2017-10-26 | 2017-10-26 | System and method for natural language processing |
US15/794,114 | 2017-10-26 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20190046631A true KR20190046631A (ko) | 2019-05-07 |
Family
ID=63762179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180117334A KR20190046631A (ko) | 2017-10-26 | 2018-10-02 | 자연어 프로세싱을 위한 시스템 및 방법 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10395647B2 (ko) |
EP (1) | EP3477635B1 (ko) |
KR (1) | KR20190046631A (ko) |
CN (1) | CN109710727B (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102384694B1 (ko) | 2021-06-24 | 2022-04-08 | 주식회사 렉스퍼 | 신경망 모델과 비 신경망 모델을 이용한 자연어 처리 방법 및 자연어 처리 장치 |
KR20230000397A (ko) | 2021-06-24 | 2023-01-02 | 주식회사 렉스퍼 | LDA(Latent Dirichlet Allocation) 토픽 모델링 기법을 이용한 텍스트 분석 방법 및 이를 수행하는 텍스트 분석 장치 |
CN117198292A (zh) * | 2023-11-08 | 2023-12-08 | 太平金融科技服务(上海)有限公司 | 一种语音融合处理方法、装置、设备及介质 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113016030A (zh) * | 2018-11-06 | 2021-06-22 | 株式会社赛斯特安国际 | 提供语音识别服务的方法及装置 |
CN110246486B (zh) * | 2019-06-03 | 2021-07-13 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、装置及设备 |
CN110910890A (zh) * | 2019-12-11 | 2020-03-24 | 微创(上海)网络技术股份有限公司 | 一种自然语言的识别处理方法及系统 |
CN111291758B (zh) * | 2020-02-17 | 2023-08-04 | 北京百度网讯科技有限公司 | 用于识别印章文字的方法和装置 |
US11495211B2 (en) * | 2020-10-29 | 2022-11-08 | International Business Machines Corporation | Memory deterioration detection and amelioration |
CN112562640B (zh) * | 2020-12-01 | 2024-04-12 | 北京声智科技有限公司 | 多语言语音识别方法、装置、系统及计算机可读存储介质 |
CN113506565B (zh) * | 2021-07-12 | 2024-06-04 | 北京捷通华声科技股份有限公司 | 语音识别的方法、装置、计算机可读存储介质与处理器 |
CN117219067B (zh) * | 2023-09-27 | 2024-04-09 | 北京华星酷娱文化传媒有限公司 | 一种基于语音理解的短视频自动生成字幕的方法及系统 |
CN117238276B (zh) * | 2023-11-10 | 2024-01-30 | 深圳市托普思维商业服务有限公司 | 一种基于智能化语音数据识别的分析纠正系统 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6606597B1 (en) * | 2000-09-08 | 2003-08-12 | Microsoft Corporation | Augmented-word language model |
CN1831937A (zh) * | 2005-03-08 | 2006-09-13 | 台达电子工业股份有限公司 | 语音辨识与语言理解分析的方法与装置 |
EP3091535B1 (en) * | 2009-12-23 | 2023-10-11 | Google LLC | Multi-modal input on an electronic device |
US9129225B2 (en) * | 2011-05-25 | 2015-09-08 | Nokia Technologies Oy | Method and apparatus for providing rule-based recommendations |
US8650031B1 (en) | 2011-07-31 | 2014-02-11 | Nuance Communications, Inc. | Accuracy improvement of spoken queries transcription using co-occurrence information |
US9384734B1 (en) * | 2012-02-24 | 2016-07-05 | Google Inc. | Real-time audio recognition using multiple recognizers |
US9058805B2 (en) * | 2013-05-13 | 2015-06-16 | Google Inc. | Multiple recognizer speech recognition |
US9818401B2 (en) | 2013-05-30 | 2017-11-14 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
US9286892B2 (en) | 2014-04-01 | 2016-03-15 | Google Inc. | Language modeling in speech recognition |
WO2015199731A1 (en) * | 2014-06-27 | 2015-12-30 | Nuance Communications, Inc. | System and method for allowing user intervention in a speech recognition process |
US10121471B2 (en) * | 2015-06-29 | 2018-11-06 | Amazon Technologies, Inc. | Language model speech endpointing |
WO2017095476A1 (en) | 2015-12-01 | 2017-06-08 | Nuance Communications, Inc. | Representing results from various speech services as a unified conceptual knowledge base |
US10373612B2 (en) * | 2016-03-21 | 2019-08-06 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
JP6727607B2 (ja) * | 2016-06-09 | 2020-07-22 | 国立研究開発法人情報通信研究機構 | 音声認識装置及びコンピュータプログラム |
US9959861B2 (en) * | 2016-09-30 | 2018-05-01 | Robert Bosch Gmbh | System and method for speech recognition |
US10971157B2 (en) * | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
US10586528B2 (en) * | 2017-02-02 | 2020-03-10 | Adobe Inc. | Domain-specific speech recognizers in a digital medium environment |
US20170173262A1 (en) * | 2017-03-01 | 2017-06-22 | François Paul VELTZ | Medical systems, devices and methods |
-
2017
- 2017-10-26 US US15/794,114 patent/US10395647B2/en active Active
-
2018
- 2018-09-13 EP EP18194140.2A patent/EP3477635B1/en active Active
- 2018-10-02 KR KR1020180117334A patent/KR20190046631A/ko not_active Application Discontinuation
- 2018-10-25 CN CN201811249888.7A patent/CN109710727B/zh active Active
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102384694B1 (ko) | 2021-06-24 | 2022-04-08 | 주식회사 렉스퍼 | 신경망 모델과 비 신경망 모델을 이용한 자연어 처리 방법 및 자연어 처리 장치 |
KR20230000397A (ko) | 2021-06-24 | 2023-01-02 | 주식회사 렉스퍼 | LDA(Latent Dirichlet Allocation) 토픽 모델링 기법을 이용한 텍스트 분석 방법 및 이를 수행하는 텍스트 분석 장치 |
CN117198292A (zh) * | 2023-11-08 | 2023-12-08 | 太平金融科技服务(上海)有限公司 | 一种语音融合处理方法、装置、设备及介质 |
CN117198292B (zh) * | 2023-11-08 | 2024-02-02 | 太平金融科技服务(上海)有限公司 | 一种语音融合处理方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109710727A (zh) | 2019-05-03 |
EP3477635A1 (en) | 2019-05-01 |
CN109710727B (zh) | 2023-09-12 |
EP3477635B1 (en) | 2023-06-07 |
US10395647B2 (en) | 2019-08-27 |
US20190130895A1 (en) | 2019-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20190046631A (ko) | 자연어 프로세싱을 위한 시스템 및 방법 | |
US10733983B2 (en) | Parameter collection and automatic dialog generation in dialog systems | |
US9865264B2 (en) | Selective speech recognition for chat and digital personal assistant systems | |
US10832674B2 (en) | Voice data processing method and electronic device supporting the same | |
US11217230B2 (en) | Information processing device and information processing method for determining presence or absence of a response to speech of a user on a basis of a learning result corresponding to a use situation of the user | |
KR102281178B1 (ko) | 멀티-레벨 음성 인식 방법 및 장치 | |
EP3608906B1 (en) | System for processing user voice utterance and method for operating same | |
US11367443B2 (en) | Electronic device and method for controlling electronic device | |
US12008988B2 (en) | Electronic apparatus and controlling method thereof | |
CN110998719A (zh) | 信息处理设备和信息处理方法 | |
US20210110821A1 (en) | Electronic apparatus and method for controlling electronic apparatus | |
TW201737125A (zh) | 回應產生裝置、對話控制系統以及回應產生方法 | |
KR20190115405A (ko) | 검색 방법 및 이 방법을 적용하는 전자 장치 | |
KR102536944B1 (ko) | 음성 신호 처리 방법 및 장치 | |
US20210166685A1 (en) | Speech processing apparatus and speech processing method | |
CN112037772A (zh) | 基于多模态的响应义务检测方法、系统及装置 | |
KR102685417B1 (ko) | 사용자 입력을 처리하는 전자 장치 및 방법 | |
CN111508481A (zh) | 语音唤醒模型的训练方法、装置、电子设备及存储介质 | |
US11670294B2 (en) | Method of generating wakeup model and electronic device therefor | |
CN115019781A (zh) | 一种对话业务执行方法、装置、存储介质及电子设备 | |
CN114860910A (zh) | 智能对话方法及系统 | |
KR20230075386A (ko) | 음성 신호 처리 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal |