KR101383552B1 - 다중 명령어가 포함된 단일 문장의 음성인식방법 - Google Patents
다중 명령어가 포함된 단일 문장의 음성인식방법 Download PDFInfo
- Publication number
- KR101383552B1 KR101383552B1 KR1020130019991A KR20130019991A KR101383552B1 KR 101383552 B1 KR101383552 B1 KR 101383552B1 KR 1020130019991 A KR1020130019991 A KR 1020130019991A KR 20130019991 A KR20130019991 A KR 20130019991A KR 101383552 B1 KR101383552 B1 KR 101383552B1
- Authority
- KR
- South Korea
- Prior art keywords
- single sentence
- sentence
- command
- recognition method
- speech recognition
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000004458 analytical method Methods 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 230000009471 action Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000000926 separation method Methods 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000007562 laser obscuration time method Methods 0.000 description 2
- 238000000053 physical method Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Abstract
음성 대화형 사용자 인터페이스에서의 다중 명령어가 포함된 단일 문장의 음성인식방법이 개시된다. 이를 위하여 음성 인식된 단일 문장의 형태소를 분석하여 연결어미를 검출하는 단계와, 상기 연결어미를 기준으로 단일 문장을 복수개의 구절로 분리하는 단계와, 상기 연결어미를 분석하여 다중 연결어미를 검출하고, 상기 다중 연결어미가 포함된 구절을 세부적으로 분석하여 명령어를 추출하는 단계, 및 상기 명령어를 추출하는 단계를 통해 추출된 명령어를 취합하여 단일 문장에 포함된 다중 명령어를 출력하는 단계로 이루어진 다중 명령어가 포함된 단일 문장의 음성인식방법을 제공한다. 본 발명에 의하면, 하나의 문장에서 다중의 동작 의도를 파악할 수 있으므로 소비자의 사용성이 크게 증대된다.
Description
본 발명은 다중 명령어가 포함된 단일 문장의 음성인식방법에 관한 것으로, 보다 상세하게는 음성 대화형 사용자 인터페이스에서의 다중 명령어가 포함된 단일 문장의 음성인식방법에 관한 것이다.
도 1 은 일반적인 연속 음성인식시스템의 구성 예시도로서, 현재 널리 쓰이고 있는 트리 기반의 인식기 구조를 나타낸다.
일반적인 연속 음성인식시스템의 구성 및 동작은 당해 분야에서 이미 주지된 기술에 지나지 아니하므로 여기에서는 그에 관한 자세한 설명한 생략하기로 한다. 다만, 입력된 음성에 대해 음성인식 기능을 수행하는 과정에 대해 간략히 설명한다.
일반적인 연속 음성인식시스템에 있어서, 입력된 음성은 특징추출부(101)에서 인식에 유용한 정보만을 추출한 특징벡터로 변환되고, 이러한 특징벡터로부터 탐색부(102)에서 학습과정에서 미리 구해진 음향모델 데이터베이스(104)와 발음사전 데이터베이스(105), 언어모델 데이터베이스(106)를 이용하여 가장 확률이 높은 단어열을 비터비 알고리듬을 이용하여 찾게 된다. 여기서, 대어휘 인식을 위하여 인식 대상 어휘들은 트리를 구성하고 있으며, 탐색부(102)는 이러한 트리를 탐색한다.
마지막으로, 후처리부(103)에서는 탐색 결과로부터 잡음기호 등을 제거하고, 음절단위로 모아쓰기를 하여 최종 인식결과(즉, 텍스트)를 출력한다.
이러한 종래의 연속 음성인식시스템에서는 연속 음성을 인식하기 위하여 인식 대상 어휘를 하나의 커다란 트리(Tree)로 구성하여 비터비(Viterbi) 알고리즘을 이용하여 탐색하였다. 이러한 구조를 갖는 종래의 탐색 방법에서는 언어모델 및 단어 삽입 벌점이 트리의 잎사귀 노드(Leaf Node)로부터 트리의 루트(Root)로의 천이시에 조사나 어미 활용이 있는 어절에 대해서도 적용되기 때문에 어절 형성 규칙과 같은 부가 정보 활용 및 고품위 언어모델 적용이 어려운 단점이 있었다.
이러한 문제점을 도 2를 참조하여 보다 구체적으로 설명한다.
도 2는 종래 탐색 트리의 예시도로서, 도면에서 '201'은 루트 노드, '202'는 잎사귀 노드, '203'은 일반 노드, 및 '204'는 단어 간 천이를 각각 나타낸다. 여기서는, 인식 대상 어휘가 '사과', '사람', '이것', '이고', '입니다'인 경우에 탐색 트리의 예를 나타낸 것이다.
도 2를 참조하면, 인식 대상 어휘는 모두 하나의 가상적인 루트 노드(201)에 연결된 형태를 갖는다.
따라서, 음성 입력이 들어오면, 매 프레임마다 트리의 모든 모드에서의 확률값을 계산한 후에, 각 노드로 들어오는 천이들 중에서 가장 확률이 높은 천이만을 남긴다. 여기서, 잎사귀 노드(202)에서 루트 노드(201)로의 천이는 단어가 변경되므로 단어간의 연결을 제한하기 위하여 언어모델 데이터베이스(106)가 적용된다.
언어모델 데이터베이스(106)에는 현재 단어 다음에 어떤 단어가 나타날 확률 정보가 실리는데, 예를 들면 '이것' 다음에 '사람'이라는 단어가 올 확률보다는 '사과'라는 단어가 올 확률이 높으므로 이러한 정보를 확률값으로 미리 구한 후에, 탐색부(102)에서 이를 이용하게 된다.
일반적으로, 연속 음성인식에서는 음소 개수가 적은 단어들로 인식이 잘 되는 경향이 있어서, 이를 막기 위하여 단어간의 천이시에 일정한 값의 단어 삽입 벌점을 부가하여 인식문장에서 인식 단어의 개수를 조절하도록 되어 있다.
도 2에 도시된 바와 같이, 하나를 트리를 이용한 종래의 음성 인식방법은 모든 단어들을 같은 방식으로 처리하기 때문에, 한국어에서와 같이 명사+조사 또는 용언어간+어미로 이루어지는 어절이 입력되면 모든 단어간 천이시에, 단어 삽입 벌점이 부가되므로 입력음성이 명사+조사 또는 용언어간+어미로 인식되기 보다는 하나의 단어로 인식되는 문제점이 있었다.
특히, 차량용 음성인식장치는 비교적 간단한 동작을 통해 구동되는데 명령어에 대한 물리적 입력에 비해 음성인식의 시간이 오래 걸린다는 단점이 있었다.
일반적으로, 차량용 음성인식장치를 사용하기 위해 사용자는 음성인식장치의 동작버튼을 클릭하는 제 1 단계와, "명령어를 말씀해 주세요" 등의 안내멘트를 듣는 제 2 단계와, 특정 단어를 발화하는 제 3 단계와, 음성인식장치가 인식한 단어에 대한 확인 멘트를 듣는 제 4 단계와, 상기 음성인식장치가 인식한 단어에 대한 진행여부를 발화하는 제 5 단계를 약 10초 동안 수행한다.
이에 반해, 사용자가 명령어를 물리적 방법을 통해 입력하는 경우에는 명령어에 해당하는 버튼을 터치하는 한 번의 단계를 통해 완료할 수 있으다.
물론, 음성인식을 이용한 POI(Point Of Interest) 검색이나 주소 검색 등의 검색은 물리적 방법을 통한 검색에 비해 빠른 사용성을 보이나, 기본 동작의 소요 시간이 과다와 오인식 발생은 음성인식 기술의 신뢰성을 저하시키는 원인이 되고 있는 실정이다.
따라서, 한 번의 발화 문장에서 다중의 동작을 지원함으로써, 전술한 문제를 해결할 수 있는 기술 개발의 필요성이 요구되고 있다.
따라서, 본 발명의 목적은 사용자가 한 문장을 발화하여도 한 문장에 포함된 다중 명령어를 용이하게 음성 인식하여 그에 상응하는 동작을 출력할 수 있는 다중 명령어가 포함된 단일 문장의 음성인식방법을 제공하는데 있다.
상술한 본 발명의 목적을 달성하기 위하여, 본 발명의 일 실시예에서는 음성 인식된 단일 문장의 형태소를 분석하여 연결어미를 검출하는 단계와, 상기 연결어미를 기준으로 단일 문장을 복수개의 구절로 분리하는 단계와, 상기 연결어미를 분석하여 다중 연결어미를 검출하고, 상기 다중 연결어미가 포함된 구절을 세부적으로 분석하여 명령어를 추출하는 단계, 및 상기 명령어를 추출하는 단계를 통해 추출된 명령어를 취합하여 단일 문장에 포함된 다중 명령어를 출력하는 단계로 이루어진 다중 명령어가 포함된 단일 문장의 음성인식방법을 제공한다.
본 발명에 의하면, 하나의 문장에서 다중의 동작 의도를 파악할 수 있으므로 소비자의 사용성이 크게 증대된다.
그리고 본 발명은 미리 구축된 언어정보 사전이 저장된 언어정보 DB를 참조하는 방식을 이용하므로 알고리즘이 간결하여 구현이 용이하다.
또한, 본 발명은 문법적 연결 정보를 파악하므로 다중 동작의 수에 제한이 없다. 즉, 발화자로부터 발화된 단일 문장을 통해서도 N개의 다중 동작의 처리가 가능하다.
아울러, 본 발명은 기존의 언어처리 기술이 낮은 성공률로 어려움에 처한 것과 달리, "명령"과 "검색"이라는 2가지 큰 카테고리에 대한 처리만 진행하므로, 성공률을 대폭 향상시킬 수 있다.
도 1은 일반적인 연속 음성인식장치의 구성을 나타내는 블록도이다.
도 2는 종래의 탐색 트리를 설명하기 위한 개략도이다.
도 3은 본 발명의 일 실시예에 따른 음성인식방법을 나타내는 순서도이다.
도 4는 본 발명의 일 실시예에 따른 음성인식장치를 나타내는 구성도이다.
도 5 내지 도 8은 본 발명에 따른 음성인식방법을 세부적으로 설명하기 위한 순서도이다.
도 2는 종래의 탐색 트리를 설명하기 위한 개략도이다.
도 3은 본 발명의 일 실시예에 따른 음성인식방법을 나타내는 순서도이다.
도 4는 본 발명의 일 실시예에 따른 음성인식장치를 나타내는 구성도이다.
도 5 내지 도 8은 본 발명에 따른 음성인식방법을 세부적으로 설명하기 위한 순서도이다.
이하, 첨부도면을 참조하여 본 발명의 바람직한 실시예들에 의한 다중 명령어가 포함된 단일 문장의 음성인식방법(이하, '음성인식방법'이라 약칭함)을 상세하게 설명한다.
도 3은 본 발명의 일 실시예에 따른 음성인식방법을 나타내는 순서도이다.
본 발명에 따른 음성인식방법은 음성 대화형 사용자 인터페이스를 통해 입력된 단일 문장을 분석하고 상기 단일 문장에 포함된 복수개의 명령어를 추출하여 단일 문장에 대한 다중 동작을 처리하는 음성인식방법이다.
도 3을 참조하면, 본 발명에 따른 음성인식방법은 음성인식한 단일 문장의 형태소를 분석하여 연결어미를 검출하는 제 1 단계(S100)와, 상기 연결어미를 기준으로 단일 문장을 복수개의 구절로 분리하는 제 2 단계(S200)와, 상기 연결어미를 분석하여 다중 연결어미를 검출하고, 상기 다중 연결어미가 포함된 구절을 세부적으로 분석하여 다중 명령어를 추출하는 제 3 단계(S300), 및 상기 다중 명령어를 추출하는 단계(S300)를 통해 추출된 다중 명령어를 취합하여 단일 문장에 포함된 다중 명령어를 출력하는 제 4 단계(S400)를 포함한다.
이러한 음성인식방법은 도 4에 도시된 바와 같이 사용자로부터 발화된 단일 문장의 음성정보를 수집하여 텍스트 데이터를 추출하는 입력부(10), 상기 단일 문장의 텍스트 데이터에 포함된 형태소를 분석하는 형태소 분석기(20), 상기 텍스트 데이터로부터 분석된 형태소 중 연결어미를 검출하는 연결어미 DB(30), 검출된 연결어미에 따라 텍스트 데이터를 하나 이상의 구절로 분리하는 구절 분리모듈(40), 각 구절에 포함된 연결어미 중 다중 연결어미를 검출하는 다중 연결어미 검출모듈(50), 언어정보 사전이 미리 구축된 언어정보 DB(60), 및 전술한 각 구성요소에 연결되어 각 구성요소를 제어하는 제어부(70)를 포함하여 구성된 음성인식장치로 구현될 수 있다.
상기 음성인식장치는 사용자로부터 동작신호를 입력받는 조작부(미도시), 상기 조작부로부터 동작신호가 입력됨에 따라 음성 대화형 사용자 인터페이스를 제공하는 출력모듈(미도시), 상기 입력부(10)를 통해 수집된 단일 문장의 텍스트 데이터를 저장하는 저장부(미도시), 다중 연결어미가 포함된 각 구절을 품사별로 분류하여 품사별로 의미 값을 할당하는 품사별 분류모듈(미도시)을 더 포함할 수 있다.
이하, 도면을 참조하여 각 단계별로 보다 구체적으로 설명한다.
본 발명에 따른 음성인식방법은 먼저 음성인식한 단일 문장의 형태소를 분석하여 연결어미를 검출하는 제 1 단계를 수행한다(S100).
도 5는 본 발명에 따른 음성인식방법의 일 구간을 설명하기 위한 순서도이다.
도 5를 참조하면, 상기 제 1 단계(S100)는 단일 문장에 대한 사용자의 음성을 인식하는 음성 인식과정(S110)과, 형태소 분석기(20)를 통해 상기 단일 문장의 형태소를 분석하는 형태소 분석과정(S120), 및 연결어미 DB(30)을 통해 형태소로부터 연결어미를 검출하는 연결어미 검출과정(S130)을 포함한다.
상기 음성 인식과정(S110)에서는 사용자가 조작부를 터치하여 음성인식장치의 동작을 명령하면 상기 음성인식장치의 제어부(70)가 출력모듈을 통해 음성 대화형 사용자 인터페이스를 상기 사용자에 제공하여 사용자가 발화한 단일 문장의 음성정보를 입력부(10)를 통해 수집한다. 이를 위해, 입력부(10)에는 마이크 등이 구비된다. 이어서, 입력부(10)는 마이크 등을 통해 수집된 단일 문장의 음성정보를 텍스트 데이터로 변환시켜 제어부(70)로 제공한다.
상기 형태소 분석과정(S120)에서는 제어부(70)가 형태소 분석기(20)를 통해 상기 단일 문장의 텍스트 데이터를 구성하는 형태소를 분석한다.
상기 연결어미 검출과정(S130)에서는 제어부(70)가 형태소 분석과정(S120)에 의해 분석된 형태소 중 연결어미를 검출한다. 이때, 연결어미의 검출은 연결어미 사전이 구축된 연결어미 DB(30)를 통해 이루어진다.
필요에 따라, 제어부(70)는 상기 입력부(10)로부터 제공된 단일 문장의 텍스트 데이터, 사용자가 발화한 단일 문장의 음성정보를 저장부에 저장할 수도 있다.
이어서, 본 발명에 따른 음성인식방법은 연결어미를 기준으로 단일 문장을 복수개의 구절로 분리하는 제 2 단계를 수행한다(S200).
도 6은 본 발명에 따른 음성인식방법의 다른 구간을 설명하기 위한 순서도이다.
도 3 및 도 6을 참조하면, 본 단계(S200)에서는 제어부(70)가 제 1 단계(S100)를 통해 검출된 연결어미를 구절 분리모듈(40)로 제공한다. 이어서, 구절 분리모듈(40)은 제 1 단계(S100)를 통해 검출된 연결어미를 기준으로 단일 문장의 텍스트 데이터를 복수개의 구절로 분리한다.
계속하여, 본 발명에 따른 음성인식방법은 연결어미를 분석하여 다중 연결어미를 검출하고, 상기 다중 연결어미가 포함된 구절을 세부적으로 분석하여 명령어를 추출하는 제 3 단계를 수행한다(S300).
도 7은 본 발명에 따른 음성인식방법의 또 다른 구간을 설명하기 위한 순서도이다.
도 6 및 도 7을 참조하면, 상기 제 3 단계(S300)는 연결어미의 분석을 통해 다중 연결어미를 검출하며, 다중 연결어미의 유무에 따라 분석 대상과 비분석 대상을 분류하는 분석대상 결정과정(S310), 및 상기 분석 대상에 해당하는 구절을 언어정보 사전이 미리 구축된 언어정보 DB에 매칭시켜 명령어를 추출하는 명령어 추출과정(S320)을 포함한다.
상기 분석대상 결정과정(S310)에서는 제어부(70)의 제어에 의해 다중 연결어미 검출모듈(50)이 연결어미가 포함된 구절 중 다중 연결어미가 포함된 구절을 검출한다. 이때, 다중 연결어미 검출모듈(50)은 다중 연결어미 사전이 미리 구축된 다중 연결어미 DB를 바탕으로 연결어미를 비교하여 상기 연결어미 중 다중 연결어미를 검출한다.
여기서, 다중 연결어미란 다중동작 연결어미, 연속 연결어미, 시간 연결어미 중 어느 하나를 의미한다.
또한, 다중 연결어미는 미리 정의된 의미 정보 사전의 검색 결과를 참조한다. 여기서, 의미 정보 사전은 연결어미 검출 모듈(50) 내에 위치하며, 연결어미 검출의 과정(S312)에서 해당 사전에 등록된 다중 연결어미가 입력 문장 분석의 기준이 된다.
예를 들면, 상기 다중동작 연결어미는 -고, -와, -과, -랑 중 어느 하나이고, 상기 연속 연결어미는 -으면서 이며, 상기 시간 연결어미는 -고, -으며, -으면서, -자, -자마자, -아, -어서 중 어느 하나이다.
보다 구체적으로, 다중동작 연결어미 '-고'의 경우, "라디오를 켜고, 내비를 꺼라"라는 명령어 내려지면, 라디오를 켜고 내비를 끄는 다중 동작이 순차적으로 수행되어야 하는 경우이다.
또한, '-랑'의 경우는 "라디오랑 내비를 켜라"처럼 라디오와 내비를 켜는 동작을 동시에 수행하는 경우가 이에 해당된다.
그리고 연속 연결어미 '-으면서'의 경우는 "라디오를 켜면서 내비를 꺼라"처럼 라디오 동작과 내비 동작을 연속적으로 수행하는 경우가 해당된다.
아울러, 시간 연결어미는 "라디오 켜자마자 내비 켜라"와 같이 동작 시점에 맞는 동작을 하는 경우가 해당된다.
이와 같이 연결어미의 분석을 통해 다중 연결어미가 검출되면(S312), 제어부(70)는 다중 연결어미의 유무에 따라 각 구절을 분석 대상과 비분석 대상을 분류한다(S314, S316). 다시 말해, 다중 연결어미가 포함된 구절은 분석 대상으로 확정하고 다중 연결어미가 미 포함된 구절은 비분석 대상으로 확정한다.
구체적으로, 분석의 대상은 다중 연결어미 왼쪽의 구절이며, 문장의 마지막 구절은 종결어미를 기준으로 하여 왼쪽 구절이 분석의 대상이 된다.
상기 명령어 추출과정(S320)에서는 분석대상 결정과정(S310)을 통해 분석 대상에 해당하는 구절이 확정되면, 제어부(70)가 상기 구절을 언어정보 사전이 미리 구축된 언어정보 DB(60)에 매칭시켜 명령어를 추출한다.
이때, 언어정보 DB(60)으로는 의미 계층 단어 DB(62) 및 문장 패턴 DB(64)이 사용될 수 있다. 여기서, 의미 계층 단어 DB(62)란 명사와 동사에 높은 가중치를 부여할 수 있도록 의미 기준에 따라 계층적으로 구성된 사전이 구축된 DB를 의미한다.
보다 구체적으로, 명령어 추출과정(S320)에서는 제어부(70)가 분석 대상의 구절에 포함된 어절을 분석하고(S321)한 후, 의미 계층 단어 DB(62)을 통해 분석 대상의 구절에 포함된 명사와 동사를 추출(S322)하여 구절의 문장 패턴을 결정한다(S323). 이러한 명령어 추출과정(S320)에서는 구절에 포함된 간투사나 상용구, 콤마, 마침표 등은 분석 대상에서 제외하여, 최종적으로 분석 대상의 구절이 <명사> + <동사>의 구조가 되도록 설정한다(S324).
이때, 문장 패턴은 문장 분석 결과에 따라 <명사> + <동사>, <명사> + <명사> + <동사>, <동사> 등의 다양한 문장 패턴이 출현될 수 있다.
또한, 명령어 추출과정(S320)에서 제어부(70)는 동작 가능한 필수 패턴이 미리 정의되어 있는 문장 패턴 DB(64)을 참조하여 미리 지정된 문장 패턴은 출력처리 대상으로 분류하고(S325), 미리 지정된 문장 패턴 이외의 문장 패턴은 에러처리 대상으로 분류한다(S326). 이때, 에러 처리는 예외처리 시나리오 전개나 종료, 또는 질문 생성 등으로 구현될 수 있다.
마지막으로, 제어부(70)는 최종적으로 결정된 구절의 <명사> + <동사>의 문장 패턴에 의미 계층 단어 DB(62)을 참조하여 의미 값을 할당한다(S327).
예를 들어, '라디오'라는 명령어가 동작 대상 명사로서 등록이 되어 있다면, "켜다, 듣다, 작동하다" 등 라디오 동작과 관련된 동사들 또한 사전에 등록하며, 해당 동사의 동작이 가지는 의미 값을 세분화하여 DB(62)에 저장한다. 모든 동작 대상 명사에 대해 조응하는 동사의 세부 의미 값을 미리 정의함으로써 다중 동작 시 동작의 대상과 동작의 방법을 구체적으로 수행할 수 있도록 한다.
도 8은 본 발명에 따른 음성인식방법의 또 다른 구간을 설명하기 위한 순서도이다.
도 3 및 도 8을 참조하면, 본 발명에 따른 음성인식방법의 제 3 단계(S300)는 상기 명령어 추출과정(S320) 이후에 품사 분류 기준에 따라 의미 정보를 추출할 수 있는 단위들로 나누어 분석하는 의미 값 할당과정(S330)을 더 포함할 수 있다.
이러한 의미 값 할당과정(S330)에서는 제어부(70)에 의해 품사 분리모듈이 문장 패턴이 결정된 각 구절을 품사별로 분류한다(S332).
그리고 제어부(70)는 구절의 각 품사별로 의미 값을 할당한다. 또한, 제어부(70)는 의미 값이 할당된 명사를 통해 주체와 대상을 추출하고, 의미 값이 할당된 동사를 통해 의도를 추출하며, 의미 값이 할당된 기타 품사를 통해 카테고리의 정보를 추출한다.
또한, 제어부(70)는 명사와 동사 및 기타 품사를 통해 추출된 정보를 바탕으로 명령어를 추출한다(S334).
마지막으로, 본 발명에 따른 음성인식방법은 제 3 단계를 통해 추출된 명령어를 취합하여 단일 문장에 포함된 다중 명령어를 출력하는 제 4 단계를 수행한다(S400).
도 3 및 도 8을 참조하면, 본 단계(S400)에서는 단일 문장을 구성하는 복수개의 구절 중 분석 대상에 해당하는 구절의 분석이 종료되면, 제어부(70)가 각 구절에 포함된 명령어를 취합하여 복수개의 명령어로 이루어진 다중 명령어를 확정한다.
이때, 다중 명령어의 출력은 취합된 다중 명령어에 대응되는 제어 신호를 생성하고, 상기 제어신호를 해당 기기로 전송함으로써 해당 기기를 제어하는 과정을 통해 진행될 수 있다.
상술한 내용을 예를 들어 설명하면 다음과 같다.
사용자가 "공릉역으로 목적지 찍고, 지도를 확대해라"고 발화하면 음성인식장치의 입력부(10)는 이를 음성 인식하여 텍스트 데이터를 추출한다(S110).
이어서, 제어부(70)는 형태소 분석기(20)를 통해 텍스트 데이터의 형태소를 분석하고(S120), 연결어미 DB(30)를 참조하여 형태소로부터 상기 텍스트 데이터에 포함된 연결어미인 "-고"를 검출한다(S130).
그 다음, 제어부(70)는 연결어미인 "-고"를 기준으로 텍스트 데이터를 제 1 구절인 "공릉역으로 목적지를 찍고"와 제 2 구절인 "지도를 확대해라"로 분리한다(S200).
그리고 제어부(70)는 다중 연결어미 DB(30)를 통해 제 1 구절인 "공릉역으로 목적지를 찍고"에 포함된 다중 연결어미인 "-고"를 검출하여, 제 1 구절과 제 2 구절을 분석 대상으로 분류한다(S310).
이 후, 제어부(70)는 언어정보 DB(60)을 통해 "공릉역으로 목적지를 찍고"로부터 '공릉역'을 명사로 '목적지 찍다'를 동사로 하는 <명사> + <동사>의 문장 패턴을 추출한다. 또한, 제어부(70)는 의미 계층 단어 DB(62)을 통해 '공릉역'과 '목적지 찍다'의 의미 값을 부여한다. 이때, '공릉역'의 의미 값 할당을 통해 네비게이션의 목적지를 추출하고, '목적지 찍다'의 의미 값 할당을 통해 사용자의 의도(목적지에 대한 운전 경로 안내)를 추출한다. 마지막으로, 제 1 구절에 대한 결과 값 할당을 수행하고 이를 통해 명령어를 추출한다(S320).
이어서, 제어부(70)는 제 1 구절에 대한 결과 값 할당이 완료되면, 제 2 구절에 대한 분석을 수행하여 제 2 구절의 명령어를 추출하여 문장에 포함된 다중 명령어를 출력한다(S400). 다시 말해, "공릉역으로 목적지 찍고, 지도를 확대해라"는 문장은 2가지 명령어를 내포하고 있으므로, 제어부(70)는 2가지 명령어에 대응되는 제어 신호를 생성하여 네비게이션에 전송한다.
이상에서 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자는 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
10 : 입력부 20 : 형태소 분석기
30 : 연결어미 DB 40 : 구절 분리모듈
50 : 다중 연결어미 검출모듈 60 : 언어정보 DB
62 : 의미 계층 단어 DB 64 : 문장 패턴 DB
70 : 제어부
30 : 연결어미 DB 40 : 구절 분리모듈
50 : 다중 연결어미 검출모듈 60 : 언어정보 DB
62 : 의미 계층 단어 DB 64 : 문장 패턴 DB
70 : 제어부
Claims (10)
- (ⅰ) 음성 인식된 단일 문장의 형태소를 분석하여 연결어미를 검출하는 단계;
(ⅱ) 상기 연결어미를 기준으로 단일 문장을 복수개의 구절로 분리하는 단계;
(ⅲ) 상기 연결어미를 분석하여 다중 연결어미를 검출하고, 상기 다중 연결어미가 포함된 구절을 세부적으로 분석하여 명령어를 추출하는 단계; 및
(ⅳ) 상기 (ⅲ)를 통해 추출된 명령어를 취합하여 단일 문장에 포함된 다중 명령어를 출력하는 단계로 이루어진 다중 명령어가 포함된 단일 문장의 음성인식방법. - 제 1 항에 있어서, 상기 다중 연결어미는
다중동작 연결어미, 연속 연결어미, 시간 연결어미 중 어느 하나인 것을 특징으로 하는 다중 명령어가 포함된 단일 문장의 음성인식방법. - 제 2 항에 있어서, 상기 다중동작 연결어미는
-고, -와, -과, -랑으로 이루어진 군으로부터 선택된 어느 하나인 것을 특징으로 하는 다중 명령어가 포함된 단일 문장의 음성인식방법. - 제 2 항에 있어서, 상기 연속 연결어미는
-으면서 인 것을 특징으로 하는 다중 명령어가 포함된 단일 문장의 음성인식방법. - 제 2 항에 있어서, 상기 시간 연결어미는
-고, -으며, -으면서, -자, -자마자, -아, -어서로 이루어진 군으로부터 선택된 어느 하나인 것을 특징으로 하는 다중 명령어가 포함된 단일 문장의 음성인식방법. - 제 1 항에 있어서, 상기 (ⅳ)의 출력은
상기 다중 명령어에 대응되는 제어 신호를 생성하여 해당 기기로 전송하는 과정인 것을 특징으로 하는 다중 명령어가 포함된 단일 문장의 음성인식방법. - 제 1 항에 있어서, 상기 (ⅰ) 단계는
단일 문장에 대한 사용자의 음성을 인식하는 과정과,
형태소 분석기를 통해 상기 단일 문장의 형태소를 분석하는 과정, 및
연결어미 DB을 통해 형태소로부터 연결어미를 검출하는 과정으로 이루어진 것을 특징으로 하는 다중 명령어가 포함된 단일 문장의 음성인식방법. - 제 1 항에 있어서, 상기 (ⅲ) 단계는
연결어미의 분석을 통해 다중 연결어미를 검출하며, 다중 연결어미의 유무에 따라 분석 대상과 비분석 대상을 분류하는 분석대상 결정과정, 및
상기 분석 대상에 해당하는 구절을 미리 구축된 언어정보 DB에 매칭시켜 명령어를 추출하는 명령어 추출과정으로 이루어진 것을 특징으로 하는 다중 명령어가 포함된 단일 문장의 음성인식방법. - 제 8 항에 있어서, 상기 미리 구축된 언어정보 DB는
의미 계층 단어 DB 및 문장 패턴 DB로 구성된 것을 특징으로 하는 다중 명령어가 포함된 단일 문장의 음성인식방법. - 제 8 항에 있어서, 상기 명령어 추출과정은
상기 분석 대상에 해당하는 구절을 미리 구축된 언어정보 DB에 매칭시켜 의미 값을 추출하는 과정과,
상기 의미 값이 추출된 구절의 문장 유형을 분석하는 과정과,
미리 구축된 문장 패턴 DB를 통해 출력처리 대상과 에러처리 대상을 분류하는 과정, 및
상기 출력처리 대상으로 선택된 구절에 최종 동작 값을 할당하여 명령어를 추출하는 과정으로 이루어진 것을 특징으로 하는 다중 명령어가 포함된 단일 문장의 음성인식방법.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130019991A KR101383552B1 (ko) | 2013-02-25 | 2013-02-25 | 다중 명령어가 포함된 단일 문장의 음성인식방법 |
US14/058,088 US20140244258A1 (en) | 2013-02-25 | 2013-10-18 | Speech recognition method of sentence having multiple instructions |
PCT/KR2014/001457 WO2014129856A1 (ko) | 2013-02-25 | 2014-02-24 | 다중 명령어가 포함된 단일 문장의 음성인식방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130019991A KR101383552B1 (ko) | 2013-02-25 | 2013-02-25 | 다중 명령어가 포함된 단일 문장의 음성인식방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101383552B1 true KR101383552B1 (ko) | 2014-04-10 |
Family
ID=50657201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020130019991A KR101383552B1 (ko) | 2013-02-25 | 2013-02-25 | 다중 명령어가 포함된 단일 문장의 음성인식방법 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20140244258A1 (ko) |
KR (1) | KR101383552B1 (ko) |
WO (1) | WO2014129856A1 (ko) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180130889A (ko) * | 2017-05-30 | 2018-12-10 | 엘지전자 주식회사 | 음성 인식 서버 시스템의 동작 방법 |
KR20190024472A (ko) * | 2017-08-31 | 2019-03-08 | 삼성전자주식회사 | 가전 기기의 음성 인식을 위한 시스템과 서버, 방법 |
US10553210B2 (en) | 2015-09-09 | 2020-02-04 | Samsung Electronics Co., Ltd. | System, apparatus, and method for processing natural language, and non-transitory computer readable recording medium |
KR20200125034A (ko) * | 2019-04-25 | 2020-11-04 | 에스케이텔레콤 주식회사 | 음성분석장치 및 음성분석장치의 동작 방법 |
Families Citing this family (162)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
BR112015018905B1 (pt) | 2013-02-07 | 2022-02-22 | Apple Inc | Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
CN106471570B (zh) * | 2014-05-30 | 2019-10-01 | 苹果公司 | 多命令单一话语输入方法 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US9837069B2 (en) * | 2015-12-22 | 2017-12-05 | Intel Corporation | Technologies for end-of-sentence detection using syntactic coherence |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
KR20190136832A (ko) * | 2018-05-31 | 2019-12-10 | 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피. | 음성 명령을 프린팅 서비스를 지원하는 텍스트 코드 블록들로 변환 |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10504518B1 (en) | 2018-06-03 | 2019-12-10 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
KR20210066644A (ko) * | 2019-11-28 | 2021-06-07 | 삼성전자주식회사 | 단말 장치, 서버 및 그 제어 방법 |
CN111161730B (zh) * | 2019-12-27 | 2022-10-04 | 中国联合网络通信集团有限公司 | 语音指令匹配方法、装置、设备及存储介质 |
US11308944B2 (en) | 2020-03-12 | 2022-04-19 | International Business Machines Corporation | Intent boundary segmentation for multi-intent utterances |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000026814A (ko) * | 1998-10-23 | 2000-05-15 | 정선종 | 연속 음성인식을 위한 어절 분리방법 및 그를 이용한 음성 인식방법 |
KR20090041923A (ko) * | 2007-10-25 | 2009-04-29 | 한국전자통신연구원 | 음성 인식 방법 |
KR20120004151A (ko) * | 2010-07-06 | 2012-01-12 | 한국전자통신연구원 | 문장 번역 장치 및 그 방법 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7027991B2 (en) * | 1999-08-30 | 2006-04-11 | Agilent Technologies, Inc. | Voice-responsive command and control system and methodology for use in a signal measurement system |
US20050080620A1 (en) * | 2003-10-09 | 2005-04-14 | General Electric Company | Digitization of work processes using wearable wireless devices capable of vocal command recognition in noisy environments |
US7720674B2 (en) * | 2004-06-29 | 2010-05-18 | Sap Ag | Systems and methods for processing natural language queries |
US8265939B2 (en) * | 2005-08-31 | 2012-09-11 | Nuance Communications, Inc. | Hierarchical methods and apparatus for extracting user intent from spoken utterances |
US7774202B2 (en) * | 2006-06-12 | 2010-08-10 | Lockheed Martin Corporation | Speech activated control system and related methods |
US8380511B2 (en) * | 2007-02-20 | 2013-02-19 | Intervoice Limited Partnership | System and method for semantic categorization |
US8219407B1 (en) * | 2007-12-27 | 2012-07-10 | Great Northern Research, LLC | Method for processing the output of a speech recognizer |
US20100251283A1 (en) * | 2009-03-31 | 2010-09-30 | Qualcomm Incorporated | System and mehod for providing interactive content |
US9031848B2 (en) * | 2012-08-16 | 2015-05-12 | Nuance Communications, Inc. | User interface for searching a bundled service content data source |
-
2013
- 2013-02-25 KR KR1020130019991A patent/KR101383552B1/ko active IP Right Grant
- 2013-10-18 US US14/058,088 patent/US20140244258A1/en not_active Abandoned
-
2014
- 2014-02-24 WO PCT/KR2014/001457 patent/WO2014129856A1/ko active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000026814A (ko) * | 1998-10-23 | 2000-05-15 | 정선종 | 연속 음성인식을 위한 어절 분리방법 및 그를 이용한 음성 인식방법 |
KR20090041923A (ko) * | 2007-10-25 | 2009-04-29 | 한국전자통신연구원 | 음성 인식 방법 |
KR20120004151A (ko) * | 2010-07-06 | 2012-01-12 | 한국전자통신연구원 | 문장 번역 장치 및 그 방법 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10553210B2 (en) | 2015-09-09 | 2020-02-04 | Samsung Electronics Co., Ltd. | System, apparatus, and method for processing natural language, and non-transitory computer readable recording medium |
US11756539B2 (en) | 2015-09-09 | 2023-09-12 | Samsung Electronic Co., Ltd. | System, apparatus, and method for processing natural language, and non-transitory computer readable recording medium |
KR20180130889A (ko) * | 2017-05-30 | 2018-12-10 | 엘지전자 주식회사 | 음성 인식 서버 시스템의 동작 방법 |
KR101976427B1 (ko) * | 2017-05-30 | 2019-05-09 | 엘지전자 주식회사 | 음성 인식 서버 시스템의 동작 방법 |
KR20190024472A (ko) * | 2017-08-31 | 2019-03-08 | 삼성전자주식회사 | 가전 기기의 음성 인식을 위한 시스템과 서버, 방법 |
WO2019045455A3 (ko) * | 2017-08-31 | 2019-04-18 | 삼성전자주식회사 | 가전 기기의 음성 인식을 위한 시스템과 서버, 방법 |
KR102428148B1 (ko) * | 2017-08-31 | 2022-08-02 | 삼성전자주식회사 | 가전 기기의 음성 인식을 위한 시스템과 서버, 방법 |
US11501770B2 (en) | 2017-08-31 | 2022-11-15 | Samsung Electronics Co., Ltd. | System, server, and method for speech recognition of home appliance |
KR20200125034A (ko) * | 2019-04-25 | 2020-11-04 | 에스케이텔레콤 주식회사 | 음성분석장치 및 음성분석장치의 동작 방법 |
KR102279319B1 (ko) * | 2019-04-25 | 2021-07-19 | 에스케이텔레콤 주식회사 | 음성분석장치 및 음성분석장치의 동작 방법 |
Also Published As
Publication number | Publication date |
---|---|
US20140244258A1 (en) | 2014-08-28 |
WO2014129856A1 (ko) | 2014-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101383552B1 (ko) | 다중 명령어가 포함된 단일 문장의 음성인식방법 | |
US11830485B2 (en) | Multiple speech processing system with synthesized speech styles | |
US8265939B2 (en) | Hierarchical methods and apparatus for extracting user intent from spoken utterances | |
KR100679042B1 (ko) | 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템 | |
KR100755677B1 (ko) | 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법 | |
EP1162602B1 (en) | Two pass speech recognition with active vocabulary restriction | |
US20090112593A1 (en) | System for recognizing speech for searching a database | |
CN105654943A (zh) | 一种语音唤醒方法、装置及系统 | |
KR20180075050A (ko) | 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법 | |
JP2008058813A (ja) | 音声応答システム、音声応答プログラム | |
US20080262843A1 (en) | Speech recognition apparatus and method | |
US20200219487A1 (en) | Information processing apparatus and information processing method | |
US9691389B2 (en) | Spoken word generation method and system for speech recognition and computer readable medium thereof | |
US7653541B2 (en) | Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech | |
KR102372069B1 (ko) | 언어학습을 위한 양국어 자유 대화 시스템 및 방법 | |
WO2006093092A1 (ja) | 会話システムおよび会話ソフトウェア | |
US20180012602A1 (en) | System and methods for pronunciation analysis-based speaker verification | |
JP4700522B2 (ja) | 音声認識装置及び音声認識プログラム | |
Dusan et al. | On integrating insights from human speech perception into automatic speech recognition. | |
JP2004045900A (ja) | 音声対話装置及びプログラム | |
US11817090B1 (en) | Entity resolution using acoustic data | |
Homma et al. | Robust utterance classification using multiple classifiers in the presence of speech recognition errors | |
JP2003162524A (ja) | 言語処理装置 | |
JPH1195793A (ja) | 音声入力解釈装置及び音声入力解釈方法 | |
KR20220037187A (ko) | 차량용 음성 인식 장치, 이를 이용한 차량 문제상황 처리 방법 및 컴퓨터 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20170403 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20180403 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20190410 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20200121 Year of fee payment: 7 |