KR101383552B1 - 다중 명령어가 포함된 단일 문장의 음성인식방법 - Google Patents

다중 명령어가 포함된 단일 문장의 음성인식방법 Download PDF

Info

Publication number
KR101383552B1
KR101383552B1 KR1020130019991A KR20130019991A KR101383552B1 KR 101383552 B1 KR101383552 B1 KR 101383552B1 KR 1020130019991 A KR1020130019991 A KR 1020130019991A KR 20130019991 A KR20130019991 A KR 20130019991A KR 101383552 B1 KR101383552 B1 KR 101383552B1
Authority
KR
South Korea
Prior art keywords
single sentence
sentence
command
recognition method
speech recognition
Prior art date
Application number
KR1020130019991A
Other languages
English (en)
Inventor
송민규
김혜진
김상윤
Original Assignee
미디어젠(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 미디어젠(주) filed Critical 미디어젠(주)
Priority to KR1020130019991A priority Critical patent/KR101383552B1/ko
Priority to US14/058,088 priority patent/US20140244258A1/en
Priority to PCT/KR2014/001457 priority patent/WO2014129856A1/ko
Application granted granted Critical
Publication of KR101383552B1 publication Critical patent/KR101383552B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

음성 대화형 사용자 인터페이스에서의 다중 명령어가 포함된 단일 문장의 음성인식방법이 개시된다. 이를 위하여 음성 인식된 단일 문장의 형태소를 분석하여 연결어미를 검출하는 단계와, 상기 연결어미를 기준으로 단일 문장을 복수개의 구절로 분리하는 단계와, 상기 연결어미를 분석하여 다중 연결어미를 검출하고, 상기 다중 연결어미가 포함된 구절을 세부적으로 분석하여 명령어를 추출하는 단계, 및 상기 명령어를 추출하는 단계를 통해 추출된 명령어를 취합하여 단일 문장에 포함된 다중 명령어를 출력하는 단계로 이루어진 다중 명령어가 포함된 단일 문장의 음성인식방법을 제공한다. 본 발명에 의하면, 하나의 문장에서 다중의 동작 의도를 파악할 수 있으므로 소비자의 사용성이 크게 증대된다.

Description

다중 명령어가 포함된 단일 문장의 음성인식방법{SPEECH RECOGNITION METHOD OF SENTENCE HAVING MULTIPLE INSTRUCTION}
본 발명은 다중 명령어가 포함된 단일 문장의 음성인식방법에 관한 것으로, 보다 상세하게는 음성 대화형 사용자 인터페이스에서의 다중 명령어가 포함된 단일 문장의 음성인식방법에 관한 것이다.
도 1 은 일반적인 연속 음성인식시스템의 구성 예시도로서, 현재 널리 쓰이고 있는 트리 기반의 인식기 구조를 나타낸다.
일반적인 연속 음성인식시스템의 구성 및 동작은 당해 분야에서 이미 주지된 기술에 지나지 아니하므로 여기에서는 그에 관한 자세한 설명한 생략하기로 한다. 다만, 입력된 음성에 대해 음성인식 기능을 수행하는 과정에 대해 간략히 설명한다.
일반적인 연속 음성인식시스템에 있어서, 입력된 음성은 특징추출부(101)에서 인식에 유용한 정보만을 추출한 특징벡터로 변환되고, 이러한 특징벡터로부터 탐색부(102)에서 학습과정에서 미리 구해진 음향모델 데이터베이스(104)와 발음사전 데이터베이스(105), 언어모델 데이터베이스(106)를 이용하여 가장 확률이 높은 단어열을 비터비 알고리듬을 이용하여 찾게 된다. 여기서, 대어휘 인식을 위하여 인식 대상 어휘들은 트리를 구성하고 있으며, 탐색부(102)는 이러한 트리를 탐색한다.
마지막으로, 후처리부(103)에서는 탐색 결과로부터 잡음기호 등을 제거하고, 음절단위로 모아쓰기를 하여 최종 인식결과(즉, 텍스트)를 출력한다.
이러한 종래의 연속 음성인식시스템에서는 연속 음성을 인식하기 위하여 인식 대상 어휘를 하나의 커다란 트리(Tree)로 구성하여 비터비(Viterbi) 알고리즘을 이용하여 탐색하였다. 이러한 구조를 갖는 종래의 탐색 방법에서는 언어모델 및 단어 삽입 벌점이 트리의 잎사귀 노드(Leaf Node)로부터 트리의 루트(Root)로의 천이시에 조사나 어미 활용이 있는 어절에 대해서도 적용되기 때문에 어절 형성 규칙과 같은 부가 정보 활용 및 고품위 언어모델 적용이 어려운 단점이 있었다.
이러한 문제점을 도 2를 참조하여 보다 구체적으로 설명한다.
도 2는 종래 탐색 트리의 예시도로서, 도면에서 '201'은 루트 노드, '202'는 잎사귀 노드, '203'은 일반 노드, 및 '204'는 단어 간 천이를 각각 나타낸다. 여기서는, 인식 대상 어휘가 '사과', '사람', '이것', '이고', '입니다'인 경우에 탐색 트리의 예를 나타낸 것이다.
도 2를 참조하면, 인식 대상 어휘는 모두 하나의 가상적인 루트 노드(201)에 연결된 형태를 갖는다.
따라서, 음성 입력이 들어오면, 매 프레임마다 트리의 모든 모드에서의 확률값을 계산한 후에, 각 노드로 들어오는 천이들 중에서 가장 확률이 높은 천이만을 남긴다. 여기서, 잎사귀 노드(202)에서 루트 노드(201)로의 천이는 단어가 변경되므로 단어간의 연결을 제한하기 위하여 언어모델 데이터베이스(106)가 적용된다.
언어모델 데이터베이스(106)에는 현재 단어 다음에 어떤 단어가 나타날 확률 정보가 실리는데, 예를 들면 '이것' 다음에 '사람'이라는 단어가 올 확률보다는 '사과'라는 단어가 올 확률이 높으므로 이러한 정보를 확률값으로 미리 구한 후에, 탐색부(102)에서 이를 이용하게 된다.
일반적으로, 연속 음성인식에서는 음소 개수가 적은 단어들로 인식이 잘 되는 경향이 있어서, 이를 막기 위하여 단어간의 천이시에 일정한 값의 단어 삽입 벌점을 부가하여 인식문장에서 인식 단어의 개수를 조절하도록 되어 있다.
도 2에 도시된 바와 같이, 하나를 트리를 이용한 종래의 음성 인식방법은 모든 단어들을 같은 방식으로 처리하기 때문에, 한국어에서와 같이 명사+조사 또는 용언어간+어미로 이루어지는 어절이 입력되면 모든 단어간 천이시에, 단어 삽입 벌점이 부가되므로 입력음성이 명사+조사 또는 용언어간+어미로 인식되기 보다는 하나의 단어로 인식되는 문제점이 있었다.
특히, 차량용 음성인식장치는 비교적 간단한 동작을 통해 구동되는데 명령어에 대한 물리적 입력에 비해 음성인식의 시간이 오래 걸린다는 단점이 있었다.
일반적으로, 차량용 음성인식장치를 사용하기 위해 사용자는 음성인식장치의 동작버튼을 클릭하는 제 1 단계와, "명령어를 말씀해 주세요" 등의 안내멘트를 듣는 제 2 단계와, 특정 단어를 발화하는 제 3 단계와, 음성인식장치가 인식한 단어에 대한 확인 멘트를 듣는 제 4 단계와, 상기 음성인식장치가 인식한 단어에 대한 진행여부를 발화하는 제 5 단계를 약 10초 동안 수행한다.
이에 반해, 사용자가 명령어를 물리적 방법을 통해 입력하는 경우에는 명령어에 해당하는 버튼을 터치하는 한 번의 단계를 통해 완료할 수 있으다.
물론, 음성인식을 이용한 POI(Point Of Interest) 검색이나 주소 검색 등의 검색은 물리적 방법을 통한 검색에 비해 빠른 사용성을 보이나, 기본 동작의 소요 시간이 과다와 오인식 발생은 음성인식 기술의 신뢰성을 저하시키는 원인이 되고 있는 실정이다.
따라서, 한 번의 발화 문장에서 다중의 동작을 지원함으로써, 전술한 문제를 해결할 수 있는 기술 개발의 필요성이 요구되고 있다.
대한민국 등록특허 제10-0486733호(2005.05.03 공고) 대한민국 공개특허 제10-2000-0026814호(2000.05.15 공개) 대한민국 공개특허 제10-2010-0120740호(2010.11.17 공개)
따라서, 본 발명의 목적은 사용자가 한 문장을 발화하여도 한 문장에 포함된 다중 명령어를 용이하게 음성 인식하여 그에 상응하는 동작을 출력할 수 있는 다중 명령어가 포함된 단일 문장의 음성인식방법을 제공하는데 있다.
상술한 본 발명의 목적을 달성하기 위하여, 본 발명의 일 실시예에서는 음성 인식된 단일 문장의 형태소를 분석하여 연결어미를 검출하는 단계와, 상기 연결어미를 기준으로 단일 문장을 복수개의 구절로 분리하는 단계와, 상기 연결어미를 분석하여 다중 연결어미를 검출하고, 상기 다중 연결어미가 포함된 구절을 세부적으로 분석하여 명령어를 추출하는 단계, 및 상기 명령어를 추출하는 단계를 통해 추출된 명령어를 취합하여 단일 문장에 포함된 다중 명령어를 출력하는 단계로 이루어진 다중 명령어가 포함된 단일 문장의 음성인식방법을 제공한다.
본 발명에 의하면, 하나의 문장에서 다중의 동작 의도를 파악할 수 있으므로 소비자의 사용성이 크게 증대된다.
그리고 본 발명은 미리 구축된 언어정보 사전이 저장된 언어정보 DB를 참조하는 방식을 이용하므로 알고리즘이 간결하여 구현이 용이하다.
또한, 본 발명은 문법적 연결 정보를 파악하므로 다중 동작의 수에 제한이 없다. 즉, 발화자로부터 발화된 단일 문장을 통해서도 N개의 다중 동작의 처리가 가능하다.
아울러, 본 발명은 기존의 언어처리 기술이 낮은 성공률로 어려움에 처한 것과 달리, "명령"과 "검색"이라는 2가지 큰 카테고리에 대한 처리만 진행하므로, 성공률을 대폭 향상시킬 수 있다.
도 1은 일반적인 연속 음성인식장치의 구성을 나타내는 블록도이다.
도 2는 종래의 탐색 트리를 설명하기 위한 개략도이다.
도 3은 본 발명의 일 실시예에 따른 음성인식방법을 나타내는 순서도이다.
도 4는 본 발명의 일 실시예에 따른 음성인식장치를 나타내는 구성도이다.
도 5 내지 도 8은 본 발명에 따른 음성인식방법을 세부적으로 설명하기 위한 순서도이다.
이하, 첨부도면을 참조하여 본 발명의 바람직한 실시예들에 의한 다중 명령어가 포함된 단일 문장의 음성인식방법(이하, '음성인식방법'이라 약칭함)을 상세하게 설명한다.
도 3은 본 발명의 일 실시예에 따른 음성인식방법을 나타내는 순서도이다.
본 발명에 따른 음성인식방법은 음성 대화형 사용자 인터페이스를 통해 입력된 단일 문장을 분석하고 상기 단일 문장에 포함된 복수개의 명령어를 추출하여 단일 문장에 대한 다중 동작을 처리하는 음성인식방법이다.
도 3을 참조하면, 본 발명에 따른 음성인식방법은 음성인식한 단일 문장의 형태소를 분석하여 연결어미를 검출하는 제 1 단계(S100)와, 상기 연결어미를 기준으로 단일 문장을 복수개의 구절로 분리하는 제 2 단계(S200)와, 상기 연결어미를 분석하여 다중 연결어미를 검출하고, 상기 다중 연결어미가 포함된 구절을 세부적으로 분석하여 다중 명령어를 추출하는 제 3 단계(S300), 및 상기 다중 명령어를 추출하는 단계(S300)를 통해 추출된 다중 명령어를 취합하여 단일 문장에 포함된 다중 명령어를 출력하는 제 4 단계(S400)를 포함한다.
이러한 음성인식방법은 도 4에 도시된 바와 같이 사용자로부터 발화된 단일 문장의 음성정보를 수집하여 텍스트 데이터를 추출하는 입력부(10), 상기 단일 문장의 텍스트 데이터에 포함된 형태소를 분석하는 형태소 분석기(20), 상기 텍스트 데이터로부터 분석된 형태소 중 연결어미를 검출하는 연결어미 DB(30), 검출된 연결어미에 따라 텍스트 데이터를 하나 이상의 구절로 분리하는 구절 분리모듈(40), 각 구절에 포함된 연결어미 중 다중 연결어미를 검출하는 다중 연결어미 검출모듈(50), 언어정보 사전이 미리 구축된 언어정보 DB(60), 및 전술한 각 구성요소에 연결되어 각 구성요소를 제어하는 제어부(70)를 포함하여 구성된 음성인식장치로 구현될 수 있다.
상기 음성인식장치는 사용자로부터 동작신호를 입력받는 조작부(미도시), 상기 조작부로부터 동작신호가 입력됨에 따라 음성 대화형 사용자 인터페이스를 제공하는 출력모듈(미도시), 상기 입력부(10)를 통해 수집된 단일 문장의 텍스트 데이터를 저장하는 저장부(미도시), 다중 연결어미가 포함된 각 구절을 품사별로 분류하여 품사별로 의미 값을 할당하는 품사별 분류모듈(미도시)을 더 포함할 수 있다.
이하, 도면을 참조하여 각 단계별로 보다 구체적으로 설명한다.
본 발명에 따른 음성인식방법은 먼저 음성인식한 단일 문장의 형태소를 분석하여 연결어미를 검출하는 제 1 단계를 수행한다(S100).
도 5는 본 발명에 따른 음성인식방법의 일 구간을 설명하기 위한 순서도이다.
도 5를 참조하면, 상기 제 1 단계(S100)는 단일 문장에 대한 사용자의 음성을 인식하는 음성 인식과정(S110)과, 형태소 분석기(20)를 통해 상기 단일 문장의 형태소를 분석하는 형태소 분석과정(S120), 및 연결어미 DB(30)을 통해 형태소로부터 연결어미를 검출하는 연결어미 검출과정(S130)을 포함한다.
상기 음성 인식과정(S110)에서는 사용자가 조작부를 터치하여 음성인식장치의 동작을 명령하면 상기 음성인식장치의 제어부(70)가 출력모듈을 통해 음성 대화형 사용자 인터페이스를 상기 사용자에 제공하여 사용자가 발화한 단일 문장의 음성정보를 입력부(10)를 통해 수집한다. 이를 위해, 입력부(10)에는 마이크 등이 구비된다. 이어서, 입력부(10)는 마이크 등을 통해 수집된 단일 문장의 음성정보를 텍스트 데이터로 변환시켜 제어부(70)로 제공한다.
상기 형태소 분석과정(S120)에서는 제어부(70)가 형태소 분석기(20)를 통해 상기 단일 문장의 텍스트 데이터를 구성하는 형태소를 분석한다.
상기 연결어미 검출과정(S130)에서는 제어부(70)가 형태소 분석과정(S120)에 의해 분석된 형태소 중 연결어미를 검출한다. 이때, 연결어미의 검출은 연결어미 사전이 구축된 연결어미 DB(30)를 통해 이루어진다.
필요에 따라, 제어부(70)는 상기 입력부(10)로부터 제공된 단일 문장의 텍스트 데이터, 사용자가 발화한 단일 문장의 음성정보를 저장부에 저장할 수도 있다.
이어서, 본 발명에 따른 음성인식방법은 연결어미를 기준으로 단일 문장을 복수개의 구절로 분리하는 제 2 단계를 수행한다(S200).
도 6은 본 발명에 따른 음성인식방법의 다른 구간을 설명하기 위한 순서도이다.
도 3 및 도 6을 참조하면, 본 단계(S200)에서는 제어부(70)가 제 1 단계(S100)를 통해 검출된 연결어미를 구절 분리모듈(40)로 제공한다. 이어서, 구절 분리모듈(40)은 제 1 단계(S100)를 통해 검출된 연결어미를 기준으로 단일 문장의 텍스트 데이터를 복수개의 구절로 분리한다.
계속하여, 본 발명에 따른 음성인식방법은 연결어미를 분석하여 다중 연결어미를 검출하고, 상기 다중 연결어미가 포함된 구절을 세부적으로 분석하여 명령어를 추출하는 제 3 단계를 수행한다(S300).
도 7은 본 발명에 따른 음성인식방법의 또 다른 구간을 설명하기 위한 순서도이다.
도 6 및 도 7을 참조하면, 상기 제 3 단계(S300)는 연결어미의 분석을 통해 다중 연결어미를 검출하며, 다중 연결어미의 유무에 따라 분석 대상과 비분석 대상을 분류하는 분석대상 결정과정(S310), 및 상기 분석 대상에 해당하는 구절을 언어정보 사전이 미리 구축된 언어정보 DB에 매칭시켜 명령어를 추출하는 명령어 추출과정(S320)을 포함한다.
상기 분석대상 결정과정(S310)에서는 제어부(70)의 제어에 의해 다중 연결어미 검출모듈(50)이 연결어미가 포함된 구절 중 다중 연결어미가 포함된 구절을 검출한다. 이때, 다중 연결어미 검출모듈(50)은 다중 연결어미 사전이 미리 구축된 다중 연결어미 DB를 바탕으로 연결어미를 비교하여 상기 연결어미 중 다중 연결어미를 검출한다.
여기서, 다중 연결어미란 다중동작 연결어미, 연속 연결어미, 시간 연결어미 중 어느 하나를 의미한다.
또한, 다중 연결어미는 미리 정의된 의미 정보 사전의 검색 결과를 참조한다. 여기서, 의미 정보 사전은 연결어미 검출 모듈(50) 내에 위치하며, 연결어미 검출의 과정(S312)에서 해당 사전에 등록된 다중 연결어미가 입력 문장 분석의 기준이 된다.
예를 들면, 상기 다중동작 연결어미는 -고, -와, -과, -랑 중 어느 하나이고, 상기 연속 연결어미는 -으면서 이며, 상기 시간 연결어미는 -고, -으며, -으면서, -자, -자마자, -아, -어서 중 어느 하나이다.
보다 구체적으로, 다중동작 연결어미 '-고'의 경우, "라디오를 켜고, 내비를 꺼라"라는 명령어 내려지면, 라디오를 켜고 내비를 끄는 다중 동작이 순차적으로 수행되어야 하는 경우이다.
또한, '-랑'의 경우는 "라디오랑 내비를 켜라"처럼 라디오와 내비를 켜는 동작을 동시에 수행하는 경우가 이에 해당된다.
그리고 연속 연결어미 '-으면서'의 경우는 "라디오를 켜면서 내비를 꺼라"처럼 라디오 동작과 내비 동작을 연속적으로 수행하는 경우가 해당된다.
아울러, 시간 연결어미는 "라디오 켜자마자 내비 켜라"와 같이 동작 시점에 맞는 동작을 하는 경우가 해당된다.
이와 같이 연결어미의 분석을 통해 다중 연결어미가 검출되면(S312), 제어부(70)는 다중 연결어미의 유무에 따라 각 구절을 분석 대상과 비분석 대상을 분류한다(S314, S316). 다시 말해, 다중 연결어미가 포함된 구절은 분석 대상으로 확정하고 다중 연결어미가 미 포함된 구절은 비분석 대상으로 확정한다.
구체적으로, 분석의 대상은 다중 연결어미 왼쪽의 구절이며, 문장의 마지막 구절은 종결어미를 기준으로 하여 왼쪽 구절이 분석의 대상이 된다.
상기 명령어 추출과정(S320)에서는 분석대상 결정과정(S310)을 통해 분석 대상에 해당하는 구절이 확정되면, 제어부(70)가 상기 구절을 언어정보 사전이 미리 구축된 언어정보 DB(60)에 매칭시켜 명령어를 추출한다.
이때, 언어정보 DB(60)으로는 의미 계층 단어 DB(62) 및 문장 패턴 DB(64)이 사용될 수 있다. 여기서, 의미 계층 단어 DB(62)란 명사와 동사에 높은 가중치를 부여할 수 있도록 의미 기준에 따라 계층적으로 구성된 사전이 구축된 DB를 의미한다.
보다 구체적으로, 명령어 추출과정(S320)에서는 제어부(70)가 분석 대상의 구절에 포함된 어절을 분석하고(S321)한 후, 의미 계층 단어 DB(62)을 통해 분석 대상의 구절에 포함된 명사와 동사를 추출(S322)하여 구절의 문장 패턴을 결정한다(S323). 이러한 명령어 추출과정(S320)에서는 구절에 포함된 간투사나 상용구, 콤마, 마침표 등은 분석 대상에서 제외하여, 최종적으로 분석 대상의 구절이 <명사> + <동사>의 구조가 되도록 설정한다(S324).
이때, 문장 패턴은 문장 분석 결과에 따라 <명사> + <동사>, <명사> + <명사> + <동사>, <동사> 등의 다양한 문장 패턴이 출현될 수 있다.
또한, 명령어 추출과정(S320)에서 제어부(70)는 동작 가능한 필수 패턴이 미리 정의되어 있는 문장 패턴 DB(64)을 참조하여 미리 지정된 문장 패턴은 출력처리 대상으로 분류하고(S325), 미리 지정된 문장 패턴 이외의 문장 패턴은 에러처리 대상으로 분류한다(S326). 이때, 에러 처리는 예외처리 시나리오 전개나 종료, 또는 질문 생성 등으로 구현될 수 있다.
마지막으로, 제어부(70)는 최종적으로 결정된 구절의 <명사> + <동사>의 문장 패턴에 의미 계층 단어 DB(62)을 참조하여 의미 값을 할당한다(S327).
예를 들어, '라디오'라는 명령어가 동작 대상 명사로서 등록이 되어 있다면, "켜다, 듣다, 작동하다" 등 라디오 동작과 관련된 동사들 또한 사전에 등록하며, 해당 동사의 동작이 가지는 의미 값을 세분화하여 DB(62)에 저장한다. 모든 동작 대상 명사에 대해 조응하는 동사의 세부 의미 값을 미리 정의함으로써 다중 동작 시 동작의 대상과 동작의 방법을 구체적으로 수행할 수 있도록 한다.
도 8은 본 발명에 따른 음성인식방법의 또 다른 구간을 설명하기 위한 순서도이다.
도 3 및 도 8을 참조하면, 본 발명에 따른 음성인식방법의 제 3 단계(S300)는 상기 명령어 추출과정(S320) 이후에 품사 분류 기준에 따라 의미 정보를 추출할 수 있는 단위들로 나누어 분석하는 의미 값 할당과정(S330)을 더 포함할 수 있다.
이러한 의미 값 할당과정(S330)에서는 제어부(70)에 의해 품사 분리모듈이 문장 패턴이 결정된 각 구절을 품사별로 분류한다(S332).
그리고 제어부(70)는 구절의 각 품사별로 의미 값을 할당한다. 또한, 제어부(70)는 의미 값이 할당된 명사를 통해 주체와 대상을 추출하고, 의미 값이 할당된 동사를 통해 의도를 추출하며, 의미 값이 할당된 기타 품사를 통해 카테고리의 정보를 추출한다.
또한, 제어부(70)는 명사와 동사 및 기타 품사를 통해 추출된 정보를 바탕으로 명령어를 추출한다(S334).
마지막으로, 본 발명에 따른 음성인식방법은 제 3 단계를 통해 추출된 명령어를 취합하여 단일 문장에 포함된 다중 명령어를 출력하는 제 4 단계를 수행한다(S400).
도 3 및 도 8을 참조하면, 본 단계(S400)에서는 단일 문장을 구성하는 복수개의 구절 중 분석 대상에 해당하는 구절의 분석이 종료되면, 제어부(70)가 각 구절에 포함된 명령어를 취합하여 복수개의 명령어로 이루어진 다중 명령어를 확정한다.
이때, 다중 명령어의 출력은 취합된 다중 명령어에 대응되는 제어 신호를 생성하고, 상기 제어신호를 해당 기기로 전송함으로써 해당 기기를 제어하는 과정을 통해 진행될 수 있다.
상술한 내용을 예를 들어 설명하면 다음과 같다.
사용자가 "공릉역으로 목적지 찍고, 지도를 확대해라"고 발화하면 음성인식장치의 입력부(10)는 이를 음성 인식하여 텍스트 데이터를 추출한다(S110).
이어서, 제어부(70)는 형태소 분석기(20)를 통해 텍스트 데이터의 형태소를 분석하고(S120), 연결어미 DB(30)를 참조하여 형태소로부터 상기 텍스트 데이터에 포함된 연결어미인 "-고"를 검출한다(S130).
그 다음, 제어부(70)는 연결어미인 "-고"를 기준으로 텍스트 데이터를 제 1 구절인 "공릉역으로 목적지를 찍고"와 제 2 구절인 "지도를 확대해라"로 분리한다(S200).
그리고 제어부(70)는 다중 연결어미 DB(30)를 통해 제 1 구절인 "공릉역으로 목적지를 찍고"에 포함된 다중 연결어미인 "-고"를 검출하여, 제 1 구절과 제 2 구절을 분석 대상으로 분류한다(S310).
이 후, 제어부(70)는 언어정보 DB(60)을 통해 "공릉역으로 목적지를 찍고"로부터 '공릉역'을 명사로 '목적지 찍다'를 동사로 하는 <명사> + <동사>의 문장 패턴을 추출한다. 또한, 제어부(70)는 의미 계층 단어 DB(62)을 통해 '공릉역'과 '목적지 찍다'의 의미 값을 부여한다. 이때, '공릉역'의 의미 값 할당을 통해 네비게이션의 목적지를 추출하고, '목적지 찍다'의 의미 값 할당을 통해 사용자의 의도(목적지에 대한 운전 경로 안내)를 추출한다. 마지막으로, 제 1 구절에 대한 결과 값 할당을 수행하고 이를 통해 명령어를 추출한다(S320).
이어서, 제어부(70)는 제 1 구절에 대한 결과 값 할당이 완료되면, 제 2 구절에 대한 분석을 수행하여 제 2 구절의 명령어를 추출하여 문장에 포함된 다중 명령어를 출력한다(S400). 다시 말해, "공릉역으로 목적지 찍고, 지도를 확대해라"는 문장은 2가지 명령어를 내포하고 있으므로, 제어부(70)는 2가지 명령어에 대응되는 제어 신호를 생성하여 네비게이션에 전송한다.
이상에서 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자는 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
10 : 입력부 20 : 형태소 분석기
30 : 연결어미 DB 40 : 구절 분리모듈
50 : 다중 연결어미 검출모듈 60 : 언어정보 DB
62 : 의미 계층 단어 DB 64 : 문장 패턴 DB
70 : 제어부

Claims (10)

  1. (ⅰ) 음성 인식된 단일 문장의 형태소를 분석하여 연결어미를 검출하는 단계;
    (ⅱ) 상기 연결어미를 기준으로 단일 문장을 복수개의 구절로 분리하는 단계;
    (ⅲ) 상기 연결어미를 분석하여 다중 연결어미를 검출하고, 상기 다중 연결어미가 포함된 구절을 세부적으로 분석하여 명령어를 추출하는 단계; 및
    (ⅳ) 상기 (ⅲ)를 통해 추출된 명령어를 취합하여 단일 문장에 포함된 다중 명령어를 출력하는 단계로 이루어진 다중 명령어가 포함된 단일 문장의 음성인식방법.
  2. 제 1 항에 있어서, 상기 다중 연결어미는
    다중동작 연결어미, 연속 연결어미, 시간 연결어미 중 어느 하나인 것을 특징으로 하는 다중 명령어가 포함된 단일 문장의 음성인식방법.
  3. 제 2 항에 있어서, 상기 다중동작 연결어미는
    -고, -와, -과, -랑으로 이루어진 군으로부터 선택된 어느 하나인 것을 특징으로 하는 다중 명령어가 포함된 단일 문장의 음성인식방법.
  4. 제 2 항에 있어서, 상기 연속 연결어미는
    -으면서 인 것을 특징으로 하는 다중 명령어가 포함된 단일 문장의 음성인식방법.
  5. 제 2 항에 있어서, 상기 시간 연결어미는
    -고, -으며, -으면서, -자, -자마자, -아, -어서로 이루어진 군으로부터 선택된 어느 하나인 것을 특징으로 하는 다중 명령어가 포함된 단일 문장의 음성인식방법.
  6. 제 1 항에 있어서, 상기 (ⅳ)의 출력은
    상기 다중 명령어에 대응되는 제어 신호를 생성하여 해당 기기로 전송하는 과정인 것을 특징으로 하는 다중 명령어가 포함된 단일 문장의 음성인식방법.
  7. 제 1 항에 있어서, 상기 (ⅰ) 단계는
    단일 문장에 대한 사용자의 음성을 인식하는 과정과,
    형태소 분석기를 통해 상기 단일 문장의 형태소를 분석하는 과정, 및
    연결어미 DB을 통해 형태소로부터 연결어미를 검출하는 과정으로 이루어진 것을 특징으로 하는 다중 명령어가 포함된 단일 문장의 음성인식방법.
  8. 제 1 항에 있어서, 상기 (ⅲ) 단계는
    연결어미의 분석을 통해 다중 연결어미를 검출하며, 다중 연결어미의 유무에 따라 분석 대상과 비분석 대상을 분류하는 분석대상 결정과정, 및
    상기 분석 대상에 해당하는 구절을 미리 구축된 언어정보 DB에 매칭시켜 명령어를 추출하는 명령어 추출과정으로 이루어진 것을 특징으로 하는 다중 명령어가 포함된 단일 문장의 음성인식방법.
  9. 제 8 항에 있어서, 상기 미리 구축된 언어정보 DB는
    의미 계층 단어 DB 및 문장 패턴 DB로 구성된 것을 특징으로 하는 다중 명령어가 포함된 단일 문장의 음성인식방법.
  10. 제 8 항에 있어서, 상기 명령어 추출과정은
    상기 분석 대상에 해당하는 구절을 미리 구축된 언어정보 DB에 매칭시켜 의미 값을 추출하는 과정과,
    상기 의미 값이 추출된 구절의 문장 유형을 분석하는 과정과,
    미리 구축된 문장 패턴 DB를 통해 출력처리 대상과 에러처리 대상을 분류하는 과정, 및
    상기 출력처리 대상으로 선택된 구절에 최종 동작 값을 할당하여 명령어를 추출하는 과정으로 이루어진 것을 특징으로 하는 다중 명령어가 포함된 단일 문장의 음성인식방법.
KR1020130019991A 2013-02-25 2013-02-25 다중 명령어가 포함된 단일 문장의 음성인식방법 KR101383552B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020130019991A KR101383552B1 (ko) 2013-02-25 2013-02-25 다중 명령어가 포함된 단일 문장의 음성인식방법
US14/058,088 US20140244258A1 (en) 2013-02-25 2013-10-18 Speech recognition method of sentence having multiple instructions
PCT/KR2014/001457 WO2014129856A1 (ko) 2013-02-25 2014-02-24 다중 명령어가 포함된 단일 문장의 음성인식방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130019991A KR101383552B1 (ko) 2013-02-25 2013-02-25 다중 명령어가 포함된 단일 문장의 음성인식방법

Publications (1)

Publication Number Publication Date
KR101383552B1 true KR101383552B1 (ko) 2014-04-10

Family

ID=50657201

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130019991A KR101383552B1 (ko) 2013-02-25 2013-02-25 다중 명령어가 포함된 단일 문장의 음성인식방법

Country Status (3)

Country Link
US (1) US20140244258A1 (ko)
KR (1) KR101383552B1 (ko)
WO (1) WO2014129856A1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180130889A (ko) * 2017-05-30 2018-12-10 엘지전자 주식회사 음성 인식 서버 시스템의 동작 방법
KR20190024472A (ko) * 2017-08-31 2019-03-08 삼성전자주식회사 가전 기기의 음성 인식을 위한 시스템과 서버, 방법
US10553210B2 (en) 2015-09-09 2020-02-04 Samsung Electronics Co., Ltd. System, apparatus, and method for processing natural language, and non-transitory computer readable recording medium
KR20200125034A (ko) * 2019-04-25 2020-11-04 에스케이텔레콤 주식회사 음성분석장치 및 음성분석장치의 동작 방법

Families Citing this family (162)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
CN106471570B (zh) * 2014-05-30 2019-10-01 苹果公司 多命令单一话语输入方法
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US9837069B2 (en) * 2015-12-22 2017-12-05 Intel Corporation Technologies for end-of-sentence detection using syntactic coherence
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
KR20190136832A (ko) * 2018-05-31 2019-12-10 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피. 음성 명령을 프린팅 서비스를 지원하는 텍스트 코드 블록들로 변환
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
KR20210066644A (ko) * 2019-11-28 2021-06-07 삼성전자주식회사 단말 장치, 서버 및 그 제어 방법
CN111161730B (zh) * 2019-12-27 2022-10-04 中国联合网络通信集团有限公司 语音指令匹配方法、装置、设备及存储介质
US11308944B2 (en) 2020-03-12 2022-04-19 International Business Machines Corporation Intent boundary segmentation for multi-intent utterances
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000026814A (ko) * 1998-10-23 2000-05-15 정선종 연속 음성인식을 위한 어절 분리방법 및 그를 이용한 음성 인식방법
KR20090041923A (ko) * 2007-10-25 2009-04-29 한국전자통신연구원 음성 인식 방법
KR20120004151A (ko) * 2010-07-06 2012-01-12 한국전자통신연구원 문장 번역 장치 및 그 방법

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7027991B2 (en) * 1999-08-30 2006-04-11 Agilent Technologies, Inc. Voice-responsive command and control system and methodology for use in a signal measurement system
US20050080620A1 (en) * 2003-10-09 2005-04-14 General Electric Company Digitization of work processes using wearable wireless devices capable of vocal command recognition in noisy environments
US7720674B2 (en) * 2004-06-29 2010-05-18 Sap Ag Systems and methods for processing natural language queries
US8265939B2 (en) * 2005-08-31 2012-09-11 Nuance Communications, Inc. Hierarchical methods and apparatus for extracting user intent from spoken utterances
US7774202B2 (en) * 2006-06-12 2010-08-10 Lockheed Martin Corporation Speech activated control system and related methods
US8380511B2 (en) * 2007-02-20 2013-02-19 Intervoice Limited Partnership System and method for semantic categorization
US8219407B1 (en) * 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US20100251283A1 (en) * 2009-03-31 2010-09-30 Qualcomm Incorporated System and mehod for providing interactive content
US9031848B2 (en) * 2012-08-16 2015-05-12 Nuance Communications, Inc. User interface for searching a bundled service content data source

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000026814A (ko) * 1998-10-23 2000-05-15 정선종 연속 음성인식을 위한 어절 분리방법 및 그를 이용한 음성 인식방법
KR20090041923A (ko) * 2007-10-25 2009-04-29 한국전자통신연구원 음성 인식 방법
KR20120004151A (ko) * 2010-07-06 2012-01-12 한국전자통신연구원 문장 번역 장치 및 그 방법

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10553210B2 (en) 2015-09-09 2020-02-04 Samsung Electronics Co., Ltd. System, apparatus, and method for processing natural language, and non-transitory computer readable recording medium
US11756539B2 (en) 2015-09-09 2023-09-12 Samsung Electronic Co., Ltd. System, apparatus, and method for processing natural language, and non-transitory computer readable recording medium
KR20180130889A (ko) * 2017-05-30 2018-12-10 엘지전자 주식회사 음성 인식 서버 시스템의 동작 방법
KR101976427B1 (ko) * 2017-05-30 2019-05-09 엘지전자 주식회사 음성 인식 서버 시스템의 동작 방법
KR20190024472A (ko) * 2017-08-31 2019-03-08 삼성전자주식회사 가전 기기의 음성 인식을 위한 시스템과 서버, 방법
WO2019045455A3 (ko) * 2017-08-31 2019-04-18 삼성전자주식회사 가전 기기의 음성 인식을 위한 시스템과 서버, 방법
KR102428148B1 (ko) * 2017-08-31 2022-08-02 삼성전자주식회사 가전 기기의 음성 인식을 위한 시스템과 서버, 방법
US11501770B2 (en) 2017-08-31 2022-11-15 Samsung Electronics Co., Ltd. System, server, and method for speech recognition of home appliance
KR20200125034A (ko) * 2019-04-25 2020-11-04 에스케이텔레콤 주식회사 음성분석장치 및 음성분석장치의 동작 방법
KR102279319B1 (ko) * 2019-04-25 2021-07-19 에스케이텔레콤 주식회사 음성분석장치 및 음성분석장치의 동작 방법

Also Published As

Publication number Publication date
US20140244258A1 (en) 2014-08-28
WO2014129856A1 (ko) 2014-08-28

Similar Documents

Publication Publication Date Title
KR101383552B1 (ko) 다중 명령어가 포함된 단일 문장의 음성인식방법
US11830485B2 (en) Multiple speech processing system with synthesized speech styles
US8265939B2 (en) Hierarchical methods and apparatus for extracting user intent from spoken utterances
KR100679042B1 (ko) 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
EP1162602B1 (en) Two pass speech recognition with active vocabulary restriction
US20090112593A1 (en) System for recognizing speech for searching a database
CN105654943A (zh) 一种语音唤醒方法、装置及系统
KR20180075050A (ko) 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법
JP2008058813A (ja) 音声応答システム、音声応答プログラム
US20080262843A1 (en) Speech recognition apparatus and method
US20200219487A1 (en) Information processing apparatus and information processing method
US9691389B2 (en) Spoken word generation method and system for speech recognition and computer readable medium thereof
US7653541B2 (en) Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech
KR102372069B1 (ko) 언어학습을 위한 양국어 자유 대화 시스템 및 방법
WO2006093092A1 (ja) 会話システムおよび会話ソフトウェア
US20180012602A1 (en) System and methods for pronunciation analysis-based speaker verification
JP4700522B2 (ja) 音声認識装置及び音声認識プログラム
Dusan et al. On integrating insights from human speech perception into automatic speech recognition.
JP2004045900A (ja) 音声対話装置及びプログラム
US11817090B1 (en) Entity resolution using acoustic data
Homma et al. Robust utterance classification using multiple classifiers in the presence of speech recognition errors
JP2003162524A (ja) 言語処理装置
JPH1195793A (ja) 音声入力解釈装置及び音声入力解釈方法
KR20220037187A (ko) 차량용 음성 인식 장치, 이를 이용한 차량 문제상황 처리 방법 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170403

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180403

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190410

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20200121

Year of fee payment: 7