KR101300839B1 - 음성 검색어 확장 방법 및 시스템 - Google Patents
음성 검색어 확장 방법 및 시스템 Download PDFInfo
- Publication number
- KR101300839B1 KR101300839B1 KR1020070133727A KR20070133727A KR101300839B1 KR 101300839 B1 KR101300839 B1 KR 101300839B1 KR 1020070133727 A KR1020070133727 A KR 1020070133727A KR 20070133727 A KR20070133727 A KR 20070133727A KR 101300839 B1 KR101300839 B1 KR 101300839B1
- Authority
- KR
- South Korea
- Prior art keywords
- word
- words
- language
- search
- matching
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3337—Translation of the query language, e.g. Chinese to English
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Abstract
본 발명은 음성 검색어 확장 방법 및 시스템에 관한 것으로, 입력 신호로부터 사용자의 음성 구간을 검출하여, 상기 음성 구간으로부터 특징 벡터를 추출하고, 상기 특징 벡터를 적어도 하나 이상의 음소 시퀀스로 변환하여 생성하고, 상기 음소 시퀀스를 단어 사전에 등록되어 있는 단어들과 매칭하여, 언어적으로 의미가 있는 단어의 열(string)을 추출하여 검색어로 선택하고, 상기 선택한 검색어가 기 선정된 제1 언어(Language) 인지의 여부를 판단하여, 상기 판단 결과 제1 언어가 아닌 언어인 경우, 상기 검색어를 음소/문자소 변환 모델(Phoneme to Grapheme Model)을 이용하여 변환하여 제1 언어로 구성된 검색어를 생성하고, 상기 제1 언어로 구성된 검색어를 이용하여 검색을 실행하여, 검색어를 확장함으로써, 모국어/외국어뿐만 아니라 발음 변이까지 모두 고려하여 검색어를 확장할 수 있다.
음성 인식, 음성 검색, 검색어 확장, 외국어 검색
Description
본 발명은 음성 검색어 확장 방법 및 시스템에 관한 것으로, 특히 검색어를 확장하여 검색 성공률을 높인 음성 검색어 확장 방법 및 시스템에 관한 것이다.
모바일 인터넷 환경이 일반화되면서, 모바일 단말기를 통한 웹 검색이나 웹을 통하여 컨텐츠를 다운로드 하는 등, 모바일 단말기의 사용이 증대되고 있다.
그러나 모바일 단말기의 버튼 입력 방식은 모바일 단말기 자체의 휴대성을 고려한 특성상, 버튼이 소형화되어 있으며 검색어 입력 속도가 느리고 그에 따라 사용자는 불편함을 느끼게 된다. 예를 들어, 모바일 단말기의 방향키를 이용한 웹 페이지 네비게이션은 속도가 느리고, 커서 이동과 버튼 입력의 동기화가 잘 이루어지지 않아, 효율적인 웹 네비게이션이 어렵다. 그에 따라 쉽고 효율적인 모바일 웹 검색 방법으로 음성에 기반한 웹 인터페이스가 요구되고 있다.
이와 같은 모바일 단말기의 환경에 따른 사용자의 요구에 따라, 음성 인식을 통한 모바일 단말기의 웹 검색 등이 사용되고 있다.
일반적으로 음성 인식은 사용자의 입력 음성에서 특징을 추출하고 분석하여 미리 등록된 인식 목록(인식 사전)에서 가장 근접한 결과를 찾아내는 방식이다. 이러한 방식을 음성 기반 웹 검색에 적용을 하게 되면 외국어로 이루어진 검색어 입력시, 그에 대한 인식 결과를 검색어로 생성하게 된다.
이와 같은, 음성 인식에 의한 검색은 인식 목록 내에 검색어가 존재하지 않는 경우, 검색이 불가능하였다.
본 발명은 상기와 같은 종래 기술을 개선하기 위해 안출된 것으로서, 다국어 사전을 이용하여 모국어 사전에 등록되지 않은 미등록어를 인식함으로써 인식 성공률을 높이는 것을 목적으로 한다.
또한 본 발명은, 외국어 음성 입력일지라도 모국어 검색어로 검색이 가능하도록 검색어를 확장하여, 사용자가 의도했던 범위 내에서의 검색 성공률을 높이는 것을 목적으로 한다.
또한 본 발명은, 외국어 음성 입력시 모국어 사용자의 발음 변이를 적용한 검색어 확장을 통해 검색 성공률을 높이는 것을 목적으로 한다.
상기의 목적을 이루고 종래기술의 문제점을 해결하기 위하여 본 발명의 일측에 따른 음성 검색어 확장 방법은, 입력 신호로부터 사용자의 음성 구간을 검출하고, 상기 음성 구간으로부터 특징 벡터를 추출하는 단계, 상기 특징 벡터를 적어도 하나 이상의 음소 시퀀스로 변환하여 생성하는 단계, 상기 음소 시퀀스를 단어 사전에 등록되어 있는 단어들과 매칭하여, 언어적으로 의미가 있는 단어의 열(string)을 추출하여 검색어로 선택하는 단계, 상기 선택한 검색어가 기 선정된 제1 언어(Language) 인지의 여부를 판단하여, 상기 판단 결과 제1 언어가 아닌 언어인 경우, 상기 검색어를 음소/문자소 변환 모델(Phoneme to Grapheme Model)을 이용하여 변환하여 제1 언어로 구성된 검색어를 생성하는 단계, 및 상기 제1 언어 로 구성된 검색어를 이용하여, 검색하는 단계를 포함한다.
본 발명의 또 다른 일측에 따르면, 상기 단어의 열을 추출하여 검색어로 선택하는 단계는, 상기 음소 시퀀스를 제1 언어의 단어 사전에 등록되어 있는 단어들과 매칭하여, 상기 매칭의(비교한) 결과 수치가 특정 역치(threshold)보다 높은 단어의 열이 존재하는 경우, 상기 단어의 열을 검색어로 선택하고, 상기 매칭의 결과 수치가 특정 역치보다 높은 단어의 열이 존재하지 않는 경우, 제2 언어의 단어 사전에 등록되어 있는 단어들과 매칭하여, 상기 단어의 열을 검색어로 선택한다.
본 발명의 또 다른 일측에 따르면, 상기 단어의 열을 추출하여 검색어로 선택하는 단계는, 상기 음소 시퀀스를 제2 언어의 단어 사전에 등록되어 있는 단어들과 매칭하여, 상기 매칭의 결과, 수치가 특정 역치보다 높은 단어의 열이 존재하는 경우, 상기 단어의 열을 검색어로 선택하고, 상기 매칭의 결과, 수치가 특정 역치보다 높은 단어의 열이 존재하지 않는 경우, 상기 매칭의 결과 수치가 가장 높은 단어의 열을 검색어로 선택한다.
본 발명의 또 다른 일측에 따르면, 상기 단어 열을 추출하여 검색어로 선택하는 단계는, 상기 음소 시퀀스를 제1 언어 및 제2 언어의 단어 사전을 포함하여 구성되는 통합 단어 사전에 등록되어 있는 단어들과 매칭하여, 상기 매칭의 결과 수치가 특정 역치보다 높은 단어의 열이 존재하는 경우, 상기 단어의 열을 검색어로 추출하고, 상기 매칭의 결과 수치가 특정 역치보다 높은 단어의 열이 존재하지 않는 경우, 상기 매칭의 결과 수치가 가장 높은 단어의 열을 검색어로 선택한다.
본 발명의 또 다른 일측에 따르면, 상기 특징 벡터를 적어도 하나 이상의 음 소 시퀀스로 변환하여 생성하는 단계는, 어쿠스틱 모델(Acoustic Model)을 적용하여, 상기 특징 벡터를 적어도 하나 이상의 음소 시퀀스로 변환하여 생성한다.
본 발명의 또 다른 일측에 따르면, 상기 음소 시퀀스를 단어 사전에 등록되어 있는 단어들과 매칭하여, 언어적으로 의미가 있는 단어의 열을 추출하여 검색어로 선택하는 단계는, 폰 컨퓨전 매트릭스(Phone Confusion Matrix)를 적용하여 상기 음소 시퀀스를 상기 단어 사전에 등록되어 있는 단어들과 매칭한다.
본 발명의 또 다른 일측에 따르면, 상기 음소 시퀀스를 단어 사전에 등록되어 있는 단어들과 매칭하여, 언어적으로 의미가 있는 단어의 열을 추출하여 검색어로 선택하는 단계는, 언어 모델(Language Model)을 통하여 언어적으로 의미가 있는 단어의 열을 추출하여 검색어로 선택한다.
이하 첨부된 도면들 및 첨부된 도면들에 기재된 내용들을 참조하여 본 발명의 바람직한 실시예를 상세하게 설명하지만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.
도 1은 본 발명의 일례에 따른 음성 검색어 확장의 방법의 개념도이다. 도 1을 참조하여 본 발명의 일례에 따른 음성 검색어 확장 방법을 설명한다.
일반적으로 음성 인식은 사용자의 입력 음성에서 특징을 추출하고 분석하여 미리 등록된 인식 목록(인식 사전)에서 가장 근접한 결과를 찾아내는 방식이다. 이러한 방식을 음성 기반 웹 검색에 적용을 하게 되면 외국어로 이루어진 검색어 입 력시, 외국어 검색어 인식 결과를 검색어로 생성하게 된다.
도 1에서와 같이 한국인 사용자가 "프리즌 브레이크"라는 음성 검색어를 입력하면, 음소 디코더(Phonetic Decoder: 110)는 입력된 음성 검색어의 특징 벡터를 음소 시퀀스(120)로 변환하여 생성한다.
단어 디코더(Lexical Decoder: 140)는 이와 같은 음소 시퀀스(120)를 단어 사전에 등록되어 있는 단어들과 매칭하여, 언어적으로 의미가 있는 단어의 열을 추출하여 검색어로 선택한다. 그러나, "프리즌", "브레이크"라는 단어는 외국어이기 때문에 한국어 인식 사전에는 없을 가능성(160)이 높다. 하지만 "prison", "break"는 영어 관점에서는 보통 명사이므로 영어 인식 사전에는 등록(170)되어 있다. 따라서 사용자 음성을 인식한 결과, "prison break"라는 인식 결과가 생성되고, 음소/문자소 변환 모델(Phoneme to Grapheme Model)을 이용하여 검색어를 생성하는 다국어 검색 확장부(Query Generator: 180)를 통하여, 모국어에 해당하는 검색을 실행한다.
즉, 모국어가 한국어인 경우 검색어는 "프리즌 브레이크", "프리즌 브레익", "Prison Break"등이 사용될 수 있다.
따라서, 음성 검색어 입력시, 외국어 검색어뿐만 아니라 모국어 검색어로도 확장함으로써 검색 성공률과 만족도를 높일 수 있다. 이러한 개념은 한국어뿐만 아니라, 일본어(195), 중국어(미도시) 등 언어에 관계없이, 모국어가 아닌 외국어 검색어를 음성으로 입력하고자 할 때 모두 적용될 수 있다.
이 경우, 구글 검색 엔진과 같이 글로벌한 검색 엔진을 통해 검색할 경우, 영어 사이트 대상 검색이 된다. 즉, 네이버(Naver)와 같은 국내용 검색 엔진을 통해 검색을 할 경우, 색인어가 "prison", "break"인 사이트를 대상으로 검색을 진행한다. 그러나 한국인 사용자의 경우 "프리즌 브레이크", "prison break"(또는 "프리즌 브레익") 중 어떤 검색어 입력을 의도했는지 분명하지 않으므로, 이 두 가지 검색어 모두를 적용하여 검색했을 때 사용자가 원하는 검색 결과를 얻을 가능성이 높다.
도 2는 본 발명의 일례에 따른 음성 검색어 확장 시스템의 구성도이다. 도2를 참조하여 본 발명의 일례에 따른 음성 검색어 확장 시스템을 설명한다.
도 2에 도시된 바와 같이 본 발명의 일례에 따른 음성 검색어 확장 시스템은, 신호 처리부(Signal Processing Front-end: 210), 음소 디코더(Phonetic Decoder: 220), 단어 디코더(Lexical Decoder: 230), 다국어 검색 확장부(Multilingual Query Extension: 240), 및 단어 사전(Word Dictionary: 250) 등을 포함하여 구성된다.
신호 처리부(210)는 입력 신호로부터 사용자의 음성 구간을 검출하고 상기 음성 구간으로부터 특징 벡터를 추출한다. 이때, 신호 처리부(210)는 입력 신호로부터 배경 잡음 등을 제거하고 사용자의 음성 구간을 검출하며, 음성 구간에서 음성 인식에 사용될 특징 벡터를 추출한다.
음소 디코더(220)는 상기 특징 벡터를 적어도 하나 이상의 음소 시퀀스로 변환하여 생성한다. 이때, 음소 디코더(220)는 어쿠스틱 모델(Acoustic Model: 225)을 적용하여, 상기 특징 벡터를 적어도 하나 이상의 음소 시퀀스로 변환하여 생성 한다.
단어 디코더(230)는 상기 음소 시퀀스를 단어 사전에 등록되어 있는 단어들과 매칭하여, 언어적으로 의미가 있는 단어의 열을 추출하여 검색어로 선택하는데, 이때 폰 컨퓨전 매트릭스(Phone Confusion Matrix)를 적용하여 상기 음소 시퀀스를 상기 단어 사전에 등록되어 있는 단어들과 매칭할 수 있다.
특히, 단어 디코더(230)는 상기 음소 시퀀스를 제1 언어(예를 들어 한국어)의 단어 사전에 등록되어 있는 단어들과 매칭하여, 상기 매칭의 결과 수치가 특정 역치보다 높은 단어의 열이 존재하는 경우, 상기 단어의 열을 검색어로 선택한다. 또한, 상기 매칭의 결과 수치가 특정 역치보다 높은 단어의 열이 존재하지 않는 경우, 제2 언어(예를 들어, 영어 또는 일어)의 단어 사전(252, 253)에 등록되어 있는 단어들과 매칭하여, 상기 단어의 열을 검색어로 선택한다.
또한, 단어 디코더(230)는 상기 음소 시퀀스를 제2 언어의 단어 사전(252, 253)에 등록되어 있는 단어들과 매칭하여, 상기 매칭의 결과 수치가 특정 역치보다 높은 단어의 열이 존재하는 경우, 상기 단어의 열을 검색어로 선택하고, 상기 매칭의 결과 수치가 특정 역치보다 높은 단어의 열이 존재하지 않는 경우, 상기 매칭의(비교한) 결과 수치가 가장 높은 단어의 열을 검색어로 선택한다.
또는, 상기 음소 시퀀스를 제1 언어 및 제2 언어의 단어 사전을 포함하여 구성되는 통합 단어 사전(254)에 등록되어 있는 단어들과 매칭하여, 상기 매칭의 결과 수치가 특정 역치보다 높은 단어의 열이 존재하는 경우, 상기 단어의 열을 검색어로 선택하고, 상기 매칭의 결과 수치가 특정 역치보다 높은 단어의 열이 존재하지 않는 경우, 상기 매칭의 결과 수치가 가장 높은 단어의 열을 검색어로 선택할 수 있다.
뿐만 아니라, 단어 디코더(230)는 언어 모델(Language Model)을 통하여 언어적으로 의미가 있는 단어의 열을 추출하여 검색어로 선택할 수 있다.
다국어 검색 확장부(240)는 상기 선택한 검색어가 기 선정된 제1 언어 인지(예를 들어 한국어)의 여부를 판단하여, 상기 판단 결과 제1 언어가 아닌 언어인 경우, 상기 검색어를 음소/문자소 변환 모델(Phoneme to Grapheme Model)을 이용하여 변환하여 제1 언어로 구성된 검색어를 생성한다. 이때, 음소/문자소 변환 모델은 해당 언어간의 발음 변이 등을 고려하는데 사용된다.
또한, 상기 모국어 검색어를 이용하여 검색하는 검색부(미도시)를 더 포함하여 구성될 수 있다.
도 3은 본 발명의 일례에 따른 음성 검색어 확장 방법을 도시한 흐름도로서, 보다 상세하게는, 음성 인식시 다국어 사전을 단계적으로 적용할 경우의 단어 디코더(lexical decoder)의 알고리즘을 설명하는 흐름도이다.
도 3을 참조하여 본 발명의 일례에 따른 음성 검색어 확장 방법을 설명한다.
n개(적어도 하나 이상)의 음소 시퀀스(phoneme sequence)를 수신하고(S310), 수신한 음소 시퀀스를 모국어 사전(예를 들어 한국어 사전)과 매치하여 본다(S320).
음소 시퀀스를 모국어 사전과 비교하여(S330), 매칭 점수(matching score)가 역치(threshold)보다 높은 단어가 존재할 경우, 해당 단어로 검색어를 구성한 다(S340).
한편, 매칭 점수가 역치보다 높은 단어가 존재하지 않을 경우, n개의 음소 시퀀스를 외국어 사전(예를 들어 영어 사전)과 매치하게 된다(S350).
상기 매치 결과(S360), 매칭 점수가 역치보다 높은 단어가 존재하는 경우, 외국어 사전으로부터 외국어 검색어를 구성하고(S370), 상기 매치 결과 매칭 점수가 역치보다 낮은 경우에는, 매칭 가장 잘되는 검색어를 선택한다(S380).
도 4는 본 발명의 또 다른 일례에 따른 음성 검색어 확장 방법을 도시한 흐름도로서, 보다 상세하게는 음성 인식시 모국어, 외국어 사전을 통합하여 적용할 경우의 단어 디코더(lexical decoder)의 알고리즘을 설명하는 흐름도이다.
도 4를 참조하여 본 발명의 일례에 따른 음성 검색어 확장 방법을 설명한다.
n개(적어도 하나 이상)의 음소 시퀀스(phoneme sequence)를 수신하고(S410), 수신한 음소 시퀀스를 통합 사전(Universal Dictionary)과 매치하여 본다(S420).
음소 시퀀스를 모국어 사전과 비교하여(S430), 매칭 점수(matching score)가 역치(threshold)보다 높은 단어가 존재할 경우, 해당 단어로 검색어를 구성한다(S440).
한편, 매칭 점수가 역치보다 높은 단어가 존재하지 않을 경우, 매칭 가장 잘되는 검색어를 선택한다(S450).
도 5는 본 발명의 또 다른 일례에 따른 음성 검색어 확장 방법을 도시한 흐름도로서, 인식된 검색어에 모국어가 아닌 단어가 포함되어 있는 경우 음성 검색어를 확장하는 알고리즘을 도시한 흐름도이다.
n개(적어도 하나 이상)의 음소 시퀀스(phoneme sequence)를 수신하고(S510), 인식된 검색어에 외국어(예를 들어 영어)가 포함되어 있는지의 여부를 판단하여(S520), 인식된 검색어에 외국어가 포함되어 있는 경우, 음소/문자소 변환 룰(Phone to Grapheme rule)을 적용하여 사전의 발음 열(String)로부터 모국어 검색어(예를 들어 한국어)를 생성한다(S530). 음소/문자소 변환 룰(phone to grapheme rule)은 음소(phone)를 해당하는 문자소로 변환하는 규칙으로, 언어마다 음소 셋(phone set)과 변환 규칙 등이 모두 다르다.
이와 같이 생성된 모국어 검색어를, 발음의 변이를 고려하여 확장한다(S540). 예를 들어, "midnight blue"라는 영어 음성 입력은, 한국어로 확장될 경우 "미드나이트 블루", "미드나잇 블루" 등으로 확장될 수 있다.
이후, 상기와 같이 생성되고 확장된 모국어 검색어를 이용하여 검색을 실행하게 되고(S550), 인식된 검색어에 외국어가 포함되어 있지 않은 경우에는, 모국어 검색어인 것으로 판단하여 검색을 실행하여(S560), 검색에 따른 검색 결과를 표시한다(S570).
도 6은 본 발명의 일례에 따른 다국언어 검색어 확장 알고리즘을 도시한 도면으로서, 보다 상세하게는 한국어와 일본어 검색어의 확장에 대한 도면이다. 도 6을 참조하여 본 발명의 일례에 따른 다국언어 검색어 확장 알고리즘을 설명한다.
도 6은 "Prison Break"를 예로 한, 한국어의 음소(phone: 610) 및 그에 대응되는 문자소(grapheme: 620), 일본어의 음소(630) 및 그에 대응되는 문자소(640)를 도시하고 있다.
일반적으로 음소(phone)와 문자소(grapheme)는 n 대 m(n:m) 매칭이며, 음소 콘텍스트(phone context)에 따라 해당 문자소(grapheme)가 달라질 수 있다. 즉, 음소(phone) 'TH'는 주변 음소 콘텍스트(phone context)에 따라서 한국어 'ㄷ', 'ㅈ', ㄸ', 'ㅆ' 모두 가능하며, 음소(phone) 'F', 'P'는 한국어의 경우 모두 'ㅍ'에 해당한다. 이러한 언어의 발음 차이에 따른 발음 변이를 고려하여, 생성된 검색어를 확장하여 검색어를 구성한다.
발음 변이에 따른 한국어 검색어 확장의 예는 아래와 같다. 이러한 현상은 한국어에서만 발생하는 것이 아니라, 외국어를 발생할 경우 공통적으로 발생한다.
다음은 본 발명에서 제안하는 방식을 통해 확장된 검색어의 예로서, 영어 음성 입력을 한국어로 확장한 예이다.
- break: 브레이크/브레익
- awards: 어워드/어워즈
- algorithm: 알고리즘/알고리듬
- midnight: 미드나이트/미드나잇
- prison break/프리즌 브레이크/프리즌 브레익
- super junior/슈퍼 주니어/수퍼 주니어
- 서울 drama awards/서울 드라마 어워즈/서울 드라마 어워드
- midnight blue/미드나이트 블루/미드나잇 블루
또한, 다음은 일본어 음성 입력을 한국어로 확장한 예이다.
- もののけ姬/모노노케 히메
도 7은 본 발명의 또 다른 일례에 따른 음성 검색어 확장 방법을 도시한 흐름도이다. 도 7을 참조하여 본 발명의 일례에 따른 음성 검색어 확장 방법을 설명한다.
입력 신호로부터 사용자의 음성 구간을 검출하고(S710), 상기 음성 구간으로부터 특징 벡터를 추출한다.
이후, 상기 특징 벡터를 적어도 하나 이상의 음소 시퀀스로 변환하여 생성한다(S730). 이때, 어쿠스틱 모델(Acoustic Model)을 적용하여, 상기 특징 벡터를 적어도 하나 이상의 음소 시퀀스로 변환하여 생성할 수 있다.
이와 같이 생성된 음소 시퀀스를 단어 사전에 등록되어 있는 단어들과 매칭하여, 언어적으로 의미가 있는 단어의 열(string)을 추출하여 검색어로 선택한다(S740).
특히, 상기 음소 시퀀스를 단어 사전에 등록되어 있는 단어들과 매칭하여, 언어적으로 의미가 있는 단어의 열을 추출하여 검색어로 선택할 수 있는데, 이때 폰 컨퓨전 매트릭스(Phone Confusion Matrix)를 적용하여 상기 음소 시퀀스를 상기 단어 사전에 등록되어 있는 단어들과 매칭할 수 있다.
또한, 상기 음소 시퀀스를 제1 언어(예를 들어 한국어)의 단어 사전에 등록되어 있는 단어들과 매칭하여, 상기 매칭의 결과 수치가 특정 역치보다 높은 단어의 열이 존재하는 경우, 상기 단어의 열을 검색어로 선택한다. 또한, 상기 매칭의 결과 수치가 특정 역치보다 높은 단어의 열이 존재하지 않는 경우, 제2 언어(예를 들어, 영어 또는 일어)의 단어 사전에 등록되어 있는 단어들과 매칭하여, 상기 단어의 열을 검색어로 선택한다.
뿐만 아니라, 상기 음소 시퀀스를 제2 언어의 단어 사전에 등록되어 있는 단어들과 매칭하여, 상기 매칭의 결과 수치가 특정 역치보다 높은 단어의 열이 존재하는 경우, 상기 단어의 열을 검색어로 선택하고, 상기 매칭의 결과 수치가 특정 역치보다 높은 단어의 열이 존재하지 않는 경우, 상기 매칭의 결과 수치가 가장 높은 단어의 열을 검색어로 선택한다.
또 다른 실시예로서, 상기 음소 시퀀스를 제1 언어 및 제2 언어의 단어 사전을 포함하여 구성되는 통합 단어 사전에 등록되어 있는 단어들과 매칭하여, 상기 매칭의 결과 수치가 특정 역치보다 높은 단어의 열이 존재하는 경우, 상기 단어의 열을 검색어로 선택하고, 상기 매칭의 결과 수치가 특정 역치보다 높은 단어의 열이 존재하지 않는 경우, 상기 매칭의 결과 수치가 가장 높은 단어의 열을 검색어로 선택할 수 있다.
한편, 언어 모델(Language Model)을 통하여 언어적으로 의미가 있는 단어의 열을 추출하여 검색어로 선택할 수 있다.
이후, 상기 선택한 검색어가 기 선정된 제1 언어(Language) 인지의 여부를 판단하여(S750), 상기 판단 결과 제1 언어가 아닌 언어인 경우, 상기 검색어를 음 소/문자소 변환 모델(Phoneme to Grapheme Model)을 이용하여 변환하여 제1 언어로 구성된 검색어를 생성한다(S760). 이때, 음소/문자소 변환 모델은 해당 언어간의 발음 변이 등을 고려하는데 사용된다.
이후, 상기 제1 언어로 구성된 검색어를 이용하여 검색을 실행한다.
이와 같이, 본 발명에 따르면 음성 검색어 확장을 적용하면 하나의 언어의 하나의 검색어로만 인식되는 것이 아니라, 모국어/외국어뿐만 아니라 발음 변이까지 모두 고려하여 검색어를 확장할 수 있으므로, 검색의 성공률과 사용자 만족도를 높일 수 있다.
또한 본 발명의 실시예들은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함한다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 본 발명에서 설명된 이 동 단말 또는 기지국의 동작의 전부 또는 일부가 컴퓨터 프로그램으로 구현된 경우, 상기 컴퓨터 프로그램을 저장한 컴퓨터 판독 가능 기록 매체도 본 발명에 포함된다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
도 1은 본 발명의 일례에 따른 음성 검색어 확장의 방법의 개념도이다.
도 2는 본 발명의 일례에 따른 음성 검색어 확장 시스템의 구성도이다.
도 3은 본 발명의 일례에 따른 음성 검색어 확장 방법을 도시한 흐름도이다.
도 4는 본 발명의 또 다른 일례에 따른 음성 검색어 확장 방법을 도시한 흐름도이다.
도 5는 본 발명의 또 다른 일례에 따른 음성 검색어 확장 방법을 도시한 흐름도이다.
도 6은 본 발명의 일례에 따른 다국언어 검색어 확장 알고리즘을 도시한 도면이다.
도 7은 본 발명의 또 다른 일례에 따른 음성 검색어 확장 방법을 도시한 흐름도이다.
<도면의 주요 부분에 대한 부호의 설명>
210: 신호 처리부 220: 음소 디코더
225: 어쿠스틱 모델 230: 단어 디코더
235: 폰 컨퓨전 매트릭스 240: 다국어 검색 확장부
245; 음소/문자소 변환 모델 250: 단어 사전
*251: 한국어 사전 252: 영어 사전
*251: 한국어 사전 252: 영어 사전
삭제
253: 일어 사전 254: 통합 사전
260: 언어 모델
Claims (15)
- 입력 신호로부터 사용자의 음성 구간을 검출하고, 상기 음성 구간으로부터 특징 벡터를 추출하는 단계;상기 특징 벡터를 적어도 하나 이상의 음소 시퀀스로 변환하여 생성하는 단계;상기 음소 시퀀스를 단어 사전에 등록되어 있는 단어들과 매칭하여, 언어적으로 의미가 있는 단어의 열(string)을 추출하여 검색어로 선택하는 단계;상기 선택한 검색어가 기 선정된 제1 언어(language)인지의 여부를 판단하여, 상기 판단의 결과 상기 제1 언어가 아닌 언어인 경우, 상기 검색어를 음소/문자소 변환 모델(Phoneme to Grapheme Model)을 이용하여 변환하여 상기 제1 언어로 구성된 검색어를 생성하는 단계; 및상기 제1 언어로 구성된 검색어를 이용하여, 검색하는 단계를 포함하는 음성 검색어 확장 방법.
- 제1항에 있어서,상기 단어의 열을 추출하여 검색어로 선택하는 단계는,상기 음소 시퀀스를 상기 제1 언어의 단어 사전에 등록되어 있는 단어들과 매칭하여, 상기 매칭의 결과 수치가 특정 역치(threshold)보다 높은 단어의 열이 존재하는 경우, 상기 단어의 열을 검색어로 선택하고,상기 매칭의 결과 수치가 상기 특정 역치보다 높은 단어의 열이 존재하지 않는 경우, 제2 언어의 단어 사전에 등록되어 있는 단어들과 매칭하여, 상기 단어의 열을 검색어로 선택하는음성 검색어 확장 방법.
- 제2항에 있어서,상기 단어의 열을 추출하여 검색어로 선택하는 단계는,상기 음소 시퀀스를 상기 제2 언어의 단어 사전에 등록되어 있는 단어들과 매칭하여, 상기 매칭의 결과 수치가 특정 역치보다 높은 단어의 열이 존재하는 경우, 상기 단어의 열을 검색어로 선택하고,상기 매칭의 결과 수치가 특정 역치보다 높은 단어의 열이 존재하지 않는 경우, 수치가 가장 높은 매칭된 단어의 열(string)을 검색어로 선택하는음성 검색어 확장 방법.
- 제1항에 있어서,상기 단어 열을 추출하여 검색어로 선택하는 단계는,상기 음소 시퀀스를 제1 언어 및 제2 언어의 단어 사전을 포함하여 구성되는 통합 단어 사전에 등록되어 있는 단어들과 매칭하여, 상기 매칭의 결과 수치가 특정 역치보다 높은 단어의 열이 존재하는 경우, 상기 단어의 열을 검색어로 추출하고,상기 매칭의 결과 수치가 특정 역치보다 높은 단어의 열이 존재하지 않는 경우, 수치가 가장 높은 매칭된 단어의 열을 검색어로 선택하는음성 검색어 확장 방법.
- 제1항에 있어서,상기 특징 벡터를 적어도 하나 이상의 음소 시퀀스로 변환하여 생성하는 단계는,어쿠스틱 모델(Acoustic Model)을 적용하여, 상기 특징 벡터를 적어도 하나 이상의 음소 시퀀스로 변환하여 생성하는음성 검색어 확장 방법.
- 제1항에 있어서,상기 음소 시퀀스를 단어 사전에 등록되어 있는 단어들과 매칭하여, 언어적으로 의미가 있는 단어의 열을 추출하여 검색어로 선택하는 단계는,폰 컨퓨전 매트릭스(Phone Confusion Matrix)를 적용하여 상기 음소 시퀀스를 상기 단어 사전에 등록되어 있는 단어들과 매칭하는음성 검색어 확장 방법.
- 제1항에 있어서,상기 음소 시퀀스를 단어 사전에 등록되어 있는 단어들과 매칭하여, 언어적으로 의미가 있는 단어의 열을 추출하여 검색어로 선택하는 단계는,언어 모델(Language Model)을 통하여 언어적으로 의미가 있는 단어의 열을 추출하여 검색어로 선택하는음성 검색어 확장 방법.
- 제1항 내지 제7항 중 어느 한 항의 방법을 실행하는 프로그램을 기록한 컴퓨터 판독가능 기록 매체.
- 입력 신호로부터 사용자의 음성 구간을 검출하고 상기 음성 구간으로부터 특징 벡터를 추출하는 신호 처리부;상기 특징 벡터를 적어도 하나 이상의 음소 시퀀스로 변환하여 생성하는 음소 디코더;상기 음소 시퀀스를 단어 사전에 등록되어 있는 단어들과 매칭하여, 언어적으로 의미가 있는 단어의 열을 추출하여 검색어로 선택하는 단어 디코더;상기 선택한 검색어가 기 선정된 제1 언어 인지의 여부를 판단하여, 상기 판단 결과 제1 언어가 아닌 언어인 경우, 상기 검색어를 음소/문자소 변환 모델(Phoneme to Grapheme Model)을 이용하여 변환하여 상기 제1 언어로 구성된 검색어를 생성하는 다국어 검색 확장부; 및상기 제1 언어로 구성된 검색어를 이용하여, 검색하는 검색부를 포함하는 음성 검색어 확장 시스템.
- 제9항에 있어서,상기 단어 디코더는,상기 음소 시퀀스를 상기 제1 언어의 단어 사전에 등록되어 있는 단어들과 매칭하여, 상기 매칭의 결과 수치가 특정 역치보다 높은 단어의 열이 존재하는 경우, 상기 단어의 열을 검색어로 선택하고,상기 매칭의 결과 수치가 특정 역치보다 높은 단어의 열이 존재하지 않는 경우, 제2 언어의 단어 사전에 등록되어 있는 단어들과 매칭하여, 상기 단어의 열을 검색어로 선택하는음성 검색어 확장 시스템.
- 제10항에 있어서,상기 단어 디코더는,상기 음소 시퀀스를 상기 제2 언어의 단어 사전에 등록되어 있는 단어들과 매칭하여, 상기 매칭의 결과 수치가 특정 역치보다 높은 단어의 열이 존재하는 경우, 상기 단어의 열을 검색어로 선택하고,상기 매칭의 결과 수치가 특정 역치보다 높은 단어의 열이 존재하지 않는 경우, 수치가 가장 높은 매칭된 단어의 열을 검색어로 선택하는음성 검색어 확장 시스템.
- 제9항에 있어서,상기 단어 디코더는,상기 음소 시퀀스를 제1 언어 및 제2 언어의 단어 사전을 포함하여 구성되는 통합 단어 사전에 등록되어 있는 단어들과 매칭하여, 상기 매칭의 결과 수치가 특정 역치보다 높은 단어의 열이 존재하는 경우, 상기 단어의 열을 검색어로 선택하고,상기 매칭의 결과 수치가 특정 역치보다 높은 단어의 열이 존재하지 않는 경우, 수치가 가장 높은 매칭된 단어의 열을 검색어로 선택하는음성 검색어 확장 시스템.
- 제9항에 있어서,상기 음소 디코더는,어쿠스틱 모델(Acoustic Model)을 적용하여, 상기 특징 벡터를 적어도 하나 이상의 음소 시퀀스로 변환하여 생성하는음성 검색어 확장 시스템.
- 제9항에 있어서,상기 단어 디코더는,폰 컨퓨전 매트릭스(Phone Confusion Matrix)를 적용하여 상기 음소 시퀀스를 상기 단어 사전에 등록되어 있는 단어들과 매칭하는음성 검색어 확장 시스템.
- 제9항에 있어서,상기 단어 디코더는,언어 모델(Language Model)을 통하여 언어적으로 의미가 있는 단어의 열을 추출하여 검색어로 선택하는음성 검색어 확장 시스템.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070133727A KR101300839B1 (ko) | 2007-12-18 | 2007-12-18 | 음성 검색어 확장 방법 및 시스템 |
US12/045,138 US8155956B2 (en) | 2007-12-18 | 2008-03-10 | Voice query extension method and system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070133727A KR101300839B1 (ko) | 2007-12-18 | 2007-12-18 | 음성 검색어 확장 방법 및 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20090066106A KR20090066106A (ko) | 2009-06-23 |
KR101300839B1 true KR101300839B1 (ko) | 2013-09-10 |
Family
ID=40754397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070133727A KR101300839B1 (ko) | 2007-12-18 | 2007-12-18 | 음성 검색어 확장 방법 및 시스템 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8155956B2 (ko) |
KR (1) | KR101300839B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020080812A1 (en) * | 2018-10-17 | 2020-04-23 | Samsung Electronics Co., Ltd. | Electronic device and controlling method of electronic device |
KR20230065022A (ko) | 2021-11-04 | 2023-05-11 | 주식회사 케이티 | 음성을 합성하는 서버, 방법 및 컴퓨터 프로그램 |
Families Citing this family (212)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
KR100837750B1 (ko) * | 2006-08-25 | 2008-06-13 | 엔에이치엔(주) | 성조를 이용하여 중국어를 검색하는 방법 및 상기 방법을수행하는 시스템 |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) * | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
CN101923856B (zh) * | 2009-06-12 | 2012-06-06 | 华为技术有限公司 | 语音识别训练处理、控制方法及装置 |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
WO2011035986A1 (en) * | 2009-09-28 | 2011-03-31 | International Business Machines Corporation | Method and system for enhancing a search request by a non-native speaker of a given language by correcting his spelling using the pronunciation characteristics of his native language |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
KR101677530B1 (ko) * | 2010-04-27 | 2016-11-21 | 삼성전자주식회사 | 음성 인식 장치 및 음성 인식 방법 |
US20120059658A1 (en) * | 2010-09-08 | 2012-03-08 | Nuance Communications, Inc. | Methods and apparatus for performing an internet search |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
KR101231438B1 (ko) * | 2011-05-25 | 2013-02-07 | 엔에이치엔(주) | 외래어 발음 검색 서비스를 제공하는 검색결과 제공 시스템 및 방법 |
KR101252397B1 (ko) * | 2011-06-02 | 2013-04-08 | 포항공과대학교 산학협력단 | 웹을 이용한 정보 검색 방법 및 이를 사용하는 음성 대화 방법 |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
KR101482148B1 (ko) * | 2011-12-23 | 2015-01-14 | 주식회사 케이티 | 개인화된 발음열을 이용한 그룹 매핑 데이터 생성 서버, 음성 인식 서버 및 방법 |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9275635B1 (en) | 2012-03-08 | 2016-03-01 | Google Inc. | Recognizing different versions of a language |
US9129591B2 (en) | 2012-03-08 | 2015-09-08 | Google Inc. | Recognizing speech in multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US11023520B1 (en) * | 2012-06-01 | 2021-06-01 | Google Llc | Background audio identification for query disambiguation |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
EP4138075A1 (en) | 2013-02-07 | 2023-02-22 | Apple Inc. | Voice trigger for a digital assistant |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
CA2914677A1 (en) * | 2013-06-04 | 2014-12-11 | Ims Solutions Inc. | Enhanced human machine interface through hybrid word recognition and dynamic speech synthesis tuning |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
WO2014200728A1 (en) | 2013-06-09 | 2014-12-18 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9589564B2 (en) | 2014-02-05 | 2017-03-07 | Google Inc. | Multiple speech locale-specific hotword classifiers for selection of a speech locale |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10002543B2 (en) * | 2014-11-04 | 2018-06-19 | Knotbird LLC | System and methods for transforming language into interactive elements |
KR102298457B1 (ko) | 2014-11-12 | 2021-09-07 | 삼성전자주식회사 | 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체 |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
CN104637482B (zh) * | 2015-01-19 | 2015-12-09 | 孔繁泽 | 一种语音识别方法、装置、系统以及语言交换系统 |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10387543B2 (en) * | 2015-10-15 | 2019-08-20 | Vkidz, Inc. | Phoneme-to-grapheme mapping systems and methods |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
CN106095736A (zh) * | 2016-06-07 | 2016-11-09 | 华东师范大学 | 一种领域新词抽取的方法 |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
KR20180001889A (ko) | 2016-06-28 | 2018-01-05 | 삼성전자주식회사 | 언어 처리 방법 및 장치 |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10872598B2 (en) * | 2017-02-24 | 2020-12-22 | Baidu Usa Llc | Systems and methods for real-time neural text-to-speech |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10896669B2 (en) | 2017-05-19 | 2021-01-19 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
WO2019049089A1 (en) * | 2017-09-11 | 2019-03-14 | Indian Institute Of Technology, Delhi | METHOD, SYSTEM AND APPARATUS FOR SEARCHING MULTILINGUAL AND MULTIMODAL KEYWORDS IN A MULTILINGUAL ORAL CORPUS |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10796686B2 (en) | 2017-10-19 | 2020-10-06 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
US11017761B2 (en) | 2017-10-19 | 2021-05-25 | Baidu Usa Llc | Parallel neural text-to-speech |
US10872596B2 (en) | 2017-10-19 | 2020-12-22 | Baidu Usa Llc | Systems and methods for parallel wave generation in end-to-end text-to-speech |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
CN108172212B (zh) * | 2017-12-25 | 2020-09-11 | 横琴国际知识产权交易中心有限公司 | 一种基于置信度的语音语种识别方法及系统 |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
CN111566656B (zh) | 2018-01-11 | 2024-02-20 | 新智株式会社 | 利用多种语言文本语音合成模型的语音翻译方法及系统 |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10944859B2 (en) | 2018-06-03 | 2021-03-09 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
KR20200056712A (ko) | 2018-11-15 | 2020-05-25 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
CN112562675A (zh) * | 2019-09-09 | 2021-03-26 | 北京小米移动软件有限公司 | 语音信息处理方法、装置及存储介质 |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
CN112035625B (zh) * | 2020-11-03 | 2021-03-02 | 上海慧捷智能技术有限公司 | 元件拆分与组合的语音文本数据分析方法及设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005122144A1 (ja) | 2004-06-10 | 2005-12-22 | Matsushita Electric Industrial Co., Ltd. | 音声認識装置、音声認識方法、及びプログラム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6208968B1 (en) * | 1998-12-16 | 2001-03-27 | Compaq Computer Corporation | Computer method and apparatus for text-to-speech synthesizer dictionary reduction |
US7263484B1 (en) * | 2000-03-04 | 2007-08-28 | Georgia Tech Research Corporation | Phonetic searching |
EP1217610A1 (de) * | 2000-11-28 | 2002-06-26 | Siemens Aktiengesellschaft | Verfahren und System zur multilingualen Spracherkennung |
DE50307074D1 (de) * | 2002-01-17 | 2007-05-31 | Siemens Ag | Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner |
US7496498B2 (en) * | 2003-03-24 | 2009-02-24 | Microsoft Corporation | Front-end architecture for a multi-lingual text-to-speech system |
US8121841B2 (en) * | 2003-12-16 | 2012-02-21 | Loquendo S.P.A. | Text-to-speech method and system, computer program product therefor |
DE602005026778D1 (de) * | 2004-01-16 | 2011-04-21 | Scansoft Inc | Corpus-gestützte sprachsynthese auf der basis von segmentrekombination |
EP1669886A1 (fr) * | 2004-12-08 | 2006-06-14 | France Telecom | Construction d'un automate compilant des règles de transcription graphème/phonème pour un phonétiseur |
US7945437B2 (en) * | 2005-02-03 | 2011-05-17 | Shopping.Com | Systems and methods for using automated translation and other statistical methods to convert a classifier in one language to another language |
US8694317B2 (en) * | 2005-02-05 | 2014-04-08 | Aurix Limited | Methods and apparatus relating to searching of spoken audio data |
US7912716B2 (en) * | 2005-10-06 | 2011-03-22 | Sony Online Entertainment Llc | Generating words and names using N-grams of phonemes |
US7873517B2 (en) * | 2006-11-09 | 2011-01-18 | Volkswagen Of America, Inc. | Motor vehicle with a speech interface |
-
2007
- 2007-12-18 KR KR1020070133727A patent/KR101300839B1/ko active IP Right Grant
-
2008
- 2008-03-10 US US12/045,138 patent/US8155956B2/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005122144A1 (ja) | 2004-06-10 | 2005-12-22 | Matsushita Electric Industrial Co., Ltd. | 音声認識装置、音声認識方法、及びプログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020080812A1 (en) * | 2018-10-17 | 2020-04-23 | Samsung Electronics Co., Ltd. | Electronic device and controlling method of electronic device |
KR20230065022A (ko) | 2021-11-04 | 2023-05-11 | 주식회사 케이티 | 음성을 합성하는 서버, 방법 및 컴퓨터 프로그램 |
Also Published As
Publication number | Publication date |
---|---|
US8155956B2 (en) | 2012-04-10 |
KR20090066106A (ko) | 2009-06-23 |
US20090157383A1 (en) | 2009-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101300839B1 (ko) | 음성 검색어 확장 방법 및 시스템 | |
CN106663424B (zh) | 意图理解装置以及方法 | |
JP5480760B2 (ja) | 端末装置、音声認識方法および音声認識プログラム | |
JP5599662B2 (ja) | 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法 | |
JP5257071B2 (ja) | 類似度計算装置及び情報検索装置 | |
US8650031B1 (en) | Accuracy improvement of spoken queries transcription using co-occurrence information | |
US9449599B2 (en) | Systems and methods for adaptive proper name entity recognition and understanding | |
TW201203222A (en) | Voice stream augmented note taking | |
JP2007256836A (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JPWO2016067418A1 (ja) | 対話制御装置および対話制御方法 | |
JP4930379B2 (ja) | 類似文検索方法、類似文検索システム及び類似文検索用プログラム | |
KR20090130028A (ko) | 분산 음성 검색을 위한 방법 및 장치 | |
JP4570509B2 (ja) | 読み生成装置、読み生成方法及びコンピュータプログラム | |
JP2008216756A (ja) | 語句として新たに認識するべき文字列等を取得する技術 | |
JP2006053906A (ja) | コンピューティングデバイスへの入力を提供するための効率的なマルチモーダル方法 | |
JP2014186372A (ja) | 図絵描画支援装置、方法、及びプログラム | |
KR20060070605A (ko) | 영역별 언어모델과 대화모델을 이용한 지능형 로봇 음성인식 서비스 장치 및 방법 | |
JP4758758B2 (ja) | 辞書作成装置および辞書作成プログラム | |
EP3005152B1 (en) | Systems and methods for adaptive proper name entity recognition and understanding | |
JP2008293109A (ja) | テキスト処理装置及びプログラム | |
TWI270792B (en) | Speech-based information retrieval | |
KR100722513B1 (ko) | 검색 엔진 및 검색 서비스에서 제공하는 첫소리말 색인 및검색 방법, 시스템 | |
KR100277690B1 (ko) | 화행 정보를 이용한 음성 인식 방법 | |
JP2001306090A (ja) | 対話装置および方法、音声制御装置および方法、ならびにコンピュータを対話装置および音声制御装置として機能させるためのプログラムをそれぞれ記録したコンピュータ読取可能な記録媒体 | |
JP2011027979A (ja) | 音声翻訳装置及び音声翻訳方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20160728 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20180727 Year of fee payment: 6 |