KR20090085673A - 음성 인식을 이용한 콘텐츠 선택 - Google Patents

음성 인식을 이용한 콘텐츠 선택 Download PDF

Info

Publication number
KR20090085673A
KR20090085673A KR1020097011559A KR20097011559A KR20090085673A KR 20090085673 A KR20090085673 A KR 20090085673A KR 1020097011559 A KR1020097011559 A KR 1020097011559A KR 20097011559 A KR20097011559 A KR 20097011559A KR 20090085673 A KR20090085673 A KR 20090085673A
Authority
KR
South Korea
Prior art keywords
indexing
tagged text
phoneme
engram
subset
Prior art date
Application number
KR1020097011559A
Other languages
English (en)
Inventor
창쉐 씨. 마
얀 엠. 쳉
Original Assignee
모토로라 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 모토로라 인코포레이티드 filed Critical 모토로라 인코포레이티드
Publication of KR20090085673A publication Critical patent/KR20090085673A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/433Query formulation using audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

음성 인식을 이용하여 콘텐츠 파일을 선택하기 위한 방법 및 무선 장치가 개시된다. 본 방법은 태깅된 텍스트 아이템들의 집합을 설정하는 것을 포함하며, 여기서, 각 태깅된 텍스트 아이템은 콘텐츠 파일들의 집합 중 하나의 콘텐츠 파일과 고유하게 연관된다. 적어도 하나의 청취가능한 말소리(226)가 사용자로부터 수신된다(804). 청취가능한 말소리(226)에 기초하여 음소 격자(302)가 생성된다(808). 음소 격자(302)에 기초하여 음소 격자 통계 모델이 생성된다(810). 음소 격자 통계 모델의 확률 추정치에 기초하여 태깅된 텍스트 아이템들에 점수가 부여된다(1008). 콘텐츠 파일의 선택이 이루어질 수 있도록 상위 점수의 태깅된 텍스트 아이템들의 리스트가 제공된다(1014). 단어 격자(402)와 단어 격자 통계 모델 또한 일부 실시예에서 사용된다.
Figure P1020097011559
음소 격자, 단어 격자, 통계 모델, 확률 추정, N-gram, 음성 응답

Description

음성 인식을 이용한 콘텐츠 선택{CONTENT SELECTION USING SPEECH RECOGNITION}
본 발명은 일반적으로 음성 인식 시스템에 관한 것으로서, 특히, 무선 통신 장치 내에서 콘텐츠 검색을 위한 음성 인식에 관한 것이다.
페이저 및 이동 전화의 출현으로 인하여, 무선 서비스 산업이 막대한 수익의 산업으로 성장하였다. 최근, 음성 인식은 무선 서비스 산업에서 성공을 향유하였다. 음성 인식은 다양한 어플리케이션과 서비스들에서 사용된다. 예를 들어, 무선 서비스 가입자에게는 가입자가 무선 장치에 대하여 통화 수신자의 이름을 말하는 스피드 다이얼 기능이 제공된다. 수신자 이름이 음성 인식을 이용하여 인식되고, 가입자와 수신자 간의 통화가 개시된다. 또 다른 예로서, 발신자 정보(411)는 가입자가 통화하고자 시도하는 수신자의 이름을 인식하여 위하여 음성 인식을 활용할 수 있다.
무선 장치의 음성 인식을 위한 또 다른 사용은 정보 검색(information retrieval)이다. 예를 들어, 오디오 파일 등의 콘텐츠 파일들이 콘텐츠 파일을 식별하기 위하여 검색 메카니즘에 의해 사용되는 음성 데이터(voice data)로 태깅(tag)된다. 그러나, 현재의 음성 인식 시스템은 무선 장치 측에서 정보 검색을 효율적으로 수행할 수는 없다. 무선 장치 내의 많은 콘텐츠 파일들은 제한된 텍스트를 포함한다. 예를 들어, 오디오 파일은 이와 관련된 제목을 가질 수만 있다. 이러한 텍스트는 매우 짧고 어휘목록에서 벗어난 단어들(out-of-vocabulary)을 가져오는 스펠링 불규칙성(spelling irregularities)을 포함할 수 있다.
또한, 일부 음성 인식 시스템에서는 질의를 위한 키워드들의 집합을 설정하기 위하여 키워드 스폿팅(keyword spotting) 기법을 활용한다. 주요 어휘는 개방되며, 때로는 어휘 사전 외에 해당하므로, 키워드들과 안티-키워드(anti-keyword)들이 주의깊게 선택되어야 하는 키워드 스폿팅 기법을 구현하는 것은 곤란하다. 따라서, 다른 음성 인식 시스템들에서는 딕테이션 모드(dictation mode)에서 언어 모델(language model)을 구현한다. 그러나, 이러한 언어 모델을 트레이닝하는 것은 데이터가 부족하고 동적이기 때문에 위험성이 있다. 전통적인 구두 문서 검색 (SDR: Spoken Document Retrieval)은 때로는 텍스트 질의(text querying)와 유사하다. 예를 들어, 발성된 말소리로부터 텍스트 질의 용어들(query terms)을 생성하기 위하여 음성 인식 시스템이 사용된다. 그 후, 이러한 텍스트 질의 용어들은 사용자에 의해 필요로 되는 파일을 위치시키기 위한 파일들의 집합을 질의하기 위해 사용된다. 무선 장치가 다수의 파일들을 포함한다면, 이러한 처리는 비교적 긴 것으로서, 무선 장치의 리소스들을 소모시킬 수 있다.
따라서, 전술한 바와 같은 종래 기술의 문제점들을 극복하기 위한 필요성이 존재한다.
개별 도면들을 통해서 동일한 참조 부호가 동일한 또는 기능이 유사한 요소들을 지칭하며 이하의 상세한 설명부와 함께 본 명세서에 포함되어 일부를 구성하는 첨부 도면들은, 각종 실시예들을 더 잘 예시하며 모두 본 발명에 따른 각종 원리와 장점들을 설명하는 기능을 한다.
도 1은 본 발명의 본 발명의 일 실시예에 따른 무선 통신 시스템을 나타낸 블록도이다.
도 2는 본 발명의 일 실시예에 따른 도 1의 음성 응답 검색 엔진의 상세를 나타낸 블록도이다.
도 3은 본 발명의 일 실시예에 따른 일례의 음소 격자를 나타낸 블록도이다.
도 4는 본 발명의 일 실시예에 따른 일례의 단어 격자를 나타낸 블록도이다.
도 5는 본 발명의 일 실시예에 따른 무선 장치를 나타낸 블록도이다.
도 6은 본 발명의 일 실시예에 따른 정보 처리 시스템을 나타낸 블록도이다.
도 7은 본 발명의 일 실시예에 따른 인덱싱 엔그램(N-gram)을 작성하기 위한 일례의 처리를 나타낸 동작 흐름도이다.
도 8은 본 발명의 일 실시예에 따른 인덱싱 엔그램을 이용한 음소 격자를 질의하는 일례의 처리를 나타낸 동작 흐름도이다.
도 9는 본 발명의 일 실시예에 따른 인덱싱 엔그램을 이용한 단어 격자를 질의하는 일례의 처리를 나타낸 동작 흐름도이다.
도 10은 본 발명의 일 실시예에 따른 무선 장치에서 콘텐츠를 검색하기 위해 인덱싱 엔그램에 관련된 텍스트를 이용하여 음소 격자를 질의하는 일례의 처리를 나타낸 동작 흐름도이다.
도 11은 본 발명의 일 실시예에 따른 무선 장치에서 콘텐츠를 검색하기 위하여 음소 격자를 질의하는 또 다른 일례의 처리를 나타낸 동작 흐름도이다.
필요에 따라서, 본 발명의 상세한 실시예들이 본 명세서에 개시되지만, 개시된 실시예들은 단지 본 발명의 예시일 뿐이며, 이는 다양한 형태로 실시될 수 있는 것으로 이해되어야 한다. 따라서, 본 명세서에 개시되는 구체적인 구조 및 기능적 세부사항들은 한정적인 것이 아니라 청구항들에 대한 기초로서 또한 당업자가 가상적으로 임의의 적절한 구체적 구조에서 본 발명을 다양하게 채용할 수 있도록 교시하기 위한 해설적 기초로서 해석되어야 한다. 또한, 본 명세서에서 사용되는 용어와 어구들은 한정하고자 한 것이 아니라, 이해가능한 본 발명의 설명을 제공하기 위한 것이다.
본 명세서에서 사용되는 "a" 또는 "an" 이라는 용어는 하나 또는 하나 이상으로서 정의된다. 본 명세서에서 사용되는 복수(plurality)라는 용어는 둘 또는 둘 이상으로서 정의된다. 본 명세서에서 사용되는 또 다른(another)이라는 용어는 적어도 제2의 또는 그 이상으로서 정의된다. 본 명세서에서 사용되는 포함한다(including and/or having)라는 용어는 구비한다(comprising)(즉, 공개 언어)라는 것으로 정의된다. 본 명세서에서 사용되는 결합된다(coupled)라는 용어는 반드시 직접적일 필요는 없고 기계적일 필요는 없지만 연결되는 것(connected)으로서 정의된다.
무선 통신 장치(wireless communication device)라는 용어는, 신호들을 무선을 수신할 수 있으며, 옵션으로서 신호들을 무선으로 송신할 수 있으며, 무선 통신 시스템에서 동작도 할 수 있는 많은 상이한 유형의 장치들을 넓게 포괄하고자 한 것이다. 예를 들어, 이에 한하지는 않지만, 무선 통신 장치는 이하의 것들중 임의의 하나 또는 그 조합을 포함할 수 있다: 셀룰러 전화, 이동 전화, 스마트폰, 양방향 라디오, 양방향 페이저, 무선 메시징 장치, 랩톱/컴퓨터, 자동차용 게이트웨이, 주거용 게이트웨이, 등.
음성 응답 검색의 본 발명의 장점들 중 하나는 사용자로부터 수신되는 청취가능한 말소리에 기초하여 콘텐츠를 검색하는 것이다. 최선의 조화를 찾기 위하여, 인덱스 파일들의 엔그램(N-gram) 또는 단어 집합들이 질의(queries)로서 취급되며, 음소 격자(phoneme lattice) 및/또는 단어 격자(word lattice)가 검색 대상의 문서로서 취급된다. 음소열(phoneme sequence)이 반복적으로 나타나는 것은 본 발명에서 구별력을 부여한다. 최상위 어구 선택을 식별하도록 음소 레벨상의 질의에 점수를 부여하기 위하여 조건 격자 모델(conditional lattice model)이 사용된다. 2 단계 접근법에 있어서, 음소 격자에 기초하여 단어들이 발견되고, 단어 격자에 기초하여 태깅된 텍스트 아이템(tagged text item)들이 발견된다. 그 후, 사용자가 요구하는 콘텐츠를 식별하기 위하여 최상위 점수의 태깅된 텍스트 아이템들이 사용자에 의해 사용된다.
무선 통신 시스템
본 발명의 일 실시예에 따르면, 도 1에 도시된 바와 같이, 무선 통신 시스 템(100)이 도시되어 있다. 도 1은 게이트웨이(108)를 통해 하나 이상의 무선 장치들을 중앙 서버(106)에 연결하는 무선 통신 네트워크(102)를 나타낸다. 무선 네트워크(102)는 휴대 전화 네트워크, 모바일 텍스트 메시징 장치 네트워크, 페이저 네트워크 등을 포함한다. 또한, 무선 네트워크(100)의 통신 표준은 CDMA(Code Division Multiple Access), TDMA(Time Division Multiple Access), GSM(Globla System for Mobile Communications), GPRS(General Packet Radio Service), FDMA(Frequency Division Multiple Access), OFDM(Orthogonal Frequency Division Multiplexing), 등을 포함한다. 또한, 무선 통신 네트워크(102)는 텍스트 메시징 표준, 예를 들어, SMS(Short Message Service), EMS(Enhanced Messaging Service), MMS(Multimedia Messaging Service), 등을 포함한다.
무선 통신 네트워크(102)는 임의의 수의 무선 장치(104)들을 지원한다. 무선 통신 네트워크(102)의 지원은 휴대 전화, 스마트폰, 텍스트 메시징 장치, 핸드헬드 컴퓨터, 페이저, 삐삐(beeper), 무선 통신 카드, 등에 대한 지원을 포함한다. 스마트폰은 1) 포켓 PC, 핸드헬드 PC, 팜 톱(palm top) PC, 또는 PDA(Personal Digital Assistant), 및 2) 휴대 전화의 조합이다. 더 일반적으로, 스마트폰은 추가의 어플리케이션 처리 능력을 갖는 휴대 전화일 수 있다. 일 실시예에 있어서, 정보 처리 시스템(도시 생략) 내에 무선 통신 카드(도시 생략)가 있다.
또한, 무선 장치(104)는 무선 장치(104)가 무선 네트워크(102)를 사용하지 않고 하나 이상의 무선 장치들과 직접 통신하도록 하는 옵션으로서의 로컬 무선 링크(도시 생략)를 포함할 수도 있다. 로컬 무선 링크(도시 생략)는, 예를 들어, PPT 통신을 허용하기 위한 모토토크(Mototalk)에 의해 제공된다. 또 다른 실시예에 있어서, 로컬 무선 링크(도시 생략)는 블루투스(Bluetooth), 적외선 데이터 액세스(IrDA: Infrared Data Access) 기법 등에 의해 제공된다.
중앙 서버(106)는 무선 네트워크(102) 상에서 통신하는 모든 무선 장치들에 대한 정보를 유지하고 처리한다. 또한, 본 예에 있어서의 중앙 서버(106)는 무선 통신 네트워크(102)를 통해 무선 장치(104)를 WAN(Wide Arera Network)(110), LAN(Local Area Network)(112), 및 PSTN(Public Switched Telephone Network)(114)에 통신가능하게 결합시킨다. 이러한 네트워크(110, 112, 114) 각각은 데이터, 예를 들어, 멀티미디어 텍스트 메시지를 무선 장치(104)에 송신하는 능력을 갖는다. 무선 통신 시스템(100)은 또한 각각 사이트 스테이션 컨트롤러(site station controller)(도시 생략)를 포함하는 하나 이상의 기지국(116)을 포함한다. 일 실시예에 있어서, 무선 통신 네트워크(102)는, 예를 들어, IEEE 802.16e 표준에 명시된 바와 같이 TDD(Time Division Duplexing)를 활용하여 광대역 무선 통신이 가능하다.
일 실시예에 있어서, 무선 장치(104)는 음성 응답 검색 엔진(118)을 포함한다. 음성 응답 검색 엔진은 사용자가 오디오 파일, 텍스트 파일, 비디오 파일, 이미지 파일, 멀티미디어 파일, 등의 콘텐츠를 검색하기 위하여 무선 장치(104)에 말소리를 낼 수 있도록 한다. 콘텐츠는 무선 장치(104) 상에 국지적으로 상주하거나, 중앙 서버(106) 또는 무선 통신 네트워크(102)에 통신가능하게 결합된 또 다른 시스템 상에 상주할 수 있다. 일 실시예에 있어서, 중앙 서버는 음성 응답 검색 엔진(118)을 포함하거나, 음성 응답 검색 엔진(118)의 하나 이상의 성분을 포함할 수 있다. 예를 들어, 무선 장치(104)는 사용자로부터 청취가능한 말소리를 캡처하고, 이후의 처리를 위하여 말소리를 중앙 서버(106)에 송신할 수 있다. 다른 방법으로서, 무선 장치(104)는 중앙 서버(106)가 콘텐츠 검색을 위하여 말소리를 처리하는 동안 처리의 일부를 수행할 수 있다. 음성 응답 검색 엔진(118)은 추후에 더 상세하게 설명한다.
음성 응답 검색 엔진
도 2는 음성 응답 검색 엔진(118)의 상세를 나타낸 블록도이다. 일 실시예에 있어서, 음성 검색 엔진(118)은 엔그램 생성기(202), 음소 생성기(204), 격자 생성기(208), 통계 모델 생성기(210), 및 엔그램 비교기(212)를 포함한다. 음성 응답 검색 엔진(118)은 콘텐츠 데이터베이스(214) 및 콘텐츠 인덱스(216)와 통신가능하게 결합된다. 일 실시예에 있어서, 콘텐츠 데이터베이스(214)는 무선 장치(104) 내에, 중앙 서버(106) 상에, 무선 통신 네트워크(102)에 통신가능하게 결합된 시스템, 및/또는 무선 장치(104)에 직접 결합되는 시스템 상에 있을 수 있다.
콘텐츠 데이터베이스(214)는 하나 이상의 콘텐츠 파일(218, 220)을 포함한다. 콘텐츠 파일은 오디오 파일, 텍스트 파일, 비디오 파일, 이미지 파일, 멀티미디어 파일, 등일 수 있다. 콘텐츠 인덱스(216)는 콘텐츠 데이터베이스(214) 내에서 해당 콘텐츠 파일들(218, 220)과 연관된 하나 이상의 인덱스들(222, 224)을 포함한다. 예를 들어, 콘텐츠 데이터베이스(214)의 콘텐츠 파일 1 (218)이 오디오 파일이라면, 콘텐츠 파일 1(218)에 연관된 인덱스 1(22)은 오디오 파일의 제목일 수 있다. 즉, 콘텐츠 파일들(218, 220)은 태깅된 텍스트 아이템들과 연관되며, 테깅된 텍스트 아이템들은, 예를 들어, 모든 노래 제목들, 또는 모든 노래 제목들과 책 제목들, 또는 모든 유형의 태깅된 텍스트 아이템들의 모든 태깅된 텍스트들일 수 있다. 태깅된 텍스트 아이템들은 사용자에 의해 설정되거나, 콘텐츠 파일들로부터 얻어질 수 있다. 예를 들어, 사용자는 태깅된 텍스트 아이템들을 작성하기 위한 또는 CD로부터 노래의 제목들이 얻어질 수 있는 콘텐츠 파일들을 선택할 수 있다. 본 논의를 통해서, "태깅된 텍스트 아이템(tagged text items)", "태깅된 텍스트(tagged text)", "콘텐츠 인덱스 파일(contents index files)", 및 "인덱스 파일(index files)"이라는 것은 호환 사용될 수 있다.
사용자가 무선 장치(104) 또는 또 다른 시스템 상에 있는 콘텐츠 파일(218, 220)을 검색하고자 하는 경우, 사용자는 청취가능한 말소리(226)를 무선 장치(104)에 말한다. 무선 장치(104)는 자신의 마이크 및 오디오 회로들을 통해서 청취가능한 말소리(226)를 캡처한다. 예를 들어, 사용자가 노래의 MP3 파일을 검색하고자 한다면, 사용자는 노래의 제목 전체 또는 제목의 일부를 말할 수 있다. 그러면, 이러한 말소리는 무선 장치(104)에 의해 캡처된다. 이하의 논의에서는 검색 대상의 콘텐츠가 오디오 파일(예컨대, 노래)이고 인덱스가 노래의 제목인 예를 사용한다. 그러나, 이는 단지 일례로서, 예시를 위해서만 사용된다. 전술한 바와 같이, 콘텐츠 파일은 텍스트, 오디오, 정지 이미지, 및/또는 비디오를 포함할 수 있다. 인덱스는 또한 노래의 가사, 문서 내의 특정 단어, 이미지의 요소, 또는 파일 내에서 발견되거나 파일에 연관되는 기타 임의의 정보일 수 있다.
일 실시예에 있어서, 음성 응답 검색 엔진(118)은 자동 음성 인식을 사용하여 사용자로부터 수신되는 청취가능한 말소리를 분석한다. 일반적으로, 자동 음성 인식(ASR: Automatic Speech Recognition) 시스템은 HMM(Hidden Markov Models), 문법 제한사항, 및 사전(dictionaries)를 포함한다. 제한 문법(constraint grammar)이 음소 루프(phoneme loop)라면, ASR 시스템은 사용자의 음성 신호들로부터 변환되는 음향 특성(acoustic features)을 사용하여, 출력으로서 음소 격자를 산출한다. 이러한 음소 루프 문법은 언어 내의 모든 음소들을 포함한다. 일 실시예에 있어서, ASR에 대하여 동일 확률 음소 루프 문법(equal probability phoneme loop grammar)이 사용되지만, 이러한 문법은 언어 용법에 의해 결정되는 확률을 가질 수 있다. 그러나, 문법이 언어 용법에 의해 결정되는 확률을 가진다면, 추가의 메모리 리소스들이 필요하다.
ASR 시스템은 단어 루프 문법에 기초할 수도 있다. 발음 사전의 도움으로, ASR 시스템은 입력으로서 음소 기반의 HMM 모델과 음향 특성을 사용하여 출력으로서 단어 격자를 산출한다. 단어 문법은 후보 인덱스 엔그램(candidate indexing N-grams)에서 사용되는 모든 고유 단어들(태깅된 텍스트가 추가됨에 따라서 갱신을 필요로 함)에 기초할 수 있지만, 다른 방법으로서, 더 일반적인 단어의 집합에 기초할 수도 있다. 이러한 문법은 동일 확률 단어 루프 문법일 수 있지만, 언어 용법에 의해 결정되는 확률을 가질 수도 있다.
엔그램 생성기(202)는 콘텐츠 인덱스(216)를 분석하여 콘텐츠 인덱스(216)의 각각의 태깅된 텍스트 아이템(222, 224)에 연관된 하나 이상의 인덱싱 엔그램을 작 성한다. 일반적으로, 엔그램은 주어진 아이템의 시퀀스로부터의 n개의 아이템의 서브시퀀스이다. 엔그램은 유니그램(uni-gram)(n=1), 바이그램(bi-gram)(n=2), 트리-그램(tri-gram)(n=3), 등일 수 있다. 이러한 문서를 위한 인덱싱 엔그램의 아이템들은 콘텐츠 인덱스(216)로부터 취해진 단어열(word sequence)들이다. 인덱싱 엔그램들은 한 부류의 단어 엔그램들이다. 예를 들어, "this is a test sentence"라는 문장의 단어 바이그램은 "this is", "is a" "a test", "test sentence" 이다. 이와 같이, 각각의 단어 바이그램은 "this is a test sentence"라는 문장에서 2개 단어의 서브시퀀스이다. 콘텐츠 인덱스 파일(222, 224)이 다른 콘텐츠 인덱스 파일과 동일한 단어들을 포함하는 경우, 동일한 단어들에 대하여 오직 하나의 인덱싱 바이그램이 작성된다. 예를 들어, "Let It Be" 및 "Let It Snow"라는 노래 제목을 생각해보자. 이와 같이, 두개의 노래 제목들은 바이그램 "Let It"을 포함하고 있다. 그러므로, "Let It"에 대한 하나의 바이그램만이 작성되어, 2개의 노래 제목들을 인덱싱한다. 즉, 하나의 인덱싱 유니그램, 인덱싱 바이그램, 등은 2개 이상의 태깅된 텍스트 아이템들(222, 224)을 인덱싱할 수 있다. 이러한 데이터 구조의 사용은 사용자가 정확한 구문법(syntax)을 기억하지 않도록 하여 사용자가 어떠한 것도 말할 수 있도록 한다. 인덱싱 엔그램들은 또한 콘텐츠 검색을 더 효율적이 되도록 인덱스 용어(index terms)로서 사용될 수도 있다. 1 또는 4 또는 그 이상의 값이 사용될 수도 있지만, 엔그램들을 인덱싱하기 위하여 사용되는 전형적인 N의 값들은 2 또는 3이다. N에 대한 1의 값은 본 명세서에 교시되는 실시예들에서 사용되는 방법들의 정확도를 실질적으로 감소시킬 수 있는 한편, 4 및 그 이상의 수는 통상적으로 개선량을 감소시키면서 처리 리소스들의 량을 훨씬 증가시킬 것을 요구한다.
청취가능한 말소리(226)가 사용자로부터 캡처되는 때에, 음성 응답 검색 엔진(118)은 말소리(226)를 음향 특성 벡터로 변환한 다음 저장된다. 격자 생성기(208)는 음소 루프 문법에 기초하여 특성 벡터들로부터 청취가능한 말소리(226)와 연관된 음소 격자를 작성한다. 음소 격자의 예가 도 3에 도시되어 있다. 음소 격자의 생성은 무선 장치들에 대한 종래의 말소리의 단어 인식보다 더 효율적이다.
음소 격자(302)는 말소리(416) 내의 시작과 끝에서 인식되는 복수의 음소들을 포함한다. 각각의 음소는 음향 점수(예컨대, 확률적 점수)에 연관될 수 있다. 음소들은 해당 구두 언어의 발음 체계(phonetic system)의 단위이며, 구두 언어에서 하나의 구분된 소리(single distinct sounds)로 주로 인식된다. 일 실시예에 있어서, 음소 격자의 작성은 중앙 서버(106)에서 수행될 수 있다.
일단 청취가능한 말소리(226)에 연관된 음소 격자(302)가 생성되면, 통계 모델 생성기(210)는 음소 격자(302)를 사용하여 말소리에서 음소들의 통계 모델을 생성한다(이하, 음소 격자 통계 모델이라 함). 예를 들어, 통계 모델은 각 음소에 대한 확률 추정치 및 선행하는 음소들의 스트링(string)이 주어진다면 각 음소의 조건 확률을 포함하는 테이블일 수 있다. 특정 실시예에 있어서, 엔그램 생성기(202)에 의해 작성되는 인덱싱 엔그램들은 그 후 음소 격자 통계 모델을 이용하여 평가된다. 일 실시예에 있어서, 음소 생성기(204)는 발음 사전을 이용하여 각각의 인덱싱 엔그램을 음소열(phoneme sequence)로 전사(transcribe)한다. 예를 들어, 인덱싱 엔그램이 유니그램이면, 음소 생성기(204)는 하나의 단어 인덱싱 유니그램을 자신의 해당 음소 단위들로 전사한다. 인덱싱 엔그램이 바이그램이면, 음소 생성기(204)는 인덱싱 바이그램에 연관된 2개의 단어들을 그들의 해당 음소 단위들로 전사한다. 인덱싱 엔그램들의 각각의 단어를 자신의 해당 음소열로 전사하기 위하여 발음 사전이 사용될 수 있다.
음소 격자 통계 모델에서 사용될 수 있는 확률 추정치는 음소 조건 확률 추정치이다. 일반적으로, 사전에 보여진 아이템(들)이 주어지면 아이템 X의 조건 확률을 결정하기 위하여 엔그램 조건 확률이 사용된다(즉, p(item X|history item(s))). 즉, 그 앞의 N-1 개의 아이템 스트링들에 기초하여 생성하는 아이템의 확률을 결정하기 위하여 엔그램 조건 확률이 사용된다. 바이그램 음소 조건 확률은 p(XN|XN-1)로 표현될 수 있다. 음소들에 있어서, 한 쌍의 음소들 중 제1 음소(XN-1)가 알려져 있으면, 바이그램 조건 확률은 특정 음소(XN)가 어떤 확률로 따르는지를 표현한다. 음소 유니그램 "조건(conditional)" 확률 추정치는 실제로 조건 확률이 아니라, 단지 주어진 음소들의 집합에서 생성하는 X의 확률 추정치이다. "개선된(improved)" 엔그램 조건 확률을 생성하기 위하여 평활화 기법(smoothing techniques)이 사용될 수 있다. 예를 들어, 평활화된 조건 트리그램 조건 확률 P(x|yz)는 유니그램 및 바이그램 조건 확률로부터 다음과 같이 추정될 수 있다.
p(x|y,z)= α*p(x|y,z) + β*p(x|y) + γ*p(x) + ε
여기서, α, β, γ, 및 ε은 실험과 α+β+γ+ε = 1에 기초한 주어진 상수 들이다.
음소 바이그램 조건 확률이 사용되는 일부 실시예에 있어서, 통계 모델 생성기(210)는 사용자 말소리로부터 결정되는 음소 격자(L)가 주어지면, 이에 대한 격자(L)가 다음과 같이 생성된 특정 말소리에 대한 인덱싱 엔그램에 연관된 음소 스트링의 확률 추정치 p(x1x2.....xM|L)를 계산한다:
p(x1x2.....xM|L) = p(x1|L)p(x2|x1,L)....p(xM|xM -1,L)
여기서, p(x1x2.....xM|L)는 격자(L)가 생성된 말소리에서 음소 스트링 x1x2, ..., xM을 갖는 인덱싱 엔그램이 발생한 추정 확률이며; 음소 격자 통계 모델의 유니그램 조건확률 [p(x1|L)] 및 바이그램 조건 확률 [p(xM|xM -1,L)]로부터 결정된다. 격자(L)가 생성된 특정 말소리에 대한 인덱싱 엔그램에 연관된 음소 스트링 p(x1x2, ..., xM|L)의 생성 확률 또는 확률 추정치는 더 일반적으로 다음과 같이 결정될 수 있다:
p(x1x2.....xM|L) = p(x1|L)p(x2|x1,L)p(x3|x2,x1,L)....p(xM|xM -1,.... xM +1-N,L)
여기서, p(x1x2, ..., xM|L)는 격자(L)가 생성된 말소리에서 음소 스트링(x1x2, ..., xM)을 갖는 인덱싱 엔그램이 발생한 추정 확률이며; 음소 격자 통계 모델의 엔그램(예컨대, 트리그램(N=3)) 조건 확률(p(x1|L),p(x2|x1,L),....,p(xM| xM -1,.... xM +1-N,L))로부터 결정된다. 엔그램 조건 확률에 사용되는 N은 통상 2 또는 3의 값을 갖지만, 1, 4 또는 그 이상의 다른 값이 사용될 수 있다. N에 대한 1의 값은 본 명세서에 교시된 실시예의 방법들의 정확도를 실질적으로 감소시킬 수 있는 반면, 4 및 그 이상의 수는 개선량을 통상적으로 감소시켜 처리 리소스들의 량을 훨씬 증가시킬 것을 필요로 한다. 인덱싱 엔그램에 얼마나 많은 음소들이 있는지를 식별하는 값 M은 통상 5 내지 20의 범위일 수 있지만, 그보다 작거나 클 수도 있으며, M의 범위는 인덱싱 엔그램에 사용되는 N의 값에 의해 크게 영향을 받는다. 0 내지 1의 범위의 수인 이러한 확률적 추정치는 인덱싱 엔그램의 점수를 부여하기 위해 사용된다. 예를 들어, 점수가 확률 추정치와 동일하거나, 확률 추정치의 선형 함수일 수 있으며, 또는 용어(terms)의 수로 나눈 확률의 대수(logarithm)일 수 있다.
특정 실시예에 있어서, 음성 응답 검색 엔진(118)의 엔그램 비교기(212)는 그 후 최고 점수(확률 추정치)를 갖는 인덱싱 엔그램들의 후보 리스트를 결정한다. 예를 들어, 그 점수에 기초하여 최상위 50개 인덱싱 엔그램들이 선택될 수 있다. 본 실시예에 있어서, 특정 수량의 최상위 점수의 인덱싱 엔그램들을 얻도록 임계치가 선택된다. 다른 실시예에 있어서, 임계치가 절대 레벨에서 선택될 수 있으며, 부분집합은 상이한 말소리들에 대한 상이한 수량의 인덱싱 엔그램을 포함할 수 있다. 임계치를 결정하는 다른 방법들이 사용될 수 있다. 이 때, 후보 리스트는 50개의 인덱싱 엔그램들로 제한되지 않는다. 후보 리스트가 작성된 후에, 특정 실시 예의 음성 응답 검색 엔진(118)은 후보 리스트의 고유 단어들로부터 단어 루프 문법을 구축한다. 청취가능한 말소리(226)에 연관된 음향 특징들이 단어 루프 문법과 연계하여 격자 생성기(208)에 의해 사용되어, 도 4에 도시된 예의 단어 격자(402)를 생성한다.
단어 격자(402)는 청취가능한 말소리(226) 내에서 시작시와 종료시로 인식되는 단어들을 포함한다. 일 실시예에 있어서, 단어 격자(402) 내의 각 단어는 음향 점수와 연관될 수 있다. 특정 실시예에 있어서, 통계 모델 생성기(210)는 음소 격자(302)에 대하여 전술한 음소 격자 통계 모델과 유사한 단어 격자 통계 모델을 생성한다. 일 실시예에 있어서, 단어 격자(402)의 각 단어(x)에 대한 P(word x|history words)와 같은 조건 확률의 추정치가 작성된다. P(word x|history words)는 주어진 선행하는 단어들(이력 단어(history words))에 있어서 단어 x의 확률이다. 통상적으로, 하나의 이력 단어가 사용될 수 있으며, 이러한 각각의 조건 확률을 조건 단어 바이그램 확률이라고 한다.
일부 실시예에 있어서, 태깅된 텍스트 아이템(콘텐츠 인덱스 파일)의 부분집합이 전술한 (최상위 점수의) 인덱싱 엔그램들의 후보 리스트를 사용하여 결정될 수 있다. 후보 리스트로부터의 인덱싱 엔그램들을 포함하는 태깅된 텍스트 아이템들만이 이 부분집합에 추가된다. 전체의 태깅된 텍스트 집합의 나머지 태깅된 텍스트 아이템들은 어떠한 후보 인덱싱 엔그램도 포함하지 않으므로, 이들에 점수가 부여될 필요는 없다. 특정 실시예에 있어서, 태깅된 텍스트 아이템들의 부분집합의 각각의 태깅된 텍스트 아이템 내의 단어 스트링에는 단어 격자 통계 모델로부 결정되는 확률 추정치를 이용하여 점수가 부여된다. 즉, 청취가능한 말소리로부터 결정되는 단어 격자(W)에 대하여, 부분집합의 태깅된 텍스트 아이템의 단어 스트링(x1x2, ..., xM)의 확률 추정치 p(x1x2, ..., xM|W)가 단어 격자 통계 모델의 단어 엔그램 조건 확률(p(x1|W),p(x2|x1,W),....,p(xM|xM -1,.... xM +1-N,W))로부터 다음과 같이 결정될 수 있다: p(x1x2....xM|W) = p(x1|W)p(x2|x1,W),....,p(xM|xM -1,.... xM +1-N,W). 이러한 확률 추정치는 태깅된 텍스트 아이템의 점수를 부여하기 위하여 사용된다. 예를 들어, 점수는 확률 추정치와 동일하거나, 확률 추정치의 선형 함수일 수 있다. 임계치는 최상위 점수의 인덱싱 엔그램들을 결정하기 위하여 사용되는 것과는 상이한 유형일 수 있으며, 동일한 유형이라면, 상이한 값을 가질 수도 있다(즉, 최상위 5개 태깅된 텍스트 아이템이 태깅된 텍스트 아이템들의 부분집합에 대하여 선택될 수 있는 한편, 최상위 30개 인덱싱 엔그램들이 인덱싱 엔그램들의 부분집합에 대하여 선택될 수도 있다). 모든 태깅된 텍스트 아이템들에 점수가 부여되면, 인덱싱 엔그램들의 후보 리스트 중 임의의 것을 포함하지 않는 것들의 점수가 최하위가 될 것이므로, 태깅된 텍스트 아이템들의 부분집합을 생성하는 것은 옵션 사항이라는 것을 이해할 수 있을 것이다. 부분집합을 이용하는 것은 통상 처리 리소스를 절감시킨다.
특정 실시예에 있어서, 태깅된 텍스트 아이템들의 부분집합의 각각의 태깅된 텍스트 아이템 내의 단어 스트링은 음소 격자 통계 모델로부터 결정되는 확률 추정치를 이용하여 점수가 부여되는 음소 스트링으로 전사되며, 전술한 중간 처리들 중 몇개는 수행되지 않는다. 특히, 단어 격자의 생성과 단어 격자 통계 모델의 결정은 수행될 필요가 없다. 즉, 태깅된 텍스트 아이템들의 부분집합의 각각의 태깅된 텍스트 아이템의 음소 스트링(x1x2, ..., xM)의 확률 추정치 p(x1x2, ..., xM|L)는 음소 격자 통계 모델의 엔그램 음소 조건 확률 p(x1|L),p(x2|x1,L),....,p(xM|xM -1,.... xM +1-N,L)로부터 다음과 같이 결정될 수 있다:
p(x1x2.....xM|L) = p(x1|L)p(x2|x1,L)....p(xM|xM -1,.... xM +1-N,L)
여기서, 스트링(x1x2, ..., xM)은 태깅된 텍스트 아이템을 나타내는 음소들의 전체 스트링을 나타낸다. 그 후, 확률 추정치로부터 점수가 결정될 수 있다.
특정 실시예에 있어서, 태깅된 텍스트 아이템들의 집합의 각각의 태깅된 텍스트 아이템 내의 단어 스트링은 단어 격자 통계 모델로부터 결정되는 태깅된 텍스트 아이템들의 점수 대신에, 음소 격자 통계 모델로부터 결정되는 확률 추정치를 사용하여 점수가 부여되는 음소 스트링으로 전사되며, 몇개의 중간 처리들은 수행되지 않는다. 특히, 음소 격자 통계 모델을 이용한 인덱싱 엔그램의 평가, 최상위 점수의 인덱싱 엔그램들의 후보 리스트의 결정, 태깅된 텍스트 아이템들의 부분집합의 결정, 단어 격자의 생성, 및 단어 격자 통계 모델의 결정은 수행될 필요가 없다. 즉, 청취가능한 말소리로부터 결정되는 음소 격자(L)에 대하여, 각각의 태깅된 텍스트 아이템의 음소 스트링(x1x2, ..., xM)의 확률 추정치 p(x1x2, ..., xM|L)는 음소 격자 통계 모델의 음소 조건 확률 p(x1|L),p(x2|x1,L),....,p(xM|xM -1,.... xM +1-N,L)로부터 다음과 같이 결정될 수 있다:
p(x1x2.....xM|L) = p(x1|L)p(x2|x1,L)....p(xM|xM -1,.... xM +1-N,L)
여기서, 스트링(x1x2, ..., xM)은 태깅된 텍스트 아이템을 나타내는 음소들의 전체 스트링을 나타낸다. 그 후, 확률 추정치로부터 점수가 결정될 수 있다. 태깅된 텍스트 아이템들의 부분집합이 본 실시예에서는 결정되지 않기 때문에 모든 태깅된 텍스트 아이템들에 점수가 부여되는 것을 이해할 수 있을 것이다. 이를 달리 말하면, 본 실시예는 이전 실시예와 유사하지만, 태깅된 텍스트 아이템들의 부분집합은 태깅된 텍스트 아이템들의 집합과 동일하다.
음성 응답 검색 엔진은 사용자가 콘텐츠 파일(218, 220) 중 하나를 말소리에 의해 언급되는 것으로서 선택할 수 있는 디스플레이 및 텍스트-음성 양식과 같은 하나 이상의 출력 양식(output modality)을 이용하여 최고 점수의 태깅된 텍스트 파일들을 제공할 수 있다. 특정 실시예에 있어서, 예를 들어, 최고 점수의 태깅된 텍스트 아이템의 점수가 충분한 여유(margin)에 의해 모든 다른 태깅된 텍스트 아이템들의 점수들과 상이한 경우, 최고 점수의 태깅된 텍스트 아이템만이 사용자에게 제공되며, 최고 점수의 태깅된 텍스트 아이템에 연관된 콘텐츠 파일이 제공된다. 다른 방법으로서, 이 상황에서 최고 점수의 태깅된 텍스트 아이템을 제공하지 않고, 최고 점수의 태깅된 텍스트 아이템에 연관된 콘텐츠 파일이 제공된다. 특정 실시예에 있어서, 최고 점수의 태깅된 텍스트 아이템들은 최고 점수의 엔그램들의 후보 리스트로부터 결정될 수 있다. 특정 실시예에 있어서, 단어 격자는 생성되지 않는다. 또한, 도 2에 관하여 전술한 처리의 전부 또는 일부는 중앙 서버(106) 또는 무선 장치(104)에 결합되는 또 다른 시스템에 의해 수행될 수 있다.
전술한 바와 같이, 본 발명은 사용자로부터 수신되는 청취가능한 말소리에 기초하여 콘텐츠를 검색하기 위해 음성 응답 검색을 활용한다. 매칭 처리에 있어서, 인덱싱 엔그램들 또는 인덱스 파일들의 단어 집합들은 질의로서 취급되며, 음소 격자 및/또는 단어 격자들은 검색 대상의 문서로서 취급된다. 음소열이 반복적으로 나타나는 것은 정확도(correctness) 및 음소열의 구별력을 가져온다. 최상위 어구 선택을 식별하기 위하여 음소 레벨에서 질의에 점수를 부여하기 위하여 조건 격자 모델이 사용된다. 2 단계 접근법에 있어서, 음소 격자에 기초하여 단어들이 발견되며, 단어 격자에 기초하여 태깅된 텍스트 아이템들이 발견된다. 따라서, 본 발명은 ASR 딕테이션이 휴대 장치들에서 마주하게 되는 애로점들을 극복한다. 본 발명은 휴대 장치 상에서 구현하기에 용이한 고속의 효율적인 음성 응답 검색 엔진을 제공한다. 본 발명은 사용자가 임의의 단어(들) 또는 부분적 어구들로 콘텐츠를 검색할 수 있도록 한다.
무선 통신 장치
도 5는 본 발명의 일 실시예에 따른 무선 통신 장치(104)의 상세를 나타낸 블록도이다. 무선 통신 장치(104)는 무선 통신 신호의 송수신을 제어하는 디바이스 컨트롤러/프로세서(502)의 제어하에서 동작한다. 수신 모드에서, 디바이스 컨트롤러(502)는 송수신 스위치(506)를 통해 안테나(504)를 수신기(508)에 전기적으로 결합시킨다. 수신기(508)는 수신된 신호를 디코딩하여, 그 디코딩된 신호를 디 바이스 컨트롤러(502)에 제공한다.
송신 모드에서, 디바이스 컨트롤러(502)는 송수신 스위치(506)를 통해 안테나(504)를 송신기(510)에 전기적으로 결합시킨다. 디바이스 컨트롤러(502)는 메모리(512)에 저장된 인스트럭션에 따라서 송신기 및 수신기를 동작시킨다. 이러한 인스트럭션은, 예를 들어, 주변 셀 측정-스케쥴링 알고리즘을 포함한다. 일 실시예에 있어서, 메모리(512)는 전술한 음성 응답 검색 엔진(118)을 포함한다. 도 5에 도시된 음성 응답 검색 엔진(118)은 도 2에 대하여 상세하게 설명한 하나 이상의 성분들도 포함한다는 것을 이해할 수 있을 것이다. 이러한 성분들은 간단화를 위하여 도 5에 도시하지 않았다. 일 실시예에 있어서, 메모리(512)는 콘텐츠 데이터베이스(214) 및 콘텐츠 인덱스(216) 또한 포함한다.
무선 통신 장치(104)는, 예를 들어, 무선 통신 장치(104) 상에 실행 대기중인 어플리케이션(도시 생략)을 저장하기 위한 불휘발성 저장 메모리(514) 또한 포함한다. 본 예에 있어서, 무선 통신 장치(104)는 무선 네트워크(도시 생략)를 사용하지 않고서 또 다른 무선 장치와 직접 통신할 수 있도록 하는 옵션으로서의 로컬 무선 링크(516) 또한 포함한다. 옵션으로서의 로컬 무선 링크(516)는, 예를 들어, 블루투스, IrDA 기법, 등에 의해 제공된다. 옵션으로서의 로컬 무선 링크(516)는 무선 통신 장치(104)가 퍼스널 컴퓨터, 워크스테이션, 등에 통신가능하게 결합되는 무선 통신 장치 등의 또 다른 무선 통신 장치와 직접 통신할 수 있도록 하는 로컬 무선 링크 송수신 모듈(518) 또한 포함한다.
도 5의 무선 통신 장치(104)는 수신기(508) 또는 로컬 무선 링크 송수신 모 듈(518)로부터 디코딩된 오디오 출력 신호를 수신하는 오디오 출력 컨트롤러(520)를 더 포함한다. 오디오 컨트롤러(520)는 수신된 디코딩된 오디오 신호들을 다양한 조절 기능들을 수행하는 오디오 출력 조절 회로(522)에 송신한다. 예를 들어, 오디오 출력 조절 회로(522)는 잡음을 줄이거나 신호를 증폭할 수 있다. 스피커(524)는 조절된 오디오 신호들을 수신하여 사용자가 들을 수 있도록 오디오 출력시킨다. 오디오 출력 컨트롤러(520), 오디오 출력 조절 회로(522), 및 스피커(524)는 또한 청취가능한 경고가 생성되도록 하여 사용자에게 소실된 통화, 수신된 메시지, 등을 통지한다. 무선 통신 장치(104)는 추가의 사용자 출력 인터페이스(526), 예를 들어, 헤드폰 잭(도시 생략) 또는 핸즈프리 스피커(도시 생략)를 더 포함한다.
무선 통신 장치(104)는 또한 사용자가 오디오 신호들을 무선 통신 장치(104)에 입력할 수 있도록 하기 위한 마이크로폰(528)를 포함한다. 마이크로폰(528)에 의해 소리 파동이 수신되어 전기적 오디오 신호로 변환된다. 오디오 입력 조절 회로(530)는 오디오 신호를 수신하여, 오디오 신호에 대하여, 예를 들어, 잡음 감소 등의 다양한 조절 기능들을 수행한다. 오디오 입력 컨트롤러(532)는 조절된 오디오 신호를 수신하여 오디오 신호의 표현을 디바이스 컨트롤러(502)에 송신한다.
무선 통신 장치(104)는 또한 사용자가 무선 통신 장치(104)에 정보를 입력할 수 있도록 하는 키보드(534)를 포함한다. 무선 통신 장치(104)는 사용자가 정지 이미지 또는 비디오 이미지를 메모리(512)에 캡처할 수 있도록 하는 카메라(536)를 더 포함한다. 또한, 무선 통신 장치(104)는 추가의 사용자 입력 인터페이스(538), 예를 들어, 터치 스크린 기술(도시 생략), 조이스틱(도시 생략), 또는 스크롤 휠(도시 생략)을 포함한다. 일 실시예에 있어서, 데이터 케이블의 무선 통신 장치(104)로의 연결을 허용하기 위하여 주변 인터페이스(도시 생략) 또한 포함된다. 본 발명의 일 실시예에 있어서, 데이터 케이블의 연결은 무선 통신 장치(104)가 컴퓨터 또는 프린터에 연결되도록 한다.
무선 통신 장치(104)의 사용자에 대한 시각적 통지(또는 시각적 표시), 예를 들어, 디스플레이(544) 상의 컬러광의 연속 또는 하나 이상의 LED(도시 생략)의 점등을 렌더링하기 위하여 무선 통신 장치(104) 상에 시각적 통지(또는 표시) 인터페이스(540) 또한 포함된다. 예를 들어, 수신된 멀티미디어 메시지가 메시지의 일부로서 사용자에 대하여 표시되어야 하는 컬러 광의 연속을 포함할 수 있다. 다른 방법으로서, 시각적 통지 인터페이스(540)는 무선 통신 장치(104)가 메시지를 수신하거나, 사용자가 통화를 소실하였을 경우, 컬러광의 연속 또는 하나의 플래시 광을 디스플레이(544) 또는 LED(도시 생략)에 표시함으로써 경고로서 사용될 수 있다.
무선 통신 장치(104)는 또한 진동 매체 성분, 촉각적 경고, 등을 전달하기 위하여 촉각적 인터페이스(542)를 포함한다. 예를 들어, 무선 통신 장치(104)에 의해 수신되는 멀티미디어 메시지는 멀티미디어 메시지의 재생 중의 진동을 제공하는 비디오 매체 성분을 포함할 수 있다. 일 실시예에 있어서, 사용자에 대하여 인입하는 통화 또는 메시지, 소실된 통화, 등을 알리기 위하여 무선 통신 장치(104)의 매너 모드(silent mode) 중에 촉각적 인터페이스(542)가 사용된다. 촉각적 인 터페이스(542)는 이러한 진동이, 예를 들어, 진동 모터 등을 통해 일어나도록 한다.
무선 통신 장치(104)는 또한 무선 통신 장치(104) 및 옵션으로서의 GPS(Global Positioning System) 모듈(546)의 사용자에 대하여 정보를 표시하기 위한 디스플레이(540)를 포함한다. 옵션으로서의 GPS 모듈(546)은 무선 통신 장치(104)의 위치 및/또는 속도 정보를 결정한다. 이 모듈(546)은 GPS 위성 시스템을 이용하여 무선 통신 장치(104)의 위치 및/또는 속도를 결정한다. GPS 모듈(546)을 대신하여, 무선 통신 장치(104)는, 예를 들어, 셀 타워 삼각화 및 지원 GPS(cell tower triangulation and assisted GPS)를 이용하여 무선 통신 장치(104)의 위치 및/또는 속도를 결정하기 위한 대안의 모듈들을 포함할 수 있다.
정보 처리 시스템
도 6은 본 발명의 일 실시예에 따른 중앙 서버(106)의 상세를 나타낸 블록도이다. 이하의 설명은 무선 장치(104)에 결합되는 임의의 정보 처리에 적용가능하다는 것에 유의하기 바란다. 일 실시예에 있어서, 중앙 서버(106)는 본 발명의 일 실시예를 구현하도록 적절하게 구성되는 처리 시스템에 기초한다. 임의의 적절하게 구성된 처리 시스템은 본 발명의 실시예에 의해서, 예를 들어, 퍼스널 컴퓨터, 워크스테이션, 등에 의해 마찬가지로 중앙 서버(106)로서 사용될 수 있다.
중앙 서버(106)는 컴퓨터(602)를 포함한다. 컴퓨터(602)는 메인 메모리(606)(예컨대, 휘발성 메모리), 불휘발성 저장 인터페이스(608), 단말기 인터페이스(610), 네트워크 어댑터 하드웨어(612), 및 이들 시스템 성분들을 상호연결하 는 시스템 버스(614)와 통신가능하게 연결되는 프로세서(604)를 갖는다. 불휘발성 저장 인터페이스(608)는 데이터 저장 장치(616)와 같은 대용량 저장 장치들을 중앙 서버(106)에 연결하기 위하여 사용된다. 데이터 저장 장치의 하나의 특정 유형으로서는 CD 드라이브와 같은 컴퓨터 판독가능 매체가 있으며, 이는 CD 또는 DVD(618) 또는 플로피 디스켓(도시 생략)에 데이터를 저장하거나 이로부터 데이터를 판독하기 위해 사용될 수 있다. 데이터 저장 장치의 또 다른 유형은, 예를 들어, NTFS 유형의 파일 시스템 동작을 지원하도록 구성되는 데이터 저장 장치이다.
메인 메모리(606)는 옵션으로서의 음성 응답 검색 엔진(120)을 포함하며, 음성 응답 검색 엔진(120)은 도 2에 대하여 전술한 성분들을 하나 이상 포함한다. 메인 메모리(606)는 또한 도 2에 대하여 전술한 콘텐츠 데이터베이스(214) 및 콘텐츠 인덱스(216)와 유사한 콘텐츠 데이터베이스(620) 및/또는 콘텐츠 인덱스(622)를 옵션으로서 포함할 수 있다. 메인 메모리(606) 내에 동시에 놓여 있는 것으로 도시되어 있지만, 메인 메모리(606)의 해당 성분들은 완전히 항상 또는 심지어 동시에 메인 메모리(606)에 있을 필요는 없다는 것이 명백하다.
일 실시예에 있어서, 중앙 서버(106)는 종래의 가상 어드레싱 메카니즘을 활용하여 프로그램들이 메인 메모리(606) 및 데이터 저장 장치(416) 등의 다수의 더 작은 저장 개체에 액세스 하는 것이 아니라, 본 명세서에서 컴퓨터 시스템 메모리라고 하는, 큰 하나의 저장 개체에 액세스한 것처럼 거동하도록 한다. 여기서, "컴퓨터 시스템 메모리"는 본 명세서에서 일반적으로 중앙 서버(106)의 전체 가상 메모리를 지칭하도록 사용된다.
컴퓨터(602) 대하여 하나의 CPU(604)만이 도시되어 있지만, 다수의 CPU를 갖는 컴퓨터 시스템들이 똑같이 유효하게 사용될 수 있다. 본 발명의 실시예는 CPU(604)로부터의 처리를 종결(off-load)하기 위하여 사용되는 별도의 전체 프로그램된 마이크로프로세서를 각각 포함하는 인터페이스들을 더 포함한다. 하나 이상의 단말기(624)를 컴퓨터(602)에 직접 접속하여 사용자 인터페이스에 대하여 컴퓨터(602)를 제공하도록 단말기 인터페이스(610)가 사용된다. 넌인텔리전트(non-intellegent)하거나 전체 프로그래머블한 워크스테이션일 수 있는 이러한 단말기(624)들은 시스템 관리자 및 사용자가 씬 클라이언트(thin client)와 통신할 수 있도록 하기 위해 사용된다. 단말기(624)는 또한 컴퓨터(602)에 연결되는 사용자 인터페이스 및 주변 장치들로 구성되어, 비디오 어댑터 및 키보드, 포인팅 장치, 등의 인터페이스들을 포함하는 단말기 I/F(610)에 포함된 단말기 인터페이스 하드웨어에 의해 제어될 수 있다.
일 실시예에 따르면, 운영 체제(도시 생략)는 메인 메모리에 포함될 수 있는 것으로서, Linux, UNIX, Windows XP, 및 Windows Server 2003 운영 체제 등의 적합한 멀티태스킹 운영 체제이다. 본 발명의 실시예는 임의의 기타 적합한 운영 체제, 또는 커널, 또는 기타의 적합한 제어 소프트웨어를 사용할 수 있다. 본 발명의 일부 실시예에서는 운영 체제(도시 생략)의 성분들의 인스트럭션들이 클라이언트 내에 위치되는 임의의 프로세서 상에서 실행되도록 하는 객체지향 프레임워크 메카니즘 등의 아키텍쳐를 활용한다. 네트워크(102)에 대한 인터페이스를 제공하기 위하여 네트워크 어댑터 하드웨어(612)가 사용된다. 본 발명의 실시예들은 오 늘날의 아날로그 및/또는 디지털 기법을 포함하는 임의의 데이터 통신 연결과 함께 또는 향후의 네트워킹 메카니즘을 통해서 동작하도록 구성될 수 있다.
본 발명의 실시예들을 전부 기능적인 컴퓨터 시스템의 맥락에서 설명하였지만, 당업자라면 실시예들이 CD-ROM/DVD-ROM(RAM)(618) 또는 기록가능 매체의 다른 형태를 통해서, 또는 임의의 형태의 전자 전송 메카니즘을 통해서 프로그램 제품으로서 분산되어 있을 수 있다는 것을 이해할 수 있을 것이다.
인덱싱 엔그램을 작성하는 처리
도 7은 인덱싱 엔그램을 작성하는 처리를 나타낸 동작 흐름도이다. 도 7의 동작 흐름도는 단계 702에서 시작하여 바로 단계 704로 진행한다. 단계 704에서, 음성 응답 검색 엔진(118)은 콘텐츠 데이터베이스(214)의 콘텐츠(218, 220)를 분석한다. 단계 706에서, 일부 실시예에서는 사용자 입력에 의존하여, 콘텐츠 데이터베이스(214)의 각 콘텐츠 파일(218, 220)에 대하여 222, 224 등의 태깅된 텍스트 아이템(콘텐츠 인덱스 파일)이 식별되거나 생성되어, 태깅된 텍스트 아이템의 집합을 설정한다. 단계 708에서, 음성 응답 검색 엔진(118)은 각각의 태깅된 텍스트 아이템(708)을 분석한다. 단계 710에서, 각각의 태깅된 텍스트 아이템(222, 224)의 각각의 단어 조합에 대하여 엔그램이 생성되며, 각각의 교유한 단어 조합에 대하여 하나의 엔그램만이 작성되어, 인덱싱 엔그램들의 집합을 생성한다. 각각의 엔그램은 적어도 하나의 태깅된 텍스트 아이템의 연속적인 부분집합이다. 다음, 제어는 단계 712에 진행한다.
음성 응답 검색 엔진을 사용하여 원하는 콘텐츠를 검색하는 처리
도 8 내지 도 11은 음성 응답 검색 엔진을 사용하여 원하는 콘텐츠를 검색하는 처리를 나타낸 동작 흐름도이다. 도 8의 동작 흐름도는 단계 802에서 시작하여, 바로 단계 804에 진행한다. 단계 804에서, 음성 응답 검색 엔진(118)은 사용자로부터 청취가능한 말소리(226)를 수신한다. 예를 들어, 사용자는 노래를 듣고 싶어할 수 있으며, 노래의 제목을 말한다.
단계 806에서, 음성 응답 검색 엔진(118)은 말소리(226)를 특징 벡터로 변환하여 이를 저장한다. 단계 808에서, 전술한 바와 같이 특징 벡터들에서 음소 격자가 생성된다. 단계 810에서, 음성 응답 검색 엔진(118)은 음소 격자에 기초한 음소들의 통계 모델인 음소 격자 통계 모델을 작성한다. 일 실시예에 있어서, 통계 모델은 음소 격자의 각 음소에 대한 확률 추정치를 포함한다. 예를 들어, 음소 격자 통계 모델은 음소 격자 내에서 어떤 확률로 음소가 생성되는지를 식별할 수 있다. 전술한 바와 같이, 음소 격자 통계 모델 내에 조건 확률이 포함될 수도 있다. 단계 812에서, 각각의 인덱싱 엔그램은 자신의 해당 음소 스트링으로 전사된다.
단계 814에서, 인덱싱 엔그램의 각 음소 스트링이 음소 격자 통계 모델과 비교되어, 음소 격자 통계 추정치들 중 어느 확률 추정치가 음소 스트링에 점수를 부여하기 위하여 사용될지를 결정한다. 단계 816에서, 음성 응답 검색 엔진(118)은 음소 격자 통계 모델로부터 결정되는 확률 추정치에 기초하여 인덱싱 엔그램의 각각의 음소 스트링에 대하여 점수를 부여한다. 예를 들어, 인덱싱 엔그램이 단어 집합 "let it"을 포함하였다면, 이는 음소 스트링으로 전사된다. 다음, 음성 응답 검색 엔진(118)은 통계 모델로부터 "let it"에 연관된 확률 추정치를 계산하고, 이 에 따라, 인덱싱 엔그램의 음소 스트링에 점수를 부여한다. 다음, 단계 818에서, 최상위 점수의 인덱싱 엔그램들의 후보 리스트가 생성된다.
특정 실시예에 있어서, 도 9의 진입점 A에 제어가 진행한다. 단계 902에서, 최고 점수의 인덱싱 엔그램들로부터 단어 격자가 생성된다. 단계 904에서, 음성 응답 검색 엔진(118)은 단어 격자에 기초하여 통계 모델을 작성한다. 일 실시예에 있어서, 단어 격자 통계 모델은 단어 격자의 각 단어에 대한 확률 추정치들을 포함한다. 예를 들어, 통계 모델은 단어 격자 내에서 단어 또는 단어들의 집합이 어떤 확률로 생성하는지를 식별할 수 있다. 전술한 바와 같이, 단어 격자 통계 모델 내에 조건 확률이 포함될 수도 있다. 단계 906에서, 태깅된 텍스트 아이템들의 집합(216)으로부터 최고 점수의 인덱싱 엔그램을 이용하여 태깅된 텍스트 아이템들의 부분집합이 작성된다.
단계 908에서, 부분집합의 각각의 태깅된 텍스트 아이템은 단어들의 단어 격자 통계 모델과 비교되어, 단어 격자 통계 모델 중 어느 확률 추정치들이 태깅된 텍스트 아이템에 점수를 부여하기 위하여 사용될지를 결정한다. 단계 910에서, 음성 응답 검색 엔진(118)은 단어 격자 통계 모델을 이용하여 태깅된 텍스트의 단어 스트링에 대하여 결정되는 확률 추정치에 기초하여 부분집합의 각각의 태깅된 텍스트 아이템에 점수를 부여한다. 예를 들어, 엔그램이 단어 집합 "let it"을 포함하였다면, 음성 응답 검색 엔진(118)은 통계 모델에서 "let it"에 대한 음소 스트링에 연관된 확률 추정치를 식별한다. 다음, 단계 912에서, 태깅된 텍스트 아이템들의 부분집합에서 최상위 점수의 태깅된 텍스트 아이템들의 리스트가 작성된다. 다 음, 단계 916에서, 이 최상위 점수의 태깅된 텍스트 아이템들이 사용자에게 표시된다. 다음, 제어는 단계 918에 종료한다. 다음, 사용자는 태깅된 텍스트 아이템들 중 하나를 선택하고, 연관된 콘텐츠 파일들이 사용자의 사용을 위해 검색될 수 있다.
도 10은 음성 응답 검색 엔진을 이용하여 원하는 콘텐츠를 검색하는 실시예를 나타낸 동작 흐름도이다. 도 10의 동작 흐름도는 도 8의 단계 810으로부터 단계 1004로 진행한다. 단계 1004에서, 음성 응답 검색 엔진(118)은 각각의 태깅된 텍스트 아이템을 해당 음소 스트링으로 전사한다. 다음, 단계 1006에서, 태깅된 텍스트 아이템의 각각의 음소 스트링이 음소 격자 통계 모델과 비교되어, 음소 격자 통계 모델 중 어느 확률 추정치들이 태깅된 텍스트의 음소 스트링들에 점수를 부여하기 위하여 사용될지를 결정한다. 단계 1008에서, 음소 격자 통계 모델로부터의 확률 추정치들을 이용하여 태깅된 텍스트 아이템의 각각의 음소 스트링에 점수가 부여된다. 단계 1010에서, 음성 응답 검색 엔진(118)은 최상위 점수의 태깅된 텍스트 아이템들의 리스트를 생성한다. 단계 1014에서, 최상위 점수의 태깅된 텍스트 아이템들의 리스트가 사용자에게 표시된다. 제어는 단계 1016에 진행한다. 다음, 사용자는 태깅된 텍스트 아이템들 중 하나를 선택할 수 있으며, 이에 연관된 콘텐츠 파일(들)이 사용자가 원하는 대로 사용하도록 검색될 수 있다.
도 11은 음성 응답 검색 엔진을 이용하여 원하는 콘텐츠를 검색하는 또 다른 처리를 나타낸 동작 흐름도이다. 도 10의 동작 흐름도는 진입점 A에서 바로 단계 1102에 진행한다. 단계 1102에서, 음성 응답 검색 엔진(118)은 최상위 점수의 인 덱싱 엔그램들의 후보 리스트를 사용하여 태깅된 텍스트 아이템들의 집합(216)으로부터 태깅된 텍스트 부분집합을 생성한다. 다음, 단계 1104에서, 태깅된 텍스트 아이템들의 부분집합의 태깅된 텍스트 아이템의 각각의 음소 스트링이 음소 격자 통계 모델과 비교되어, 태깅된 텍스트의 음소 스트링들에 점수를 부여하기 위하여 음소 격자 통계 모델 중 어느 확률이 사용될지를 결정한다. 단계 1106에서, 음소 격자 통계 모델로부터의 확률을 이용하여 태깅된 텍스트 아이템들의 부분집합의 태깅된 텍스트 아이템의 각각의 음소 스트링에 점수가 부여된다. 단계 1108에서, 음성 응답 검색 엔진(118)은 태깅된 텍스트 부분집합 중 최상위 점수의 태깅된 텍스트 아이템들의 리스트를 생성한다. 단계 1110에서, 최상위 점수의 태깅된 텍스트 아이템들의 리스트가 사용자에게 제공된다. 제어는 단계 1112에 진행한다. 다음, 사용자는 태깅된 텍스트 아이템들 중 하나를 선택할 수 있으며, 그 후, 이에 연관된 콘텐츠 파일(들)이 사용자가 원하는 대로 사용하도록 검색될 수 있다.
비제한적 예들
본 발명의 특정 실시예들을 개시하였지만, 당업자라면 본 발명의 개념과 범주를 일탈하지 않고서 특정 실시예에 대하여 변경예가 이루어질 수 있다는 것을 이해할 수 있을 것이다. 본 발명의 범주는 특정 실시예들에 제한되고자 한 것이 아니며, 첨부된 청구항들은 본 발명의 범주 내에서 이러한 적용예, 변형예, 및 실시예들 중 전부 또는 일부를 포괄하고자 한 것이다.

Claims (20)

  1. 음성 인식을 이용하여 콘텐츠 파일들의 집합으로부터 콘텐츠 파일을 선택하기 위하여 무선 통신 장치와 사용되는 방법으로서,
    태깅된 텍스트 아이템들(tagged text items)의 집합을 설정하는 단계 - 각각의 태깅된 텍스트 아이템은 상기 콘텐츠 파일들의 집합 중 하나의 콘텐츠 파일에 고유하게(uniquely)연관됨 -;
    사용자로부터 적어도 하나의 청취가능한 말소리를 수신하는 단계;
    상기 수신된 청취가능한 말소리에 연관된 음소들의 집합을 식별하는 단계;
    상기 식별된 음소들의 집합에 기초하여 음소 격자(phoneme lattice)를 생성하는 단계;
    상기 음소 격자에 기초하여 음소 격자 통계 모델을 생성하는 단계;
    상기 음소 격자 통계 모델에 기초하여 상기 태깅된 텍스트 아이템들의 집합의 부분집합에서 각각의 태깅된 텍스트 아이템에 점수를 부여하는 단계; 및
    상기 태깅된 텍스트 아이템들 중 임계치보다 위의 점수를 갖는 아이템을 하나 이상 제시하는 단계
    를 포함하는 콘텐츠 파일 선택 방법.
  2. 제1항에 있어서,
    상기 태깅된 텍스트 아이템들의 집합의 부분집합은 태깅된 텍스트 아이템들 의 전체 집합인 콘텐츠 파일 선택 방법.
  3. 제2항에 있어서,
    각각의 태깅된 텍스트 아이템에 부여되는 상기 점수는 추정 확률 p(x1x2.....xM|L) = p(x1|L)p(x2|x1,L)....p(xM|xM -1,.... xM +1-N,L)로부터 결정되며,
    여기서, p(x1x2, ..., xM|L)는 음소 격자(L)가 생성된 말소리에서 음소 스트링(x1x2, ..., xM)을 갖는 태깅된 텍스트 아이템이 발생한 추정 확률로서, 음소 격자 통계 모델에 포함된 확률 추정치 p(x1|L),p(x2|x1,L),....,p(xM|xM -1,.... xM+1-N,L)로부터 결정되는 콘텐츠 파일 선택 방법.
  4. 제1항에 있어서,
    상기 태깅된 텍스트 아이템들의 집합의 부분집합은,
    상기 태깅된 텍스트 아이템들의 집합으로부터 인덱싱 엔그램들(indexing N-grams)의 집합을 생성하고 - 각각의 인덱싱 엔그램은 상기 태깅된 텍스트 아이템들 중 적어도 하나의 부분집합임 -;
    상기 음소 격자 통계 모델에 기초하여 인덱싱 엔그램의 집합에서 각각의 인덱싱 엔그램에 점수를 부여하며;
    제1 임계치보다 더 큰 점수가 부여된 인덱싱 엔그램을 포함하는 태깅된 텍스 트 아이템들을 상기 태깅된 텍스트 아이템들의 부분집합에 포함시킴에 의해 결정되는 콘텐츠 파일 선택 방법.
  5. 제4항에 있어서,
    상기 인덱싱 엔그램의 집합에서의 각각의 인덱싱 엔그램은 고유(unique)하며, 적어도 하나의 태깅된 택스트 아이템의 연속적인 부분집합인 콘텐츠 파일 선택 방법.
  6. 제4항에 있어서,
    상기 인덱싱 엔그램들의 집합에서 각각의 인덱싱 엔그램에 점수를 부여하는 단계는,
    각각의 인덱싱 엔그램을 해당하는 음소 스트링으로 전사(transcribe)하는 단계; 및
    상기 음소 격자 통계 모델로부터 얻어진 확률 추정치들에 기초하여 각 인덱싱 엔그램에 점수를 부여하는 단계
    를 더 포함하는 콘텐츠 파일 선택 방법.
  7. 제6항에 있어서,
    각 인덱싱 엔그램에 부여되는 상기 점수는 추정 확률 p(x1x2.....xN|L) = p(x1|L)p(x2|x1,L)....p(xN|xN -1,.... xN -M,L)로부터 결정되며,
    여기서, p(x1x2, ..., xN|L)는 음소 격자(L)가 생성된 말소리에서 음소 스트링(x1x2, ..., xN)을 갖는 인덱싱 엔그램이 발생한 추정 확률로서, 상기 음소 격자 통계 모델에 포함된 확률 추정치 p(x1|L),p(x2|x1,L),....,p(xM|xM -1,.... xM+1-N,L)로부터 결정되는 콘텐츠 파일 선택 방법.
  8. 콘텐츠 파일들의 집합으로부터 콘텐츠 파일을 선택하기 위하여 무선 통신 장치와 사용되는 방법으로서,
    태깅된 텍스트 아이템들의 집합을 설정하는 단계 - 각각의 태깅된 텍스트 아이템은 상기 콘텐츠 파일들의 집합 중 하나의 콘텐츠 파일과 고유하게 연관됨 -;
    상기 태깅된 텍스트 아이템들의 집합으로부터 인덱싱 엔그램들의 집합을 생성하는 단계;
    사용자로부터 적어도 하나의 청취가능한 말소리를 수신하는 단계;
    상기 수신된 적어도 하나의 청취가능한 말소리에 기초하여 음소 격자를 생성하는 단계;
    상기 음소 격자에 기초하여 음소 격자 통계 모델을 생성하는 단계;
    상기 음소 격자 통계 모델에 기초하여 상기 인덱싱 엔그램들의 집합에서 각 인덱싱 엔그램에 점수를 부여하는 단계;
    상기 인덱싱 엔그램들의 집합의 부분집합을 결정하는 단계 - 상기 부분집합 에서의 인덱싱 엔그램들은 제1 임계치보다 큰 점수가 부여됨 -;
    상기 인덱싱 엔그램들의 부분집합에 기초하여 단어 격자를 생성하는 단계;
    상기 단어 격자에 기초하여 단어 격자 통계 모델을 생성하는 단계;
    상기 태깅된 텍스트 아이템들의 집합의 부분집합에서 각각의 태깅된 텍스트 아이템에 점수를 부여하는 단계 - 상기 부분집합은 상기 인덱싱 엔그램들의 부분집합에 연관되는 태깅된 텍스트 아이템들을 포함하며, 각각의 태깅된 텍스트 아이템에 부여되는 점수는 상기 단어 격자 통계 모델에 기초함 -; 및
    태깅된 텍스트 아이템들 중 제2 임계치 위의 점수를 갖는 아이템을 하나 이상 제시하는 단계
    를 포함하는 콘텐츠 파일 선택 방법.
  9. 제8항에 있어서,
    상기 인덱싱 엔그램들의 집합에서의 각 인덱싱 엔그램은 고유하며, 적어도 하나의 태깅된 텍스트 아이템의 연속적인 부분집합인 콘텐츠 파일 선택 방법.
  10. 제8항에 있어서,
    상기 인덱싱 엔그램들의 집합에서 각 인덱싱 엔그램에 점수를 부여하는 단계는,
    각각의 엔그램을 해당하는 음소 스트링으로 전사하는 단계; 및
    상기 음소 격자 통계 모델에서 얻어진 확률 추정치에 기초하여 각 인덱싱 엔 그램에 점수를 부여하는 단계
    를 더 포함하는 콘텐츠 파일 선택 방법.
  11. 제8항에 있어서,
    각 인덱싱 엔그램에 부여되는 상기 점수는 추정 확률 p(x1x2.....xM|L) = p(x1|L)p(x2|x1,L)....p(xM|xM -1,.... xM +1-N,L)로부터 결정되며,
    여기서, p(x1x2, ..., xM|L)는 음소 격자(L)가 생성된 말소리에서 음소 스트링(x1x2, ..., xM)을 갖는 인덱싱 엔그램이 발생한 추정 확률로서, 상기 음소 격자 통계 모델에 포함된 확률 추정치 p(x1|L),p(x2|x1,L),....,p(xM|xM -1,.... xM+1-N,L)로부터 결정되는 콘텐츠 파일 선택 방법.
  12. 제8항에 있어서,
    각 태깅된 텍스트 아이템에 부여되는 상기 점수는 추정 확률 p(x1x2....xM|W) = p(x1|W)p(x2|x1,W),....,p(xM|xM -1,.... xM +1-N,W)로부터 결정되며,
    여기서, p(x1x2, ..., xM|W)는 단어 격자(W)가 생성된 말소리에서 음소 스트링(x1x2, ..., xM)을 갖는 태깅된 텍스트 아이템이 발생한 추정 확률로서, 상기 단어 격자 통계 모델의 확률 추정치 p(x1|W),p(x2|x1,W),....,p(xM|xM -1,.... xM +1- N,W)로부터 결정되는 콘텐츠 파일 선택 방법.
  13. 무선 통신 장치로서,
    메모리;
    상기 메모리에 통신가능하게 결합되는 프로세서; 및
    상기 메모리 및 상기 프로세서에 통신가능하게 결합되는 음성 응답 검색 엔진
    을 포함하며,
    상기 음성 응답 검색 엔진은,
    태깅된 텍스트 아이템들의 집합을 설정하고 - 각각의 태깅된 텍스트 아이템은 콘텐츠 파일들의 집합 중 하나의 콘텐츠 파일과 고유하게 연관됨 -;
    사용자로부터 적어도 하나의 청취가능한 말소리를 수신하고;
    상기 수신된 청취가능한 말소리에 연관된 음소들의 집합을 식별하고;
    상기 식별된 음소들의 집합에 기초하여 음소 격자를 생성하고;
    상기 음소 격자에 기초하여 음소 격자 통계 모델을 작성하고;
    상기 음소 격자 통계 모델에 기초하여 상기 태깅된 텍스트 아이템들의 집합의 부분집합에서 각 태깅된 텍스트 아이템에 점수를 부여하고;
    태깅된 텍스트 아이템들 중 임계치 위의 점수를 갖는 아이템을 하나 이상 제시하는 무선 통신 장치.
  14. 제13항에 있어서,
    상기 태깅된 텍스트 아이템들의 집합의 부분집합은 태깅된 텍스트 아이템들의 전체 집합인 무선 통신 장치.
  15. 제13항에 있어서,
    각각의 태깅된 텍스트 아이템에 부여되는 점수는 추정 확률 p(x1x2.....xM|L) = p(x1|L)p(x2|x1,L)....p(xM|xM -1,.... xM +1-N,L)로부터 결정되며,
    여기서, p(x1x2, ..., xM|L)는 음소 격자(L)가 생성된 말소리에서 음소 스트링(x1x2, ..., xM)을 갖는 태깅된 텍스트 아이템이 발생한 추정 확률로서, 상기 음소 격자 통계 모델에 포함된 확률 추정치 p(x1|L),p(x2|x1,L),....,p(xM|xM-1,.... xM +1-N,L)로부터 결정되는 무선 통신 장치.
  16. 제13항에 있어서,
    상기 태깅된 텍스트 아이템들의 집합의 부분집합은,
    상기 태깅된 텍스트 아이템들의 집합으로부터 인덱싱 엔그램(N-gram)들의 집합을 생성하고 - 각 인덱싱 엔그램은 상기 태깅된 텍스트 아이템들 중 적어도 하나의 부분집합임 - ;
    상기 음소 격자 통계 모델에 기초하여 인덱싱 엔그램의 집합에서 각 인덱싱 엔그램에 점수를 부여하고;
    제1 임계치보다 큰 점수가 부여된 인덱싱 엔그램들을 포함하는 태깅된 텍스트 아이템들을 상기 태깅된 텍스트 아이템들의 부분집합에 포함시키는 것에 의해 결정되는 무선 통신 장치.
  17. 제16항에 있어서,
    상기 인덱싱 엔그램들의 집합에서의 각 인덱싱 엔그램은 고유하며, 적어도 하나의 태깅된 텍스트 아이템의 연속적인 부분집합인 무선 통신 장치.
  18. 제16항에 있어서,
    상기 인덱싱 엔그램들의 집합에서 각 인덱싱 엔그램에 점수를 부여하는 것은,
    각각의 인덱싱 엔그램을 해당하는 음소 스트링으로 전사(transcribe)하고;
    상기 음소 격자 통계 모델에서 얻어진 확률 추정치에 기초하여 각 인덱싱 엔그램에 점수를 부여하는 것을 더 포함하는 무선 통신 장치.
  19. 제18항에 있어서,
    각 인덱싱 엔그램에 부여되는 상기 점수는 추정 확률 p(x1x2.....xN|L) = p(x1|L)p(x2|x1,L)....p(xN|xN -1,.... xN -M,L)로부터 결정되며,
    여기서, p(x1x2, ..., xN|L)는 음소 격자(L)가 생성된 말소리에서 음소 스트링(x1x2, ..., xN)을 갖는 인덱싱 엔그램이 발생한 추정 확률로서, 상기 음소 격자 통계 모델에 포함된 확률 추정치 p(x1|L),p(x2|x1,L),....,p(xM|xM -1,.... xM+1-N,L)로부터 결정되는 무선 통신 장치.
  20. 제18항에 있어서,
    상기 태깅된 텍스트 아이템들의 부분집합에서 각 태깅된 텍스트 아이템에 부여되는 상기 점수는 추정 확률 p(x1x2.....xM|L) = p(x1|L)p(x2|x1,L)....p(xM|xM -1,.... xM +1-N,L)로부터 결정되며,
    여기서, p(x1x2, ..., xM|L)는 음소 격자(L)가 생성된 말소리에서 음소 스트링(x1x2, ..., xM)을 갖는 태깅된 텍스트 아이템이 발생한 추정 확률로서, 상기 음소 격자 통계 모델에 포함된 확률 추정치 p(x1|L),p(x2|x1,L),....,p(xM|xM-1,.... xM +1-N,L)로부터 결정되는 무선 통신 장치.
KR1020097011559A 2006-12-05 2007-10-17 음성 인식을 이용한 콘텐츠 선택 KR20090085673A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/566,832 US20080130699A1 (en) 2006-12-05 2006-12-05 Content selection using speech recognition
US11/566,832 2006-12-05

Publications (1)

Publication Number Publication Date
KR20090085673A true KR20090085673A (ko) 2009-08-07

Family

ID=39495214

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020097011559A KR20090085673A (ko) 2006-12-05 2007-10-17 음성 인식을 이용한 콘텐츠 선택

Country Status (5)

Country Link
US (1) US20080130699A1 (ko)
EP (1) EP2092514A4 (ko)
KR (1) KR20090085673A (ko)
CN (1) CN101558442A (ko)
WO (1) WO2008115285A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015068947A1 (ko) * 2013-11-06 2015-05-14 주식회사 시스트란인터내셔널 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9275129B2 (en) * 2006-01-23 2016-03-01 Symantec Corporation Methods and systems to efficiently find similar and near-duplicate emails and files
US20080156173A1 (en) * 2006-12-29 2008-07-03 Harman International Industries, Inc. Vehicle infotainment system with personalized content
US20110054896A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Sending a communications header with voice recording to send metadata for use in speech recognition and formatting in mobile dictation application
US20110054898A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Multiple web-based content search user interface in mobile search application
US20090030685A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using speech recognition results based on an unstructured language model with a navigation system
US8635243B2 (en) 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US8886540B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US20090030691A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using an unstructured language model associated with an application of a mobile communication facility
US10056077B2 (en) * 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US20090030687A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Adapting an unstructured language model speech recognition system based on usage
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US20110054897A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Transmitting signal quality information in mobile dictation application
US20090030697A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model
US20110054895A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Utilizing user transmitted text to improve language model in mobile dictation application
US20080221901A1 (en) * 2007-03-07 2008-09-11 Joseph Cerra Mobile general search environment speech processing facility
US8949130B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US20090030688A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application
US8996379B2 (en) 2007-03-07 2015-03-31 Vlingo Corporation Speech recognition text entry for software applications
US20110054899A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Command and control utilizing content information in a mobile voice-to-speech application
WO2009051791A2 (en) * 2007-10-16 2009-04-23 George Alex K Method and system for capturing voice files and rendering them searchable by keyword or phrase
US8844033B2 (en) * 2008-05-27 2014-09-23 The Trustees Of Columbia University In The City Of New York Systems, methods, and media for detecting network anomalies using a trained probabilistic model
US9411800B2 (en) * 2008-06-27 2016-08-09 Microsoft Technology Licensing, Llc Adaptive generation of out-of-dictionary personalized long words
US20120245919A1 (en) * 2009-09-23 2012-09-27 Nuance Communications, Inc. Probabilistic Representation of Acoustic Segments
US8589163B2 (en) * 2009-12-04 2013-11-19 At&T Intellectual Property I, L.P. Adapting language models with a bit mask for a subset of related words
US9081868B2 (en) * 2009-12-16 2015-07-14 Google Technology Holdings LLC Voice web search
US8719257B2 (en) 2011-02-16 2014-05-06 Symantec Corporation Methods and systems for automatically generating semantic/concept searches
JP6001239B2 (ja) * 2011-02-23 2016-10-05 京セラ株式会社 通信機器
US9536528B2 (en) 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
US9311914B2 (en) * 2012-09-03 2016-04-12 Nice-Systems Ltd Method and apparatus for enhanced phonetic indexing and search
CN103076893B (zh) * 2012-12-31 2016-08-17 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备
US8494853B1 (en) * 2013-01-04 2013-07-23 Google Inc. Methods and systems for providing speech recognition systems based on speech recordings logs
EP3193328B1 (en) * 2015-01-16 2022-11-23 Samsung Electronics Co., Ltd. Method and device for performing voice recognition using grammar model
CN106935239A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
US10606815B2 (en) * 2016-03-29 2020-03-31 International Business Machines Corporation Creation of indexes for information retrieval
CN107544726B (zh) * 2017-07-04 2021-04-16 百度在线网络技术(北京)有限公司 基于人工智能的语音识别结果纠错方法、装置及存储介质
CN109344221B (zh) * 2018-08-01 2021-11-23 创新先进技术有限公司 录音文本生成方法、装置及设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US6877001B2 (en) * 2002-04-25 2005-04-05 Mitsubishi Electric Research Laboratories, Inc. Method and system for retrieving documents with spoken queries
US7542966B2 (en) * 2002-04-25 2009-06-02 Mitsubishi Electric Research Laboratories, Inc. Method and system for retrieving documents with spoken queries
US20040064306A1 (en) * 2002-09-30 2004-04-01 Wolf Peter P. Voice activated music playback system
US7197457B2 (en) * 2003-04-30 2007-03-27 Robert Bosch Gmbh Method for statistical language modeling in speech recognition
JP3945778B2 (ja) * 2004-03-12 2007-07-18 インターナショナル・ビジネス・マシーンズ・コーポレーション 設定装置、プログラム、記録媒体、及び設定方法
US7711358B2 (en) * 2004-12-16 2010-05-04 General Motors Llc Method and system for modifying nametag files for transfer between vehicles
EP1693830B1 (en) * 2005-02-21 2017-12-20 Harman Becker Automotive Systems GmbH Voice-controlled data system
CA2609247C (en) * 2005-05-24 2015-10-13 Loquendo S.P.A. Automatic text-independent, language-independent speaker voice-print creation and speaker recognition

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015068947A1 (ko) * 2013-11-06 2015-05-14 주식회사 시스트란인터내셔널 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법
KR101537370B1 (ko) * 2013-11-06 2015-07-16 주식회사 시스트란인터내셔널 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법
CN105723449A (zh) * 2013-11-06 2016-06-29 系统翻译国际有限公司 基于对录取的语音数据的核心语提取的言语内容分析系统和利用该系统的索引方法及言语内容分析方法
US20160284345A1 (en) 2013-11-06 2016-09-29 Systran International Co., Ltd. System for grasping keyword extraction based speech content on recorded voice data, indexing method using the system, and method for grasping speech content
US10304441B2 (en) 2013-11-06 2019-05-28 Systran International Co., Ltd. System for grasping keyword extraction based speech content on recorded voice data, indexing method using the system, and method for grasping speech content

Also Published As

Publication number Publication date
EP2092514A4 (en) 2010-03-10
EP2092514A2 (en) 2009-08-26
WO2008115285A3 (en) 2008-12-18
WO2008115285A2 (en) 2008-09-25
CN101558442A (zh) 2009-10-14
US20080130699A1 (en) 2008-06-05

Similar Documents

Publication Publication Date Title
KR20090085673A (ko) 음성 인식을 이용한 콘텐츠 선택
US8019604B2 (en) Method and apparatus for uniterm discovery and voice-to-voice search on mobile device
US9905228B2 (en) System and method of performing automatic speech recognition using local private data
CN107590135B (zh) 自动翻译方法、设备和系统
US8015005B2 (en) Method and apparatus for voice searching for stored content using uniterm discovery
US9619572B2 (en) Multiple web-based content category searching in mobile search application
CN111710333B (zh) 用于生成语音转录的方法和系统
US8635243B2 (en) Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
AU2012227294B2 (en) Speech recognition repair using contextual information
US8364487B2 (en) Speech recognition system with display information
US8244540B2 (en) System and method for providing a textual representation of an audio message to a mobile device
US20110054899A1 (en) Command and control utilizing content information in a mobile voice-to-speech application
US20110060587A1 (en) Command and control utilizing ancillary information in a mobile voice-to-speech application
US20110054900A1 (en) Hybrid command and control between resident and remote speech recognition facilities in a mobile voice-to-speech application
US20110054894A1 (en) Speech recognition through the collection of contact information in mobile dictation application
US20110054898A1 (en) Multiple web-based content search user interface in mobile search application
US20110054895A1 (en) Utilizing user transmitted text to improve language model in mobile dictation application
US20110054896A1 (en) Sending a communications header with voice recording to send metadata for use in speech recognition and formatting in mobile dictation application
US20060143007A1 (en) User interaction with voice information services
US20110054897A1 (en) Transmitting signal quality information in mobile dictation application
US20090326945A1 (en) Methods, apparatuses, and computer program products for providing a mixed language entry speech dictation system
CN113793603A (zh) 识别带口音的语音
JP2008529101A (ja) 移動通信装置の音声語彙を自動的に拡張するための方法及び装置
CN101415259A (zh) 嵌入式设备上基于双语语音查询的信息检索系统及方法
EP1895748B1 (en) Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
N231 Notification of change of applicant
E601 Decision to refuse application