KR20140137352A - 위치 기반 언어 모델링을 사용하는 자동화 입력 신호 인식 - Google Patents

위치 기반 언어 모델링을 사용하는 자동화 입력 신호 인식 Download PDF

Info

Publication number
KR20140137352A
KR20140137352A KR20147024300A KR20147024300A KR20140137352A KR 20140137352 A KR20140137352 A KR 20140137352A KR 20147024300 A KR20147024300 A KR 20147024300A KR 20147024300 A KR20147024300 A KR 20147024300A KR 20140137352 A KR20140137352 A KR 20140137352A
Authority
KR
South Korea
Prior art keywords
language model
local
location
input signal
local language
Prior art date
Application number
KR20147024300A
Other languages
English (en)
Inventor
홍 엠. 첸
Original Assignee
애플 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 애플 인크. filed Critical 애플 인크.
Publication of KR20140137352A publication Critical patent/KR20140137352A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

음성 인식과 같은, 입력 신호 인식은 위치 기반 정보를 통합함으로써 향상될 수 있다. 이러한 정보는 각각이 로컬 거리 명칭들, 사업체 명칭들, 랜드마크들 등과 같은, 미리 정의된 지리적 위치에 특정한 데이터를 포함하는 하나 이상의 언어 모델들을 생성함으로써 통합될 수 있다. 입력 신호와 연관된 위치를 사용하여, 하나 이상의 로컬 언어 모델들이 선택될 수 있다. 로컬 언어 모델들 각각은 로컬 언어 모델과 연관된 미리 정의된 중심에 대한 위치의 근접성을 대표하는 가중치를 할당받을 수 있다. 하나 이상의 로컬 언어 모델들은 그 다음, 인식 처리에서 사용하기 위한 하이브리드 언어 모델을 생성하기 위해 글로벌 언어 모델과 병합될 수 있다.

Description

위치 기반 언어 모델링을 사용하는 자동화 입력 신호 인식{AUTOMATIC INPUT SIGNAL RECOGNITION USING LOCATION BASED LANGUAGE MODELING}
본 발명은 자동화 입력 신호 인식에 관한 것이고, 특히 위치 기반 언어 모델링을 사용함으로써 자동화 입력 신호 인식을 향상시키는 것에 관한 것이다.
음성 인식과 같은, 입력 신호 인식 기술은 최근에 급격하게 확장되었다. 그것의 사용은 자동화된 전화 응답 시스템들과 같은, 제한된 어휘를 갖는 매우 특정한 사용 경우들로부터 무엇이든 말하는 음성 인식까지 확장되었다. 그러나, 가능한 입력 신호들의 수 및 유형이 확장됨에 따라, 정확한 결과들을 제공하는 것은 도전으로 남아있다. 이것은 특히 모든 입력 신호들을 위한 글로벌 언어 모델에 의존하는 인식 시스템들에 대해 참이다. 이러한 경우들에서, 특정한 지리적 구역에 유일한 입력 신호들은 종종 부적절하게 인식된다.
이 문제점에 대한 하나의 해결책은 특정한 언어 모델이 입력 신호의 위치에 기초하여 선택되는 로컬 언어 모델들의 생성일 수 있다. 예를 들면, 서비스 영역은 다수의 지리적 구역들로 분할될 수 있고 로컬 언어 모듈은 각각의 구역에 대해 구성될 수 있다. 그러나, 이러한 접근법은 반대 방향으로 왜곡된 인식 결과들을 초래할 수 있다. 즉, 특정한 구역에 유일하지 않은 입력 신호들은 로컬 단어 시퀀스로서 부적절하게 인식될 수 있고, 이는 언어 모델이 로컬 단어 시퀀스들에 더 심하게 가중치를 부여하기 때문이다. 부가적으로, 이러한 해결책은 하나의 지리적 구역을 단지 고려하고, 이는 위치가 지리적 구역의 가장자리에 가깝고 입력 신호가 이웃하는 지리적 구역에서 유일한 단어 시퀀스에 대응하면, 여전히 부정확한 결과들을 생성할 수 있다.
본 발명의 부가적인 특징들 및 장점들은 아래의 설명에서 제시될 것이고, 부분적으로는 설명으로부터 분명할 것이거나, 본 명세서에서 개시된 원리들의 실행에 의해 학습될 수 있다. 본 발명의 특징들 및 장점들은 특히 첨부된 특허청구범위에서 언급된 기구들 및 조합들의 수단에 의해 실현되고 얻어질 수 있다. 본 발명의 이들 및 다른 특징들은 아래의 설명 및 첨부된 특허청구범위로부터 더 완전하게 명백해질 것이거나, 본 명세서에서 제시된 원리들의 실행에 의해 학습될 수 있다.
본 발명은 단어 시퀀스를 생성하기 위해 입력 신호를 자동적으로 인식하기 위한 시스템들, 방법들, 및 비일시적 컴퓨터 판독가능 매체들을 설명한다. 방법은 음성 신호와 같은, 입력 신호, 및 연관된 위치를 수신하는 단계를 포함한다. 위치에 기초하여, 제 1 로컬 언어 모델이 선택된다. 일부 구성들에서, 각각의 로컬 언어 모델은 연관된 미리 규정된 지리적 구역(geo-region)을 갖는다. 이 경우에, 로컬 언어 모델은 먼저 위치에 대해 매우 적합한 지리적 구역을 식별함으로써 선택된다. 지리적 구역이 선택될 수 있고, 이는 위치가 지리적 구역 내에 포함되고/포함되거나 위치가 지리적 구역에 할당된 중심(centroid)의 규정된 임계 거리 내에 있기 때문이다. 제 1 로컬 언어 모델은 그 다음, 하이브리드 언어 모델을 생성하기 위해 글로벌 언어 모델과 병합된다. 입력 신호는 통계적으로 입력 신호에 가장 대응할 것 같은 단어 시퀀스를 식별함으로써 하이브리드 언어 모델에 기초하여 인식된다.
일부 구성들에서, 한 세트의 부가적인 로컬 언어 모델들은 위치에 기초하여 선택될 수 있다. 그 다음, 제 1 로컬 언어 모델 및 부가적인 언어 모델들의 세트에서의 각각의 언어 모델은 하이브리드 언어 모델을 생성하기 위해 글로벌 언어 모델과 병합될 수 있다. 부가적으로, 일부 경우들에서, 병합 이전에, 로컬 언어 모델들 중 하나 이상의 로컬 언어 모델들은 가중치를 할당받을 수 있다. 가중치는 로컬 언어 모델을 구축하기 위해 사용된 로컬 정보의 인지된 정확성 및/또는 지리적 구역의 중심으로부터의 위치의 거리와 같은 다양한 팩터(factor)들에 기초할 수 있다. 가중치가 할당될 때, 가중치는 병합 단계에 영향을 미치기 위해 사용될 수 있다.
일부 구현예들에 따라, 입력 신호 인식을 위한 방법이 제공되고, 방법은 입력 신호 및 입력 신호와 연관된 위치를 수신하는 단계: 상기 위치에 기초하여 복수의 로컬 언어 모델들로부터 제 1 언어 모델을 선택하는 단계; 프로세서를 통해, 하이브리드 언어 모델을 생성하기 위해 상기 제 1 로컬 언어 모델 및 글로벌 언어 모델을 병합하는 단계; 및 통계적으로 입력 신호에 가장 대응할 것 같은 단어 시퀀스를 식별함으로써 하이브리드 언어 모델에 기초하여 입력 신호를 인식하는 단계를 포함한다.
일부 구현예들에서, 입력 신호는 음성 신호이다. 일부 구현예들에서, 제 1 로컬 언어 모델은 위치와 연관되는 지리적 구역에 매핑되고, 지리적 구역은 중심을 포함한다. 일부 구현예들에서, 위치는 지리적 구역 내에 포함된다. 일부 구현예들에서, 위치는 중심의 규정된 임계 거리 내에 있다. 일부 구현예들에서, 지리적 구역은 확립된 지리적 위치에 의해 정의된다.
일부 구현예들에서, 방법은 위치에 기초하여 복수의 로컬 언어 모델들로부터 제 2 로컬 언어 모델을 선택하는 단계를 포함하고, 하이브리드 언어 모델을 생성하기 위해 제 1 로컬 언어 모델, 제 2 로컬 언어 모델, 및 글로벌 언어 모델을 병합하는 단계를 추가로 포함한다. 일부 구현예들에서, 방법은 제 1 로컬 언어 모델, 제 2 로컬 언어 모델, 및 글로벌 언어 모델을 병합하기 이전에, 제 1 가중치 값(및/또는 스케일링 팩터)을 제 1 로컬 언어 모델에 할당하고 제 2 가중치 값(및/또는 스케일링 팩터)을 제 2 로컬 언어 모델에 할당하는 단계를 포함한다. 일부 구현예들에서, 제 1 또는 제 2 가중치 값(및/또는 스케일링 팩터) 중 적어도 하나는 선택된 지리적 구역 내에 포함된 중심으로부터의 위치의 거리에 적어도 부분적으로 기초한다. 일부 구현예들에서, 제 1 또는 제 2 가중치 값(및/또는 스케일링 팩터) 중 적어도 하나는 로컬 언어 모델에 할당된 정확도 레벨에 적어도 부분적으로 기초한다. 일부 구현예들에서, 제 1 또는 제 2 가중치 값 중 적어도 하나는, 위치가 위치와 연관된 지리적 구역의 밖에 있을 때 제 1 또는 제 2 로컬 언어 모델에 각각 적용된다.
일부 구현예들에서, 제 1 로컬 언어 모델은 로컬 거리 명칭, 로컬 이웃 명칭, 로컬 사업체 명칭, 로컬 랜드마크 명칭, 및 로컬 명소 명칭 중 적어도 하나를 포함한다. 일부 구현예들에서, 제 1 및 제 2 로컬 언어 모델 중 적어도 하나는 통계적 언어 모델이고, 통계적 언어 모델은 로컬 폰북, 로컬 옐로우페이지 리스트들, 로컬 신문, 로컬 맵, 로컬 광고, 및 로컬 블로그 중 적어도 하나를 사용하여 구축된다.
일부 구현예들에 따라, 전자 디바이스는 하나 이상의 프로세서들, 메모리, 및 하나 이상의 프로그램들을 포함하고; 하나 이상의 프로그램들은 메모리에 저장되고 상기 하나 이상의 프로세서들에 의해 실행되도록 구성되고, 하나 이상의 프로그램들은 상기 설명된 방법들 및/또는 기술들 중 임의의 하나의 동작들을 수행하기 위한 명령어들을 포함한다. 일부 구현예들에 따라, 컴퓨터 판독가능 저장 매체에는 전자 디바이스에 의해 실행될 때, 디바이스로 하여금 상기 설명된 방법들 및/또는 기술들 중 임의의 하나의 동작들을 수행하게 하는, 명령어들이 저장된다. 일부 구현예들에 따라, 전자 디바이스는 상기 설명된 방법들 및/또는 기술들 중 임의의 하나의 동작들을 수행하기 위한 수단을 포함한다. 일부 구현예들에 따라, 전자 디바이스에서 사용하기 위한 정보 프로세싱 장치는 상기 설명된 방법들 및/또는 기술들 중 임의의 하나의 동작들을 수행하기 위한 수단을 포함한다.
일부 구현예들에 따라, 전자 디바이스는 입력 수신 유닛 및 입력 수신 유닛에 결합된 프로세싱 유닛을 포함하고, 입력 수신 유닛은 입력 신호 및 입력 신호에 연관된 위치를 수신하도록 구성되고; 프로세싱 유닛은: 상기 위치에 기초하여 복수의 로컬 언어 모델들로부터 제 1 언어 모델을 선택하고; 하이브리드 언어 모델을 생성하기 위해 상기 제 1 로컬 언어 모델 및 글로벌 언어 모델을 병합하고; 통계적으로 입력 신호에 가장 대응할 것 같은 단어 시퀀스를 식별함으로써 하이브리드 언어 모델에 기초하여 입력 신호를 인식하도록 구성된다.
본 발명의 상기 언급된 장점들 및 다른 장점들과 특징들이 얻어질 수 있는 방식을 설명하기 위해, 상기 간략하게 설명된 원리들의 더 특정한 설명은 첨부된 도면들에 도시되는 그의 특정한 실시예들을 참조함으로써 이루어질 것이다. 이들 도면들은 단지 본 발명의 예시적인 실시예들만 도시하고, 따라서 그것의 범위로 제한되는 것으로 고려되지 않아야 함을 이해하기 위해, 본 명세서에서의 원리들은 첨부된 도면들의 사용을 통해 부가적으로 구체적이고 상세하게 설명되고 기술된다.
<도 1>
도 1은 일 예시적인 시스템 실시예를 도시한 도면;
<도 2>
도 2는 위치 기반 입력 신호 인식을 위한 일 예시적인 클라이언트 서버 구성을 도시한 도면;
<도 3>
도 3은 지리적 구역들의 일 예시적인 세트를 도시한 도면;
<도 4>
도 4는 일 예시적인 음성 인식 처리를 도시한 도면;
<도 5>
도 5는 일 예시적인 위치 기반 가중 방식을 도시한 도면;
<도 6>
도 6은 단일 로컬 언어 모델을 사용하여 입력 신호를 인식하기 위한 일 예시적인 방법 실시예를 도시한 도면;
<도 7>
도 7은 다수의 로컬 언어 모델들을 사용하여 입력 신호를 인식하기 위한 일 예시적인 방법 실시예를 도시한 도면;
<도 8>
도 8은 위치 기반 입력 신호 인식을 위한 일 예시적인 클라이언트 디바이스 구성을 도시한 도면; 및
<도 9>
도 9는 클라이언트 디바이스에 대한 위치 기반 입력 신호 인식을 위한 일 예시적인 방법 실시예를 도시한 도면.
<도 10>
도 10은 일부 실시예들에 따른 전자 디바이스의 기능적 블록도를 도시한 도면.
본 발명의 다양한 실시예들이 아래에 상세하게 논의된다. 특정 구현예들이 논의될지라도, 이것은 단지 도시적인 목적들을 위해 행해짐이 이해되어야 한다. 관련 분야의 숙련자는 다른 컴포넌트들 및 구성들이 본 발명의 사상 및 범주로부터 벗어남이 없이 사용될 수 있음을 인식할 것이다.
본 발명은 음성 인식 또는 키보드로부터의 입력의 자동 완성을 위한 것과 같은, 향상된 자동화 입력 신호 인식에 대한 분야에서의 요구를 해결한다. 본 기술을 사용하여, 입력 신호의 위치에 관련된 정보를 사용함으로써 인식 결과들을 향상시키는 것이 가능하다. 이것은 특히, 입력 신호가 글로벌적으로 낮은 발생 확률을 가질 것이지만 특정한 지리적 구역에서 훨씬 더 높은 발생 확률을 가질 단어 시퀀스를 포함할 때 참이다. 예를 들면, 입력 신호가 구어들 "고트 힐(goat hill)"임을 가정하자. 글로벌적으로 이 단어 시퀀스는 매우 낮은 발생 확률을 가질 수 있고, 따라서 입력 신호는 "굿 윌(good will)"과 같은 더 공통적인 단어 시퀀스로서 인식될 수 있다. 그러나, 입력 신호가 "고트 힐"로 불리는 유명한 카페가 있는 도시의 누군가에 의해 언급되었다면, 화자가 입력 신호를 "고트 힐"로서 인식되도록 의도한 훨씬 더 큰 가능성이 존재한다. 본 기술은 로컬 정보를 인식 처리에 팩터링(factoring)함으로써 이 결점을 해결한다.
본 발명은 먼저 자동화 입력 신호 인식의 더 상세한 설명으로 되돌아오기 전에 본 명세서에서 개시된 개념들을 실행하기 위해 이용될 수 있는 도 1에서의 기본적인 범용 시스템 또는 컴퓨팅 디바이스의 논의를 시작한다. 도 1을 참조하면, 일 예시적인 시스템은 프로세싱 유닛(CPU 또는 프로세서)(120) 및 판독 전용 메모리(ROM)(140)와 랜덤 액세스 메모리(RAM)(150)와 같은 시스템 메모리(130)를 포함하는 다양한 시스템 컴포넌트들을 프로세서(120)에 결합시키는 시스템 버스(110)를 포함하는, 범용 컴퓨팅 디바이스(100)를 포함한다. 디바이스(100)는 프로세서(120)와 직접적으로 접속되거나, 상기 프로세서(120)에 인접하거나, 상기 프로세서(120)의 부분으로서 통합된 캐시(122)를 포함할 수 있다. 디바이스(100)는 메모리(130) 및/또는 (하드 디스크를 포함할 수 있는) 저장 디바이스(160)로부터 프로세서(120)에 의한 빠른 액세스를 위해 캐시로 데이터를 복사한다. 이 방식으로, 캐시는 데이터를 기다리는 동안 프로세서(120) 지연들을 회피하는 성능 부스트(performance boost)를 제공한다. 이들 및 다른 모듈들은 다양한 동작들을 수행하기 위해 프로세서(120)를 제어할 수 있거나 상기 프로세서(120)를 제어하도록 구성될 수 있다. 다른 시스템 메모리(130)는 또한 사용하기 위해 이용가능할 수 있다. 메모리(130)는 상이한 성능 특성들을 갖는 다수의 상이한 유형들의 메모리를 포함할 수 있다. 본 발명이 더 큰 처리 능력을 제공하기 위해 하나보다 많은 프로세서(120)를 갖는 컴퓨팅 디바이스(100)에 대해 또는 함께 네트워킹된 한 그룹 또는 클러스터의 컴퓨팅 디바이스들에 대해 동작할 수 있음이 인식될 수 있다. 프로세서(120)는 임의의 범용 프로세서 및 프로세서(120) 뿐만 아니라, 소프트웨어 명령어들이 실제 프로세서 설계에 통합되는 특수 목적 프로세서를 제어하도록 구성된, 저장 디바이스(160)에 저장된 모듈 1("MOD1")(162), 모듈 2("MOD2")(164), 및 모듈 3("MOD3")(166)과 같은 하드웨어 모듈 또는 소프트웨어 모듈을 포함할 수 있다. 프로세서(120)는 다수의 코어들 또는 프로세서들, 버스, 메모리 컨트롤러, 캐시 등을 포함하는, 필수적으로 완전한 독립식 컴퓨팅 시스템일 수 있다. 멀티 코어 프로세서는 대칭 또는 비대칭일 수 있다.
시스템 버스(110)는 다양한 버스 아키텍처들 중 임의의 버스 아키텍처를 사용하는 메모리 버스 또는 메모리 컨트롤러, 주변 버스, 및 로컬 버스를 포함하는 몇몇 유형들의 버스 구조들 중 임의의 버스 구조일 수 있다. ROM(140) 등에 저장된 기본 입력/출력(BIOS)은 예를 들면, 가동 동안에 컴퓨팅 디바이스(100) 내의 요소들 사이에 정보를 전송하는데 도움을 주는 기본 루틴을 제공할 수 있다. 컴퓨팅 디바이스(100)는 하드 디스크 드라이브, 자기 디스크 드라이브, 광 디스크 드라이브, 테이프 드라이브 등과 같은 저장 디바이스(160)들을 추가로 포함한다. 저장 디바이스(160)는 프로세서(120)를 제어하기 위한 소프트웨어 모듈들(162, 164, 166)을 포함할 수 있다. 다른 하드웨어 또는 소프트웨어 모듈들이 고려된다. 저장 디바이스(160)는 드라이브 인터페이스에 의해 시스템 버스(110)에 접속된다. 드라이브들 및 연관된 컴퓨터 판독가능 저장 매체들은 컴퓨터 판독가능 명령어들의 비휘발성 저장, 데이터 구조들, 프로그램 모듈들 및 다른 데이터를 컴퓨팅 디바이스(100)에 제공한다. 하나의 양태에서, 특정한 기능을 수행하는 하드웨어 모듈은 기능을 실행하기 위해, 프로세서(120), 버스(110), 출력 디바이스(170) 등과 같은 필요한 하드웨어 컴포넌트들과 관련하여 비일시적 컴퓨터 판독가능 매체에 저장된 소프트웨어 컴포넌트를 포함한다. 기본 컴포넌트들은 당업자들에게 공지되고 적절한 변형들은 디바이스(100)가 소형인지, 핸드헬드 컴퓨팅 디바이스인지, 데스트톱 컴퓨터인지, 또는 컴퓨터 서버인지의 여부와 같은, 디바이스의 유형에 의존하여 고려된다.
본 명세서에서 설명된 예시적인 실시예가 저장 디바이스(160)를 위해 하나의 하드 디스크를 이용할지라도, 자기 카세트들, 플래시 메모리 카드들, 디지털 다기능 디스크들, 카트리지들, 랜덤 액세스 메모리(RAM)(150)들, 판독 전용 메모리(ROM)(140), 케이블 또는 비트 스트림 등을 포함하는 무선 신호와 같은, 컴퓨터에 의해 액세스 가능한 데이터를 저장할 수 있는 다른 유형들의 컴퓨터 판독가능 매체들이 또한 예시적인 조작 환경에서 사용될 수 있음이 당업자들에 의해 인식되어야 한다. 비일시적 컴퓨터 판독가능 저장 매체들은 에너지, 반송파 신호들, 전자기 파들, 및 신호 그 자체와 같은 매체들을 분명하게 배제한다.
컴퓨팅 디바이스(100)와의 사용자 상호작용을 가능하게 하기 위해, 입력 디바이스(190)는 연설하기 위한 마이크로폰, 제스처 또는 그래픽 입력을 위한 터치 감지 스크린, 키보드, 마우스, 움직임 입력, 음성 등과 같은, 임의의 수의 입력 메커니즘들을 표현한다. 출력 디바이스(170)는 또한 당업자들에 공지된 복수의 출력 메커니즘들 중 하나 이상의 출력 메커니즘들일 수 있다. 일부 예들에서, 다중 생체 인식 시스템(multimodal system)들은 사용자가 컴퓨팅 디바이스(100)와 통신하기 위해 다수의 유형들의 입력을 제공할 수 있다. 통신 인터페이스(180)는 일반적으로 사용자 입력 및 시스템 출력을 통제하고 관리한다. 임의의 특정한 하드웨어 장치에 대한 동작에 관한 어떠한 제약도 존재하지 않고, 따라서 본 명세서에서의 기본 특징부들은 향상된 하드웨어 또는 펌웨어 장치들이 발전함에 따라 그들로 용이하게 대체될 수 있다.
설명의 명료성을 위해, 도시적인 시스템 실시예는 "프로세서" 또는 프로세서(120)로서 라벨링된 기능적 블록들을 포함하는 개별적인 기능적 블록들을 포함하는 것으로서 제시된다. 이들 블록들이 표현하는 기능들은 소프트웨어를 실행할 수 있는 하드웨어 및 범용 프로세서 상에서 실행하는 소프트웨어와 등가물인 것으로서 동작하도록 특별히 구축되는 프로세서(120)와 같은, 하드웨어를 포함하지만, 이에 제한되지 않는 공유되거나 전용 하드웨어의 사용을 통해 제공될 수 있다. 예를 들면, 도 1에서 제시된 하나 이상의 프로세서들의 기능들은 단일 공유 프로세서 또는 다수의 프로세서들에 의해 제공될 수 있다. (용어 "프로세서"의 사용은 오로지 소프트웨어를 실행할 수 있는 하드웨어를 언급하도록 해석되어서는 안된다) 도시적인 실시예들은 마이크로프로세서 및/또는 디지털 신호 처리기(DSP) 하드웨어, 아래에 논의된 동작들을 수행하는 소프트웨어를 저장하기 위한 판독 전용 메모리(ROM)(140), 및 결과들을 저장하기 위한 랜덤 액세스 메모리(RAM)(150)를 포함할 수 있다. 초대규모 집적 회로(VLSI) 하드웨어 실시예들 뿐만 아니라, 범용 DSP 회로와 조합하는 주문형 VLSI 회로가 또한 제공될 수 있다.
다양한 실시예들의 논리 연산들은 다음으로서 구현된다: (1) 일반 사용 컴퓨터 내의 프로그래밍가능한 회로 상에서 구동하는 컴퓨터 구현 단계들, 동작들, 또는 절차들의 시퀀스, (2) 특수 사용 프로그래밍가능한 회로 상에서 구동하는 컴퓨터 구현 단계들, 동작들, 또는 절차들의 시퀀스; 및/또는 (3) 프로그래밍가능한 회로들 내의 상호접속된 기계 모듈들 또는 프로그램 엔진들. 도 1에 도시된 디바이스(100)는 언급된 방법들의 모두 또는 일부를 실행할 수 있고, 언급된 시스템들의 일부일 수 있고/있거나, 언급된 비일시적 컴퓨터 판독가능 저장 매체들에서의 명령어들에 따라 동작할 수 있다. 이러한 논리 연산들은 모듈의 프로그래밍에 따라 특정한 기능들을 수행하기 위해 프로세서(120)를 제어하도록 구성된 모듈들로서 구현될 수 있다. 예를 들면, 도 1은 프로세서(120)를 제어하도록 구성된 모듈들인 3개의 모듈들(Mod1(162), Mod2(164) 및 Mod3(166))을 도시한다. 이들 모듈들은 저장 디바이스(160) 상에 저장될 수 있고 구동시 RAM(150) 또는 메모리(130)에 로딩될 수 있거나 다른 컴퓨터 판독가능 메모리 위치들의 분야에서 공지된 바와 같이 저장될 수 있다.
본 기술의 상세한 설명을 개시하기 전에, 본 발명은 음성 신호와 같은, 임의의 입력 신호가 어떻게 단어 시퀀스를 생성하기 위해 인식될 수 있는지의 간략한 도입 설명을 제공한다. 도입 설명은 통계적 언어 모델링에 기초하여 인식 처리를 개시한다. 그러나, 관련 분야의 숙련자는 대안적인 언어 모델링 기술들이 또한 사용될 수 있을 것임을 인식할 것이다.
음성 인식 또는 키보드로부터의 입력의 자동 완성과 같은, 자동화 입력 신호 인식에서, 입력 신호가 수신되고 언어 모델은 입력 신호에 가장 대응할 것 같은 단어 시퀀스를 식별하기 위해 사용될 수 있다. 예를 들면, 자동화 음성 인식에서, 언어 모델은 음향 신호를 가장 언급될 것 같은 단어 시퀀스로 번역하기 위해 사용될 수 있다.
입력 신호 인식에서 사용된 언어 모델은 언어의 속성들을 캡처하기 위해 설계될 수 있다. 입력 신호를 단어 시퀀스로 번역하기 위해 사용된 하나의 공통 언어 모델링 기술은 통계적 언어 모델링이다. 통계적 언어 모델링에서, 언어 모델은 확률 분포를 생성하기 위해 타겟 언어의 큰 샘플들을 분석함으로써 구축되고, 상기 언어 모델은 그 다음, 확률을 m개의 단어들의 시퀀스: P(w l , ..., w m )에 할당하기 위해 사용될 수 있다. 통계적 언어 모델을 사용하여, 입력 신호는 그 다음, 하나 이상의 단어 시퀀스들에 매핑될 수 있다. 가장 큰 발생 확률을 갖는 단어 시퀀스가 그 다음, 선택될 수 있다.예를 들면, 입력 신호는 단어 시퀀스들 "굿 윌", "굿 힐(good hill)", "고트 힐", 및 "고트 윌(goat will)"에 매핑될 수 있다. 단어 시퀀스 "굿 윌"이 가장 큰 발생 확률을 갖는다면, "굿 윌"은 인식 처리의 출력이 될 것이다.
관련 분야의 숙련자는 본 발명이 종종 본 기술을 도시하기 위해 음성 인식을 사용할지라도, 인식 처리가 다양한 상이한 입력 신호들에 적용될 수 있음을 인식할 것이다. 예를 들면, 본 기술은 또한 키워드 검색 용어들 제안하기 위해 또는 키보드로부터의 입력의 자동 완성을 위해 정보 검색 시스템들에서 사용될 수 있다. 예를 들면, 본 기술은 자동 완성 리스트에서 더 높은 관심 있는 로컬 지점들의 순위를 매기기 위해 자동 완성에서 사용될 수 있다.
임의의 입력 신호가 어떻게 통계적 언어 모델을 사용하여 단어 시퀀스를 생성하기 위해 인식될 수 있는지의 도입 설명을 개시했으면, 본 발명은 이제 위치 기반 언어 모델링을 사용하여 입력 신호를 자동적으로 인식하는 논의로 되돌아온다. 관련 분야의 숙련자는 본 발명이 인식 처리를 도시하기 위해 통계적 언어 모델을 사용할지라도, 대안적인 언어 모델들이 또한 본 분야의 사상 및 범주로부터 벗어남이 없이 가능하다는 것을 인식할 것이다.
도 2는 위치 기반 입력 신호 인식을 위한 일 예시적인 클라이언트 서버 구성(200)을 도시한다. 예시적인 클라이언트 서버 구성(200)에서, 인식 시스템(206)은 도 1에서의 디바이스(100)와 같은 범용 컴퓨팅 디바이스와 같은, 서버 상에 상주하도록 구성될 수 있다.
시스템 구성(200)에서, 인식 시스템(206)은 직접 및/또는 간접 통신을 통해 네트워크(204)에 접속된 하나 이상의 클라이언트 디바이스들(2021, 2022, ..., 202n)(집합적으로 "202")과 통신할 수 있다. 인식 시스템(206)은 데스크톱 컴퓨터들; 모바일 컴퓨터들; 핸드헬드 통신 디바이스들 예를 들면, 모바일폰들, 스마트폰들, 태블릿들; 및/또는 임의의 다른 네트워크 가능한 통신 디바이스들과 같은 다양한 상이한 클라이언트 디바이스들로부터의 접속들을 지원할 수 있다. 또한, 인식 시스템(206)은 다수의 클라이언트 디바이스(202)들로부터의 접속들을 동시에 수락할 수 있고 상기 다수의 클라이언트 디바이스(202)들과 상호작용할 수 있다.
인식 시스템(206)은 클라이언트 디바이스(202)로부터 입력 신호를 수신할 수 있다. 입력 신호는 대표 단어 시퀀스에 매핑될 수 있는 임의의 유형의 신호일 수 있다. 예를 들면, 입력 신호는 인식 시스템(206)이 통계적으로 입력 음성 신호를 가장 표현할 것 같은 단어 시퀀스를 생성할 수 있는 음성 신호일 수 있다. 대안적으로, 입력 시퀀스는 텍스트 시퀀스일 수 있다. 이 경우에, 인식 시스템은 통계적으로 수신된 입력 텍스트 신호를 가장 완성할 것 같은 단어 시퀀스를 생성하도록 구성될 수 있고 예를 들면, 입력 텍스트 신호는 "굿(good)"일 수 있고 생성된 단어 시퀀스는 "굿 데이(good day)"일 수 있다.
인식 시스템(206)은 또한 클라이언트 디바이스(202)와 연관된 위치를 수신할 수 있다. 위치는 위도 및/또는 경도, GPS 좌표들, 집 코드(zip code), 도시, 주, 지역 코드 등과 같은, 다양한 상이한 포맷들로 표현될 수 있다. 클라이언트 디바이스(202)의 위치를 식별하기 위한 다양한 자동화된 방법들 예를 들면, GPS, 삼각측량, IP 어드레스 등이 가능하다. 부가적으로, 일부 구성들에서, 클라이언트 디바이스의 사용자는, 클라이언트 디바이스(202)가 현재 어디에 위치되는지를 표현하는, 집 코드, 도시, 주, 및/또는 지역 코드와 같은, 위치를 입력할 수 있다. 또한, 일부 구성들에서, 클라이언트 디바이스의 사용자는, 디폴트 위치가 항상 현재 위치를 대신하여 제공되거나 클라이언트 디바이스가 현재 위치를 결정할 수 없을 때 제공되도록 클라이언트 디바이스에 대한 디폴트 위치를 설정할 수 있다. 위치는 입력 신호와 결부하여 수신될 수 있거나, 그것은 클라이언트 디바이스(202)와의 다른 상호작용을 통해 얻어질 수 있다.
인식 시스템(206)은 입력 신호의 인식을 용이하게 하기 위해 복수의 컴포넌트들을 포함할 수 있다. 컴포넌트들은 하나 이상의 데이터베이스들 예를 들면, 글로벌 언어 모델 데이터베이스(214) 및 로컬 언어 모델 데이터베이스(216), 및 데이터베이스들과 상호작용하고/상호작용하거나 입력 신호를 인식하기 위한 하나 이상의 모듈들 예를 들면, 통신 인터페이스(208), 로컬 언어 모델 선택기(209), 하이브리드 언어 모델 구축기(210), 및 인식 엔진(212)을 포함할 수 있다. 도 2에 도시된 구성이 단순하게 하나의 가능한 구성이고 다소간의 컴포넌트들을 갖는 다른 구성들이 또한 가능함이 당업자에게 이해되어야 한다.
도 2에서의 예시적인 구성(200)에서, 인식 시스템(206)은 2개의 데이터베이스들을 유지한다. 글로벌 언어 모델 데이터베이스(214)는 하나 이상의 글로벌 언어 모델들을 포함할 수 있다. 상기 설명된 바와 같이, 언어 모델은 언어의 속성들을 캡처하기 위해 사용되고 입력 신호를 단어 시퀀스로 번역하거나 단어 시퀀스를 예측하기 위해 사용될 수 있다. 글로벌 언어 모델은 언어의 일반적인 속성들을 캡처하도록 설계된다. 즉, 모델은 인구 또는 지리적 구역의 세그먼트에서 증가된 발생 확률을 가질 수 있는 단어 시퀀스들과는 대조적인 일반적인 단어 시퀀스들을 캡처하도록 설계된다. 예를 들면, 글로벌 언어 모델은 다수의 영어 사용자들에 의해 널리 사용되는 단어 시퀀스들을 캡처하는 영어에 대해 구축될 수 있다. 언어 모델이 언어의 속성들을 캡처하기 위해 사용되기 때문에, 일부 구성들에서, 글로벌 언어 모델 데이터베이스(214)는 상이한 언어들 예를 들면, 영어, 스페인어, 프랑스어, 일본어 등에 대한 상이한 언어 모델들을 유지할 수 있고, 폰북들, 옐로우페이지들, 로컬 신문들, 블로그들, 맵들, 로컬 광고들 등을 포함하는 다양한 샘플 로컬 텍스트들을 사용하여 구축될 수 있다.
로컬 언어 모델 데이터베이스(216)는 하나 이상의 로컬 언어 모델들을 포함할 수 있다. 로컬 언어 모델은 특정한 지리적 구역에 유일할 수 있는 단어 시퀀스들을 캡처하도록 설계될 수 있다. 각각의 로컬 언어 모델은 로컬 거리 명칭들, 사업체 명칭들, 이웃 명칭들, 랜드마크 명칭들, 명소들, 진미(culinary delicacy)들 등과 같은, 로컬 정보를 사용하여 생성될 수 있다.
각각의 로컬 언어 모델은 미리 정의된 지리적 구역(geographi region, 또는 geo-region)과 연관될 수 있다. 지리적 구역들은 다양한 방식들로 정의될 수 있다. 예를 들면, 지리적 구역들은 집 코드, 지역 코드, 도시, 자치주 등과 같은 잘 확립된 지리적 구역들에 기초할 수 있다. 대안적으로, 지리적 구역들은 예를 들면, 사용자들의 분포에 기초하여 서비스 영역을 다수의 지리적 구역들로 분할함으로써 임의의 지리적 구역들을 사용하여 정의될 수 있다. 부가적으로, 지리적 구역들은 중첩하거나 상호 배타적인 것으로서 정의될 수 있다. 또한, 일부 구성들에서, 지리적 구역들 사이에 갭(gap)들이 존재할 수 있다. 즉, 지리적 구역의 부분이 아닌 영역들이 그것이다.
도 3은 지리적 구역들(300)의 일 예시적인 세트를 도시한다. 지리적 구역들(300)의 예시적인 세트는 도 3에 도시된 바와 같은, 상이한 크기들 예를 들면, 지리적 구역들(304 및 306), 및 형태들 예를 들면, 지리적 구역들(302, 304, 308, 및 310)일 수 있는 다수의 지리적 구역들을 포함할 수 있다. 부가적으로, 지리적 구역들은 지리적 구역들(304 및 306)에 의해 도시된 바와 같은, 중첩하는 것일 수 있다. 또한, 지리적 구역에 의해 커버되지 않는 영역들이 존재하도록 지리적 구역들 사이에 갭들이 존재할 수 있다. 예를 들면, 수신된 위치가 지리적 구역들(304 및 308) 사이에 있으면, 그것은 지리적 구역에 포함되지 않는다.
각각의 지리적 구역은 중심과 연관될 수 있거나 상기 중심을 포함할 수 있다. 중심은 위치에 의해 정의된 지리적 구역의 미리 정의된 초점(focal point)일 수 있다. 중심의 위치는 복수의 상이한 방식들로 선택될 수 있다. 예를 들면, 중심의 위치는 위치의 지리적 중심일 수 있다. 대안적으로, 중심의 위치는 시청과 같은, 도시 중심에 기초하여 정의될 수 있다. 중심의 위치는 또한 로컬 언어 모델을 구축하기 위해 사용된 정보의 밀도에 기초할 수 있다. 즉, 다수의 정보가 특정한 위치 주위에 매우 집중되면, 그 위치는 중심으로서 선택될 수 있다. 인구 분포와 같은, 중심을 위치시키는 부가적인 방법들이 또한 가능하다.
도 2로 되돌아오면, 인식 시스템(206)이 다소간의 데이터베이스들로 구성될 수 있음이 당업자에게 이해되어야 한다. 예를 들면, 글로벌 언어 모델(들) 및 로컬 언어 모델들은 단일 데이터베이스에 유지될 수 있다. 대안적으로, 인식 시스템(206)은 개별적인 데이터베이스들이 지원된 각각의 언어에 대한 글로벌 언어 모델 및 모든 로컬 언어 모델들 둘 모두를 포함하는 그 언어에 대한 데이터베이스를 유지하도록 구성될 수 있다. 글로벌 및 로컬 언어 모델들을 분배하는 부가적인 방법들이 또한 가능하다.
도 2에서의 예시적인 구성에서, 인식 시스템(206)은 데이터베이스들과 상호작용하고/상호작용하거나 입력 신호를 인식하기 위한 4개의 모듈들을 유지한다. 통신 인터페이스(208)는 클라이언트 디바이스(202)로부터 입력 신호 및 연관된 위치를 수신하도록 구성될 수 있다. 입력 신호 및 위치의 수신 후에, 통신 인터페이스는 입력 신호 및 위치를 인식 시스템(206)에서의 다른 모듈들로 전송할 수 있어서, 입력 신호가 인식될 수 있게 한다.
인식 시스템(206)은 또한 로컬 언어 모델 선택기(209)를 유지할 수 있다. 로컬 언어 모델 선택기(209)는 통신 인터페이스(208)로부터 위치를 수신하도록 구성될 수 있다. 위치에 기초하여, 로컬 언어 모델 선택기(209)는 하이브리드 언어 모델 구축기(210)로 전달될 수 있는 하나 이상의 로컬 언어 모델들을 선택할 수 있다. 하이브리드 언어 모델 구축기(210)는 하이브리드 언어 모델을 생성하기 위해 하나 이상의 로컬 언어 모델들 및 글로벌 언어 모델을 병합할 수 있다. 마지막으로, 인식 엔진(212)은 입력 신호를 인식하기 위해 하이브리드 언어 모델 구축기(210)에 의해 구축된 하이브리드 언어 모델을 수신할 수 있다.
상기 설명된 바와 같이, 본 기술의 하나의 양태는 위치 정보의 수집 및 사용이다. 본 발명은 본 기술에서의 위치 기반 데이터의 사용이 사용자에게 이득을 주기 위해 사용될 수 있음을 인식한다. 예를 들면, 위치 기반 데이터는 입력 신호 인식 결과들을 향상시키기 위해 사용될 수 있다. 본 발명은 또한 위치 기반 데이터의 수집 및/또는 사용에 책임이 있는 엔티티(entity)들이 위치 기반 데이터를 개인적이고 안전하게 유지하기 위한 산업 또는 정부 요구조건들을 충족하거나 초과하는 것으로서 일반적으로 인식되는 프라이버시 정책들 및 관례들을 구현하고 지속적으로 사용해야 한다는 것을 고려한다. 예를 들면, 사용자들로부터의 위치 기반 데이터는 엔티티의 합법적이고 타당한 사용들을 위해 수집되어야 하고 그들의 합법적인 사용들을 벗어나서 공유되거나 판매되어서는 안된다. 게다가, 이러한 수집은 단지 사용자들의 통지된 동의 후에만 발생해야 한다. 부가적으로, 이러한 엔티티들은 이러한 위치 기반 데이터로의 액세스를 보호하고 안전하게 하기 위해 그리고 위치 기반 데이터로 액세스하는 다른 사람들이 그들의 프라이버시 및 보안 정책들과 절차들을 고수함을 보장하기 위한 임의의 필요한 조치를 취해야 한다. 게다가, 이러한 엔티티들은 널리 인정된 프라이버시 정책들 및 관례들에 대한 그들의 고수를 증명하기 위해 제 3 자들에 의해 그들 자신들이 평가를 받을 수 있다.
상기 언급한 것에도 불구하고, 본 발명은 또한 사용자들이 위치 기반 데이터의 사용, 또는 상기 위치 기반 데이터로의 액세스를 선택적으로 차단하는 실시예들을 고려한다. 즉, 본 발명은 하드웨어 및/또는 소프트웨어 요소들이 이러한 위치 기반 데이터로의 액세스를 방지하거나 차단하기 위해 제공될 수 있음을 고려한다. 예를 들면, 본 기술은 사용자들이 서비스를 위한 등록 동안의 또는 선호도 설정을 통한 위치 기반 데이터의 수집에 대한 참여의 "동의함" 또는 "동의하지 않음"을 선택하는 것을 허용하도록 구성될 수 있다. 또 다른 예에서, 사용자들은 입력 신호 인식 시스템에 제공된 위치 정보의 그래뉼레리티(granularity)를 규정할 수 있고 예를 들면, 사용자는 클라이언트 디바이스가 GPS 좌표들이 아닌 집 코드를 송신하는 것을 허가한다.
따라서, 본 발명이 하나 이상의 다양한 개시된 실시예들을 구현하기 위해 위치 기반 데이터의 사용을 광범위하게 커버할지라도, 본 발명은 또한 다양한 실시예들이 또한 위치 기반 데이터의 그래뉼레리티들을 변경하는 것을 사용하여 구현될 수 있음을 고려한다. 즉, 본 기술의 다양한 실시예들은 위치 기반 데이터의 그래뉼레리티의 부족으로 인해 동작가능하지 않게 될 수 있다.
도 4는 인식 시스템(206)에 기초하여 일 예시적인 입력 신호 인식 처리(400)를 도시한다. 상기 설명된 바와 같이, 통신 인터페이스(208)는 입력 신호 및 연관된 위치를 수신하도록 구성될 수 있다. 통신 인터페이스(208)는 위치 정보를 로컬 언어 모델 선택기(209)로 함께 전달할 수 있다.
로컬 언어 모델 선택기(209)는 통신 인터페이스(208)로부터 위치를 수신하도록 구성될 수 있다. 위치에 기초하여, 로컬 언어 선택기는 지리적 구역을 식별할 수 있다. 지리적 구역은 다양한 방식들로 선택될 수 있다. 일부 경우들에서, 지리적 구역은 위치 포함여부(location containment)에 기초하여 선택될 수 있다. 즉, 위치가 지리적 구역 내에 포함되면, 지리적 구역이 선택될 수 있다. 대안적으로, 지리적 구역은 위치 근접성에 기초하여 선택될 수 있다. 예를 들면, 위치가 지리적 구역의 중심에 가장 가까우면, 지리적 구역이 선택될 수 있다. 지리적 구역들이 중첩하거나 위치가 2개의 상이한 중심들로부터 등거리에 있을 때와 같은, 다수의 지리적 구역들이 동등하게 실행가능한 경우들에서, 타이브레이커 정책(tiebreaker policy)들이 확립될 수 있다. 예를 들면, 위치가 하나보다 많은 지리적 구역 내에 포함되면, 중심에 대한 근접성 또는 가장 가까운 경계를 사용하여 교착상태를 해결(break the tie)할 수 있다. 마찬가지로, 위치가 다수의 중심들로부터 등거리에 있을 때, 경계로부터의 포함여부 또는 거리는 타이브레이커로서 사용될 수 있다. 대안적인 타이 브레이킹 방법들이 또한 가능하다. 일단 로컬 언어 모델 선택기(209)가 지리적 구역을 선택했으면, 로컬 언어 모델 선택기(209)는 예를 들면, 로컬 언어 모델 데이터베이스(216)로부터 대응하는 로컬 언어 모델을 꺼냄으로써, 상기 대응하는 로컬 언어 모델을 얻을 수 있다.
일부 실시예들에서, 로컬 언어 모델 선택기(209)는 부가적인 지리적 구역들을 선택하도록 구성될 수 있다. 예를 들면, 로컬 언어 모델 선택기(209)는 위치가 포함되는 모든 지리적 구역들 및/또는 위치가 지리적 구역의 중심의 임계 거리 내에 있는 모든 지리적 구역들을 선택하도록 구성될 수 있다. 이러한 구성들에서, 로컬 언어 모델 선택기(209)는 또한 각각의 부가적인 지리적 구역에 대해 대응하는 로컬 언어 모델을 얻을 수 있다.
로컬 언어 모델 선택기(209)는 또한 가중치 또는 스케일링 팩터를 선택된 로컬 언어 모델들 중 하나 이상의 선택된 로컬 언어 모델들에 할당하도록 구성될 수 있다. 일부 경우들에서, 로컬 언어 모델들의 단지 하나의 서브세트만이 가중치를 할당받을 것이다. 예를 들면, 지리적 구역들이 포함여부 및 근접성 둘 모두에 기초하여 선택되었으면, 로컬 언어 모델 선택기(209)는 근접성에 기초하여 선택된 지리적 구역들에 대응하는 로컬 언어 모델들의 기여를 감소시키도록 설계된 가중치를 할당할 수 있다. 즉, 더 멀리 떨어진 지리적 구역들에 대응하는 로컬 언어 모델들은 단편적 가중치(fractional weight)와 같은 가중치를 부여받을 수 있으며, 이는 이들 로컬 언어 모델들이 더 적은 중요성을 가지도록 야기한다. 대안적으로, 로컬 언어 모델 선택기(209)는, 연관된 지리적 구역의 중심으로부터의 위치의 거리가 규정된 임계치를 초과하면, 가중치를 언어 모델에 할당하도록 구성될 수 있다. 다시 가중치는 로컬 언어 모델의 기여를 감소시키도록 설계될 수 있다. 이 경우에, 가중치는 지리적 구역 내의 위치 포함여부와 상관없이 할당될 수 있다. 가중치 또는 스케일링 팩터를 할당받을 로컬 언어 모델들의 서브세트를 선택하는 부가적인 방법들이 또한 가능하다.
일부 구성들에서, 가중치는 연관된 지리적 구역의 중심으로부터의 위치의 거리에 기초할 수 있다. 예를 들면, 도 5는 중심으로부터의 거리에 기초한 일 예시적인 가중 방식(500)을 도시한다. 이 예에서, 3개의 지리적 구역들(502, 504, 및 506)은 위치(L1)에 대해 선택되었다. 위치(L1)가 지리적 구역들(502 및 504) 내에 포함될지라도, 가중치는 대응하는 로컬 언어 모델들 각각에 할당된다. 가중치(w1)는 지리적 구역(502)과 연관된 로컬 언어 모델에 할당되고, 가중치(w2)는 지리적 구역(504)과 연관된 로컬 언어 모델에 할당되고, 가중치(w3)는 지리적 구역(506)과 연관된 로컬 언어 모델에 할당된다.
도면 도 5에 도시된 가중 방식(500)을 사용하여, 위치가 중심으로부터 더 멀어지면, 로컬 언어 모델은 더 낮은 가중치를 할당받을 수 있다. 예를 들면, 가중치는 중심으로부터의 거리에 반비례할 수 있다. 이것은, 위치가 더 멀어지면, 입력 신호가 지리적 구역으로부터의 유일한 단어 시퀀스들과 덜 대응할 것 같다는 생각에 기초한다. 대안적으로, 가중치는 중심으로부터의 거리의 일부 다른 기능일 수 있다. 예를 들면, 기술들을 학습하는 기계는 기능에 대한 최적의 기능 유형 및 임의의 파라미터들을 결정하기 위해 사용될 수 있다.
가중치는 또한 로컬 언어 모델을 구축하기 위해 사용된 로컬 정보의 인지된 정확성에 적어도 부분적으로 기초할 수 있다. 예를 들면, 정보가 정부 문서들 또는 폰북 및 옐로우페이지 리스트들과 같은 평이 좋은 소스들로부터 컴파일링(compiling)되면, 로컬 언어 모델은 블로그들과 같은, 덜 평이 좋은 소스들로부터 컴파일링된 것보다 더 높은 가중치를 부여받을 수 있다. 부가적인 가중 방식들이 또한 가능하다.
도 4로 되돌아오면, 로컬 언어 모델 선택기(209)는 연관된 가중치들을 갖는 하나 이상의 로컬 언어 모델들을 하이브리드 언어 모델 구축기(210)로 전달할 수 있다. 하이브리드 언어 모델 구축기(210)는 예를 들면, 글로벌 언어 모델 데이터베이스(214)로부터 글로벌 언어 모델을 얻도록 구성될 수 있다. 하이브리드 언어 모델 구축기(210)는 그 다음, 하이브리드 언어 모델을 생성하기 위해 글로벌 언어 모델 및 하나 이상의 로컬 언어 모델들을 병합할 수 있다. 일부 실시예들에서, 병합은 하나 이상의 로컬 언어 모델들과 연관된 하나 이상의 가중치들에 의해 영향을 받을 수 있다. 예를 들면, 도 5에서의 위치(L1)에 기초하여 생성된 하이브리드 언어 모델(HLM)은
HLM = GLM + (w1
Figure pct00001
LLM1) + (w2
Figure pct00002
LLM2) + (w3
Figure pct00003
LLM3)
이 되도록 병합될 수 있고,여기서 GLM은 글로벌 언어 모델이고, LLM1은 지리적 구역(502)과 연관된 로컬 언어 모델이고, LLM2는 지리적 구역(504)과 연관된 로컬 언어 모델이고, LLM3은 지리적 구역(506)과 연관된 로컬 언어 모델이다.
일단 도 4에서의 하이브리드 언어 모델 구축기(210)가 하이브리드 언어 모델을 생성하면, 하이브리드 언어 모델은 인식 엔진(212)으로 전달될 수 있다. 인식 엔진(212)은 또한 통신 인터페이스(208)로부터 입력 신호를 수신할 수 있다. 인식 엔진(212)은 입력 신호에 대응하는 단어 시퀀스를 생성하기 위해 하이브리드 언어 모델을 사용할 수 있다. 상기 설명된 바와 같이, 하이브리드 언어 모델은 통계적 언어 모델일 수 있다. 이 경우에, 인식 엔진(212)은 통계적으로 입력 시퀀스에 가장 대응할 것 같은 단어 시퀀스를 식별하기 위해 하이브리드 언어 모델을 사용할 수 있다.
도 6은 단일 로컬 언어 모델을 사용하여 입력 신호를 자동적으로 인식하기 위한 일 예시적인 방법(600)을 도시하는 흐름도이다. 명료성을 위해, 이 방법은 도 2에 도시되는 바와 같은 일 예시적인 인식 시스템에 관하여 논의된다. 특정 단계들이 도 6에 도시되지만, 다른 실시예들에서, 방법은 도시된 것 이외의 다소간의 단계들을 가질 수 있다. 자동화 입력 신호 인식 처리(600)는 인식 시스템이 입력 신호를 수신하는 단계(602)에서 시작한다. 일부 구성들에서, 입력 신호는 음성 신호일 수 있다. 인식 시스템은 또한 GPS 좌표들, 도시, 집 코드 등과 같은, 입력 신호와 연관된 위치를 수신할 수 있다(604). 일부 구성들에서, 위치는 입력 신호와 결부하여 수신될 수 있다. 대안적으로, 위치는 클라이언트 디바이스와의 다른 상호작용을 통해 수신될 수 있다.
일단 인식 시스템이 입력 신호 및 연관된 위치를 수신했으면, 인식 시스템은 위치에 기초하여 로컬 언어 모델을 선택할 수 있다(606). 일부 구성들에서, 인식 시스템은 먼저 위치에 대해 매우 적합한 지리적 구역을 식별함으로써 로컬 언어 모델을 선택할 수 있다. 일부 경우들에서, 지리적 구역은 지리적 구역 내의 위치의 포함여부에 기초하여 식별될 수 있다. 대안적으로, 지리적 구역은 지리적 구역의 중심에 대한 위치의 근접성에 기초하여 선택될 수 있다. 다수의 지리적 구역들이 동등하게 실행가능한 옵션들인 경우들에서, 상기 논의된 것들과 같은, 타이브레이커 방법이 이용될 수 있다. 일단 지리적 구역이 식별되었으면, 대응하는 로컬 언어 모델이 선택될 수 있다. 일부 구성들에서, 로컬 언어 모델은 통계적 언어 모델일 수 있다.
선택된 로컬 언어 모델은 그 다음, 하이브리드 언어 모델을 생성하기 위해 글로벌 언어 모델과 병합될 수 있다(608). 일부 구성들에서, 병합 처리는 로컬 언어 모델 가중치를 통합시킬 수 있다. 즉, 가중치는 생성된 하이브리드 언어 모델에 로컬 언어 모델이 얼마나 영향을 주어야 하는지를 나타내기 위해 사용되는 로컬 언어 모델에 할당될 수 있다. 할당된 가중치는 로컬 언어 모델의 인지된 정확도 및/또는 지리적 구역의 중심에 대한 위치의 근접성과 같은, 다양한 팩터들에 기초할 수 있다. 하이브리드 언어 모델은 그 다음, 입력 신호에 가장 대응할 것 같은 단어 시퀀스를 식별함으로써 입력 신호를 인식하기 위해 사용될 수 있다(610).
도 7은 다수의 로컬 언어 모델들을 사용하여 입력 신호를 자동적으로 인식하기 위한 일 예시적인 방법(700)을 도시하는 흐름도이다. 명료성을 위해, 이 방법은 도 2에 도시되는 바와 같은 일 예시적인 인식 시스템에 관하여 논의된다. 특정 단계들이 도 7에 도시되지만, 다른 실시예들에서, 방법은 도시된 것 이외의 다소간의 단계들을 가질 수 있다. 자동화 입력 신호 인식 처리(700)는 인식 시스템이 입력 신호 및 연관된 위치를 수신하는 단계(702)에서 시작한다. 일부 구성들에서, 입력 신호 및 연관된 위치는 클라이언트 디바이스와의 단일 통신에서 쌍으로서 수신될 수 있다. 대안적으로, 입력 신호 및 연관된 위치는 클라이언트 디바이스와의 별개의 통신들을 통해 수신될 수 있다.
입력 신호 및 연관된 위치의 수신 후에, 인식 시스템은 지리적 구역을 얻을 수 있고(704) 위치가 지리적 구역 내에 또는 지리적 구역의 중심의 규정된 임계 거리 내에 포함되는지를 확인할 수 있다(706). 그렇다면, 인식 시스템은 지리적 구역과 연관된 로컬 언어 모델을 얻을 수 있고(708) 가중치를 로컬 언어 모델에 할당할 수 있다(710). 일부 구성들에서, 가중치는 지리적 구역의 중심으로부터의 위치의 거리에 기초할 수 있다. 가중치는 또한 로컬 언어 모델을 구축하기 위해 사용된 로컬 정보의 인지된 정확도에 부분적으로 기초할 수 있다. 일부 구성들에서, 인식 시스템은 가중치를 단지 로컬 언어 모델들의 한 서브세트에만 할당할 수 있다. 일부 경우들에서, 로컬 언어 모델이 가중치를 할당받는지의 여부는 가중치의 유형에 기초할 수 있다. 예를 들면, 가중치가 인지된 정확도에 기초하면, 로컬 언어 모델은 인지된 정확도의 레벨이 규정된 임계값보다 높은 경우 가중치를 할당받지 않을 수 있다. 대안적으로, 인식 시스템은 단지 위치가 로컬 언어 모델과 연관된 지리적 구역 밖에 있는 경우에만 거리 가중치를 할당하도록 구성될 수 있다. 이 경우에, 거리 가중치는 위치와 지리적 구역의 중심 사이의 거리에 기초할 수 있다. 인식 시스템은 그 다음, 로컬 언어 모델 및 그것의 연관된 가중치를 선택된 로컬 언어 모델들의 세트에 부가할 수 있다(712).
단일 지리적 구역의 처리 후에, 인식 처리는 부가적인 지리적 구역들이 존재하는지를 확인함으로써 계속될 수 있다(714). 그렇다면, 로컬 언어 모델 선택 처리는 단계(704)에서 계속함으로써 반복된다. 일단 위치에 대응하는 모든 로컬 언어 모델들이 식별되었으면, 인식 시스템은 하이브리드 언어 모델을 생성하기 위해 선택된 로컬 언어 모델들의 세트를 글로벌 언어 모델과 병합할 수 있다(716). 병합은 로컬 언어 모델들과 연관된 가중치들에 의해 영향을 받을 수 있다. 일부 경우들에서, 덜 신뢰가능한 정보를 갖고/갖거나 더 먼 지리적 구역과 연관되는 로컬 언어 모델은 생성된 하이브리드 언어 모델에 적은 통계적 영향을 미칠 수 있다.
인식 시스템은 그 다음, 하이브리드 언어 모델에 기초하여 입력 신호를 단어 시퀀스로 번역함으로써 입력 신호를 인식할 수 있다(718). 일부 구성들에서, 하이브리드 언어 모델은 통계적 언어 모델이고, 따라서 입력 신호는 입력 신호에 대응하는 가장 높은 확률을 갖는 하이브리드 언어 모델에서 단어 시퀀스를 식별함으로써 번역될 수 있다.
도 8은 위치 기반 입력 신호 인식을 위한 일 예시적인 클라이언트 디바이스 구성을 도시한다. 예시적인 클라이언트 디바이스(802)는 도 1에서의 디바이스(100)와 같은, 범용 컴퓨팅 디바이스 상에 상주하도록 구성될 수 있다. 클라이언트 디바이스(802)는 데스크톱 컴퓨터; 모바일 컴퓨터; 핸드헬드 통신 디바이스 예를 들면, 모바일 폰, 스마트 폰, 태블릿; 및/또는 임의의 다른 네트워크 가능한 통신 디바이스와 같은, 임의의 네트워크 가능한 컴퓨팅 디바이스일 수 있다.
클라이언트 디바이스(802)는 입력 신호를 수신하도록 구성될 수 있다. 입력 신호는 대표 단어 시퀀스에 매핑할 수 있는 임의의 유형의 신호일 수 있다. 예를 들면, 입력 신호는 클라이언트 디바이스(802)가 통계적으로 입력 음성 신호를 가장 표현할 것 같은 단어 시퀀스를 생성할 수 있는 음성 신호일 수 있다. 대안적으로, 입력 시퀀스는 텍스트 시퀀스일 수 있다. 이 경우에, 클라이언트 디바이스는 통계적으로 수신된 입력 텍스트 신호를 가장 완성할 것 같거나 수신된 텍스트 신호와 가장 동등할 것 같은 단어 시퀀스를 생성하도록 구성될 수 있다.
클라이언트 디바이스(802)가 입력 신호를 수신하는 방식은 디바이스의 구성 및/또는 입력 신호의 유형에 따라 바뀔 수 있다. 예를 들면, 입력 신호가 음성 신호이면, 클라이언트 디바이스(802)는 마이크로폰을 통해 입력 신호를 수신하도록 구성될 수 있다. 대안적으로, 입력 신호가 텍스트 신호이면, 클라이언트 디바이스(802)는 키보드를 통해 입력 신호를 수신하도록 구성될 수 있다. 입력 신호를 수신하는 부가적인 방법들이 또한 가능하다.
클라이언트 디바이스(802)는 또한 클라이언트 디바이스의 위치를 대표하는 위치를 수신할 수 있다. 위치는 위도 및/또는 경도, GPS 좌표들, 집 코드, 도시, 주, 지역 코드 등과 같은, 다양한 상이한 포맷들로 표현될 수 있다. 클라이언트 디바이스(802)가 위치를 수신하는 방식은 디바이스의 구성에 따라 바뀔 수 있다. 예를 들면, 클라이언트 디바이스의 위치를 식별하기 위한 다양한 방법들 예를 들면, GPS, 삼각측량, IP 어드레스 등이 가능하다. 일부 경우들에서, 클라이언트 디바이스(802)는 이들 위치 식별 기술들 중 하나 이상의 위치 식별 기술들을 갖출 수 있다. 부가적으로, 일부 구성들에서, 클라이언트 디바이스의 사용자는 클라이언트 디바이스(802)의 현재 위치를 표현하는, 집 코드, 도시, 주, 및/또는 지역 코드와 같은, 위치를 입력할 수 있다. 또한, 일부 구성들에서, 클라이언트 디바이스(802)의 사용자는, 디폴트 위치가 항상 현재 위치를 대신하여 제공되거나 클라이언트 디바이스가 현재 위치를 결정할 수 없을 때 제공되도록 클라이언트 디바이스에 대한 디폴트 위치를 설정할 수 있다.
클라이언트 디바이스(802)는 하나 이상의 로컬 언어 모델들 및 글로벌 언어 모델을 수신하기 위해 네트워크(804)를 통해 언어 모델 제공자(806)와 통신하도록 구성될 수 있다. 상기 개시된 바와 같이, 언어 모델은 입력 신호를 단어 시퀀스로 번역할 목적으로 언어의 속성들을 캡처하기 위해 사용될 수 있는 임의의 모델일 수 있다. 일부 구성들에서, 클라이언트 디바이스(802)는 다수의 언어 모델 제공자들과 통신할 수 있다. 예를 들면, 클라이언트 디바이스(802)는 글로벌 언어 모델을 수신하기 위해 하나의 언어 모델 제공자와 통신할 수 있고 하나 이상의 로컬 언어 모델들을 수신하기 위해 또 다른 언어 모델 제공자와 통신할 수 있다. 대안적으로, 클라이언트 디바이스(802)는 디바이스의 위치들에 의존하여 상이한 언어 제공자들과 통신할 수 있다. 예를 들면, 클라이언트 디바이스(802)가 하나의 지리적 구역으로부터 또 다른 지리적 구역으로 이동하면, 클라이언트 디바이스는 상이한 언어 모델 제공자들로부터 언어 모델들을 수신할 수 있다.
클라이언트 디바이스(802)는 입력 신호의 인식을 용이하게 하기 위해 복수의 컴포넌트들을 포함할 수 있다. 컴포넌트들은 언어 모델 제공자와 상호작용하기 위한 및/또는 입력 신호를 인식하기 위한 하나 이상의 모듈들 예를 들면, 통신 인터페이스(808), 하이브리드 언어 모델 구축기(810), 및 인식 엔진(812)을 포함할 수 있다. 도 8에 도시된 구성이 단순하게 하나의 가능한 구성이고 다소간의 컴포넌트들을 갖는 다른 구성들이 또한 가능함이 당업자에게 이해되어야 한다.
통신 인터페이스(808)는 언어 모델 제공자(806)에 요청하고 요청된 언어 모델들을 수신하기 위해 언어 모델 제공자(806)와 통신하도록 구성될 수 있다. 상기 설명된 바와 같이, 각각의 로컬 언어 모델은 미리 정의된 지리적 구역(geographic region, 또는 geo-region)과 연관될 수 있다. 지리적 구역은 다양한 방식들로 정의될 수 있다. 예를 들면, 지리적 구역들은 집 코드, 지역 코드, 도시, 자치주 등과 같은 잘 확립된 지리적 구역들에 기초할 수 있다. 대안적으로, 지리적 구역들은 예를 들면, 사용자들의 분포에 기초하여 서비스 영역을 다수의 지리적 구역들로 분할함으로써 임의의 지리적 구역들을 사용하여 정의될 수 있다. 부가적으로, 지리적 구역들은 중첩하거나 상호 배타적인 것으로서 정의될 수 있다. 또한, 일부 구성들에서, 지리적 구역들 사이에 갭들이 존재할 수 있다.
부가적으로, 상기 설명된 바와 같이, 각각의 지리적 구역은 중심과 연관될 수 있거나 상기 중심을 포함할 수 있다. 중심은 위치에 의해 정의된 지리적 구역의 미리 정의된 초점일 수 있다. 중심의 위치는 복수의 상이한 방식들로 선택될 수 있다. 예를 들면, 중심의 위치는 위치의 지리적 중심일 수 있다. 대안적으로, 중심의 위치는 시청과 같은, 도시 중심에 기초하여 정의될 수 있다. 중심의 위치는 또한 로컬 언어 모델을 구축하기 위해 사용된 정보의 밀도에 기초할 수 있다. 즉, 다수의 정보가 특정한 위치 주위에 매우 집중되면, 그 위치는 중심으로서 선택될 수 있다. 인구 분포와 같은, 중심을 위치시키는 부가적인 방법들이 또한 가능하다.
일부 구성들에서, 클라이언트 디바이스(802)는 위치에 대한 지리적 구역을 식별할 수 있다. 이 경우에, 클라이언트 디바이스(802)가 언어 모델 제공자(806)로부터 로컬 언어 모델을 요청할 때, 요청은 지리적 구역 식별자를 포함할 수 있다. 대안적으로, 클라이언트 디바이스(802)는 요청과 함께 위치를 전송하도록 구성될 수 있고 언어 모델 제공자(806)는 적절한 지리적 구역을 식별할 수 있다. 일부 구성들에서, 클라이언트 디바이스(802)는 로컬 언어 모델과 함께 중심을 수신할 수 있다. 중심은 로컬 언어 모델과 연관된 지리적 구역에 대한 중심일 수 있다.
일부 구성들에서, 수신된 로컬 언어 모델은 또한 연관된 가중치를 가질 수 있다. 가중치의 유형은 구성에 따라 바뀔 수 있다. 예를 들면, 일부 경우들에서, 가중치는 로컬 언어 모델을 구축하기 위해 사용된 로컬 정보의 인지된 정확도에 적어도 부분적으로 기초할 수 있다. 클라이언트 디바이스가 요청을 위치에 제공한 이들 구성들에서, 가중치는 지리적 구역의 중심으로부터의 위치의 거리에 기초할 수 있다. 대안적으로, 거리 또는 근접성 기반 가중치는 클라이언트 선택 지리적 구역과 연관된 중심 및 위치 또는 로컬 언어 모델과 함께 수신된 중심을 사용하여 클라이언트 디바이스에 의해 계산될 수 있다. 일부 구성들에서, 단지 로컬 언어 모델들의 한 서브세트에만 가중치가 할당될 것이다. 일부 경우들에서, 로컬 언어 모델이 가중치를 할당받는지의 여부는 가중치의 유형에 기초할 수 있다. 예를 들면, 가중치가 인지된 정확도에 기초하면, 로컬 언어 모델은 인지된 정확도의 레벨이 규정된 임계값보다 높은 경우 가중치를 할당받지 않을 수 있다. 대안적으로, 위치가 로컬 언어 모델과 연관된 지리적 구역 밖에 있으면, 로컬 언어는 거리 가중치를 단지 할당받을 수 있다.
통신 인터페이스(808)는 수신된 글로벌 언어 모델 및 하나 이상의 로컬 언어 모델들을 하이브리드 언어 모델 구축기(810)로 전달하도록 구성될 수 있다. 하이브리드 언어 모델 구축기(810)는 하이브리드 언어 모델을 생성하기 위해 글로벌 언어 모델 및 하나 이상의 로컬 언어 모델들을 병합하도록 구성될 수 있다. 일부 실시예들에서, 병합은 하나 이상의 로컬 언어 모델들과 연관된 하나 이상의 가중치들에 의해 영향을 받을 수 있다. 일단 하이브리드 언어 모델 구축기(810)가 하이브리드 언어 모델을 생성하면, 하이브리드 언어 모델은 인식 엔진(812)으로 전달될 수 있다. 인식 엔진은 입력 신호에 대응하는 단어 시퀀스를 생성하기 위해 하이브리드 언어 모델을 사용할 수 있다. 상기 설명된 바와 같이, 하이브리드 언어 모델은 통계적 언어 모델일 수 있다. 이 경우에, 인식 엔진(812)은 통계적으로 입력 시퀀스에 가장 대응할 것 같은 단어 시퀀스를 식별하기 위해 하이브리드 언어 모델을 사용할 수 있다.
도 9는 입력 신호를 자동적으로 인식하기 위한 일 예시적인 방법(900)을 도시하는 흐름도이다. 명료성을 위해, 이 방법은 도 8에 도시되는 바와 같은 일 예시적인 클라이언트 디바이스에 관하여 논의된다. 특정 단계들이 도 9에 도시되지만, 다른 실시예들에서, 방법은 도시된 것 이외의 다소간의 단계들을 가질 수 있다. 자동화 입력 신호 인식 방법(900)은 클라이언트 디바이스가 입력 신호 및 연관된 위치를 수신하는 단계(902)에서 시작한다. 일부 구성들에서, 입력 신호는 음성 신호일 수 있다.
일단 클라이언트 디바이스가 입력 신호 및 연관된 위치를 수신했으면, 클라이언트 디바이스는 요청에 응답하여 로컬 언어 모델 및 글로벌 언어 모델을 수신할 수 있다(904). 일부 구성들에서, 요청은 위치를 포함할 수 있다. 대안적으로, 요청은 클라이언트 디바이스가 위치에 대해 매우 적합한 것으로서 식별한 지리적 구역을 포함할 수 있다. 일부 구성들에서, 수신된 로컬 언어 모델은 연관된 지리적 구역 중심을 가질 수 있다.
클라이언트 디바이스는 또한 로컬 언어 모델들에 대한 요청에 응답하여 부가적인 로컬 언어 모델들의 세트를 수신할 수 있다(906). 일부 구성들에서, 이 요청은 원래 요청과 별개일 수 있다. 대안적으로, 클라이언트 디바이스는 로컬 언어 모델들의 세트 및 글로벌 언어 모델에 대해 단일 요청을 할 수 있다. 원래 수신된 로컬 언어 모델의 경우와 마찬가지로, 부가적인 로컬 언어 모델들의 세트에서의 로컬 언어 모델들 각각은 연관된 지리적 구역 중심을 가질 수 있다.
하나 이상의 로컬 언어 모델들의 수신 후에, 클라이언트 디바이스는 로컬 언어 모델들 각각에 대한 가중치를 식별할 수 있다(908). 일부 구성들에서, 가중치는 언어 모델 제공자에 의해 할당될 수 있고, 따라서 클라이언트 디바이스는 단순하게 가중치를 검출할 필요가 있다. 그러나, 다른 경우들에서, 클라이언트 디바이스는 가중치를 계산할 수 있다. 일부 구성들에서, 가중치는 위치와 연관된 중심 사이의 거리에 기초할 수 있다. 부가적으로, 일부 경우들에서, 계산된 가중치는 인지된 정확도 가중치와 같은, 로컬 언어 모델과 이미 연관된 가중치를 통합할 수 있다.
하나 이상의 로컬 언어 모델들은 그 다음, 하이브리드 언어 모델을 생성하기 위해 글로벌 언어 모델과 병합될 수 있다(910). 일부 구성들에서, 병합은 로컬 언어 모델들과 연관된 가중치들에 의해 영향을 받을 수 있다. 예를 들면, 덜 신뢰가능한 정보를 갖고/갖거나 더 먼 지리적 구역과 연관되는 로컬 언어 모델은 생성된 하이브리드 언어 모델에 적은 통계적 영향을 미칠 수 있다.
통계적 언어 모델을 사용하여, 클라이언트 디바이스는 입력 신호에 잠재적으로 대응할 수 있는 단어 시퀀스들의 세트를 식별할 수 있다(912). 일부 구성들에서, 하이브리드 언어 모델은 통계적 언어 모델이고, 따라서 각각의 잠재적인 단어 시퀀스는 연관된 발생 확률을 가질 수 있다. 이 경우에, 클라이언트 디바이스는 가장 높은 발생 확률을 갖는 단어 시퀀스를 선택함으로써 입력 신호를 인식할 수 있다(914).
일부 구현예들에 따라, 도 10은 상기 설명된 바와 같이 본 발명의 원리들에 따라 구성된 전자 디바이스(1000)의 기능적 블록도를 보여준다. 디바이스의 기능적 블록도들은 본 발명의 원리들을 실행하기 위해 하드웨어, 소프트웨어, 또는 하드웨어 및 소프트웨어의 조합에 의해 구현될 수 있다. 도 10에 설명된 기능적 블록도들이 상기 설명된 바와 같이 본 발명의 원리들을 구현하기 위해 서브 블록들로 조합되거나 분할될 수 있음이 당업자들에 의해 이해된다. 따라서, 본 명세서에서의 설명은 본 명세서에서 설명된 기능적 블록들의 임의의 가능한 조합 또는 분리 또는 또 다른 정의를 지원할 수 있다.
도 10에 도시된 바와 같이, 전자 디바이스(1000)는 프로세싱 유닛(1006)에 결합된 입력 수신 유닛(1002)을 포함한다. 일부 구현예들에서, 프로세싱 유닛(1006)은 언어 모델 선택 유닛(1008), 언어 모델 병합 유닛(1010), 입력 신호 인식 유닛(1012), 및 언어 모델 가중 유닛(1014)을 포함한다.
입력 수신 유닛(1002)은 입력 신호 및 입력 신호와 연관된 위치를 수신하도록 구성된다. 일부 구현예들에서, 입력 신호는 음성 신호이다.
프로세싱 유닛(1006)은 (예를 들면, 언어 모델 선택 유닛(1008)을 사용하여) 위치에 기초하여 복수의 로컬 언어 모델들로부터 제 1 언어 모델을 선택하고; (예를 들면, 언어 모델 병합 유닛(1010)을 사용하여) 하이브리드 언어 모델을 생성하기 위해 제 1 로컬 언어 모델 및 글로벌 언어 모델을 병합하고; (예를 들면, 입력 신호 인식 유닛(1012)을 사용하여) 통계적으로 입력 신호에 가장 대응할 것 같고/같거나, 입력 신호에 대응하는 가장 큰 확률을 갖는 단어 시퀀스를 식별함으로써 하이브리드 언어 모델에 기초하여 입력 신호를 인식하도록 구성된다.
일부 구현예들에서, 제 1 로컬 언어 모델은 위치와 연관되는 지리적 구역에 매핑되고, 지리적 구역은 중심을 포함한다. 일부 구현예들에서, 위치는 지리적 구역 내에 포함된다. 일부 구현예들에서, 위치는 중심의 규정된 임계 거리 내에 있다. 일부 구현예들에서, 지리적 구역은 확립된 지리적 위치에 의해 정의된다.
일부 구현예들에서, 프로세싱 유닛(1006)은: (예를 들면, 언어 모델 선택 유닛(1008)을 사용하여) 위치에 기초하여 복수의 로컬 언어 모델들로부터 제 2 로컬 언어 모델을 선택하고; (예를 들면, 언어 모델 병합 유닛(1010)을 사용하여) 하이브리드 언어 모델을 생성하기 위해 제 1 로컬 언어 모델, 제 2 로컬 언어 모델, 및 글로벌 언어 모델을 병합하도록 추가로 구성된다.
일부 구현예들에서, 프로세싱 유닛(1006)은 (예를 들면, 언어 모델 가중 유닛(1014)을 사용하여) 제 1 로컬 언어 모델, 제 2 로컬 언어 모델, 및 글로벌 언어 모델을 병합하기 이전에 제 1 가중치 값(및/또는 스케일링 팩터)을 제 1 로컬 언어 모델에 할당하고 제 2 가중치 값(및/또는 스케일링 팩터)을 제 2 로컬 언어 모델에 할당하도록 추가로 구성된다. 일부 구현예들에서, 제 1 또는 제 2 가중치 값(및/또는 스케일링 팩터) 중 적어도 하나는 선택된 지리적 구역 내에 포함된 중심으로부터의 위치의 거리에 적어도 부분적으로 기초한다. 일부 구현예들에서, 제 1 또는 제 2 가중치 값(및/또는 스케일링 팩터) 중 적어도 하나는 로컬 언어 모델에 할당된 정확도 레벨에 적어도 부분적으로 기초한다.
일부 구현예들에서, 제 1 또는 제 2 가중치 값(및/또는 스케일링 팩터) 중 적어도 하나는, 위치가 위치와 연관된 지리적 구역의 밖에 있을 때 제 1 또는 제 2 로컬 언어 모델에 각각 적용된다.
일부 구현예들에서, 제 1 로컬 언어 모델은 로컬 거리 명칭, 로컬 이웃 명칭, 로컬 사업체 명칭, 로컬 랜드마크 명칭, 및 로컬 명소 명칭 중 적어도 하나를 포함한다. 일부 구현예들에서, 제 1 및 제 2 로컬 언어 모델 중 적어도 하나는 통계적 언어 모델이고, 통계적 언어 모델은 로컬 폰북, 로컬 옐로우페이지 리스트들, 로컬 신문, 로컬 맵, 로컬 광고, 및 로컬 블로그 중 적어도 하나를 사용하여 구축된다.
본 발명의 범주 내의 실시예들은 또한 그 위에 저장된 컴퓨터 실행가능 명령어들 또는 데이터 구조들을 운반하거나 그 위에 저장된 컴퓨터 실행가능 명령어들 또는 데이터 구조들을 갖기 위한 유형 및/또는 비일시적 컴퓨터 판독가능 저장 매체들을 포함할 수 있다. 이러한 비일시적 컴퓨터 판독가능 저장 매체들은 상기 논의된 바와 같은 임의의 특수 목적 프로세서의 기능적 설계를 포함하는, 범용 또는 특수 목적 컴퓨터에 의해 액세스될 수 있는 임의의 사용가능한 매체들일 수 있다. 제한이 아닌 예로서, 이러한 비일시적 컴퓨터 판독가능 매체들은 RAM, ROM, EEPROM, CD-ROM 또는 다른 광 디스크 저장 장치, 자기 디스크 저장 장치 또는 다른 자기 저장 디바이스들, 또는 컴퓨터 실행가능 명령어들, 데이터 구조들, 또는 프로세서 칩 설계의 형태로 원하는 프로그램 코드 수단을 운반하거나 저장하기 위해 사용될 수 있는 임의의 다른 매체를 포함할 수 있다. 정보가 네트워크 또는 또 다른 통신 접속(유선, 무선, 또는 그의 조합)을 통해 컴퓨터로 전송되거나 제공될 때, 컴퓨터는 적절하게 접속을 컴퓨터 판독가능 매체로 본다. 따라서, 임의의 이러한 접속은 적절하게 컴퓨터 판독가능 매체로 불리운다. 상기 언급된 것의 조합들은 또한 컴퓨터 판독가능 매체들의 범주 내에 포함되어야 한다.
컴퓨터 실행가능 명령어들은 예를 들면, 범용 컴퓨터, 특수 목적 컴퓨터, 또는 특수 목적 처리 디바이스로 하여금 특정 기능 또는 한 그룹의 기능들을 수행하게 하는 명령어들 및 데이터를 포함한다. 컴퓨터 실행가능 명령어들은 또한 독립형 또는 네트워크 환경들에서의 컴퓨터들에 의해 실행되는 프로그램 모듈들을 포함한다. 일반적으로, 프로그램 모듈들은 특정한 작업들을 수행하거나 특정한 추상 데이터 유형들을 구현하는 특수 목적 프로세서들 등의 설계에 내재하는 루틴들, 프로그램들, 컴포넌트들, 데이터 구조들, 객체들, 및 기능들을 포함한다. 컴퓨터 실행가능 명령어들, 연관된 데이터 구조들, 및 프로그램 모듈들은 본 명세서에서 개시된 방법들의 단계들을 실행하기 위한 프로그램 코드 수단의 예들을 표현한다. 이러한 실행가능한 명령어들 또는 연관된 데이터 구조들의 특정한 시퀀스는 이러한 단계들에서 설명된 기능들을 구현하기 위한 대응하는 동작들의 예들을 표현한다.
당업자들은 본 발명의 다른 실시예들이 개인용 컴퓨터들, 핸드헬드 디바이스들, 멀티-프로세서 시스템들, 마이크로프로세서 기반 또는 프로그래밍가능한 가전 제품, 네트워크 PC들, 미니컴퓨터들, 메인프레임 컴퓨터들 등을 포함하는, 많은 유형들의 컴퓨터 시스템 구성들을 갖는 네트워크 컴퓨팅 환경들에서 실행될 수 있음을 인식할 것이다. 실시예들은 또한 작업들이 통신 네트워크를 통해 (유선 링크들, 무선 링크들에 의해, 또는 그의 조합에 의해) 링크되는 로컬 및 원격 처리 디바이스들에 의해 수행되는 분산 컴퓨팅 환경들에서 실행될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈들은 로컬 및 원격 메모리 저장 디바이스들 둘 모두에 위치될 수 있다.
상기 설명된 다양한 실시예들은 단지 실례로서 제공되고 본 발명의 범주를 제한하도록 해석되지 않아야 한다. 당업자들은 본 명세서에서 도시되고 설명된 예시적인 실시예들 및 응용들을 따르지 않고, 본 발명의 사상 및 범주로부터 벗어나지 않고 본 명세서에서 설명된 원리들에 대해 행해질 수 있는 다양한 수정들 및 변경들을 용이하게 인식할 것이다.

Claims (44)

  1. 입력 신호 인식을 위한 컴퓨터 구현 방법에 있어서,
    입력 신호 및 상기 입력 신호와 연관된 위치를 수신하는 단계;
    상기 위치에 기초하여 복수의 로컬 언어 모델들로부터 제 1 언어 모델을 선택하는 단계;
    프로세서를 통해, 하이브리드 언어 모델을 생성하기 위해 상기 제 1 로컬 언어 모델 및 글로벌 언어 모델을 병합하는 단계; 및
    통계적으로 상기 입력 신호에 가장 대응할 것 같은 단어 시퀀스를 식별함으로써 상기 하이브리드 언어 모델에 기초하여 상기 입력 신호를 인식하는 단계를 포함하는, 입력 신호 인식을 위한 컴퓨터 구현 방법.
  2. 제 1 항에 있어서, 상기 입력 신호는 음성 신호인, 입력 신호 인식을 위한 컴퓨터 구현 방법.
  3. 제 1 항 또는 제 2 항에 있어서, 상기 제 1 로컬 언어 모델은 상기 위치와 연관되는 지리적 구역(geo-region)에 매핑되고, 상기 지리적 구역은 중심(centroid)을 포함하는, 입력 신호 인식을 위한 컴퓨터 구현 방법.
  4. 제 3 항에 있어서, 상기 위치는 상기 지리적 구역 내에 포함되는, 입력 신호 인식을 위한 컴퓨터 구현 방법.
  5. 제 3 항 또는 제 4 항에 있어서, 상기 위치는 상기 중심의 규정된 임계 거리 내에 있는, 입력 신호 인식을 위한 컴퓨터 구현 방법.
  6. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
    상기 위치에 기초하여 상기 복수의 로컬 언어 모델들로부터 제 2 로컬 언어 모델을 선택하는 단계; 및
    상기 하이브리드 언어 모델을 생성하기 위해 상기 제 1 로컬 언어 모델, 상기 제 2 로컬 언어 모델, 및 상기 글로벌 언어 모델을 병합하는 단계를 추가로 포함하는, 입력 신호 인식을 위한 컴퓨터 구현 방법.
  7. 제 6 항에 있어서, 상기 제 1 로컬 언어 모델, 상기 제 2 로컬 언어 모델, 및 상기 글로벌 언어 모델을 병합하기 이전에, 제 1 가중치 값을 상기 제 1 로컬 언어 모델에 할당하고 제 2 가중치 값을 상기 제 2 로컬 언어 모델에 할당하는 단계를 추가로 포함하는, 입력 신호 인식을 위한 컴퓨터 구현 방법.
  8. 제 7 항에 있어서, 상기 제 1 또는 상기 제 2 가중치 값 중 적어도 하나는 선택된 지리적 구역 내에 포함된 중심으로부터의 상기 위치의 거리에 적어도 부분적으로 기초하는, 입력 신호 인식을 위한 컴퓨터 구현 방법.
  9. 제 7 항 또는 제 8 항에 있어서, 상기 제 1 또는 상기 제 2 가중치 값 중 적어도 하나는 로컬 언어 모델에 할당된 정확도 레벨에 적어도 부분적으로 기초하는, 입력 신호 인식을 위한 컴퓨터 구현 방법.
  10. 제 1 항 내지 제 9 항 중 어느 한 항에 있어서, 상기 제 1 로컬 언어 모델은 로컬 거리 명칭, 로컬 이웃 명칭, 로컬 사업체 명칭, 로컬 랜드마크 명칭, 및 로컬 명소 명칭 중 적어도 하나를 포함하는, 입력 신호 인식을 위한 컴퓨터 구현 방법.
  11. 제 3 항에 있어서, 상기 지리적 구역은 확립된 지리적 위치에 의해 정의되는, 입력 신호 인식을 위한 컴퓨터 구현 방법.
  12. 입력 신호 인식을 위한 시스템에 있어서,
    서버;
    상기 서버에서, 입력 신호 및 상기 입력 신호와 연관된 위치를 수신하는 것;
    상기 위치에 대응하는 제 1 로컬 언어 모델을 글로벌 언어 모델로 통합시킴으로써 하이브리드 언어 모델을 생성하는 것; 및
    상기 하이브리드 언어 모델을 사용하여 단어 시퀀스를 선택하는 것을 포함하고, 상기 단어 시퀀스는 상기 입력 신호에 대응하는 가장 큰 확률을 갖는, 입력 신호 인식을 위한 시스템.
  13. 제 12 항에 있어서, 상기 제 1 로컬 언어 모델은 중심을 가지는 지리적 구역에 의해 상기 위치에 대응하는, 입력 신호 인식을 위한 시스템.
  14. 제 12 항 또는 제 13 항에 있어서, 상기 하이브리드 언어 모델을 생성하기 위해, 상기 위치에 또한 대응하는 제 2 로컬 언어 모델을 상기 글로벌 언어 모델로 통합시키는 것을 추가로 포함하는, 입력 신호 인식을 위한 시스템.
  15. 제 14 항에 있어서,
    상기 제 1 로컬 언어 모델 및 상기 제 2 로컬 언어 모델을 상기 글로벌 언어 모델로 통합시키기 이전에, 제 1 스케일링 팩터를 상기 제 1 로컬 언어 모델에 할당하고 제 2 스케일링 팩터를 상기 제 2 로컬 언어 모델에 할당하는 것; 및
    상기 각각의 제 1 및 제 2 스케일링 팩터들에 기초하여 상기 제 1 로컬 언어 모델 및 상기 제 2 로컬 언어 모델을 상기 글로벌 언어 모델로 통합시킴으로써 상기 하이브리드 언어 모델을 생성하는 것을 추가로 포함하는, 입력 신호 인식을 위한 시스템.
  16. 제 15 항에 있어서, 상기 위치가 상기 언어 모델과 연관된 지리적 구역의 밖에 있을 때, 스케일링 팩터는 상기 제 1 또는 상기 제 2 로컬 언어 모델 중 적어도 하나에 적용되는, 입력 신호 인식을 위한 시스템.
  17. 제 13 항 내지 제 15 항 중 어느 한 항에 있어서, 상기 위치는 상기 지리적 구역 내에 포함되는, 입력 신호 인식을 위한 시스템.
  18. 제 13 항 내지 제 17 항 중 어느 한 항에 있어서, 상기 위치는 상기 중심의 규정된 임계 거리 내에 있는, 입력 신호 인식을 위한 시스템.
  19. 컴퓨팅 디바이스에 의해 실행될 때, 상기 컴퓨팅 디바이스로 하여금 입력 신호를 인식하게 하는 명령들을 저장하는 비일시적 컴퓨터 판독가능 저장 매체에 있어서, 상기 명령어들은,
    입력 신호 및 상기 입력 신호와 연관된 위치를 수신하는 것;
    제 1 로컬 언어 모델 및 글로벌 언어 모델을 얻는 것 - 상기 제1 로컬 언어 모델은 상기 위치에 기초함 -;
    상기 제 1 로컬 언어 모델 및 상기 글로벌 언어 모델을 병합함으로써 하이브리드 언어 모델을 생성하는 것; 및
    상기 입력 신호에 대한 한 세트의 잠재적 단어 시퀀스들을 식별함으로써 상기 입력 신호를 인식하고 - 각각의 단어 시퀀스는 연관된 발생 확률을 가짐 -, 가장 높은 확률을 갖는 상기 단어 시퀀스를 선택하는 것을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  20. 제 19 항에 있어서, 상기 명령어들은 상기 위치에 기초하여 제 2 로컬 언어 모델을 얻기 위한, 그리고 상기 하이브리드 언어 모델을 생성하기 위해 상기 제 1 로컬 언어 모델, 상기 제 2 로컬 언어 모델, 및 상기 글로벌 언어 모델을 병합하기 위한 명령어들을 추가로 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  21. 제 20 항에 있어서, 상기 명령어들은,
    상기 제 1 로컬 언어 모델, 상기 제 2 로컬 언어 모델, 및 상기 글로벌 언어 모델을 병합하기 이전에, 제 1 가중치를 상기 제 1 로컬 언어 모델에 할당하고 제 2 가중치를 상기 제 2 로컬 언어 모델에 할당하고;
    상기 제 1 로컬 언어 모델, 상기 제 2 로컬 언어 모델, 및 상기 글로벌 언어 모델을 병합함으로써 상기 하이브리드 언어 모델을 생성하기 위한 명령어들을 추가로 포함하고, 상기 병합은 상기 제 1 및 제 2 가중치들에 의해 영향을 받는, 비일시적 컴퓨터 판독가능 저장 매체.
  22. 제 19 항 내지 제 21 항 중 어느 한 항에 있어서, 상기 제 1 로컬 언어 모델은 중심을 포함하는 미리 정의된 지리적 구역과 연관되는, 비일시적 컴퓨터 판독가능 저장 매체.
  23. 제 22 항에 있어서, 상기 위치는 상기 제 1 로컬 언어 모델과 연관된 상기 지리적 구역 내에 포함되는, 비일시적 컴퓨터 판독가능 저장 매체.
  24. 제 22 항 또는 제 23 항에 있어서, 상기 위치는 상기 제 1 로컬 언어 모델과 연관된 상기 지리적 구역 내에 포함된 상기 중심의 규정된 임계 거리 내에 있는, 비일시적 컴퓨터 판독가능 저장 매체.
  25. 제 20 항 내지 제 24 항 중 어느 한 항에 있어서, 상기 제 1 및 상기 제 2 로컬 언어 모델 중 적어도 하나는 로컬 폰북, 로컬 옐로우페이지 리스트들, 로컬 신문, 로컬 맵, 로컬 광고, 및 로컬 블로그 중 적어도 하나를 사용하여 구축된 통계적 언어 모델인, 비일시적 컴퓨터 판독가능 저장 매체.
  26. 전자 디바이스에 있어서,
    입력 신호 및 상기 입력 신호와 연관된 위치를 수신하도록 구성된 입력 수신 유닛; 및
    상기 입력 수신 유닛에 결합된 프로세싱 유닛을 포함하고, 상기 프로세싱 유닛은,
    상기 위치에 기초하여 복수의 로컬 언어 모델들로부터 제 1 언어 모델을 선택하고;
    하이브리드 언어 모델을 생성하기 위해 상기 제 1 로컬 언어 모델 및 글로벌 언어 모델을 병합하고;
    통계적으로 상기 입력 신호에 가장 대응할 것 같은 단어 시퀀스를 식별함으로써 상기 하이브리드 언어 모델에 기초하여 상기 입력 신호를 인식하도록 구성되는, 전자 디바이스.
  27. 제 26 항에 있어서, 상기 입력 신호는 음성 신호인, 전자 디바이스.
  28. 제 26 항 또는 제 27 항에 있어서, 상기 제 1 로컬 언어 모델은 상기 위치와 연관되는 지리적 구역에 매핑되고, 상기 지리적 구역은 중심을 포함하는, 전자 디바이스.
  29. 제 28 항에 있어서, 상기 위치는 상기 지리적 구역 내에 포함되는, 전자 디바이스.
  30. 제 28 항 또는 제 29 항에 있어서, 상기 위치는 상기 중심의 규정된 임계 거리 내에 있는, 전자 디바이스.
  31. 제 28 항 내지 제 30 항 중 어느 한 항에 있어서, 상기 프로세싱 유닛은,
    상기 위치에 기초하여 상기 복수의 로컬 언어 모델들로부터 제 2 로컬 언어 모델을 선택하고;
    상기 하이브리드 언어 모델을 생성하기 위해 상기 제 1 로컬 언어 모델, 상기 제 2 로컬 언어 모델, 및 상기 글로벌 언어 모델을 병합하도록 추가로 구성되는, 전자 디바이스.
  32. 제 31 항에 있어서, 상기 프로세싱 유닛은 상기 제 1 로컬 언어 모델, 상기 제 2 로컬 언어 모델, 및 상기 글로벌 언어 모델을 병합하기 이전에 제 1 가중치 값을 상기 제 1 로컬 언어 모델에 할당하고 제 2 가중치 값을 상기 제 2 로컬 언어 모델에 할당하도록 추가로 구성되는, 전자 디바이스.
  33. 제 32 항에 있어서, 상기 제 1 또는 상기 제 2 가중치 값 중 적어도 하나는 상기 지리적 구역 내에 포함된 중심으로부터의 상기 위치의 거리에 적어도 부분적으로 기초하는, 전자 디바이스.
  34. 제 32 항 또는 제 33 항에 있어서, 상기 제 1 또는 상기 제 2 가중치 값 중 적어도 하나는 로컬 언어 모델에 할당된 정확도 레벨에 적어도 부분적으로 기초하는, 전자 디바이스.
  35. 제 28 항 내지 제 34 항 중 어느 한 항에 있어서, 상기 제 1 로컬 언어 모델은 로컬 거리 명칭, 로컬 이웃 명칭, 로컬 사업체 명칭, 로컬 랜드마크 명칭, 및 로컬 명소 명칭 중 적어도 하나를 포함하는, 전자 디바이스.
  36. 제 28 항 내지 제 35 항 중 어느 한 항에 있어서, 상기 지리적 구역은 확립된 지리적 위치에 의해 정의되는, 전자 디바이스.
  37. 제 32 항 내지 제 36 항 중 어느 한 항에 있어서, 상기 위치가 상기 지리적 구역의 밖에 있을 때, 상기 제 1 또는 상기 제 2 가중치 값 중 적어도 하나는 상기 제 1 또는 상기 제 2 로컬 언어 모델에 각각 적용되는, 전자 디바이스.
  38. 제 31 항 내지 제 37 항 중 어느 한 항에 있어서, 상기 제 1 및 상기 제 2 로컬 언어 모델 중 적어도 하나는 로컬 폰북, 로컬 옐로우페이지 리스트들, 로컬 신문, 로컬 맵, 로컬 광고, 및 로컬 블로그 중 적어도 하나를 사용하여 구축된 통계적 언어 모델인, 전자 디바이스.
  39. 전자 디바이스에 있어서,
    입력 신호 및 상기 입력 신호와 연관된 위치를 수신하기 위한 수단;
    상기 위치에 기초하여 복수의 로컬 언어 모델들로부터 제 1 언어 모델을 선택하기 위한 수단;
    프로세서를 통해, 하이브리드 언어 모델을 생성하기 위해 상기 제 1 로컬 언어 모델 및 글로벌 언어 모델을 병합하기 위한 수단; 및
    통계적으로 상기 입력 신호에 가장 대응할 것 같은 단어 시퀀스를 식별함으로써 상기 하이브리드 언어 모델에 기초하여 상기 입력 신호를 인식하기 위한 수단을 포함하는, 전자 디바이스.
  40. 전자 디바이스에서 사용하기 위한 정보 프로세싱 장치에 있어서,
    입력 신호 및 상기 입력 신호와 연관된 위치를 수신하기 위한 수단;
    상기 위치에 기초하여 복수의 로컬 언어 모델들로부터 제 1 언어 모델을 선택하기 위한 수단;
    프로세서를 통해, 하이브리드 언어 모델을 생성하기 위해 상기 제 1 로컬 언어 모델 및 글로벌 언어 모델을 병합하기 위한 수단; 및
    통계적으로 상기 입력 신호에 가장 대응할 것 같은 단어 시퀀스를 식별함으로써 상기 하이브리드 언어 모델에 기초하여 상기 입력 신호를 인식하기 위한 수단을 포함하는, 전자 디바이스에서 사용하기 위한 정보 프로세싱 장치.
  41. 전자 디바이스에 있어서, 하나 이상의 프로세서들 및 상기 하나 이상의 프로세서들에 의해 실행하기 위한 하나 이상의 프로그램들을 저장하는 메모리를 포함하고, 상기 하나 이상의 프로그램들은 제 1 항 내지 제 11 항의 방법들 중 어느 한 방법을 수행하기 위한 명령어들을 포함하는, 전자 디바이스.
  42. 제 1 항 내지 제 11 항의 방법들 중 어느 한 방법을 수행하기 위한 수단을 포함하는, 전자 디바이스.
  43. 제 1 항 내지 제 11 항의 방법들 중 어느 한 방법을 수행하기 위한 수단을 포함하는, 전자 디바이스에서 사용하기 위한 정보 프로세싱 장치.
  44. 하나 이상의 프로세서들에 의해 실행하기 위한 하나 이상의 프로그램들을 저장하는 비일시적 컴퓨터 판독가능 저장 매체에 있어서, 상기 하나 이상의 프로그램들은 제 1 항 내지 제 11 항의 방법들 중 어느 한 방법을 수행하기 위한 명령어들을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
KR20147024300A 2012-03-06 2013-03-05 위치 기반 언어 모델링을 사용하는 자동화 입력 신호 인식 KR20140137352A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/412,923 2012-03-06
US13/412,923 US20130238332A1 (en) 2012-03-06 2012-03-06 Automatic input signal recognition using location based language modeling
PCT/US2013/029156 WO2013134287A1 (en) 2012-03-06 2013-03-05 Automatic input signal recognition using location based language modeling

Publications (1)

Publication Number Publication Date
KR20140137352A true KR20140137352A (ko) 2014-12-02

Family

ID=47884615

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20147024300A KR20140137352A (ko) 2012-03-06 2013-03-05 위치 기반 언어 모델링을 사용하는 자동화 입력 신호 인식

Country Status (7)

Country Link
US (1) US20130238332A1 (ko)
EP (1) EP2805323A1 (ko)
JP (1) JP2015509618A (ko)
KR (1) KR20140137352A (ko)
CN (1) CN104160440A (ko)
AU (1) AU2013230105A1 (ko)
WO (1) WO2013134287A1 (ko)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9747895B1 (en) * 2012-07-10 2017-08-29 Google Inc. Building language models for a user in a social network from linguistic information
US9966064B2 (en) * 2012-07-18 2018-05-08 International Business Machines Corporation Dialect-specific acoustic language modeling and speech recognition
US9569080B2 (en) 2013-01-29 2017-02-14 Apple Inc. Map language switching
US10199035B2 (en) * 2013-11-22 2019-02-05 Nuance Communications, Inc. Multi-channel speech recognition
US9904851B2 (en) 2014-06-11 2018-02-27 At&T Intellectual Property I, L.P. Exploiting visual information for enhancing audio signals via source separation and beamforming
EP3308379B1 (en) 2015-06-10 2021-07-28 Cerence Operating Company Motion adaptive speech processing
KR101642918B1 (ko) * 2015-08-03 2016-07-27 서치콘주식회사 코드네임 프로토콜을 이용한 네트워크 접속 제어 방법, 이를 수행하는 네트워크 접속 제어 서버 및 이를 저장하는 기록매체
CN105957516B (zh) * 2016-06-16 2019-03-08 百度在线网络技术(北京)有限公司 多语音识别模型切换方法及装置
US10670415B2 (en) * 2017-07-06 2020-06-02 Here Global B.V. Method and apparatus for providing mobility-based language model adaptation for navigational speech interfaces
US9998334B1 (en) * 2017-08-17 2018-06-12 Chengfu Yu Determining a communication language for internet of things devices
US11715042B1 (en) 2018-04-20 2023-08-01 Meta Platforms Technologies, Llc Interpretability of deep reinforcement learning models in assistant systems
US11307880B2 (en) 2018-04-20 2022-04-19 Meta Platforms, Inc. Assisting users with personalized and contextual communication content
US11886473B2 (en) 2018-04-20 2024-01-30 Meta Platforms, Inc. Intent identification for agent matching by assistant systems
US20190327330A1 (en) 2018-04-20 2019-10-24 Facebook, Inc. Building Customized User Profiles Based on Conversational Data
US11676220B2 (en) 2018-04-20 2023-06-13 Meta Platforms, Inc. Processing multimodal user input for assistant systems
CN109243461B (zh) * 2018-09-21 2020-04-14 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3337083B2 (ja) * 1992-08-20 2002-10-21 株式会社リコー 車載用ナビゲート装置
JP2946269B2 (ja) * 1993-08-25 1999-09-06 本田技研工業株式会社 車載情報処理用音声認識装置
JPH07303053A (ja) * 1994-05-02 1995-11-14 Oki Electric Ind Co Ltd 地域判定装置及び音声認識装置
JP3474013B2 (ja) * 1994-12-21 2003-12-08 沖電気工業株式会社 音声認識装置
JP2000122686A (ja) * 1998-10-12 2000-04-28 Brother Ind Ltd 音声認識装置およびそれを用いた電子機器
US6904405B2 (en) * 1999-07-17 2005-06-07 Edwin A. Suominen Message recognition using shared language model
JP2001249686A (ja) * 2000-03-08 2001-09-14 Matsushita Electric Ind Co Ltd 音声認識方法、音声認識装置、およびナビゲーション装置
JP4232943B2 (ja) * 2001-06-18 2009-03-04 アルパイン株式会社 ナビゲーション用音声認識装置
US7774388B1 (en) * 2001-08-31 2010-08-10 Margaret Runchey Model of everything with UR-URL combination identity-identifier-addressing-indexing method, means, and apparatus
US7328155B2 (en) * 2002-09-25 2008-02-05 Toyota Infotechnology Center Co., Ltd. Method and system for speech recognition using grammar weighted based upon location information
US8041568B2 (en) * 2006-10-13 2011-10-18 Google Inc. Business listing search
US8219406B2 (en) * 2007-03-15 2012-07-10 Microsoft Corporation Speech-centric multimodal user interface design in mobile technology
US8140335B2 (en) * 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8239129B2 (en) * 2009-07-27 2012-08-07 Robert Bosch Gmbh Method and system for improving speech recognition accuracy by use of geographic information
US8255217B2 (en) * 2009-10-16 2012-08-28 At&T Intellectual Property I, Lp Systems and methods for creating and using geo-centric language models
US9171541B2 (en) * 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment

Also Published As

Publication number Publication date
US20130238332A1 (en) 2013-09-12
JP2015509618A (ja) 2015-03-30
CN104160440A (zh) 2014-11-19
EP2805323A1 (en) 2014-11-26
AU2013230105A1 (en) 2014-09-11
WO2013134287A1 (en) 2013-09-12

Similar Documents

Publication Publication Date Title
KR20140137352A (ko) 위치 기반 언어 모델링을 사용하는 자동화 입력 신호 인식
JP6343010B2 (ja) ワイヤレスネットワークのアクセスポイントに関連したエンティティの識別
JP6017678B2 (ja) 音声制御ナビゲーション・システム用のランドマークに基づく場所思考追跡
JP6225257B2 (ja) 関心ポイントのクラスタリング方法及び関連する装置
CN108628943B (zh) 一种数据处理方法、装置和电子设备
JP2012094142A (ja) 地域基盤の検索語を推薦するシステム及びその方法
US20120317087A1 (en) Location-Aware Search Ranking
JP7176011B2 (ja) デジタルアシスタントアプリケーションとナビゲーションアプリケーションとの間のインターフェーシング
WO2017016122A1 (zh) 一种信息推送方法及装置
US20140188607A1 (en) Advertising exposure method based on event occurrence, server for performing the advertising exposure method, and computer-readable recording medium having recorded thereon program for executing the advertising exposure method
JP2020509444A (ja) データ記憶及び呼出の方法及び装置
KR20190030023A (ko) 사용자의 프라이버시 제어를 추천하는 장치 및 그 방법
CN103473253A (zh) 经地理编码的数据的检测及用于其的用户界面
TW202301081A (zh) 輔助系統之基於真實世界文字偵測的任務執行
KR101747532B1 (ko) 여행성 질의에 대응하는 검색 결과로 코스를 추천하는 방법 및 시스템
US9462062B2 (en) Portable terminal for displaying local service based on context awareness technology, and operation method of the portable terminal
WO2017024684A1 (zh) 用户行为意图的获取方法、装置、设备及非易失性计算机存储介质
KR101656778B1 (ko) 위치 연관 문서에 기초하여 감정을 분석하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
CN103853437A (zh) 一种获取候选项的方法及装置
US10520322B2 (en) Predictive intersection search
US9888347B1 (en) Resolving location criteria using user location data
Katragadda et al. An unsupervised approach to identify location based on the content of user’s tweet history
KR101391588B1 (ko) 주소록 정보 서비스 시스템, 그 시스템에서의 주소록 정보 서비스를 위한 방법 및 장치
CN105989147A (zh) 路径的规划方法及装置
CN110619087B (zh) 用于处理信息的方法和装置

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid