KR101922744B1

KR101922744B1 - 위치-기반 대화 해석 기법

Info

Publication number: KR101922744B1
Application number: KR1020137025540A
Authority: KR
Inventors: 래리 폴 헤크; 마두수단 친사쿤타; 데이비드 미트비; 리자 스티펠만
Original assignee: 마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Priority date: 2011-03-31
Filing date: 2012-03-27
Publication date: 2018-11-27
Also published as: WO2012135157A3; WO2012135791A2; EP2691877A2; JP2017123187A; CN102750311B; EP2691870A2; CN102737096A; EP2691949A2; WO2012135218A2; CN102737101B; CN106383866A; EP2691875A2; KR20140025362A; JP2014512046A; WO2012135218A3; WO2012135157A2; EP2691885A1; JP6105552B2; EP2691870A4; JP6087899B2

Abstract

본 발명에 따르면 위치-기반 대화 해석이 제공된다. 사용자로부터 쿼리를 수신하면, 쿼리와 연관된 환경적 맥락이 생성된다. 쿼리는 이 환경적 맥락에 따라 해석될 수 있다. 해석된 쿼리는 실행될 수 있으며 쿼리와 연관된 적어도 하나의 결과가 사용자에게 제공될 수 있다.

Description

위치-기반 대화 해석 기법{LOCATION-BASED CONVERSATIONAL UNDERSTANDING}

위치-기반 대화 해석은 환경적 맥락을 활용하여 쿼리 실행 및 결과들을 향상시키는 메커니즘을 제공한다. 종래의 음석 인식 프로그램들은 한 사용자로부터 다른 사용자로의 정보(예컨대, 음성 어조(speech utterance), 지리적 데이터, 소정 위치들의 음향적 환경, 특정 위치로부터 만들어지는 전형적인 쿼리들)를 활용하여 새로운 사용자들 및/또는 기존 사용자들로부터 새로운 쿼리들의 품질과 정확성을 향상시키는 기법을 가지지 않았다. 어떤 경우는 대화 해석에 있어 유사하거나 잠재적으로 관련된 쿼리들을 이용하지 못하고 음성-텍스트 변환이 행해져야만 했다.

음성-텍스트 변환(즉, 음성 인식)은 컴퓨팅 시스템에 의해 처리될 수 있는 음성 표현의 텍스트 표현으로의 변환을 포함할 수 있다. 음향 모델링 및/또는 언어 모델링이 현대적인 통계-기반 음성 인식 알고리즘에서 사용될 수 있다. 'Hidden Markov model(HMMs)'은 많은 종래의 시스템에서 널리 사용되고 있다. HMMs는 심볼이나 퀀티티(quantities)의 시퀀스를 출력할 수 있는 통계적 모델들을 포함할 수 있다. HMMs는 음성 신호를 단편적인 정적 신호(piecewise stationary signal) 또는 짧은 시간 동안 정적 신호(short-time stationary signal)로 볼 수 있기 때문에 음성 인식에 사용될 수 있다. 짧은 시간(예컨대, 10 밀리초) 동안에, 음성은 정적 프로세스로 근사될 수 있다. 그러므로 음성은 많은 확률론적 용도를 위해 Markov 모델로 고려될 수 있다.

이 개요는 아래에서 상세한 설명에서 더 설명할 일부 선택된 개념들을 단순한 형태로 소개하기 위해 제공된다. 이 개요는 청구된 주제의 핵심 특징 또는 필수 특징을 식별하기 위한 것이 아니고, 청구된 주제의 범위를 제한하는데 사용되려는 것도 아니다.

위치-기반 대화 해석이 제공된다. 사용자로부터 쿼리를 수신하면, 쿼리와 연관된 환경적 맥락이 생성된다. 쿼리는 이 환경적 맥락에 따라 해석될 수 있다. 해석된 쿼리는 실행될 수 있으며 쿼리와 연관된 적어도 하나의 결과가 사용자에게 제공될 수 있다.

전술한 일반적 설명 및 후술할 상세한 설명은 모두 예시이며 예시적인 용도로만 사용된 것이다. 따라서, 전술한 일반적 설명 및 후술할 상세한 설명은 제한적인 의미로 고려되어서는 안된다. 오히려, 다른 특징 또는 변형이 여기에 설명된 것에 더하여 제공될 수 있다. 예를 들어, 실시예들은 상세한 설명에 기술된 다양한 특징들의 조합들 또는 하위 조합들에 대한 것일 수 있다.

첨부된 도면들은 본 명세서에 통합되어 본 명세서의 일부를 이루며, 본 발명의 다양한 실시예를 도시한다. 도면에서,
도 1은 동작 환경에 대한 블록도이다.
도 2는 위치-기반 대화 해석을 제공하는 방법에 대한 흐름도이다.
도 3은 컴퓨팅 장치를 포함하는 시스템의 블록도이다.

후술하는 상세한 설명은 첨부된 도면들을 참조한다. 가능한 경우, 동일한 참조번호가 도면 및 후술할 설명에서 동일하거나 유사한 구성 요소들을 지칭한다. 본 발명의 실시예들이 기술되었지만, 변경, 적응 및 다른 구현들이 가능하다. 예를 들어, 도면에 도시된 요소들에 대한 대체, 추가 또는 변경이 있을 수 있으며, 여기에 개시된 방법들이 개시된 방법들이 개시된 방법들에 단계를 대체, 재구성, 추가하는 것에 의해 변경될 수 있다. 따라서, 후술할 상세한 설명은 발명을 한정하는 것이 아니다. 발명의 적절한 범위는 첨부된 청구범위에 의해 정의된다.

위치-기반 대화 해석이 제공된다. 예를 들어, 변환 및 변환된 진술에 포함된 쿼리 결과의 정확성을 향상시키기 위하여 복수의 사용자들로부터의 정보를 서로 연관시키는 음성-텍스트 변환 시스템이 제공될 수 있다. 본 발명의 실시예에 따라, 개인 보조 프로그램(personal assistant program)은 복수의 위치에서 사용자들로부터의 음성-기반 쿼리들을 수신할 수 있다. 각각의 쿼리들에 대해 음향적 및/또는 환경적 특성들이 분석되며, 이러한 특성들은 저장되고 그 쿼리가 수신된 위치와 연관될 수 있다. 예를 들어, 지하철역에 있는 사용자로부터 수신된 쿼리는 군중들이나 지하철에 의한 배경음 및/또는 타일 벽의 음향적 에코의 존재를 탐지할 수 있다. 그리고 나서 이 특성들이 그 위치에서 수신되는 장래의 쿼리들로부터는 필터링(filitered out)되도록 나타냄으로서, 그 쿼리들의 변환에 더 큰 정확성을 허용할 수 있다. 본 발명의 실시예들에 따라, 예를 들어 사용자의 GPS(Global Positioning System) 위치, 사용자와 연관된 지역 코드, 사용자와 연관된 우편번호 및/또는 사용자가 랜드마크(예컨대, 기차역, 체육관, 박물관, 오피스 빌딩 등)에 가까운 정도 등에 의해 위치가 정의될 수 있다.

쿼리를 처리하는 것은 그 쿼리를 음향 모델(acoustic model)에 따라 조정하는 것을 포함할 수 있다. 예를 들어, 음향 모델은 특정 위치에 존재한다고 알려진 배경음을 포함할 수 있다. 음향 모델을 적용하는 것은 쿼리로 하여금 관계없는 소리를 무시함으로서 좀 더 정확하게 변환될 수 있도록 해준다. 음향 모델은 또한 쿼리와 연관된 어떠한 결과들의 디스플레이를 변경할 수 있게 해줄 수 있다. 예를 들어, 특정한 시끄러운 환경에서, 결과들을 오디오보다는 스크린에 디스플레이되도록 할 수 있다. 환경적 맥락은 음성-텍스트 변환을 돕기 위해 해석 모델과도 연관될 수 있다. 예를 들어, 해석 모델은 HMM(Hidden Markov Model)을 포함할 수 있다. 환경적 맥락은 쿼리를 실행하는 것을 돕기 위해 시맨틱 모델(semantic model)과 더 연관될 수 있다. 예를 들어, 시맨틱 모델은 온톨로지(ontology)를 포함할 수 있다.

또한, 쿼리의 주제는 미래의 쿼리들에 대한 결과를 향상시키는데 사용될 수 있다. 예를 들어, 지하철역에 있는 사용자들이 "다음은 언제인가?"라는 쿼리를 주면, 개인 보조 프로그램은 몇몇 쿼리들을 거치는 동안, 사용자가 원하는 것이 다음 기차가 언제 도착하는가라는 것을 판단할 수 있다. 이것은 처음 사용자로부터의 쿼리에 대한 추가 설명을 요청하고, 장래에 사용하기 위해 그 설명을 저장하는 것에 의해 달성될 수 있다. 다른 예로서, 만약 한 사용자가 "다음은 언제인가?"라는 쿼리를 주고 다른 사용자가 "다음 기차는 언제인가?"라는 쿼리를 주면, 프로그램은 이들 쿼리들을 관련짓고 두 사용자 모두 동일한 정보를 요청하고 있다는 가정을 할 수 있다.

도 1은 위치-기반 대화 해석을 제공하는 동작 환경 (100)의 블록도이다. 동작 환경(100)은 개인 보조 프로그램 (112), 음성-텍스트 변환기 (114) 및 맥락 데이터베이스(116)를 포함하는 음성 대화 시스템(spoken dialog system, SDS)(110)을 포함할 수 있다. 개인 보조 프로그램(112)은 제1 위치(140)에서 제1 복수의 사용자들(130(A)-(C)) 및/또는 제2 위치(160)에서 제2 복수의 사용자들(150(A)-(C))로부터 네트워크(120)를 통해 쿼리들을 수신할 수 있다. 맥락 데이터베이스(116)는 제1 복수의 사용자들(130(A)-(C)) 및/또는 제2 복수의 사용자들(150(A)-(C))과 같은 사용자들로부터 수신된 쿼리들과 연관된 맥락 데이터를 저장할 수 있다. 맥락 데이터는 음향적 및/또는 환경적 특성들과 쿼리 주제, 쿼리의 시간/날짜, 사용자 세부사항, 및/또는 쿼리가 만들어진 장소와 같은 쿼리 맥락 정보를 포함할 수 있다. 본 발명의 실시예들에 따르면, 네트워크(120)는 예를 들어, 사설 데이터 네트워크(예컨대 인트라넷), 셀룰러 데이터 네트워크, 및/또는 인터넷과 같은 공용 네트워크를 포함할 수 있다.

에이전트(agent)는 음성 대화 시스템(SDS)과 연관될 수 있다. 이러한 시스템들은 사람들이 그들의 목소리로 컴퓨터들과 상호작용을 할 수 있도록 해준다. SDS를 동작시키는 주요 컴포넌트는 다이얼로그 관리자(dialog manager)를 포함할 수 있는데, 이 컴포넌트는 사용자와의 다이얼로그-기반 대화를 관리한다. 다이얼로그 관리자는 음성 인식이나 자연어 해석 컴포넌트 출력들, 이전 차례의 대화에서의 맥락, 사용자 문맥, 및/또는 지식 베이스(예컨대 검색 엔진)로부터 반환된 결과들과 같은 복수의 입력 소스들로부터의 조합을 통해 사용자의 의도를 판단할 수 있다. 의도를 판단한 후에, 다이얼로그 관리자는 최종 결과들을 사용자에게 디스플레이하거나 및/또는 그들의 의도를 만족시키기 위한 사용자와의 다이얼로그를 계속하는 것과 같은 행동을 취할 수 있다. 음성 대화 시스템은 위치 및/또는 음성-기반 입력들을 처리하기 위한 음성 언어 해석 모델과 연관된 음향 모델과 같은 복수의 대화 해석 모델을 포함할 수 있다.

도 2는 위치-기반 대화 해석을 제공하기 위한 본 발명의 실시예에 따른 방법(200)과 연관된 일반적인 단계들의 흐름도이다. 방법(200)은 도 3과 관련하여 아래에서 더 자세히 설명될 컴퓨팅 장치(300)를 사용하여 구현될 수 있다. 방법(200)의 단계들을 구현하는 방법이 이하에서 더 상세히 설명될 것이다. 방법(200)은 시작 블록(205)에서 시작하여 컴퓨팅 장치(300)가 한 위치에 있는 사용자로부터 음성-기반 쿼리를 수신할 수 있는 단계(210)로 진행한다. 예를 들어, 사용자(130(A))는 셀룰러 전화기와 같은 장치를 통해 쿼리를 SDS(110)로 송신할 수 있다.

방법(200)은 단계(210)로부터 단계(215)로 진행하여 위치와 연관된 환경적 맥락이 메모리 저장장치에 존재하는지 여부를 컴퓨팅 장치(300)가 판단하도록 한다. 예를 들어, SDS(110)는 쿼리가 수신된 위치(예컨대, 제1 위치(140))를 식별하고, 그 위치와 연관된 환경적 맥락이 맥락 데이터베이스(116)에 존재하는지 여부를 판단할 수 있다.

만약 그 위치와 연관된 맥락이 존재하지 않는다면, 방법(200)은 단계(220)로 진행하여 컴퓨팅 장치(300)가 음성-기반 쿼리에서의 적어도 하나의 음향 간섭(acoustic interference)을 식별하도록 한다. 예를 들어, SDS(110)는 쿼리의 오디오를 분석하고 사용자(130(A)) 주변의 많은 군중들 및/또는 지나가는 기차와 연관된 것과 같은 배경 잡음을 식별할 수 있다.

그리고 나서 방법(200)은 단계(225)로 나아가 컴퓨팅 장치(300)가 음성-기반 쿼리와 연관된 적어도 하나의 주제를 식별하도록 한다. 예를 들어, 쿼리가 "다음 도착은 언제인가?"라는 질문을 포함한다면, SDS(110)는 사용자가 기차역에 있을 때 기차 시간표를 쿼리의 주제로 식별할 수 있다.

그리고 나서 방법(200)은 단계(230)으로 진행하여 컴퓨팅 장치(300)가 메모리 저장장치에 저장하기 위해 위치와 연관된 새로운 환경적 맥락을 생성하도록 한다. 예를 들어, SDS(110)는 식별된 음향 간섭 및 쿼리 주제를 사용자의 위치와 연관된 것으로 맥락 데이터베이스(116)에 저장할 수 있다.

만약 위치와 연관된 맥락이 존재한다면, 방법(200)은 단계(235)로 진행하여 컴퓨팅 장치(300)가 그 위치와 연관된 환경적 맥락을 로딩하도록 한다. 예를 들어, SDS(110)는 전술한 것과 같이 환경적 맥락을 맥락 데이터베이스(116)로부터 로딩할 수 있다.

단계(240)에서 환경적 맥락을 생성하거나 또는 단계(235)에서 맥락을 로딩한 후에, 방법(200)은 단계(240)로 진행하여 컴퓨팅 장치(300)가 환경적 맥락에 따라 음성-기반 쿼리를 텍스트-기반 쿼리로 변환하도록 한다. 예를 들어, SDS(110)는 환경적 맥락과 연관된 적어도 하나의 음향 간섭을 제거하는 필터를 적용하는 것에 의해 음성-기반 쿼리를 텍스트-기반 쿼리로 변환할 수 있다.

그리고 나서 방법(200)은 단계(245)로 진행하여 컴퓨팅 장치(300)가 환경적 맥락에 따라 텍스트-기반 쿼리를 실행하도록 한다. 예를 들어, SDS(110)는 환경적 맥락과 연관된 적어도 하나의 주제와 연관하여 검색 영역(예컨대, 기차 시간표) 내에서 쿼리(예컨대, "다음 도착은 언제인가?")를 실행할 수 있다.

그리고 나서 방법(200)은 단계(250)로 진행하여 컴퓨팅 장치(300)가 실행된 텍스트-기반 쿼리의 적어도 하나의 결과를 사용자에게 제공하도록 한다. 예를 들어, SDS(110)는 디스플레이를 위해 사용자(130(A))와 연관된 장치(예컨대, 셀룰러 전화기)에 결과를 전송할 수 있다. 그리고 나서 방법(200)은 단계(255)에서 종료된다.

본 발명에 따른 일 실시예는 위치-기반 대화 해석을 제공하는 시스템을 포함할 수 있다. 시스템은 메모리 저장장치와 메모리 저장장치에 결합된 프로세싱 유닛을 포함할 수 있다. 프로세싱 유닛은 사용자로부터 쿼리를 수신하여, 그 쿼리와 연관된 환경적 맥락을 생성하고, 그 쿼리를 환경적 맥락에 따라 해석하고, 해석된 쿼리를 실행하고, 쿼리의 적어도 하나의 결과를 사용자에게 제공할 수 있다. 쿼리는, 예를 들어, 프로세싱 유닛이 이를 컴퓨터-판독가능 텍스트로 변환하는 음성 쿼리를 포함할 수 있다. 본 발명의 실시예들에 따라, 음성-텍스트 변환은 해석 모델 및/또는 시맨틱 모델과 연관된 시맨틱 개념들과 연관된 다양한 가능한 용어들에 대한 통계적 가중치를 주는 것을 포함하는 Hidden Markov 모델 알고리즘을 활용할 수 있다. 프로세싱 유닛은, 예를 들어, 그 위치로부터 수신된 적어도 하나의 이전 쿼리에 따라 적어도 하나의 예측된 단어에 대한 통계적 가중치를 증가시키거나, 그 통계적 가중치를 환경적 맥락의 일부로서 저장할 수 있다.

환경적 맥락은 그 쿼리가 수신된 위치와 연관된 음향 모델을 포함할 수 있다. 프로세싱 유닛은 음향 모델에 따라 음성-기반 쿼리의 적어도 하나의 배경음에 따라 쿼리를 조정할 수 있다. 예를 들어, 주어진 위치(예컨대, 기차역)로부터 수신된 음성 쿼리들에 배경음(예컨대, 기차의 기적소리)이 존재한다는 것이 알려져 있을 수 있다. 배경음은 탐지되고, 음의 높이(pitch), 진폭 및 다른 음향 특성들이 측정될 수 있다. 쿼리는 그런 소리들을 무시하도록 조정될 수 있고, 그 소리는 그 위치로부터의 미래의 쿼리들에 적용되기 위해 계산되고 저장될 수 있다. 프로세싱 유닛은 또한 제2 사용자로부터 제2 음성-기반 쿼리를 수신하여 갱신된 음향 모델에 따라 동일한 배경음을 제거하도록 쿼리를 조정할 수 있다. 프로세싱 유닛은 또 복수의 사용자들로부터의 복수의 쿼리들과 연관된 환경적 맥락들을 종합하여 그 위치와 연관된 종합된 환경적 맥락들(aggregated environmental contexts)로서 저장할 수 있다.

본 발명에 따른 다른 실시예는 위치-기반 대화 해석을 제공하는 시스템을 포함할 수 있다. 시스템은 메모리 저장장치와 메모리 저장장치에 결합된 프로세싱 유닛을 포함할 수 있다. 프로세싱 유닛은 한 위치에 있는 사용자로부터 음성-기반 쿼리를 수신하고, 그 위치와 연관된 환경적 맥락을 로딩하고, 음성-기반 쿼리를 환경적 맥락에 따라 텍스트로 변환하고, 환경적 맥락에 따라 변환된 쿼리를 실행하고, 실행된 쿼리와 연관된 적어도 하나의 결과를 사용자에게 제공할 수 있다. 환경적 맥락은, 예를 들어, 적어도 하나의 이전 쿼리의 시간, 적어도 하나의 이전 쿼리의 날짜, 적어도 하나의 이전 쿼리의 주제, 온톨로지를 포함하는 시맨틱 모델, 해석 모델, 그 위치의 음향 모델을 포함할 수 있다. 프로세싱 유닛은 또한 그 위치와 연관된 알려진 음향 간섭에 따라 쿼리를 조정할 수 있다. 프로세싱 유닛은 또한 복수의 사용자로부터 수신된 복수의 쿼리들에 따라 종합된 복수의 위치와 연관된 복수의 환경적 맥락들을 저장할 수 있다. 프로세싱 유닛은 또한 사용자로부터 변환된 텍스트에 대한 교정을 수신하고 그 교정에 따라 환경적 맥락을 갱신할 수 있다. 프로세싱 유닛은 또한 제2 위치에 있는 사용자로부터 제2 음성-기반 쿼리를 수신하고, 제2 위치와 연관된 제2 환경적 맥락을 로딩하고, 제2 음성-기반 쿼리를 제2 환경적 맥락에 따라 텍스트로 변환하고, 변환된 쿼리를 제2 환경적 맥락에 따라 실행하고, 실행된 쿼리와 연관된 적어도 하나의 제2 결과를 사용자에게 제공할 수 있다.

본 발명에 의한 또다른 실시예는 맥락-이해(context-aware) 환경을 제공하는 시스템을 포함한다. 시스템은 메모리 저장장치와 메모리 저장장치에 결합된 프로세싱 유닛을 포함할 수 있다. 프로세싱 유닛은 한 위치에 있는 사용자로부터 음성-기반 쿼리를 수신하고 그 위치와 연관된 환경적 맥락이 메모리 저장장치에 존재하는지 여부를 판단한다. 환경적 맥락이 존재하지 않는다는 판단에 응답하여, 프로세싱 유닛은 음성-기반 쿼리 내의 적어도 하나의 음향 간섭을 식별하고, 그 음성-기반 쿼리와 연관된 적어도 하나의 주제를 식별하고, 메모리 저장장치에 저장할 그 위치와 연관된 새로운 환경적 맥락을 생성한다. 환경적 맥락이 존재한다는 판단에 응답하여, 프로세싱 유닛은 그 환경적 맥락을 로딩한다. 그리고 나서 프로세싱 유닛은 환경적 맥락에 따라 음성-기반 쿼리를 텍스트-기반 쿼리로 변환하고 (환경적 맥락에 따라 음성-기반 쿼리를 텍스트-기반 쿼리로 변환하는 것은 그 환경적 맥락과 연관된 적어도 하나의 음향 간섭을 제거하는 필터를 적용하는 것을 포함함), 텍스트-기반 쿼리를 환경적 맥락에 따라 실행하며 (환경적 맥락에 따라 텍스트-기반 쿼리를 실행하는 것은 적어도 하나의 음향 간섭이 음향 모델과 연관되고 적어도 하나의 식별된 주제가 환경적 맥락과 연관된 시맨틱 모델과 연관된 쿼리를 실행하는 것을 포함함), 실행된 텍스트-기반 쿼리의 적어도 하나의 결과를 사용자에게 제공할 수 있다.

도 3은 컴퓨팅 장치(300)를 포함하는 시스템의 블록도이다. 본 발명의 실시예에 따르면, 전술한 메모리 저장장치와 프로세싱 유닛은 도 3의 컴퓨팅 장치(300)와 같은 컴퓨팅 장치에 구현될 수 있다. 하드웨어, 소프트웨어, 또는 펌웨어의 어떠한 적절한 조합이라도 메모리 저장장치와 프로세싱 유닛을 구현하기 위해 사용될 수 있다. 예를 들어, 메모리 저장장치와 프로세싱 유닛은 컴퓨팅 장치(300)와 함께 구현되거나, 또는 컴퓨팅 장치(300)와 결합된 다른 어떤 컴퓨팅 장치(318)와 함께 구현될 수 있다. 전술한 시스템, 장치, 및 프로세서들은 예시적인 것으로 이와 다른 시스템, 장치, 및 프로세서가 본 발명의 실시예에 따라 전술한 메모리 저장장치와 프로세싱 유닛을 포함할 수 있다. 게다가, 컴퓨팅 장치(300)는 상술한 대로 시스템(100)에 대한 운영 환경을 포함할 수 있다. 시스템(100)은 다른 환경에서 동작할 수 있으며 본 컴퓨터 장치(300)에 제한되지 않는다.

도 3을 참조하면, 본 발명의 실시예에 따른 시스템은 컴퓨팅 장치(300)와 같은 컴퓨팅 장치를 포함한다. 기본적인 구성에서, 컴퓨팅 장치(300)는 적어도 하나의 프로세싱 유닛(302)과 시스템 메모리(304)를 포함할 수 있다. 구성 및 컴퓨팅 장치의 유형에 따라, 시스템 메모리(304)는, 휘발성(예컨대, 랜덤 액세스 메모리(RAM)), 비휘발성(예컨대, 판독 전용 메모리(ROM)), 플래시 메모리, 또는 어떤 조합이라도 포함할 수 있으며 이에 제한되지 않는다. 시스템 메모리(304)는 운영 체제(305), 하나 이상의 프로그램 모듈(306)을 포함할 수 있고, 개인 보조 프로그램(112)을 포함할 수 있다. 운영 체제(305)는, 예를 들면, 컴퓨팅 장치(300)의 동작을 제어하는 데 적합할 수 있다. 게다가, 본 발명의 실시예는 그래픽 라이브러리, 다른 운영 체제, 또는 다른 애플리케이션 프로그램과 함께 실시될 수 있으며 어떤 특정한 프로그램 또는 시스템으로 제한되지 않는다. 이 기본적인 구성이 도 3에서 점선(308)내의 컴포넌트들로서 도시되어 있다.

컴퓨팅 장치(300)는 부가적인 특징 또는 기능을 가질 수 있다. 예를 들어, 컴퓨팅 장치(300)는 또한 자기 디스크, 광학 디스크, 또는 테이프와 같은 추가적인 (착탈식 및/또는 고정식) 데이터 저장 장치를 포함할 수 있다. 그러한 추가적인 저장장치들이 도 3에서 착탈식 저장장치(309)와 고정식 저장장치(310)로 도시되어 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 다른 데이터와 같은 정보를 저장하기 위한 어떤 방법 또는 기술이 구현된 휘발성 및 비휘발성, 착탈식 및 고정식 매체를 포함할 수 있다. 시스템 메모리(304), 착탈식 저장장치(309), 및 고정식 저장장치(310)는 모두 컴퓨터 저장 매체(즉, 메모리 저장장치)의 예시이다. 컴퓨터 저장 매체는, RAM, ROM, 전자적으로 지울 수 있는 판독-전용 메모리(EEPROM), 플래시 메모리나 다른 메모리 기술, CD-ROM, DVD 또는 다른 광학 저장장치, 자기 카세트, 자기 테이프, 자기 디스크 저장장치나 다른 자기 저장장치, 또는 정보를 저장하는데 사용될 수 있고 컴퓨팅 장치(300)에 의해 접속될 수 있는 어떠한 다른 매체를 포함하며, 이에 제한되지 않는다. 그러한 어떠한 컴퓨터 저장 매체라도 장치(300)의 부분이 될 수 있다. 컴퓨팅 장치(300)는 또한 키보드, 마우스, 펜, 음성 입력 장치, 터치 입력 장치 등과 같은 입력 장치(들)(312)를 포함할 수 있다. 디스플레이, 스피커, 프린터 등과 같은 출력 장치(들)(314)도 포함될 수 있다. 전술한 장치들은 예시적인 것이며 다른 것들도 사용될 수 있다.

컴퓨팅 장치(300)는 또한 장치(300)로 하여금 예를 들어 인터넷이나 인트라넷과 같은 분산 컴퓨팅 환경의 네트워크를 통하는 것과 같이 다른 컴퓨팅 장치(318)와 통신하도록 해주는 통신 접속부(316)를 포함할 수 있다. 통신 접속부(316)는 통신 매체의 한 에시이다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파나 다른 전송 메커니즘과 같은 변조된 데이터 신호의 다른 데이터에 의해 구현되며, 어떠한 정보 전달 매체라도 포함한다. "변조된 데이터 신호"라는 용어는 하나 이상의 특성 집합을 가지거나 신호 중에 정보를 암호화하는 등의 방식으로 변화된 신호를 기술할 수 있다. 예시로서, 통신 매체는 유선 네트워크나 직접-유선 연결과 같은 유선 매체, 음파, 라디오 주파수(RF), 적외선, 또는 다른 무선 매체와 같은 무선 매체를 포함하며, 이에 제한되지 않는다. 여기서 사용되는 컴퓨터 판독가능 매체라는 용어는 저장 매체와 통신 매체 모두를 포함한다.

전술한 바와 같이, 시스템 메모리(304)에 운영 체제(305)를 포함하는 몇몇 프로그램 모듈과 데이터 파일이 저장될 수 있다. 프로세싱 유닛(302)에서 실행되는 동안, 프로그래밍 모듈(306)(예컨대, 개인 보조 프로그램(112))은 예를 들어, 전술한 대로 방법(200)의 단계 중의 하나 이상을 포함하는 프로세스를 수행할 수 있다. 전술된 프로세스는 예시적인 것이며, 프로세싱 유닛(302)은 이와 다른 프로세스들을 수행할 수 있다. 본 발명의 실시예들에 따라 사용될 수 있는 다른 프로그래밍 모듈들은 전자 메일 및 연락처 애플리케이션, 워드 프로세싱 애플리케이션, 스프레드쉬트 애플리케이션, 데이터베이스 애플리케이션, 슬라이드 프레젠테이션 애플리케이션, 드로잉 또는 컴퓨터-보조 애플리케이션 프로그램 등을 포함할 수 있다.

일반적으로, 본 발명의 실시예들에 따라, 프로그램 모듈들은 루틴, 프로그램, 컴포넌트, 데이터 구조, 및 특정 과제를 수행할 수 있거나 특정 추상 데이터 유형을 구현할 수 있는 다른 유형의 구조체를 포함한다. 게다가, 본 발명의 실시예들은 휴대용 장치, 멀티프로세서 시스템, 마이크로프로세서-기반 또는 프로그래머블 소비자 가전, 미니컴퓨터, 메인프레임 컴퓨터 등의 다른 컴퓨터 시스템 구성들에서 실시될 수 있다. 본 발명의 실시예들은 또한 통신 네트워크를 통해 연결된 원격 프로세싱 장치들에 의해 작업이 수행되는 분산 컴퓨팅 환경에서 실시될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈들은 지역 및 원격 메모리 저장장치 양쪽에 위치할 수 있다.

게다가, 본 발명의 실시예들은 이산 전자 소자(discrete electronic element)를 포함하는 전기 회로, 논리 게이트를 포함하는 패키징된 또는 통합된 전기 칩, 마이크로프로세서를 활용하는 회로, 또는 전자 소자나 마이크로프로세서를 포함하는 단일 칩 상에서 실시될 수 있다. 본 발명의 실시예들은 또한 기계적, 광학적, 유체의 또는 양자 기술을 포함하는 그러나 이에 제한되지 않는, 예를 들어, AND, OR, 및 NOT과 같은 논리적 동작을 수행할 수 있는 다른 기술들을 사용하여 실시될 수 있다. 이에 더하여, 본 발명의 실시예들은 범용 목적 컴퓨터나 또는 어떤 다른 회로나 시스템 내에서 실시될 수 있다.

본 발명의 실시예들은, 컴퓨터 프로그램 제품 또는 컴퓨터 판독가능 매체와 같은, 예를 들어, 컴퓨터 프로세스(메소드), 컴퓨팅 시스템, 또는 제조품으로 구현될 수 있다. 컴퓨터 프로그램 제품은 컴퓨터 시스템에 의해 판독가능하고 컴퓨터 프로세스를 실행하기 위한 명령어들의 컴퓨터 프로그램을 인코딩한 컴퓨터 저장 매체일 수 있다. 컴퓨터 프로그램 제품은 또한 컴퓨팅 시스템에 의해 판독가능한 전파 신호나 캐리어이고 컴퓨터 프로세스를 실행하기 위한 명령어들의 컴퓨터 프로그램을 인코딩한 것일 수 있다. 따라서, 본 발명은 하드웨어 및/또는 (펌웨어, 레지던트 애플리케이션, 마이크로-코드 등을 포함하는) 소프트웨어에서 구현될 수 있다. 바꿔 말하면, 본 발명의 실시예들은 명령어 실행 시스템에 의해 사용되거나 그에 연결된 매체에서 구현되는 컴퓨터-사용가능 또는 컴퓨터-판독가능 프로그램 코드를 가진 컴퓨터에서 사용가능한 또는 컴퓨터-판독가능한 저장 매체 상의 컴퓨터 프로그램 제품의 형태를 취할 수 있다. 컴퓨터-사용가능 또는 컴퓨터-판독가능 매체는 명령어 실행 프로그램, 기구 또는 장치에 의해 사용되거나 그에 연결되는 프로그램을 포함하고, 저장하고, 통신하고, 전파하고, 또는 전송하는 어떠한 매체라도 될 수 있다.

컴퓨터-사용가능 또는 컴퓨터-판독가능 매체는, 예를 들어, 전기, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템, 기구, 장치, 또는 전파 매체일 수 있으나, 이에 제한되지 않는다. 더 구체적인 컴퓨터-판독가능 매체의 예로는 (비한정적 목록임) 하나 이상의 전선들을 포함하는 전기적 접속부, 포터블 컴퓨터 디스켓, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 지울 수 있는 프로그램가능 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 및 포터블 컴팩트 디스크 판독 전용 메모리(CD-ROM)가 있다. 컴퓨터-사용가능 또는 컴퓨터 판독가능 매체는 프로그램이 인쇄된 종이나 다른 적합한 매체일 수도 있음을 주목해야 하는데, 프로그램이 종이나 다른 매체의 예컨대 광학적 스캐닝을 통해 전기적으로 캡춰되고, 그리고 나서 컴파일되고, 해석되고, 또는 필요한 경우 적절한 방법으로 처리되어, 컴퓨터 메모리에 저장될 수 있기 때문이다.

본 발명의 실시예들은, 예를 들어, 본 발명의 실시예들에 따른 방법, 시스템, 및 컴퓨터 프로그램 제품의 블록도 및/또는 동작 도시를 참조하여 전술되었다. 블록들에 기록된 기능/동작들은 플로우차트에 도시된 것과 다른 순서대로 수행될 수도 있다. 예를 들어, 연관된 기능/동작들에 따라 연속으로 보이는 두 블록들이 사실은 사실상 동시에 실행되거나 블럭들이 때로는 반대 순서로 실행될 수도 있다.

본 발명의 몇몇 실시예들이 기술되었지만, 다른 실시예들이 존재할 수 있다. 그리고, 비록 본 발명의 실시예들이 메모리 및 다른 저장 매체에 저장된 데이터와 연관된 것으로 기술되었지만, 데이터는 하드디스크, 플로피디스크, CD-ROM, 인터넷으로부터의 전송파, RAM이나 ROM의 다른 형태들과 같은 보조적인 저장장치와 같은 다른 유형의 컴퓨터-판독가능 매체에 저장되거나 그로부터 판독될 수도 있다. 게다가, 본 명세서에 개시된 방법들의 단계들은 본 발명을 벗어나지 않으면서 단계들을 재정렬하거나 및/또는 단계들을 삽입 또는 삭제하는 것을 포함하는 임의의 방식으로도 수정될 수 있다.

본 명세서는 여러 실시예들을 포함하지만, 본 발명의 범위는 후술될 청구범위에 의해 규정된다. 또한, 본 명세서는 구조적 특징 및/또는 방법적 동작을 특정하는 언어로서 기술되었지만, 청구범위는 전술한 특징 또는 동작으로 한정되는 것이 아니다. 오히려, 전술된 특정한 특징들과 동작들은 본 발명의 실시예들의 예시로서 개시된 것이다.

Claims

위치-기반 대화 해석을 제공하는 방법으로서,
컴퓨팅 장치가 사용자로부터 음성-기반 쿼리를 수신하는 단계와,
상기 사용자의 위치와 연관된 환경적 맥락이 메모리 저장장치에 존재하는지 여부를 판단하는 단계와,
상기 환경적 맥락이 존재하지 않는다고 판단되면,
상기 음성-기반 쿼리 내의 적어도 하나의 음향 간섭(acoustic interference)을 식별하고,
상기 음성-기반 쿼리와 연관된 적어도 하나의 주제를 식별하고,
상기 음성-기반 쿼리와 연관된 상기 식별된 적어도 하나의 음향 간섭 및 상기 식별된 적어도 하나의 주제를 포함하는 환경적 맥락을 생성하고,
상기 환경적 맥락을 상기 메모리 저장장치에 저장하는 단계와,
상기 환경적 맥락이 존재한다고 판단되면, 상기 사용자의 위치와 연관된 환경적 맥락을 로딩하는 단계와,
상기 환경적 맥락에 포함된 특성에 따라 상기 음성-기반 쿼리를 해석하는 단계와,
텍스트-기반 쿼리를 생성하는 단계 - 상기 텍스트 기반 쿼리를 생성하는 단계는
상기 음성-기반 쿼리의 주제(subject)를 판단하는 단계와,
상기 음성-기반 쿼리의 주제와 종합된 환경적 맥락(aggregated environmental context)을 서로 연관시키는 단계를 포함함 - 와,
상기 텍스트-기반 쿼리를 실행하는 단계와,
상기 텍스트-기반 쿼리의 적어도 하나의 결과를 상기 사용자에게 제공하는 단계를 포함하는
위치-기반 대화 해석 제공 방법.
제 1 항에 있어서,
상기 음성-기반 쿼리에 음성-텍스트 변환을 수행하는 단계를 더 포함하는
위치-기반 대화 해석 제공 방법.
제 1 항에 있어서,
상기 음성-기반 쿼리를 해석하는 단계는 한 위치로부터 수신된 적어도 하나의 이전 쿼리에 따라 적어도 하나의 대화 해석 모델을 조정하는 단계를 포함하는
위치-기반 대화 해석 제공 방법.
제 3 항에 있어서,
상기 적어도 하나의 대화 해석 모델은 상기 음성-기반 쿼리가 수신된 위치와 연관된 음향 모델(acoustic model)을 포함하는
위치-기반 대화 해석 제공 방법.
제 4 항에 있어서,
상기 음성-기반 쿼리를 해석하는 단계는 상기 음향 모델에 따라 상기 음성-기반 쿼리와 연관된 적어도 하나의 배경음(background sound)에 기초하여 상기 음성-기반 쿼리를 조정하는 단계를 더 포함하는
위치-기반 대화 해석 제공 방법.
제 5 항에 있어서,
상기 배경음은 상기 음성-기반 쿼리 내에서 측정되는
위치-기반 대화 해석 제공 방법.
제 6 항에 있어서,
상기 배경음을 상기 위치와 연관된 음향 특성(acoustic characteristic)으로서 저장하는 단계를 더 포함하는
위치-기반 대화 해석 제공 방법.
제 1 항에 있어서,
상기 위치와 연관된 상기 종합된 환경적 맥락을 저장하는 단계를 더 포함하는
위치-기반 대화 해석 제공 방법.
제 8 항에 있어서,
제 2 사용자로부터 제 2 음성-기반 쿼리를 수신하는 단계와,
상기 종합된 환경적 맥락에 따라 상기 제 2 음성-기반 쿼리를 해석하는 단계를 더 포함하는
위치-기반 대화 해석 제공 방법.
제 8 항에 있어서,
상기 음성-기반 쿼리를 해석하는 단계는 상기 위치로부터 수신된 상기 위치와 연관된 상기 종합된 환경적 맥락에 따라 적어도 하나의 예상된 시맨틱 개념(semantic concept)의 통계적 가중치를 증가시키는 단계를 포함하는
위치-기반 대화 해석 제공 방법.
실행될 경우 위치-기반 대화 해석을 제공하는 방법을 수행하는 명령어의 집합을 저장한, 전파 데이터 신호를 포함하지 않는 유형의 컴퓨터-판독가능 저장 장치로서,
상기 명령어의 집합에 의해 실행되는 상기 방법은,
한 위치에 있는 사용자로부터 음성-기반 쿼리를 수신하는 단계와,
상기 사용자의 위치와 연관된 환경적 맥락이 메모리 저장장치에 존재하는지 여부를 판단하는 단계와,
상기 환경적 맥락이 존재하지 않는다고 판단되면,
상기 음성-기반 쿼리 내의 적어도 하나의 음향 간섭(acoustic interference)을 식별하고,
상기 음성-기반 쿼리와 연관된 적어도 하나의 주제를 식별하고,
상기 음성-기반 쿼리와 연관된 상기 식별된 적어도 하나의 음향 간섭 및 상기 식별된 적어도 하나의 주제를 포함하는 환경적 맥락을 생성하고,
상기 환경적 맥락을 상기 메모리 저장장치에 저장하는 단계와,
상기 환경적 맥락이 존재한다고 판단되면, 상기 위치와 연관된 종합된 환경적 맥락을 로딩하는 단계 - 상기 종합된 환경적 맥락은 특성을 포함함 - 와,
상기 환경적 맥락에 포함된 특성에 따라 상기 음성-기반 쿼리를 해석하는 단계와,
텍스트-기반 쿼리를 생성하는 단계 - 상기 텍스트-기반 쿼리를 생성하는 단계는
상기 음성-기반 쿼리의 주제를 판단하는 단계와,
상기 음성-기반 쿼리의 주제와 상기 종합된 환경적 맥락을 서로 연관시키는 단계를 포함함 - 와,
상기 종합된 환경적 맥락에 따라 상기 텍스트-기반 쿼리를 실행하는 단계와,
상기 실행된 텍스트-기반 쿼리와 연관된 적어도 하나의 결과를 상기 사용자에게 제공하는 단계를 포함하는
유형의 컴퓨터-판독가능 저장 장치.
제 11 항에 있어서,
상기 종합된 환경적 맥락은
적어도 하나의 이전 쿼리의 시간, 적어도 하나의 이전 쿼리의 날짜, 적어도 하나의 이전 쿼리의 주제, 온톨로지(ontology)를 포함하는 시맨틱 모델, 해석 모델, 및 상기 위치의 음향 모델 중 적어도 하나를 포함하는
유형의 컴퓨터-판독가능 저장 장치.
제 11 항에 있어서,
상기 방법은
복수의 사용자로부터 수신된 복수의 쿼리에 따라 종합된 복수의 위치에 연관된 복수의 환경적 맥락을 저장하는 단계를 더 포함하는
유형의 컴퓨터-판독가능 저장 장치.
제 11 항에 있어서,
상기 방법은,
상기 사용자로부터 상기 텍스트-기반 쿼리에 대한 교정을 수신하는 단계와,
상기 교정에 따라 상기 종합된 환경적 맥락을 갱신하는 단계를 더 포함하는
유형의 컴퓨터-판독가능 저장 장치.
제 14 항에 있어서,
상기 종합된 환경적 맥락을 갱신하는 단계는 장래의 쿼리에 적용하기 위해 상기 교정의 적어도 하나의 단어와 연관된 확률(probability)을 수정하는 단계를 포함하는
유형의 컴퓨터-판독가능 저장 장치.
제 11 항에 있어서,
상기 위치는 상기 사용자의 GPS(Global Positioning System) 위치, 상기 사용자와 연관된 지역 코드, 상기 사용자와 연관된 우편번호 및 랜드마크에 대한 상기 사용자의 인접도(proximity) 중 적어도 하나에 의해 정의되는
유형의 컴퓨터-판독가능 저장 장치.
제 11 항에 있어서,
상기 방법은,
제 2 위치에서 상기 사용자로부터의 제 2 음성-기반 쿼리를 수신하는 단계와,
상기 제 2 위치와 연관된 제 2 환경적 맥락을 로딩하는 단계와,
상기 제 2 환경적 맥락에 따라 상기 제 2 음성-기반 쿼리를 텍스트로 변환하는 단계와,
상기 제 2 환경적 맥락에 따라 상기 변환된 쿼리를 실행하는 단계와,
상기 실행된 쿼리와 연관된 적어도 하나의 제 2 결과를 상기 사용자에게 제공하는 단계를 더 포함하는
유형의 컴퓨터-판독가능 저장 장치.
위치-기반 대화 해석을 제공하는 시스템으로서,
메모리 저장장치와,
상기 메모리 저장장치와 결합된 프로세싱 유닛을 포함하되,
상기 프로세싱 유닛은,
한 위치에 있는 사용자로부터 음성-기반 쿼리를 수신하고,
상기 위치와 연관된 환경적 맥락이 상기 메모리 저장장치에 존재하는지 여부를 판단하고,
상기 환경적 맥락이 존재하지 않는다고 판단되면,
상기 음성-기반 쿼리 내의 적어도 하나의 음향 간섭(acoustic interference)을 식별하고,
상기 음성-기반 쿼리와 연관된 적어도 하나의 주제를 식별하고,
상기 위치와 연관된 특성을 포함하는 새로운 환경적 맥락을 생성 - 상기 적어도 하나의 음향 간섭은 음향 모델과 연관되고, 상기 적어도 하나의 식별된 주제는 시맨틱 모델과 연관됨 - 하고,
상기 환경적 맥락을 상기 메모리 저장장치에 저장하고,
상기 환경적 맥락이 존재한다고 판단되면, 상기 환경적 맥락을 로딩하고,
상기 환경적 맥락에 포함된 특성에 따라 상기 음성-기반 쿼리를 해석하고,
텍스트-기반 쿼리를 생성 - 상기 텍스트-기반 쿼리를 생성하는 것은 상기 음성-기반 쿼리의 주제와 상기 환경적 맥락을 서로 연관시키는 것을 포함함 - 하고,
상기 환경적 맥락에 따라 상기 텍스트-기반 쿼리를 실행하고,
상기 실행된 텍스트-기반 쿼리의 적어도 하나의 결과를 상기 사용자에게 제공하도록 동작하는
위치-기반 대화 해석을 제공하는 시스템.