KR101255405B1

KR101255405B1 - 텍스트 메타데이터를 갖는 음성문서의 인덱싱 및 검색방법, 컴퓨터 판독가능 매체

Info

Publication number: KR101255405B1
Application number: KR1020087011080A
Authority: KR
Inventors: 알레잔드로 아세로; 치프리안 아이. 첼바; 조지 실바 에프. 산체스
Original assignee: 마이크로소프트 코포레이션
Priority date: 2005-11-08
Filing date: 2006-10-31
Publication date: 2013-04-17
Also published as: CN101305360A; US20070106509A1; EP1952270A1; CN101305360B; US7809568B2; KR20080068844A; WO2007056032A1; EP1952270A4

Abstract

음성 데이터 및 텍스트 메타데이터를 갖는 음성 문서를 검색하는 인덱스는 단어의 발생 확률 및 음성 데이터의 단어의 위치 정보를 얻고, 그것을 최소한 텍스트 메타데이터 내의 단어의 위치 정보와 결합함으로써 작성된다. 음성 데이터 및 텍스트 메타데이터가 동일하게 처리되어 상이한 범주로만 간주되기 때문에 단일 인덱스가 작성될 수 있다.

음성 데이터, 텍스트 메타데이터, 인덱스, 범주 유형, 위치 정보, 발생 확률

Description

텍스트 메타데이터를 갖는 음성문서의 인덱싱 및 검색 방법, 컴퓨터 판독가능 매체{INDEXING AND SEARCHING SPEECH WITH TEXT META-DATA}

본 발명은 음성 데이터(speech data) 및 텍스트 메타데이터를 포함하는 음성 문서(spoken document)를 인덱싱하고 검색하는 방법에 관한 것이다.

아래의 설명은 단지 일반적인 배경 정보를 위해 제공된 것일 뿐, 청구된 주제의 범위를 결정하는데 도움을 주고자 의도된 것이 아니다.

현대에는 다양한 유형의 압도적인 양을 갖는 데이터가 생성되고 교환되며 저장된다. 이는, 데이터의 저장 비용이 비교적 저렴해짐과 더불어, 근래에 이용가능하게 된 컴퓨팅 능력 및 연결 대역폭으로부터 비롯되었다. 따라서, 데이터가 더 많이 저장됨에 따라, 데이터를 통해 검색하고 관련 정보를 찾는 능력은 중요한 애플리케이션으로서 부각되고 있다.

그러나 모든 데이터가 용이하게 액세스될 수 있는 것은 아니다. 텍스트 데이터는 인덱싱되어 비교적 용이하게 검색될 수 있으나, 일반적으로 전사되지 않은(untranscribed) 음성 데이터는 용이하게 검색가능한 형태라 할 수 없다. 음성을 수동으로 전사하는 것은 소요 시간 및 컴퓨팅 자원 면에서 가격이 높을 뿐 아니라, 프라이버시에 대한 우려도 불러일으킨다. 그럼에도 불구하고, 저장 장치의 가격이 더욱 낮아짐에 따라, 유용하나 전사되지 않은 음성 데이터가 더 많이 저장될 것이므로, 이러한 데이터를 통해 검색하고자 하는 요구는 증가할 것이다.

본 요약은 아래의 상세한 설명 부분에서 더 설명되는 몇몇 개념을 단순화된 형태로 소개하기 위해 제공된다. 본 요약은 청구된 주제의 핵심 특징이나 주요 특징을 식별하고자 하는 것도 아니고, 청구된 주제의 범위를 결정하는데 도움을 주고자 의도된 것도 아니다. 또한 여기에서 제공된 설명 및 청구된 주제는 배경기술 항목에서 설명된 임의의 문제점을 해결하는 것에 한정된 것으로 해석되어서는 안 된다.

음성 데이터 및 텍스트 메타데이터를 갖는 음성 문서를 검색하기 위한 인덱스(index)의 생성은, 단어의 발생 확률 및 음성 데이터 내의 단어의 위치 정보를 얻고, 그것을 최소한 텍스트 메타데이터 내의 단어의 위치 정보와 결합함으로써 수행된다. 음성 데이터 및 텍스트 메타데이터가 동일하게 처리되며 상이한 범주(different categories)로만 간주되기 때문에, 단일의 인덱스가 작성될 수 있다.

한 실시예에서, 음성 데이터 및 텍스트 메타데이터(제목, 말하는 사람(들)의 이름들, 요약 등)를 포함하는 음성 문서를 인덱싱하는 방법은 음성 데이터로부터 인식된 음성에 관한 정보를 생성하는 단계를 포함한다. 특히, 전술한 정보는 단어의 발생 확률 및 인식된 음성 내의 단어의 위치 정보를 포함한다. 또한, 최소한 텍스트 메타데이터 내의 단어의 위치 정보는 인식된 음성에 관한 정보와 대체로 동일한 포맷으로 생성된다. 이와 같이 하면 음성 데이터에 관한 정보 및 텍스트 메타데이터에 관한 정보가 동일한 방식으로 처리될 수 있기 때문에 인덱스가 용이하게 작성될 수 있게 된다.

상기 인덱스를 사용하면, 수신된 쿼리에 기초하여 음성 문서가 검색될 수 있다. 리턴(return)되는 문서는 관련성(relevance)에 따라 순위가 정해지며, 관련성은 음성 데이터 및/또는 텍스트 메타데이터 내의 검색 쿼리 용어의 발생에 의해 계산된다.

도 1은 컴퓨팅 환경의 실시예의 상부 평면도.

도 2는 대안적인 컴퓨팅 환경의 블록도.

도 3은 음성 문서(들)의 인덱스를 구성하고 검색하는 방법의 흐름도.

도 4는 음성 문서(들)의 인덱스(들)를 구성하고 검색할 때 사용된 요소들의 블록도.

도 5는 인식 격자의 예를 도시한 도면.

도 6은 위치들로 나누어진 노드들과 단어들 사이의 연결관계를 도시한 도면.

도 7은 위치 특정 사후 격자의 예를 도시한 도면.

도 8은 인덱스의 일부의 예를 도시한 도면.

도 9는 음성 문서의 그림 표현을 도시한 도면.

본 명세서에 설명된 일 개념에 따르면 특히 음성 문서 검색을 위해 음성 및 텍스트 콘텐트 정보를 사용하는 방법 및/또는 시스템이 제공되나, 반드시 음성 문서로 한정되지는 않는다.

도 9를 참조하면, 도면에 참조번호(50)로 표시된 음성 문서가 음성 데이터(52)만을 포함하는 경우는 흔치 않다. 오히려, 보통 텍스트 메타데이터(54)가 음성 데이터(52)와 관련되고 또한 문서(50)의 일부를 형성한다. 텍스트 메타데이터(54)는 다양한 각종 정보를 포함할 수 있지만, 연관된 음성 데이터(52)에 대한 또는 그 음성 데이터(52)에 관련된 텍스트 정보로 일반적으로 간주될 수 있다. 예를 들어, 도시된 바와 같이, 텍스트 메타데이터(54)는 문서(50)의 제목(56), 말하는 사람(들)의 이름들(58), 및 문서(50) 및 음성 데이터(52)의 요약 또는 짧은 설명(60)을 포함할 수 있다. 그러나 전술한 설명은 텍스트 메타데이터(54)의 예시일 뿐이고, 텍스트 메타데이터(54)는 음성 파일을 가리키는 http 링크 상의 앵커 텍스트(anchor text), 주어진 웹 페이지 상의 음성 주위의 텍스트, 스폰서 정보, 이벤트의 위치, 날짜와 시간 등과 같은(이것에 제한되는 것은 아님) 다른 유형의 텍스트 정보를 포함할 수 있다는 것을 이해할 것이다. 그러한 텍스트 메타데이터(54)는 도 9에 그림으로 도시된 바와 같이 분류되거나 또는 원하는 대로 임의의 다른 방식으로 그룹화 될 수 있다.

아래에 설명되는 바와 같이, 음성 데이터(52) 및 텍스트 메타데이터(54)는 유사하게 처리되고, 사용자로 하여금 음성 문서(50)의 컬렉션을 쿼리하고 이 쿼리에 기초하여 컬렉션의 어느 문서가 관련성이 있을 것인지 결정할 수 있게 하는 프레임워크(framework)에서 사용된다. 관련성이 확인될 수 있는 점수(score)와 같은 표시가 각 문서에 대해 얻어진다. 특히, 분석작업(analysis)은 음성 데이터(52)와 텍스트 메타데이터(54) 혹은 그 일부에 대한 분리된 점수들을 얻는 것을 포함하며, 이들은 문서 점수를 얻기 위해 결합될 수 있다.

아래에 설명된 실시예에서, 음성 데이터 및 텍스트 메타데이터는 각 유형의 데이터에 대한 위치 특정 사후 격자(Position Specific Posterior Lattice: PSPL)의 생성에 기초하여 유사하게 처리된다. 각 유형의 데이터를 동일하게 처리함으로써, 그 후 점수를 구하는 작업은 일관적이고 효율적이 된다.

일반적으로, 위치 특정 사후 격자(PSPL)의 사용은 키워드 검색의 패러다임을 텍스트 문서에서 음성 문서로 확장하는 한 방식이다. PSPL을 포함하는 프레임워크는, 음향 증거(acoustic evidence)가 주어졌을 때 단어들의 시퀀스에 대한 사후 확룔(posterior probabilities)를 음성 콘텐트의 고유 불확실성을 모델링하기 위한 한 방식으로 간주한다. 이와 동시에, 이와 같은 기술은 상기 점수화 패러다임(scoring paradigm)에 근접도(proximity)를 포함시키기 위한 위치 정보를 보유하도록 설계된다.

그러나 다른 양상을 설명하기 전에, 아래에 제공된 설명을 구현할 수 있는 예시적인 컴퓨팅 장치 또는 환경을 먼저 설명하는 것이 유용할 수 있다. 이 설명은 음성 데이터(52)를 위한 PSPL 표현의 생성에 관한 상세, 및 텍스트 메타데이터(54)를 위한 PSPL 표현의 생성에 관한 설명을 포함할 것이다. 음성 문서(50)의 점수를 구하기 위한 예시적인 기술도 제공될 것이다.

예시적인 컴퓨팅 시스템 환경

도 1은 여기에 설명된 개념이 구현될 수 있는 적합한 컴퓨팅 시스템 환경(100)의 제1 예를 도시한 것이다. 컴퓨팅 시스템 환경(100)은 또한 적합한 컴퓨팅 환경의 일례에 불과하며, 아래 설명의 용도 또는 기능성의 범위에 관해 어떤 제한을 암시하고자 하는 것이 아니다. 컴퓨팅 환경(100)이 예시적인 운영 환경(100)에 도시된 컴포넌트들 중 임의의 하나 또는 그 컴포넌트들의 임의의 조합과 관련하 여 어떤 의존성 또는 요구사항을 갖는 것으로 해석되어서는 안 된다.

여기에 제공된 예들 이외에, 기타 잘 알려진 컴퓨팅 시스템, 환경 및/또는 구성은 여기에 설명된 개념들로 사용하기에 적합할 수 있다. 그러한 시스템은 퍼스널 컴퓨터, 서버 컴퓨터, 핸드헬드 또는 랩톱 장치, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 셋톱 박스, 프로그램가능한 가전제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 상기 시스템들이나 장치들 중 임의의 것을 포함하는 분산 컴퓨팅 환경, 기타 등등이 있지만 이에 제한되는 것은 아니다.

여기에 설명된 개념은 일반적으로 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 실행가능 명령어와 관련하여 구현될 것이다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 개체, 컴포넌트, 데이터 구조 등을 포함한다. 본 분야에 숙련된 기술자들은 아래에 설명된 임의 형태의 컴퓨터 판독가능 매체 상에 구현될 수 있는 컴퓨터 실행가능 명령어로서 여기에서의 설명 및/또는 도면을 구현할 수 있다.

여기에 설명된 개념은 또한 통신 네트워크를 통해 연결되어 있는 원격 처리 장치들에 의해 태스크가 수행되는 분산 컴퓨팅 환경에서 실시되도록 설계된다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 비롯한 로컬 및 원격 컴퓨터 저장 매체 둘 다에 위치할 수 있다.

도 1과 관련하여, 예시적인 시스템은 컴퓨터(110) 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트들은 처리 장치(120), 시스템 메모리(130), 및 시스템 메모리를 비롯한 각종 시스템 컴포넌트들을 처리 장치(120)에 연결하는 시스템 버스(121)를 포함하나, 이에 한정되는 것은 아니다. 시스템 버스(121)는 메모리 버스 또는 메모리 컨트롤러, 주변 장치 버스 및 각종 버스 아키텍처 중 임의의 것을 이용하는 로컬 버스를 비롯한 몇몇 유형의 버스 구조 중 어느 것이라도 될 수 있다. 예로서, 이러한 아키텍처는 ISA(industry standard architecture) 버스, MCA(micro channel architecture) 버스, EISA(Enhanced ISA) 버스, VESA(video electronics standard association) 로컬 버스, 그리고 메자닌 버스(mezzanine bus)로도 알려진 PCI(peripheral component interconnect) 버스 등을 포함하나, 이들로 제한되는 것은 아니다.

컴퓨터(110)는 통상적으로 각종 컴퓨터 판독가능 매체를 포함한다. 컴퓨터(110)에 의해 액세스 가능한 매체는 그 어떤 것이든지 컴퓨터 판독가능 매체가 될 수 있고, 이러한 컴퓨터 판독가능 매체는 휘발성 및 비휘발성 매체, 이동식 및 비이동식 매체를 포함한다. 예로서, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함하지만 이에 제한되는 것은 아니다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보를 저장하는 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 이동식 및 비이동식 매체를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광 디스크 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 기타 자기 저장 장치, 또는 컴퓨터(110)에 의해 액세스되고 원하는 정보를 저장할 수 있는 임의의 기타 매체를 포함하지만 이에 제한되는 것은 아니다. 통신 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 통상적으로 반송파 또는 기타 전송 메커니즘의 피변조 데이터 신호(modulated data signal)내 다른 데이터 등을 구현하고, 모든 정보 전달 매체를 포함한다. "피변조 데이터 신호"라는 용어는, 신호 내에 정보를 인코딩하도록 그 신호의 특성들 중 하나 이상을 설정 또는 변경시킨 신호를 의미한다. 예로서, 통신 매체는 유선 네트워크 또는 직접 배선 접속(direct-wired connection)과 같은 유선 매체, 그리고 음향, RF, 적외선, 기타 무선 매체와 같은 무선 매체를 포함한다. 상술된 매체들의 모든 조합이 또한 컴퓨터 판독가능 매체의 영역 안에 포함되는 것으로 한다.

시스템 메모리(130)는 판독 전용 메모리(ROM)(131) 및 랜덤 액세스 메모리(RAM)(132)와 같은 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터 저장 매체를 포함한다. 시동 중(during start-up)과 같은 때에 컴퓨터(110) 내의 구성요소들 사이의 정보 전송을 돕는 기본 루틴을 포함하는 기본 입/출력 시스템(BIOS)(133)은 통상적으로 ROM(131)에 저장되어 있다. RAM(132)은 통상적으로 처리 장치(120)가 즉시 액세스 할 수 있고 그리고/또는 현재 동작시키고 있는 데이터 및/또는 프로그램 모듈을 포함한다. 예로서, 도 1은 운영 체제(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136) 및 프로그램 데이터(137)를 도시하고 있지만 이에 제한되는 것은 아니다.

컴퓨터(110)는 또한 기타 이동식/비이동식, 휘발성/비휘발성 컴퓨터 저장매체를 포함한다. 단지 예로서, 도 1은 비이동식·비휘발성 자기 매체에 기록을 하 거나 그로부터 판독을 하는 하드 디스크 드라이브(141), 이동식·비휘발성 자기 디스크(152)에 기록을 하거나 그로부터 판독을 하는 자기 디스크 드라이브(151), CD-ROM 또는 기타 광 매체 등의 이동식·비휘발성 광 디스크(156)에 기록을 하거나 그로부터 판독을 하는 광 디스크 드라이브(155)를 포함한다. 예시적인 운영 환경에서 사용될 수 있는 기타 이동식/비이동식, 휘발성/비휘발성 컴퓨터 기억 매체로는 자기 테이프 카세트, 플래시 메모리 카드, DVD, 디지털 비디오 테이프, 고상(solid state) RAM, 고상 ROM 등이 있지만 이에 제한되는 것은 아니다. 하드 디스크 드라이브(141)는 통상적으로 인터페이스(140)와 같은 비이동식 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광 디스크 드라이브(155)는 통상적으로 인터페이스(150)와 같은 이동식 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.

위에서 설명되고 도 1에 도시된 드라이브들 및 이들과 관련된 컴퓨터 저장 매체는, 컴퓨터(110)에 대한 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 및 기타 데이터를 저장한다. 도 1에서, 예를 들어, 하드 디스크 드라이브(141)는 운영 체제(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146), 및 프로그램 데이터(147)를 저장하는 것으로 도시되어 있다. 여기서 주의할 점은 이들 컴포넌트가 운영 체제(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)와 동일하거나 그와 다를 수 있다는 것이다. 이에 관해, 운영 체제(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146) 및 프로그램 데이터(147)에 다른 번호가 부여되어 있다는 것은 적어도 이들이 다른 사 본(copy)이라는 것을 나타내기 위한 것이다.

사용자는 키보드(162), 및 마우스, 트랙볼(trackball) 또는 터치 패드와 같은 포인팅 장치(161) 등의 입력 장치를 통해 명령 및 정보를 컴퓨터(110)에 입력할 수 있다. 다른 입력 장치(도시 생략)로는 조이스틱, 게임 패드, 위성 안테나, 스캐너 등을 포함할 수 있다. 이들 및 기타 입력 장치는 종종 시스템 버스에 결합된 사용자 입력 인터페이스(160)를 통해 처리 장치(120)에 접속되지만, 병렬 포트, 게임 포트 또는 USB(universal serial bus) 등의 다른 인터페이스 및 버스 구조에 의해 접속될 수도 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치도 비디오 인터페이스(190) 등의 인터페이스를 통해 시스템 버스(121)에 접속된다. 모니터 외에, 컴퓨터는 또한 스피커(197) 및 프린터(196) 등의 기타 주변 출력 장치를 포함할 수 있고, 이들은 출력 주변장치 인터페이스(195)를 통해 접속될 수 있다.

컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 사용하여 네트워크화된 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 또 하나의 퍼스널 컴퓨터, 핸드헬드 장치, 서버, 라우터, 네트워크 PC, 피어 장치 또는 기타 통상의 네트워크 노드일 수 있고, 통상적으로 컴퓨터(110)와 관련하여 상술된 구성요소들의 대부분 또는 그 전부를 포함한다. 도 1에 도시된 논리적 접속으로는 LAN(171) 및 WAN(173)이 있지만, 기타 네트워크를 포함할 수도 있다. 이러한 네트워킹 환경은 사무실, 전사적 컴퓨터 네트워크(enterprise-wide computer network), 인트라넷, 및 인터넷에서 일반적인 것이다.

LAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 통상적으로 인터넷과 같은 WAN(173)을 통해 통신을 설정하기 위한 모뎀(172) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 기타 적절한 메커니즘을 통해 시스템 버스(121)에 접속될 수 있다. 네트워크화된 환경에서, 컴퓨터(110) 또는 그의 일부와 관련하여 기술된 프로그램 모듈은 원격 메모리 저장 장치에 저장될 수 있다. 예로서, 도 1은 원격 애플리케이션 프로그램(185)이 원격 컴퓨터(180)에 있는 것으로 도시하고 있지만 이에 제한되는 것은 아니다. 도시된 네트워크 접속은 예시적인 것이며 이 컴퓨터들 사이에 통신 링크를 설정하는 기타 수단이 사용될 수 있다는 것을 이해할 것이다.

여기에 설명된 개념은 도 1과 관련하여 설명된 것과 같은 컴퓨터 시스템상에서 실행될 수 있다는 것을 알 수 있을 것이다. 그러나, 기타 적합한 시스템은 서버, 메시지 처리 전용의 컴퓨터, 또는 개념의 상이한 부분이 분산 컴퓨팅 시스템의 상이한 부분에서 실행될 수 있는 분산 시스템상의 컴퓨터를 포함한다.

도 2는 다른 예시적인 컴퓨팅 환경인 이동 장치(200)의 블록도이다. 이동 장치(200)는 마이크로프로세서(202), 메모리(204), 입/출력(I/O) 컴포넌트(206), 및 원격 컴퓨터 또는 기타 이동 장치와 통신하는 통신 인터페이스(208)를 포함한다. 한 실시예에서, 상기 설명된 컴포넌트들은 적합한 버스(210)를 통해 서로 통신하기 위해 연결된다.

메모리(204)는 이동 장치(200)로의 일반 전원이 꺼질 때 메모리(204) 내에 저장된 정보가 손실되지 않도록 배터리 백업 모듈(도시 생략)을 갖는 랜덤 액세스 메모리(RAM)와 같은 비휘발성 전자 메모리로 구현된다. 바람직하기로는 메모리(204)의 일부가 프로그램 실행을 위한 어드레스 가능 메모리로서 할당되고, 메모리(204)의 다른 부분은 디스크 드라이브 상의 저장을 시뮬레이션하는 것과 같은 저장을 위해 사용된다.

메모리(204)는 개체 저장소(216)뿐만 아니라 운영 체제(212), 애플리케이션 프로그램(214)을 포함한다. 동작 중에, 운영 체제(212)는 양호하게 메모리(204)로부터 프로세서(202)에 의해 실행된다. 운영 체제(212)는 이동 장치용으로 설계되고, 노출된 애플리케이션 프로그래밍 인터페이스 및 메소드의 세트를 애플리케이션(214)에 의해 이용될 수 있는 데이터베이스 특징을 구현한다. 개체 저장소(216) 내의 개체는 최소한 부분적으로, 노출된 애플리케이션 프로그래밍 인터페이스 및 메소드에 대한 호출에 응답하여, 애플리케이션(214) 및 운영 체제(212)에 의해 유지된다.

통신 인터페이스(208)는 이동 장치(200)가 정보를 송수신할 수 있게 하는 다양한 장치 및 기술을 나타낸다. 이 장치는 몇 가지 예를 들자면, 유선 및 무선 모뎀, 위성 수신기 및 방송 튜너를 포함한다. 이동 장치(200)는 또한 데이터를 컴퓨터와 교환하기 위해 컴퓨터에 직접 접속될 수 있다. 그러한 경우에, 통신 인터페이스(208)는 적외선 송수신기, 또는 직렬 또는 병렬 통신 접속일 있는데, 이들 모두는 스트리밍 정보를 송신할 수 있다.

입/출력 컴포넌트(206)는 오디오 생성기, 진동 장치 및 디스플레이를 포함하 는 각종 출력 장치뿐만 아니라, 접촉형 화면, 버튼, 롤러 및 마이크와 같은 각종 입력 장치를 포함한다. 상기 열거된 장치는 예시적인 것이고, 이동 장치(200) 상에 모두 존재할 필요는 없다. 또한, 기타 입/출력 장치는 이동 장치(200)에 부가될 수 있고, 또는 이동 장치(200)와 함께 존재할 수 있다.

음성 문서(들)의 인덱스의 형성 및 사용

도 3 및 4는 각각, 하나 이상의 음성 문서(50)의 인덱스를 형성하고 사용하는 방법 및 블록도를 제공한다. 도 3의 단계(300)에서는 음성 문서(50)가 수신된다. 이들 음성 문서는 모든 문서가 동시에 처리될 수 있도록 저장될 수도 있고, 개별 문서가 따로 수신되고 처리될 수도 있다. 다른 실시예에서, 각각의 음성 문서(50)는 스트리밍 방식으로 수신되고, 음성 문서(50)를 저장할 필요 없이 인덱싱된다.

일반적으로, 각 음성 문서(50) 내의 음성 데이터(52)는 소정의 방식으로 서로 관련되는 음성 신호들의 컬렉션이다. 예로서는, 회의(meeting) 중 발생하는 음성 신호들 또는 강의와 연관된 음성 신호들을 들 수 있다. 어떤 음성 문서(50)를 형성하기 위해, 멀티미디어 문서 내의 다른 콘텐트로부터 음성 데이터(52) 및 텍스트 메타데이터(54)가 추출될 수도 있다. 예를 들어, 영화로부터 음성 데이터(52) 및 텍스트 메타데이터(54)가 제거되어, 영화의 비디오 및/또는 음악 점수로부터 분리될 수도 있다. 음성 데이터(52) 및 텍스트 메타데이터(54)(즉, 음성 문서(50))가 멀티미디어 문서와 같은 다른 정보를 갖는 다른 문서로부터 나온 것일 때에는, 전술한 음성 문서(50)를 상기 멀티미디어 문서에 연결하는 매핑(mapping)이 저장될 수 있다. 이것은 검색 결과에서 멀티미디어 문서로의 경로가 리턴될 수 있게 한다.

데이터, 특히 문서(50) 내의 음성 데이터(52)(그러나 이들로 제한되는 것은 아님)는 매우 길 수 있다. 보다 작은 관련 부분들에 대한 식별을 돕기 위해, 각유형(예를 들어, 음성, 요약 등)의 데이터는 세그먼트 식별자(402)에 의해 세그먼트(404)로 나누어질 수 있다(단계(302)). 그 다음, 각 유형의 데이터는 순서화된 세그먼트 목록(an ordered list of segments)으로 이루어질 수 있다. 한 실시예 하에서는 자연스러운 중단(natural breaks)에 의해 세그멘트가 형성된다. 예를 들어, 음성 데이터(52)는 침묵 기간에 분할될 수 있는 반면, 텍스트 데이터는 단락(paragraphs)에서 분할될 수 있다. 음성에 있어서 침묵 기간을 식별하는 기술은 본 분야에 잘 알려져 있다.

이제, 음성 데이터가 단순히 분할되는 것 이외에, 그 콘텐트에 기초하여 더욱 분류(categorized)될 수 있음에 주목해야 한다. 이러한 분류는 텍스트 메타데이터(54)의 분류와 유사하다. 예를 들어, 강연에서는 말하는 사람(들)이 별도로 분류될 수 있고, 그 다음 각 범주(카테고리)가 세그멘트화 될 수 있다. 예를 들어, 메인 연설자는 식별되어 유형 식별자 "Speech A"와 관련될 수 있는 반면, 다른 연설자는 식별되어 유형 식별자 "Speech B"와 관련될 수 있고, 청중으로부터의 질문은 식별되어 유형 식별자 "Speech C"와 관련될 수 있다. 이러한 방식으로, 문서의 관련성은 쿼리 내의 단어를 주요 연설자(main speaker)가 사용했는지의 여부에 기초하여 결정될 수 있으며, 그러한 경우 쿼리 내의 상기 단어를 청중의 한 사람이 사용한 경우보다 더욱 관련성 있음을 나타낼 수도 있다.

단계(304)에서, 문서/세그먼트 태거(tagger)/분류자(categorizer)(406)는 각 세그먼트, 범주 및 문서를 정수 값에 매핑하고, 이 매핑을 컬렉션 설명자 파일(408)에 저장한다. 그러므로, 단계(304)는 음성 데이터(52) 자체에 관해 음성 데이터(52)를 분류하고(즉, 음성 데이터(52) 내의 음성의 상이한 유형들); 텍스트 메타데이터(54) 자체에 관해 텍스트 메타데이터(54)를 분류하며(즉, 텍스트 메타데이터(54) 내의 텍스트 메타데이터의 상이한 유형들); 및/또는 텍스트 메타데이터(54)를 기준으로 음성 데이터(52)를 분류한다. 일부 실시예에서는 컬렉션 설명자 파일(408)이 음성 문서가 발견될 수 있는 경로 이름에 정수 값을 매핑한다. 멀티미디어 파일로부터 생성된 음성 문서의 경우에는 컬렉션 설명자 파일(408)이 멀티미디어 문서가 저장되는 경로 이름에 정수 값을 매핑할 수 있다.

음성 데이터에 대한 위치 특정 사후 격자(PSPL)의 형성은 도 3의 단계(305)로 나타내어진다. 일반적으로, 단계(305)는 음성 데이터(52)로부터 인식된 음성에 관한 정보, 단어의 발생 확률을 포함하는 정보, 및 인식된 음성 내의 단어의 위치 정보를 생성한다. 음성 데이터에 관한 각 세그먼트(404)(즉, "음성 세그먼트")는 도 3의 단계(306)에서, 음성 세그먼트를 가능한 텍스트 시퀀스로 디코딩하기 위해 음향 모델(412) 및 언어 모델(414)을 사용하는 음성 인식기(410)에 제공된다.

통상적으로, 음성 인식기(410)는 음성 세그먼트 내의 음성을 나타내는 특징 벡터의 시퀀스에 기초하여 인식을 수행한다. 음성 인식기에 의해 사용된 특징 벡터는 먼저 아날로그-디지털 변환기를 사용하여 아날로그 음성 신호를 디지털 값으로 변환함으로써 형성된다. 몇몇 실시예에서, 아날로그-디지털 변환기는 아날로그 신호를 샘플 당 16 kHz 및 16 비트로 샘플링함으로써, 초 당 32 킬로바이트의 음성 데이터를 생성한다. 이들 디지털 값은 한 실시예에서, 10 밀리초 간격을 두고 시작되는 25 밀리초 프레임들로 값들을 분류하는 프레임 생성자에 제공된다. 프레임 생성자에 의해 생성된 데이터의 프레임은 각 프레임으로부터 특징을 추출하는 특징 추출자(feature extractor)에 제공된다.

특징 추출 모듈의 예는 LPC(Linear Predictive Coding), LPC 파생 캡스트럼(cepstrum), PLP(Perceptive Linear Prediction), 청각 모델 특징 추출, 및 MFCC(Mel-Frequency Cepstrum Coefficients) 특징 추출을 수행하는 모듈을 포함한다. 주의할 점은 본 발명이 이들 특징 추출 모듈에 제한되지 않고, 그외 다른 모듈이 사용될 수 있다는 것이다.

특징 벡터를 형성하기 위해 필요한 단계들은 음성 인식기(410)에 의해 전체적으로 실행될 수도 있고, 음성 문서(50)를 생성할 때 단계들의 일부 또는 전부가실행될 수도 있다. 그러므로, 음성 문서(50)는 부분적으로는 아날로그 신호, 디지털 신호, 디지털 신호의 프레임, 또는 특징 벡터로서 저장될 수 있다.

인식작업(recognition) 동안 각 특징 벡터는 음향 모델(412)에 인가되며, 음향 모델(412)은 입력 특징 벡터가 주어지면 음성 단위들 각각에 대해 확률을 제공한다. 한 단어의 음향 확률은 그 단어를 이루는 음성 단위의 확률을 결합함으로써 결정된다. 또한, 각 단어는 언어 모델 점수를 수신하는데, 이는 한 단어 또는 단어들의 시퀀스가 특정 언어에 나올 확률을 나타낸다. 음향 모델(412) 및 언어 모델(414)에 의해 제공되는 점수를 사용하여, 음성 인식기(410)는 음성 세그먼트에 대한 인식 결과를 포함하는 인식에 관한 격자(416)(즉, "인식 격자")를 형성할 수 있다. 대부분의 실시예에서의 음성 인식기(416)는 격자를 구성해 감에 있어서, 가능성이 낮은(unlikely) 단어 시퀀스들을 상기 인식 격자로부터 가지치기(pruning)하여, 인식 격자 내에는 상위 N개의 인식 결과만을 남겨둔다는 점을 주목하라. 다른 실시예에서, 음성 인식기(410)는 음성 세그먼트가 주어지면 n개의 가장 가능하다고 생각되는 단어 시퀀스의 목록을 제공하는 인식 결과의 n-최상 목록을 생성한다.

상기 시스템은 음성 인식기(410)에 음성 세그먼트를 제공하기 전에 음성 데이터를 분할(세그먼트화)하지만, 다른 실시예에서는 음성 문서(50)의 음성 데이터가 음성 인식기(410)에 제공되기 전에 분할되지 않는다는 것에도 주목하라. 그 대신에, 음성 인식기는 음성 내에 있는 침묵 기간을 식별하고, 음성 데이터의 다음 부분에 대하여 새로운 격자를 시작하기 전에, 그 시점에서 강제로 격자가 단일 노드로 수렴되게 한다. 이러한 방식으로, 음성 인식기(410)는 다시 음성 데이터의 상이한 세그먼트에 대해 별도의 인식 격자를 생성한다. 그러한 실시예에서, 음성 인식기(410)는 자신이 생성하는 각 인식 격자에 대한 문서 및 세그먼트 식별자를 포함할 것이고, 또한 컬렉션 설명자 파일(408) 내의 매핑을 갱신할 것이다.

도 5는 음성 인식기(410)에 의해 생성된 인식 격자(500)의 예를 제공한다. 격자(500)는 각각 상태 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 및 13이라는 표시가 붙은 상태(노드라고도 함)(502, 504, 506, 508, 510, 512, 514, 516, 518, 520, 522, 524, 526 및 528)를 포함한다.

격자(500) 내의 상태들 간의 모든 변환(transition)은 단어, 시작 기호 또는 종료 기호와 관련된다. 또한, 다수 단어들의 시퀀스에 기초한 언어 모델(n이 1보다 큰 n-gram 모델)에 대해, 한 상태로의 모든 변환은 동일한 단어를 포함한다. 예를 들어, 상태(520)로의 변환부분(530 및 532)은 단어 "very"를 포함한다. 이 때문에, 변환부분 상의 단어는 변환부분의 종료 상태와 동등하게 관련될 수 있다.

각 변환부분(transition)은 또한 입력 음성 신호가 주어지면 변환부분 상에 위치한 단어와 관련된 확률을 갖는다. 이 확률은 음향 모델 점수, 언어 모델 점수, 및 이들 점수를 결합하여 단일 확률로 변경하기 위해 사용되는 다양한 기타 파라미터의 함수이다. 특히, 한 실시예 하에서, 변환부분 t_i의 확률은 다음과 같이 평가되는 로그 확률로서 저장된다:

여기에서,

은 변환부분 t_i의 로그 확률이고,

은 단어 내에서 찾은 음성 단위의 음향 모델과 음성 신호의 일부의 특징 벡터 사이의 대응관계에 기초하여 변환부분 t_i의 단어에 할당된 음향 모델 로그 우도이며,

는 변환부분 t_i 상의 단어에 할당된 언어 모델 로그 확률이고,

는 음향 모델 및 언어 모델에 대한 가능한 값의 범위의 차를 보상하는 0보다 큰 일정한 가중치이며,

는 긴 단어보다 짧은 단어를 선택하는 음성 인식기의 경향을 보상하는 삽입 패널티(penalty)이고,

는 사후 분포가 격자 경로 상에서 벗어나는(skewed) 정도를 제어하기 위해 사용되는 평탄화 가중치(flattening weight)이다. 특히,

는 음성 인식기가 대부분의 확률을 격자 내의 하나 또는 두 개의 경로에 할당하지 않도록 돕는다.

도 5의 음성 인식 격자(500)는 상이한 경로 길이(path lengths)가 동일한 상태에서 끝날 수 있다는 것을 보여준다. 예를 들어, 상태(514)에 도달하는 두 개의 경로가 있다. 한 경로는 시작 기호 및 단어 "They are in"을 포함하고, 다른 경로는 시작 기호 및 단어 "There in"을 포함한다. 그러므로, 단어 "in"을 나타내는 상태(514)는 "in"이 인식된 텍스트 내의 제2 단어 위치에 있을 때, 그리고 "in"이 인식된 텍스트 내의 제3 단어 위치에 있을 때 도달될 수 있는데, 여기서 단어의 위치는 단어 시퀀스의 시작부로부터 결정된다. 또한, 단일의 단어가 상이한 상태에서, 그러나 이들 상태 내의 동일한 단어 위치에서 나타날 수 있다. 예를 들어, 단어 "very"는 경로 "They are in two very"의 제5 단어 위치에서의 변환부분(532) 상에서 상태(520)로 들어간다. 단어 "very"는 또한, 마지막 very가 제5 단어 위치에 있는 경로 "There in two very very"를 따라 상태(522)로 이르게 하는 변환부분에서의 제5 단어 위치에 있다.

이러한 인식 격자로부터 인덱스를 생성하기 위해 위치 특정 사후 격자(PSPL) 표현(420)이 구성된다. PSPL 표현에서 격자 내의 각 단어 위치는 빈(bin)을 형성한다. 특정 단어 위치를 차지하는 모든 단어는 인식 격자 내의 그 단어 위치를 차지하는 단어의 확률과 함께 그 단어 위치를 위한 빈 내에 배치된다. PSPL 표현을 형성하기 위해 각 상태는 하위상태(sub-state)의 집합으로 나누어지는데, 상기 상태에 도달하는 각 단어 위치에 대하여 하나의 하위상태가 존재한다.

도 6은 도 5의 인식 격자(500)로부터 형성되는 하위상태 및 그 관련 단어의 목록을 제공한다. 예를 들어, 하위상태(600 및 602)는 상태 6에 대해 2개의 하위상태가 있는데, 하나는 위치 2에서의 단어 "in"에 대한 것이고 다른 하나는 단어 위치 3에서의 단어 "in"에 대한 것임을 나타낸다. 하위상태(604 및 606)는 단어 "very"가 상태 9 및 10에서의 단어 위치 5에서 나온다는 것을 나타낸다.

각 하위상태에 대해 길이-기반 또는 단어 위치 점수가 결정된다. 이것은 도 3의 단계(308)로 표시되고 또한 도 4의 위치 특정 사후 격자 작성기(PSPL Builder)(418)에 의해 실행된다.

한 실시예에 하에서, 각 상태에서의 길이-기반 점수는 격자를 통한 경로를 점수화하기 위해 사용되는 표준의 전방향-후방향 알고리즘에 대한 변경을 사용하여 계산된다. 특히, 상태 n 및 단어 위치 l에서의 단어 확률은 다음과 같이 계산될 수 있다:

여기에서,

은 다음과 같이 귀납적으로 계산되는 전방향 점수(forward score)이다.

여기에서, q는 상태 n으로 변환하는 상태 s_i의 수이고,

는 상기 수학식 1 을 사용하여 계산되고,

여기에서, ε은 단어를 포함하지 않는 널(null) 변환부분을 나타낸다. 백 오프(back-off) 언어 모델을 이용하는 인식 격자에서는 이러한 널 변환부분은 흔하다. 수학식 2에서,

은 다음과 같이 귀납적으로 계산된다:

여기에서, r은 상태 n 후에 상태 n에 접속되는 상태들의 수이고,

는 상태 n에서 상태 s_j로의 변환과 관련된 확률이다.

수학식 2의 정규화 값 norm(LAT)는 인식 격자의 끝 상태에서 계산된 α_n의 값이다. 주의할 점은 음성 인식 동안에 실행된 가지치기(pruning)로 인해 정규화가 요구된다는 것이다.

길이 기반 점수가 각 상태에서 각각의 관측된 단어 위치에 대해 결정된 후 에, 길이 기반 점수들이 합해진다(단계(310)). 특히, 동일한 단어 위치 및 동일한 단어에 대한 것인 각 점수는 단어가 그 단어 위치에서 음성 세그먼트에 나타나는 사후 확률을 형성하기 위해 함께 합해진다. 이 합은 다음과 같이 표현된다:

여기에서 합산은 격자내에서 길이 기반 점수가 0보다 큰 모든 상태에 걸쳐 실행된다.

그런 다음, 단어들 및 수학식 7의 합을 통해 형성된 각 단어의 확률이 그 단어 위치 l에 기초하여 저장되어 PSPL 표현(420)을 형성한다.

도 7에는 PSPL 표현의 예가 도시되는데, 가능한 위치는 행(700)에 표시되고, 각 위치에서 발생하는 단어는 그들의 각 위치 아래에 표시된다. 예를 들어, 단어 "They" 및 "There"는 열(702)에 나타낸 바와 같이 단어 위치 1에서 발생한다. 단어 "very"는 열(704, 706 및 708)에서 나타낸 바와 같이 단어 위치 4, 5 및 6에서 발생한다. 주의할 점은 PSPL 표현이 도 6의 하위상태 및 격자(500)의 조합보다 더욱 압축된 인식 결과 표현을 제공한다는 것이다. 이러한 이유는 인식 격자(500) 내의 동일한 단어 위치에서 그러나 상이한 상태에서 나타나는 단어들이 도 7의 위치 특정 사후 격자 내에서는 단일 엔트리 내로 결합되기 때문이다.

다른 실시예에서는 각 인식 격자에 대한 PSPL 표현이 n-최상 목록(n-best list)으로부터 구성된다. 위에서 설명된 동일한 기술은, n-최상 목록으로부터 인식 격자를 먼저 형성함으로써 위치 특정 사후 격자를 생성하도록 사용될 수 있다. 이것은 n-최상 목록 내의 각 엔트리의 처음 단어를 공통의 시작 노드에 연결하고, n-최상 목록 내의 각 엔트리의 마지막 단어를 공통의 종료 노드에 연결함으로써 달성될 수 있다.

PSPL 격자는 텍스트 메타데이터(54)를 나타내기 위해서도 사용될 수 있다. 그러나 텍스트 메타데이터에서는 문서 콘텐트 불확실성이 없으므로, 동등한 PSPL 격자 표현(420)은 모든 위치 빈을 위해 하나의 엔트리만을 가지며, 위치 특정 확률은 1이다. 따라서 텍스트 메타데이터(54)의 각 범주의 각 세그먼트에 대한 PSPL 표현의 작성은 앞에서 설명된 음성 데이터(52)의 것보다 훨씬 더 단순하다.

도 3에서, 각 범주의 각 세그먼트에 대한 텍스트 메타데이터 PSPL 표현의 작성은 단계(313)에서 표시된다. 단계(305)에서와 마찬가지로, 일반적으로, 단계(313)는 위치 정보 및 확률 정보를 포함하는 텍스트 메타데이터(54)에 관한 정보를 생성하나, 위에서 나타낸 바와 같이 각 인스턴스에서의 확률은 1이다. 그럼에도 불구하고, 단계(313)에서 생성된 정보는, 예시적으로 나타낸 PSPL 표현인 그 정보 포맷이, 단계(305)에서 생성된 음성 데이터에 관한 정보의 포맷과 대체로 동일한 포맷이기 때문에 특히 유익하다. 여기에서 "대체로"라는 표현은 단계(305)에 의해 생성된 정보와 단계(313)에 의해 생성된 정보가 단일의 인덱스를 형성하기 위해 아래에 나타낸 바와 같이 용이하게 결합될 수 있다는 것을 의미한다.

도 4에서 텍스트 격자 작성자(405)는 대응하는 격자(416)를 생성하는 것으로 도시되는데, 이 대응하는 격자(416)는 다시, 대응하는 PSPL 표현(420)을 생성하기 위해 PSPL 작성자(418)에 의해 사용된다. 그러나 텍스트 격자 작성자(405)는 텍스트 메타데이터(54) 내의 단어들의 확실성에 비추어 직접 PSPL 표현을 생성할 수 있음을 이해해야 한다.

단계(314)에서, 인덱서(422)는 PSPL 표현(420)에 기초하여 역 인덱스(inverted index: 424)를 작성한다. 한 실시예 하에서 이러한 역 인덱스는 인식된 단어 및 텍스트 메타데이터(54) 내의 모든 단어에 하나의 엔트리를 제공함으로써 형성되는 단일의 인덱스이다. 각 엔트리에서, 엔트리의 단어가 나타나는 위치 특정 사후 격자 (PSPL) 내의 각 위치에 대해 정보가 제공된다. 이 정보는 PSPL 표현과 관련된 단어, 범주 및 세그먼트 식별자와, 격자 내에서 단어가 배치되는 위치 빈, 및 그 위치에서의 그 단어와 관련된 확률을 포함한다.

도 8은 단어 w[k]에 대한 엔트리(800)의 일반 표현을 제공한다. 도 8에서, 엔트리(800)는 하위 엔트리(802, 804, 806, 808, 810, 812 및 814)를 포함하는 하위 엔트리 컬렉션을 포함한다. 각 하위 엔트리는 문서 식별자(816)와 같은 문서 식별자, 범주 유형 식별자(817)와 같은 범주 유형 식별자, 세그먼트 식별자(818)와 같은 세그먼트 식별자, 위치(820)와 같은 세그먼트 내 위치, 및 확률(822)과 같이 단어가 세그먼트 내의 상기 위치에서 나타나는 확률 등을 포함한다. 하위 엔트리(802 및 804)는 동일한 문서, 범주 유형 및 세그먼트를 위한 것이다. 하위 엔트리(806, 808 및 810)는 하위 엔트리(802 및 804)와 동일한 문서를 위한 것이지만, 상이한 범주 유형(여기에서 상이한 음성 범주로 도시되지만 텍스트 메타데이터 범주일 수도 있음) 및 이들의 상이한 세그먼트를 위한 것이다. 하위 엔트리(812 및 814)는 별도의 문서들을 위한 것이다. 엔트리(800)는 상기 단어가 나타나는 모든 문서, 범주, 세그먼트 및 위치에 대한 하위 엔트리를 포함할 것이다.

일단 인덱스가 작성되었으면, 주어진 음성 쿼리에 대한 음성 데이터 및 텍스트 메타데이터의 관련성이 결정될 수 있다. 특히, 단계(316)에서, 음성 쿼리(426)가 검색 유닛(428)에 의해 수신된다. 검색 유닛(428)은 역 인덱스(424)를 액세스하고, 쿼리의 각 단어에 대한 각 하위 엔트리의 문서 식별자, 범주 유형, 세그먼트 식별자, 위치 및 확률을 검색한다. 음성 인식기의 어휘를 벗어나는 임의의 단어들은 미지의 토큰(unkown token)인 UKN에 매핑되어, 이들은 어떠한 문서에도 매칭될 수 없다. 이러한 미지의 토큰은 위치 확보를 위한 역할(placeholder)은 하지만, 쿼리의 점수 계산시에 값을 제공하지는 않는다.

단계(318)에서, 역 인덱스(424)의 검색으로부터 리턴되는 각 문서에 대해 점수가 결정된다. 리턴되는 모든 문서가 쿼리의 모든 단어를 포함하도록, 검색으로부터 리턴되는 문서들이 제한될 수 있다. 대안적으로, 쿼리의 최소한 한 단어를 포함하는 임의의 문서가 이 단계에서 리턴될 수도 있다. 역 인덱스(424)로부터 리턴되는 확률을 사용하여, 각 문서에 대한 점수는 각 문서에 대한 복합 n-gram 점수들(composite n-gram scores)의 컬렉션을 먼저 계산함으로써 계산된다. 각각의 복합 n-gram 점수는 다음 식을 사용하여 쿼리 내의 모든 가능한 n-gram 형성에 관한 개별 n-gram 점수들을 합산함으로써 형성된다:

여기에서, D는 문서이고, K는 쿼리 내의 단어의 수이며, N은 n-gram 내의 단어의 수이고, Q는 쿼리이며,

는 다음과 같이 계산되는 각 범주 유형(type_k)에 대해 쿼리 내의 점 i에서 시작하는 단일 n-gram에 대한 점수이고:

여기에서, 우측의 내부 합은 한 세그먼트 내의 첫 k-N 단어 위치들에 걸쳐 실행되고, 외부 합은 문서 D와 관련된 각 범주 유형의 모든 세그먼트에 걸쳐 실행된다. 수학식 9에서,

는 문서 D 및 세그먼트 s의 위치 k+1에서 단어의 역 인덱스에 저장된 사후 확률이다.

2개 이상의 복합 n-gram 점수가 상이한 범주 유형

에 대해 계산되면, 다음을 사용하여 별도의 복합 n-gram 점수가 가중된 합으로 결합될 수 있다:

여기에서, w_N은 특정 N-gram과 관련된 가중치이고(여기에서, w_N의 합은 1임), K는 쿼리 내의 단어의 수이다.

다수의 실시예에서, n-gram의 가중치는 n-gram 순서로 선형으로 증가한다. 그러나, 그외 다른 기술이 n-gram의 가중치를 설정하기 위해 사용될 수도 있다.

상이한 범주 유형의 컬렉션에 대한 전체적인 음성 문서 점수

는 범주 유형 점수(수학식 10)의 선형 조합이다:

이 식에서의 가중치는 전체 점수를 관련된 범주 유형의 특성 함수로서 조정하기 위한 융통성을 제공한다.

단계(320)에서는 검색 유닛(428)에 의해 식별되어 점수화된 문서가 순위화된 문서(430)로서 리턴된다. 다수의 실시예에서, 검색 유닛(428)은 문서 식별자를 문서의 위치의 경로 이름으로 변환하기 위해 컬렉션 설명자 파일을 액세스한다. 그 다음, 이 경로 이름이 리턴된다.

리턴되는 문서는 최고 순서 복합 n-gram에 0이 아닌 점수를 제공하지 않는 문서를 제거함으로써 정리(pruned)될 수 있다. 이것은 쿼리의 모든 단어가 문서 내에 최소한 한번 순서대로 나타나는 것을 보장하기 위해 사용될 수 있다. 이러한 요구사항은 인용 기능(quoted functionality)을 강제하기 위해 사용될 수도 있는데, 이것은 한 문서가 쿼리로부터 식별되기 위해서는 쿼리 내의 단어가 모두 존재할 것과 또한 쿼리 내에서와 동일한 순서로 존재할 것을 요구한다. 다른 가능성은 JAPAN "NUCLEAR WEAPONS"와 같은 쿼리 내의 구(phrase)의 인용을 허용하는 것으로, 그러한 쿼리의 입력은 JAPAN 및 NUCLEAR와 WEAPONS를 포함하는 문서만을 리턴할 것이고, 단어 NUCLEAR WEAPONS는 정확히 이 순서로 서로 인접하여 발생한다.

또 다른 실시예에서는 쿼리를 인덱스에 적용하기 전에 쿼리 상에서 형태학적 분석(morphological analysis)이 실행될 수도 있다. 이것은 단어의 상이한 끝 부분들을 포함하는, 쿼리 용어의 상이한 유형의 목록을 생성한다. 예를 들어, 쿼리 내의 용어 "weapons"는 마지막 "s"가 떨어진 대체 "weapon"을 생성할 수 있다. 그 다음, 형태학적으로 변경된 용어의 상이한 조합이 역 인덱스의 상이한 검색을 실행하기 위해 사용될 수 있다. 각 검색은 위에서와 같이 복합 n-gram 점수를 형성하는 것을 수반한다. 대체 검색 문자열의 복합 n-gram 점수는 원래의 검색 문자열의 복합 n-gram 점수보다 훨씬 덜 가중된다. 결과적으로, 원래의 검색 문자열이 아니라 대체 검색 문자열을 포함하는 문서는 원래의 검색 문자열을 포함하는 문서보다 낮은 순위로 정해질 것이다.

앞에서는 인덱싱 기술이 완전한 단어들과 관련하여 설명되었지만, 동일한 기술은 음소(phones) 또는 삼중음소(tri-phones)와 같은 하위단어(sub-word) 단위를 포함하는 임의의 음성 단위를 인덱싱하기 위해서도 사용될 수 있다. 특히, 단어 격자를 형성하는 대신에, 음성 인식기는 하위단어 단위의 격자를 형성할 수 있다. 이들 하위단어 단위는 단어 대신에 하위단어 단위의 시퀀스에 기초한 언어 모델을 사용하여 상기 단어와 동일한 방식으로 점수화된다. 그런 다음, 위치 특정 사후 격자는 관련된 확률을 갖는 개별 하위단어 단위를 포함할 것이다.

검색 쿼리를 수신하면, 쿼리는 하위단어 단어로 분해된다. 그 다음, 문서는 단어 대신에 하위단어 단위로 위에서 설명된 점수화 기술을 사용하여 순위가 정해진다. 몇몇 실시예에서, 쿼리 내의 각 단어는 리턴되는 문서의 수를 감소시키기 위해 인용구에 포함되는 것으로 처리될 수 있다.

본 주제가 구조적 특징 및/또는 방법적 액트에 특정된 언어로 설명되었지만, 첨부된 청구범위에서 정의된 주제는 법원에 의해 보유된 것과 같은 상기 설명된 특정의 특징 또는 액트에 제한되지 않는다는 것을 이해할 것이다. 오히려, 상기 설명된 특정의 특징 및 액트는 청구범위를 구현하는 예시적인 형태로서 개시된다.

Claims

음성 데이터(speech data) 및 텍스트 메타데이터를 포함하는 음성 문서(spoken document)를 인덱싱하는 방법으로서,

프로세서를 사용하여, 상기 음성 데이터로부터 인식된 음성(recognized speech)에 관한 정보를 생성하는 단계 - 상기 인식된 음성은 텍스트 단어의 시퀀스를 포함하고, 상기 정보는, 상기 인식된 음성의 제1의 단어 시퀀스 내의 단어 및 상기 제1의 단어 시퀀스 내의 각 단어의 위치를 결정하기 위해 길이 기반 확률의 합(sum) 및 단어 위치 확률 양자를 이용하는 확률을 포함함 - ;

상기 프로세서를 사용하여, 텍스트 단어의 시퀀스를 포함하는 상기 텍스트 메타데이터 내에 있는 제2의 단어 시퀀스에 관한 정보- 이 정보는 상기 텍스트 메타데이터에 있는 제2의 단어 시퀀스 내의 각 단어의 위치에 관련되는 위치 정보를 포함하며, 상기 위치정보는 상기 인식된 음성의 상기 제 1의 단어 시퀀스 내에 있는 각 단어들에 관한 위치정보와 동일한 포맷을 가짐 -를 생성하는 단계;

상기 프로세서를 사용하여, 텍스트와, 상기 길이 기반 확률들의 합과 상기 단어 위치 확률 양자를 포함하는 상기 인식된 음성에 관한 정보 및 상기 텍스트 메타데이터에 관한 정보의 처리에 기초하여 인덱스를 작성하는 단계 - 상기 인덱스는 위치 특정 사후 격자(position specific posterior lattice)를 포함하며, 위치 특정 확률(position specific probability)은 상기 텍스트 메타데이터에 관해 1(one)임 - ;

상기 프로세서를 사용하여 상기 인덱스를 출력하는 단계를 포함하는

인덱싱 방법.
제1항에 있어서,

상기 음성 데이터 및 상기 텍스트 메타데이터 중 최소한 하나를 분류하는 단계를 더 포함하는

인덱싱 방법.
제2항에 있어서,

상기 분류하는 단계는 음성 데이터의 상이한 유형들을 분류하는 단계를 포함하는

인덱싱 방법.
제2항에 있어서,

상기 분류하는 단계는 텍스트 메타데이터의 상이한 유형들을 분류하는 단계를 포함하는

인덱싱 방법.
제2항에 있어서,

상기 인덱스를 작성하는 단계는 범주(category) 정보로 인덱스를 작성하는 단계를 포함하는

인덱싱 방법.
제1항에 있어서,

상기 음성 데이터로부터 인식된 음성에 관한 정보를 생성하는 단계는 격자(lattice)를 생성하는 단계를 포함하는

인덱싱 방법.
제4항에 있어서,

상기 텍스트 메타데이터에 관한 정보를 생성하는 단계는 격자를 생성하는 단계를 포함하는

인덱싱 방법.
제1항에 있어서,

상기 음성 데이터로부터 인식된 음성에 관한 정보를 생성하는 단계는 상기 음성 데이터의 동일한 부분에 기초하여 최소한 2개의 대체 음성 단위 시퀀스들을 식별하는 단계를 포함하고,

상기 인식된 음성에 관한 정보에 기초하여 인덱스를 작성하는 단계는 상기 최소한 2개의 대체 음성 단위 시퀀스들 내의 각각의 음성 단위에 대해, 상기 최소한 2개의 대체 음성 단위 시퀀스들 중의 최소한 하나의 시퀀스 내의 음성 단위의 위치를 나타내는 인덱스의 엔트리에 정보를 배치하는 단계를 포함하는

인덱싱 방법.
컴퓨터 실행가능 명령어들을 갖는 컴퓨터 판독가능 저장 매체로서,

상기 명령어들은,

검색 쿼리(search query)를 수신하는 단계;

상기 검색 쿼리 내의 단어와 관련된 엔트리에 관한 인덱스를 검색하는 단계 - 상기 인덱스는,

음성 데이터(speech data) 및 텍스트 메타데이터(text meta-data)를 갖는 음성 문서의 문서 식별자에 관한 정보;

텍스트 메타데이터에 관한 음성 데이터 및 음성 데이터의 상이한 유형들 중 최소한 하나의 유형을 식별하는 범주 유형 식별자; 및

복수의 단어를 포함하는 텍스트 메타데이터에 최소한 부분적으로 기초한 상기 단어에 대한 위치 정보 - 상기 인덱스는 위치 특정 사후 격자를 포함하고, 상기 텍스트 메타데이터의 복수의 단어들 각각에 대해 위치 특정 확률은 1이며, 상기 위치 정보는 상기 복수의 단어들의 단어 위치 및, 단어 위치 확률과 함께 워드 길이의 확률들의 합계에 기초하여 상기 위치에서 나타나는 단어의 확률을 나타냄 - 를 포함함 - ;

상기 확률들을 사용하여 음성 문서들의 순위를 서로에 관하여 정하는 단계; 및

상기 순위가 정해진 음성 문서들에 기초하여 검색 결과들을 리턴하는 단계를 실행하는

컴퓨터 판독가능 저장 매체.
제9항에 있어서,

상기 확률들을 사용하여 상기 음성 문서들의 순위를 정하는 단계는 각각의 음성 문서에 대한 복합 n-gram 점수들의 컬렉션(collection)을 계산하는 단계를 포함하는

컴퓨터 판독가능 저장 매체.
제10항에 있어서,

각각의 복합 n-gram 점수는 하나의 n-gram의 모든 가능한 형성에 관한 개별 n-gram 점수들을 합함으로써 형성되는

컴퓨터 판독가능 저장 매체.
제11항에 있어서,

상기 복합 n-gram 점수들의 컬렉션은 상이한 범주 유형들에 기초하여 계산되는

컴퓨터 판독가능 저장 매체.
제12항에 있어서,

범주 유형에 관한 점수는 각각의 개별 범주 유형의 복합 n-gram 점수들 각각을 함께 합함으로써 계산되는

컴퓨터 판독가능 저장 매체.
제9항에 있어서,

상기 확률들을 사용하여 상기 음성 문서들의 순위를 정하는 단계는 상기 범주 유형 점수들의 조합으로서 문서 점수를 계산하는 단계를 포함하는

컴퓨터 판독가능 저장 매체.
제14항에 있어서,

상기 범주 유형 점수들은 가중되는

컴퓨터 판독가능 저장 매체.
검색 쿼리에 기초하여 음성 문서들을 검색하는 방법으로서,

상기 검색 쿼리를 수신하는 단계;

프로세서를 사용하여, 상기 음성 문서들의 음성 데이터로부터 생성된 단어 시퀀스 내의 단어들에 대한 위치들의 확률들 및 상기 음성 데이터에 관련된 텍스트 메타데이터의 단어 시퀀스 내의 복수의 단어들 각각의 위치에 대한 위치 정보에 기초하여, 인덱스를 검색하는 단계 - 상기 단어 시퀀스 내의 단어들에 대한 위치들의 확률들은 상기 음성 문서 내의 음성 데이터의 상이한 범주들에 관련되고, 상기 인덱스는 위치 특정 사후 격자를 포함하고, 위치 특정 확률은 상기 텍스트 메타데이터의 각각의 단어에 대해 1임 - ;

각각의 범주에 대한 상기 인덱스로부터 단어에 대한 확률들의 집합에 기초하여 각각의 음성 문서를 점수화하는 단계; 및

순위가 정해진 음성 문서들에 기초하여 검색 결과들을 리턴하는 단계 - 상기 검색 결과는 낮은 순위의 문서를 삭제하도록 제거됨 - 를 포함하는

검색 방법.
제16항에 있어서,

상기 각각의 음성 문서를 점수화하는 단계는 음성 데이터의 각각의 상이한 범주에 대한 점수들의 가중된 조합으로서 문서 점수를 계산하는 단계를 포함하는

검색 방법.
제16항에 있어서,

상기 인덱스는 상기 음성 문서들 내의 텍스트 메타데이터로부터 생성된 단어들에 대한 위치들의 확률들을 더 포함하고, 상기 단어들에 대한 위치들의 확률들은 상기 음성 문서의 텍스트 메타데이터의 상이한 범주들에 관련되는

검색 방법.
제18항에 있어서,

상기 각각의 음성 문서를 점수화하는 단계는 음성 데이터의 각각의 상이한 범주 및 텍스트 메타데이터의 각각의 상이한 범주에 대한 점수들의 가중된 조합으로서 문서 점수를 계산하는 단계를 포함하는

검색 방법.
삭제