KR20080073298A

KR20080073298A - 입력 데이터의 워드 클러스터링 방법, 및 컴퓨터구현가능한 클러스터링 도구

Info

Publication number: KR20080073298A
Application number: KR1020087011856A
Authority: KR
Inventors: 쿠날 무커지
Original assignee: 마이크로소프트 코포레이션
Priority date: 2005-11-18
Filing date: 2006-11-14
Publication date: 2008-08-08
Also published as: EP1922653A4; US8249871B2; JP5214461B2; US20070118376A1; EP1922653A1; EP1922653B1; JP2009516233A; KR101411113B1; CN101310273A; WO2007061674A1

Abstract

워드 클러스터들을 생성하는 클러스터링 도구. 기술된 실시예에서, 클러스터링 도구는 입력 데이터 내의 워드들 또는 워드 조합에 대해 워드 클러스터들을 생성하는 클러스터링 컴포넌트를 포함한다. 예시된 실시예에서, 워드 클러스터들은 폐쇄식 단어 음성 인식 애플리케이션의 문법을 갱신 또는 수정하는 데 사용된다.

워드 클러스터들, 단어 음성 인식, 클러스터들, 클러스터링

Description

입력 데이터의 워드 클러스터링 방법, 및 컴퓨터 구현가능한 클러스터링 도구{WORD CLUSTERING FOR INPUT DATA}

전화 라우팅 시스템과 같은 음성 인식 애플리케이션은 종종 폐쇄식 문법 또는 렉시컨(a closed grammar or lexicon)을 이용한다. 예를 들어, 회사 전화 디렉터리 시스템용 음성 인식 애플리케이션에 사용된 문법(grammar)은 회사 고용인의 올바른 성명의 리스트를 포함할 수 있다. 이와 같은 문법은 또한 음성 인식 애플리케이션에 의해 제공되는 프롬프트 또는 명령에 대한 적당한 응답을 포함할 수 있다. 따라서, 예컨대, 음성 인식 애플리케이션은 "당신은 누구에게 이야기하길 원하는가?"라고 물을 수 있다. 응답 시에, 사용자는 "John Doe"라고 말하고, 그 시점에 애플리케이션은 호출을 John Doe의 구내 전화로 라우팅한다. 하지만, 이와 같은 시스템은, 프롬프트에 대한 사용자의 입력 또는 응답이 폐쇄식 문법으로 된다면, 애플리케이션이 사용자의 응답을 인식할 수 없다는 문제점을 가질 수 있다. 예를 들어, "당신은 누구에게 이야기하길 원하는가?"라는 프롬프트에 응답하여, 사용자는 "회사 상점(company store)"이라고 응답할 수 있다. 음성 인식 애플리케이션에 의해 사용되는 폐쇄식 문법 또는 렉시컨이 그 응답을 포함하지 않는다면, 응답은 비인식되게 될 것이다. 실패된 인식을 수용하도록 시스템을 조정(tuning)하는 것은 시간 소모적이고 비용이 많이 드는 일일 수 있다.

상기의 설명은 단순히 일반적인 배경 정보를 제공하기 위한 것이고, 청구된 본 발명의 범위를 정하는 데 보조 수단으로서 사용하기 위한 것도 아니다.

[요약]

비인식된 음성 데이터 또는 기타 입력 데이터에서 검색된 워드들의 워드 클러스터들을 생성하는 클러스터링 도구가 기술된다. 개시된 실시예에서, 이들 클러스터들은 폐쇄식 문법을 수정하는 데 사용되어, 보다 양호한 인식 성능을 달성한다.

이 요약은 이하의 상세한 설명에서 더 기술되는 몇몇 개념을 간단화된 형태로 소개하기 위해 제공된다. 이 요약은 청구된 발명의 주요 특징 또는 필수적인 특징을 확인하기 위한 것이 아니며, 청구된 발명의 범위를 정하는 데 보조 수단으로서 사용하기 위한 것도 아니다.

도 1은 본 발명의 실시예가 사용 또는 구현될 수 있는 컴퓨팅 환경의 한 가지 예시적인 실시예의 블록도이다.

도 2는 음성 인식 애플리케이션의 실시예를 예시하는 블록도이다.

도 3은 도 4의 클러스터링 도구를 위한 데이터를 생성하기 위한 단계들을 포함하는 흐름도이다.

도 4는 입력 데이터에서 워드 클러스터들을 식별하기 위한 클러스터링 도구의 실시예를 예시하는 블록도이다.

도 5는 도 4의 클러스터링 도구의 클러스터링 컴포넌트의 실시예를 예시하는 블록도이다.

도 6은 입력 데이터로부터 워드 클러스터들을 생성하기 위한 단계들을 예시하는 흐름도이다.

도 7은 워드 클러스터들을 보고하기 위한 사후 처리 단계들을 도시하는 흐름도이다.

본 시스템은 워드 클러스터들의 식별을 처리한다. 하지만, 본 시스템을 보다 상세히 설명하기 전에, 본 시스템이 배치될 수 있는 환경의 일 실시예를 설명할 것이다.

도 1은 본 실시예들이 구현되기에 적합한 컴퓨팅 시스템 환경(100)의 일례를 도시하고 있다. 컴퓨팅 시스템 환경(100)은 적합한 컴퓨팅 환경의 일례에 불과하며, 본 발명의 용도 또는 기능성의 범위에 관해 어떤 제한을 암시하고자 하는 것이 아니다. 컴퓨팅 환경(100)이 예시적인 운영 환경(100)에 도시된 컴포넌트들 중 임의의 하나 또는 그 컴포넌트들의 임의의 조합과 관련하여 어떤 의존성 또는 요구사항을 갖는 것으로 해석되어서는 안된다.

본 실시예들은 많은 기타 범용 또는 특수 목적의 컴퓨팅 시스템 환경 또는 구성에서 동작할 수 있다. 다양한 실시예들에 사용하는 데 적합할 수 있는 잘 알려진 컴퓨팅 시스템, 환경 및/또는 구성의 예로는 퍼스널 컴퓨터, 서버 컴퓨터, 핸드-헬드 또는 랩톱 장치, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 셋 톱 박스, 프로그램가능한 가전제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 전화 시스템, 상기 시스템들이나 장치들 중 임의의 것을 포함하는 분산 컴퓨팅 환경, 기타 등등이 있지만 이에 제한되는 것은 아니다.

본 실시예들은 일반적으로 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 실행가능 명령어와 관련하여 기술될 것이다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 개체, 컴포넌트, 데이터 구조 등을 포함한다. 일부 실시예들은 또한 통신 네트워크를 통해 연결되어 있는 원격 처리 장치들에 의해 태스크가 수행되는 분산 컴퓨팅 환경에서 실시되도록 설계될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 비롯한 로컬 및 원격 컴퓨터 저장 매체 둘다에 위치한다.

도 1과 관련하여, 일부 실시예들을 구현하는 예시적인 시스템은 컴퓨터(110) 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트들은 처리 장치(120), 시스템 메모리(130), 및 시스템 메모리를 비롯한 각종 시스템 컴포넌트들을 처리 장치(120)에 연결시키는 시스템 버스(121)를 포함하지만 이에 제한되는 것은 아니다. 시스템 버스(121)는 메모리 버스 또는 메모리 컨트롤러, 주변 장치 버스 및 각종 버스 아키텍처 중 임의의 것을 이용하는 로컬 버스를 비롯한 몇몇 유형의 버스 구조 중 어느 것이라도 될 수 있다. 예로서, 이러한 아키텍처는 ISA(industry standard architecture) 버스, MCA(micro channel architecture) 버스, EISA(Enhanced ISA) 버스, VESA(video electronics standard association) 로컬 버스, 그리고 메자닌 버스(mezzanine bus)로도 알려진 PCI(peripheral component interconnect) 버스 등을 포함하지만 이에 제한되는 것은 아니다.

컴퓨터(110)는 통상적으로 각종 컴퓨터 판독가능 매체를 포함한다. 컴퓨터(110)에 의해 액세스 가능한 매체는 그 어떤 것이든지 컴퓨터 판독가능 매체가 될 수 있고, 이러한 컴퓨터 판독가능 매체는 휘발성 및 비휘발성 매체, 이동식 및 비이동식 매체를 포함한다. 예로서, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함하지만 이에 제한되는 것은 아니다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보를 저장하는 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 이동식 및 비이동식 매체를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광 디스크 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 기타 자기 저장 장치, 또는 컴퓨터(110)에 의해 액세스되고 원하는 정보를 저장할 수 있는 임의의 기타 매체를 포함하지만 이에 제한되는 것은 아니다. 통신 매체는 통상적으로 반송파(carrier wave) 또는 기타 전송 메커니즘(transport mechanism)과 같은 피변조 데이터 신호(modulated data signal)에 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터 등을 구현하고 모든 정보 전달 매체를 포함한다. "피변조 데이터 신호"라는 용어는, 신호 내에 정보를 인코딩하도록 그 신호의 특성들 중 하나 이상을 설정 또는 변경시킨 신호를 의미한다. 예로서, 통신 매체는 유선 네트워크 또는 직접 배선 접속(direct-wired connection)과 같은 유선 매체, 그리고 음향, RF, 적외선, 기타 무선 매체와 같은 무선 매체를 포함한다. 상술된 매 체들의 모든 조합이 또한 컴퓨터 판독가능 매체의 영역 안에 포함되는 것으로 한다.

시스템 메모리(130)는 판독 전용 메모리(ROM)(131) 및 랜덤 액세스 메모리(RAM)(132)와 같은 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터 저장 매체를 포함한다. 시동 중과 같은 때에, 컴퓨터(110) 내의 구성요소들 사이의 정보 전송을 돕는 기본 루틴을 포함하는 기본 입/출력 시스템(BIOS)(133)은 통상적으로 ROM(131)에 저장되어 있다. RAM(132)은 통상적으로 처리 장치(120)가 즉시 액세스 할 수 있고 및/또는 현재 동작시키고 있는 데이터 및/또는 프로그램 모듈을 포함한다. 예로서, 도 1은 운영 체제(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136) 및 프로그램 데이터(137)를 도시하고 있지만 이에 제한되는 것은 아니다.

컴퓨터(110)는 또한 기타 이동식/비이동식, 휘발성/비휘발성 컴퓨터 저장매체를 포함한다. 단지 예로서, 도 1은 비이동식·비휘발성 자기 매체에 기록을 하거나 그로부터 판독을 하는 하드 디스크 드라이브(141), 이동식·비휘발성 자기 디스크(152)에 기록을 하거나 그로부터 판독을 하는 자기 디스크 드라이브(151), CD-ROM 또는 기타 광 매체 등의 이동식·비휘발성 광 디스크(156)에 기록을 하거나 그로부터 판독을 하는 광 디스크 드라이브(155)를 포함한다. 예시적인 운영 환경에서 사용될 수 있는 기타 이동식/비이동식, 휘발성/비휘발성 컴퓨터 기억 매체로는 자기 테이프 카세트, 플래시 메모리 카드, DVD, 디지털 비디오 테이프, 고상(solid state) RAM, 고상 ROM 등이 있지만 이에 제한되는 것은 아니다. 하드 디스크 드라 이브(141)는 통상적으로 인터페이스(140)와 같은 비이동식 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광 디스크 드라이브(155)는 통상적으로 인터페이스(150)와 같은 이동식 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.

위에서 설명되고 도 1에 도시된 드라이브들 및 이들과 관련된 컴퓨터 저장 매체는, 컴퓨터(110)를 위해, 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 및 기타 데이터를 저장한다. 도 1에서, 예를 들어, 하드 디스크 드라이브(141)는 운영 체제(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146), 및 프로그램 데이터(147)를 저장하는 것으로 도시되어 있다. 여기서 주의할 점은 이들 컴포넌트가 운영 체제(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)와 동일하거나 그와 다를 수 있다는 것이다. 이에 관해, 운영 체제(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146) 및 프로그램 데이터(147)에 다른 번호가 부여되어 있다는 것은 적어도 이들이 다른 사본(copy)이라는 것을 나타내기 위한 것이다.

사용자는 키보드(162), 마이크, 및 마우스, 트랙볼(trackball) 또는 터치 패드와 같은 포인팅 장치(161) 등의 입력 장치를 통해 명령 및 정보를 컴퓨터(110)에 입력할 수 있다. 다른 입력 장치(도시 생략)로는 조이스틱, 게임 패드, 위성 안테나, 스캐너, 또는 기타 등등을 포함할 수 있다. 이들 및 기타 입력 장치는 종종 시스템 버스에 결합된 사용자 입력 인터페이스(160)를 통해 처리 장치(120)에 접속되지만, 병렬 포트, 게임 포트 또는 USB(universal serial bus) 등의 다른 인터페 이스 및 버스 구조에 의해 접속될 수도 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치도 비디오 인터페이스(190) 등의 인터페이스를 통해 시스템 버스(121)에 접속될 수 있다. 모니터 외에, 컴퓨터는 스피커(197) 및 프린터(196) 등의 기타 주변 출력 장치를 포함할 수 있고, 이들은 출력 주변장치 인터페이스(195)를 통해 접속될 수 있다.

컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 사용하여 네트워크화된 환경에서 동작한다. 원격 컴퓨터(180)는 또 하나의 퍼스널 컴퓨터, 핸드-헬드 장치, 서버, 라우터, 네트워크 PC, 피어 장치 또는 기타 통상의 네트워크 노드일 수 있고, 통상적으로 컴퓨터(110)와 관련하여 상술된 구성요소들의 대부분 또는 그 전부를 포함한다. 도 1에 도시된 논리적 접속으로는 LAN(171) 및 WAN(173)이 있지만, 기타 네트워크를 포함할 수도 있다. 이러한 네트워킹 환경은 사무실, 전사적 컴퓨터 네트워크(enterprise-wide computer network), 인트라넷, 및 인터넷에서 일반적인 것이다.

LAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 통상적으로 인터넷과 같은 WAN(173)을 통해 통신을 설정하기 위한 모뎀(172) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 기타 적절한 메커니즘을 통해 시스템 버스(121)에 접속된다. 네트워크화된 환경에서, 컴퓨터(110) 또는 그의 일부와 관련하여 기술된 프로그램 모듈은 원격 메모리 저장 장치에 저장될 수 있다. 예로서, 도 1은 원격 애플리케이션 프로그램(185)이 원격 컴퓨터(180)에 있는 것으로 도시하고 있지만 이에 제한되는 것은 아니다. 도시된 네트워크 접속은 예시적인 것이며 이 컴퓨터들 사이에 통신 링크를 설정하는 기타 수단이 사용될 수 있다는 것을 이해할 것이다.

본 명세서에 기술된 워드 클러스터링은 음성 인식 시스템 또는 음성 애플리케이션에 응용될 수 있다. 도 2에 도시된 바와 같이, 하나의 이와 같은 음성 인식 애플리케이션(200)은, 도시된 바와 같이 피처 추출기(204;feature extractor), 디코더(206;decoder), 모델(208;models), 및 폐쇄식 문법 또는 렉시컨(212;a closed grammar or lexicon)을 포함하는 폐쇄식 단어 음성 인식 컴포넌트(202;closed vocabulary speech recognition component)를 포함한다. 폐쇄식 단어 음성 인식 컴포넌트(202)에 의해서는, 그 컴포넌트(202)가 문법 또는 렉시컨(212)에서 검색된 워드 또는 음성 단위를 인식할 뿐이라는 것으로 의미된다. 이는, 음성 입력에 기초하여, 그 입력이 어떠한 문법 또는 렉시컨에서 검색되든지 상관없이, 가장 좋은 추론 인식을 출력하는 구술-타입(dictation-type) 음성 인식 시스템과는 대조적이다. 모델(208)은 예시적으로 음향 및 언어 모델이며, 피처 추출기(204) 및 디코더(206)는 예시적으로 알려진 음성 인식 컴포넌트이며, 그들의 상세 동작은 본 발명의 범위 내에서 매우 다양할 수 있다. 기본적으로, 음성 인식 컴포넌트(202)는 입력 음성 신호(214)를 수신하고, 그것을 피처 추출기(204), 폐쇄식 문법(212), 및 모델(208)을 이용하여 디코더(206)로 디코딩한다. 그 후 컴포넌트(202)는 인식 결과(216)를 출력한다.

도 2에 도시된 애플리케이션은, 폐쇄식 단어 음성 인식 컴포넌트(202)에 의해 인식되지 않은 음성을 로깅하기 위한 로깅 컴포넌트(220;logging component)를 포함한다. 로깅된, 비인식된 음성(222)은 자유형/구술(free-form/dictation) 음성 인식 컴포넌트(224)에 제공된다. 인식 컴포넌트(224)는, 문법 또는 렉시컨(212)에서 검색된 워드들에 제한되지 않고, 음성 입력에 기초하여 음성 인식 결과(226)를 출력한다. 따라서, 컴포넌트(224)는 폐쇄식 단어 음성 인식 컴포넌트(202)로부터 제공된 비인식된 음성의 인식 결과(226)를 출력한다. 음성 인식 결과(226)를 생성하기 위한 단계들은 도 3의 흐름도에 보다 구체적으로 도시되어 있다. 도시된 바와 같이, 단계(230)에서, 입력 음성 신호(214)는 음성 인식 컴포넌트(202)에 제공된다. 입력 음성 신호(214)는 폐쇄식 단어 음성 인식 컴포넌트(202)를 사용하여 인식되고, 폐쇄식 단어 음성 인식 컴포넌트(202)로부터 비인식된 음성은 단계(234)에서 로깅된다. 로깅된 비인식된 음성(222)은, 단계(236)에 예시된 바와 같이, 자유형 또는 구술 음성 인식 컴포넌트(224)에 제공되어 인식된다.

단계(230 내지 236)들에 의해 생성된 인식 결과(226)는 도 4에 도시된 클러스터링 도구(242)에 입력 데이터(240)(예컨대, 원문의(textual) 입력)를 제공한다. 도 4에 예시된 실시예에서, 클러스터링 도구(242)는 자유형 음성 인식 결과(226)를 처리하여 워드 클러스터들(246)을 생성하는 클러스터링 컴포넌트(244)를 포함한다. 워드 클러스터들(246)은 입력 데이터(240)에서 수개의 발성(utterance)에서 공동-발생(co-occurrence)하는 워드의 세트이다. 클러스터링 도구(242)는, 또한 도시된 바와 같이, 예시적으로 워드 클러스터들(246)을 생성 및 출력하기 위해서, 프루닝 컴포넌트(248;pruning component), 병합 컴포넌트(250;merge component), 및 보고 컴포넌트(252;reporting component)도 포함한다.

프루닝 컴포넌트(248) 및 병합 컴포넌트(250)는 클러스터링 도구(242)에 의해 사용되어 클러스터들을 생성한다. 프루닝 컴포넌트(248)는 클러스터링 컴포넌트(244)로부터 출력된 클러스터들을 하나 이상의 프루닝 기준(256)에 기초하여 프루닝하도록 구성된다. 병합 컴포넌트(250)는 클러스터링 컴포넌트에 의해 생성된 클러스터들을 유사성 메트릭(similarity metric)(256)에 기초하여 병합한다. 예시된 실시예에서, 프루닝 기준(254)은 주파수 임계값(260), 간결성 설정(262;compactness setting), 및 하잖은 워드 리스트(264;trivial word list)를 포함할 수 있다. 기준(254)은 통계적으로 덜 관련성 있는 데이터를 제거하는 데 사용된다. 워드 클러스터들(246)을 보고하기 위해 프루닝 및 병합된 데이터는 보고 컴포넌트(252)에 제공된다.

주목할 점은 도 4가 3개의 프루닝 기준(260, 262, 264)을 예시하고 있지만, 애플리케이션은 2개의 프루닝 기준에 제한되는 것이 아니며, 개시된 3개의 프루닝 기준을 반드시 필요로 하는 것도 아니다. 프루닝 및 병합은 하기에 보다 상세히 설명된다.

예시된 실시예에서, 클러스터링 도구(242)에 의해 보고된 클러스터들(246)은 문법 생성기 컴포넌트(266;grammar generator component)에 제공된다. 문법 생성기 컴포넌트(266)는, 원하는 클러스터들(246)을 포함하도록 폐쇄식 단어 음성 인식 컴포넌트(202)의 폐쇄식 문법 또는 렉시컨(212)을 갱신하는 데 사용될 수 있다. 도시된 바와 같이, 문법 생성기 컴포넌트(266)는 이전 문법(212)을 수신하고, 그 문법 또는 렉시컨(212), 및 어떤 클러스터들(246)을 문법(212) 내에 입력할 것인가를 선택하는 사용자 선택 입력(272)에 기초하여 갱신된 문법 또는 렉시컨(270)을 생성한다.

도 5는 보다 상세하게 클러스터링 컴포넌트(244)의 일 실시예를 나타낸 블록도이다. 도 5에 도시된 실시예에서, 클러스터링 컴포넌트(244)는 입력 데이터(240)로부터 공동-발생하는 워드 조합으로 클러스터들을 생성하기 위하여, 워드 발생 벡터 생성기(290;word occurrence vector generator), 워드 공동-발생 벡터 생성기(292;word co-occurrence vector generator), 및 벡터 내적 컴포넌트(294;vector dot product component)를 포함한다.

도 6은 클러스터링 컴포넌트(244)의 동작의 일 실시예를 도시하는 흐름도이다. 도 6의 단계(300)에 의해 예시된 바와 같이, 입력 데이터(240)가 클러스터링 컴포넌트(244)에 제공된다. 입력 데이터(240)는 예시적으로 하나 이상의 워드를 포함하는 복수의 발음(utterance) 또는 음성 엔트리(speech entries)를 포함한다. 다수의 워드 발음 또는 음성 엔트리를 포함하는 입력 데이터(240)의 예가 하기의 표 1에 제공되어 있다.

번호	발음
1	"company store"
2	"the company store"
3	"company property"
4	"the company store"
5	"the company property"

단계(302)에 도시된 바와 같이, 워드 발생 벡터(WOC;word occurrence vector)는 워드 발생 벡터 생성기(290)에 의해 입력 음성 데이터(240)에서 검색된 워드 각각에 대해 생성된다. 워드 발생 벡터(WOV)는 v=(v₁,v₂,...,v_i,...,v_n)로 표현되고, 여기서 n은 입력 데이터(240) 내의 발음 또는 엔트리 수이고, v는 이런 발생 벡터에 대응하는 워드가 대응하는 발음에서 발생하는지에 따라서 "1" 또는 "0" 둘 중 하나이다.

따라서, 표 1의 입력 데이터의 경우, "company", "store", "property", 및 "the"라는 워드 각각에 대한 워드 발생 벡터는 하기의 표 2에 제공되어 있다.

워드	워드 발생 벡터
Company	V = (1,1,1,1,1)
Store	V = (1,1,0,1,0)
Property	V = (0,0,1,0,1)
The	V = (0,1,0,1,1)

이와 같이, "company"라는 워드의 경우, "company"라는 워드가 표 1의 발음 또는 엔트리(번호 1 - 5) 각각에 나타나기 때문에, 워드 발생 벡터는 v = (1,1,1,1,1)이다. "store"라는 워드에 대한 워드 발생 벡터는, "store"라는 워드가 첫번째, 두번째, 및 네번째 발음에 나타나고, 세번째 및 다섯번째 발음에는 나타나지 않기 때문에, v = (1,1,0,1,0)이며, 기타 등등이 있다.

단계(304)에서, 입력 데이터(240) 내의 워드 쌍 전체에 대한 워드 공동-발생 행렬 M, 또는 클러스터들을 생성하기 위하여 벡터 내적이 워드 발생 벡터의 쌍 간에 계산된다. 워드 발생 행렬 M의 워드 공동-발생 행렬 원소 M_i _,j는 입력 데이터 내의 워드 i 및 j의 공동-발생을 표현하고, i 및 j 각각은 입력 데이터의 워드 쌍에서 워드를 표현한다.

예를 들어, 워드 발생 벡터 v_i 및 v_j를 가진 워드 i 및 j에 대하여, 내적은 n개의 발음 또는 엔트리 각각에서의 워드 i 및 j의 공통(joint) 발생 전부의 합계이다. 따라서, 벡터 내적은 워드 i 및 j가 입력 데이터에서 공통으로 발생하는 횟수를 제공한다. 그들이 어떤 발음에서도 전혀 공통으로 나타나지 않는다면, 그들의 내적은 0이고, 이들 2개의 워드는 클러스터 또는 워드 조합을 형성하지 않는다는 것을 의미한다.

워드 공동-발생 행렬 M은, 벡터 내적이 가환적(commutative)이고 그리하여 처리는 행렬의 상부 또는 하부의 트라이앵귤러 부분(the upper or lower triangular part)에 제한되기 때문에, 대칭적이다. 처리 복잡성을 단순화하기 위해, 행렬 M의 대각선 위치는, 반복된 워드 클러스터들, 예컨대, 워드 클러스터 "the", 및 하기의 표 3의 "the"가, 일반적으로 인식 에러로부터 기인하기 때문에, 계산될 필요가 없다. 행렬 M의 대각선을 벗어난(off-diagonal) 상단 트라이앵귤러 부분, 즉 M_i _,j(여기서, j > i)만이, 동일한 워드를 여러 차례 반복함으로써 형성된 클러스터들을 배제한 2개의 워드 클러스터들 전부를 검색하기 위해, 계산된다. 공동-발생 행렬의 행렬 원소 M_i _,j의 값은 입력 데이터에서 워드 i 및 j의 공동-발생의 빈도(frequency), 또는 워드 클러스터 (i,j)의 빈도이다.

따라서 표 1의 입력 데이터(240)의 경우, 공동-발생 행렬은 하기의 표 3에 제공되어 있다.

벡터	Company	Store	The	Property
Company	0	3	3	2
Store	0	0	2	0
The	0	0	1	1
Property	0	0	0	0

도 6의 단계(305)에 도시된 바와 같이, 단계(304)에서 검색된 워드 클러스터 (i,j)는 빈도 임계값(260)(도 4의 도시됨)에 기초하여 프루닝되어 계산의 부하(computational load)를 경감시키고 계산의 속도를 향상시킨다. 특히, 클러스터 데이터는 워드 클러스터 전부를 포함하므로, 심지어 발음 세트에서 단 한번만 발생하더라도, 프루닝 컴포넌트(248)는 예시적으로 최소 임계값을 사용하여 클러스터가 최소 횟수로 나타나는 것을 요구한다. 예를 들어, 상기 표 3에서, 클러스터들 "the" 및 "property"는 클러스터들은 그 클러스터가 최소 빈도 임계값(260)을 충족시키므로 프루닝된다. 보다 높은 임계값을 설정함에 의해, 직접적으로 계산의 부하가 감소되고, 런 타임이 보다 빨라지게 된다. 임계값(264)은 소망에 따라 사용자에 의해 입력되거나, 또는 사전 프로그램될 수 있다.

워드 공동-발생 벡터(WCV)는 단계(306)에 예시된 바와 같이 임계값 빈도를 가진 2개의 워드 클러스터 각각에 대해 생성된다. 그 후, 워드 공동-발생 벡터(WCV) 또는 클러스터는, 단계(308)에 의해 지시된 바와 같이, 리스트에 부가된다. 워드 공동-발생 벡터(WCV) v_j _..k는, 수식 1의 파이 프로덕트(Pi Product)에 예시된 바와 같이, 워드 쌍의 공동-발생 벡터를 생성하기 위해 워드 발생 벡터 v_j 내지 v_k에 걸쳐 AND 연산자(operator)(또는, 등가적으로 스칼라 곱)를 적용함으로써, 최소 클러스터 사이즈 임계값(260)보다 큰 넌-제로(non-zero) 행렬 원소 M_i _,j에 대하여 단계(306)에서 생성된다.

(수식 1)

WCV v_j _...k의 모든 원소들에 걸친 합은 번호 j 내지 k가 부여된 모든 워드로 이루어지는 워드 클러스터의 빈도를 제공한다.

입력 데이터의 워드 공동-발생 벡터 및 표 1 및 표 3의 행렬 원소들이 하기의 표 4에 제공되어 있다.

클러스터	워드 공동-발생 벡터
"company store"	V = (1,1,0,1,0)
"The company"	V = (0,1,0,1,1)
"company property"	V = (0,0,1,0,1)
"The store"	V = (0,1,0,1,0)
"The property"	V = (0,0,0,0,1)

단계(304 내지 308)의 처리는, 단계(310)에 예시된 바와 같이 리스트에 부가되는 부가적인 워드 공동-발생 벡터 또는 클러스터가 더 이상 존재하지 않을 때까지 반복되어 부가적인 워드 조합(3개의 워드, 4개의 워드, 등)을 생성한다. 보다 구체적으로는, 벡터 내적은 워드 공동-발생 벡터 각각에 대해 계산된다. 벡터 내적

은 워드 클러스터들 (j ... k-1)와 워드 k(n개의 발음 세트에 걸쳐 취해짐)에 대한 공통 발생의 전부의 합계를 제공한다. 이는 보다 큰 워드 클러스터(j ... k)를 제공하고, 내적의 결과는 보다 큰 빈도와 같다.

다시 말해, 단계(306)의 WCV _j...k-1 각각에 대하여, 부가적인 클러스터들을 검색하기 위해 WOV_k를 곱셈하는 것이 최소 클러스터 사이즈 임계값(260)보다 큰 넌-제로 내적을 제공하는지의 여부를 알기 위해, 체크가 행해진다. 주목할 점은 WCM 행렬 원소 M_j _,k... M_r _-1,k 중에서 임의의 단일 제로를 검색하는 것은 WCV_j _...k가 제로 벡터(즉, 클러스터가 아님)가 되는 것으로 추론하는 데 충분하다는 것이다. 이런 경우에, 벡터 AND는 수행될 필요가 없다. 더 나아가서 상단 하이퍼-트라이앵글(upper hyper-triangles)은 모든 고유한 보다 큰 클러스터들을 열거하기 위해 확장될 필요가 있다.

또한 주목할 점은 클러스터링 도구(242)가 nxn 공동-발생 행렬들 대신에 보다 큰 클러스터들을 저장하기 위해 리스트 데이터 구조를 구현할 수 있다는 것이다. 이는 보다 큰 클러스터들이 산재하여 있을 수 있기 때문이며, 그래서 리스트 데이터 구조는 보다 효율적이다.

서술된 클러스터링 컴포넌트(244)는, 2개, 3개, 및 보다 큰 워드 조합을 포함한 워드 조합 또는 클러스터들의 존재 및 빈도를 제공한다. 서술된 클러스터링 컴포넌트(244)에서, 모든 동작은 비트-와이즈(bit-wise) AND 및 덧셈을 이용하여 수행될 수 있다. 이는 알고리즘이 매우 빠르고, 본질적으로 병렬 동작으로 구현될 수 있고, 확장 축소가 가능하다는 것을 의미한다. 예를 들어, 64 워드 벡터는 64-비트 크기의 구현예들 상에서 병렬로 처리될 수 있다.

전술된 바와 같은 클러스터 형성 동안 또는 클러스터 형성 이후 중 어느 한 경우 동안에, 클러스터들은 프루닝 기준(254)(도 4에 도시됨)에 기초하여 프루닝된다. 부가적인 프루닝 기능은 도 7에 도시된 흐름도와 관련하여 보다 상세히 기술된다.

단계(324)에서, 프루닝 컴포넌트(248)는 예시적으로 간결성 설정(compactness setting) 또는 제약조건(262)을 사용하여 공동-발생하는 워드가 서로 근접한 부근에 있지 않은 클러스터들을 제거 또는 프루닝한다. 일반적으로, 입력 발음에서 서로 근접하여 위치되지 않은 워드들은 보다 신뢰성있는 클러스터들을 형성한다. 따라서, 프루닝 컴포넌트(248)는 워드 위치 데이터를 이용하여 공동-발생하는 워드가 간결성 설정 내에 있지 않은(즉, 그들이, 간결성 설정에 의해 지시된, 서로 소정 수의 워드 내에 있지 않은) 클러스터들을 프루닝한다.

단계(326)에서, 프루닝 컴포넌트(248)는 예시적으로 하찮은 워드들 또는 클러스터들(예컨대, "a [X][X] the [X] and")의 데이터 저장소를 사용하여 출력 클러스터들을 클러스터링하는 클러스터 데이터를 감축 또는 제거한다. 대조적으로, 프루닝 컴포넌트(248)는 유효한 클러스터들일 수 있는 "I am", "yes, thanks" 등과 같은 클러스터들을 제거하지 않는다.

클러스터링 컴포넌트(244)에 의해 생성되어 프루닝 컴포넌트(248)에 의해 프루닝되는 유사한 클러스터들은 도 7의 단계(328)에 도시된 바와 같이 병합된다. 클러스터들은 부 클러스터(secondary cluster)가 단순히 주 클러스터(primary cluster)의 잘못된-철자(mis-spelling) 또는 잘못된 표현(misrepresentation)일 가능성에 기초하여 병합된다. 이는 종종 하나의 철자 또는 구문 형태가 예컨대, "wheel" 및 "reel"과 같이 음향적으로 서로 매우 가까운 음성 인식에서 일어난다. 다른 예에서, "company still"은 "company store"의 잘못된 표현일 수 있다.

병합을 위해 클러스터들을 식별하는 다양한 방식이 존재한다. 유사한 클러스터들을 병합하기 위한 일 실시예는 음성 인식 시스템에 의해 출력된 대체 인식의 리스트(즉 n개의 최상의 리스트(n-Best list))를 검토하는 것이다(예컨대, 인식 래티스(recognition lattice)에서와 마찬가지임). 다른 실시예에서는, 유사성 또는 거리 메트릭이 음향 유사성 또는 혼란 가능성(confusability)에 기초하여 클러스터들 사이의 유사성 또는 거리를 식별하도록 구현된다.

예를 들어, n개의 발음의 주요 인식 결과의 세트를 R = {r₁, r₂, r₃, r₄}로 표시하고, 클러스터링 컴포넌트(244)에 의해 형성된 클러스터들을 C = {c₁, c₂, c₃, c₄}로 표시하기로 한다. 임의의 주어진 인식 결과 r_i의 대체 세트는 Alt(r_i)로서 표기된다. 새로운 pxp 정방 행렬이 생성되어 병합 가능성 행렬 MLM이라 불리며, 이는 최초에 모두 제로를 포함한다. 대체 인식 결과는 처리되어

에 의해 제공된 병합 가능성 행렬의 병합 행렬 원소 MLM_ij를 생성한다. 병합 행렬의 대응하는 행렬 원소가 설정 임계값을 초과하는 클러스터들 (i,j), 즉

은 병합된다.

병합된 클러스터는, 2개의 병합된 클러스터들 중 더 큰 것, 예컨대, 가장 큰 발생 빈도를 갖는 클러스터들의 라벨을 사용하여 라벨(즉, 인식 스트링)이 붙여지고, 그것의 발생/빈도 수는 병합될 클러스터들의 빈도의 합이다. 주목할 점은 대칭성으로 인해, 병합 가능성 행렬 MLM의 대각선을 벗어난 상단(또는 하단) 트라이앵큘러 원소만이 처리된다는 것이다.

다른 실시예에서는, 클러스터들이 얼마나 음향적으로 혼란을 줄 수 있는지의 유사성 메트릭을 사용하여 음향 유사성에 기초하여 그 클러스터들을 병합한다. 클러스터의 쌍 전부는 음향적 유사성 메트릭에 기초하여 평가되고, 매우 유사한 것들은 병합된다. 이는 병합이 더 이상 없을 때까지 반복적으로 행해진다. 음향 유사성 또는 거리와, 음향적 혼란 가능성을 계산하기 위한 다양한 시스템들이 알려지 있으므로, 상세히 설명하지는 않을 것이다.

보고 컴포넌트(252)는 클러스터링 컴포넌트(244)에 의해 생성된 클러스터들을 보고한다. 일 실시예에서, 보고 컴포넌트(252)는 2개 또는 다수의 워드 클러스터들 전부의 빈도, 및 존재(즉, 넌-제로 행렬 원소에 의해)를 보고한다. 클러스터 각각은 도 7의 단계(330)에 의해 예시된 바와 같이 보고 컴포넌트(252)에 의해 클러스터 내의 워드들에 기초하여 라벨이 붙여진다.

일 실시예에서, 보고 컴포넌트(252)는 클러스터들에 라벨을 붙이기 위해 워드 위치 정보를 이용한다. 예를 들어, "elevator not working"의 경우 10개의 발음을 포함하는 호출 로그로부터의 입력 데이터의 경우에, 클러스터링 컴포넌트는 워드 순서에 상관없이 "working", "not", 및 "elevator"의 조합에 대해 10개의 인스턴스를 검색한다. 보고 컴포넌트(252)는 클러스터의 워드 순서를 제공하기 위해, 10: "elevator not working"로 라벨을 붙이거나 또는 클러스터를 출력하는데 워드 위치 정보를 이용한다.

워드 순서는 클러스터 데이터 내의 워드 클러스터들 사이에서 다를 수 있다. 예를 들어, 입력 데이터가 "elevator not working"의 9회 발생, 및 "not working elevator"의 1회 발생을 포함한다면, 클러스터링 컴포넌트(244)는 "elevator not working" 및 "not working elevator"이라는 발음 둘 다에 대해 "not", "elevator", 및 "working"의 워드 조합을 찾기 위해 클러스터를 검색한다.

보고 컴포넌트(252)는 클러스터를 보고하거나 클러스터에 라벨을 붙이기 위해 가장 빈번한 또는 가장 고정된 워드를 이용하도록 구성될 수 있다. 따라서, 예시된 실시예에서, 보고 컴포넌트(252)는 9:"elevator not working" 및 1:"not working elevator"와 같이 2개의 단편화된 클러스터들을 보고하는 대신에 단일 클러스터 라벨이 붙여진 10:"elevator not working"을 보고한다.

워드 클러스터들은 클러스터 워드들 사이에 발생하는 중간 워드를 포함할 수 있다. 예를 들어, 하기의 발음 세트로부터 "building" 및 "reception"이라는 워드를 포함하는 클러스터의 경우:

1) "building one reception"

2) "building two reception"

3) "building four reception"

보고 컴포넌트(252)는 워드 위치 정보를 사용하여 "building"과 "reception" 사이에 "와일드 카드 워드(wildcard word)"가 있는 것으로 판정한다. 따라서, 클러스터는 "cluster 3: Building [X] reception"으로 보고된다.

워드 순서 및 와일드 카드는 클러스터 내의 발음들에 따라 다를 수 있다. 일 실시예에서, 보고 컴포넌트(252)는 통계적 처리를 이용하여 보다 통계적으로 관련 워드 순서 또는 와일드 카드 배치 및 클러스터의 수를 라벨로 붙인다. 예를 들어, 데이터 세트에서 20회 발생하는 "travel" 및 "Florida"라는 워드들에 대한 2개의 워드 클러스터의 경우에, "travel"이라는 워드가 "Florida"라는 워드 전에 2개의 워드를 20회 중 18회 발생하는 경우, 즉 18:("travel" [X][X] "Florida")인 경우와, "Florida"라는 워드가 "travel"이라는 워드 전에 한번 1개의 워드를 발생하는 경우, 즉 1:("Florida" [X] "travel")인 경우와, 3개의 워드가 "travel"이라는 워드 전에 한번 발생하는 경우, 즉 1:("Florida" [X][X][X] "travel")인 경우라면, 뒤따르는 클러스터 라벨: 20:("travel" [x][x] "Florida")로 "평균" 위치가 보고된다.

컴포넌트는 버블 소트(bubble sort) 또는 임의의 기타 적합한 소트를 이용하여 다음의 상대적 위치를 처리할 수 있다. 이는 레벨을 붙이는 것이 가장 빈번한 상대적 순서로 진행하는 것을 보장한다.

예를 들어, 상기 클러스터들의 "travel" 및 "Florida"라는 워드들에 대해, 관련 워드 순서는 다음과 같이 결정된다:

18 x 4 + 2 x 1 = 72 + 2 = 74와 같이 (빈도 x 위치의 합계)로서 "Florida"라는 워드의 평균/예상된 상대적 위치를 결정한다.

18 x 1 + 1 x 2 + 1 x 5 = 25와 같이 (빈도 x 위치의 합계)로서 "travel"이라는 워드의 평균/예상된 상대적 위치를 결정한다.

"travel"의 평균 상대적 위치는 "Florida" 보다 낮기 때문에, 상대적 순서화(버블 소트에 의해 결정됨)는 "travel", "Florida"이다.

"travel" 및 "Florida"라는 워드들 사이에 와일드 카드의 평균/예상된 수는 (2 x 18 - 1 x 1 - 3 x 1)/20 = 1.6(이는 2로 반올림되게 됨)과 같이 (와일드 카드 x 빈도의 수의 합계)/(클러스터의 수)에 기초하여 결정된다.

그래서 클러스터의 최종 클러스터 라벨은 ("travel" [X][X] "Florida")이다.

본 명세서는 문장 또는 발음 세트에서 발생하는 2 이상의 사이즈의 모든 현존하는 워드 클러스터들 전부를 발견하는 방식을 기술한다. 이 방법의 실시예들은 음성 인식 시스템의 문법 외의(out-of-grammar) 발음 클러스터들을 결정하는 데 응용되지만, 응용은 이런 특정한 응용에만 제한되는 것은 아니다.

본 발명은 구조적 특징 및/또는 방법론적인 동작에 특정한 언어로 기술되었지만, 첨부된 청구항에 정의된 본 발명은 전술된 특정한 특징 또는 동작에 반드시 제한되는 것은 아니다. 오히려, 전술된 특정한 특징 및 동작은 청구항을 구현하는 예시적 형태로서 개시되어 있다.

Claims

컴퓨터 구현가능한 클러스터링 도구(clustering tool)로서,

음성 인식 컴포넌트(224)로부터의 복수의 발음(utterance)을 나타내는 입력 데이터(240)를 수신하여, 상기 입력 데이터(240) 내의 발음들에서 공동-발생하는 워드들을 나타내는 워드 클러스터들을 생성하도록 구성된 클러스터링 컴포넌트(244)

를 포함하는 컴퓨터 구현가능한 클러스터링 도구.
제1항에 있어서,

상기 워드 클러스터들은 2개 이상의 워드들의 워드 조합을 포함하는 컴퓨터 구현가능한 클러스터링 도구.
제1항에 있어서,

상기 클러스터링 컴포넌트는 상기 워드 클러스터들 및 상기 워드 클러스터들의 빈도(frequency)를 제공하는 컴퓨터 구현가능한 클러스터링 도구.
제1항에 있어서,

유사성 메트릭(a similarity metric)에 기초하여 클러스터들을 병합하는 병합 컴포넌트를 더 포함하는 컴퓨터 구현가능한 클러스터링 도구.
제1항에 있어서,

프루닝 기준(a pruning criteria)에 기초하여 클러스터들을 프루닝하는 프루닝 컴포넌트(a pruning component)를 더 포함하는 컴퓨터 구현가능한 클러스터링 도구.
제1항에 있어서,

워드 위치 정보를 이용하여 워드 클러스터에 라벨을 붙이는 보고 컴포넌트(a reporting component)를 더 포함하는 컴퓨터 구현가능한 클러스터링 도구.
제6항에 있어서,

상기 보고 컴포넌트는 공동-발생하는 워드들에 관련하여 중간 워드를 나타내는 와일드 카드(wildcard)를 포함하는 워드 클러스터 라벨을 사용하도록 구성되는 컴퓨터 구현가능한 클러스터링 도구.
제1항에 있어서,

상기 클러스터링 컴포넌트는 워드 발생 벡터 생성기, 및 벡터 내적을 계산하기 위한 벡터 내적 컴포넌트를 포함하는 컴퓨터 구현가능한 클러스터링 도구.
제8항에 있어서,

워드 공동-발생 벡터 생성기를 더 포함하는 컴퓨터 구현가능한 클러스터링 도구.
컴퓨터 구현가능한 클러스터링 도구로서,

입력 데이터(240)를 수신하여, 워드 발생 벡터들 또는 워드 공동-발생 벡터들 중 적어도 하나를 생성하도록 구성된 워드 클러스터링 컴포넌트(244); 및

상기 워드 발생 벡터들 또는 상기 워드 공동-발생 벡터들로부터 상기 입력 데이터(240)에서 워드 클러스터들(246)을 얻기 위해, 벡터 내적을 계산하는 벡터 내적 컴포넌트(294)

를 포함하는 컴퓨터 구현가능한 클러스터링 도구.
제10항에 있어서,

상기 벡터 내적 컴포넌트는 워드 클러스터들 및 빈도를 포함하는 워드 공동-발생 행렬을 생성하는 컴퓨터 구현가능한 클러스터링 도구.
제10항에 있어서,

상기 클러스터링 컴포넌트는 파이 프로덕트(Pi-product)를 계산하여 상기 워드 공동-발생 벡터들을 생성하도록 구성되는 컴퓨터 구현가능한 클러스터링 도구.
입력 데이터(240)를 제공하는 단계;

입력 데이터(240) 내의 워드들에 대해 워드 발생 벡터들을 생성하는 단계; 및

상기 워드 발생 벡터들 간에 벡터 내적을 계산하여, 상기 입력 데이터(240) 내의 클러스터들에서 공동-발생하는 워드들을 나타내는 워드 클러스터들을 생성하는 단계

를 포함하는 방법.
제13항에 있어서,

상기 워드 클러스터들에 대해 워드 공동-발생 벡터들을 생성하는 단계; 및

상기 워드 공동-발생 벡터들의 벡터 내적을 계산하는 단계

를 더 포함하는 방법.
제13항에 있어서,

파이 프로덕트를 계산하여 상기 워드 클러스터들에 대해 워드 공동-발생 벡터들을 생성하는 단계를 더 포함하는 방법.
제14항에 있어서,

상기 워드 공동-발생 벡터들을 생성하고, 부가적인 워드 공동-발생 벡터들의 벡터 내적을 계산하는 단계를 반복하는 단계를 포함하는 방법.
제13항에 있어서,

폐쇄식 단어 음성 인식 컴포넌트(a closed vocabulary speech recognition component)로부터의 비인식된 음성 데이터를 로깅하는 단계; 및

상기 로깅된 음성 데이터를 자유형(free-form) 음성 인식 시스템을 사용하여 인식하여 상기 입력 데이터를 제공하는 단계를 더 포함하는 방법.
제13항에 있어서,

클러스터 라벨 및 빈도를 포함하는 워드 클러스터들을 출력하는 단계를 더 포함하는 방법.
제18항에 있어서,

상기 워드 클러스터들을 출력하기 전에 클러스터 데이터를 프루닝하는 단계를 더 포함하는 방법.
제13항에 있어서,

유사한 워드 클러스터들을 병합하는 단계를 더 포함하는 방법.