KR20080018160A

KR20080018160A - 강한 데이터 유형을 이용하여 소프트웨어 프로그램에서음성 인식 문법을 나타내기 위한 방법

Info

Publication number: KR20080018160A
Application number: KR1020077024905A
Authority: KR
Inventors: 쟝-프랑소아 페이루
Original assignee: 마이크로소프트 코포레이션
Priority date: 2005-06-23
Filing date: 2006-05-08
Publication date: 2008-02-27
Also published as: WO2007001637A2; US7460996B2; EP1891623A2; US20060293894A1; KR101213890B1; CN101185116A; JP2009500699A; WO2007001637A3; EP1891623A4

Abstract

한 실시예에서, 자연 언어 사용가능한 애플리케이션으로의 자연 언어 입력을 해석하기 위한 시스템은 문법, 소스 파일, 및 음성 인식기를 갖는다. 문법은 데이터 유형의 집합에 대한 규칙을 정의하는 데이터 유형들의 집합 및 시맨틱 코드를 갖는다. 소스 파일은 데이터 유형들의 집합의 선택된 데이터 유형을 인스턴스화함으로써 문법을 액세스하도록 구성된 컴퓨터 판독가능 코드를 포함한다. 음성 인식기는 자연 언어 입력을 수신하고 자연 언어 입력을 선택된 데이터 유형으로 매핑하도록 구성된다.

자연 언어 애플리케이션, 음성 인식, 강하게 유형화된 문법

Description

강한 데이터 유형을 이용하여 소프트웨어 프로그램에서 음성 인식 문법을 나타내기 위한 방법{USING STRONG DATA TYPES TO EXPRESS SPEECH RECOGNITION GRAMMARS IN SOFTWARE PROGRAMS}

아래의 논의는 단지 일반적인 배경 정보를 제공하기 위해 제공된 것이며, 청구된 본 발명의 범위를 결정하기 위한 보조로서 사용되도록 의도된 것이 아니다.

자연 언어(natural language) 소프트웨어 애플리케이션은 구두 발성음(spoken utterance) 또는 사람이 말하는 방식과 유사한 텍스트 입력을 수신하도록 구성된 애플리케이션을 말한다. 그러나, 음성 인식을 사용하는 전통적인 애플리케이션들은 애플리케이션이 들어야할 단어를 정의하고, 그 단어들이 어떻게 결합될 수 있는지 정의하고, 및 그 단어들의 어떤 특정 결합의 시맨틱 의미(semantic meaning)를 정의함으로써 음성 인식을 한다.

일반적으로, 용어 문법(term grammar)은 어떤 주어진 언어의 구조를 정의하는 규칙 및 기본 원리를 말하며, 문법은 자연 언어 애플리케이션이 이 기능들을 수행하는 메커니즘으로서의 역할을 할 수 있다. 실제에서, 자연 언어 프로그래머는 문법을 코딩하며, 이것은 음성 인식기에 사용된다. 사용자가 자연 언어 프로그램을 액세스하고 문법에 의해 정의된 단어 및 규칙의 집합 내의 무언가를 말하면, 음성 인식기는 그 단어들을 문법 내에 정의된 문자열 또는 다른 유형에 매핑(map)한 다. 다음, 음성 인식기는 종종 추후의 프로세싱을 위해 매핑된 객체를 애플리케이션에 제공함으로써 무엇이 말해졌는지 뿐 아니라, 문법에 의해 정의된 어떤 대응하는 시맨틱 정보를 애플리케이션에 알린다.

이러한 전통적인 애플리케이션은 소프트웨어 개발자로 하여금 다량의 텍스트 및 문자열 텍스트 조작을 코딩할 것을 요구한다. 효과적으로 코딩하기 위해서, 개발자는 일반적인 문법 및 개발자가 사용하는 특정 문법의 기본 원리(inner working)에 대한 매우 좋은 이해를 가져야한다. 유감스럽게도, 이러한 문법적 식견은 흔히 프로그래머의 지식 기반의 일부가 아니다.

전체 개발 주기를 촉진하기 위해, 개발자들은 기존 문법을 편집하고/하거나 이에 추가함으로써 종종 기존 문법의 어떤 변형을 사용하고 싶어한다. 하지만, 기존 문법을 편집하는 것은 개발자로 하여금 구조를 습득하는 데 시간을 할애하도록 요구하며, 이 시간은 소프트웨어 향상을 구현하는데 달리 쓰일 수 있는 시간이다. 전통적인 기술은 개발자가 다른 문법으로부터 기존 문법을 참조하도록 허용하지만, 참조된 문법의 시맨틱이 반환되는 방식에 영향을 주기 때문에 참조는 호출 프로그램(calling program)에 투명(transparent)하지 않다.

이 발명의 상세한 설명은 아래 실시예에서 설명되는 몇몇 개념들을 간략한 형식으로 소개하기 위해 제공된다. 이 발명의 상세한 설명은 청구된 본 발명의 주요 특징 또는 본질적 특징들을 식별하도록 의도된 것이 아니며, 또한 발명의 상세한 설명은 청구된 본 발명의 범위를 결정하기 위한 보조로서 사용되도록 의도되지 않는다.

한 실시예에서, 자연 언어 사용가능한 애플리케이션으로의 자연 언어 입력을 해석하기 위한 시스템은 문법, 소스 파일, 및 음성 인식기를 갖는다. 문법은 데이터 유형의 집합 및 데이터 유형의 집합에 대한 규칙을 정의하는 시맨틱 코드(semantic code)를 갖는다. 소스 파일은 데이터 유형 집합 중 선택된 데이터 유형을 인스턴스화(instantiate)함으로써 문법을 액세스하도록 구성된 컴퓨터 판독가능 코드를 포함한다. 음성 인식기는 자연 언어 입력을 수신하고 자연 언어 입력을 선택된 데이터 유형으로 매핑하도록 구성된다.

다른 실시예에서, 자연 언어 인식을 위한 시스템은 입력 장치, 강하게 유형화된 문법(strongly typed grammar), 인식(recognition) 컴포넌트, 및 해석(interpretation) 컴포넌트를 갖는다. 입력 장치는 자연 언어 입력을 수신하도록 구성된다. 강하게 유형화된 문법은 자연 언어 입력의 요소들을 대표하는 유형의 집합을 정의한다. 인식 컴포넌트는 자연 언어 입력을 강하게 유형화된 문법을 사용하는 텍스트로 변환하고, 텍스트에 기반한 인식 출력을 생성하도록 구성된다. 해석 컴포넌트는 인식 출력에 기반하여 자연 언어 입력의 시맨틱을 식별하도록 구성된다.

다른 실시예에서, 자연 언어 애플리케이션을 위해 문법을 액세스하기 위한 방법이 제공된다. 하나 이상의 문법들이 제공된다. 각 문법은 자연 언어를 나타내는 유형의 집합을 갖는다. 프로세스는 하나 이상의 자연 언어 입력에 작용하기 위한 소스 코드 파일에 정의된다. 유형의 집합 중 선택된 유형들은 런타임시에 하나 이상의 문법으로부터 인스턴스화된다. 선택된 유형들은 자연 언어 입력에 대응한다.

도 1은 본 발명의 실시예들이 구현될 수 있는 컴퓨팅 시스템 환경에 대한 도식적인 개관이다.

도 2는 본 발명의 실시예에 따른 자연 언어 문법을 위한 컴파일 프로세스(compilation process)의 간략한 블록도이다.

도 3은 본 발명의 실시예에 따른 자연 언어 시스템의 입력 컴포넌트를 도시하는 간략한 블록도이다.

도 4는 본 발명의 실시예에 따른 강하게 유형화된 문법을 프로그래밍하기 위한 프로세스의 간략한 흐름도이다.

도 5는 본 발명의 실시예에 따른 강하게 유형화된 문법을 사용하여 자연 언어 프로그램을 프로그래밍하기 위한 컴파일 프로세스의 간략한 흐름도이다.

도 6은 본 발명의 실시예에 따른 자연 언어 상태 기계(state machine) 및 중간 언어(intermediate language) 코드를 컴파일하도록 구성된 컴파일러 시스템의 간략한 블록도이다.

도 7은 본 발명의 실시예에 따른 문법을 인스턴스화하기 위한 요소들을 도시하는 간략한 블록도이다.

도 1은 본 발명의 실시예들이 구현될 수 있는 적합한 컴퓨팅 시스템 환 경(100)의 일례를 도시하고 있다. 컴퓨팅 시스템 환경(100)은 적합한 컴퓨팅 환경의 일례에 불과하며, 본 발명의 용도 또는 기능성의 범위에 관해 어떤 제한을 암시하고자 하는 것이 아니다. 컴퓨팅 환경(100)이 예시적인 운영 환경(100)에 도시된 컴포넌트들 중 임의의 하나 또는 그 컴포넌트들의 임의의 조합과 관련하여 어떤 의존성 또는 요구사항을 갖는 것으로 해석되어서는 안된다.

본 발명은 많은 기타 범용 또는 특수 목적의 컴퓨팅 시스템 환경 또는 구성에서 동작할 수 있다. 본 발명에서 사용하는 데 적합할 수 있는 잘 알려진 컴퓨팅 시스템, 환경 및/또는 구성의 예로는 퍼스널 컴퓨터, 서버 컴퓨터, 핸드-헬드 또는 랩톱 장치, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 셋톱 박스, 프로그램가능한 가전제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 전화 시스템, 상기 시스템들이나 장치들 중 임의의 것을 포함하는 분산 컴퓨팅 환경, 기타 등등이 있지만 이에 제한되는 것은 아니다.

본 발명은 일반적으로 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 실행가능 명령어와 관련하여 기술될 것이다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 객체, 컴포넌트, 데이터 구조 등을 포함한다. 본 발명은 또한 통신 네트워크를 통해 연결되어 있는 원격 처리 장치들에 의해 태스크가 수행되는 분산 컴퓨팅 환경에서 실시될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 비롯한 로컬 및 원격 컴퓨터 저장 매체 둘 다에 위치할 수 있다.

도 1과 관련하여, 본 발명의 실시예를 구현하기 위한 예시적인 시스템은 컴 퓨터(110) 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트들은 처리 장치(120), 시스템 메모리(130), 및 시스템 메모리를 비롯한 각종 시스템 컴포넌트들을 처리 장치(120)에 연결시키는 시스템 버스(121)를 포함하지만 이에 제한되는 것은 아니다. 시스템 버스(121)는 메모리 버스 또는 메모리 컨트롤러, 주변 장치 버스 및 각종 버스 아키텍처 중 임의의 것을 이용하는 로컬 버스를 비롯한 몇몇 유형의 버스 구조 중 어느 것이라도 될 수 있다. 예로서, 이러한 아키텍처는 ISA(industry standard architecture) 버스, MCA(micro channel architecture) 버스, EISA(Enhanced ISA) 버스, VESA(video electronics standard association) 로컬 버스, 그리고 메자닌 버스(mezzanine bus)로도 알려진 PCI(peripheral component interconnect) 버스 등을 포함하지만 이에 제한되는 것은 아니다.

컴퓨터(110)는 통상적으로 각종 컴퓨터 판독가능 매체를 포함한다. 컴퓨터(110)에 의해 액세스 가능한 매체는 그 어떤 것이든지 컴퓨터 판독가능 매체가 될 수 있고, 이러한 컴퓨터 판독가능 매체는 휘발성 및 비휘발성 매체, 이동식 및 비이동식 매체를 포함한다. 예로서, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함하지만 이에 제한되는 것은 아니다. "컴퓨터 저장 매체"라는 말은 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보를 저장하는 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 이동식 및 비이동식 매체를 포함하도록 의도된다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광 디스크 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또 는 기타 자기 저장 장치, 또는 컴퓨터(110)에 의해 액세스되고 원하는 정보를 저장할 수 있는 임의의 기타 매체를 포함하지만 이에 제한되는 것은 아니다. 통신 매체는 통상적으로 반송파(carrier wave) 또는 기타 전송 메커니즘(transport mechanism)과 같은 피변조 데이터 신호(modulated data signal)에 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터 등을 구현하고 모든 정보 전달 매체를 포함한다. "피변조 데이터 신호"라는 용어는, 신호 내에 정보를 인코딩하도록 그 신호의 특성들 중 하나 이상을 설정 또는 변경시킨 신호를 의미한다. 예로서, 통신 매체는 유선 네트워크 또는 직접 배선 접속(direct-wired connection)과 같은 유선 매체, 그리고 음향, RF, 적외선, 기타 무선 매체와 같은 무선 매체를 포함한다. 상술된 매체들의 모든 조합이 또한 컴퓨터 판독가능 매체의 영역 안에 포함되는 것으로 한다.

시스템 메모리(130)는 판독 전용 메모리(ROM)(131) 및 랜덤 액세스 메모리(RAM)(132)와 같은 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터 저장 매체를 포함한다. 시동 중과 같은 때에, 컴퓨터(110) 내의 구성요소들 사이의 정보 전송을 돕는 기본 루틴을 포함하는 기본 입/출력 시스템(BIOS)(133)은 통상적으로 ROM(131)에 저장되어 있다. RAM(132)은 통상적으로 처리 장치(120)가 즉시 액세스 할 수 있고 및/또는 현재 동작시키고 있는 데이터 및/또는 프로그램 모듈을 포함한다. 예로서, 도 1은 운영 체제(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136) 및 프로그램 데이터(137)를 도시하고 있지만 이에 제한되는 것은 아니다.

컴퓨터(110)는 또한 기타 이동식/비이동식, 휘발성/비휘발성 컴퓨터 저장 매체를 포함한다. 단지 예로서, 도 1은 비이동식·비휘발성 자기 매체에 기록을 하거나 그로부터 판독을 하는 하드 디스크 드라이브(141), 이동식·비휘발성 자기 디스크(152)에 기록을 하거나 그로부터 판독을 하는 자기 디스크 드라이브(151), CD-ROM 또는 기타 광 매체 등의 이동식·비휘발성 광 디스크(156)에 기록을 하거나 그로부터 판독을 하는 광 디스크 드라이브(155)를 포함한다. 예시적인 운영 환경에서 사용될 수 있는 기타 이동식/비이동식, 휘발성/비휘발성 컴퓨터 저장 매체로는 자기 테이프 카세트, 플래시 메모리 카드, DVD, 디지털 비디오 테이프, 고상(solid state) RAM, 고상 ROM 등이 있지만 이에 제한되는 것은 아니다. 하드 디스크 드라이브(141)는 통상적으로 인터페이스(140)와 같은 비이동식 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광 디스크 드라이브(155)는 통상적으로 인터페이스(150)와 같은 이동식 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.

위에서 설명되고 도 1에 도시된 드라이브들 및 이들과 관련된 컴퓨터 저장 매체는, 컴퓨터(110)를 위해, 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 및 기타 데이터를 저장한다. 도 1에서, 예를 들어, 하드 디스크 드라이브(141)는 운영 체제(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146), 및 프로그램 데이터(147)를 저장하는 것으로 도시되어 있다. 여기서 주의할 점은 이들 컴포넌트가 운영 체제(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)와 동일하거나 그와 다를 수 있다는 것이다. 이 에 관해, 운영 체제(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146) 및 프로그램 데이터(147)에 다른 번호가 부여되어 있다는 것은 적어도 이들이 다른 사본(copy)이라는 것을 나타내기 위한 것이다.

사용자는 키보드(162), 마이크(163) 및 마우스, 트랙볼(trackball) 또는 터치 패드와 같은 포인팅 장치(161) 등의 입력 장치를 통해 명령 및 정보를 컴퓨터(110)에 입력할 수 있다. 다른 입력 장치(도시되지 않음)로는 조이스틱, 게임 패드, 위성 안테나, 스캐너 등을 포함할 수 있다. 이들 및 기타 입력 장치는 종종 시스템 버스에 결합된 사용자 입력 인터페이스(160)를 통해 처리 장치(120)에 접속되지만, 병렬 포트, 게임 포트 또는 USB(universal serial bus) 등의 다른 인터페이스 및 버스 구조에 의해 접속될 수도 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치도 비디오 인터페이스(190) 등의 인터페이스를 통해 시스템 버스(121)에 접속될 수 있다. 모니터 외에, 컴퓨터는 스피커(197) 및 프린터(196) 등의 기타 주변 출력 장치를 포함할 수 있고, 이들은 출력 주변장치 인터페이스(195)를 통해 접속될 수 있다.

컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 사용하여 네트워크화된 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 또 하나의 퍼스널 컴퓨터, 핸드-헬드 장치, 서버, 라우터, 네트워크 PC, 피어 장치 또는 기타 통상의 네트워크 노드일 수 있고, 통상적으로 컴퓨터(110)와 관련하여 상술된 구성요소들의 대부분 또는 그 전부를 포함한다. 도 1에 도시된 논리적 접속으로는 LAN(171) 및 WAN(173)이 있지만, 기타 네트워크를 포함할 수도 있다. 이 러한 네트워킹 환경은 사무실, 전사적 컴퓨터 네트워크(enterprise-wide computer network), 인트라넷, 및 인터넷에서 일반적인 것이다.

LAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 통상적으로 인터넷과 같은 WAN(173)을 통해 통신을 설정하기 위한 모뎀(172) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 기타 적절한 메커니즘을 통해 시스템 버스(121)에 접속될 수 있다. 네트워크화된 환경에서, 컴퓨터(110) 또는 그의 일부와 관련하여 기술된 프로그램 모듈은 원격 메모리 저장 장치에 저장될 수 있다. 예로서, 도 1은 원격 애플리케이션 프로그램(185)이 원격 컴퓨터(180)에 있는 것으로 도시하고 있지만 이에 제한되는 것은 아니다. 도시된 네트워크 접속은 예시적인 것이며 이 컴퓨터들 사이에 통신 링크를 설정하는 기타 수단이 사용될 수 있다는 것을 이해할 것이다.

한 실시예에서, 음성 인식 문법 및 결과는 데이터 유형(객체 지향 어법(object-oriented parlance)의 "클래스"와 같은)으로 나타난다. 전통적인 자연 언어 프로그래밍 애플리케이션이 문법을 텍스트 문자열 또는 이진 데이터(binary data) 구조로 표현하는 반면, 강하게 유형화된 문법은 대신 자연 언어 기능을 수행하도록 사용될 수 있다. 일반적으로, "강하게 유형화된(strongly typed)"이라는 말은 언어 또는 문법이 어떻게 데이터 유형들을 다루는가를 나타낸다. 여기에 사용된 바, 강하게 유형화된 문법 또는 언어는 모든 유형이 컴파일 시에 검사될 수 있는 것을 말한다.

일반적으로, 애플리케이션 개발자들은 음성 인식기에 단어 및 규칙들을 첨가하기 위해 일련의 API(application program interface) 호출을 함으로써, 또는 텍스트 파일(예를 들어,확장성 생성 언어(eXtensible Markup Language) 또는 XML 파일 형식)을 작성함으로써 문법을 정의한다. 이러한 한 형식은 월드 와이드 웹 컨소시엄(World Wide Web Consortium, W3C)의 SRGS(Speech Recognition Grammar Specification)이다. 텍스트 파일은 하위(underlying) 음성 인식기에 의해 상태 기계로 컴파일되는 문법을 통상적으로 포함한다.

도 2는 컴파일 프로세스의 다른 단계들 중에 있는 강하게 유형화된 문법의 실시예의 요소(200)들의 간략한 블록도이다. 요소(200)는 문법 요소 및 시맨틱 코드(202) 및 소스 코드 파일(204)을 포함한다. 문법 요소 및 시맨틱 코드(202)는 음성 인식 문법을 표현하기 위한 유형의 집합(또는 "클래스")을 정의하고 결과적으로 데이터 유형으로 나타난다. 소스 코드 파일(204)은 특정 애플리케이션에 자연 언어 입력을 프로세싱하기 위한 절차의 집합을 정의한다. 문법 요소 및 시맨틱 코드(202)는, 예를 들어, SRGS 문법을 포함할 수 있다. 소스 코드 파일(204)은, 예를 들어, 하나 이상의 C# 소스 코드 파일을 포함할 수 있다.

시맨틱 정보는 특정 실시예에 따라, 소스 코드 파일(204) 또는 문법 요소 및 시맨틱 코드(202) 중 하나에서 코딩될 수 있다. 컴파일 중에, 만약 시맨틱 정보가 문법 요소 및 시맨틱 코드(202)에서 코딩되면, 문법 컴파일러는 파일을 문법 요소(206)와 시맨틱 코드(208)로 분리한다. 다음, 소스 코드 파일(204)은 중간 언어 코드(214)를 생성하기 위해 컴파일러에 로드되고 시맨틱 코드(208)와 결합된다. 문법 요소들은 상태 기계(212)로 컴파일된다. 중간 언어 코드(214)와 상태 기계(212)는, 예를 들어, 음성 인식기에 사용될 수 있는 이진 파일일 수 있다.

문법 요소(206)(들어야 하는 단어들의 시퀀스)를 시맨틱 코드(208)(단어들의 의미에 대한 규칙)로부터 분리함으로써, 이진 파일이 간소화되어 상태 기계(212)가 모든 가능한 변환 또는 순열(permutation)을 포함하고, 중간 언어 코드(214)가 시맨틱 프로세싱 정보를 포함한다.

일반적으로, 문법 컴파일러는 컴파일형 문법(compiled form grammar, CFG) 또는 클래스 라이브러리를 생성할 수 있다. 일반적으로, CFG 파일은 상태 기계(212), 중간 언어 코드(214), 및 임의의 디버깅(debugging) 정보를 포함한다. 일반적으로, CFG 파일은, 예를 들어, 시맨틱 값의 사전의 결과들의 캐스팅을 요구한다.

클래스 라이브러리는 중간 언어 코드(214)와 상태 기계(212)를 포함하는 강하게 유형화된 문법을 나타낸다. 디버깅 정보는 별개의 파일에 저장될 수 있다(도시되지 않음). 클래스 라이브러리는 다른 문화들을 위한 문법의 모든 언어적 번역을 동일한 파일에 저장하는 것을 가능하게 한다. 이것은 음성 애플리케이션 개발자가 그가 사용하는 문법의 구어(spoken language)에 대한 지식을 가져야 할 필요를 제거한다. 예를 들어, 음성 애플리케이션 개발자는 스페인어에 대한 어떠한 지식 없이도 영어와 스페인어 모두를 위해 코딩할 수 있다. 더 나아가, 문법 내에 정의된 유형들은 음성 애플리케이션에 공유될 수 있으며, 결과는 문법 객체에 필드 와 속성으로 반환된다.

이 예에서, 강하게 유형화된 문법들은 안티 바이러스 필터, 이메일 필터 및 그와 유사한 것들에 잘 알려진 파일 유형인 동적 링크 라이브러리(dynamic link library, dll)에 패키지되어 있다. 강하게 유형화된 문법이 DLL에 패키지되어 있으면, .NET 시맨틱 코드와 같은 애플리케이션 코드는 음성 애플리케이션이 액세스할 수 있는 모든 자원을 액세스할 수 있다.

이 예에서, 개발자는 일반적인 문법에 대한 조금의 지식과 그들이 사용하는 특정 문법의 기본 원리에 대한 아무런 지식 없이 자연 언어 애플리케이션을 프로그램할 수 있다. 더 나아가, 개발자는 입력 문자열을 조작하거나 출력 문자열을 분석하기보다는 네이티브 데이터 유형으로서 문법과 상호작용한다.

한 실시예에서, 속성들은 태그를 사용하여 생성된다. 예를 들어, 연중의 달(month of the year)과 관련된 속성은 다음과 같이 코딩될 수 있다:

<item>February<tag>"month"=2</tag></item>.

이 코드 스니펫(snippet)은 정수 값 2를 항목 February의 태그와 관련시킨다. 따라서, 사용자가 풀다운 리스트(pull-down list)에서 항목 "February"를 선택하면, 예를 들어, 속성 "2"는 태그 "month"에 지정된다.

속성(property)들은 강하게 유형화된 복합 객체를 생성하기 위해 결합될 수 있다. 예를 들어, 중간 결과로부터 DateTime 객체가 반환될 수 있다. 예를 들어:

return(newDateTime ( result["year"], result["month"], result["day"]).

객체 및 속성들은 최종 결과를 구축하기 위해 부모 규칙(parent rule)에 기 반하여 재결합될 수 있다. 일반적으로, 강하게 유형화된 복합 객체들은 시맨틱 프로세싱 중에 구축되고 음성 애플리케이션에 반환된다.

위의 논의는 주로 자연 언어 애플리케이션의 작성에 의해 수행되는 시맨틱 규칙의 프로세싱(생성)에 초점이 맞춰져 있다. 소스 코드는 문법 컴파일 프로세스의 일부로서 컴파일되고 검사된다. 대부분의 코딩 오류들이 이 단계에서 발견될 수 있으며, 오류의 정확한 위치가 식별될 수 있다. 더 나아가, 디버깅 정보가 저장될 수 있고, 중단점(breakpoint)이 소스 파일에 직접 설정될 수 있고, 임의의 변수의 내용이 관찰될 수 있고, VS.net, Rascal, 및 이와 유사한 것을 포함한 어떤 임의의 디버거(debugger)가 사용될 수 있다.

도 3은 자연 언어 애플리케이션을 위한 설계시에서의 자연 언어 시스템(300)의 실시예를 도시하는 간략한 블록도이다. 시스템(300)은 클라이언트 입력 장치(302)에 연결된 자연 언어 인식 컴포넌트(302) 및 해석 컴포넌트(306)를 포함한다. 클라이언트 입력 장치(304)는 마이크, 펜-기반(pen-based) 입력 장치, 키보드 및 마우스, 또는 다른 임의의 입력 메커니즘일 수 있다. 일반적으로, 자연 언어 인식 컴포넌트(302)는 사용자로부터 자연 언어 입력을 캡처(capture)하고, 추후의 프로세싱에 사용될 수 있는 형태로 입력을 번역한다. 자연 언어 인식 컴포넌트(302)는 문법 마크업 언어(grammar markup language)(XML, SRGS, 및 이와 유사한 것 등)로 기술된 강하게 유형화된 문법(308)을 사용한다. 자연 언어 인식 컴포넌트(302)는 음성 인식 컴포넌트(312A), 필기(hand-writing) 인식 컴포넌트(312B), 키보드 및 마우스 컴포넌트(312C), 기타 입력(312D), 및 시스템 생성 입력(312E)을 포함할 수 있다. 자연 언어 음성 인식기(302)의 각 인식 컴포넌트(312A-312D)는 강하게 유형화된 문법 내에 정의된 유형에 기반하여 텍스트를 태그(또는 범주화)하기 위해 강하게 유형화된 문법(308)을 사용하여 자연 언어 입력을 텍스트로 변환한다.

다음, 태그된 또는 범주화된 단어들은 해석 컴포넌트(306)에 보내진다. 더 구체적으로, 각 인식 컴포넌트(312A-312D)는 자신의 범주화된 단어들을 각각의 해석 컴포넌트(314A-314D)에 보낸다. 각 해석 컴포넌트(314A-314D)는 각각의 인식 컴포넌트(302, 312A-312D)의 태그된 사용자 입력에 기반하여, 사용자에 의해 의도된 "의미" 또는 "시맨틱"을 식별하기 위해 시맨틱 코드(310)를 사용한다. 이 시점에서, 클라이언트 장치(304)로부터의 입력 데이터는 시맨틱 코드(310) 내에 정의된 규칙에 기반하여 강하게 유형화된 문법(308) 내에 정의된 유형으로 매핑된다. 해석 컴포넌트(306)는 시맨틱 결과들(316)의 집합(텍스트-대-유형(text-to-type) 매핑)을 통합(integration) 컴포넌트(320)에 제공한다. 통합 컴포넌트(320)는 클라이언트 장치(304)에 의해 사용될 수 있는 유형들을 시맨틱 결과(316)의 집합에서 선택하기 위해, 시맨틱 결과의 집합을 스키마 또는 기타 시스템 생성 입력(312)에 대하여 프로세싱하도록 구성된 프로세서(322)를 포함한다. 따라서, 클라이언트 장치(304)의 클라이언트 애플리케이션 내에 정의된 자연 언어 특징들에 매핑되지 않는 유형 매핑(type mapping)들은 폐기되고 적절한 매핑이 통합 출력(integrated output) 내로 결합될 수 있다. 다음, 통합 출력은 클라이언트 애플리케이션이 사용하도록 클라이언트 장치(304)로 반환된다. 한 실시예에서, 통합 출력은 자연 언 어 입력을 나타내는, 관련된 필드 및 속성을 가진 하나 이상의 문법 객체를 포함한다.

강하게 유형화된 문법을 사용함으로써, 컴파일 시에 더 많은 오류를 찾는 것, 계승(inheritance)과 캡슐화(encapsulation)를 통한 재이용, 구현 상세(implementation detail)의 추상화, 및 이와 유사한 것과 같은 유형-기반 시스템의 이점들이 자연 언어 프로그래밍을 위해 개발자에게 가능해진다. 이것은 개발자가 네이티브 데이터 유형으로서 문법과 상호작용할 수 있도록 한다. 문법을 사용하기 위해, 개발자는 단지 문법 유형을 선언(declare) 및 인스턴스화하고, 유형이 노출하는 어떠한 속성을 설정하고, 음성 인식기로 인스턴스화된 유형을 보내기만 하면 된다. 개발자는 문법 파일을 관리할 필요가 없다. 대신, 개발자에 의해 조정가능한 모든 설정은 유형의 외적 인터페이스의 일부로서 보여질 수 있다. 더 나아가, 강하게 유형화된 문법은 생성자 오버로드(constructor overload), 노출된 속성, 및 그와 유사한 것 등과 같이 표준 프로그래밍 기술을 통해 개발자가 런타임시에 문법을 매개변수화(parameterize)할 수 있도록 한다. 매개변수의 집합으로 문법을 인스턴스화하는 것은 단일 단문으로 이루어질 수 있다. 바꾸어 말하면, 문법은 런타임시에 런타임 매개변수의 집합에 기반하여, 온 더 플라이(on the fly) 방식으로 매개변수화되고 재구축될 수 있다. 추가적으로, 강하게 유형화된 문법의 사용은 개발자가 다양한 언어들의 구조를 정의하는 규칙 및 기본 원리를 배우지 않고서도 다중-언어 문법을 생성할 수 있도록 한다. 따라서, 음성 애플리케이션 개발자는 한 언어에 대해 코딩할 수 있고(예를 들어, 영어), 투명하게, 동일한 코드 는 다른 언어(예를 들어, 스페인어)를 위한 동일한 문법의 변경들에 대해서도 효과가 있다.

강하게 유형화된 문법(308) 내에 정의된 태그 또는 범주들은 인식된 입력을 표시하거나 또는 다른 방법으로 레이블(label)하기 위해 인식기(302)에 사용될 수 있다. 이 표시 또는 레이블된 입력들은 시맨틱 결과의 집합(316)을 생성하기 위해서 해석 컴포넌트(306)에 의해 개발자 정의 시맨틱 코드(310)에 대하여 프로세싱될 수 있다. 우선적으로, 시맨틱 결과의 집합(316)은 클라이언트 장치(304)의 운영자에 의해 의도된 입력에 대응된다. 통합된 출력은 사용자에 의해 의도된 동작을 수행하도록 클라이언트 장치(304)에 사용될 수 있다.

도 4는 강하게 유형화된 문법을 프로그래밍하기 위한 프로세스의 실시예의 간략한 흐름도이다. 개발자는 문법 객체를 정의하는 속성을 태그 요소에 생성한다(단계 400). 선택적으로, 속성들은 강하게 유형화된 복합 객체를 생성하기 위해 결합될 수 있다(단계 402). 선택적으로, 강하게 유형화된 복합 객체들은 최종 결과를 구축하기 위해 부모 규칙에 따라 재결합될 수 있다(단계 404). 소스 코드는 문법 컴파일러를 사용하여 컴파일된다(단계 406). 문법은 문법 컴파일 프로세스의 일부로서 검사된다(단계 408). 마지막으로, 디버그 정보는 중간 언어 코드 출력과 함께 저장된다(단계 410).

도 5는 강하게 유형화된 문법을 사용하여 자연 언어 프로그램을 프로그래밍하기 위한 컴파일 프로세스의 실시예의 간략한 흐름도이다. 문법은 시맨틱 코드(단계 500)와 함께 하나 이상의 전용 소스 코드 파일 및/또는 문법 파일에 정의된 다. 컴파일러는 시맨틱 코드로부터 문법을 분리한다(단계 502). 문법 및 관련된 시맨틱 코드는 컴파일된다(단계 504). 문법 컴파일러는 각 공용 문법 규칙(public grammar rule)을 위한 클래스를 자동으로 생성한다(단계 506). 문법 컴파일러는 문법에 기반한 상태 기계를 생성한다(단계 508). 최종적으로, 문법 컴파일러는 문법 파일 및/또는 하나 이상의 전용 소스 코드 파일 내의 코드에 기반하여, 컴파일된 중간 언어 코드를 생성한다(단계 510).

도 6은 자연 언어 상태 기계 및 중간 언어 코드를 컴파일하도록 구성된 컴파일러 시스템(600)의 실시예의 간략한 블록도이다. 시스템(600)은 문법 컴파일러(604) 및 코드 컴파일러(606)로 구성된 컴파일러(602)를 포함한다. 문법 컴파일러(604)는 문법 및 시맨틱 코드 모두를 포함할 수 있는 소스 문법 파일(608)을 수신하기 위해 구성된다. 문법 컴파일러(604)는 문법 코드로부터 시맨틱 코드를 분리하고 문법 코드를 상태 기계(612)로 컴파일하기 위해 구성된다. 문법 컴파일러(604)는 분리된 시맨틱 코드를 코드 컴파일러(606)에 제공한다.

코드 컴파일러(606)는 하나 이상의 소스 코드 파일(610) 및 분리된 시맨틱 코드를 문법 컴파일러(604)로부터 수신하기 위해 구성된다. 코드 컴파일러(606)는 하나 이상의 소스 코드 파일(610)을 분리된 시맨틱 코드와 함께, 디버그 정보를 포함할 수 있는 중간 언어 코드(614)로 컴파일하기 위해 구성된다. 몇몇 경우에서, 디버그 정보(616)는 개별 파일에 저장될 수 있다.

강하게 유형화된 문법은 개발자가 다른 문법으로부터 기존 문법을 참조할 수 있도록 한다. 개발자로 하여금 문법을 유형으로 인스턴스화할 수 있도록 함으로 써, 개발자들은 집계(aggretation) 및 서브 클래스(subclass)와 같은 표준 객체 지향 프로그래밍 기술 또는 방법을 사용하여 기존 문법을 즉시 재이용하고 확장할 수 있다.

전통적인 기술들이 텍스트 파일에 기반하여 날짜 범위에 제한하거나 날짜를 인식하기 위한 간단한 방법을 제공하지 못하지만, 강하게 유형화된 문법은 생성자 오버로드 또는 노출된 속성과 같이 런타임시에 표준 프로그래밍 기술을 통해 매개변수를 받아들일 수 있도록 하는 방식으로 구현될 수 있다. 이로써 문법은 단일 단문으로 매개변수의 집합에 의해 인스턴스화될 수 있다. 이것은 개발자가, 예를 들어, 날짜 범위를 제한할 수 있도록 한다.

도 7은 문법을 인스턴스화하기 위한 시스템(700)의 실시예의 간략한 블록도이다. 시스템(700)은 문법(702) 및 애플리케이션 코드(708)를 포함한다. 문법(702)은 우선적으로, 강하게 유형화된 유형의 집합(704)으로 구성된다. 문법(702)은 또한 하나 이상의 생성자를 포함할 수 있는 시맨틱 코드(706)를 포함할 수 있다. 애플리케이션 코드(708)는 매개변수(718)를 사용하여 생성자(714)를 호출한다. 생성자(714)는 매개변수의 집합(718)에 기반한 문법 컴파일러(716)를 이용하여 자신의 상태 기계를 재구축한다.

문법 컴파일러(716)는 애플리케이션 코드(708)로부터 호출된 매개변수(718)에 기반하여 문법(702)을 컴파일하도록 구성된다. 유형의 집합(704)의 특정 유형들의 인스턴스는 생성자(714) 또는 애플리케이션 코드(708) 내의 다른 코드에 기반하여 매개변수(718)와 함께 인스턴스화될 수 있다. 매개변수(718)는 특정 인스턴 스 생성(instantiation)에 구체적인 요구 사항을 설정할 수 있다. 더 나아가, 결과적인 인스턴스화된 문법(선택적으로 매개변수와 함께)(720)은 유형이 나타내는 속성을 포함한다. 다음, 인스턴스화된 문법(720)은 음성 인식기(722)로 보내질 수 있다. 음성 인식기(722)는 자연 언어 입력(724)을 수신하고, 매핑된 객체(726)를 생성하기 위해 자연 언어 입력(724)을 인스턴스화된 문법(720) 내의 인스턴스화된 유형으로 매핑하도록 구성된다.

개발자는 문법(702)을 관리할 필요가 없다. 대신, 개발자에 의해 조정가능한 모든 설정은 유형의 외적 인터페이스의 일부로서 보여질 수 있으며, 예를 들어, 생성자(714)를 통해 액세스 가능하다. 이러한 강하게 유형화된 문법은 개발자가 생성자 오버로드(constructor overload), 노출된 속성, 및 그와 유사한 것 등과 같이, 표준 프로그래밍 기술을 통해 런타임시에 문법을 매개변수화 할 수 있도록 한다. 뿐만 아니라, 인스턴스화된 유형들은 유형의 집합의 베이스 유형으로부터 속성들을 계승할 수 있다. 따라서, 본 발명의 실시예들은 익숙한 객체 지향 유형의 집합(704) 또는 자연 언어 애플리케이션을 프로그래밍하기 위한 클래스를 제공하며, 그렇게 함으로써 개발자가 문법의 기본 원리보다는 프로그램 특징에 집중할 수 있도록 한다.

본 발명이 특정 실시예들을 참조하여 설명되었지만, 본 기술 분야의 숙련된 자들은 본 발명의 정신 및 범위를 벗어나지 않으면서 형태 및 세부사항들에 대한 변경이 이루어질 수 있다는 것을 인식할 것이다.

Claims

자연 언어 사용가능한 애플리케이션으로의 자연 언어 입력을 해석하기 위한 시스템으로서,

데이터 유형의 집합 및 상기 데이터 유형의 집합에 대한 규칙을 정의하는 시맨틱(semantic) 코드를 포함하는 문법,

상기 데이터 유형의 집합 중 선택된 데이터 유형들을 인스턴스화함으로써 상기 문법을 액세스하도록 구성된 컴퓨터 판독가능 코드를 포함하는 소스 파일, 및

자연 언어 입력을 수신하고 상기 자연 언어 입력을 상기 선택된 데이터 유형으로 매핑하도록 구성된 음성 인식기

를 포함하는 시스템.
제1항에 있어서,

상기 문법을 수신하고 상기 시맨틱 코드로부터 상기 데이터 유형의 집합을 분리하도록 구성되고, 상기 문법으로부터 출력을 생성하도록 구성된 문법 컴파일러를 더 포함하는 시스템.
제2항에 있어서,

상기 출력은 상태 기계(state machine)를 포함하는 시스템.
제1항에 있어서,

상기 선택된 데이터 유형들은 런타임시에 매개변수와 함께 인스턴스화되는 시스템.
제1항에 있어서,

상기 소스 코드 및 상기 소스 파일을 수신하고 상기 소스 코드 및 상기 소스 파일을 중간 언어 코드로 컴파일하도록 구성된 코드 컴파일러를 더 포함하는 시스템.
제5항에 있어서,

상기 중간 언어 코드는 컴퓨터 판독가능 코드 및 관련된 디버그 정보를 포함하는 시스템.
자연 언어 입력 인식을 위한 시스템으로서,

자연 언어 입력을 수신하도록 구성된 입력 장치,

자연 언어 입력의 요소들을 나타내는 유형의 집합을 정의하는 강하게 유형화된 문법(strongly typed grammar),

상기 강하게 유형화된 문법을 사용하여 상기 자연 언어 입력을 텍스트로 변환하고, 상기 텍스트에 기반하여 인식 출력을 생성하도록 구성된 인식 컴포넌트, 및

상기 인식 출력에 기반하여 자연 언어 입력의 시맨틱을 식별하도록 구성된 해석 컴포넌트

를 포함하는 시스템.
제7항에 있어서,

상기 문법 내에서의 유형의 의미를 정의하는 시맨틱 코드를 더 포함하는 시스템.
제8항에 있어서,

상기 해석 컴포넌트는 상기 문법에 기반하여 상기 자연 언어 입력의 시맨틱을 식별하기 위해 상기 시맨틱 코드를 사용하는 시스템.
제7항에 있어서,

상기 인식 컴포넌트는 상기 자연 언어 입력을 상기 문법 내에 특정된 텍스트로 변환하도록 구성된 시스템.
제7항에 있어서,

상기 해석 컴포넌트는 하나 이상의 해석 컴포넌트를 포함하고, 각 해석 컴포넌트는 상기 자연 언어 입력의 가능한 해석을 생성하도록 구성되며,

상기 시스템은,

상기 하나 이상의 해석 컴포넌트에 의해 생성된 자연 언어 입력의 하나 이상의 가능한 해석 각각을 통합하도록 구성된 통합 컴포넌트를 더 포함하는 시스템.
제7항에 있어서,

상기 자연 언어 입력은 음성을 포함하는 시스템.
제7항에 있어서,

상기 자연 언어 입력은 필기(hand-writing)를 포함하는 시스템.
제7항에 있어서,

상기 강하게 유형화된 문법을 포함하는 문법 파일 및 하나 이상의 전용 소스 코드 파일 내에 정의된 애플리케이션 코드를 더 포함하는 시스템.
자연 언어 애플리케이션을 위해 문법을 액세스하기 위한 방법으로서,

하나 이상의 문법을 제공하는 단계 - 각 문법은 자연 언어를 나타내는 유형의 집합을 포함함 -,

자연 언어 입력에 작용하기 위한 프로세스를 하나 이상의 소스 코드 파일 내에 정의하는 단계, 및

런타임시에, 상기 유형의 집합 중 선택된 유형을 상기 하나 이상의 문법으로부터 인스턴스화하는 단계 - 상기 선택된 유형은 자연 언어 입력에 대응됨 -,

를 포함하는 방법.
제15항에 있어서,

상기 인스턴스화하는 단계는, 상기 선택된 유형의 적어도 하나의 인스턴스화된 유형에 매개변수를 설정하는 단계를 더 포함하는 방법.
제15항에 있어서,

상기 인스턴스화하는 단계는, 문법 컴파일러를 사용하여 상기 하나 이상의 문법 내에 각각의 공용 문법 규칙(public grammar rule)을 위한 하나의 클래스를 생성하는 단계를 더 포함하는 방법.
제15항에 있어서,

각 문법은 상기 유형의 집합과 관련된 시맨틱 코드를 더 포함하는 방법.
제15항에 있어서,

상기 선택된 유형들은 유형 정의에 기반하여 상기 문법으로부터 속성(property)을 계승하는 방법.
제15항에 있어서,

문법 컴파일러를 사용하여 상기 문법을 상태 기계로 컴파일하는 단계, 및

상기 선택된 유형과 관련된 상기 상태 기계 및 시맨틱 코드를 음성 인식기에 제공하는 단계

를 더 포함하는 방법.