KR100554397B1

KR100554397B1 - 대화형 음성 인식 시스템 및 방법

Info

Publication number: KR100554397B1
Application number: KR1020030018622A
Authority: KR
Inventors: 조승호
Original assignee: 조승호
Priority date: 2003-03-25
Filing date: 2003-03-25
Publication date: 2006-02-22
Also published as: KR20040083919A

Abstract

본 발명은 대화형 음성 인식 시스템 및 방법에 관한 것으로, 본 발명은 메모리에 시나리오 넷(scenario net) 구조의 음성 데이터가 기록되어 있어 사용자의 음성 명령에 따라 시나리오 넷 번호를 검출하고 상기 검출된 시나리오 넷 번호에 의해 상기 메모리에 기록된 음성 데이터를 독출하며 상기 독출된 음성 데이터를 가청 주파수로 변환 출력함으로써, 사용자와 시스템간에 이루어지는 단계적인 질의 및 응답에 의해 사용자가 원하는 음성 데이터를 사용자에게 제공할 수 있어 사용자와 상품간의 인터렉티브(Interactive)한 대화가 가능하다는 데 그 효과가 있다.

음성, 인식, 대화형

Description

대화형 음성 인식 시스템 및 방법{INTERACTIVE VOICE RECOGNITION SYSTEM AND METHOD}

도 1은 본 발명에 따른 대화형 음성 인식 시스템의 일실시예를 도시한 블록도이고,

도 2는 본 발명에 따른 제 1 메모리의 구조도,

도 3은 본 발명에 따라 제 1 메모리에서 음성 데이터를 독출하는 방법을 설명하기 위한 동작 흐름도,

도 4는 본 발명에 따라 하나의 시나리오 넷 번호 정보가 가지고 있는 내용을 도시한 테이블,

도 5는 본 발명에 따른 대화형 음성 인식 시스템을 시계에 적용할 경우 제 1 메모리에 기록되는 시나리오 넷의 구성도,

도 6은 본 발명에 따른 대화형 음성 인식 방법의 일실시예를 도시한 흐름도,

도 7은 본 발명에 따라 수동 조작수단의 정보를 갖는 제 1 메모리의 구조도,

도 8은 본 발명에 따른 수동 조작수단의 조작에 따라 시나리오 넷을 검색하기 위한 동작 흐름도이다.

*도면의 주요부분에 대한 부호설명*

10 : 제 1 메모리(ROM) 20 : 제 2 메모리(RAM)

30 : 음성 입력수단 40 : 음성 처리수단

50 : 음성 출력수단 60 : 수동 조작수단

70 : 디스플레이 구동수단 80 : 메커니즘 구동수단

31 : 레벨 조정부 32 : A/D 컨버터

41 : 음성 인식부 42 : 음성 신장부

43 : 음성 압축부 44 : 스위칭부

45 : 제어부 51 : D/A 컨버터

52 : 전력 증폭부

본 발명은 대화형 음성 인식 시스템 및 방법에 관한 것으로, 보다 상세하게는 메모리에 해당 상품별 일정 시나리오를 구성하여 사용자와 시스템간에 이루어지는 단계적인 질의 및 응답에 의해 사용자가 원하는 음성 데이터를 사용자에게 제공할 수 있어 사용자와 상품간의 인터렉티브한 대화가 가능도록 하는 대화형 음성 인식 시스템 및 방법에 관한 것이다.

현재, 음성 인식 시스템은 컴퓨터 기반의 소프트웨어 형태로 많은 연구개발이 이루어지고 있으며, 기존의 제한적인 단어 인식 위주에서 연속어 인식 및 음성 합성으로의 기술 발전이 계속적으로 이루어지고 있는 추세에 있다.

그러나, 종래의 컴퓨터 기반의 음성 인식 시스템은 비싼 컴퓨터라는 하드웨 어를 필요로 하고 있기 때문에, 가격 면이나 크기 면에서 볼 때 산업 전반적인 분야 또는 실생활 제품에 적용하기에는 매우 한정적이라는 문제점이 있었다.

또한, 종래의 컴퓨터 기반의 음성 인식 시스템은 현재 활발한 연구 개발 투자 및 제품화에 의해 단어 위주의 인식에서 문장 단위의 인식까지 가능하게 되었으나, 음성 인식 시스템을 칩(chip)화한 기술은 음성 훈련에 의한 단어인식 수준에 머무르고 있다.

종래의 음성 인식 시스템을 칩화한 기술을 살펴보면, 수십 단어의 인식 수준 범위 내에서 사용자의 음성 명령 패턴을 기록하였다가, 사용자가 음성 명령을 했을 때 미리 기록해 둔 사용자의 음성 명령 패턴과 일치하는지의 여부를 확인한 후 일치했을 때에만 음성 명령에 따라 응답하거나 또는 동작하도록 되어 있다.

따라서 종래의 음성 인식 시스템은 화자 종속형으로서 일상 생활에 사용해야 하는 제품이 편리해야 한다는 상업적 조건을 충족시키지 못하며, 사용자의 음성 패턴에 민감하다는 문제점이 있었다.

본 발명은 상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 예상되는 사용자의 질문에 대응되는 음성 데이터를 일정한 시나리오 형태로 메모리에 기록하였다가 사용자의 음성 명령에 따라 메모리에서 해당 음성 데이터를 독출하여 사용자에게 제공하도록 하는 음성 인식 시스템 및 그 제어방법을 제공함에 있다.

이에 따라 본 발명의 목적은, 메모리에 시나리오 넷 구조의 음성 데이터가 기록되어 있어, 사용자의 음성 명령에 따라 시나리오 넷 번호를 검출하고, 상기 검 출된 시나리오 넷 번호에 의해 상기 메모리에 기록된 음성 데이터를 독출하며, 상기 독출된 음성 데이터를 가청 주파수로 변환 출력함으로써 달성된다.

또한 본 발명의 목적은, 외부로부터 입력된 사용자 음성 신호를 인식하여, 음성 신호를 기록할 것인가 아니면 음성 데이터를 재생할 것인가를 결정하는 제 10 단계; 상기 제 10 단계에서 음성 신호 기록이 결정되었으면, 외부로부터 입력된 사용자 음성 신호를 제 2 메모리에 기록하는 제 20 단계; 상기 제 10 단계에서 음성 신호 재생이 결정되었으면, 시나리오 넷 번호를 검출하여 상기 검출된 시나리오 넷 번호에 의해 제 1 메모리에 시나리오 넷 구조로 기록된 음성 데이터를 독출하여 가청주파수로 변환 출력하거나 또는 제 2 메모리에 기록된 음성 데이터를 독출하여 가청주파수로 변환 출력하는 제 30 단계로 이루어짐으로써 달성된다.

이하, 첨부한 도면들을 참조하여 본 발명의 바람직한 실시예를 상세히 기술하기로 한다.

도 1은 본 발명에 따른 대화형 음성 인식 시스템의 일실시예를 도시한 블록도이다.

도 1에 도시된 바와 같이 본 발명은, 시나리오 넷 구조로 기록된 음성 데이터를 독출하기 위한 제 1 메모리(10); 사용자의 의도에 의해 입력되는 음성 데이터를 기록하거나 또는 독출하기 위한 제 2 메모리(20); 마이크를 통해 입력된 사용자의 음성 신호를 디지탈 변환하여 출력하는 음성 입력수단(30); 상기 음성 입력수단(30)으로부터 입력된 음성 신호를 인식하여, 인식 결과 기록명령이면 상기 음성 입력수단(30)으로부터 입력된 음성 신호를 상기 제 2 메모리(20)에 기록하고, 인식 결과 재생명령이면 시나리오 넷 번호를 검출하여 상기 검출된 시나리오 넷 번호에 의해 상기 제 1 메모리(10)에 기록된 음성 데이터를 독출하거나 또는 상기 제 2 메모리(20)에 기록된 음성 데이터를 독출하는 음성 처리수단(40); 상기 음성 처리수단(40)으로부터 독출된 음성 데이터를 아날로그 변환하여 스피커를 통해 출력하는 음성 출력수단(50)으로 구성된다.

여기서 상기 제 1 메모리(10)는, 예상되는 사용자의 질의에 대응되는 적어도 하나 이상의 음성 데이터가 일정한 시나리오 넷 구조로 이미 기록되어 있어, 사용자와 시스템간에 이루어지는 단계적인 질의 및 응답에 의해 사용자가 원하는 음성 데이터가 독출된다.

또한 상기 제 2 메모리(20)는, 사용자의 기록명령에 의해 적어도 하나 이상의 메시지 정보 또는 스케줄 정보가 기록되며, 사용자의 재생명령에 의해 해당 메시지 정보 또는 스케줄 정보가 독출된다.

상기 제 2 메모리(20)는, 사용자의 음성 신호를 인식하기 위한 음성인식용 연산 정보가 이미 기록되어 있으며, 음성 인식 및 처리에 필요한 연산 공간이 마련되어 있다.

물론 상기 제 2 메모리(20)의 음성 데이터 기록 영역은, 시스템이 다운되는 경우에도 음성 데이터가 삭제되지 않도록 구동 전원이 공급되어야 한다.

상기 제 2 메모리(20)는 써큘러 버퍼(Circular Buffer)를 포함하고 있어, 프레임 단위로 디지털 변환된 음성 샘플링 신호를 일시적으로 기록한다.

상기 제 1 메모리(10)는 롬(ROM)으로, 상기 제 2 메모리(20)는 램(RAM)으로 구현할 수 있다.

또한 상기 음성 입력수단(30)은, 마이크를 통해 입력된 아날로그 음성 신호의 크기를 소정 레벨로 조정하여 출력하는 레벨 조정부(31); 상기 레벨 조정부(31)로부터 입력된 아날로그 음성 신호를 입력받아 디지털 음성 신호로 변환하여 출력하는 A/D 컨버터(32)로 구성된다.

또한 상기 음성 처리수단(40)은, 음성인식용 연산 정보에 의해 상기 음성 입력수단(30)으로부터 입력된 음성 신호를 인식하여 인식 정보를 출력하는 음성 인식부(41); 상기 제 1 메모리(10) 또는 상기 제 2 메모리(20)로부터 독출된 음성 데이터를 소정의 데이터 신장 방식에 따라 신장하는 음성 신장부(42); 상기 음성 입력수단(30)으로부터 입력된 음성 신호를 소정 데이터 압축 방식에 따라 압축하여 상기 제 2 메모리(20)에 기록하는 음성 압축부(43); 노말(normal) 상태에서 상기 음성 입력수단(30)으로부터 출력된 음성 신호를 상기 음성 인식부(41)로 입력시키다가 스위칭 제어신호가 입력되면 상기 음성 입력수단(30)으로부터 출력된 음성 신호를 상기 음성 압축부(43)에 입력시키는 스위칭부(44); 상기 음성 인식부(41)로부터 입력된 인식 정보에 의해 기록명령인가 또는 재생명령인가를 판단하여, 기록명령이면 상기 스위칭부(44)에 스위칭 제어신호를 출력하여 상기 음성 입력수단(30)으로부터 출력된 음성 데이터를 상기 음성 압축부(43)로 입력시키도록 제어하고, 재생명령이면 시나리오 넷 번호를 검출하여 상기 검출된 시나리오 넷 번호에 의해 상기 제 1 메모리(10)에 기록된 음성 데이터를 상기 음성 신장부(42)로 출력하도록 제어 하거나 또는 상기 제 2 메모리(20)에 기록된 음성 데이터를 상기 음성 신장부(42)로 출력하도록 제어하는 제어부(45)로 구성된다.

여기서 상기 음성 인식부(41)는 HMM(Hidden Markove Model)을 이용한 비터비 알고리즘을 사용하여 음성 신호를 음소 단위로 인식함으로써, 사용자의 음성 신호 패턴이 달라진다거나 또는 연속어 문장 형태의 음성 신호가 입력되더라도 핵심적인 단어만을 인식할 수 있다.

또한 상기 음성 출력수단(50)은, 상기 음성 처리수단(40)으로부터 입력된 디지털 음성 데이터를 아날로그 음성 신호로 변환하여 출력하는 D/A 컨버터(51); 상기 D/A 컨버터(51)로부터 입력된 아날로그 음성 신호를 전력 증폭하여 스피커를 통해 출력하는 전력 증폭부(52)로 구성된다.

또한 본 발명은 사용자의 조작에 따라 스위칭 신호를 출력하는 수동 조작수단(60)을 더 포함하고 있고, 상기 제 1 메모리(10)는 상기 수동 조작수단(60)를 통해 입력되는 스위칭 신호의 입력 횟수에 대한 정보와 상기 입력 횟수에 대응하는 음성 데이터를 더 포함하고 있어, 상기 음성 처리수단(40)은 상기 수동 조작수단(60)으로부터 입력된 스위칭 신호의 입력 횟수에 따라 상기 제 1 메모리(10)에 기록된 음성 데이터를 독출한다.

또한 본 발명은 상기 음성 처리수단(40)의 제어에 따라 상기 제 1 메모리(10) 또는 상기 제 2 메모리(20)로부터 독출된 음성 데이터를 문자 메시지 또는 영상 이미지로 변환하여 화면에 표시하기 위한 디스플레이 구동수단(70)을 더 포함한다.

또한 상기 음성 처리수단(40)의 제어에 따라 상기 제 1 메모리(10) 또는 상기 제 2 메모리(20)로부터 독출된 음성 데이터에 의해 해당 메커니즘을 구동시키는 메커니즘 구동수단(80)을 더 포함한다.

도 2는 본 발명에 따른 제 1 메모리의 구조도이다.

상기 제 1 메모리(10)의 구조는 도 2에 도시된 바와 같이, 메인 어드레스(Main Address) 영역(11)과, 서브 어드레스(Sub-Address) 영역(12) 및 실제 정보(Real Information) 영역(13)으로 구분된다.

상기 메인 어드레스 영역(11)과 상기 서브 어드레스 영역(12)은 통합될 수도 있다.

여기서 상기 메인 어드레스 영역(11)은 음성인식용 정보, 압축신장용 정보, 시나리오 넷 번호 정보, 시나리오 음성 데이터 정보, 인식처리 제어용 정보, 기타 음성 데이터 정보, 기타정보 등의 영역으로 세분화된다.

상기 음성인식용 정보는 음성 인식에 필요한 파라미터 값들의 정보를 대표하는 서브 어드레스의 첫 번째 어드레스를 지정한다.

상기 압축 신장용 정보는 압축신장에 필요한 파라미터 값들의 정보를 대표하는 서브 어드레스의 첫 번째 어드레스를 지정한다.

상기 시나리오 넷 번호 정보는 실제 각 상품에 해당하는 시나리오 넷을 구성하여 만들어지는데, 상기 시나리오 넷은 해당 상품과 관련된 영역에서 사용자와 음성 인식 시스템이 인터렉티브하게 대화할 수 있도록 구성된 것이다.

각각의 시나리오 넷 번호 정보에는 자체 인식할 것인가 아니면 고정 응답을 할것인가 아니면 응답을 한 후 다음 시나리오로 넘어갈 것인가 등의 모든 정보가 포함된다.

상기 시나리오 음성 데이터 정보는 시나리오 넷 번호에 대한 실제 음성 데이터를 의미한다.

상기 기타 음성 데이터 정보는 고정 응답이나 상기 제어부(45)에서 처리된 값들을 응답해야할 때 사용되는 음성 데이터 정보이다.

상기 기타정보는 상기 수동 조작수단(60)에 의해 추가되는 시나리오 정보를 의미한다.

이렇게 메인 어드레스(11)는 각각 서브 어드레스 단의 첫 번째 어드레스를 지정하며, 서브 어드레스(12)는 서로 다른 개수들의 실제 어드레스단 첫 번째 어드레스를 지정한다.

즉, 시나리오 넷 번호 정보의 개수가 N 개라면 서브 어드레스 단의 시나리오 넷 번호 정보의 개수도 N 개다. 그리고 시나리오 넷 번호 a의 실제 정보의 첫 번째 어드레스가 서브 어드레스의 시나리오 넷 번호 정보 a 번째에 있다.

이와 같이 제 1 메모리(10)를 구성함으로써, 메모리 사용의 효율성을 높인다.

상기 실제 정보 영역(13)은 적어도 하나 이상의 음성인식용 정보의 실제 데이터, 적어도 하나 이상의 압축 신장용 정보의 실제 데이터, 적어도 하나 이상의 기타 정보의 실제 데이터 등 서브 어드레스(12)가 지정하는 영역에 대한 실제 데이터를 가지고 있다.

상기 음성 압축 데이터는 각각 길이가 다른 가변장이기 때문에 실제 데이터의 첫 번째 어드레스에 길이 정보를 기록하고 그 다음부터 실제 음성 데이터를 기록하여, 메모리 사용의 효율성을 높였다.

이때 상기 실제 데이터는 웨이브 파일(wave file) 형태로 기록된다.

도 3은 본 발명에 따라 제 1 메모리에서 음성 데이터를 독출하는 방법을 설명하기 위한 동작 흐름도이다.

상기 제어부(45)는 도 3에 도시된 바와 같이, 사용자로부터 음성 명령이 입력되는 경우 또는 수동 조작수단(60)를 통해 상기 음성 명령에 대응되는 스위칭 신호가 입력된 경우, 먼저 메인 어드레스 영역을 검색하고(S51), 메인 어드레스 영역을 검색한 결과를 이용하여 서브 어드레스 영역을 검색하고(S52), 상기 서브 어드레스 영역을 검색한 결과를 이용하여 실제 어드레스 영역을 검색하며(S53), 상기 실제 어드레스 영역을 검색한 결과를 이용하여 실제 데이터를 추출한다(S54).

즉, 메인 어드레스에서 정보의 종류에 따라 서브 어드레스단 첫 번째 어드레스를 검색하고, 상기 서브 어드레스단의 몇 번째인가에 따라 실제 알고자 하는 데이터의 첫 번째 어드레스를 검색한다.

도 4는 본 발명에 따라 하나의 시나리오 넷 번호 정보가 가지고 있는 내용을 도시한 테이블이다.

하나의 시나리오 넷 번호 정보에는 도 4에 도시된 바와 같이, 고정 데이터용 정보, 인식용 정보, 도메인 번호 정보, 다음 시나리오 넷 번호 정보, 인식용 패턴 개수 정보 및 시나리오 넷 번호 정보가 들어 있다.

상기 고정 데이터용 정보에는 시나리오 넷 번호의 고정 응답 정보 즉, 제어부(45)에 있는 알고리즘에 의해 얻어지는 결과를 가지고 응답하는 정보가 들어 있다.

상기 인식용 정보에는 인식된 처리 결과 정보를 가지고 있으며, 상기 도메인 번호 정보는 음성 인식부(41)에서 인식해야 할 대상의 도메인 번호 정보를 가지고 있으며, 상기 패턴 개수 정보는 각 인식 대상의 패턴 개수 정보를 가지고 있다.

또한 상기 도메인 번호 정보에 순수 시나리오 응답용 정보도 같이 들어갈 수 있다.

상기 시나리오 넷 번호 정보에는 다음 시나리오가 전개되는 시나리오 넷 번호를 다수개 가지고 있어 랜덤(random)하게 처리할 수 있도록 하여 단순한 구성을 회피한다.

마지막으로 상기 인식용 패턴 정보 및 시나리오 넷 번호 정보는 패턴 개수 만큼 갖게 되므로, 패턴이나 음성 인식 방식에 따라서 단어로 또는 문장으로 이루어지는 사전(Dictionary) 정보까지 제공하여 인식된 단어 및 문장을 판단하는 데 필요로 하는 정보를 갖는다.

이와 같은 모든 시나리오 정보와 시스템 제어처리 정보는 제 1 메모리(10)에 구성되어 있다.

도 5는 본 발명에 따른 대화형 음성 인식 시스템을 시계에 적용할 경우 제 1 메모리(10)에 기록되는 시나리오 넷의 구성도이다.

도 5에 도시된 바와 같이 본 발명에 따른 대화형 음성 인식 시스템은, 시스 템 전원이 온되면 소개 응답을 한 후 N 가지 기능에 대한 음성 명령이 입력될 때까지 대기 상태를 유지한다.

이때 각 기능의 사용자 명령에 대한 응답이 이미 시나리오로 구성되어 있고, 각기 시나리오 넷 번호를 갖고 있으며, 이 개개의 모든 정보는 제 1 메모리(10)에 기록되어 있다.

도 5에 도시된 바와 같이 본 발명에 따른 음성 인식 시스템은 하나의 사용자 음성 명령에 대해 한번의 응답만으로 끝나는 것이 아니라, 상기 복수의 응답 시나리오가 상호(cross) 유기적으로 결합되어 있어, 사용자와 시스템이 대화형식으로 질의와 응답을 반복함으로써, 사용자가 원하는 음성 정보를 제공할 수 있다.

예컨대, 사용자가 "메시지 기록"이라는 음성 명령을 입력하면 본 발명에 따른 시스템은 "어떤 메시지를 기록할 것입니까"라는 음성 응답을 출력하고, 이에 따라 사용자가 다시 "기상시간"이라는 음성 명령을 입력하면 시스템은 "기록을 시작하십시요"라는 음성 응답을 출력하고, 이에 따라 사용자가 다시 "00시 00분"이라는 음성 명령을 입력하면 시스템은 이를 제 2 메모리(20)에 기록한 후 "기록이 완료되었습니다"라는 음성 응답을 출력한다.

또한, 사용자가 "메시지 독출"이라는 음성 명령을 입력하면 본 발명에 따른 시스템은 "어떤 메시지를 독출할 것입니까"라는 음성 응답을 출력하고, 이에 따라 사용자가 다시 "기상시간"이라는 음성 명령을 입력하면 시스템은 제 2 메모리(20)에서 해당 음성 데이터를 독출하여 "00시 00분"라는 음성 응답을 출력한다.

또한, 사용자가 "시간" 이라는 음성 명령을 입력하면 본 발명에 따른 시스템 은 "어떤 도시의 시간을 알고 싶습니까"라는 음성 응답을 출력하고, 이에 따라 사용자가 다시 "뉴욕"이라는 음성 명령을 입력하면 시스템은 "현재 뉴욕 시간은 "00시 00분입니다"라는 음성 응답을 출력한다.

또한, 미인식(fail)으로 처리되는 경우와 소정 시간동안 음성이 들어오지 않으면 시스템이 강제로 처리되는 타임 아웃(time-out) 시나리오를 구비하고 있어, 사용자의 음성 명령에 대해 끊어짐이 없이 부드럽게 진행시킬 수 있다.

이어서 상기와 같이 구성된 본 발명에 따른 대화형 음성 인식 시스템의 동작을 도 1을 참조하여 살펴보면 다음과 같다.

먼저, 사용자에 의해 시스템 전원이 온되면, 제어부(45)는 제 1 메모리(10)에 기록되어 있는 음성 인식 시스템의 사용방법에 대한 음성 데이터를 읽어들여 음성 신장부(42)로 출력한다.

상기 음성 신장부(42)는 상기 제 1 메모리(10)로부터 입력된 음성 데이터를 소정의 데이터 신장 방식에 따라 신장하여 D/A 컨버터(51)로 출력한다.

이에 따라 상기 D/A 컨버터(51)는 상기 음성 신장부(42)로부터 입력된 디지털 음성 데이터를 아날로그 음성 신호로 변환하여 전력 증폭부(52)로 출력하고, 상기 전력 증폭부(52)는 상기 D/A 컨버터(51)로부터 입력된 아날로그 음성 신호를 전력 증폭하여 스피커를 통해 출력함으로써, 사용자에게 소정 시간 동안 기본적인 사용법을 알려주면서 기동 준비를 한다.

상기와 같이 사용법을 숙지한 사용자는 원하는 정보를 얻기 위해 음성 명령을 입력한다.

이에 따라 사용자의 음성 명령이 마이크를 통해 음성 입력수단(30)에 입력되면, 먼저 레벨 조정부(31)는 마이크를 통해 입력된 아날로그 음성 신호의 크기를 소정 레벨로 조정하여 A/D 컨버터(32)로 출력한다.

상기 A/D 컨버터(32)는 상기 레벨 조정부(31)로부터 입력된 아날로그 음성 신호를 입력받아 디지털 음성 신호로 변환하여 음성 처리수단(40)으로 출력한다

상기 음성 처리수단(40)은 상기 A/D 컨버터(32)로부터 입력된 음성 신호를 인식하여, 인식 결과 기록명령이면 상기 A/D 컨버터(32)로부터 입력된 음성 신호를 상기 제 2 메모리(20)에 기록하고, 인식 결과 재생명령이면 시나리오 넷 번호를 검출하여 상기 검출된 시나리오 넷 번호에 의해 상기 제 1 메모리(10)에 기록된 음성 데이터를 독출하거나 또는 상기 제 2 메모리(20)에 기록된 음성 데이터를 독출한다.

상기 음성 처리부(40)의 동작을 좀더 자세히 살펴보면 다음과 같다.

먼저 음성 인식부(41)는, 상기 제 2 메모리(20)에서 기록된 음성인식용 연산 정보를 이용하여 상기 A/D 컨버터(32)로부터 입력된 음성 신호를 인식하여 인식 정보를 출력한다.

예컨대 본 발명에 따른 음성 인식 시스템이 시계에 적용될 경우, 사용자가 " 시간" 또는 "몇 시야" 또는 "지금 몇 시죠" 또는 "현재 몇 시입니까" 라는 각기 다른 연속어 문장 형태의 음성 명령을 입력하더라도, 본 발명에 따른 음성 인식 시스템은 HMM(Hidden Markove Model)을 이용한 비터비 알고리즘에 의해 핵심적인 단어 "시간"만을 인식하여 "현재 시간은 00시 00분입니다"라는 음성 신호를 사용자에게 제공한다.

상기 HMM(Hidden Markove Model)을 이용하여 음성을 인식하기 위해서는 상기 제어부(45)에서 수많은 계산을 하게 되는데, 이때에 필요한 상수는 제 2 메모리(20)에 기록되어 있어 필요할 때마다 상기 제어부(45)의 제어에 의해 독출된다.

상기 제어부(45)는 필요한 값을 계산하고 기록하였다가 독출하는 작업을 위해서 제 2 메모리(20)를 사용하는데, 그 데이터의 계산이 방대하기 때문에, 메모리 관리 유니트를 따로 마련하여 음성 인식에 필요한 데이터를 관리하는 기능을 전담시킨다.

이에 따라 상기 제어부(45)는 상기 음성 인식부(41)로부터 입력된 인식 정보가 기록명령인가 또는 재생명령인가를 판단하여, 판단결과 기록명령이면 상기 스위칭부(44)에 스위칭 제어신호를 출력하여 상기 A/D 컨버터(32)로부터 출력된 음성 데이터를 상기 음성 압축부(43)로 입력시키도록 제어하고, 판단결과 재생명령이면 시나리오 넷 번호를 검출하여 상기 검출된 시나리오 넷 번호에 의해 상기 제 1 메모리(10)에 기록된 음성 데이터를 상기 음성 신장부(42)로 출력하도록 제어하거나 또는 상기 제 2 메모리(20)에 기록된 음성 데이터를 상기 음성 신장부(42)로 출력 하도록 제어한다.

이에 따라, 음성 명령이 기록명령이면 상기 음성 압축부(43)는 상기 제어부(45)의 제어에 의해 상기 A/D 컨버터(32)로부터 출력된 음성 데이터를 스위칭부(44)를 통해 입력받아 소정 음성 압축 방식에 따라 음성 압축한다.

상기 제어부(45)는 압축된 음성 신호를 제 2 메모리(10)의 소정 어드레스에 기록한다.

한편, 판단결과 재생명령이면 제어부(45)는 상기 제 1 메모리(10)에 기록되어 있는 시나리오 넷 번호를 검출하고, 검출된 시나리오 넷 번호를 이용하여 실제 데이터를 상기 제 1 메모리(10) 또는 상기 제 2 메모리(20)로부터 읽어들이고, 상기 읽어들인 데이터가 실제 데이터가 아닌 각기 다른 복수의 음성 신호로 이루어진 경우, 상기 제어부(45)는 상기 복수의 음성 신호 중 어느 음성 신호에 대응하여 사용자의 음성 명령이 입력되는지를 판단하여, 그에 해당 실제 데이터를 상기 제 1 메모리(10) 또는 상기 제 2 메모리(20)로부터 읽어들여 상기 음성 신장부(42)로 출력한다.

이에 따라 상기 제어부(45)의 제어에 의해 상기 음성 신장부(42)는 상기 제 1 메모리(10) 또는 상기 제 2 메모리(20)에 기록된 음성 데이터를 입력받아 소정 음성 신장 방식에 따라 신장한 후 음성 출력수단(50)으로 출력한다.

상기 음성 신장부(42)로부터 신장된 음성 데이터는 D/A 컨버터(51)에서 아날로그 음성 신호로 변환되어 전력 증폭부(52)로 출력되고, 상기 전력 증폭부(51)는 상기 D/A 컨버터(51)로부터 입력된 아날로그 음성 신호를 전력 증폭하여 스피커를 통해 출력한다.

이때, 상기 제어부(45)는 상기 시나리오 넷 번호 정보에 의해 다음 시나리오 넷 번호가 존재하는가를 판단하여, 다음 시나리오 넷 번호가 존재하지 않으면 종료하고, 다음 시나리오 넷 번호가 존재하면 다음 시나리오 넷 번호를 검색하여 상기 과정들을 반복 수행함으로써, 사용자와 시스템간에 이루어지는 단계적인 질의 및 응답에 의해 사용자가 원하는 음성 데이터를 사용자에게 제공할 수 있어 사용자와 상품간의 인터렉티브한 대화가 가능하다.

이어서 상기와 같이 구성된 본 발명에 따른 대화형 음성 인식 방법의 흐름을 도 6을 참조하여 살펴보면 다음과 같다.

도 6은 본 발명에 따른 대화형 음성 인식 방법의 일실시예를 도시한 흐름도이다.

먼저, 상기 제어부(45)는 제 10 단계(S10)에서 외부로부터 입력된 사용자 음성 신호를 인식하여, 음성 신호를 기록할 것인가 아니면 음성 데이터를 재생할 것인가를 결정한다.

즉, 사용자에 의해 시스템 전원이 온되면, 상기 제어부(45)는 제 11 단계(S11)에서 초기 시나리오의 넷 번호를 검색한다.

이에 따라 제 12 단계(S12)에서 외부로부터 사용자의 음성 명령을 입력받으면, 상기 제어부(45)는 제 13 단계(S13)에서 상기 검색된 시나리오 넷 번호에 의해 시나리오 넷 번호 정보를 검색하여 상기 검색된 시나리오 넷 번호 정보에 의해 외부로부터 입력된 음성 신호를 인식할 것인가 아니면 기록할 것인가 아니면 제 1 메 모리(10) 또는 제 2 메모리(20)에 기록된 음성 데이터를 재생할 것인가를 결정한다.

상기 제 13 단계(S13)에서 음성 신호 인식이 결정되면, 상기 제어부(45)는 제 14 단계(S14)에서 상기 시나리오 넷 번호 정보에 의해 인식 도메인(Domain) 번호를 검색하고, 제 15 단계(S15)에서 상기 검색된 도메인 번호를 이용하여 외부로부터 입력된 음성 신호를 인식한 후, 제 16 단계(S16)에서 상기 인식 결과를 시나리오 넷 번호 정보 영역에 존재하는 인식용 패턴 정보로 처리한 다음, 제 17 단계(S17)에서 상기 처리된 인식 결과에 의해 다음 과정의 시나리오 넷 번호를 검색한 후 상기 제 13 단계(S13)로 복귀한다.

한편, 상기 제 10 단계(S10)에서 음성 신호 기록이 결정되면 상기 제어부(45)는 제 20 단계(S20)에서 외부로부터 입력된 사용자 음성 신호를 제 2 메모리(20)에 기록한다.

즉, 상기 제 13 단계(S13)에서 음성 신호 기록이 결정되면 상기 제어부(45)는 제 21 단계(S21)에서 외부로부터 입력된 사용자 음성 신호를 소정의 데이터 압축 방식에 따라 압축시킨 후, 제 22 단계(S22)에서 상기 압축된 음성 데이터를 제 2 메모리(20)에 기록한 다음, 제 23 단계(S23)에서 상기 시나리오 넷 번호 정보에 의해 다음 시나리오 넷 번호를 검색한 후 상기 제 13 단계(S13)로 복귀한다.

한편, 상기 제 10 단계(S10)에서 시나리오 재생이 결정되면 상기 제어부(45)는 제 30 단계(S30)에서 시나리오 넷 번호를 검출하여 상기 검출된 시나리오 넷 번호에 의해 상기 제 1 메모리(10)에 시나리오 넷 구조로 기록된 음성 데이터를 독출 하여 가청 주파수로 변환 출력하거나 또는 상기 제 2 메모리(20)에 기록된 음성 데이터를 독출하여 가청 주파수로 변환 출력한다.

즉, 상기 제 13 단계(S13)에서 음성 데이터 재생이 결정되면 상기 제어부(45)는 제 31 단계(S31)에서 상기 시나리오 넷 번호 정보에 의해 상기 제 1 메모리(10)에 기록된 음성 데이터를 독출하거나 또는 상기 제 2 메모리(20)에 기록된 음성 데이터를 독출한 후, 제 32 단계(S32)에서 상기 독출된 음성 데이터를 소정의 데이터 신장 방식에 따라 신장시켜 가청 주파수로 변환 출력한 다음, 제 33 단계(S33)에서 상기 시나리오 넷 번호 정보에 의해 다음 시나리오 넷 번호가 존재하는가를 판단하여, 제 34 단계(S34)에서 판단된 결과 다음 시나리오 넷 번호가 존재하면 다음 시나리오 넷 번호를 검색하여 상기 제 12 단계(S12)로 복귀하고, 다음 시나리오 넷 번호가 존재하지 않으면 종료한다.

즉, 상기 제어부(45)는 상기 시나리오 넷 번호 정보에 의해 다음 시나리오 넷 번호가 존재하는가를 판단하여, 다음 시나리오 넷 번호가 존재하지 않으면 종료하고, 다음 시나리오 넷 번호가 존재하면 다음 시나리오 넷 번호를 검색하여 상기 과정들을 반복 수행함으로써, 사용자와 시스템간에 이루어지는 단계적인 질의 및 응답에 의해 사용자가 원하는 음성 데이터를 사용자에게 제공할 수 있어 사용자와 상품간의 인터렉티브한 대화가 가능하다.

예컨데, 본 발명에 따른 대화형 음성 인식 방법을 도 5 및 도 6을 참조하여 자세히 살펴보면 다음과 같다.

먼저, 사용자에 의해 시스템 전원이 온되면, 상기 제어부(45)는 제 11 단계(S11)에서 초기 시나리오의 넷 번호(N0)를 검색한다.

이에 따라 제 12 단계(S12)에서 사용자의 "메시지 기록"이라는 음성 신호가 입력되면, 상기 제어부(45)는 제 13 단계(S13)에서 상기 검색된 초기 시나리오 넷 번호(N0)에 의해 초기 시나리오 넷 번호 정보(N0_data)를 검색하고 상기 검색된 시나리오 넷 번호 정보(N0_data)에 의해 음성 신호의 인식을 결정한다.

상기 제어부(45)는 제 14 단계(S14)에서 상기 초기 시나리오 넷 번호 정보(N0_data)에 의해 인식 도메인(Domain) 번호를 검색하고, 제 15 단계(S15)에서 상기 검색된 도메인 번호를 이용하여 외부로부터 입력된 음성 신호를 인식한 후, 제 16 단계(S16)에서 상기 인식 결과를 시나리오 넷 번호 정보 영역에 존재하는 인식용 패턴 정보로 처리한 다음, 제 17 단계(S17)에서 상기 처리된 인식 결과에 의해 다음 시나리오 넷 번호(N1)를 검색한 후 상기 제 13 단계(S13)로 복귀한다.

이에 따라 상기 제어부(45)는 제 2 메모리(20)의 소정 위치에 메시지 기록 공간을 확보하는 한편, 제 13 단계(S13)에서 상기 시나리오 넷 번호(N1)에 의해 시나리오 넷 번호 정보(N1_data)를 검색하고 상기 검색된 시나리오 넷 번호 정보(N1_data)에 의해 음성 데이터의 재생을 결정한다.

이에 따라 상기 제어부(45)는 제 31 단계(S31)에서 상기 시나리오 넷 번호 정보(N1_data)에 의해 상기 제 1 메모리(10)의 소정 영역에서 "메시지 기록 시작"을 알리는 음성 데이터를 독출하고, 제 32 단계(S32)에서 상기 독출된 음성 데이터를 소정의 데이터 신장 방식에 따라 신장시켜 가청 주파수로 변환 출력한 다음, 제 33 단계(S33)에서 상기 시나리오 넷 번호 정보(N1_data)에 의해 다음 시나리오 넷 번호(N2)가 존재하는가를 판단하여, 다음 시나리오 넷 번호(N2)가 존재하면 제 34 단계(S34)에서 다음 시나리오 넷 번호(N2)를 검색하여 제 12 단계(S12)로 복귀한다.

이에 따라, 사용자가 "메시지 기록 시작"이라는 응답 음성에 맞추어 기록할 메시지 음성을 입력한다.

이에 따라 제 12 단계(S12)에서 사용자의 메시지 정보가 입력되면, 상기 제어부(45)는 제 13 단계(S13)에서 상기 시나리오 넷 번호(N2)에 의해 시나리오 넷 번호 정보(N2_data)를 검색하고 상기 검색된 시나리오 넷 번호 정보(N2_data)에 의해 음성 신호의 인식을 결정한다.

상기 제어부(45)는 제 14 단계(S14)에서 상기 시나리오 넷 번호 정보(N2_data)에 의해 인식 도메인(Domain) 번호를 검색하고, 제 15 단계(S15)에서 상기 검색된 도메인 번호를 이용하여 외부로부터 입력된 음성 신호를 인식한 후, 제 16 단계(S16)에서 상기 인식 결과를 시나리오 넷 번호 정보 영역에 존재하는 인식용 패턴 정보로 처리한 다음, 제 17 단계(S17)에서 상기 처리된 인식 결과에 의해 다음 시나리오 넷 번호(N3)를 검색한 후 상기 제 13 단계(S13)로 복귀한다.

이에 따라 상기 제어부(45)는 제 13 단계(S13)에서 상기 시나리오 넷 번호(N3)에 의해 시나리오 넷 번호 정보(N3_data)를 검색하고 상기 시나리오 넷 번호 정보(N3_data)에 의해 음성 데이터의 기록을 결정한다.

이에 따라 상기 제어부(45)는 제 21 단계(S21)에서 외부로부터 입력된 메시지 정보를 소정의 데이터 압축 방식에 따라 압축시킨 후, 제 22 단계(S22)에서 상 기 압축된 음성 데이터를 상기 제 2 메모리(20)의 이미 확보된 영역에 기록한 다음, 제 23 단계(S23)에서 상기 시나리오 넷 번호 정보(N3_data)에 의해 다음 시나리오 넷 번호(N4)를 검색한 후 상기 제 13 단계(S13)로 복귀한다.

상기 제어부(45)는 제 13 단계(S13)에서 상기 시나리오 넷 번호(N4)에 의해 시나리오 넷 번호 정보(N4_data)를 검색하고 상기 검색된 시나리오 넷 번호 정보(N4_data)에 의해 음성 데이터의 재생을 결정한다.

이에 따라 상기 제어부(45)는 제 31 단계(S31)에서 상기 시나리오 넷 번호 정보(N4_data)에 의해 상기 제 1 메모리(10)의 소정 영역에서 "메시지 기록 완료"를 알리는 음성 데이터를 독출하고, 제 32 단계(S32)에서 상기 독출된 음성 데이터를 소정의 데이터 신장 방식에 따라 신장시켜 가청 주파수로 변환 출력한 다음, 제 33 단계(S33)에서 상기 시나리오 넷 번호 정보(N4_data)에 의해 다음 시나리오 넷 번호(N5)가 존재하는가를 판단하여 다음 시나리오 넷 번호(N5)가 존재하지 않으면 시스템을 종료시킨다.

또한, 본 발명에 따른 음성 인식 시스템은 도 1에 도시된 바와 같이 사용자의 조작에 따라 스위칭 신호를 출력하는 수동 조작수단(60)을 포함하고 있고, 상기 제 1 메모리(10)는 상기 수동 조작수단(60)를 통해 입력되는 스위칭 신호의 입력 횟수에 대한 정보와 상기 입력 횟수에 대응하는 음성 데이터를 포함하고 있다.

이에 따라 상기 음성 처리수단(40)은 상기 수동 조작수단(60)으로부터 입력된 스위칭 신호의 입력 횟수에 따라 상기 제 1 메모리(10)에 기록된 음성 데이터를 독출한다.

상기 수동 조작수단(60)는 메인 스위치 및 복수의 서브 스위치로 이루어지거나, 또는 메인 스위치와 리셋 스위치로 이루어져 있으며, 사용자에 의해 적어도 하나 이상의 스위치가 조작되어 사용자의 음성 명령에 대응하는 스위칭신호를 출력한다.

도 7은 본 발명에 따라 수동 조작수단의 정보를 갖는 제 1 메모리의 구조도이고, 도 8은 본 발명에 따른 수동 조작수단의 조작에 따라 시나리오 넷을 검색하기 위한 동작 흐름도이다.

도 7에 도시된 바와 같이 제 1 메모리(10)의 기타 정보 영역은, 수동 조작수단(60)에 의해 추가되는 시나리오 정보를 부가적으로 가질 수 있다.

즉, 상기 메인 어드레스(11)의 기타 영역은 수동 조작수단(60)의 조작에 대응하는 음성 데이터를 가지며, 상기 서브 어드레스 영역(12)은 상기의 수동 조작수단(60)로부터 입력되는 스위칭 신호 입력 횟수에 따른 해당 시나리오 넷 번호가 기록되어 있는 영역의 어드레스 정보를 가지며, 상기 실제 정보 영역(13)은 상기 수동 조작수단(60)에 대응하는 적어도 하나 이상의 시나리오 넷 번호가 기록되어 있는 영역들로 세분화된다.

따라서 본 발명은 스위치의 누른 횟수에 따라 기능 번지수를 가리키게 되므로, 시나리오 전개 개수만큼의 스위치가 존재한다.

즉, 본 발명은 메인 스위치의 누른 횟수에 따라 기능 번지수를 가리키게 하여 특정 기능으로 들어가면 서브 스위치를 눌러 다시 해당 기능 번지수를 가르키는 방식을 이용함으로써, 전개해야 할 시나리오만큼 메인 스위치 및 서브 스위치가 존 재한다.

이에 따라 상기 제어부(45)는 도 8에 도시된 바와 같이, 사용자에 의해 상기 수동 조작수단(60)의 메인 스위치가 몇 번 눌렸는지를 체크하여(S41), 사용자에 의해 메인 스위치가 a번 눌려진 경우, 상기 제 1 메모리(10)의 서브 어드레스 영역의 a번째 영역에 기록되어 있는 데이터를 읽어들이고, 상기 데이터를 이용하여 상기 제 1 메모리(10)의 실제 어드레스 영역에 기록되어 있는 데이터를 읽어들인다(S42).

상기 제 1 메모리(10)의 실제 어드레스 영역으로부터 읽어들인 데이터가 또 다른 응답 데이터를 갖고 있는 경우, 상기 제어부(45)는 상기 사용자에 의해 제 1 서브 스위치가 몇 번 눌렸는지를 체크하여(S43), 상기 사용자에 의해 제 1 서브 스위치가 b번 눌려진 경우 상기 제 1 메모리(10)의 서브 어드레스 영역의 b번째 영역에 기록되어 있는 데이터를 읽어들이고, 상기 데이터를 이용하여 상기 제 1 메모리(10)의 실제 어드레스 영역에 기록되어 있는 데이터를 읽어들인다(S44).

상기 제 1 메모리(10)의 실제 어드레스 영역으로부터 읽어들인 데이터가 또 다른 응답 데이터를 갖고 있는 경우, 상기 제어부(45)는 상기 사용자에 의해 제 2 서브 스위치가 몇 번 눌렸는지를 체크하여(S45), 상기 사용자에 의해 제 1 서브 스위치가 c번 눌려진 경우 상기 제 1 메모리(10)의 서브 어드레스 영역의 c번째 영역에 기록되어 있는 데이터를 읽어들이고, 상기 데이터를 이용하여 상기 제 1 메모리(10)의 실제 어드레스 영역에 기록되어 있는 데이터를 읽어들인다(S46).

이때 상기 실제 어드레스 영역으로부터 읽어들인 데이터가 더 이상의 응답데 이터를 가지고 있지 않는 경우, 스피커를 통해 음성 신호로 출력시킨다.

또한 본 발명에 따른 음성 인식 시스템은 도 1에 도시된 바와 같이 디스플레이 구동수단(70)을 포함하고 있어, 상기 음성 처리수단(40)의 제어에 따라 상기 제 1 메모리(10) 또는 상기 제 2 메모리(20)로부터 독출된 음성 데이터를 문자 메시지 또는 영상 이미지로 변환하여 화면에 표시한다.

즉, 상기 제어부(45)는 제 50 단계(S50)에서 상기 제 1 메모리(10) 또는 상기 제 2 메모리(20)로부터 독출된 음성 데이터에 의해 디스플레이 제어신호를 출력하고, 이에 따라 상기 디스플레이 구동수단(70)은 상기 디스플레이 제어신호에 의해 해당 문자 메시지 또는 영상 이미지를 화면에 표시한다.

또한 본 발명에 따른 음성 인식 시스템은 도 1에 도시된 바와 같이 메커니즘 구동수단(80)을 포함하고 있어, 상기 음성 처리수단(40)의 제어에 따라 상기 제 1 메모리(10) 또는 상기 제 2 메모리(20)로부터 독출된 음성 데이터에 의해 해당 메커니즘을 구동시킨다.

즉, 상기 제어부(45)는 제 60 단계(S60)에서 상기 제 1 메모리(10) 또는 상기 제 2 메모리(20)로부터 독출된 음성 데이터에 의해 메커니즘 제어신호를 출력하고, 이에 따라 메커니즘 구동수단(80)은 상기 메커니즘 제어신호에 의해 해당 메커니즘을 구동시킨다.

상기와 같이 기술한 동작 흐름에 대한 모든 정보가 상기 제 1 메모리(10)에 이미 기록되어 있으므로, 상기 제 1 메모리(10)만을 교체함으로써, 여러 제품에 다양한 기능을 부여할 수 있다.

이상에서 살펴본 바와 같이 본 발명은, 예상되는 사용자 질의에 대응되는 음성 데이터가 미리 시나리오 넷 구조로 메모리에 이미 기록되어 있어, 사용자의 음성 명령에 따라 시나리오 넷 번호를 검출하고, 상기 검출된 시나리오 넷 번호에 의해 상기 메모리에 기록된 음성 데이터를 독출하며, 상기 독출된 음성 데이터를 가청 주파수로 변환 출력함으로써, 사용자와 시스템간에 이루어지는 단계적인 질의 및 응답에 의해 사용자가 원하는 음성 데이터를 사용자에게 제공할 수 있어, 사용자와 상품간의 인터렉티브한 대화가 가능할 뿐만 아니라, 시스템을 처음 사용할 때 사용자가 먼저 기록하는 불편함이 없다는 데 그 효과가 있다.

또한 본 발명은 사용자 기록 명령에 의해 제 2 메모리에 메시지 정보 또는 스케줄 정보를 기록하였다가 사용자 재생명령에 의해 제 2 메모리에서 해당 메시지 정보 또는 스케줄 정보를 독출하여 상기 독출된 음성 데이터를 가청 주파수로 변환 출력함으로써, 개인 비서의 역할을 수행한다는 데 그 효과가 있다.

또한 본 발명은 사용자의 스위치 조작에 따라 메모리에 기록된 해당 음성 데이터를 독출하여 상기 독출된 음성 데이터를 가청 주파수로 변환 출력함으로써, 사용자가 음성 명령을 사용하지 못할 경우 사용자의 스위치 조작에 의해 시스템을 동작시킨다는 데 그 효과가 있다.

또한 본 발명은 디스플레이 구동수단(70)에 의해 상기 제 1 메모리(10) 또는 상기 제 2 메모리(20)로부터 독출된 음성 데이터를 문자 메시지 또는 영상 이미지로 변환하여 화면에 표시한다는 데 그 효과가 있다.

또한 본 발명은 메커니즘 구동수단(80)에 의해 상기 제 1 메모리(10) 또는 상기 제 2 메모리(20)로부터 독출된 음성 데이터에 의해 해당 메커니즘을 구동시킨다는 데 그 효과가 있다.

또한 본 발명은 HMM(Hidden Markove Model)을 이용한 비터비 알고리즘을 사용함으로써, 사용자의 음성 신호 패턴이 달라진다거나 또는 연속어 문장 형태의 음성 신호가 입력되더라도 핵심적인 단어만을 인식할 수 있어 사용자와 자연스러운 대화가 가능하다는 데 그 효과가 있다.

또한 본 발명은 컴퓨터가 아닌 칩의 형태로 구현 가능한 바, 주문형 반도체(ASIC) 칩의 형태로 이루어진 음성 인식기와 시나리오 넷 형태로 기록된 메모리의 결합에 의해 산업 전반의 여러 제품에 다양하게 적용할 수 있다는 데 그 효과가 있다.

또한 본 발명은 사용자의 음성 명령에 대응하는 음성 데이터 및 음성 인식을 알고리즘을 갖는 메모리만을 교체함으로써, 시스템을 쉽게 업그레이드시킬 수 있을 뿐만 아니라 여러 가지 제품에 다양하게 적용할 수 있다는 데 그 효과가 있다.

본 발명의 적용예로서, 교육 및 오락 분야(음성 인식 대화형 완구, 전자북, 어학 학습기), 정보통신 분야(음성 인식 개인휴대 단말기, PDA, 휴대폰, 컴퓨터, 홈 오토메이션 시스템, 네비게이터), 생활 용품 분야(음성 인식 시계, 스탠드, 텔레비전, 오디오, 자동차), 의료 분야(장애인을 위한 음성 인식 의료기기, 실버용품)가 있다.

상기에서는 본 발명의 바람직한 실시 예를 참조하여 설명하였지만, 해당 기 술분야의 숙련된 당업자는 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경할 수 있음을 이해할 수 있을 것이다.

Claims

삭제
시나리오 넷 구조로 기록된 음성 데이터를 독출하기 위한 제 1 메모리;

음성인식용 연산 정보가 미리 기록되어 있고, 사용자의 기록명령에 의해 적어도 하나 이상의 메시지 정보 또는 스케줄 정보가 기록되며, 사용자의 재생명령에 의해 해당 메시지 정보 또는 스케줄 정보를 독출하기 위한 제 2 메모리;

마이크를 통해 입력된 사용자의 음성 신호를 디지탈 변환하여 출력하는 음성 입력수단;

사용자의 조작에 따라 스위칭 신호를 출력하는 수동 조작수단;

상기 음성 입력수단으로부터 입력되는 음성 신호 또는 상기 수동 조작수단에 의해 입력되는 스위칭 신호를 인식하여, 인식 결과 기록명령이면 상기 음성 입력수단으로부터 입력된 음성 신호를 상기 제 2 메모리에 기록하고, 인식 결과 재생명령이면 시나리오 넷 번호를 검출하여 상기 검출된 시나리오 넷 번호에 의해 상기 제 1 메모리에 기록된 음성 데이터를 독출하거나 또는 상기 제 2 메모리에 기록된 음성 데이터를 독출하는 음성 처리수단;및

상기 음성 처리수단으로부터 독출된 음성 데이터를 아날로그 변환하여 스피커를 통해 출력하는 음성 출력수단;을 포함하고,

상기 제 1 메모리는 상기 수동 조작수단를 통해 입력되는 스위칭 신호의 입력 횟수에 대한 정보와 상기 입력 횟수에 대응하는 음성 데이터를 더 포함하고 있어서,

상기 수동 조작수단에 의해 스위칭 신호가 인식되는 경우, 상기 음성 처리수단이 상기 수동 조작수단으로부터 입력된 스위칭 신호의 입력 횟수에 따라 상기 제 1 메모리에 기록된 음성 데이터를 독출함을 특징으로 하는 대화형 음성 인식 시스템.
제 2 항에 있어서, 상기 제 1 메모리에는,

사용자와 시스템간에 이루어지는 단계적인 질의 및 응답에 의해 사용자가 원하는 음성 데이터가 독출되도록, 예상되는 사용자의 질의에 대응되는 적어도 하나 이상의 음성 데이터가 일정한 시나리오 넷 구조로 이미 기록되어 있는 것을 특징으로 하는 대화형 음성 인식 시스템.
제 3 항에 있어서, 상기 제 1 메모리는,

메인 어드레스(Main Address) 영역, 서브 어드레스(Sub-Address) 영역 및 실제 정보(Real Information) 영역으로 구분되며,

상기 메인 어드레스 영역은,

음성인식용 정보를 갖는 영역, 압축신장용 정보를 갖는 영역, 시나리오 넷 번호 정보를 갖는 영역, 시나리오 음성 데이터 정보를 갖는 영역, 인식처리 제어용 정보를 갖는 영역, 기타 음성 데이터 정보를 갖는 영역을 포함하고,

상기 서브 어드레스 영역은,

음성 인식정보 어드레스(N₁)를 갖는 영역, 압축용 신장용 정보 어드레스(N₂)를 갖는 영역, 기타 정보(N_n)를 갖는 영역을 포함하고,

상기 실제 정보 영역은,

적어도 하나 이상의 음성인식용 정보의 실제 데이터를 갖는 영역, 적어도 하 나 이상의 압축 신장용 실제 데이터를 갖는 영역, 적어도 하나 이상의 기타 정보의 실제 데이터를 갖는 영역을 포함하는 것을 특징으로 하는 대화형 음성 인식 시스템.
삭제
청구항 6은(는) 설정등록료 납부시 포기되었습니다.

제 2 항에 있어서, 상기 음성 입력수단은,

마이크를 통해 입력된 아날로그 음성 신호의 크기를 소정 레벨로 조정하여 출력하는 레벨 조정부; 및

상기 레벨 조정부로부터 입력된 아날로그 음성 신호를 입력받아 디지털 음성 신호로 변환하여 출력하는 A/D 컨버터를 포함하는 것을 특징으로 하는 대화형 음성 인식 시스템.
제 2 항에 있어서, 상기 음성 처리수단은,

음성인식용 연산 정보에 의해 상기 음성 입력수단으로부터 입력된 음성 신호를 인식하여 인식 정보를 출력하는 음성 인식부;

상기 제 1 메모리 또는 상기 제 2 메모리로부터 독출된 음성 데이터를 소정의 데이터 신장 방식에 따라 신장하는 음성 신장부;

상기 음성 입력수단으로부터 입력된 음성 신호를 소정 데이터 압축 방식에 따라 압축하여 상기 제 2 메모리에 기록하는 음성 압축부;

노말 상태에서 상기 음성 입력수단으로부터 출력된 음성 신호를 상기 음성 인식부로 입력시키다가 스위칭 제어신호가 입력되면 상기 음성 입력수단으로부터 출력된 음성 신호를 상기 음성 압축부에 입력시키는 스위칭부; 및

상기 음성 인식부로부터 입력된 인식 정보에 의해 기록명령인가 재생명령인가를 판단하여, 기록명령이면 상기 스위칭부에 스위칭 제어신호를 출력하여 상기 음성 입력수단으로부터 출력된 음성 데이터를 상기 음성 압축부로 입력시키도록 제어하고, 재생명령이면 시나리오 넷 번호를 검출하여 상기 검출된 시나리오 넷 번호에 의해 상기 제 1 메모리에 기록된 음성 데이터를 상기 음성 신장부로 출력하도록 제어하거나 또는 상기 제 2 메모리에 기록된 음성 데이터를 상기 음성 신장부로 출력하도록 제어하는 제어부를 포함하는 것을 특징으로 하는 대화형 음성 인식 시스템.
청구항 8은(는) 설정등록료 납부시 포기되었습니다.

제 7 항에 있어서, 상기 음성 인식부는,

사용자의 음성 신호 패턴이 달라진다거나 또는 연속어 문장 형태의 음성 신호가 입력되더라도 핵심적인 단어만을 인식할 수 있도록 하기 위해, HMM(Hidden Markove Model)을 이용한 비터비 알고리즘을 사용하여 음성 신호를 음소 단위로 인 식하는 것을 특징으로 하는 대화형 음성 인식 시스템.
청구항 9은(는) 설정등록료 납부시 포기되었습니다.

제 2 항에 있어서, 상기 음성 출력수단은,

상기 음성 처리수단으로부터 입력된 디지털 음성 데이터를 아날로그 음성 신호로 변환하여 출력하는 D/A 컨버터; 및

상기 D/A 컨버터로부터 입력된 아날로그 음성 신호를 전력 증폭하여 스피커를 통해 출력하는 전력 증폭부를 포함하는 것을 특징으로 하는 대화형 음성 인식 시스템.
삭제
청구항 11은(는) 설정등록료 납부시 포기되었습니다.

제 2 항에 있어서,

상기 음성 처리수단의 제어에 따라 상기 제 1 메모리 또는 상기 제 2 메모리로부터 독출된 음성 데이터를 문자 메시지 또는 영상 이미지로 변환하여 화면에 표시하기 위한 디스플레이 구동수단을 더 포함하는 것을 특징으로 하는 대화형 음성 인식 시스템.
청구항 12은(는) 설정등록료 납부시 포기되었습니다.

제 2 항에 있어서,

상기 음성 처리수단의 제어에 따라 상기 제 1 메모리 또는 상기 제 2 메모리로부터 독출된 음성 데이터에 의해 해당 메커니즘을 구동시키는 메커니즘 구동수단을 더 포함하는 것을 특징으로 하는 대화형 음성 인식 시스템.
사용자에 의해 입력된 음성 신호나 스위치 신호를 인식하여, 음성 신호를 기록할 것인가 아니면 음성 데이터를 재생할 것인가를 결정하는 제 10 단계;

상기 제 10 단계에서 음성 신호 기록이 결정되었으면, 음성인식용 연산 정보가 미리 기록되어 있는 제2 메모리에 외부로부터 입력되는 사용자 음성신호인 적어도 하나 이상의 메시지 정보 또는 스케줄 정보를 기록하는 제 20 단계; 및

상기 제 10 단계에서 사용자 음성 신호에 의해 음성 신호 재생이 결정되면, 시나리오 넷 번호를 검출하여 상기 검출된 시나리오 넷 번호에 의해 제 1 메모리에 시나리오 넷 구조로 기록된 음성 데이터를 독출하여 가청주파수로 변환 출력하거나 또는 제 2 메모리에 기록된 음성 데이터를 독출하여 가청주파수로 변환 출력하는 제 30 단계;

상기 제 10 단계에서 사용자의 스위치 신호에 의해 음성 신호 재생이 결정되면, 사용자에 의해 입력되는 스위치 신호의 입력회수를 체크하여 상기 제 1 메모리에 기록된 스위칭 신호의 입력회수에 대한 정보를 검출하고, 상기 입력회수 정보에 대응하여 상기 제 1 메모리에 기록된 음성 데이터를 독출하여 가청주파수로 변환 출력하는 제 40 단계를 포함하는 것을 특징으로 하는 대화형 음성 인식 방법.
제 13 항에 있어서, 상기 제 1 메모리는,

예상되는 사용자의 질의에 대응되는 적어도 하나 이상의 음성 데이터가 일정한 시나리오 넷 구조로 이미 기록되어 있어,

사용자와 시스템간에 이루어지는 단계적인 질의 및 응답에 의해 사용자가 원하는 음성 데이터가 독출되는 것을 특징으로 하는 대화형 음성 인식 방법.
제 13 항 또는 제 14 항에 있어서, 상기 제 1 메모리는,

메인 어드레스(Main Address) 영역, 서브 어드레스(Sub-Address) 영역 및 실제 정보(Real Information) 영역으로 구분되며,

상기 메인 어드레스 영역은,

음성인식용 정보를 갖는 영역, 압축신장용 정보를 갖는 영역, 시나리오 넷 번호 정보를 갖는 영역, 시나리오 음성 데이터 정보를 갖는 영역, 인식처리 제어용 정보를 갖는 영역, 기타 음성 데이터 정보를 갖는 영역을 포함하고,

상기 서브 어드레스 영역은,

음성 인식정보 어드레스(N₁)를 갖는 영역, 압축용 신장용 정보 어드레스(N₂)를 갖는 영역, 기타 정보(N_n)를 갖는 영역을 포함하고,

상기 실제 정보 영역은,

적어도 하나 이상의 음성인식용 정보의 실제 데이터를 갖는 영역, 적어도 하 나 이상의 압축 신장용 실제 데이터를 갖는 영역 및 적어도 하나 이상의 기타 정보의 실제 데이터를 갖는 영역을 포함하는 것을 특징으로 하는 대화형 음성 인식 방법.
삭제
청구항 17은(는) 설정등록료 납부시 포기되었습니다.

제 13 항에 있어서, 상기 제 10 단계는,

시스템 전원이 온되면 초기 시나리오 넷 번호를 검색하는 제 11 단계;

외부로부터 음성 신호를 입력받는 제 12 단계;

상기 제 11 단계에서 검색된 시나리오 넷 번호에 의해 시나리오 넷 번호 정보를 검색하여 상기 검색된 시나리오 넷 번호 정보에 의해 외부로부터 입력된 음성 신호를 인식할 것인가 아니면 기록할 것인가 아니면 상기 제 1 메모리 또는 상기 제 2 메모리에 기록된 음성 데이터를 재생할 것인가를 결정하는 제 13 단계;

상기 제 13 단계에서 음성 신호 인식을 결정하였으면, 상기 시나리오 넷 번호 정보에 의해 인식 도메인을 검색하는 제 14 단계;

상기 제 14 단계에서 검색된 인식 도메인에 의해 외부로부터 입력된 음성 신호를 인식하는 제 15 단계;

상기 제 15 단계에서 인식된 결과를 시나리오 넷 번호 영역에 존재하는 인식용 패턴 정보로 처리하는 제 16 단계; 및

상기 제 16 단계에서 처리된 인식 결과에 의해 다음 시나리오 넷 번호를 검색한 후 상기 제 13 단계로 복귀하는 제 17 단계로 이루어짐을 특징으로 하는 대화형 음성 인식 방법.
청구항 18은(는) 설정등록료 납부시 포기되었습니다.

제 17 항에 있어서, 상기 제 20 단계는,

상기 제 13 단계에서 음성 신호 기록이 결정되었으면 외부로부터 입력된 음성 신호를 소정의 데이터 압축 방식에 따라 압축시키는 제 21 단계;

상기 제 21 단계에서 압축된 음성 데이터를 제 2 메모리에 기록하는 제 22 단계; 및

상기 제 16 단계에서 처리된 인식 결과에 의해 다음 시나리오 넷 번호를 검색한 후 상기 제 13 단계로 복귀하는 제 23 단계로 이루어짐을 특징으로 하는 대화형 음성 인식 방법.
청구항 19은(는) 설정등록료 납부시 포기되었습니다.

제 17 항에 있어서, 상기 제 30 단계는,

상기 제 13 단계에서 음성 데이터 재생이 결정되었으면, 상기 제 13 단계에서 검색된 시나리오 넷 번호 정보에 의해 상기 제 1 메모리에 기록된 해당 음성 데이터를 독출하거나 또는 상기 제 2 메모리에 기록된 음성 데이터를 독출하는 제 31 단계;

상기 제 31 단계에서 독출된 음성 데이터를 소정의 데이터 신장 방식에 따라 신장시켜 가청 주파수로 변환 출력하는 제 32 단계;

상기 제 16 단계에서 처리된 인식 결과에 의해 다음 시나리오 넷 번호가 존재하는가를 판단하는 제 33 단계; 및

상기 제 33 단계에서 판단된 결과 다음 시나리오 넷 번호가 존재하면 다음 시나리오 넷 번호를 검색하여 상기 제 12 단계로 복귀하고, 다음 시나리오 넷 번호가 존재하지 않으면 종료하는 제 34 단계로 이루어짐을 특징으로 하는 대화형 음성 인식 방법.
청구항 20은(는) 설정등록료 납부시 포기되었습니다.

제 17 항에 있어서, 상기 제 15 단계는,

사용자의 음성 신호의 패턴이 달라진다거나 또는 연속어 문장 형태의 음성 신호가 입력되더라도 핵심적인 단어만을 인식할 수 있도록 하기 위해, HMM(Hidden Markove Model)을 이용한 비터비 알고리즘을 사용하여 음성 신호를 음소 단위로 인식하는 것을 특징으로 하는 대화형 음성 인식 방법.
삭제
청구항 22은(는) 설정등록료 납부시 포기되었습니다.

제 13 항에 있어서,

상기 제 1 메모리 또는 상기 제 2 메모리로부터 독출된 음성 데이터를 문자 메시지 또는 영상 이미지로 변환하여 화면에 표시하는 제 50 단계를 더 포함하는 것을 특징으로 대화형 음성 인식 방법.
청구항 23은(는) 설정등록료 납부시 포기되었습니다.

제 13 항에 있어서,

상기 제 1 메모리 또는 상기 제 2 메모리로부터 독출된 음성 데이터에 의해 해당 메커니즘을 구동시키는 제 60 단계를 더 포함하는 것을 특징으로 하는 대화형 음성 인식 방법.