KR20030018041A

KR20030018041A - 로봇 장치와, 문자 인식 장치 및 문자 인식 방법과, 제어프로그램 및 기록 매체

Info

Publication number: KR20030018041A
Application number: KR10-2003-7000006A
Authority: KR
Inventors: 아쯔오 히로에; 가쯔끼 미나미노; 겐다 가와모또; 고따로 사베; 다께시 오아시
Original assignee: 소니 가부시끼 가이샤
Priority date: 2001-05-02
Filing date: 2002-05-01
Publication date: 2003-03-04
Also published as: WO2002091356A1; KR100940630B1; CN1465042A; US7088853B2; US20030152261A1; CN1236422C

Abstract

CCD 카메라(20)에서 촬상된 화상의 문자 인식의 결과로부터 추정되는 복수의 문자와, 이들 각 문자로부터 추정되는 복수의 가나 읽기와, 각 가나 읽기에 대응하는 읽는 법을 발음 정보 생성부(150)에서 생성하고, 여기서 얻어진 복수의 읽는 법과 마이크(23)에서 취득한 사용자로부터의 발성을 매칭함으로써, 생성된 복수 후보 중에서 1개의 가나 읽기 및 발음 방법(읽는 법)을 특정한다.

Description

로봇 장치와, 문자 인식 장치 및 문자 인식 방법과, 제어 프로그램 및 기록 매체{ROBOT DEVICE, CHARACTER RECOGNIZING APPARATUS AND CHARACTER READING METHOD, AND CONTROL PROGRAM AND RECORDING MEDIUM}

전기적 또는 자기적인 작용을 이용하여 인간(생물)의 동작과 닮은 운동을 행하는 기계 장치를「로봇」이라고 한다. 일본에서 로봇이 보급되기 시작한 것은 1960년대 말부터이지만, 그 대부분은, 공장에서의 생산 작업의 자동화 및 무인화 등을 목적으로 한 매니퓰레이터나 반송(搬送) 로봇 등의 산업용 로봇(industrialrobot)이었다.

최근에는, 인간의 파트너로서 생활을 지원하는, 즉 주거 환경 외의 일상 생활 중 다양한 장면에서의 인적 활동을 지원하는 실용 로봇의 개발이 진행되고 있다. 이러한 실용 로봇은, 산업용 로봇과는 달리, 인간의 생활 환경의 여러 국면에서, 개개의 개성이 다른 인간, 또는 다양한 환경에의 적응 방법을 스스로 학습하는 능력을 갖고 있다. 예를 들면, 개, 고양이와 같이 4족 보행의 동물의 신체 메카니즘이나 그 동작을 모방한「페트형」로봇, 혹은, 2족 직립 보행을 행하는 동물의 신체 메카니즘이나 동작을 모델로 하여 디자인된「인간형」또는「인간 모습」로봇(Humanoid Robot) 등의 각식 이동 로봇은, 이미 실용화되고 있다. 이들 각식 이동 로봇은, 동물이나 인간의 용모에 될 수 있는 한 가까운 외관 형상을 가지며, 산업용 로봇에 비하여 동물이나 인간의 동작에 가까운 동작을 행할 수 있어, 엔터테인먼트성을 더욱 중시한 다양한 동작을 행할 수 있기 때문에, 엔터테인먼트 로봇이라고 불리우는 경우도 있다.

각식 이동 로봇 중에는,「눈」에 상당하는 소형 카메라나,「귀」에 상당하는 집음 마이크 등을 구비하고 있는 것도 있다. 이 경우, 각식 이동 로봇은, 취득한 화상에 대하여 화상 처리를 실시함으로써, 화상 정보로서 입력한 주위의 환경을 인식하거나, 입력한 주위의 음으로부터「언어」를 인식할 수도 있다.

특히, 외부로부터 취득한 음성을 인식하여 문자로 변환하거나, 음성을 인식하여 응답하는 방법은, 각식 이동 로봇 이외에도 퍼스널 컴퓨터나, 그 밖의 전자 기기에 음성 인식 장치로서 적용되어 있다.

종래의 음성 인식의 방법에서는, 단어의 발음과 표기가 대응되어 기억된 음성 인식용의 사전(事典)(이하, 인식용 사전이라 함)을 이용하여 음성 인식하고 있다. 그 때문에, 인식용 사전에 등록되어 있지 않은 단어에 관해서는 인식할 수 없다는 결점이 있었다. 또한,「문장(文)」과 같은 연속한 단어의 발음을 인식하는 경우에는, 인식용 사전에 등록되어 있는 단어의 조합이어야만 한다. 즉, 인증용 사전에 등록되어 있지 않은 단어가 포함되는 경우, 오인식되거나, 인식할 수 없다.

「北品川(기따시나가와)」라는 단어를 예로 들면,「北品川」가 인증용 사전에 등록되어 있지 않으면,「北品川」및「北品川」를 포함하는 발음, 예를 들면,「기따시나가와는 어디입니까?」라는 단어의 연속으로 이루어지는 음성은, 인식할 수 없거나,「기따시나가와」의 부분이 오인식된다. 따라서, 인식용 사전에 등록되어 있지 않은 단어를 인식할 수 있도록 하기 위해서는, 미등록의 단어를 새롭게 추가등록하는 것이 필요하게 된다.

음성 인식 장치가 음성 인식을 가능하게 하기 위해 구비하는 인식용 사전이란, 다른 단어와 구별하기 위한 식별자로서의「단어 심볼」과, 그 단어의 발음 정보를 나타내는「PLU열」이 대응된 것이다. PLU(Phonone-like unit)란, 음향적 및 음운적 단위로 되는 것이다. 발음된 음성은, PLU의 조합(PLU열)으로서 반드시 표현할 수 있다.

따라서, 인식용 사전에 단어를 등록하는 경우에는, 단어 심볼과 이에 대응하는 PLU열을 추가하면 된다. 단, 단어 심볼과 PLU열을 추가할 수 있는 경우란,「北品川」와「kitashinagawa」라는 표기를, 예를 들면, 키보드 등과 같은 입력 수단을이용하여 직접 입력할 수 있는 경우에 한정된다.

그 때문에, 로봇 장치와 같이 키보드와 같은 입력 수단을 구비하고 있지 않은 경우에는, 음성으로서 취득한 단어의 발음을 음성 인식하여 미지(未知) 단어의 PLU열을 얻는 방법도 있다. 이 경우, 가비지 모델(Garbage Model)을 적용하여 인식하고 있다. 가비지 모델이란, 도 20A 및 도 20B에 도시한 바와 같이, 음성을 발음의 기본적인 단위로 되는「음소(音素)」의 조합으로서 표현하거나, 또한, 단어의 읽기 방법의 기본적인 단위가 되는「가나」의 조합으로 표현한 모델이다(단, 일본어의 경우).

종래의 음성 인식 장치에서는, 가비지 모델을 적용함으로써, 음성에 의한 인식 결과를 얻어, 이 인식 결과에 단어 심볼을 적용시키고, 이들을 대응시켜 신규 단어로서 인식용 사전에 등록하고 있다.

단, 여기서「음소」와「PLU」란, 거의 동의의 단어로서 사용되고 있으며, 「PLU열」은, 복수의「PLU」가 접속됨으로써 구성된 단어의 발음을 표기한 것이다.

그런데, 가비지 모델을 적용한 종래의 음성 인식의 방법에서는, 동일한 단어이더라도 사용자마다 발성 방법에 미묘한 차이가 있는 점이나, 약한 음소(예를 들면, 어두의 /s/ 등)는, 필연적으로 인식되기 어렵게 되는 점이나, 주위의 잡음의 영향에 의한 음소의 변화나, 음성 구간 검출의 실패 등이 원인으로 되어, 인식 정밀도가 나빠진다는 결점이 있었다.

특히, 로봇 장치에 음성 인식 장치를 적용한 경우, 음성 인식 장치 측의 음성 취득용의 마이크와 사용자(음성원)와의 거리가 떨어져 있는 상황 하에서 사용되는 경우가 많기 때문에, 오인식의 빈도가 높아진다.

구체적으로, 예를 들면,「きたしながわ(기따시나가와)」를 인식시키는 경우에 대하여 설명하면, 인식 결과는,「hi to tsu na no ga」나「i tas na ga:」와 같이「きたしながわ(기따시나가와)」와 유사하지만, 동일하지 않은 PLU열로서 인식되는 경우가 있다. 이러한 방법으로 단어 등록된 사전을 이용하여 음성 인식을 행하면, 인식 정밀도의 저하, 또한 오인식에 의한 표시 오류 등의 문제가 발생한다. 즉, 신규 등록어에는, 부정확한 PLU열이 부여되어 있게 되기 때문에, 이 단어를 인식할 때의 정밀도가 저하된다는 문제가 있었다.

등록한 사람과는 다른 사람이 동일한 단어를 발음한 경우, 만일「きたしながわ(기따시나가와)」가 인식용 사전에 등록되어 있었다고 하여도, 사용자마다의 발음 시의 버릇 때문에 「きたしながわ(기따시나가와)」라는 단어를 포함하는 발음이 인식되지 않는 경우도 있었다.

또한, 음성 인식의 결과를 문자로 변환하여 표시하는 경우, 신규 등록어에는, 표시에 관한 정보가 제공되어 있지 않기 때문에, 잘못된 문자가 표시되는 경우가 있다. 사용자가「きたしながわ(기따시나가와)」를 음성으로 등록한 후, 음성 인식 장치에 대하여「「北品川に行きたい(기따시나가와니이끼따이)。」라고 발성한 경우, 음성 인식 장치에는「きたしながわ(기따시나가와)」가 정확하게 인식되었다고 하여도, 표시는「hitotsunanogaに行きたい」나「『ひとつなのが』に行きたい」가 되는 것을 알 수 있다. 또한, 음성 인식 장치가 인식 결과의 PLU열을 음성 합성으로 반복하는 경우에도, 합성된 신규 등록어의 PLU열의 부분만이 부자연스러운연결로서 발성된다는 문제점도 발생된다.

또한, 이와 같이 가비지 모델에 의해 등록된 신규 등록어는, 품사나 의미 등의 단어의 속성에 관한 정보를 등록하는 것이 불가능하다. 예를 들면,「北品川」를 등록하였다고 하여도, 이 단어가 명사인지 지명인지를 나타내는 정보를 등록할 수 없다. 그 때문에, 만일, 예를 들면, 대화용의 문법이나 인식용의 언어 모델 등에「<지명을 나타내는 단어> +는 +어디 +입니 +까」와 같은 특정 표현을 위한 문법 규칙이 미리 기록되어 있었다고 하여도, 신규 등록어에는 적용할 수 없다는 문제점이 있었다. 등록 시에 단어의 속성에 대해서도 음성으로 입력하는 것이 가능하지만, 사용자가 단어의 속성을 알고 있을 필요가 있었다. 또, 단어의 등록 조작 외에 속성을 입력하는 것은 사용자에게 있어서 번거롭다.

본 발명은, 내부 상태에 따라서 자율적으로 동작하는 로봇 장치와, 문자 인식 장치 및 문자 인식 방법과, 제어 프로그램 및 기록 매체에 관한 것으로, 특히, 제시된 문자와 함께 발음되는 음성에 대하여, 촬상한 화상으로부터 문자를 인식하고 취득한 음성을 이 문자의 발음으로서 대응시켜 신규로 등록하는 로봇 장치와, 제시된 문자와 함께 발음되는 음성에 대하여, 촬상한 화상으로부터 문자를 인식하고 취득한 음성을 이 문자의 발음으로서 신규로 등록하는 문자 인식 장치 및 문자 인식 방법과, 제시된 문자와 함께 발음되는 음성에 대하여, 촬상한 화상으로부터 문자를 인식하고 취득한 음성을 이 문자의 발음으로서 신규로 등록하는 처리를 실행시키는 제어 프로그램 및 이 제어 프로그램이 기록된 기록 매체에 관한 것이다.

도 1은 본 발명의 일 구성예로서의 로봇 장치의 외관을 도시한 외관도.

도 2는 본 발명의 일 구성예로서의 로봇 장치의 구성을 도시한 구성도.

도 3은 본 발명의 일 구성예로서의 로봇 장치에서의 화상 음성 인식부의 구성을 도시한 구성도.

도 4는 본 발명의 일 구성예로서의 로봇 장치의 음성 인식용 사전을 설명하는 도면.

도 5는 본 발명의 일 구성예로서의 로봇 장치의 단어 읽기 속성 테이블을 설명하는 도면.

도 6은 본 발명의 일 구성예로서의 로봇 장치의 문자 읽기 테이블을 설명하는 도면.

도 7은 본 발명의 일 구성예로서의 로봇 장치의 신규 단어를 음성 인식용 사전에 등록하는 처리를 설명하는 흐름도.

도 8은 본 발명의 일 구성예로서의 로봇 장치의 신규 단어용 인식용 사전을 설명하는 도면.

도 9는 본 발명의 일 구성예로서의 로봇 장치가 인식한 문자열의 발음 방법(읽는 법)을 생성하는 처리를 설명하는 흐름도.

도 10은 본 발명의 일 구성예로서의 로봇 장치의 제어 프로그램의 소프트웨어 구성을 도시한 구성도.

도 11은 본 발명의 일 구성예로서의 로봇 장치의 제어 프로그램 중, 미들웨어층의 구성을 도시한 구성도.

도 12는 본 발명의 일 구성예로서의 로봇 장치의 제어 프로그램 중, 어플리케이션층의 구성을 도시한 구성도.

도 13은 본 발명의 일 구성예로서의 로봇 장치의 제어 프로그램 중, 행동 모델 라이브러리의 구성을 도시한 구성도.

도 14는 본 발명의 일 구성예로서의 로봇 장치의 행동을 결정하기 위한 알고리즘인 유한 확률 오토마톤을 설명하는 모식도.

도 15는 본 발명의 일 구성예로서의 로봇 장치의 행동을 결정하기 위한 상태 천이 조건을 설명하는 도면.

도 16은 본 발명의 일 구성예로서의 인간형 로봇 장치의 전방으로부터 본 외관을 설명하는 외관도.

도 17은 본 발명의 일 구성예로서의 인간형 로봇 장치의 후방으로부터 본 외관을 설명하는 외관도.

도 18은 본 발명의 일 구성예로서의 인간형 로봇 장치의 자유도 구성 모델을 모식적으로 도시한 도면.

도 19는 본 발명의 일 구성예로서의 인간형 로봇 장치의 제어 시스템 구성을 설명하는 도면.

도 20A는「음소」를 기본 단위로 하는 가비지 모델을 적용한 종래의 음성 인식 방법을 도시한 모식도.

도 20B는「가나」를 기본 단위로 하는 가비지 모델을 적용한 종래의 음성 인식 방법을 도시한 모식도.

따라서 본 발명은, 이러한 종래의 실정을 감안하여 제안된 것으로, 제시된 문자와 함께 발음되는 음성에 대하여, 촬상한 화상으로부터 문자를 인식하고, 취득한 음성을 이 문자의 발음으로서 인식함으로써, 미등록의 단어를 신규 단어로서 인식용 사전에 등록할 수 있을 뿐만 아니라, 등록된 신규 단어를 정밀도 있게 인식할 수 있는 로봇 장치와, 제시된 문자와 함께 발음되는 음성에 대하여, 촬상한 화상으로부터 문자를 인식하고, 취득한 음성을 이 문자의 발음으로서 인식함으로써, 미등록의 단어를 신규 단어로서 인식용 사전에 등록할 수 있으며, 등록된 신규 단어를 정밀도 있게 인식할 수 있는 문자 인식 장치, 및 제시된 문자를 촬상하고, 촬상된 화상으로부터 문자를 인식하고, 제시와 함께 발음된 음성을 취득하여 인식된 문자의 발음으로서 인식함으로써, 인식용 사전에 신규 단어로서 등록하는 문자 인식 방법과 촬상한 화상으로부터 문자를 인식하고, 취득한 음성을 이 문자의 발음으로서 신규로 등록하는 처리를 실행시키는 제어 프로그램 및 이 제어 프로그램이 기록된 기록 매체를 제공하는 것을 목적으로 한다.

상술한 목적을 달성하기 위해, 본 발명에 따른 로봇 장치는, 단어와 해당 단어의 발음 방법과의 대응 관계와 음성 인식용 사전으로서 기억된 음성 인식용 기억 수단과, 단어와 해당 단어의 표음 문자와의 대응 관계가 단어 표음 테이블로서 기억된 단어 표음 기억 수단과, 피사체를 촬상하는 촬상 수단과, 촬상 수단에서 촬상된 화상으로부터 문자를 추출하는 문자 인식 수단과, 주위의 소리를 취득하는 집음 수단과, 집음 수단에서 취득된 음으로부터 음성을 인식하는 음성 인식 수단과, 문자 인식 수단에서 추출된 문자로부터 추정되는 복수개의 표음 문자를 단어 표음 테이블에 기초하여 부여하고, 부여된 복수개의 표음 문자의 각각에 대하여 발음 방법과 발음에 상당하는 음성 파형을 생성하는 발음 정보 생성 수단과, 발음 정보 생성 수단에서 생성된 각 음성 파형과 음성 인식 수단에서 인식된 음성의 음성 파형을 비교하여, 가장 가까운 음성 파형을 추출한 문자의 발음 방법으로서 음성 인식용 사전에 신규로 기억하는 기억 제어 수단을 포함한다.

이러한 로봇 장치는, 문자 인식 수단에서 추출된 문자로부터 추정되는 복수개의 표음 문자를 단어 표음 테이블에 기초하여 부여하고, 부여된 복수개의 표음 문자의 각각에 대하여 발음 방법과 발음에 상당하는 음성 파형을 생성하며, 발음 정보 생성 수단에서 생성된 각 음성 파형과 음성 인식 수단에서 인식된 음성의 음성 파형을 비교하여, 가장 가까운 음성 파형을 추출한 문자의 발음 방법으로서 음성 인식용 사전에 신규로 기억한다.

또한, 본 발명에 따른 문자 인식 장치는, 단어와 해당 단어의 발음 방법과의 대응 관계와 음성 인식용 사전으로서 기억된 음성 인식용 기억 수단과, 단어와 해당 단어의 표음 문자와의 대응 관계가 단어 표음 테이블로서 기억된 단어 표음 기억 수단과, 피사체를 촬상하는 촬상 수단과, 촬상 수단에서 촬상된 화상으로부터 문자를 추출하는 문자 인식 수단과, 주위의 소리를 취득하는 집음 수단과, 집음 수단에서 취득된 음으로부터 음성을 인식하는 음성 인식 수단과, 문자 인식 수단에서 추출된 문자로부터 추정되는 복수개의 표음 문자를 단어 표음 테이블에 기초하여 부여하고, 부여된 복수개의 표음 문자의 각각에 대하여 발음 방법과 발음에 상당하는 음성 파형을 생성하는 발음 정보 생성 수단과, 발음 정보 생성 수단에서 생성된 각 음성 파형과 음성 인식 수단에서 인식된 음성의 음성 파형을 비교하여, 가장 가까운 음성 파형을 추출한 문자의 발음 방법으로서 음성 인식용 사전에 신규로 기억하는 기억 제어 수단을 포함한다.

이러한 문자 인식 장치는, 문자 인식 수단에서 추출된 문자로부터 추정되는 복수개의 표음 문자를 단어 표음 테이블에 기초하여 부여하고, 부여된 복수개의 표음 문자의 각각에 대하여 발음 방법과 발음에 상당하는 음성 파형을 생성하며, 발음 정보 생성 수단에서 생성된 각 음성 파형과 음성 인식 수단에서 인식된 음성의 음성 파형을 비교하여, 가장 가까운 음성 파형을 추출한 문자의 발음 방법으로서 음성 인식용 사전에 신규로 기억한다.

또한, 본 발명에 따른 문자 인식 방법은, 피사체를 촬상하는 촬상 공정과, 촬상 공정에서 촬상된 화상으로부터 문자를 추출하는 문자 인식 공정과, 주위의 소리를 취득하는 집음 공정과, 집음 공정에서 취득된 음으로부터 음성을 인식하는 음성 인식 공정과, 문자 인식 공정에서 추출된 문자로부터 추정되는 복수개의 표음 문자를 단어와 해당 단어의 표음 문자와의 대응 관계가 기억된 단어 표음 테이블에 기초하여 부여하고, 부여된 복수개의 표음 문자의 각각에 대하여 발음 방법과 발음에 상당하는 음성 파형을 생성하는 발음 정보 생성 공정과, 발음 정보 생성 공정에서 생성된 각 음성 파형과 음성 인식 공정에서 인식된 음성의 음성 파형을 비교하여, 가장 가까운 음성 파형을 추출한 문자의 발음 방법으로서 단어와 해당 단어의 발음 방법과의 대응 관계를 기억한 음성 인식용 사전에 신규로 기억하는 기억 제어 공정을 포함한다.

이러한 문자 인식 방법에 따르면, 문자 인식 공정에서 추출된 문자로부터 추정되는 복수개의 표음 문자가 단어 표음 테이블에 기초하여 부여되고, 부여된 복수개의 표음 문자의 각각에 대하여 발음 방법과 발음에 상당하는 음성 파형이 생성되며, 발음 정보 생성 공정에서 생성된 각 음성 파형과 음성 인식 공정에서 인식된 음성의 음성 파형이 비교되어, 가장 가까운 음성 파형이 추출된 문자의 발음 방법으로서 음성 인식용 사전에 신규로 기억된다.

또한, 본 발명에 따른 제어 프로그램은, 피사체를 촬상하는 촬상 처리와, 촬상 처리에 의해 촬상된 화상으로부터 문자를 추출하는 문자 인식 처리와, 주위의 소리를 취득하는 집음 처리와, 집음 처리에 의해 취득된 음으로부터 음성을 인식하는 음성 인식 처리와, 문자 인식 처리에 의해 추출된 문자로부터 추정되는 복수개의 표음 문자를 단어와 해당 단어의 표음 문자와의 대응 관계가 기억된 단어 표음 테이블에 기초하여 부여하고, 부여된 복수개의 표음 문자의 각각에 대하여 발음 방법과 발음에 상당하는 음성 파형을 생성하는 발음 정보 생성 처리와, 발음 정보 생성 처리에 의해 생성된 각 음성 파형과 음성 인식 처리에서 인식된 음성의 음성 파형을 비교하여, 가장 가까운 음성 파형을 추출한 문자의 발음 방법으로서 단어와 해당 단어의 발음 방법과의 대응 관계를 기억한 음성 인식용 사전에 신규로 기억하는 기억 처리를 로봇 장치에 실행시킨다. 또한, 상술한 제어 프로그램을 기록 매체에 기록하여 제공한다.

본 발명의 일 구성예로서의 로봇 장치는, 내부 상태에 따라서 자율 동작하는 로봇 장치이다. 이 로봇 장치는, 적어도 상지(上肢)와 체간부와 하지(下肢)를 가지며, 상지 및 하지, 또는 하지만을 이동 수단으로 하는 각식 이동 로봇이다. 각식 이동 로봇에는, 4족 보행의 동물의 신체 메카니즘이나 그 움직임을 모방한 페트형 로봇이나, 하지만을 이동 수단으로서 사용하는 2족 보행의 동물의 신체 메카니즘이나 그 움직임을 모방한 로봇 장치가 있는데, 본 실시 형태로서의 로봇 장치는, 4족 보행 타입의 각식 이동 로봇이다.

이 로봇 장치는, 주거 환경 외의 일상 생활 상의 다양한 장면에서의 인적 활동을 지원하는 실용 로봇으로서, 내부 상태(분노, 슬픔, 기쁨, 즐거움 등)에 따라서 행동 할 수 있는 외에, 4족 보행의 동물이 행하는 기본적인 동작을 표출할 수 있는 엔터테인먼트 로봇이다.

이 로봇 장치는, 특히,「개」를 모방한 형체로서, 머리부, 동체부, 상지부, 하지부, 꼬리부 등을 갖고 있다. 각부의 연결 부분 및 관절에 상당하는 부위에는, 운동의 자유도에 따른 수의 액튜에이터 및 전위차계가 구비되어 있으며, 제어부의 제어에 의해 목표로 하는 동작을 표출할 수 있다.

로봇 장치는, 주위의 상황을 화상 데이터로서 취득하기 위한 촬상부나, 주위의 음성을 취득하는 마이크부와, 외부로부터 받는 작용을 검출하기 위한 각종 센서 등을 구비하고 있다. 촬상부로서는, 소형의 CCD(Charge Coupled Device) 카메라를 사용한다.

본 실시 형태로서의 로봇 장치는, 화상 인식 장치 및 음성 인식 장치를 구비하며, CCD 카메라에서 촬상된 화상으로부터 문자를 추출하고, 추출된 문자로부터 추정되는 복수개의 가나 읽기를 부여하고, 부여된 복수개의 가나 읽기의 각각에 상당하는 음성 파형을 생성한다. 그리고, 이 음성 파형과 마이크부에서 취득한 음성의 음성 파형을 비교하여, 가장 가까운 음성 파형을 추출한 문자의 발음 방법(읽는 법)으로서 음성 인식용 사전에 신규로 기억할 수 있는 로봇 장치이다.

이하, 본 발명의 일 구성예로서의 로봇 장치에 대하여, 도면을 참조하여 설명한다.

본 실시 형태에서는, 로봇 장치(1)는, 도 1에 도시한 바와 같이,「개」를 모방한 형상의 소위 페트형 로봇이다. 로봇 장치(1)는 동체부 유닛(2)의 전후 좌우에 다리부 유닛(3A, 3B, 3C, 3D)이 연결되고, 동체부 유닛(2)의 전단부에 머리부 유닛(4)이 연결되며, 후단부에 꼬리부 유닛(5)이 연결되어 구성되어 있다.

동체부 유닛(2)에는, 도 2에 도시한 바와 같이, CPU(Central Processing Unit)(1O), DRAM(Dynamic Random Access Memory)(11), 플래시 ROM(Read Only Memory)(12), PC(Personal Computer) 카드 인터페이스 회로(13) 및 신호 처리 회로(14)가 내부 버스(15)를 통해 서로 접속됨으로써 형성된 컨트롤부(16)와, 이 로봇 장치(1)의 동력원으로서의 배터리(17)가 수납되어 있다. 또한, 동체부 유닛(2)에는, 로봇 장치(1)의 방향이나 움직임의 가속도를 검출하기 위한 각속도 센서(18) 및 가속도 센서(19)가 수납되어 있다.

머리부 유닛(4)에는, 외부의 상황을 촬상하기 위한 CCD 카메라(20)와, 사용자로부터의「쓰다듬음」이나「때림」등의 물리적인 활동 작용에 의해 받은 압력을 검출하기 위한 터치 센서(21)와, 전방에 위치하는 물체까지의 거리를 측정하기 위한 거리 센서(22)와, 외부음을 집음하기 위한 마이크(23)와, 울음 소리 등의 음성을 출력하기 위한 스피커(24)와, 로봇 장치(1)의「눈」에 상당하는 LED(Light Emitting Diode)(도시 생략) 등이 소정 위치에 배치되어 있다. CCD 카메라(20)는, 머리부 유닛(4)이 향하는 방향에 있는 피사체를 소정의 각도로 촬상할 수 있다.

각 다리부 유닛(3A∼3D)의 관절 부분, 각 다리부 유닛(3A∼3D)과 동체부 유닛(2)과의 연결 부분, 머리부 유닛(4)과 동체부 유닛(2)과의 연결 부분, 꼬리부 유닛(5)과 꼬리(5A)와의 연결 부분에는, 자유도수 만큼의 액튜에이터(25₁∼25_n) 및 전위차계(26₁∼26_n)가 각각 배치되어 있다. 액튜에이터(25₁∼25_n)는, 예를 들면, 서보 모터를 구성으로서 갖고 있다. 서보 모터의 구동에 의해, 다리부 유닛(3A∼3D)이 제어되어 목표의 자세, 혹은 동작으로 천이한다.

이들 각속도 센서(18), 가속도 센서(19), 터치 센서(21), 거리 센서(22), 마이크(23), 스피커(24) 및 각 전위차계(26₁∼26_n) 등의 각종 센서 및 LED 및 각 액튜에이터(25₁∼25_n)는, 각각 대응하는 허브(27₁∼27_n)를 통해 컨트롤부(16)의 신호 처리 회로(14)와 접속되고, CCD 카메라(20) 및 배터리(17)는 신호 처리 회로(14)와 직접 접속되어 있다.

신호 처리 회로(14)는, 상술한 각 센서로부터 공급되는 센서 데이터나 화상 데이터 및 음성 데이터를 순차적으로 취득하고, 이들을 내부 버스(15)를 통해 DRAM(11) 내의 소정 위치에 순차 저장한다. 또한 신호 처리 회로(14)는, 이와 함께 배터리(17)로부터 공급되는 배터리 잔량을 나타내는 배터리 잔량 데이터를 순차적으로 취득하고, 이것을 DRAM(11) 내의 소정 위치에 저장한다.

이와 같이 하여 DRAM(11)에 저장된 각 센서 데이터, 화상 데이터, 음성 데이터 및 배터리 잔량 데이터는, CPU(10)가 해당 로봇 장치(1)의 동작 제어를 행할 때 사용된다.

CPU(10)는, 로봇 장치(1)의 전원이 투입된 초기 시에서, 플래시 ROM(12)에 저장된 제어 프로그램을 판독하여, DRAM(11)에 저장한다. 또는, CPU(10)는, 도 1에 동체부 유닛(2)(도시 생략)의 PC 카드 슬롯에 장착된 반도체 메모리 장치, 예를들면, 소위 메모리 카드(28)에 저장된 제어 프로그램을 PC 카드 인터페이스 회로(13)를 통해 판독하여 DRAM(11)에 저장한다.

CPU(10)는, 상술한 바와 같이 신호 처리 회로(14)로부터 DRAM(11)에 순차 저장되는 각 센서 데이터, 화상 데이터, 음성 데이터 및 배터리 잔량 데이터에 기초하여 자신 및 주위 상황이나, 사용자로부터의 지시 및 활동 작용의 유무를 판단하고 있다.

또한, CPU(10)는, 이 판단 결과와 DRAM(11)에 저장한 제어 프로그램에 기초하는 행동을 결정한다. CPU(10)는, 해당 결정 결과에 기초하여 액튜에이터(25₁∼25_n) 중에서 필요로 하는 액튜에이터를 구동함으로써, 예를 들면, 머리부 유닛(4)을 상하 좌우로 움직이거나, 꼬리부 유닛(5)의 꼬리를 움직이거나, 각 다리부 유닛(3A 내지 3D)을 구동하여 보행시키기도 한다. 또한, CPU(10)는, 필요에 따라서 음성 데이터를 생성하고, 신호 처리 회로(14)를 통해 스피커(24)에 공급한다. 또한, CPU(10)는, 상술한 LED의 점등·소등을 지시하는 신호를 생성하여, LED를 점등하거나 소등하기도 한다.

또한, CPU(10)는, 상술한 바와 같이 로봇을 자율적으로 제어하는 외에, 후술하는 대화 관리부(110) 등으로부터의 요구에 따라서 로봇을 동작시킨다.

이들의 기본적인 구성에 의해서, 로봇 장치(1)는 자신 및 주위 상황이나, 사용자로부터의 지시 및 활동 작용에 따라서 자율적으로 행동한다.

또한, 로봇 장치(1)는, 인식한 발음과 인식한 문자와의 대응을 신규 등록어로서 음성 인식용 사전에 등록하기 위한 구성으로서, 동체부 유닛(2)의 컨트롤부(16)에, 화상 음성 인식부(100)를 구비하고 있다. 화상 음성 인식부(100)는, 도 3에 도시한 바와 같이, 대화 관리부(110)와, 음성 인식부(120)와, 출력 생성부(130)와, 화상 처리 문자 인식부(140)와, 발음 정보 생성부(150)를 갖고 있다. 음성 인식용 사전이란, 도 4에 도시한 바와 같이, 다른 단어와 구별하기 위한 식별자로서의「단어 심볼」과, 이 단어에 대응하는 발음 정보를 나타내는「PLU열」을 기록한 테이블이다. 이 사전을 참조함으로써, 단어의 발음 방법(읽는 법), 또는, 발음에 대응하는 단어의 표기를 추출할 수 있다.

구체적으로, 대화 관리부(110)는, 마이크(23)로부터 입력한 사용자의 발화(發話), 대화 이력 등으로부터 입력한 음성에 대한 응답을 생성한다. 대화 관리부(110)는, 대화 규칙 테이블(111)에 기억된 여러가지 대화 규칙에 기초하여, 입력한 음성에 대한 응답 패턴을 생성한다.

음성 인식부(120)는, 사용자의 발화를 대화 관리부(110)에서 처리할 수 있는 형식, 예를 들면, 텍스트 형식, 구문 해석, 대화용 프레임 등으로 변환한다. 음성 인식부(120)는, 구체적으로는, 음성 인식용 사전(121), 음향 모델(122), 언어 모델(123), 음향 분석부(124) 등으로 구성된다. 음향 분석부(124)에서는, 인식에 필요한 특징량의 추출이 미소 시간 간격으로 행해진다. 예를 들면, 얻어진 음성 신호의 에너지, 영(0)교차 수, 피치, 주파수 특성 및 이들의 변화량 등이 추출된다. 주파수 분석에는, 선형 예측 분석(LPC), 고속 푸리에 변환(FFT), 대역 통과 필터(BPF) 등이 이용된다.

음성 인식부(120)는, 음향 모델(122)과 언어 모델(123)을 이용하여, 음향 분석부(124)에서 생성된 특징량 계열에 대응하는 단어 계열을 결정한다. 인식 방법으로서는, 예를 들면, 히든 마르코프 모델(Hidden Markov Model: 이하, HMM이라 함) 등이 이용된다.

HMM이란, 상태 천이 확률과 확률 밀도 함수를 갖는 상태 천이 모델로서, 상태를 천이하면서 특징량 계열을 출력하는 확률값을 누적하여 우도(尤度; likelihood)를 결정한다. 그 우도의 값을「스코어」로서 음성 인식용 사전에 기억되어 있는 단어의 발음 방법과 후술하는 화상 처리 문자 인식부에서 인식된 문자에 대하여 부여되는 발음 방법과의 매칭에 사용하는 방법이다. HMM의 천이 확률 및 확률 밀도 함수 등은, 학습용 데이터에 기초하는 학습 과정을 통하여, 미리 학습하여 준비되는 값이다.

음향 모델은, 음소(PLU), 음절, 단어, 프레이즈(phrase), 문장 등, 각각의 단위마다 준비하는 것이 가능하다. 예를 들면, 일본어의 가나『あ』·『い』·『う』·『え』·『お』·『か』·『き』…『ん』을 단위로 하는 음향 모델을 이용한 경우, 이들을 조합하여 접속함으로써,『예』,『아니오』,『안녕하세요』,『지금 몇시입니까』등의 말을 구성할 수 있다. 음소란, 단어의 발음 정보를 나타내는 것으로, 음향적 및 음운적 단위이다. 본 명세서에서는, 음소와 PLU를 구별하지 않고 사용하고 있다. 발음된 음성은, 음소(PLU)의 조합(PLU열)으로서 반드시 표현할 수 있다.

HMM에 따르면, 이와 같이 구성된 말과 마이크(23)에서 취득한 음성의 특징량계열과의 유사도를 스코어로서 계산할 수 있다. 음향 모델로부터「말」을 구성하기 위한 정보로서, 언어 모델(123)과 음성 인식용 사전(121)이 이용된다. 음성 인식용 사전(121)이란, 인식 대상이 되는 각 단어를 구성하기 위한 음향 모델(여기서는, 가나의 한 문자『あ』,『い』, …등을 나타냄)의 접속 방법을 대응 테이블로서 나타낸 사전이며, 언어 모델(123)이란, 단어와 단어와의 접속 방법의 규칙을 나타낸 것이다.

이하에 설명하는 예에서는,「단어」란, 인식 처리 상에서 발음할 때, 하나의 집합으로서 취급하는 쪽이 바람직한 단위인 것을 나타내고 있으며, 언어학적인 단어와는 반드시 일치하지 않는다. 예를 들면, 이하의 예는「北品川」를 한 단어로서 취급하는 경우가 있지만, 이것을「北」「品川」라는 2단어로서 취급하여도 상관없다. 또한,「北品川驛(기따시나가와에끼)」나「北品川驛はどこですが(기따시나가와에끼와도꼬데스까)」를 발음하는 데에 있어서의 한 단어로서 취급하는 것도 가능하다.

또한, 본 명세서에서는,「가나 읽기」란, 한자, 영어 단어의 읽는 법을 표기한 히라가나 또는 가타카나를 의미하고,「발음 방법」이란, 가나 읽기의 실제 발음을 로마자, 또는 로마자와 기호를 사용하여 표기한 것으로, 언어학에서의「음소 기호」에 상당한다.

예를 들면,『∼時から(지까라), ∼時まで(지마데)』라는 문장을 취급하는 경우에 대하여 생각한다. 이 경우, 먼저,『0(제로)』「1(이찌)』…『24(니쥬욘)』이라는 단어와,『時(지)』·『から(까라)』·『まで(마데)』라는 말의 각각에 관하여, 음향 모델(122)을 참조함으로써, 단어의 접속 방법이 결정된다.

다음에,『(숫자를 나타내는 단어)』,『時』,『から』,『(숫자를 나타내는 단어)』,『時』,『まで』라는 각 단어를 언어 모델(123)을 참조함으로써, 문장을 구성하기 위한 각 단어의 접속 방법이 결정된다.

이 음성 인식용 사전(121)과 언어 모델(123)을 이용하여 HMM을 적용함으로써,『1時から2時まで(이찌지까라니지마데)』나『2時から5時まで(니지까라고지마데)』등의 문장과 입력되는 특징량 계열과의 유사도를 스코어로서 계산할 수 있다. 그 중에서 가장 높은 스코어를 갖는 단어 계열로 이루어지는 문장을 음성 인식 결과로서 출력한다.

음성 인식 처리에서의 스코어의 계산은, 음향 모델(122)에 의해 주어지는 음향적인 스코어와, 언어 모델(123)에 의해 주어지는 언어적인 스코어를 종합 평가하여 행해지는 경우도 있다.

언어적인 스코어란, 예를 들면, 연속하는 n개의 단어 간의 천이 확률, 또는 연쇄 확률에 기초하여 주어지는 스코어이다. 천이 확률은, 미리, 대량의 텍스트로부터 통계적으로 구해진 값으로, 여기서는, 이 천이 확률을「n그램」이라 부른다.

또, 언어 모델은, 문법이나 n그램 중에 단어를 직접 기술하는 이외에도, 단어의 클래스(단어를 임의의 기준이나 속성에 따라서 분류한 것)를 기술하는 경우도 있다.

예를 들면, 지명을 나타내는 단어를 모아, 그것에 <지명>이라는 클래스 명칭을 제공한 경우에「<지명> +은 +어디 +입니 +까」라는 문법을 기술하거나, n그램중에「<지명> +은 +어디」의 천이 확률을 준비해 두는 것도 가능하다. 이 경우, n=3이며, 정확하게는, 천이 확률은, P(<지명>｜은, 어디｜)이다.

출력 생성부(130)는, 대화 관리부(110)가 생성한 응답 패턴을 실제의 동작으로 변환한다. 예를 들면, 대화 관리부(110)가「목을 좌우로 흔든다 +『아니오』라고 발성한다」라는 응답 패턴을 생성한 경우, 출력 생성부(130)는, 이것을 받아 「목을 좌우로 흔든다」에 대응하는 동작 패턴을 생성하여 CPU(10)로 보냄과 함께,「아니오」에 대응하는 음성 파형을 생성하여 스피커(24)로부터 출력한다.

화상 처리 문자 인식부(140)는, CCD 카메라(20)에 의해 취득한 화상에 포함되는 문자열을 문자 패턴 데이터베이스(141)에 기초하여 식별한다. 문자 패턴 데이터베이스(141)에는, 히라가나, 가타카나, 한자, 알파벳, 기호류, 필요에 따라서 각국어의 문자 등의 화상 패턴이 저장되어 있다. 화상 처리 문자 식별부(140)는, CCD 카메라(20)로부터의 입력 화상과 문자 패턴 데이터베이스(141)에 저장되어 있는 화상 패턴 간에서 매칭을 행하고, 입력 화상에 포함되어 있는 문자열을 인식한다.

발음 정보 생성부(150)는, 화상 처리 문자 인식부(140)에서 인식된 문자열에 대응하는 발음 정보, 즉 문자열의 가나 읽기를 생성하고, 또한 그 발음 방법(읽는 법)을 생성한다. 예를 들면, 입력 화상으로부터「北品川」라는 문자열이 인식된 경우,「きたしながわ」라는 가나 읽기를 생성하고, PLU열에서「kitashinagawa」라는 발음 방법(읽는 법)을 생성한다.

단어 읽기 속성 테이블(151)은, 도 4에 도시한 바와 같이, 단어(문자열)와가나 읽기와 속성의 조(組)를 기술한 테이블이다. 속성이란,「지명」,「이름」,「동물」과 같이 단어가 갖는 의미를 나타낸다.

화상 처리 문자 인식부(140)에서 인식된 문자열이 이 테이블에 포함되어 있는 경우에는, 이 테이블로부터 가나 읽기를 추출함으로써, 가나 읽기로부터 그 문자열의 발음 방법(읽는 법)을 확정할 수 있다. 단어 읽기 속성 테이블(151)은, 음성 인식용 사전(121)과는 독립적으로 준비한다.

인식용 사전의 어휘 수에는, 인식 속도나 정밀도나 처리상의 사정으로 상한이 있지만(예를 들면 6만5536어), 단어 읽기 속성 테이블(151)에는 이들 제한과는 관계없이 단어를 기술할 수 있다. 이 단어 읽기 속성 테이블(151)은, 다른 언어 자원으로부터 유용하는 것도 가능하다. 예를 들면, 가나 한자 변환 프로그램이나 형태소 해석 프로그램 등에서 사용되고 있는 사전 등을 유용할 수도 있다.

문자 읽기 테이블(152)은, 도 6에 도시한 바와 같이, 문자와 가나 읽기와의 대응이 기술된 테이블이다. 기호나 알파벳이나 단(單)한자마다 가나 읽기를 기술해 둔다. 사용 가능한 문자 전부에 대하여 가나 읽기를 기술해 두면, 임의의 문자열에 대하여 가나 읽기로부터 발음 방법(읽는 법)을 부여하는 것이 가능하다.

읽기 부여 테이블(153)은, 2개의 테이블만으로는 가나 읽기를 부여할 수 없는 경우에 가나 읽기를 부여하기 위한 규칙이나, 가나 읽기를 특정할 수 없는 경우에, 이것을 특정하기 위한 규칙이 기술되어 있다. 예를 들면, 음독 및 훈독의 통일, 장음화에 관한 규칙, 연탁화의 규칙, 반복 기호에 관한 규칙, 영어 단어에 읽기를 부여하는 규칙이 있다.

구체적으로는, 장음화에 관한 규칙이란,「…おう(오우)」「…えい(에이)」등을「…お-(오-)」「…え-(에-)」등으로 변환하는 규칙이다. 이 규칙에 의해, 예를 들면,「とおきょう」는,「と-きょ-」로 변환된다. 연탁 현상의 규칙이란, 예를 들면,「品川口」의 읽기를「しながわ(品川)」와「くち(口)」라는 결합으로 생성하는 경우에,「くち」를 연탁시켜「ぐち」로 하는 규칙이다. 또한, 반복 기호에 관한 규칙이란,「」등의 반복 기호에 대응하여 가나 읽기를 붙이는 규칙이다. 또한, 영어 단어에 가나 읽기를 부여하는 규칙이란, 영어 단어의 어미에 "e"가 있는 경우에는, "e" 자체는, 발음하지 않는 대신에 이전의 모음을 모음으로 읽는 등의 규칙이다. 예를 들면, "take"에「テ-ク」라는 가나 읽기를 부여할 때, "a"에 대하여「エ-」라는 가나 읽기를 부여하고, "ke"에 대하여, 단순히「ク」라는 가나 읽기를 부여하는 규칙이다.

다음에, 인식용 사전에 신규 단어를 등록할 때의 처리를, 도 7을 참조하여 구체적으로 설명한다.

먼저, 단계 S1에서, 단어 등록을 위한 단어 등록 모드로 이행한다. 단어 등록 모드로의 이행은, 예를 들면, 로봇 장치(1)는, 사용자가 발하는「등록 모드」나「말을 기억해」등의 말을 트리거로 하여 단어 등록 모드로 이행한다. 이 밖에, 조작 버튼을 설치하고, 이 조작 버튼이 눌러졌을 때 단어 등록 모드로 이행하도록 하여도 된다.

단계 S2에서, 로봇 장치(1)는, 사용자에게 대하여, 등록하고자 하는 단어의 표기를 로봇 장치(1)의 CCD 카메라(20)의 앞에 제시하라는 지시 및/또는 제시 외에사용자가 등록하고자 하는 단어의 읽는 법을 발성하라는 지시를 재촉한다.

사용자에 대한 지시는, 로봇 장치(1)가 음성에 의해 지시하여도 되고, 또한, 표시부(도시 생략)에 지시 내용을 표시하는 경우이어도 된다. 여기서는,「北品川」라는 단어를 예로서 설명한다. 사용자에 의해 제시되는 문자는, 한자이어도 가나이어도 로마자 표기이어도 PLU열이어도 상관없다. 구체적으로는, 로봇 장치(1)는「北品川」,「きたしながわ」,「キタシナガワ」,「kitashinagawa」등의 어떠한 표기도 인식할 수 있다.

단계 S3에서, 로봇 장치(1)는 문자 제시만인지, 문자 제시와 함께 발화가 있는지를 판단한다. 문자 제시만인 경우에는 단계 S4로 진행하고, 문자 제시와 함께 발화가 있는 경우에는, 후술하는 단계 S8로 진행한다. 그것 이외, 즉, 발성만 인 경우에는, 종래와 마찬가지로 가비지 모델에 의한 인식 처리를 행한다.

먼저, 문자 제시만인 경우에 대하여 설명한다. 문자 제시만인 경우, 단계 S4에서, 로봇 장치(1)에서의 화상 처리 문자 인식부(140)는, CCD 카메라(20)에서 촬상된 화상에 어떠한 문자열이 포함되어 있는지를 문자 패턴 데이터베이스(141)에 기초하여, 문자 인식(OCR: 0ptical Charactor Recognition)한다. 여기서, 화상 처리 문자 인식부(140)는, 문자 인식 결과의 후보의 범위를 하나로 좁혀갈 수 없는 경우, 복수의 후보를 남긴다. 예를 들면,「北品川」라는 문자에 대하여「比晶川」라는 인식 결과가 얻어진 경우에는,「比晶川」도 남긴다.

계속해서, 단계 S5에서, 로봇 장치(1)에서의 발음 정보 생성부(150)는, 단계 S4에서의 인식 결과로서 얻어진 문자열에 대하여, 문자열의 발음 방법(읽는 법)을생성한다. 발음을 생성할 때의 상세는, 후술한다. 발음 생성 처리에 의해, 문자열에 대하여 발음 방법(읽는 법)이 부여된다. 인식된 문자열이 복수 있는 경우 및 /또는 1개의 문자열에 대하여 복수의 발음 방법이 있을 수 있는 경우에는, 모든 발음 패턴이 적용된다.

단계 S6에서, 로봇 장치(1)는, 상술한 바와 같이 생성된 문자열에 대한 발음방법(읽는 법)이 올바른지의 여부, 또는, 복수의 읽는 법 중 어느 것을 채용할 것인지를 사용자에게 확인한다. 발음 방법(읽는 법)이 한가지만인 경우에는,「읽는 법은, ○○이 옳습니까?」와 같이 질문한다. 사용자가「옳다」나「예」등의 응답으로 회답한 경우에는, 단계 S7로 진행한다.

또한, 발음 방법(읽는 법)이 복수개 있는 경우에는, 각각에 대하여「읽는 법은, ○○입니까?」와 같이 질문한다. 사용자가「옳다」나「예」등의 응답으로 회답한 읽는 법을 채용하여 단계 S7로 진행한다.

사용자로부터「아니오」등의 응답을 받은 경우, 즉, 올바른 읽는 법이 존재하지 않은 경우, 단계 S2 혹은 단계 S4의 처리까지 되돌아간다.

이상의 처리에 의해, 신규 단어의 읽기를 확정한 후, 단계 S7로 진행하고, 취득한 문자열과 이 문자열에 대한 발음 방법(읽는 법)을 대응시켜 신규 단어로서 인식용 사전에 등록한다. 신규 단어를 추가할 때, 도 4에 도시한 단어 심볼란에는, 제시된 문자의 인식 결과를 사용한다. 이 문자열에 대응하는 PLU열 란에는, 단계 S6에서 확정한 발음 방법(읽는 법)이 기술된다. 신규 단어를 등록한 후, 등록 모드를 종료한다. 그 후, 갱신된 인식용 사전을 음성 인식에 반영시키기 위한처리, 예를 들면, 음성 인식 프로그램의 재기동 등을 행한다.

한편, 단계 S3에서, 사용자가 문자를 제시함과 함께 표기한 문자를 발성한 경우에 대해 설명한다. 문자 제시와 함께 발화가 있는 경우에는, 양자로부터 얻어지는 정보를 협조적으로 사용함으로써 PLU열 등의 발음 정보를 정밀도 있게 생성하는 것이 가능하다.

구체적으로는, 문자 인식의 결과로부터 추정되는 복수의 문자와, 이들 각 문자로부터 추정되는 복수의 가나 읽기와, 각 가나 읽기에 대응하는 발음 방법(읽는 법)을 생성한다. 이와 같이 하여 얻어진 복수의 발음 방법(읽는 법)과 마이크(23)에서 취득한 사용자로부터의 발성을 매칭함으로써, 상술한 바와 같이 생성된 복수 후보 중에서 1개의 가나 읽기 및 발음 방법(읽는 법)을 특정한다.

문자 제시와 함께 발화가 있었던 경우, 단계 S8에서, 로봇 장치(1)에서의 화상 처리 문자 인식부(140)는, CCD 카메라(20)에서 촬상된 화상으로부터 문자 인식한다. 여기서, 화상 처리 문자 인식부(140)는, 문자 인식 결과의 후보의 범위를 하나로 좁혀갈 수 없는 경우, 복수의 후보를 남긴다.

계속해서, 단계 S9에서, 로봇 장치(1)에서의 발음 정보 생성부(150)는, 단계 S8에서의 인식 결과로서 얻어진 문자열에 대하여, 문자열의 가나 읽기를 생성한다. 발음 생성 처리에 의해, 문자열에 대하여 발음 방법(읽는 법)이 부여된다. 인식된 문자열이 복수 있는 경우 및/또는 1개의 문자열에 대하여 복수의 읽는 법이 가능한 경우에는, 모든 발음 패턴이 적용된다.

다음에, 단계 S10에서, 문자열과 발음 방법(읽는 법)으로부터, 일시적으로가상의 인식용 사전을 생성한다. 이 사전을 이하, 신규 단어용 인식용 사전이라 한다. 예를 들면, CCD 카메라(20)에 의해 촬상된「北品川」라는 문자가 화상 처리 문자 인식부(140)에서,「北品川」와「比晶川」의 2가지로 인식되었다고 하자. 음성 정보 생성부(150)는,「北品川」와「比晶川」에 가나 읽기를 부여한다. 「北品川」에는「きたしながわ(기따시나가와)」가 부여되고,「比晶川」에는「ひしょうがわ(히쇼가와」와「くらあきらがわ(구라아끼라가와)」의 2가지가 부여되며, 또한 양자의 발음 방법(읽는 법), 즉, PLU열이 생성된다. 이 경우의 신규 단어용 인식용 사전을 도 8에 도시한다.

단계 S11에서, 신규 단어용 인식용 사전을 이용하여, 사용자로부터의 발성에 대하여 음성 인식을 행한다. 여기서의 음성 인식은, 연속 음성 인식이 아니라, 단어 음성 인식이다. 신규 단어용 인식용 사전이 생성되는 것보다도 전에 사용자가 발화하고 있는 경우에는, 그 발화를 녹음해 놓고, 그 녹음 음성에 대하여 음성 인식을 행한다. 단계 S11에서의 음성 인식이란, 신규 단어용 인식용 사전에 등록되어 있는 단어 중에서 사용자의 발화와 음향적으로 가장 가까운 단어를 찾아 내는 것이다. 단, 단계 S11의 처리에서는, 단어 심볼이 동일하더라도, PLU열이 다른 경우에는 다른 단어라고 간주한다.

도 8에서는, 여기에 등록되어 있는 3단어(2개의「比晶川」는 별도의 단어라고 간주함) 중에서, 사용자의 발화인「きたしながわ(기따시나가와)」에 가장 가까운 단어를 찾아 내는 것이다. 결과적으로, 단어 심볼과 PLU열과의 조를 1개로 특정할 수 있다.

신규 단어용 인식용 사전 중에서 단어 심볼과 PLU열과의 조가 특정된다면, 단계 S7에서, 이것을 정규의 음성 인식용 사전(121)에 등록한다. 신규 단어를 등록한 후, 등록 모드를 종료한다. 그 후, 갱신된 인식용 사전을 음성 인식에 반영시키기 위한 처리, 예를 들면, 음성 인식 프로그램의 재기동 등을 행한다.

이상 설명한 처리에 의해, 로봇 장치(1)는 음성 인식용 사전(121)에 기억되어 있지 않은 단어를 신규 단어로서 등록할 수 있다.

상술한 단계 S5와 단계 S9에서의 문자열의 발음 방법(읽는 법)의 생성에 관하여, 도 9를 참조하여 상세히 설명한다.

먼저, 단계 S21에서, 화상 처리 문자 인식부(140)에 의해 인식된 문자열이 가나 문자만으로 구성되어 있는지의 여부를 조사한다. 단, 여기서의 가나 문자란, 히라가나·가타카나 외에 장음 기호「-」나 반복 기호「」등도 포함한다. 문자열이 가나 문자만으로 구성되어 있는 경우에는, 단계 S22에서, 인식된 가나 문자를 그 문자열의 읽는 법으로 한다. 이 때, 장음화 등의 발음을 약간 수정하는 경우도 있다.

한편, 단계 S21에서, 화상 처리 문자 인식부(140)에 의해 인식된 문자열이 가나 문자 이외의 문자를 포함하고 있는 경우, 단계 S23에서, 그 문자열이 단어 읽기 속성 테이블(151)에 포함되어 있는지의 여부를 판별한다.

문자열이 단어 읽기 속성 테이블(151)에 포함되어 있는 경우에는, 그 테이블로부터 가나 읽기를 취득하고, 또한 발음 방법(읽는 법)을 생성한다(단계 S24). 또한, 단어 읽기 속성 테이블(151)에 단어의 속성이 기술되어 있는 경우에는, 속성도 동시에 취득한다. 이 속성의 이용 방법에 대해서는, 후술한다.

문자열이 단어 읽기 속성 테이블(151)에 포함되어 있지 않은 경우, 단계 S25에서, 최장 일치법·분할 최소법, 문자 읽기 테이블(152)에 기초하는 읽기 부여, 및 읽기 부여 규칙에 기초하는 읽기 부여를 조합하여 가나 읽기를 취득한다.

최장 일치법·분할수 최소법이란, 단어 읽기 속성 테이블(151)에 포함되는 단어를 복수 조합함으로써 입력 문자열과 같은 것을 구성할 수 없는지 시험해 보는 방법이다. 예를 들면, 입력 문자열이「北品川驛前」인 경우, 이것이 단어 읽기 속성 테이블(151)에 포함되어 있지 않더라도「北品川」와「驛前」가 포함되어 있으면, 이들 조합으로부터「北品川驛前」를 구성할 수 있기 때문에, 결과적으로「きたしながわえきまえ(기따시나가와에끼마에)」라는 읽는 법을 취득할 수 있다. 구성 방법이 복수개 있는 경우에는, 보다 긴 단어가 포함되는 쪽을 우선하거나(최장 일치법), 보다 적은 단어로 구성할 수 있는 쪽을 우선하도록 하여(분할수 최소법) 구성 방법을 선택한다.

또한, 문자 읽기 테이블(152)에 기초하는 읽기 부여란, 문자열을 문자마다 분할하고, 분할한 문자마다 문자 읽기 테이블(152)로부터 가나 읽기를 취득하는 방법이다. 한자인 경우, 1개의 한자에는 복수의 가나 읽기를 부여할 수 있기 때문에, 문자열 전체로서의 가나 읽기는, 각 한자의 가나 읽기의 조합으로 된다. 그 때문에, 예를 들면, 「음독과 훈독은 혼재하기 어렵다」고 하는 등의 규칙을 이용하여 조합의 수를 줄이는 방법이다.

계속해서, 단계 S26에서, 상술한 각 방법에서 취득한 각각의 가나 읽기의 후보에 대하여 스코어 또는 신뢰도를 계산하고, 높은 것을 선택한다. 이에 따라, 입력된 문자열에 가나 읽기를 부여할 수 있다. 얻어진 가나 읽기로부터 발음 방법(읽는 법)을 생성한다.

단계 S22, 단계 S24, 단계 S26의 각각의 공정을 거친 후, 최종적으로, 단계 S27에서, 가나 읽기에 대한 발음 방법(읽는 법)을 장음화나 연탁화 등의 규칙에 기초하여 수정한다.

여기서, 단어 읽기 속성 테이블(151)에 대하여 상세히 설명한다. 음성 인식용 사전(121)에 단어를 신규 등록한 것 만으로는, 언어 모델(123)에 기록된 단어 간의 접속 규칙을 적용하는 것은 불가능하다. 예를 들면,「北品川」를 음성 인식용 사전(121)에 추가 등록하였다고 하여도, 그것만으로는「北品川」에 관한 문법이나「北品川」와 다른 단어와의 연쇄 확률 등은, 생성되지 않는다. 따라서, 신규 등록어에 언어 모델의 접속 규칙을 반영시키는 방법은, 이상적으로는, 문법을 추가하거나, 텍스트 데이터로부터 연쇄 확률을 다시 계산하거나 하여, 언어 모델을 재구성하는 것이지만, 이하에 설명하는 간이적인 방법에 의해 신규 등록 후에 언어 모델을 적용하는 것이 가능하다.

먼저, 언어 모델에 포함되어 있지 않은 단어에 <미지어(未知語)>라는 클래스명을 붙인다. 언어 모델에는 <미지어>와 다른 단어와의 연쇄 확률을 기술해 둔다. 신규 등록어는 <미지어>라고 간주하고, 이 신규 등록어와 다른 단어와의 연쇄 확률은 <미지어>와 다른 단어와의 연쇄 확률로부터 계산한다.

클래스란, 단어를 임의의 기준이나 속성에 따라서 분류한 것이다. 예를 들면, 의미에 따라 분류하여, 각각을 <지명>, <성명>, <국명>으로 명명하거나, 품사에 따라서 분류하여, 각각을 <명사>, <동사>, <형용사>라 명명하기도 한다.

언어 모델에는, 단어 간의 연쇄 확률을 기술하는 대신에 클래스 간의 연쇄 확률이나 클래스와 단어와의 연쇄 확률을 기술한다. 단어 간의 연쇄 확률을 구할 때는, 단어가 어떤 클래스에 속하는지를 조사하여, 다음에 대응하는 클래스에 대한 연쇄 확률을 구하고, 그로부터 단어 간의 연쇄 확률을 계산한다.

신규 등록어에 대해서도, 어떤 클래스에 속하는 단어인지를 등록 시에 추정함으로써 클래스 모델을 적용할 수 있다.

상술한 바와 같이 하면 미지어용 모델에서는, 신규 등록어에는, 전부 동일한 값의 연쇄 확률이 첨부된다. 그것에 대하여 클래스 모델에서는, 어떤 클래스에 속할지에 따라 각기 다른 값으로 된다. 그 때문에 일반적으로는, 신규 등록어에 대한 언어적 스코어는, 클래스 모델을 이용한 쪽이 보다 적절한 스코어로 되어, 결과적으로 적절하게 인식된다.

따라서, 음성 인식에 의한 단어 등록에서, 종래, 곤란하였던 클래스 명칭을, 용이하게 입력할 수 있다. 즉, 문자 인식으로 얻어진 문자열(단어)이 단어 읽기 속성 테이블(151)에 포함되어 있는 경우, 이 테이블의 속성란으로부터 클래스 명칭을 취득할 수 있다. 또, 도 5에 도시한 예에서는, 속성란에 속성을 1개밖에 기술하고 있지 않지만, 이것을「<지명>, <고유명사>, <역명>」과 같이 복수 기술할 수도 있다. 이 경우, 예를 들면, <지명>이라는 클래스가 존재하는 경우에는, <지명>, <고유명사>, <역명> 중에서, 클래스 명칭과 일치하는 분류명, 즉 <지명>을채용한다.

문자 인식에서는, 한 문자씩 인식하는 것보다도, 문자의 연쇄에 관한 정보를 포함하여 인식하는 쪽이 정밀도가 향상되는 경우가 있다. 따라서, 인식용 사전의「단어 심볼」란이나, 단어 읽기 속성 테이블(151)의「단어」란 등을 문자의 연쇄에 관한 정보로서 사용함으로써, 문자 인식의 정밀도를 더욱 향상시킬 수 있다.

그런데, 본 실시 형태로서의 로봇 장치(1)는, 내부 상태에 따라서 자율적으로 행동할 수 있는 로봇 장치이다. 로봇 장치(1)에서의 제어 프로그램의 소프트웨어 구성은, 도 10에 도시한 바와 같다. 이 제어 프로그램은, 상술한 바와 같이, 미리 플래시 ROM(12)에 저장되어 있으며, 로봇 장치(1)의 전원 투입 초기 시에 판독된다.

도 10에서, 디바이스 드라이버층(30)은, 제어 프로그램의 최하위층에 위치하며, 복수의 디바이스 드라이버로 이루어지는 디바이스 드라이버 세트(31)로 구성되어 있다. 이 경우, 각 디바이스 드라이버는, CCD 카메라(20)(도 2)나 타이머 등의 통상의 컴퓨터에서 이용되는 하드웨어에 직접 액세스하는 것이 허용된 오브젝트이며, 대응하는 하드웨어로부터의 인터럽트를 받아 처리를 행한다.

또한, 로보틱 서버 오브젝트(32)는, 디바이스 드라이버층(30)의 최하위층에 위치하고, 예를 들면 상술한 각종 센서나 액튜에이터(25₁∼25_n) 등의 하드웨어에액세스하기 위한 인터페이스를 제공하는 소프트웨어군으로 이루어지는 가상 로봇(33)과, 전원의 전환 등을 관리하는 소프트웨어군으로 이루어지는 파워매니저(34)와, 다른 다양한 디바이스 드라이버를 관리하는 소프트웨어군으로 이루어지는 디바이스 드라이버 매니저(35)와, 로봇 장치(1)의 기구를 관리하는 소프트웨어군으로 이루어지는 디자인된 로봇(36)으로 구성되어 있다.

매니저 오브젝트(37)는, 오브젝트 매니저(38) 및 서비스 매니저(39)로 구성되어 있다. 오브젝트 매니저(38)는, 로보틱 서버 오브젝트(32), 미들웨어층(40), 및 어플리케이션층(41)에 포함되는 각 소프트웨어군의 기동이나 종료를 관리하는 소프트웨어군이며, 서비스 매니저(39)는, 메모리 카드(28)(도 2)에 저장된 커넥션 파일에 기술되어 있는 각 오브젝트 간의 접속 정보에 기초하여 각 오브젝트의 접속을 관리하는 소프트웨어군이다.

미들웨어층(40)은, 로보틱 서버 오브젝트(32)의 상위층에 위치하며, 화상 처리나 음성 처리 등의 이 로봇 장치(1)의 기본적인 기능을 제공하는 소프트웨어군으로 구성되어 있다. 또한, 어플리케이션층(41)은, 미들웨어층(40)의 상위층에 위치하며, 해당 미들웨어층(40)을 구성하는 각 소프트웨어군에 의해 처리된 처리 결과에 기초하여 로봇 장치(1)의 행동을 결정하기 위한 소프트웨어군으로 구성되어 있다.

또, 미들웨어층(40) 및 어플리케이션층(41)의 구체적인 소프트웨어 구성을 도 11에 도시한다.

미들웨어층(40)은, 도 11에 도시한 바와 같이, 소음 검출용, 온도 검출용, 밝기 검출용, 음계 인식용, 거리 검출용, 자세 검출용, 터치 센서용, 움직임 검출용 및 색 인식용의 각 신호 처리 모듈(50∼58)과 입력 세만틱스 컨버터 모듈(59)등을 갖는 인식계(60)와, 출력 세만틱스 컨버터 모듈(68)과 자세 관리용, 트랙킹용, 모션 재생용, 보행용, 전도 복귀용, LED 점등용 및 소리 재생용의 각 신호 처리 모듈(61∼67) 등을 갖는 출력계(69)로 구성되어 있다.

인식계(60)의 각 신호 처리 모듈(50∼58)은, 로보틱 서버 오브젝트(32)의 가상 로봇(33)에 의해 DRAM(11)(도 2)으로부터 판독되는 각 센서 데이터나 화상 데이터 및 음성 데이터 중의 대응하는 데이터를 취득하고, 해당 데이터에 기초하여 소정의 처리를 실시하고, 처리 결과를 입력 세만틱스 컨버터 모듈(59)에 제공한다. 여기서, 예를 들면, 가상 로봇(33)은, 소정의 통신 규약에 의해, 신호의 수수 혹은 변환을 하는 부분으로서 구성되어 있다.

입력 세만틱스 컨버터 모듈(59)은, 이들 각 신호 처리 모듈(50∼58)로부터 주어지는 처리 결과에 기초하여,「시끄럽다」,「덥다」,「밝다」,「볼을 검출하였다」,「전도를 검출하였다」,「쓰다듬어졌다」,「맞았다」,「도미솔의 음계가 들렸다」,「움직이는 물체를 검출하였다」또는「장해물을 검출하였다」등의 자신 및 주위 상황이나, 사용자로부터의 명령 및 활동 작용을 인식하고, 그 인식 결과를 어플리케이션층(41)으로 출력한다.

어플리케이션층(41)은, 도 12에 도시한 바와 같이, 행동 모델 라이브러리(70), 행동 전환 모듈(71), 학습 모듈(72), 감정 모델(73) 및 본능 모델(74)의 5개의 모듈로 구성되어 있다.

행동 모델 라이브러리(70)에는, 도 13에 도시한 바와 같이,「배터리 잔량이 적어진 경우」,「전도 복귀하는 경우」,「장해물을 회피하는 경우」,「감정을 표현하는 경우」,「볼을 검출한 경우」 등의 미리 선택된 몇몇 조건 항목에 각각 대응시켜, 각각 독립된 행동 모델이 설정되어 있다.

그리고, 이들 행동 모델은, 각각 입력 세만틱스 컨버터 모듈(59)로부터 인식 결과가 주어졌을 때나, 최후의 인식 결과가 주어지고 나서 일정 시간이 경과했을 때 등에, 필요에 따라서 후술하는 바와 같이 감정 모델(73)에 보존되어 있는 대응하는 정서의 파라미터값이나, 본능 모델(74)에 보존되어 있는 대응하는 욕구의 파라미터값을 참조하면서 후속하는 행동을 각각 결정하고, 그 결정 결과를 행동 전환 모듈(71)로 출력한다.

또한, 본 실시예의 경우, 각 행동 모델은, 다음의 행동을 결정하는 방법으로서, 도 14에 도시한 바와 같은 하나의 노드(상태) NODE₀∼NODE_n로부터 다른 어떤 노드 NODE₀∼NODE_n로 천이할지를 각 노드 NODE₀∼NODE_n간을 접속하는 아크 ARC₁∼ARC_n에 대하여 각각 설정된 천이 확률 P₁∼P_n에 기초하여 확률적으로 결정하는 유한 확률 오토마톤이라 불리는 알고리즘을 이용한다.

구체적으로, 각 행동 모델은, 각각 자기의 행동 모델을 형성하는 노드 NODE₀∼NODE_n에 각각 대응시켜, 이들 노드 NODE₀∼NODE_n마다 도 15에 도시한 바와 같은 상태 천이표(80)를 갖고 있다.

이 상태 천이표(80)에서는, 그 노드 NODE₀∼NODE_n에서 천이 조건으로 하는 입력 이벤트(인식 결과)가「입력 이벤트명」의 행에 우선순으로 열기되고, 그 천이조건에 대한 또 다른 조건이「데이터명」및「데이터의 범위」의 행에서의 대응하는 열에 기술되어 있다.

따라서, 도 15의 상태 천이표(80)에서 표시되는 노드 NODE₁₀₀에서는,「볼을 검출(BALL)」이라는 인식 결과가 주어진 경우에, 해당 인식 결과와 함께 주어지는 그 볼의「크기(SIZE)」가「0 내지 100」의 범위인 것이나,「장해물을 검출(OBSTACLE)」이라는 인식 결과가 주어진 경우에, 해당 인식 결과와 함께 주어지는 그 장해물까지의「거리(DISTANCE)」가「0 내지 100」의 범위인 것이 다른 노드로 천이하기 위한 조건으로 되어 있다.

또한, 이 노드 NODE₁₀₀에서는, 인식 결과의 입력이 없는 경우에도, 행동 모델이 주기적으로 참조하는 감정 모델(73) 및 본능 모델(74)에 각각 보존된 각 정서 및 각 욕구의 파라미터값 중, 감정 모델(73)에 보존된「기쁨(JOY)」, 「놀람(SURPRISE)」혹은「슬픔(SADNESS)」중 어느 하나의 파라미터값이「50 내지 100」의 범위일 때에는 다른 노드로 천이할 수 있도록 되어 있다.

또한, 상태 천이표(80)에서는,「다른 노드로의 천이 확률」란에서의「천이처 노드」의 열에 그 노드 NODE₀∼NODE_n로부터 천이할 수 있는 노드명이 열기되어 있음과 함께,「입력 이벤트명」,「데이터명」및「데이터의 범위」의 행에 기술된 모든 조건이 갖추어졌을 때 천이할 수 있는 다른 각 노드 NODE₀∼NODE_n로의 천이 확률이「다른 노드로의 천이 확률」란 내의 대응하는 개소에 각각 기술되고, 그 노드NODE₀∼NODE_n로 천이할 때 출력하여야 할 행동이「다른 노드로의 천이 확률」란에서의「출력 행동」의 행에 기술되어 있다. 또한,「다른 노드로의 천이 확률」란에서의 각 행의 확률의 합은 100[%]로 되어 있다.

따라서, 도 15의 상태 천이표(80)에서 표시되는 노드 NODE₁₀₀에서는, 예를 들면「볼을 검출(BALL)」하고, 그 볼의「SIZE(크기)」가「0 내지 1000」의 범위라고 하는 인식 결과가 주어진 경우에는,「30[%]」의 확률로「노드 NODE₁₂₀(node120)」로 천이할 수 있고, 그 때「ACTION1」의 행동이 출력되게 된다.

각 행동 모델은, 각각 이러한 상태 천이표(80)로서 기술된 노드 NODE₀∼NODE_n이 몇개 연결되도록 하여 구성되어 있고, 입력 세만틱스 컨버터 모듈(59)로부터 인식 결과가 주어졌을 때 등에, 대응하는 노드 NODE₀∼NODE_n의 상태 천이표를 이용하여 확률적으로 다음의 행동을 결정하고, 그 결정 결과를 행동 전환 모듈(71)로 출력하도록 이루어져 있다.

도 12에 도시한 행동 전환 모듈(71)은, 행동 모델 라이브러리(70)의 각 행동 모델로부터 각각 출력되는 행동 중, 미리 정해진 우선 순위가 높은 행동 모델로부터 출력된 행동을 선택하고, 해당 행동을 실행하여야 한다는 취지의 커맨드(이하, 이것을 행동 커맨드라 함)를 미들웨어층(40)의 출력 세만틱스 컨버터 모듈(68)로 송출한다. 또, 본 실시 형태에서는, 도 13에서 하측에 표기된 행동 모델만큼 우선 순위가 높게 설정되어 있다.

또한, 행동 전환 모듈(71)은, 행동 완료 후에 출력 세만틱스 컨버터 모듈(68)로부터 주어지는 행동 완료 정보에 기초하여, 그 행동이 완료한 것을 학습 모듈(72), 감정 모델(73) 및 본능 모델(74)에 통지한다.

한편, 학습 모듈(72)은, 입력 세만틱스 컨버터 모듈(59)로부터 주어지는 인식 결과 중,「맞았다」나「쓰다듬어졌다」등, 사용자로부터의 활동 작용으로서 받은 교시의 인식 결과를 입력한다.

그리고, 학습 모듈(72)은, 이 인식 결과 및 행동 전환 모듈(71)로부터의 통지에 기초하여,「맞았다(꾸중들었다)」일 때에는 그 행동의 발현 확률을 저하시키고,「쓰다듬어졌다(칭찬 받았다)」일 때에는 그 행동의 발현 확률을 상승시키도록, 행동 모델 라이브러리(70)에서의 대응하는 행동 모델의 대응하는 천이 확률을 변경한다.

한편, 감정 모델(73)은,「기쁨(joy)」,「슬픔(sadness)」,「분노(anger)」, 「놀람(surprise)」,「혐오(disgust)」및「두려움(fear)」의 합계 6개의 정서에 대하여, 각 정서마다 그 정서의 강함을 표시하는 파라미터를 보존하고 있다. 그리고, 감정 모델(73)은, 이들 각 정서의 파라미터값을, 각각 입력 세만틱스 컨버터 모듈(59)로부터 주어지는「맞았다」및「쓰다듬어졌다」등의 특정한 인식 결과와, 경과 시간 및 행동 전환 모듈(71)로부터의 통지 등에 기초하여 주기적으로 갱신한다.

구체적으로는, 감정 모델(73)은, 입력 세만틱스 컨버터 모듈(59)로부터 주어지는 인식 결과와, 그 때의 로봇 장치(1)의 행동과, 전회 갱신하고 나서의 경과 시간 등에 기초하여 소정의 연산식에 의해 산출되는 그 때의 그 정서의 변동량을 ΔE [t], 현재의 그 정서의 파라미터값을 E [t], 그 정서의 감도를 나타내는 계수를 k_e로 하여, 수학식 1에 의해 다음의 주기에서의 그 정서의 파라미터값 E[t+1]를 산출하고, 이것을 현재의 그 정서의 파라미터값 E[t]과 치환하도록 하여 그 정서의 파라미터값을 갱신한다. 또한, 감정 모델(73)은, 이것과 마찬가지로 하여 모든 정서의 파라미터값을 갱신한다.

또, 각 인식 결과나 출력 세만틱스 컨버터 모듈(68)로부터의 통지가 각 정서의 파라미터값의 변동량 ΔE[t]에 어느 정도의 영향을 줄지는 미리 결정되어 있고, 예를 들면「맞았다」라는 인식 결과는「분노」의 정서 파라미터값의 변동량 ΔE[t]에 큰 영향을 주고,「쓰다듬어졌다」라는 인식 결과는「기쁨」의 정서 파라미터값의 변동량 ΔE[t]에 큰 영향을 주도록 되어 있다.

여기서, 출력 세만틱스 컨버터 모듈(68)로부터의 통지란, 소위 행동의 피드백 정보(행동 완료 정보)로서, 행동의 출현 결과의 정보이며, 감정 모델(73)은, 이러한 정보에 의해서도 감정을 변화시킨다. 이것은, 예를 들면,「짖는다」라고 한 행동에 의해 분노의 감정 레벨이 내려간다고 하는 것이다. 또한, 출력 세만틱스 컨버터 모듈(68)로부터의 통지는, 상술한 학습 모듈(72)에도 입력되어 있고, 학습 모듈(72)은, 그 통지에 기초하여 행동 모델의 대응하는 천이 확률을 변경한다.

또한, 행동 결과의 피드백은, 행동 전환 모듈(71)의 출력(감정이 부가된 행동)에 의해 이루어지는 것이어도 된다.

한편, 본능 모델(74)은, 「운동욕(exercise)」,「애정욕(affection)」,「식욕(appetite)」및「호기심(curiosity)」의 상호 독립된 4개의 욕구에 대하여, 이들 욕구마다 그 욕구의 강도를 나타내는 파라미터를 보존하고 있다. 그리고, 본능 모델(74)은, 이들 욕구의 파라미터값을, 각각 입력 세만틱스 컨버터 모듈(59)로부터 주어지는 인식 결과나, 경과 시간 및 행동 전환 모듈(71)로부터의 통지 등에 기초하여 주기적으로 갱신한다.

구체적으로는, 본능 모델(74)은,「운동욕」,「애정욕」및「호기심」에 대해서는, 인식 결과, 경과 시간 및 출력 세만틱스 컨버터 모듈(68)로부터의 통지 등에 기초하여 소정의 연산식에 의해 산출되는 그 때의 그 욕구의 변동량을 ΔI[k], 현재의 그 욕구의 파라미터값을 I[k], 그 욕구의 감도를 나타내는 계수를 k_i로 하여, 소정 주기로 수학식 2를 이용하여 다음의 주기에서의 그 욕구의 파라미터값 I[k+1]을 산출하고, 이 연산 결과를 현재의 그 욕구의 파라미터값 [k]과 치환하도록 하여 그 욕구의 파라미터값을 갱신한다. 또한, 본능 모델(74)은, 이것과 마찬가지로 하여 「식욕」을 제외한 각 욕구의 파라미터값을 갱신한다.

또한, 인식 결과 및 출력 세만틱스 컨버젼 모듈(68)로부터의 통지 등이 각욕구의 파라미터값의 변동량 ΔI[k]에 어느 정도의 영향을 줄지는 미리 결정되어 있어서, 예를 들면 출력 세만틱스 컨버터 모듈(68)로부터의 통지는,「피로」의 파라미터값의 변동량 ΔI[k]에 큰 영향을 주도록 되어 있다.

또한, 본 실시예에서는, 각 정서 및 각 욕구(본능)의 파라미터값이 각각 0 내지 100까지의 범위에서 변동하도록 규제되어 있고, 또한 계수 k_e, k_i의 값도 각 정서 및 각 욕구마다 개별로 설정되어 있다.

한편, 미들웨어층(40)의 출력 세만틱스 컨버터 모듈(68)은, 도 11에 도시한 바와 같이, 상술한 바와 같이 하여 어플리케이션층(41)의 행동 전환 모듈(71)로부터 주어지는「전진」,「기뻐한다」,「운다」또는「트랙킹(볼을 쫓아간다)」이라는 추상적인 행동 커맨드를 출력계(69)의 대응하는 신호 처리 모듈(61∼67)에 공급한다.

그리고 이들 신호 처리 모듈(61∼67)은, 행동 커맨드가 주어지면 해당 행동 커맨드에 기초하여, 그 행동을 행하기 위해 대응하는 액튜에이터(25₁∼25_n)(도 2)에 공급해야 되는 서보 명령값, 스피커(24)(도 2)로부터 출력하는 음의 음성 데이터, 및, 또는「눈」의 LED에 공급하는 구동 데이터를 생성하고, 이들 데이터를 로보틱 서버 오브젝트(32)의 버츄얼 로봇(33) 및 신호 처리 회로(14)(도 2)를 순차적으로 통해 대응하는 액튜에이터(25₁∼25_n) 또는 스피커(24) 또는 LED로 순차 송출한다.

이와 같이 하여 로봇 장치(1)는, 제어 프로그램에 기초하여, 자신(내부) 및 주위(외부) 상황이나, 사용자로부터의 지시 및 활동 작용에 대응한 자율적인 행동을 행할 수 있다. 따라서, 상술한 문자 인식 처리를 실행하기 위해 프로그램을 구비하고 있지 않은 로봇 장치에 대해서도, 문자 인식 처리에 의해 화상으로부터 추출한 문자의 발음 방법을 음성 인식 처리에 의해 주위의 소리로부터 인식된 음성에 기초하여 결정하는 처리를 실행하기 위한 제어 프로그램을 판독하게 함으로써, 도 7에 도시한 문자 인식 처리를 실행시킬 수 있다.

이러한 제어 프로그램은, 로봇 장치가 판독 가능한 형식으로 기록된 기록 매체를 통하여 제공된다. 제어 프로그램을 기록하는 기록 매체로서는, 자기 판독 방식의 기록 매체(예를 들면, 자기 테이프, 플로피(등록상표) 디스크, 자기 카드), 광학 판독 방식의 기록 매체(예를 들면, CD-ROM, MO, CD-R, DVD) 등이 고려된다. 기록 매체에는, 반도체 메모리(소위 메모리 카드(직사각형 형상, 정사각형 형상 등 형상은 문제삼지 않음), IC 카드) 등의 기억 매체도 포함된다. 또한, 제어 프로그램은, 소위 인터넷 등을 통해 제공되어도 된다.

이들 제어 프로그램은, 전용의 판독 드라이버 장치, 또는 퍼스널 컴퓨터 등을 통해 재생되고, 유선 또는 무선 접속에 의해 로봇 장치(1)에 전송되어 판독된다. 또한, 로봇 장치는, 반도체 메모리, 또는 IC 카드 등의 소형화된 기억 매체의 드라이브 장치를 구비하는 경우, 이들 기억 매체로부터 제어 프로그램을 직접 판독하는 것도 가능하다. 로봇 장치(1)에서는, 메모리 카드(28)로부터 판독할 수 있다.

또, 본 발명은, 상술한 실시 형태에만 한정되는 것이 아니며, 본 발명의 요지를 일탈하지 않는 범위에서 다양한 변경이 가능한 것은 물론이다. 본 실시 형태에서는, 4족 보행의 로봇 장치에 관하여 설명하였지만, 로봇 장치는, 2족 보행이어도 되며, 또한, 이동 수단은, 각식 이동 방식에 한정되지 않는다.

이하에, 본 발명의 다른 실시 형태로서의 인간형 로봇 장치의 상세에 대하여 설명한다. 도 16 및 도 17에는, 인간형 로봇 장치(200)를 전방 및 후방의 각각으로부터 바라본 모습을 도시하고 있다. 또한, 도 18에는, 이 인간형 로봇 장치(200)가 구비하는 관절 자유도 구성을 모식적으로 도시하고 있다.

도 16에 도시한 바와 같이, 인간형 로봇 장치(200)는, 각식 이동을 행하는 좌우 2족의 하지(201R, 201L)와, 체간부(202)와, 좌우의 상지(203R, 203L)와, 머리부(204)로 구성된다.

좌우 각각의 하지(201R, 201L)는, 대퇴부(205R, 205L)와, 무릎 관절(206R, 206L)과, 정강이부(207R, 207L)와, 발목(208R, 208L)과, 발바닥(209R, 209L)으로 구성되고, 고관절(210R, 210L)에 의해 체간부(202)의 대략 최하단에서 연결되어 있다. 또한, 좌우 각각의 상지(203R, 203L)는, 상박(211R, 211L)과, 팔꿈치 관절(212R, 212L)과, 전박(213R, 213L)으로 구성되고, 어깨 관절(214R, 214L)에 의해 체간부(202) 상측의 좌우 측연에서 연결되어 있다. 또한, 머리부(204)는, 목관절(255)에 의해 체간부(202)의 대략 최상단 중앙에 연결되어 있다.

머리부(204)를 지지하는 목관절 요우축(302)과, 목관절 피치축(303)과, 목관절 롤축(304)이라는 3자유도를 갖고 있다.

또한, 팔의 관절은, 어깨 관절 피치축(308)과, 어깨 관절 롤축(309)과, 상박요우축(310)과, 팔꿈치 관절 피치축(311)과, 전박 요우축(312)과, 손목 관절 피치축(313)과, 손목 관절 롤륜(314)과, 손부(315)로 구성된다. 손부(315)는, 실제로는, 복수 라인의 손가락을 포함하는 다관절·다자유도 구조체이다. 단, 손부(315)의 동작은 인간형 로봇 장치(200)의 자세 제어나 보행 제어에 대한 기여나 영향이 적기 때문에, 본 명세서에서는 제로(0) 자유도라고 가정한다. 따라서, 각 팔부는 7자유도를 갖도록 한다.

또한, 체간부는, 체간 피치축(305)과, 체간 롤축(306)과, 체간 요우축(307)이라는 3자유도를 갖는다.

또한, 하지를 구성하는 각각의 다리부는, 고관절 요우축(316)과, 고관절 피치축(317)과, 고관절 롤축(318)과, 무릎 관절 피치축(319)과, 발목 관절 피치축(320)과, 발목 관절 롤축(321)과, 발부(322)로 구성된다. 본 명세서 중에서는, 고관절 피치축(317)과 고관절 롤축(318)의 교점은, 인간형 로봇 장치(200)의 고관절 위치를 정의한다. 인체의 발부(322)는, 실제로는 다관절·다자유도의 발 바닥을 포함한 구조체이지만, 인간형 로봇 장치(200)의 발바닥은 제로(0) 자유도로 한다. 따라서, 각 다리부는 6자유도로 구성된다.

이상을 총괄하면, 인간형 로봇 장치(200) 전체로서는, 합계 3+7×2+3+6×2=32 자유도를 갖게 된다. 단, 엔터테인먼트를 위한 인간형 로봇 장치(200)가 반드시 32자유도에 한정되는 것은 아니다. 설계·제작 상의 제약 조건이나 요구 사양 등에 따라서, 자유도 즉 관절 수를 적절하게 증감할 수 있는 것은 물론이다.

상술한 바와 같은 인간형 로봇 장치(200)가 갖는 각 자유도는, 실제로는 액튜에이터를 이용하여 실장된다. 외관상 지나치게 불거지는 것을 배제하여 인간의 자연체형상에 근사시키는 것, 2족 보행이라는 불안정한 구조체에 대하여 자세 제어를 행하는 것 등의 요청으로부터, 액튜에이터는 소형이면서 경량인 것이 바람직하다.

도 19에는, 인간형 로봇 장치(200)의 제어 시스템 구성을 모식적으로 도시하고 있다. 도 19에 도시한 바와 같이, 인간형 로봇 장치(200)는, 인간의 사지를 표현한 각 기구 유닛(330, 340, 350R/L, 360R/L)와, 각 기구 유닛 간의 협조 동작을 실현하기 위한 적응 제어를 행하는 제어 유닛(380)으로 구성된다(단, R 및 L의 각각은, 우측 및 좌측의 각각을 나타내는 접미사임. 이하 동일).

인간형 로봇 장치(200) 전체의 동작은, 제어 유닛(380)에 의해 통괄적으로 제어된다. 제어 유닛(380)은, CPU(Central Processing Unit)나 메모리 등의 주요 회로 컴포넌트(도시 생략)로 구성되는 주 제어부(381)와, 전원 회로나 인간형 로봇 장치(200)의 각 구성 요소와의 데이터나 커맨드의 수수를 행하는 인터페이스(모두 도시 생략) 등을 포함한 주변 회로(382)로 구성된다. 이 제어 유닛(380)의 설치 장소는, 특별히 한정되지 않는다. 도 19에서는 체간부 유닛(340)에 탑재되어 있지만, 머리부 유닛(330)에 탑재하여도 된다. 혹은, 인간형 로봇 장치(200) 외부에 제어 유닛(380)을 구비하고, 인간형 로봇 장치(200)의 기체와는 유선 혹은 무선으로 교신하도록 하여도 된다.

도 19에 도시한 인간형 로봇 장치(200) 내의 각 관절 자유도는, 각각에 대응하는 액튜에이터에 의해 실현된다. 즉, 머리부 유닛(330)에는, 목관절요우축(302), 목관절 피치(303), 목관절 롤축(304)의 각각을 표현하는 목관절 요우축 액튜에이터 A₂, 목관절 피치축 액튜에이터 A₃, 목관절 롤축 액튜에이터 A₄가 배치되어 있다.

또한, 머리부 유닛(330)에는, 외부의 상황을 촬상하기 위한 CCD 카메라가 설치되어 있는 외에, 전방에 위치하는 물체까지의 거리를 측정하기 위한 거리 센서, 외부음을 집음하기 위한 마이크, 음성을 출력하기 위한 스피커, 사용자로부터의「쓰다듬음」나「때림」등의 물리적인 활동 작용에 의해 받은 압력을 검출하기 위한 터치 센서 등이 배치되어 있다.

또한, 체간부 유닛(340)에는, 체간 피치축(305), 체간 롤축(306), 체간 요우축(307)의 각각을 표현하는 체간 피치축 액튜에이터 A₅, 체간 롤축 액튜에이터 A₆,체간 요우축 액튜에이터 A₇가 배치되어 있다. 또한, 체간부 유닛(340)에는, 이 인간형 로봇 장치(200)의 기동 전원이 되는 배터리를 구비하고 있다. 이 배터리는, 충방전 가능한 전지로 구성되어 있다.

또한, 팔부 유닛(350R/L)은, 상박 유닛(351R/L)과, 팔꿈치 관절 유닛(352R/L)과, 전박 유닛(353R/L)으로 세분화되는데, 어깨 관절 피치축(308), 어깨 관절 롤축(309), 상박 요우축(310), 팔꿈치 관절 피치축(311), 전박 요우축(312), 손목 관절 피치축(313), 손목 관절 롤축(314)이 각각 표현하는 어깨 관절 피치축 액튜에이터 A₈, 어깨 관절 롤축 액튜에이터 A₉, 상박 요우축 액튜에이터 A₁₀, 팔꿈치 관절 피치축 액튜에이터 A₁₁, 팔꿈치 관절 롤축 액튜에이터 A₁₂, 손목 관절 피치축 액튜에이터 A₁₃, 손목 관절 롤축 액튜에이터 A₁₄가 구비되어 있다.

또한, 다리부 유닛(360R/L)은, 대퇴부 유닛(361R/L)과, 무릎 유닛(362R/L)과, 정강이부 유닛(363R/L)으로 세분화되는데, 고관절 요우축(316), 고관절 피치축(317), 고관절 롤축(318), 무릎 관절 피치축(319), 발목 관절 피치축(320),발목 관절 롤축(321)의 각각을 표현하는 고관절 요우축 액튜에이터 A₁₆, 고관절 피치축 액튜에이터 A₁₇, 고관절 롤축 액튜에이터 A₁₈, 무릎 관절 피치축 액튜에이터 A₁₉, 발목 관절 피치축 액튜에이터 A₂₀, 발목 관절 롤축 액튜에이터 A₂₁가 구비되어 있다. 각 관절에 이용되는 액튜에이터 A₂, A_3,…는, 보다 바람직하게는, 기어 직결형상이며 또한 서보 제어계를 원칩화하여 모터 유닛 내에 탑재한 타입의 소형 AC 서보 액튜에이터로 구성할 수 있다.

머리부 유닛(330), 체간부 유닛(340), 팔부 유닛(350), 각 다리부 유닛(360) 등의 각 기구 유닛마다, 액튜에이터 구동 제어부의 부 제어부(335, 345, 355R/L, 365R/L)가 구비되어 있다. 또한, 각 다리부(360R, L)의 발바닥이 바닥에 닿았는지의 여부를 검출하는 접지 확인 센서(391 및 392)를 장착함과 함께, 체간부 유닛(340) 내에는, 자세를 계측하는 자세 센서(393)를 장비하고 있다.

접지 확인 센서(391 및 392)는, 예를 들면 발 바닥에 설치된 근접 센서 또는 마이크로 스위치 등으로 구성된다. 또한, 자세 센서(393)는, 예를 들면, 가속도센서와 자이로 센서의 조합으로 구성된다.

접지 확인 센서(391 및 392)의 출력에 의해, 보행 및 주행 등의 동작 기간 중에, 좌우의 각 다리부가 현재 입각(立脚) 또는 유각(游脚) 중 어느 상태인지를 판별할 수 있다. 또한, 자세 센서(393)의 출력에 의해, 체간 부분의 기울기나 자세를 검출하는 것이 가능하다.

주 제어부(381)는, 각 센서(391∼393)의 출력에 응답하여 제어 목표를 동적으로 보정하는 것이 가능하다. 보다 구체적으로는, 부 제어부(335, 345, 355R/L, 365R/L)의 각각에 대하여 적응적인 제어를 행하고, 인간형 로봇 장치(200)의 상지, 체간, 및 하지가 협조하여 구동하는 전신 운동 패턴을 실현할 수 있다.

인간형 로봇 장치(200)의 기체 상에서의 전신 운동은, 발부 운동, ZMP(Zero Moment Point) 궤도, 체간 운동, 상지 운동, 허리부 높이 등을 설정함과 함께, 이들의 설정 내용에 따른 동작을 지시하는 커맨드를 각부 제어부(335, 345, 355R/L, 365R/L)로 전송한다. 그리고, 각각의 부 제어부(335, 345, …) 등에서는, 주 제어부(381)로부터의 수신 커맨드를 해석하여, 각 액튜에이터 A₂, A₃, …등에 대하여 구동 제어 신호를 출력한다. 여기서 말하는「ZMP」란, 보행 중의 상반력(床反力)에 의한 모멘트가 제로(0)로 되는 바닥면 위의 점이며, 또한,「ZMP 궤도」란, 예를 들면 인간형 로봇 장치(200)의 보행 동작 기간 중에 ZMP가 움직이는 궤적을 의미한다.

보행 시에는, 중력과 보행 운동에 수반하여 생기는 가속도에 의해, 보행계로부터 노면에는 중력과 관성력 및 이들 모멘트가 작용한다. 소위「달랑베르의 원리(D'Alembert's principle)」에 의하면, 이들은 노면으로부터 보행계로의 반작용으로서의 상반력, 상반력 모멘트와 밸런스한다. 역학적 추론의 귀결로서, 발바닥 접지점과 노면이 형성하는 지지 다각형의 변 위 혹은 그 내측에 피치 및 롤축 모멘트가 제로(0)로 되는 점, 즉「ZMP(Zero Moment Point)」가 존재한다.

각식 이동 로봇의 자세 안정 제어나 보행 시의 전도 방지에 관한 제안의 대부분은, 이 ZMP를 보행의 안정도 판별의 규범으로서 이용한 것이다. ZMP 규범에 기초하는 2족 보행 패턴 생성은, 발바닥 착지점을 미리 설정할 수가 있어, 노면 형상에 따른 발끝의 운동학적 구속 조건을 고려하기 쉽다는 등의 이점이 있다. 또한, ZMP를 안정도 판별 규범으로 하는 것은, 힘이 아니라 궤도를 운동 제어 상의 목표값으로서 취급하는 것을 의미하므로, 기술적으로 실현 가능성이 높아진다. 또, ZMP의 개념 및 ZMP를 보행 로봇의 안정도 판별 규범에 적용하는 점에 대해서는, Miomir Vukobratovic의 저서인 "LEGGED LOCOMOTION ROBOTS" (가또이찌로 외의 저서인『보행 로봇과 인공의 발』(日刊工業新聞社))에 기재되어 있다.

일반적으로는, 4족 보행보다도 휴머노이드와 같은 2족 보행 로봇의 쪽이, 무게 중심 위치가 높고, 또한, 보행 시의 ZMP 안정 영역이 좁다. 따라서, 이러한 노면 상태의 변화에 수반하는 자세 변동의 문제는, 2족 보행 로봇에 있어서 특히 중요하게 된다.

이상과 같이, 인간형 로봇 장치(200)는, 각각의 부 제어부(335, 345, …) 등이, 주 제어부(381)로부터의 수신 커맨드를 해석하여, 각 액튜에이터 A₂, A₃, …에 대하여 구동 제어 신호를 출력하여, 각 유닛의 구동을 제어하고 있다. 이에 따라, 인간형 로봇 장치(200)는, 목표의 자세로 안정적으로 천이하고, 안정된 자세로 보행할 수 있다.

또한, 인간형 로봇 장치(200)에서의 제어 유닛(380)에서는, 상술한 바와 같은 자세 제어 외에, 가속도 센서, 터치 센서, 접지 확인 센서 등의 각종 센서, 및 CCD 카메라로부터의 화상 정보, 마이크로부터의 음성 정보 등을 총괄하여 처리하고 있다. 제어 유닛(380)에서는, 도시하지 않지만 가속도 센서, 나침반 센서, 터치 센서, 거리 센서, 마이크, 스피커 등의 각종 센서, 각 액튜에이터, CCD 카메라 및 배터리가 각각 대응하는 허브를 통해 주 제어부(381)와 접속되어 있다.

주 제어부(381)는, 상술한 각 센서로부터 공급되는 센서 데이터나 화상 데이터 및 음성 데이터를 순차적으로 취득하고, 이들을 각각 내부 인터페이스를 통해 DRAM 내의 소정 위치에 순차 저장한다. 또한, 주 제어부(381)는, 배터리로부터 공급되는 배터리 잔량을 나타내는 배터리 잔량 데이터를 순차적으로 취득하고, 이것을 DRAM 내의 소정 위치에 저장한다. DRAM에 저장된 각 센서 데이터, 화상 데이터, 음성 데이터 및 배터리 잔량 데이터는, 주 제어부(381)가 이 인간형 로봇 장치(200)의 동작 제어를 행할 때 이용된다.

주 제어부(381)는, 인간형 로봇 장치(200)의 전원이 투입된 초기 시, 제어 프로그램을 판독하고, 이것을 DRAM에 저장한다. 또한, 주 제어부(381)는, 상술한바와 같이 주 제어부(381)에 의해 DRAM에 순차 저장되는 각 센서 데이터, 화상 데이터, 음성 데이터 및 배터리 잔량 데이터에 기초하여 자신 및 주위 상황이나, 사용자로부터의 지시 및 활동 작용의 유무 등을 판단한다. 또한, 주 제어부(381)는, 이 판단 결과 및 DRAM에 저장한 제어 프로그램에 기초하여 자기의 상황에 따라서 행동을 결정함과 함께, 해당 결정 결과에 기초하여 필요한 액튜에이터를 구동시킴으로써 인간형 로봇 장치(200)에, 소위「몸짓」,「손짓」등의 행동을 취하게 한다.

따라서, 인간형 로봇 장치(200)는, 제어 프로그램에 기초하여 자신 및 주위의 상황을 판단하여, 사용자로부터의 지시 및 활동 작용에 따라 자율적으로 행동할 수 있다. 또한, 인간형 로봇 장치(200)는, CCD 카메라에서 촬상된 화상으로부터 추출한 문자의 발음 방법(읽는 법)을, 추출된 문자로부터 추정되는 읽는 법과 집음 마이크에서 집음된 음성을 매칭하여 결정한다. 따라서, 인간형 로봇 장치(200)의 음성 인식의 정밀도가 향상되고, 신규 단어를 음성 인식용 사전에 등록할 수 있다.

이상 상세히 설명한 바와 같이, 본 발명에 따른 로봇 장치는, 단어와 해당 단어의 발음 방법과의 대응 관계가 음성 인식용 사전으로서 기억된 음성 인식용 기억 수단과, 단어와 해당 단어의 표음 문자와의 대응 관계가 단어 표음 테이블로서 기억된 단어 표음 기억 수단과, 피사체를 촬상하는 촬상 수단과, 촬상 수단에서 촬상된 화상으로부터 문자를 추출하는 문자 인식 수단과, 주위의 소리를 취득하는 집음 수단과, 집음 수단에서 취득된 음으로부터 음성을 인식하는 음성 인식 수단과, 문자 인식 수단에서 추출된 문자로부터 추정되는 복수개의 표음 문자를 단어 표음테이블에 기초하여 부여하고, 부여된 복수개의 표음 문자의 각각에 대하여 발음 방법과 발음에 상당하는 음성 파형을 생성하는 발음 정보 생성 수단과, 발음 정보 생성 수단에서 생성된 각 음성 파형과 음성 인식 수단에서 인식된 음성의 음성 파형을 비교하여, 가장 가까운 음성 파형을 추출한 문자의 발음 방법으로서 음성 인식용 사전에 신규로 기억하는 기억 제어 수단을 포함한다.

본 발명에 따른 로봇 장치는, 촬상 수단에서 촬상된 화상으로부터 추출된 문자로부터 추정되는 복수개의 표음 문자를 단어 표음 테이블에 기초하여 부여하고, 부여된 복수개의 표음 문자의 각각에 대하여 발음 방법과 발음에 상당하는 음성 파형을 생성하고, 발음 정보 생성 수단에서 생성된 각 음성 파형과 음성 인식 수단에서 인식된 음성의 음성 파형을 비교하여 가장 가까운 음성 파형을 추출한 문자의 발음 방법으로서 결정한다.

따라서, 본 발명에 따른 로봇 장치에 의하면, 특히, 약한 음소(예를 들면, 어두의 /s/ 등)를 포함하는 발음의 오인식, 주위의 잡음의 영향에 의한 입력 음소의 변화, 음성 구간 검출의 실패 등에 의한 악영향이 억지되어, 신규 단어를 등록할 때의 인식 정밀도를 향상시킬 수 있다. 이에 따라, 정확한 발음 방법을 음성 인식용 사전에 기억할 수 있기 때문에, 신규 단어로서 등록된 언어를 인식할 때의 인식 정밀도가 향상된다.

또한, 본 발명에 따른 로봇 장치는, 단어와 이 단어의 표음 문자와 단어 속성을 포함하는 단어 정보가 단어 속성 테이블로서 기억된 단어 정보 기억 수단을 포함하며, 기억 제어 수단이 신규로 기억하는 문자와 해당 문자의 발음 방법과 함께 단어 속성을 대응시켜 음성 인식용 사전에 기억한다.

따라서, 본 발명에 따른 로봇 장치에 의하면, 입력한 음성 및 출력하는 음성에 문법 규칙, 대화 규칙 등을 적용하는 데에 있어서 필요해지는 단어 속성 정보를 사용자가 입력할 필요가 없어져 편리성이 향상됨과 함께, 사용자가 속성 정보를 알 수 없는 경우에는, 속성 정보를 입력할 수 없었다는 문제점이 개선된다.

또한, 본 발명에 따른 문자 인식 장치는, 단어와 해당 단어의 발음 방법과의 대응 관계가 음성 인식용 사전으로서 기억된 음성 인식용 기억 수단과, 단어와 해당 단어의 표음 문자와의 대응 관계가 단어 표음 테이블로서 기억된 단어 표음 기억 수단과, 피사체를 촬상하는 촬상 수단과, 촬상 수단에서 촬상된 화상으로부터 문자를 추출하는 문자 인식 수단과, 주위의 소리를 취득하는 집음 수단과, 집음 수단에서 취득된 음으로부터 음성을 인식하는 음성 인식 수단과, 문자 인식 수단에서 추출된 문자로부터 추정되는 복수개의 표음 문자를 단어 표음 테이블에 기초하여 부여하고, 부여된 복수개의 표음 문자의 각각에 대하여 발음 방법과 발음에 상당하는 음성 파형을 생성하는 발음 정보 생성 수단과, 발음 정보 생성 수단에서 생성된 각 음성 파형과 음성 인식 수단에서 인식된 음성의 음성 파형을 비교하여, 가장 가까운 음성 파형을 추출한 문자의 발음 방법으로서 음성 인식용 사전에 신규로 기억하는 기억 제어 수단을 포함한다.

따라서, 본 발명에 따른 문자 인식 장치에 의하면, 특히, 약한 음소(예를 들면, 어두의 /s/ 등)를 포함하는 발음의 오인식, 주위의 잡음의 영향에 의한 입력 음소의 변화, 음성 구간 검출의 실패 등에 의한 악영향이 억지되어, 신규 단어를등록할 때의 인식 정밀도를 향상시킬 수 있다. 이에 따라, 정확한 발음 방법을 음성 인식용 사전에 기억할 수 있기 때문에, 신규 단어로서 등록된 언어를 인식할 때의 인식 정밀도가 향상된다.

또한, 본 발명에 따른 문자 인식 장치는, 단어와 이 단어의 표음 문자와 단어 속성을 포함하는 단어 정보가 단어 속성 테이블로서 기억된 단어 정보 기억 수단을 포함하며, 기억 제어 수단이 신규로 기억하는 문자와 해당 문자의 발음 방법과 함께 단어 속성을 대응시켜 음성 인식용 사전에 기억한다.

따라서, 본 발명에 따른 문자 인식 장치에 의하면, 입력한 음성 및 출력하는 음성에 문법 규칙, 대화 규칙 등을 적용하는 데에 있어서 필요한 단어 속성 정보를 사용자가 입력할 필요가 없게 되어 편리성이 향상됨과 함께, 사용자가 속성 정보를 알 수 없는 경우에는, 속성 정보를 입력할 수 없었다는 문제점이 개선된다.

또한, 본 발명에 따른 문자 인식 방법은, 피사체를 촬상하는 촬상 공정과, 촬상 공정에서 촬상된 화상으로부터 문자를 추출하는 문자 인식 공정과, 주위의 소리를 취득하는 집음 공정과, 집음 공정에서 취득된 음으로부터 음성을 인식하는 음성 인식 공정과, 문자 인식 공정에서 추출된 문자로부터 추정되는 복수개의 표음 문자를 단어와 해당 단어의 표음 문자와의 대응 관계가 기억된 단어 표음 테이블에 기초하여 부여하고, 부여된 복수개의 표음 문자의 각각에 대하여 발음 방법과 발음에 상당하는 음성 파형을 생성하는 발음 정보 생성 공정과, 발음 정보 생성 공정에서 생성된 각 음성 파형과 음성 인식 공정에서 인식된 음성의 음성 파형을 비교하여, 가장 가까운 음성 파형을 추출한 문자의 발음 방법으로 하여 단어와 해당 단어의 발음 방법과의 대응 관계를 기억한 음성 인식용 사전에 신규로 기억하는 기억 제어 공정을 포함한다.

따라서, 본 발명에 따른 문자 인식 방법에 의하면, 특히, 약한 음소(예를 들면, 어두의 /s/ 등)를 포함하는 발음의 오인식, 주위의 잡음의 영향에 의한 입력 음소의 변화, 음성 구간 검출의 실패 등에 의한 악영향이 억지되어, 신규 단어를 등록할 때의 인식 정밀도를 향상시킬 수 있다. 이에 따라, 정확한 발음 방법을 음성 인식용 사전에 기억할 수 있기 때문에, 신규 단어로서 등록된 언어를 인식할 때의 인식 정밀도가 향상된다.

또한, 본 발명에 따른 문자 인식 방법에 의하면, 단어와 이 단어의 표음 문자와 단어 속성을 포함하는 단어 정보가 단어 속성 테이블로서 기억된 단어 정보 기억 수단을 포함하며, 기억 제어 수단이 신규로 기억하는 문자와 해당 문자의 발음 방법과 함께 단어 속성을 대응시켜 음성 인식용 사전에 기억한다.

따라서, 본 발명에 따른 문자 인식 방법에 의하면, 입력한 음성 및 출력하는 음성에 문법 규칙, 대화 규칙 등을 적용하는 데에 있어서 필요한 단어 속성 정보를 사용자가 입력할 필요가 없게 되어 편리성이 향상됨과 함께, 사용자가 속성 정보를 알 수 없는 경우에는, 속성 정보를 입력할 수 없었다는 문제점이 개선된다.

또한, 본 발명에 따른 제어 프로그램은, 피사체를 촬상하는 촬상 처리와, 촬상 처리에 의해 촬상된 화상으로부터 문자를 추출하는 문자 인식 처리와, 주위의 소리를 취득하는 집음 처리와, 집음 처리에 의해 취득된 음으로부터 음성을 인식하는 음성 인식 처리와, 문자 인식 처리에 의해 추출된 문자로부터 추정되는 복수개의 표음 문자를 단어와 해당 단어의 표음 문자와의 대응 관계가 기억된 단어 표음 테이블에 기초하여 부여하고, 부여된 복수개의 표음 문자의 각각에 대하여 발음 방법과 발음에 상당하는 음성 파형을 생성하는 발음 정보 생성 처리와, 발음 정보 생성 처리에 의해 생성된 각 음성 파형과 음성 인식 처리에서 인식된 음성의 음성 파형을 비교하여, 가장 가까운 음성 파형을 추출한 문자의 발음 방법으로 하여 단어와 해당 단어의 발음 방법과의 대응 관계를 기억한 음성 인식용 사전에 신규로 기억하는 기억 처리를 로봇 장치에 실행시킨다.

따라서, 본 발명에 따른 제어 프로그램에 의하면, 로봇 장치는, 특히, 약한 음소(예를 들면, 어두의 /s/ 등)를 포함하는 발음의 오인식, 주위의 잡음의 영향에의한 입력 음소의 변화, 음성 구간 검출의 실패 등에 의한 악영향이 억지되어, 신규 단어를 등록할 때의 인식 정밀도가 향상된다. 이에 따라, 정확한 발음 방법을음성 인식용 사전에 기억할 수 있기 때문에, 신규 단어로서 등록된 언어를 인식할 때의 인식 정밀도가 향상된다.

또한, 상술한 제어 프로그램을 기록 매체에 기록하여 제공함으로써, 이 기록 매체를 판독할 수 있으며 화상 인식 수단과 음성 인식 수단을 구비하는 음성 인식 장치로서의 기능을 갖는 전자 기기에 대하여, 신규 단어를 등록할 때의 인식 정밀도가 향상된다. 이에 따라, 정확한 발음 방법을 기억할 수 있기 때문에, 신규 단어로서 등록된 언어를 인식할 때의 인식 정밀도가 향상된다.

Claims

내부 상태에 따라서 자율적으로 동작하는 로봇 장치에 있어서,

단어와 해당 단어의 발음 방법과의 대응 관계가 음성 인식용 사전으로서 기억된 음성 인식용 기억 수단과,

단어와 해당 단어의 표음 문자와의 대응 관계가 단어 표음 테이블로서 기억된 단어 표음 기억 수단과,

피사체를 촬상하는 촬상 수단과,

상기 촬상 수단에서 촬상된 화상으로부터 문자를 추출하는 문자 인식 수단과,

주위의 소리를 취득하는 집음 수단과,

상기 집음 수단에서 취득된 음으로부터 음성을 인식하는 음성 인식 수단과,

상기 문자 인식 수단에서 추출된 문자로부터 추정되는 복수개의 표음 문자를 상기 단어 표음 테이블에 기초하여 부여하고, 상기 부여된 복수개의 표음 문자의 각각에 대하여 발음 방법과 발음에 상당하는 음성 파형을 생성하는 발음 정보 생성 수단과,

상기 발음 정보 생성 수단에서 생성된 각 음성 파형과 상기 음성 인식 수단에서 인식된 음성의 음성 파형을 비교하여, 가장 가까운 음성 파형을 상기 추출한 문자의 발음 방법으로서 상기 음성 인식용 사전에 신규로 기억하는 기억 제어 수단

을 포함하는 것을 특징으로 하는 로봇 장치.
제1항에 있어서,

상기 화상으로부터 추출되는 복수개의 문자와 해당 문자에 대하여 부여되는 복수개의 발음 방법과의 대응을 일시 사전으로서 일시적으로 기억하는 일시 기억 수단을 포함하는 것을 특징으로 하는 로봇 장치.
제1항에 있어서,

단어와 해당 단어의 표음 문자와 단어 속성을 포함하는 단어 정보가 단어 속성 테이블로서 기억된 단어 정보 기억 수단을 포함하며, 기억 제어 수단은, 신규로 기억하는 문자와 해당 문자의 발음 방법과 함께 상기 단어 속성을 대응시켜 상기 음성 인식용 사전에 기억하는 것을 특징으로 하는 로봇 장치.
제3항에 있어서,

상기 음성 인식 수단에서 인식된 음성에 대한 응답을 생성하는 대화 관리 수단을 포함하며, 상기 대화 관리 수단은, 상기 단어 속성을 음성에 대한 응답 규칙으로 사용하는 것을 특징으로 하는 로봇 장치.
제1항에 있어서,

상기 음성 인식 수단은, 히든 마르코프 모델(Hidden Markov Model)에 기초하여 음성을 인식하는 것을 특징으로 하는 로봇 장치.
단어와 해당 단어의 발음 방법과의 대응 관계가 음성 인식용 사전으로서 기억된 음성 인식용 기억 수단과,

단어와 해당 단어의 표음 문자와의 대응 관계가 단어 표음 테이블로서 기억된 단어 표음 기억 수단과,

피사체를 촬상하는 촬상 수단과,

상기 촬상 수단에서 촬상된 화상으로부터 문자를 추출하는 문자 인식 수단과,

주위의 소리를 취득하는 집음 수단과,

상기 집음 수단에서 취득된 음으로부터 음성을 인식하는 음성 인식 수단과,

상기 문자 인식 수단에서 추출된 문자로부터 추정되는 복수개의 표음 문자를 상기 단어 표음 테이블에 기초하여 부여하고, 상기 부여된 복수개의 표음 문자의 각각에 대하여 발음 방법과 발음에 상당하는 음성 파형을 생성하는 발음 정보 생성 수단과,

상기 발음 정보 생성 수단에서 생성된 각 음성 파형과 상기 음성 인식 수단에서 인식된 음성의 음성 파형을 비교하여, 가장 가까운 음성 파형을 상기 추출한 문자의 발음 방법으로서 상기 음성 인식용 사전에 신규로 기억하는 기억 제어 수단

을 포함하는 것을 특징으로 하는 문자 인식 장치.
제6항에 있어서,

상기 화상으로부터 추출되는 복수개의 문자와 해당 문자에 대하여 부여되는 복수개의 발음 방법과의 대응을 일시 사전으로서 일시적으로 기억하는 일시 기억 수단을 포함하는 것을 특징으로 하는 문자 인식 장치.
제6항에 있어서,

단어와 해당 단어의 표음 문자와 단어 속성을 포함하는 단어 정보가 단어 속성 테이블로서 기억된 단어 정보 기억 수단을 포함하며, 기억 제어 수단은, 신규로 기억하는 문자와 해당 문자의 발음 방법과 함께 상기 단어 속성을 대응시켜 상기 음성 인식용 사전에 기억하는 것을 특징으로 하는 문자 인식 장치.
제8항에 있어서,

상기 음성 인식 수단에서 인식된 음성에 대한 응답을 생성하는 대화 관리 수단을 포함하며, 상기 대화 관리 수단은, 상기 단어 속성을 음성에 대한 응답 규칙으로 사용하는 것을 특징으로 하는 문자 인식 장치.
제6항에 있어서,

상기 음성 인식 수단은, 히든 마르코프 모델법에 기초하여 음성을 인식하는 것을 특징으로 하는 문자 인식 장치.
피사체를 촬상하는 촬상 공정과,

상기 촬상 공정에서 촬상된 화상으로부터 문자를 추출하는 문자 인식 공정과,

주위의 소리를 취득하는 집음 공정과,

상기 집음 공정에서 취득된 음으로부터 음성을 인식하는 음성 인식 공정과,

상기 문자 인식 공정에서 추출된 문자로부터 추정되는 복수개의 표음 문자를 단어와 해당 단어의 표음 문자와의 대응 관계가 기억된 단어 표음 테이블에 기초하여 부여하고, 상기 부여된 복수개의 표음 문자의 각각에 대하여 발음 방법과 발음에 상당하는 음성 파형을 생성하는 발음 정보 생성 공정과,

상기 발음 정보 생성 공정에서 생성된 각 음성 파형과 상기 음성 인식 공정에서 인식된 음성의 음성 파형을 비교하여, 가장 가까운 음성 파형을 상기 추출한 문자의 발음 방법으로서 단어와 해당 단어의 발음 방법과의 대응 관계를 기억한 음성 인식용 사전에 신규로 기억하는 기억 제어 공정

을 포함하는 것을 특징으로 하는 문자 인식 방법.
제11항에 있어서,

상기 화상으로부터 추출되는 복수개의 문자와 해당 문자에 대하여 부여되는 복수개의 발음 방법과의 대응을 일시 사전으로서 일시 기억 수단에 기억하는 공정을 포함하는 것을 특징으로 하는 문자 인식 방법.
제11항에 있어서,

기억 제어 공정에서는, 신규로 기억하는 문자와 해당 문자의 발음 방법과 함께 단어 속성을 대응시켜 상기 음성 인식용 사전에 기억하는 것을 특징으로 하는 문자 인식 방법.
제13항에 있어서,

상기 음성 인식 공정에서 인식된 음성에 대한 응답을 생성하는 대화 관리 공정을 포함하며, 상기 대화 관리 공정에서는, 상기 단어 속성이 음성에 대한 응답 규칙으로 사용되는 것을 특징으로 하는 문자 인식 방법.
제11항에 있어서,

상기 음성 인식 공정에서는, 히든 마르코프 모델법에 기초하여 음성 인식되는 것을 특징으로 하는 문자 인식 방법.
내부 상태에 따라서 자율적으로 동작하는 로봇 장치의 제어 프로그램에 있어서,

피사체를 촬상하는 촬상 처리와,

상기 촬상 처리에 의해 촬상된 화상으로부터 문자를 추출하는 문자 인식 처리와,

주위의 소리를 취득하는 집음 처리와,

상기 집음 처리에 의해 취득된 음으로부터 음성을 인식하는 음성 인식 처리와,

상기 문자 인식 처리에 의해 추출된 문자로부터 추정되는 복수개의 표음 문자를 단어와 해당 단어의 표음 문자와의 대응 관계가 기억된 단어 표음 테이블에 기초하여 부여하고, 상기 부여된 복수개의 표음 문자의 각각에 대하여 발음 방법과 발음에 상당하는 음성 파형을 생성하는 발음 정보 생성 처리와,

상기 발음 정보 생성 처리에 의해 생성된 각 음성 파형과 상기 음성 인식 처리에서 인식된 음성의 음성 파형을 비교하여, 가장 가까운 음성 파형을 상기 추출한 문자의 발음 방법으로서 단어와 해당 단어의 발음 방법과의 대응 관계를 기억한 음성 인식용 사전에 신규로 기억하는 기억 처리

를 로봇 장치에 실행시키는 것을 특징으로 하는 제어 프로그램.
피사체를 촬상하는 촬상 처리와,

상기 촬상 처리에 의해 촬상된 화상으로부터 문자를 추출하는 문자 인식 처리와,

주위의 소리를 취득하는 집음 처리와,

상기 집음 처리에 의해 취득된 음으로부터 음성을 인식하는 음성 인식 처리와,

상기 문자 인식 처리에 의해 추출된 문자로부터 추정되는 복수개의 표음 문자를 단어와 해당 단어의 표음 문자와의 대응 관계가 기억된 단어 표음 테이블에 기초하여 부여하고, 상기 부여된 복수개의 표음 문자의 각각에 대하여 발음 방법과발음에 상당하는 음성 파형을 생성하는 발음 정보 생성 처리와,

상기 발음 정보 생성 처리에 의해 생성된 각 음성 파형과 상기 음성 인식 처리에서 인식된 음성의 음성 파형을 비교하여, 가장 가까운 음성 파형을 상기 추출한 문자의 발음 방법으로서 단어와 해당 단어의 발음 방법과의 대응 관계를 기억한 음성 인식용 사전에 신규로 기억하는 기억 처리

를 로봇 장치에 실행시키기 위한 제어 프로그램이 기록된 기록 매체.