KR20010062767A - 정보 처리 장치, 정보 처리 방법 및 저장 매체 - Google Patents

정보 처리 장치, 정보 처리 방법 및 저장 매체 Download PDF

Info

Publication number
KR20010062767A
KR20010062767A KR1020000082768A KR20000082768A KR20010062767A KR 20010062767 A KR20010062767 A KR 20010062767A KR 1020000082768 A KR1020000082768 A KR 1020000082768A KR 20000082768 A KR20000082768 A KR 20000082768A KR 20010062767 A KR20010062767 A KR 20010062767A
Authority
KR
South Korea
Prior art keywords
image
robot
user
speech recognition
image recognition
Prior art date
Application number
KR1020000082768A
Other languages
English (en)
Inventor
야마시따준이찌
오가와히로아끼
혼다히또시
룩케헬머트
다마루히데시
후지따야에꼬
Original Assignee
이데이 노부유끼
소니 가부시끼 가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이데이 노부유끼, 소니 가부시끼 가이샤 filed Critical 이데이 노부유끼
Publication of KR20010062767A publication Critical patent/KR20010062767A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/003Controls for manipulators by means of an audio-responsive input
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J19/00Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
    • B25J19/02Sensing devices
    • B25J19/021Optical sensing devices
    • B25J19/023Optical sensing devices including video camera means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Robotics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Mechanical Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Manipulator (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

다양한 행동을 수행하는 로봇이 개시된다. 마이크로폰에 의해 받아들여진 사용자의 음성은 음성 인식 수단에 의해 인식된다. CCD에 의해 찍힌 사용자의 제스처가 이미지 인식 수단에 의해 인식된다. 행동 결정부는 음성 인식 수단에 의해 제공되는 음성 인식 정보 및 이미지 인식 수단에 의해 제공되는 이미지 정보에 기초하여 로봇이 취할 행동을 결정한다.

Description

정보 처리 장치, 정보 처리 방법 및 저장 매체{INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND STORAGE MEDIUM}
본 발명은 정보 처리 장치, 정보 처리 방법 및 저장 매체에 관한 것이다. 특히, 음성 정보 및 이미지 정보를 사용하여 로봇의 행동을 결정하기 위한 정보 처리 장치 및 정보 처리 방법, 및 정보 처리 방법에 대한 소프트웨어 프로그램을 저장하기 위한 저장 매체에 관한 것이다.
많은 장난감 로봇(속이 채워진 것도 있음)이 현재 상업적으로 통용되고 있다. 어떤 로봇은 터치 스위치를 누르면 합성 음성을 낸다. 다른 로봇은 사용자가 말하는 음성을 인식하고 구두로 응답하며, 따라서 사용자는 이런 로봇과 대화를 즐긴다.
또한 이미지를 인식하기 위하여 이미지를 받아들여서, 주위의 상황을 평가하며 스스로를 제어하여 움직이는 로봇 또한 상업적으로 통용되고 있다.
사용자의 음성이 뚜렷하지 않으면 음성 인식이 제대로 이루어지지 않기가 쉽다. 특히, 사용자의 말이 명확하게 한정되지 않고 여러 가지 해석이 가능한 지시 대명사를 포함하면, 로봇은 그 대명사가 무엇을 지시하는지 인식할 수 없다.
상기 로봇은 음성 또는 이미지에 의존하여 스스로를 제어하여 이동하며, 음성 정보 및 이미지 정보 모두에 기초하여 작동하는데는 어려움이 있다.
그러므로, 본 발명의 목적은 음성 및 이미지 정보를 사용하여 신뢰성 있는 음성 인식을 수행하여 사용자에게 다양한 움직임을 제공하는 로봇을 제공하는 것이다.
본 발명의 한 관점으로, 로봇에 사용되는 정보 처리 장치는 음성 인식을 위한 음성 인식기, 이미지 인식을 위한 이미지 인식기, 상기 음성 인식기에 의해 제공되는 음성 인식 결과 및 상기 이미지 인식기에 의해 제공되는 이미지 인식 결과 중 하나 이상에 기초하여 상기 로봇의 행동을 결정하기 위한 결정부를 포함한다.
상기 정보 처리 장치는 음성 인식기에 의해 제공되는 음성 인식 결과, 이미지 인식기에 의해 제공되는 이미지 인식 결과, 및 음성 인식 결과와 이미지 인식 결과에 따라 고유하게 결정되는 로봇의 행동의 관계를 기술하는 표를 저장하기 위한 저장부를 포함할 수도 있다.
음성 인식이 음성 인식기에 의해 고유하게 판정되지 않으면 상기 결정부는 이미지 인식기에 의해 고유하게 판정되는 이미지 인식에 따라 로봇의 행동을 결정할 수 있다.
이미지 인식기에 의해 인식된 이미지의 영역 내에 다수의 물체가 존재하면 음성 인식기에 의해 고유하게 판정되는 음성 인식 결과에 따라 상기 결정부는 로봇의 행동을 결정할 수 있다.
상기 이미지 인식기는 손가락, 얼굴, 눈, 및 턱과 같은 사용자의 소정의 부분들 중의 어느 하나가 지시하는 방향으로 장면의 이미지를 인식할 수 있다.
상기 정보 처리 장치는 사용자에 의해 수행되는 제스처 데이터를 저장하기 위한 저장부를 더 포함할 수 있는데, 여기에서 이미지 인식기는 사용자의 이미지를 인식하여 저장부에 저장된 제스처 데이터와 일치하는 데이터를 검출하고 검출된 제스처를 이미지 인식 결과로 간주한다.
상기 정보 처리 장치는 사용자의 얼굴을 감지하기 위한 감지기(a detector), 및 상기 감지기에 의해 찾아 진 사용자의 얼굴 크기에 기초하여 사용자와 로봇사이의 거리를 측정하기 위한 레인지 파인더(a range finder)를 더 포함할 수 있다.
상기 음성 인식기는 배경 소리들에 포함되어 있는 리듬을 검출하여, 검출된 리듬을 음성 인식 결과로 취급할 수 있다.
상기 음성 인식기는 배경 소리들로부터 음향(acoustic) 현상을 검출하여, 검출된 음향 현상을 음성 인식 결과로 취급할 수 있다.
본 발명의 다른 관점으로, 로봇에 사용하기 위한 정보 처리 장치의 정보 처리 방법은 음성 인식을 위한 음성 인식 단계, 이미지 인식을 위한 이미지 인식 단계, 및 상기 음성 인식 단계에서 제공되는 음성 인식 결과와 상기 이미지 판정 단계에서 제공되는 이미지 인식 결과의 하나 이상에 기초하여 상기 로봇의 행동을 결정하는 판정 단계를 포함한다.
본 발명의 또 다른 관점으로, 로봇에 사용하기 위한 정보 처리 장치에 대한 소프트웨어 프로그램은 음성을 인식하기 위한 음성 인식 단계, 이미지를 인식하기위한 이미지 인식 단계, 및 음성 인식 단계에서 제공되는 음성 인식 결과와 이미지 인식 단계에서 제공되는 이미지 인식 결과의 하나 이상에 기초하여 로봇의 행동을 결정하기 위한 판정 단계를 수행하기 위한 프로그램 코드들을 포함할 수 있다.
역시 본 발명의 또 다른 관점으로, 저장 매체는 로봇에 사용되는 정보 처리 장치에 대한 소프트웨어 프로그램을 저장한다. 상기 소프트웨어 프로그램은 음성을 인식하기 위한 음성 인식 단계, 이미지를 인식하기 위한 이미지 인식 단계, 및 음성 인식 단계에서 제공되는 음성 인식 결과와 이미지 인식 단계에서 제공되는 이미지 인식 결과의 하나 이상에 기초하여 로봇의 행동을 결정하기 위한 판정 단계를 수행하기 위한 프로그램 코드들을 포함한다.
도 1은 본 발명의 로봇의 일 실시예에 대한 투시도;
도 2는 도 1에 도시된 로봇의 내부 구조를 도시하는 블록도;
도 3은 도 2의 제어기를 도시하는 기능 블록도;
도 4는 음성 및 이미지 인식을 수행하는 로봇의 일부분을 도시하는 기능 블록도;
도 5는 음성 인식기의 내부 구조에 대한 블록도;
도 6은 이미지 인식기의 내부 구조에 대한 블록도;
도 7은 행동 결정부의 내부 구조를 도시하는 블록도;
도 8은 행동 표 저장부에 저장된 행동들이 기재된 표;
도 9는 행동 카테고리 표 저장부에 저장된 행동 카테고리들이 기재된 표;
도 10은 음성 인식 과정을 도시하는 순서도;
도 11은 이미지 인식 과정을 도시하는 순서도;
도 12는 행동 결정 과정을 도시하는 순서도;
도 13은 음성 정보 및 이미지 정보를 사용하여 인식 결과를 출력하는 과정에 대한 순서도;
도 14는 음성 정보 및 이미지 정보를 사용하여 인식 결과를 출력하는 다른 과정에 대한 순서도;
도 15는 음성 정보 및 이미지 정보를 사용하여 인식 결과를 출력하는 또 다른 과정에 대한 순서도;
도 16은 사용자 및 로봇의 기하학적 배치를 예시하는 도면;
도 17은 음성 인식기의 다른 구조를 도시하는 도면;
도 18은 행동 표 저장부에 저장된 다른 행동 표;
도 19는 행동 표 저장부에 저장된 또 다른 행동 표;
도 20은 저장 매체를 도시하는 도면.
< 도면의 주요 부분에 대한 부호의 설명 >
1 : 로봇
2 : 몸통부
3A - 3D : 작동기(actuator)
4 : 머리부
5 : 꼬리부
10 : 제어기
11 : 배터리
12 : 배터리 센서
13 : 열 센서
14 : 내부 센서
15 : 마이크로폰
16 : CCD
17 : 터치 센서
18 : 확성기
도 1은 본 발명의 로봇(1)의 일 실시예에 대한 외부 투시도이며, 도 2는 로봇(1)의 전기적 구조를 도시한다.
본 발명의 로봇(1)은 개를 모델로 한다. 다리부(3A, 3B, 3C 및 3D)는 몸통부(2)의 앞 왼쪽 및 오른쪽 그리고 뒤 왼쪽 및 오른쪽에 각각 연결된다. 머리부(4) 및 꼬리부(5)는 몸통부(2)의 앞과 뒤에 각각 연결된다.
꼬리부(5)는, 꼬리부(5)가 휘어지거나 피벗(pivot)되도록, 2 개의 자유도를 가지고 몸통부(2)의 기저 부분(base portion; 5b)으로부터 돌출한다. 몸통부(2)는 로봇(1) 전체를 제어하기 위한 제어기(10), 로봇(1)에 대한 동력원으로서의 배터리(11), 및 배터리 센서(12) 및 열 센서(13)와 같은 내부 센서(14)를 포함한다.
머리부(4)는 개의 "귀"에 해당하는 마이크로폰(15), 개의 "눈"에 해당하는 CCD(Charge-Coupled Device) 카메라(16), 개의 촉각에 해당하는 터치 센서(17), 및 개의 "입"에 해당하는 확성기(18)를 포함한다.
작동기(actuator)(3AA1내지 3AAk, 3BA1내지 3BAk, 3CA1내지 3CAk, 및 3DA1내지 3DAk)는 다리부(3A, 3B, 3C 및 3D) 및 다리부(3A, 3B, 3C 및 3D)와 몸통부(2)의 각각의 연결부에 각각 배열된다. 작동기(4A1내지 4AL)는 머리부(4)와 몸통부(2)의 연결부에 배열되며, 작동기(5A1및 5A2)는 꼬리부(5)와 몸통부(2)의 연결부에 배열된다. 이들 연결부들은 각각의 연결부가 소정의 자유도로 회전하는 것을 가능하게 한다.
머리부(4)에 있는 마이크로폰(15)은 사용자의 소리를 포함하여 주위의 소리들을 받아들여, 제어기(10)에 결과적인 음성 신호를 출력한다. CCD 카메라(16)는 로봇(1) 주위의 영상들을 받아들여, 제어기(10)에 이미지 신호를 보낸다.
머리부(4)의 상부에 배열된 터치 센서(17)는 그것에 가해지는, "때리고 있음" 또는 "쓰다듬고 있음"과 같은, 물리적인 행동의 압력을 감지하여, 감지된 결과를 압력 신호로서 제어기(10)에 발생시킨다.
몸통부(2)에 있는 배터리 센서(12)는 배터리(11)에 남아 있는 동력을 감지하여, 감지된 동력 레벨을 동력 잔량 지시 신호로서 제어기(10)에 출력한다. 열 센서(13)는 로봇(1) 내의 열 축적(buildup)을 감지하여, 감지된 결과를 열 레벨 신호로서 제어기에 보낸다.
제어기(10)는 CPU(10A) 및 메모리(10B)를 포함한다. CPU(10A)는 메모리(10B)에 저장된 제어 프로그램을 실행함으로써 다양한 과정들을 수행한다. 특히, 제어기(10)는 마이크로폰(15), CCD 카메라(16), 터치 센서(17), 배터리 센서(12), 및 열 센서(13)의 각각으로부터 제공되는 음성 신호, 이미지 신호, 압력 신호, 배터리 동력 잔량 지시 신호, 및 열 레벨 신호에 기초하여 로봇(1) 주위의 상황, 사용자로부터의 명령, 및 사용자로부터의 행동이 존재하는지 여부를 판정한다.
판정 결과에 기초하여, 제어기(10)는 어떠한 행동을 취할 것인지를 결정한다. 판정 결과에 따라, 작동기들(3AA1내지 3AAk, 3BA1내지 3BAk, 3CA1내지 3CAk, 3DA1내지 3DAk, 4A1내지 4AL, 및 5A1내지 5A2) 중의 어느 것이든 필요에 따라 구동된다. 머리부(4)는 수직 또는 수평으로 피벗 가능하고, 꼬리부(5)는 흔들릴 수 있으며, 다리부(3A 내지 3D)는 구동될 수 있는데, 이에 의해 로봇(1)은 4발 동물이 걷는 것과 같은 어떠한 행동도 취할 수 있다.
제어기(10)는 필요에 따라 소리를 합성하며, 합성된 소리는 확성기(18)를 통해 출력된다. 로봇(1)의 눈의 위치에 배열된 LED(Light Emitting Diode)(도시되지 않음)는 켜지거나 꺼질 수 있으며, 깜빡거릴 수 도 있다.
이런 방법으로, 로봇(1)은 주위의 상황에 따라 스스로를 제어하는 방법으로 행동을 취한다.
도 3은 도 2에 도시된 제어기(10)의 기능 블록도이다. 로봇(1)은 CPU(10A)가 메모리(10B)에 저장된 제어 프로그램을 실행하면 도 3에 도시된 기능 블록도에 따라 작동한다.
제어기(10)는 로봇(1) 주위의 특정 상황을 인식하기 위한 센서 신호 프로세서(31), 로봇(1)의 감정 및 본능을 표현하기 위한 감정/본능 모델부(32), 센서 신호 프로세서(31)에 의해 제공되는 인식 결과에 기초하여 취해질 행동을 결정하기 위한 행동 결정부(33), 행동 결정부(33)에 의해 제공되는 결정 결과에 따라 로봇(1)을 구동하여 행동시키기 위한 자세 전환부(34), 작동기(3AA1내지 5A2)를 구동하고 제어하기 위한 구동 제어기(35), 음성 합성을 위한 음성 합성기(36) 및 음성 합성기(36)의 출력을 제어하기 위한 음향 프로세서(37)를 포함한다.
센서 신호 프로세서(31)는 로봇(1) 주위의 특정 상황, 사용자가 취한 특정 행동, 및 마이크로폰(15), CCD 카메라, 및 터치 센서(17)에 의해 각각 제공되는 음성 신호, 이미지 신호, 및 압력 신호에 따라 사용자에 의해 주어지는 지시를 인식한다. 센서 신호 프로세서(31)는 감정/본능 모델부(32) 및 행동 결정부(33)에 인식 결과를 나타내는 인식 정보를 출력한다.
특히, 센서 신호 프로세서(31)는 음성 인식기(31A)를 포함한다. 행동 결정부(33)의 제어 하에서, 음성 인식기(31A)는 마이크로폰으로부터 주어지는 음성 신호에 대하여 음성 인식을 수행한다. 음성 인식기(31A)는 감정/본능 모델부(32) 및 행동 결정부(33)에, 예컨데 "걸어라", "누워라", "공을 따라 가라"와 같은 음성 인식 결과를 보고한다.
센서 신호 프로세서(31)는 또한 이미지 인식기(31B)를 포함한다. 이미지 인식기(31B)는 CCD 카메라로부터 주어지는 이미지 신호에 대하여 이미지 인식을 수행한다. 예를 들면, 이미지 인식기(31B)가 "빨갛고 둥근 물체" 또는 "지면으로부터 수직으로 나와서 소정의 높이보다 높은 평면"을 발견했다면, 이미지 인식기(31B)는, 감정/본능 모델부(32) 및 행동 결정부(33)에, "공이 있다" 또는 "벽이 있다"등을 지시하는 이미지 인식 결과를 보고한다. 센서 신호 프로세서(31)는 또한 사용자가 취한 제스처를 인식하여, 그에 해당하는 인식 결과를 행동 결정부(33)에 보고한다.
센서 신호 프로세서(31)는 압력 인식기(31C)를 더 포함한다. 압력 인식기(31C)는 터치 센서(17)로부터의 압력 신호를 처리한다. 터치 센서(17)가 소정의 한계치 보다 높은 수준으로 짧은 시간 지속되는 압력을 검출하면, 압력 인식기(31C)는 로봇(1)이 "맞고 있다 (또는 체벌을 당하고 있다)"라고 인식한다. 터치 센서(17)가 소정의 한계치 보다 낮은 수준으로 긴 시간 지속되는 압력을 검출하면, 압력 인식기(31C)는 "쓰다듬고 있다 (또는 칭찬을 받고 있다)"라고 인식한다. 그 다음으로 압력 인식기(31C)는 감정/본능 모델부(32) 및 행동 결정부(33)에 인식 결과를 입력한다.
감정/본능 모델부(32)는 로봇(1)의 감정 상태를 나타내는 감정 모델 및 본능 모델을 다룬다. 행동 결정부(33)는 센서 신호 프로세서(31)의 인식 결과, 감정/본능 모델부(32)의 감정/본능 상태, 및 경과 시간에 기초하여 다음에 취할 행동을 결정한다. 그리고 나서 행동 결정부(33)는 자세 전환부(34)에 행동 명령 정보로서행동 정보를 입력한다.
행동 결정부(33)로부터의 행동 명령 정보에 따라, 자세 전환부(34)는 로봇(1)이 현재 자세로부터 다음 자세로 바뀌게 하는데 사용되는 자세 전환 정보를 생성시킨다. 자세 전환 정보는 구동 제어기(35)에 입력된다. 자세 전환부(34)로부터의 자세 전환 정보에 따라, 구동 제어기(35)는 작동기(3AA1내지 5A1)를 구동시키기 위한 제어 신호를 발생시키며, 제어 신호를 작동기(3AA1내지 5A1)에 각각 출력한다. 작동기(3AA1내지 5A1)는 각 제어 신호에 따라 구동된다. 따라서, 로봇은 스스로 제어하는 방법으로 작동한다.
로봇(1)은 사용자의 음성 및 제스처를 인식하며, 그것에 의하여 행동을 결정한다. 도 4는 사용자로부터의 음성 및 제스처 인식에 뒤따르는 로봇의 행동을 결정하는, 도 3에 도시된, 시스템의 일부분을 도시한다. 도 4에는, 마이크로폰(15)과 사용자의 음성을 인식하기 위한 음성 인식기(31A), CCD 카메라(16)와 사용자의 제스처를 인식하기 위한 이미지 인식기(31B) 및 행동 결정부(33)가 도시되어 있다. 음성 인식기(31A) 및 이미지 인식기(31B)에 의해 제공되는 인식 결과에 기초하여, 행동 결정부(33)는 로봇(1)에 의해 취해질 다음 행동을 결정한다.
도 5는 음성 인식기(31A)를 구체적으로 도시한다. 사용자의 음성은 마이크로폰(15)에 입력되며, 마이크로폰(15)은 사용자의 음성을 전기적 음성 신호로 바꾼다. 전기적 음성 신호는 음성 인식기(31A)에 있는 아날로그-디지털(AD) 변환기(51)에 입력된다. AD 변환기(51)는, 아날로그 신호인 전기적 음성 신호를샘플링하고, 양자화하여 디지털 음성 신호로 바꾼다. 이 디지털 음성 신호는 특성 추출기(52)에 입력된다.
특성 추출기(52)는 AD 변환기로부터 주어지는 음성 데이터로부터 스펙트럼, 선형 예측 계수, 스펙트럼 계수, 및 라인 스펙트럼 쌍과 같은 특성 파라미터들을 매 적절한 수의 프레임으로 추출한다. 그 다음 특성 추출기(52)는 특성 파라미터들을 특성 파라미터 버퍼(53) 및 매칭 유닛(54)에 입력한다. 특성 파라미터 버퍼(53)는 특성 추출기(52)로부터 특성 파라미터들을 일시적으로 저장한다.
특성 추출기(52)로부터의 특성 파라미터 및 특성 파라미터 버퍼(53)로부터의 특성 파라미터에 기초하여, 매칭 유닛(54)은 음향 모델 데이터베이스(55), 사전 데이터베이스(56) 및 문법 데이터베이스(57)를 참조하는 동안 음성 입력을 마이크로폰(15)에 입력한다.
음향 모델 데이터베이스(55)는 인식될 언어의 음에 있는 음소 및 음절과 같은 음향 특성을 나타내는 음향 모델을 저장한다. 음향 모델로서, HMM(Hidden Markov Model)이 사용될 수 있다. 사전 데이터베이스(56)는 인식될 각 단어의 발음(음운론적인 정보)에 대한 정보를 포함하고 있는 단어들의 사전을 저장한다. 문법 데이터베이스(57)는 사전 데이터베이스(56)에 등록된 각 단어가 어떻게 연결되는가를 서술하는 문법을 저장한다. 문법은 CFG(a context-free grammar) 또는 N-gram(word chain probability)에 기초한 규칙일 수 있다.
매칭 유닛(54)은 음향 모델 데이터베이스(55)에 저장된 음향 모델을 사전 데이터베이스(56)를 참조함으로써 연결하여 단어(단어 모델)를 생성시킨다. 매칭 유닛(55)은 문법 데이터베이스(57)에 있는 문법을 참조함으로써 여러 개의 단어 모델들을 연결하고, 연결된 단어 모델들을 특성 파라미터에 기초하여 계속적인 HMM 방법으로 처리하며, 이것으로 마이크로폰(15)에 입력되는 음성을 인식한다. 매칭 유닛(54)의 음성 인식 결과는 텍스트로 출력된다.
매칭 유닛(54)이 입력된 음성을 다시 처리할 필요가 있으면, 특성 파라미터 버퍼(53)에 저장된 특성 파라미터들이 사용된다. 이런 방법으로, 사용자에게 다시 말할 것을 요구할 필요가 없다.
도 6은 이미지 인식기(31B)의 내부 구성을 도시한다. CCD 카메라에 의해 찍힌 이미지는 이미지 인식기(31B)의 AD 변환기에 입력된다. 이미지 데이터는 AD 변환기에 의해 디지털 이미지 데이터로 변환되며, 그 다음 특성 추출기(62)에 출력된다. 특성 추출기(62)는 입력 이미지 데이터로부터 물체의 가장자리 및 이미지에 있어서의 밀도 변화와 같은 특성을 추출하며, 그것에 의해 특성 파라미터나 특성 벡터와 같은 특성량을 판정한다.
특성 추출기(62)에 의해 추출된 특성량은 얼굴 감지기(63)에 출력된다. 얼굴 감지기(63)는 입력 특성량으로부터 사용자의 얼굴을 인지하여, 인지된 결과를 거리 파악기(64)에 출력한다. 거리 파악기(64)는 얼굴 감지기(63)로부터의 출력을 사용하여 사용자의 얼굴이 향하는 방향을 측정하는 것이 아니라 사용자까지의 거리를 측정한다. 측정된 결과는 행동 결정부(33)에 출력된다.
사용자까지의 거리는 얼굴 크기에 있어서의 변화로부터 측정될 수 있다. 예를 들면, 거리 측정은 헨리 에이. 로울리, 슈미트 발루자, 및 다께오 가나데에 의해 IEEE 패턴 분석 및 기계 지능에 발표된 "Neural Network-Based Frace Detection"이라는 표제의 논문에 기술된 방법을 사용할 수 있다.
본 실시예에서, 얼굴의 크기는 단일 이미지 신호 라인을 사용하여 측정된다. 이것 대신에, 사용자까지의 거리를 측정하기 위하여 2개의 신호 라인상의 (입체 이미지의) 2개의 이미지 신호가 일치하는지 비교될 수 있다. 예를 들면, 입체 이미지로부터의 3차원 정보를 추출하는 방법이 다까기, 시모다 등이 편저한 "Section 3.3.1 Point Pattern Matching, Image Analysis Handbook"(동경대 출판부) 이라는 표제의 논문에 개시되어 있다.
특성 추출기(62)에 의해 추출된 특성량은 얼굴 감지기(63) 및 매칭 유닛(65)에 출력된다. 매칭 유닛(65)은 입력 특성량을 표준 패턴 데이터베이스(66)에 저장된 패턴 정보와 비교하고, 비교 결과를 행동 결정부(33)에 입력한다. 표준 패턴 데이터베이스(66)에 저장된 데이터는 제스처에 대한 이미지 데이터 및 행동 패턴의 특성을 지시하는 데이터를 포함한다. 제스처 인식을 위하여, 세이지 이누구치가 저술한 "Gesture Recognition for Kansei Expression"(Journal of the Robotics Society of Japan, Vol.17, No.7, pp933-936,1999)이라는 표제의 논문이 참조된다.
음성 인식기(31A)에 의해 제공되는 인식 결과 및 이미지 인식기(31B)에 의해 제공되는 인식 결과(측정 결과)는 행동 결정부(33)에 입력된다. 도 7은 행동 결정부(33)의 내부 구조를 도시한다. 음성 인식기(31A)에 의해 제공되는 음성 인식 결과는 행동 결정부(33)내의 텍스트 분석기(71)에 입력된다. 텍스트 분석기(71)는 사전 데이터베이스(72) 및 문법 데이터베이스(73) 내에 저장된 데이터에 기초하여입력 음성 인식 결과에 대하여 형태소 분석 및 구문(syntax) 분석을 수행한다. 텍스트 분석기(71)는 사전 데이터베이스(72)의 사전의 내용에 기초하여 입력 음성의 의미 및 의도를 추출한다.
특히, 사전 데이터베이스(72)는 단어 및 문법에 적용하기 위해 요구되는 언어 정보의 부분들 및 각 단어들에 대한 의미 정보를 저장한다. 문법 데이터베이스(73)는 사전 데이터베이스(72)에 저장된 각 단어 정보에 기초하여 단어들을 연결하는데 있어서의 제한을 기술하는 데이터를 저장한다. 이러한 데이터의 조각들을 사용하여, 텍스트 분석기(71)는 입력 음성 인식 결과를 분석한다.
문법 데이터베이스(73)는 정규 문법, CFG, 단어 연결의 통계적 설정과 같은 텍스트 분석을 위해 요구되는 데이터, 및 의미 분석을 위한 HPSG (Head-driven Phrase Structure Grammar)와 같은 의미론을 포함하는 언어 이론을 저장한다.
텍스트 분석기(71)에 의한 분석 결과는 키워드 추출기(74)에 출력된다. 입력 분석 결과에 따라, 키워드 분석기(74)는 키워드 데이터베이스(75)에 저장된 데이터를 참조하여, 음성을 말한 사용자의 의도를 추출한다. 추출 결과는 행동 표 참조부(76)에 입력된다. 키워드 데이터베이스(75)는 감탄의 표현이나 명령과 같은, 사용자의 의도를 지시하며 키워드 파악에 있어서 키워드로서 사용되는 데이터를 저장한다. 특히, 키워드 데이터베이스(75)는 후속 단계 행동 표 참조부(76)의 음성 정보에 대한 색인 역할을 하는 표현 및 키워드에 대한 데이터로서 저장된 것에 해당하는 단어들을 저장한다.
행동 표 참조부(76)는 키워드 추출기(74)에 의해 제공되는 추출 결과 및 이미지 인식기(31B)에 의해 제공되는 인식 결과에 따라 행동 표 저장부(77) 및 행동 카테고리 표 저장부(78)에 각각 저장된 표를 참조하여 로봇(1)의 행동을 결정한다. 행동 표 저장부(77)에 저장된 표가 이제 논의된다. 도 8은 행동 표 저장부(77)에 저장된 행동들의 표를 도시한다.
여기에서 이미지 인식 결과는 "신호하기", "손가락을 가리키기", "악수하기", "손을 흔들기", 및 "아무 결과 없음"으로 나뉜다. 각 이미지 인식 결과에 의존하여, 보충 정보가 필요할 수도 있고 그렇지 않을 수도 있다. 게다가, 음성 인식 결과도 역시 참조된다.
예를 들어, 이미지 인식 결과가 "신호하기"이면, 사용자가 어디에 얼마나 멀리 있는지에 대한 정보가 요구되는데, 다시 말하면 측정 결과가 요구된다. 사용자가 신호할 때, 음성 인식 결과가 "이리 와"라는 명령을 지시하면, "사용자에게 다가가기"라는 행동이 결정된다. 음성 인식 결과가 "가(get away)"라는 명령을 가리킨다면, "사용자로부터 멀어지기"라는 행동이 결정된다. 사용자가 "이리 와"라고 말하더라도, 후술하는 바와 같이, 사용자에게 다가오는 행동이 항상 결정되는 것은 아니다.
따라서 행동 테이블은 사용자의 제스처(이미지 인식 결과) 중 3 가지 정보, 사용자의 목소리(목소리 인식 결과), 및 사용자로부터 로봇의 위치에 의존하는 사용자까지의 거리(측정 결과)에 의해 결정되는 하나의 단일 행동을 기술한다.
도 9는 행동 카테고리 표 저장부(78)에 저장된 행동 카테고리에 대한 표를 도시한다. 행동 카테고리 표에는 도 8에 도시된 행동 표에 기재되어 있는 행동들의 카테고리가 기재되어 있다. 표에 있는 행동들은 도 9에 기재되어 있는 바와 같이 4개의 카테고리로 나뉜다. 즉, "로봇의 위치와 관련된 행동", "사용자의 위치와 관련된 행동", "절대 행동" 및 "다른 행동"이 그것이다.
로봇의 위치와 관련된 행동은 거리 및 로봇의 현재 위치와의 관계에 기초하여 결정되는 행동들을 포함한다. 예를 들면, 사용자가 "오른쪽으로 가라"라고 말할 때, 만일 사용자가 로봇(1)에 대하여 사용자의 오른쪽이 로봇의 왼쪽과 일직선이 되는 서로 마주보는 위치에서 로봇(1)을 마주보면, 로봇(1)은 자신의 위치로부터 왼쪽으로 움직인다.
사용자의 위치와 관련된 행동은 거리 및 사용자의 현재 위치와의 관계에 기초하여 결정되는 행동들을 포함한다. 예를 들면, 사용자가 "이리 와"라고 말하면, 로봇(1)은, 예컨데, 사용자의 80cm 범위 내에서 얼마나 멀리 움직여야 할 지를 판정하고, 판정 결과에 따라 실제로 움직인다.
절대 행동은 로봇(1) 및 사용자의 현재 위치 정보에 주의하지 않고 결정되는 행동들을 포함한다. 예를 들면, 사용자가 "동쪽으로 가라"라고 말하면, 로봇(1)은 단순히 동쪽으로 움직이는데, 이는 동쪽 방향은 로봇의 현재 위치 및 사용자의 위치에 관계없이 결정되기 때문이다.
다른 행동은 관련 정보나 거리 정보가 필요 없는 행동들인데, 예를 들면, 로봇(1)에 의해 생성되는 음성을 포함한다.
이제 로봇(1)의 행동 결정이 서술된다. 로봇(1)의 행동은 사용자의 음성 및 행동에 의해 결정된다. 사용자의 음성 인식이, 도 10에 도시된 순서도와 관련하여, 논의된다. 마이크로폰(15)에 의해 받아들여진 사용자의 음성이 S1단계에서 음성 인식기(31A)의 음성 인식 과정에서 처리된다.
음성 인식기(31A)에 의해 제공되는 음성 인식 결과는 S2단계에서 텍스트 분석을 위해 행동 결정부(33)의 텍스트 분석기(71)에 입력된다. S3단계에서, 키워드 추출기(74)는 분석 결과를 사용하여 키워드 매칭을 수행한다. S4단계에서, 키워드가 추출되었는지 여부가 판정된다. S4단계에서 키워드가 추출되었다고 판정되면, 과정은 S5단계로 넘어 간다.
S5단계에서 추출된 키워드는 언어 정보로 간주된다. S4단계에서 어떤 키워드도 추출되지 않았다고 판정되면, 과정은 S6단계로 진행하며, 키워드가 없다는 정보는 언어 정보로 간주된다. S5단계 또는 S6단계가 완료되면, 언어 정보는 S7단계에서 행동 표 참조부에 출력된다. 이 과정은 로봇(1)의 작동을 거쳐서 반복된다.
상기 음성 인식 과정이 진행중인 동안 사용자의 이미지 또한 처리된다. 로봇(1)의 이미지 처리 과정이, 도 11에 도시된 순서도와 관련하여, 이제 논의된다. S11단계에서, 이미지 인식기(31B)의 특성 추출기(62)는 CCD 카메라(16)에 의해 받아들여진 이미지로부터 특성량을 추출한다. S12단계에서 인식 결과에 기초하여 등록된 제스처가 있는지 여부에 대하여 판정된다. 특히, 특성 추출기(62)로부터 출력되는 특성량을 사용하여, 매칭 유닛(65)은 인식 결과가 표준 패턴 데이터베이스(66)에 저장된 제스처 패턴 정보의 어느 하나와 일치하는지 여부를 판정한다. 제스처가 제스처 패턴 정보의 어느 것과 일치하게 되면, 과정은 S13으로 진행한다.
다음으로 S13단계에서 등록된 제스처와 일치하는 제스처가 보충 정보를 가지는지 여부가 판정된다. 예를 들면, 보충 정보를 가진 제스처가 사용자가 한 방향으로 그의 손가락을 가리킬 수 있으며, 이 경우에서, 사용자의 손가락에 의해 지시되는 방향에 있는 물체에 대한 정보가 보충 정보이다. S13단계에서 제스처가 그것의 보충 정보를 가지는지 여부가 판정되며, 보충 정보는 S14단계에서 인지된다. S14단계에서 보충 정보의 인지가 완료되면, 과정은 S15단계로 진행한다.
S12단계에서 등록된 제스처가 없는 것으로 판정되거나, 또는 S13단계에서 제스처가 보충 정보와 관련이 없는 것으로 판정되면, 과정은 S15단계로 진행한다. S15단계에서, 행동 정보는 행동 표 참조부(76)에 출력된다.
과정이 S12단계에서 S15단계로 진행하면, 행동 정보는 제스처가 없다는 것이며, 다시 말하면, 이미지 인식 결과는 로봇(1)에 의해 취해질 행동을 결정할 정보가 없다는 것을 나타낸다. 과정이 S13단계에서 S15단계로 진행하면, 행동 정보는 행동-관련 정보만 포함한다. 과정이 S14단계에서 S15단계로 진행하면, 행동 정보는 행동-관련 정보 및 보충 정보를 포함한다.
이미지 인식 과정이 로봇(1)의 작동을 거쳐서 반복된다. 필요에 따라, S13단계의 보충 정보는 얼굴 감지기(63) 및 거리 파악기(64)에 의해 제공되는 측정 결과를 포함할 수 있다.
행동 결정부(33)에 있는 행동 표 참조부(76)는 음성 인식 결과로서의 언어 정보 및 이미지 인식 결과로서의 행동 정보를 사용하여 로봇(1)의 행동을 결정한다. 행동 표 참조부(76)의 작동이, 도 12에 도시된 순서도와 관련하여, 이제 논의된다. S21단계에서, 행동 표 참조부(76)는 키워드 추출기(74)로부터의 언어 정보 및 이미지 인식기(31B)로부터의 행동 정보를 수신한다. S22단계에서, 입력 언어 정보 및 행동 정보에 따라, 행동 표 참조부(76)는 행동 표 기억부(77)에 저장된 행동 표 및 행동 카테고리 표 저장부(78)에 저장된 행동 카테고리 표를 참조하여 로봇(1)의 행동을 고유하게 결정한다.
행동 표 참조부(76)의 결정 동작이 이제 논의된다. 결정 동작은 도 8에 도시된 표에 기초하여 수행된다. 예를 들면, 이미지 인식 결과(행동 정보)가 "신호하기"이고 음성 인식 결과(언어 정보)가 "이리 와"라는 명령을 지시하면 사용자에게 다가가기, 사용자로부터 멀어지기, 및 사용자를 무시하기의 세 가지 행동이 마련된다. 사용자가 "신호하고", 로봇에게 "오라"라고 말하면, 로봇(1)은 사용자에게 다가오는 행동이 전형적으로 선택된다. 그러나, 로봇(1)이 항상 같은 방법으로 반응하면, 사용자는 로봇(1)의 반응에 대하여 싫증을 낼 수 있다.
사용자가 같은 제스처를 하고 같은 말을 할 경우에도, 로봇(1)이 다르게 반응하도록 설계될 수 있다. 세 가지 행동 중에 어느 것을 취할 것인지는 순서대로 결정될 수 있고, 임의의 방법으로 결정될 수도 있으며, 확률값으로 결정될 수도 있고, 키워드에 의해 결정될 수도 있으며, 또는 그 순간의 감정에 기초하여 결정될 수도 있다.
확률값으로 행동이 결정되면, 사용자에게 다가가는 행동은 50%의 확률을 가질 수 있고, 사용자로부터 멀어지는 행동은 30%의 확률을 가질 수 있으며, 그리고 사용자를 무시하는 행동은 20%의 확률을 가질 수 있다.
키워드에 따라 행동이 결정되면, 현재의 행동, 현재의 말, 이전의 행동 및 이전의 말의 조합이 사용될 수 있다. 예를 들면, 사용자가 이전의 행동에서 박수를 치고, "이리 와"라는 명령이 뒤따르는 현재의 행동에서 지시하면, 로봇(1)은 틀림없이 사용자에게 다가가는 행동을 선택하도록 설계될 수 있다. 사용자가 이전의 행동에서 로봇(1)을 때리고, "이리 와"라는 명령이 뒤따르는 현재의 행동에서 지시하면, 로봇(1)은 사용자로부터 멀어지는 행동을 선택하도록 설계될 수 있다.
이런 방법으로, 현재의 행동, 현재의 말, 이전의 행동 및 이전의 말의 조합이 취할 행동을 결정하는데 사용될 수 있다.
로봇(1)의 감정에 따라 행동이 결정되면, 로봇(1)은 감정/본능 모델부(32)의 정보를 참조할 수 있다. 예를 들면, 사용자가, 지금 두려움에 처해있는, 로봇(1)에게 사용자에게 오라고 지시하고 말하면, 로봇은 사용자에게 다가올 수 있다. 사용자가, 지금 화가 나있는, 로봇(1)에게 사용자에게 오라고 지시하고 말하면, 로봇(1)은 사용자를 무시할 수 있다.
이런 방법으로, 언어 정보 및 행동 정보에 기초하여, 행동 표 참조부(76)는 행동 표를 참조하여 행동을 결정한다. 행동 표 참조부(76)는 S23단계에서 결정된 행동(도 12 참조)을 자세 전환부(34)에 통지한다. 로봇(1)은 뒤따르는 과정들에 따라 소정의 동작을 수행한다.
상기 실시예에서, 사용자가 그의 손가락을 가리키는 방향이 인지되고, 그 방향에 존재하는 물체가 보충 정보로서 인지된다. 대신에, 사용자의 얼굴이 향하는 방향, 사용자의 눈이 보는 방향 및 사용자의 턱이 가리키는 방향을 인식함으로써보충 정보가 인식될 수도 있다.
상기 제스처 외에도, 표준 패턴 데이터 베이스(66)는 의도나 감정을 전달하기 위하여 다양한 다른 제스처를 저장할 수도 있는데, 예컨데 "예"라고 표현하기 위하여 머리를 위와 아래로 흔들 수 있으며, "아니오"라고 표현하기 위하여 머리를 수평으로 흔들 수 있으며, 승리 또는 안도 신호, 기도, 환호성, 또는 다른 다양한 제스처들이 그것이다.
로봇(1)이 사용자의 음성을 인식하면, 음성 자체만으로는 모호할 수 있는데(분명하게 발음되지 않음), 잘못된 인식을 야기할 수 있다. 예를 들면, 사용자가 뚜렷하지 않은 음성으로 "Please fetch a book(책을 가지고 오세요)"이라고 말하면, 센서 신호 프로세서(31)는 그 말을 잘못된 말인 "Please fetch a hook(갈고리를 가지고 오세요)"로 인식할 수 있다. 도 13은 이미지 데이터의 도움으로 이런 잘못된 인식이 방지될 수 있는 과정에 대한 순서도이다.
사용자가 말을 하면, 그 음성은 마이크로폰(15)에 의해 로봇(1)에 받아들여지며, S31단계에서 음성 인식기(31A)에 입력된다. 음성 인식기(31A)는 S32단계에서 입력 음성을 인식하며, 그것에 의해 사용자에 의해 말해졌을 다수의 단어 후보가 생긴다. S33단계에서는 가장 가능성이 있는 제1 후보 및 제2 후보에 대한 처리 단계가 수행된다.
S33단계에서, 제1 후보 및 제2 후보의 점수 차이가 소정의 한계치 내에 해당되는지 여부에 대하여 판정된다. 점수 차이가 소정의 한계치를 넘는 것으로 판정되면, 다시 말하여, 제1 후보가 제2 후보로부터 멀리 떨어져 있기 때문에 제1 후보가 아무런 문제없이 인식 결과로서 간주되면, 과정은 S37단계로 진행한다. 이제 제1 후보가 정확한 결과로서 확증된다.
제1 후보와 제2 후보의 점수 차이가 소정의 한계치 내에 해당이 되는 것으로 S33단계에서 판정되면, 다시 말하여, 제1 후보가 잘못된 결과로 판정되면, 과정은 S34단계로 진행한다. 다음으로 높은 점수를 가지는 다수의 후보가 처리된다. S35단계에서 이미지 인식이 수행된다. S35단계에서, 사용자가 말을 하는 순간에 받아들여진 이미지, 또는 사용자가 말을 하기 전에 받아들여진 이미지 또는 사용자가 말을 한 후에 받아들여진 이미지에 대하여 이미지 인식 과정이 수행된다.
다음으로 S35단계에서 획득된 이미지 인식 결과를 사용하여 음성 인식 결과는 보강된다.
상기한 바대로, 사용자가 "Please fetch a book(책을 가지고 오세요)"라고 말하면, 제1 후보는 "Please fetch a book(책을 가지고 오세요)"이며, 제 2후보는 "Please fetch a hook(갈고리를 가지고 오세요)"이다. 제1 후보와 제2 후보의 점수 차이가 소정의 한계치 내에 해당하면, 어느 것이 올바른 지를 판정하기는 어렵다. 이미지 인식 결과가 책(book)이 이미지에 찍힌 것으로 보여주면, 제1 후보인 "Please fetch a book"이 올바른 것으로 판정된다. 이미지 인식 결과가 갈고리(hook)가 이미지에 찍힌 것으로 보여주면, 제2 후보인 "Please fetch a hook"이 올바른 것으로 판정된다.
그리하여 음성 인식 결과는 보강되며, S37단계에서 올바른 결과로서 확증된다. 음성 인식 결과가 이와 같이 모호하면, 이미지 인식 결과를 사용하는 것이 음성 인식 결과를 명백히 하는데 도움이 된다.
상기 논의에서는 단지 제1 후보 및 제2 후보만 비교된다. 임의적으로, 제1 내지 제10후보가 그들 사이의 차이를 판정하는데 비교될 수 도 있다.
예를 들어, 사용자(A)와 사용자(B)가 대화한다고 하자. 사용자(A)는 "이것을 보라"라고 말하며, 사용자(B)는 "저것이 무엇이냐?"라고 묻는다. 이런 대화는 일상 생활에서 빈번하게 교환될 수 있다. 사용자(A)가 하나의 물체를 지시하기 위하여 "이것(this)"이라는 말을 사용하는 반면에 사용자(B)는 "저것(that)"이라는 말을 같은 물체를 지시하기 위하여 사용한다. 이런 방법으로 상황에 따라 지시 대명사는 바뀐다.
같은 상황이 사용자가 로봇(1)과 대화할 때 일어날 수 있다. 따라서 로봇(1)은 사용자가 지시 대명사로서 무엇을 지시하는 지를 인식할 필요가 있다. 도 14는 로봇(1)이 지시 대명사에 의해 지시되는 물체를 판정하는 과정에 대한 순서도이다. S41단계에서, 사용자는 말하며, S42단계에서, 사용자의 음성을 인식하기 위해서 음성 인식이 수행된다.
S43단계에서, 음성 인식 결과에 기초하여 사용자의 말에 지시 대명사가 포함되어 있는 지 여부가 판정된다. 지시 대명사가 없는 것으로 판정되면, 음성 인식 결과는 S46단계에서 올바른 것으로 확증된다.
S43단계에서 사용자의 말에 지시 대명사가 포함되어 있는 것으로 판정되면, 과정은 이미지 인식을 위하여 S44단계로 진행한다. 사용자가 말을 할 때 찍힌 이미지 또는 사용자의 그의 손가락을 가리키는 방향으로 찍힌 이미지에 대한 이미지인식이 수행된다.
S44단계에서, 이미지에 대한 이미지 인식이 수행되며, S45단계에서 이미지 인식 결과를 사용하여 지시 대명사가 지시하는 대상이 판정된다. 예를 들면, 지금 사용자가 로봇(1)에게 "저것을 가지고 오라"라고 말을 한다. 그 다음 사용자가 "저것"에 해당하는 물체를 제스처, 예컨데 손가락으로 그 물체를 가리킴으로써 나타낸다.
S42단계에서 사용자의 말에 따라 로봇(1)은 음성 인식을 수행하며, 그 다음으로 그 말에 지시 대명사 "저것"이 포함되어 있다고 판정한다. 또한 로봇(1)은, 말을 할 때 찍힌 이미지로부터, 사용자가 손가락을 어느 한 방향으로 가리키는 제스처를 했는 지 여부를 판정한다.
S44단계에서, 로봇(1)은 지시 대명사 "저것"에 의해 지시하는 방향을 판정하며, 그 방향으로 이미지를 포착하며, 포착된 이미지에 대한 이미지 인식을 수행한다. 예를 들면, 이미지 인식 결과에 그 대상이 종이인 것으로 나타나면, 지시 대명사 "저것"에 의해 지시되는 대상은 "종이"인 것으로 알게 된다. S45단계에서 이런 방법으로 지시 대명사에 의해 지시되는 대상이 판정되면, 과정은 S46단계로 진행한다. 그리하여 S46단계에서 음성 인식 결과는 올바른 것으로 입증된다.
따라서 지시 대명사에 의해 지시되는 대상은 이미지 정보를 사용함으로써 신뢰성있게 인식된다.
로봇(1)이 이미지를 획득할 때, 다수의 대상들이 그 이미지에 있을 수가 있다. 도 15는 다수의 대상들 중에서 어느 것이 사용자의 말에 의해 지시되는 대상인 지를 판정하는 과정에 대한 순서도이다. S51단계에서, 사용자가 취하고 CCD카메라에 찍힌 제스처가 로봇(1)에 입력된다.
제스처가 특정 방향을 지시하면, 로봇(1)은 보충 정보를 얻기 위하여 사용자가 지시하는 방향에 있는 장면의 이미지를 인식할 필요가 있다. 사용자에 의해 지시되는 방향에 있는 장면의 이미지가 포착되며, 이미지 인식기(31B)는 S52단계에서 포착된 이미지에 대한 이미지 인식 과정을 수행한다. S53단계에서는 이미지 인식 결과를 사용하여 그 이미지 안에 다수의 대상이 포함되어 있는 지 여부가 판정된다. S53단계에서 다수의 대상이 아닌 하나의 대상이 있는 것으로 판정되면, 과정은 S56단계로 진행한다. 따라서 그 대상에 대한 이미지 인식 결과가 출력된다.
S53단계에서 이미지 안에 다수의 대상이 포함되어 있는 것으로 판정되면, 과정은 S54단계로 진행하며, 음성 인식이 수행된다. 사용자가 제스처를 할 때 받아들여진 음성에 대하여 음성 인식이 수행된다. S54단계에서의 음성 인식 결과(음성 정보)가 사용되어 S55단계에서 이미지 인식 결과가 보강된다. 이 과정이 더욱 구체적으로 서술된다.
예를 들면, 사용자가 소정의 방향을 가리키는 제스처를 하면서 "공을 가져와"라고 말한다. 로봇(1)은 사용자의 제스처에 반응하며, 사용자가 그의 제스처로 소정의 방향을 지시했음을 인식한다. 로봇(1)은 사용자가 지시하는 방향의 이미지를 찍으며, 그 이미지에 대한 이미지 인식을 수행한다. 로봇(1)이 그 이미지 내에 다수의 대상이 있는 것으로 판정하면, 로봇(1)은 그가 제스처를 하면서 동시에 말한 음성에 대한 음성 인식을 수행한다.
음성 인식 결과가 "공을 가져와"라는 요구로 나타나면, 이미지 내의 다수의 대상들 중에서 사용자가 가장 원하는 것이 공이라는 것이 판정된다. 따라서 이미지 인식 결과는 음성 정보에 의해 보강된다. 이미지 인식 결과가 음성 인식 결과에 의해 보강되면, 과정은 S56단계로 진행한다. 그리하여 강화된 이미지 인식 결과가 출력된다.
따라서 음성 정보에 의하여 이미지 정보의 모호한 부분을 보충함으로써 정확한 이미지 정보를 획득하는 것이 가능하다.
음성 정보에 따라 행동하는 로봇은 단지 사용자의 음성이 오는 방향으로 움직이며, 이미지 정보에 따라 행동하는 로봇은 사용자가 있는 장면의 방향으로 움직인다. 본 발명의 로봇(1)은 음성 정보 및 이미지 정보의 조합을 참조하여 사용자가 원하는 행동을 결정하며 실제로 그에 따라 움직인다. 상기한 바대로, 로봇(1)의 행동은 도 9에 기재되어 있는 바와 같이 분류된다.
사용자의 음성을 인식하고 사용자 및 로봇(1) 자신의 위치를 감지함으로써 취할 행동이 결정된다. 특히, 사용자가 "이리 와"라고 말하면, 로봇(1)은 말을 인식하고 이미지 정보로부터 사용자의 위치를 감지한다. 사용자에게 다가가는 행동이 결정되면, 목표 위치까지의 거리 및 관계가 판정된다.
도 16에서는, 목표 위치가 사용자로부터 정면으로 80cm 떨어진 곳에 설정되어 있다. 얼굴 감지기(63)는 이미지 인식기(31B)(도 6참조)의 특성 추출기(62)에 의해 추출된 특성량을 사용하여 사용자의 얼굴을 인식하며, 거리 파악기(64)는 사용자의 얼굴 크기에 기초하여 로봇(1)과 사용자 사이의 거리를 측정한다. 측정된거리를 사용하여, 로봇(1)은 사용자로부터 정면으로 80cm 떨어진 목표 위치에 도달하기 위하여 얼마나 멀리 가야할 지를 판정한다.
사용자의 위치를 측정하여 그 위치를 행동에 고려함으로써 사용자의 제스처에 따른 로봇(1)의 행동은 더욱 정확해 진다.
상기 실시예에서는 사용자가 실제로 말한 단어들이 사용된다. 로봇(1)의 행동은 사용자의 박수 소리나 발자국 소리에 따라 반응하도록 결정될 수 있다.
사용자가 말한 음성에 리듬 및 음향이 포함되어 있으면, 음성 인식기(31A)는 도 17에 도시된 것과 같이 구성될 수 있다. 마이크로폰(15)으로 받아들여진 음성은 아날로그-디지털 변환을 위하여 AD 변환기(51)에 입력된다. 그 다음 디지털 데이터는 리듬/소리 인식기(81)에 입력된다. 리듬/소리 인식기(81)는 리듬 및 음향에 대한 정보를 얻는다.
리듬/소리 인식기(81)에 의해 제공되는 인식 결과는 행동 결정부(33)에 입력된다. 도 17에는 도 5에 도시된 부분인 사용자의 음성을 인식하는 과정은 생략되어 있다. AD 변환기로부터 출력된 디지털 음성 신호는 특성 추출기(52)(도 5 참조)와 리듬/소리 인식기(81)(도 17 참조)에 입력된다.
리듬/소리 인식기(81)에 의해 제공되는 인식 결과는 행동 결정부(33)에 입력되는데, 이 경우에는 행동 결정부(33)의 텍스트 분석기(71) 보다는 오히려 행동 표 참조부(76)에 직접 입력된다.
리듬을 인식하기 위한 리듬/소리 인식기(81)의 인식 방법이 이제 서술된다. 리듬/소리 인식기(81)는 타악기(사용자의 박수 소리 포함)의 비트를 감지하거나 코드 변화를 통한 비트를 감지함으로써 리듬을 감지한다. 언제, 무슨 박자, 얼마나 많은 수의 비트가 감지되는지 등을 나타내는 감지 결과가 출력된다.
리듬 감지 방법은 마사따까 고또와 요이치 무라오까가 저술한 "A Sound Source Separation System for Percussion Instruments", (Transactions of The Institute of Electronics, Information, and Communication Engineers of Japan, J77-D11, No.5, pp.901-911, 1994) 및 "A Real-Time Beat Tracking System for Audio Signals" (Transactions of The Institute of Electronics, Information, and Communication Engineers of Japan, J81-D11, No.2, pp.227-237, 1998) 라는 표제의 논문에 기술되어 있다. 여기에 개시된 방법이 본 발명에 사용될 수 있다.
다음으로 리듬/소리 인식기(81)에 의해 제공되는 리듬 인식 결과를 사용하여 행동 결정부(33)(행동 표 참조부(76))가 결정하는 행동으로서 로봇(1)이 춤을 추는 경우를 서술한다. 행동 표 저장부(77)는 도 18에 도시된 행동 표를 저장한다. 예를 들면, 리듬 인식 결과가 1분에 0 내지 60비트 범위 내에 해당하는 비트 속도를 가진 2박자가 선택되는 것으로 나타나면, 로봇(1)은 댄스 A를 선택한다. 리듬 인식 결과가 0 내지 60비트 범위 내에 해당하는 비트 레이트를 가진 2박자, 3박자, 또는 4박자도 아닌 것이 선택되는 것으로 나타나면, 로봇(1)은 댄스 A를 선택한다. 이런 방법으로, 박자 및 비트 레이트에 대한 정보에 의해 댄스의 유형이 고유하게 결정된다.
행동 표 참조부(76)가 행동 결정부(33)의 행동 표 저장부(77)에 저장되어 있는 행동 표를 참조하여 결정한 행동에 따라서 행동 결정부(33)에 후속하는 단계에서 소정의 과정이 수행된다. 로봇(1)은 그에 상응하게 제어된다.
상기된 설명에서, 리듬 정보는 음성으로부터 얻어진다. 대신에, 리듬 정보가 사용자의 제스처로부터도 얻어질 수 있다. 제스처로부터 리듬 정보를 얻기 위해서, 도 6에 도시된 이미지 인식기(31B)가 작동한다. 제스처로부터 리듬 정보를 얻는 방법은 Seiji INOKUCHI가 저술한 "Gesture Recognition for Kansei Expression" Journal of the Robotics Society of Japan, Vol. 17, No. 7이라는 표제의 논문에 기술된 방법이 사용될 수 있다.
임의적으로, 리듬은 음성 및 제스처 모두로부터 얻어질 수도 있다.
다음으로 로봇(1)의 행동이 음향에 의해 결정되는 경우가 서술된다. 리듬/소리 인식기(81)에 의해 제공되는 소리 인식 결과는 발자국 소리나 외치는 소리와 같은 소리의 유형 및 누가 또는 무엇이 소리를 내는 가와 같은 소리의 출처를 가리킬 수도 있다. 예를 들면, 싫어하는 사람이 소리를 내느냐 또는 좋아하는 사람이 소리를 내느냐에 따라, 또는 무엇이 소리를 내느냐에 따라 다른 행동을 기대할 수 있다.
리듬/소리 인식기에 의해 제공되는 인식 결과는 행동 표 참조부(76)에 출력된다. 행동 표 참조부(76)는 행동 표 저장부(77)에 저장된 행동 표를 참조하여 입력 소리에 대한 인식 결과와 일치하는 행동을 결정한다. 도 19는 행동 표 저장부(77)에 저장된 소리에 따라 반응하는 행동들이 기재된 표이다.
도 19에 도시된 행동 표에 의하면, 소리 인식 결과에 의해 행동이 고유하게 결정된다. 예를 들면, 소리 인식 결과가 로봇(1)이 로봇(1)이 가장 좋아하는 사람들 중의 한사람으로부터 발자국 소리를 듣는 것으로 나타나면, 로봇(1)은 기뻐하며 그에게 다가간다. 좋아하는 사람 및 싫어하는 사람에 대한 정보는 로봇(1) 및 사용자 사이에 교환된 대화나 사용자의 태도에 기초하여 판정될 수 있다.
이미지 정보도 소리와 함께 사용될 수 있다. 예를 들면, 로봇(1)이 발자국 소리를 들으면, 로봇(1)은 발자국 소리로부터 누가 오는 지를 판정할 수 있다. 이미지가 포착되어 인식되며, 다가오는 사람이 식별된다. 그리하여 로봇(1)은 다가오는 사람이 자기가 좋아하는 사람인지 싫어하는 사람인지를 판정하며, 취할 행동을 결정한다.
음성 정보와 이미지 정보를 결합함으로써, 로봇(1)은 다양한 행동들을 수행할 수 있다. 행동 결정 과정에 있어서 음성 및 이미지를 인식하는 단계에서, 로봇(1)은 이들 여러 가지 정보를 결합함으로써 보다 정확한 인식 과정을 수행할 수 있다.
상기 일련의 처리 단계는 하드웨어 구성에서 수행된다. 대신에, 상기 일련의 처리 단계는 소프트웨어를 사용하여 수행될 수 있다. 일련의 과정이 소프트웨어에 의해 실행되면, 소프트웨어를 형성하는 프로그램 코드는 저장 매체로부터 고유의 하드웨어를 가지는 컴퓨터나 다양한 기능을 수행하는 일반적인 목적의 개인용 컴퓨터에 설치될 수 있다.
도 20에서, 저장 매체에는 소프트웨어 프로그램을 제공하는 컴퓨터로부터 분리되어 사용자에게 제공될 수 있는 자기 디스크(131)(예컨데, 플로피 디스크), 광학 디스크(132)(예컨데, CDROM), 광자기 디스크(133)(예컨데, MD(Mini-Disk)), 또는 반도체 메모리(134)와 같은 패키지 매체뿐만 아니라, 컴퓨터 내에 사전에 구비된 소프트웨어 프로그램이 제공되는 ROM(112) 또는 메모리부(118)를 포함하는 하드디스크도 포함된다.
저장 매체에 제공되는 소프트웨어에 기술된 처리 단계들이 각 순서도에서 언급된 순서에 따라 수행될 필요는 없다. 몇 개의 처리 단계는 병렬적으로 또는 각각 수행될 수 있다.
본 명세서에서, 시스템은 다수의 장치들로 구성된 단일체를 말한다.
본 발명에 따라, 음성이 인식되고, 이미지가 인식되며, 그리고 음성 인식 결과 및 이미지 인식 결과 중의 하나 이상이 로봇(1)이 취할 행동을 결정하는데 사용된다. 따라서 보다 정확한 음성 및 이미지 인식이 수행된다.

Claims (12)

  1. 로봇에 사용되는 정보 처리 장치에 있어서,
    음성을 인식하기 위한 음성 인식 수단;
    이미지를 인식하기 위한 이미지 인식 수단; 및
    상기 음성 인식 수단에 의해 제공되는 상기 음성 인식 결과 및 상기 이미지 인식 수단에 의해 제공되는 상기 이미지 인식 결과중 하나 이상에 기초하여 상기 로봇의 행동을 결정하기 위한 결정 수단
    을 포함하는 것을 특징으로 하는 정보 처리 장치.
  2. 제1항에 있어서, 상기 음성 인식 수단에 의해 제공되는 상기 음성 인식 결과, 상기 이미지 인식 수단에 의해 제공되는 상기 이미지 인식 결과, 및 상기 음성 인식 결과와 상기 이미지 인식 결과에 따라 고유하게 결정되는 상기 로봇의 행동과의 관계를 기술하는 표를 저장하기 위한 저장 수단을 더 포함하는 것을 특징으로 하는 정보 처리 장치.
  3. 제1항에 있어서, 상기 음성 인식 결과가 상기 음성 인식 수단에 의해 고유하게 판정되지 않는 경우, 상기 이미지 인식 수단에 의해 고유하게 판정되는 이미지 인식 결과에 따라서 상기 결정 수단이 상기 로봇의 행동을 결정하는 것을 특징으로 하는 정보 처리 장치.
  4. 제1항에 있어서, 상기 이미지 인식 수단에 의해 인식되는 이미지의 영역 내에 다수의 대상이 존재하는 경우, 상기 음성 인식 수단에 의해 고유하게 판정되는 상기 이미지 인식 결과에 따라서 상기 결정 수단이 상기 로봇의 행동을 결정하는 것을 특징으로 하는 정보 처리 장치.
  5. 제1항에 있어서, 상기 이미지 인식 수단이 사용자의 손가락, 얼굴, 눈, 및 턱과 같은 상기 사용자의 소정의 부분들 중의 하나가 지시하는 방향에 존재하는 광경(scene)의 이미지를 인식하는 것을 특징으로 하는 정보 처리 장치.
  6. 제1항에 있어서, 사용자에 의해 수행되는 제스처 데이터를 저장하기 위한 저장 수단을 더 포함하며,
    상기 이미지 인식 수단은 상기 저장 수단에 저장된 상기 제스처 데이터와 일치하는 제스처를 검출하여 상기 사용자의 상기 이미지를 인식하며, 상기 검출된 제스처를 이미지 인식 결과로서 간주하는 것을 특징으로 하는 정보 처리 장치.
  7. 제1항에 있어서,
    사용자의 얼굴을 감지하기 위한 감지 수단; 및
    상기 감지 수단에 의해 감지된 상기 사용자의 상기 얼굴의 크기에 기초하여 상기 사용자와 상기 로봇 사이의 거리를 측정하기 위한 거리 파악 수단
    을 더 포함하되,
    상기 결정 수단이 상기 측정된 거리를 사용하여 상기 로봇의 행동을 결정하는 것을 특징으로 하는 정보 처리 장치.
  8. 제1항에 있어서, 상기 음성 인식 수단이 배경음에 포함되어 있는 리듬을 감지하여, 상기 감지된 리듬을 음성 인식 결과로서 취급하는 것을 특징으로 하는 정보 처리 장치.
  9. 제1항에 있어서, 상기 음성 인식 수단이 배경음들로부터 음향 현상을 감지하여, 상기 감지된 음향 현상을 음성 인식 결과로서 취급하는 것을 특징으로 하는 정보 처리 장치.
  10. 로봇에 사용되는 정보 처리 장치의 정보 처리 방법에 있어서,
    음성 인식을 위한 음성 인식 단계;
    이미지 인식을 위한 이미지 인식 단계; 및
    상기 음성 인식 단계에서 제공되는 상기 음성 인식 결과 및 상기 이미지 인식 단계에서 제공되는 상기 이미지 인식 결과중 하나 이상에 기초하여 상기 로봇의 행동을 결정하기 위한 결정 단계
    를 포함하는 것을 특징으로 하는 정보 처리 방법.
  11. 로봇에 사용되는 정보 처리 장치를 위한 소프트웨어 프로그램에 있어서,
    음성 인식을 위한 음성 인식 단계;
    이미지 인식을 위한 이미지 인식 단계; 및
    상기 음성 인식 단계에서 제공되는 상기 음성 인식 결과 및 상기 이미지 인식 단계에서 제공되는 상기 이미지 인식 결과중 하나 이상에 기초하여 상기 로봇의 행동을 결정하기 위한 결정 단계
    를 수행하기 위한 프로그램 코드를 포함하는 것을 특징으로 하는 소프트웨어 프로그램.
  12. 로봇에 사용되는 정보 처리 장치를 위한 소프트웨어 프로그램을 저장하기 위한 저장 매체에 있어서,
    음성 인식을 위한 음성 인식 단계;
    이미지 인식을 위한 이미지 인식 단계; 및
    상기 음성 인식 단계에서 제공되는 상기 음성 인식 결과 및 상기 이미지 인식 단계에서 제공되는 상기 이미지 인식 결과중 하나 이상에 기초하여 상기 로봇의 행동을 결정하기 위한 결정 단계
    를 수행하기 위한 프로그램 코드를 저장하는 것을 특징으로 하는 저장 매체.
KR1020000082768A 1999-12-28 2000-12-27 정보 처리 장치, 정보 처리 방법 및 저장 매체 KR20010062767A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP1999-375773 1999-12-28
JP37577399A JP2001188555A (ja) 1999-12-28 1999-12-28 情報処理装置および方法、並びに記録媒体

Publications (1)

Publication Number Publication Date
KR20010062767A true KR20010062767A (ko) 2001-07-07

Family

ID=18506042

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000082768A KR20010062767A (ko) 1999-12-28 2000-12-27 정보 처리 장치, 정보 처리 방법 및 저장 매체

Country Status (4)

Country Link
US (1) US6509707B2 (ko)
JP (1) JP2001188555A (ko)
KR (1) KR20010062767A (ko)
CN (1) CN1204543C (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100723402B1 (ko) * 2005-02-15 2007-05-30 삼성전자주식회사 제스처 인식장치와 방법 및 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록매체
KR100723404B1 (ko) * 2005-03-29 2007-05-30 삼성전자주식회사 음성 인식 및 반응을 위한 음성 처리 장치와 방법
US8204311B2 (en) 2006-08-14 2012-06-19 Electronics And Telecommunications Research Institute Method and apparatus for shoulder-line detection and gesture spotting detection

Families Citing this family (143)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US7904187B2 (en) 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
US6616464B1 (en) * 1999-05-10 2003-09-09 Sony Corporation Robot device
WO2000068882A1 (fr) * 1999-05-10 2000-11-16 Sony Corporation Appareil et procede de traitement d'images, et robot associe
US6983239B1 (en) * 2000-10-25 2006-01-03 International Business Machines Corporation Method and apparatus for embedding grammars in a natural language understanding (NLU) statistical parser
US20020137013A1 (en) * 2001-01-16 2002-09-26 Nichols Etta D. Self-contained, voice activated, interactive, verbal articulate toy figure for teaching a child a chosen second language
JP4143305B2 (ja) * 2001-01-30 2008-09-03 日本電気株式会社 ロボット装置、照合環境判定方法、及び照合環境判定プログラム
JP2002239256A (ja) * 2001-02-14 2002-08-27 Sanyo Electric Co Ltd 自動応答玩具における感情決定装置および自動応答玩具
JP2002283261A (ja) * 2001-03-27 2002-10-03 Sony Corp ロボット装置及びその制御方法、並びに記憶媒体
US6804396B2 (en) * 2001-03-28 2004-10-12 Honda Giken Kogyo Kabushiki Kaisha Gesture recognition system
US20030001908A1 (en) * 2001-06-29 2003-01-02 Koninklijke Philips Electronics N.V. Picture-in-picture repositioning and/or resizing based on speech and gesture control
JP4689107B2 (ja) * 2001-08-22 2011-05-25 本田技研工業株式会社 自律行動ロボット
KR100941209B1 (ko) * 2001-08-23 2010-02-10 소니 주식회사 로봇 장치, 얼굴 인식 방법 및 얼굴 인식 장치
KR100898435B1 (ko) * 2001-10-22 2009-05-21 소니 가부시끼 가이샤 로봇 장치 및 그 제어 방법
KR100446725B1 (ko) * 2001-11-02 2004-09-01 엘지전자 주식회사 로봇의 행동 학습방법
AU2003275134A1 (en) * 2002-09-19 2004-04-08 The Penn State Research Foundation Prosody based audio/visual co-analysis for co-verbal gesture recognition
ATE527086T1 (de) * 2002-12-10 2011-10-15 Honda Motor Co Ltd Steuervorrichtung, steuerverfahren und steuerprogramm für einen roboter
US7379560B2 (en) * 2003-03-05 2008-05-27 Intel Corporation Method and apparatus for monitoring human attention in dynamic power management
JP2004299025A (ja) * 2003-04-01 2004-10-28 Honda Motor Co Ltd 移動ロボット制御装置、移動ロボット制御方法及び移動ロボット制御プログラム
JP2004299033A (ja) * 2003-04-01 2004-10-28 Sony Corp ロボット装置、情報処理方法、およびプログラム
JP4048492B2 (ja) * 2003-07-03 2008-02-20 ソニー株式会社 音声対話装置及び方法並びにロボット装置
JP4311190B2 (ja) * 2003-12-17 2009-08-12 株式会社デンソー 車載機器用インターフェース
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US7707039B2 (en) * 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US20060041605A1 (en) * 2004-04-01 2006-02-23 King Martin T Determining actions involving captured information and electronic content associated with rendered documents
US20060053097A1 (en) * 2004-04-01 2006-03-09 King Martin T Searching and accessing documents on private networks for use with captures from rendered documents
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US20060041484A1 (en) * 2004-04-01 2006-02-23 King Martin T Methods and systems for initiating application processes by data capture from rendered documents
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US20060122983A1 (en) * 2004-12-03 2006-06-08 King Martin T Locating electronic instances of documents based on rendered instances, document fragment digest generation, and digest based document fragment determination
US20060081714A1 (en) 2004-08-23 2006-04-20 King Martin T Portable scanning device
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
WO2008028674A2 (en) 2006-09-08 2008-03-13 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US20060098900A1 (en) * 2004-09-27 2006-05-11 King Martin T Secure data gathering from rendered documents
US20070300142A1 (en) * 2005-04-01 2007-12-27 King Martin T Contextual dynamic advertising based upon captured rendered text
US9008447B2 (en) * 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US20080313172A1 (en) * 2004-12-03 2008-12-18 King Martin T Determining actions involving captured information and electronic content associated with rendered documents
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US8081849B2 (en) * 2004-12-03 2011-12-20 Google Inc. Portable scanning and memory device
US7990556B2 (en) * 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
JP4661074B2 (ja) * 2004-04-07 2011-03-30 ソニー株式会社 情報処理システム、情報処理方法、並びにロボット装置
US8713418B2 (en) * 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US8489624B2 (en) * 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8874504B2 (en) * 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
JP2006015436A (ja) * 2004-06-30 2006-01-19 Honda Motor Co Ltd 監視ロボット
US8346620B2 (en) * 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
JP4600736B2 (ja) * 2004-07-22 2010-12-15 ソニー株式会社 ロボット制御装置および方法、記録媒体、並びにプログラム
JP4572615B2 (ja) * 2004-07-27 2010-11-04 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
KR100741773B1 (ko) 2005-02-23 2007-07-24 엘지전자 주식회사 이동로봇의 경로지정방법
JP4266211B2 (ja) 2005-03-23 2009-05-20 株式会社東芝 ロボット装置、ロボット装置の移動方法、および、プログラム
KR20060127452A (ko) * 2005-06-07 2006-12-13 엘지전자 주식회사 로봇청소기 상태알림장치 및 방법
US8583282B2 (en) 2005-09-30 2013-11-12 Irobot Corporation Companion robot for personal interaction
JP4718987B2 (ja) * 2005-12-12 2011-07-06 本田技研工業株式会社 インターフェース装置およびそれを備えた移動ロボット
JP4940698B2 (ja) * 2006-02-27 2012-05-30 トヨタ自動車株式会社 自律移動型ロボット
JP2007257088A (ja) * 2006-03-20 2007-10-04 Univ Of Electro-Communications ロボット装置及びそのコミュニケーション方法
KR101443404B1 (ko) * 2006-09-15 2014-10-02 구글 인코포레이티드 페이퍼 및 전자 문서내의 주석의 캡처 및 디스플레이
KR100822880B1 (ko) * 2006-10-25 2008-04-17 한국전자통신연구원 지능형 로봇 환경에서 오디오-비디오 기반 음원추적을 통한화자 인식 시스템 및 방법
JP4764377B2 (ja) * 2007-05-09 2011-08-31 本田技研工業株式会社 移動型ロボット
WO2009018988A2 (de) * 2007-08-03 2009-02-12 Ident Technology Ag Spielzeug, insbesondere in der art einer puppe oder stofftieres
WO2009027999A1 (en) * 2007-08-27 2009-03-05 Rao, Aparna External stimuli based reactive system
US20110145068A1 (en) * 2007-09-17 2011-06-16 King Martin T Associating rendered advertisements with digital content
CN101411946B (zh) * 2007-10-19 2012-03-28 鸿富锦精密工业(深圳)有限公司 玩具恐龙
US10296874B1 (en) 2007-12-17 2019-05-21 American Express Travel Related Services Company, Inc. System and method for preventing unauthorized access to financial accounts
US8545283B2 (en) * 2008-02-20 2013-10-01 Ident Technology Ag Interactive doll or stuffed animal
TWI392983B (zh) * 2008-10-06 2013-04-11 Sonix Technology Co Ltd 利用音調的自動控制方法及其裝置
TW201019242A (en) * 2008-11-11 2010-05-16 Ind Tech Res Inst Personality-sensitive emotion representation system and method thereof
EP2399385B1 (en) * 2009-02-18 2019-11-06 Google LLC Automatically capturing information, such as capturing information using a document-aware device
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
DE202010018551U1 (de) 2009-03-12 2017-08-24 Google, Inc. Automatische Bereitstellung von Inhalten, die mit erfassten Informationen, wie etwa in Echtzeit erfassten Informationen, verknüpft sind
US9417700B2 (en) * 2009-05-21 2016-08-16 Edge3 Technologies Gesture recognition systems and related methods
US8507781B2 (en) * 2009-06-11 2013-08-13 Harman International Industries Canada Limited Rhythm recognition from an audio signal
IL200921A (en) * 2009-09-14 2016-05-31 Israel Aerospace Ind Ltd A robotic carry system for infantry and useful methods for the above purpose
KR20110036385A (ko) * 2009-10-01 2011-04-07 삼성전자주식회사 사용자 의도 분석 장치 및 방법
KR20110055062A (ko) * 2009-11-19 2011-05-25 삼성전자주식회사 로봇 시스템 및 그 제어 방법
CN102074232B (zh) * 2009-11-25 2013-06-05 财团法人资讯工业策进会 结合影音的行为辨识系统及其辨识方法
US9081799B2 (en) * 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) * 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
US8396252B2 (en) 2010-05-20 2013-03-12 Edge 3 Technologies Systems and related methods for three dimensional gesture recognition in vehicles
US8296151B2 (en) * 2010-06-18 2012-10-23 Microsoft Corporation Compound gesture-speech commands
FR2963132A1 (fr) * 2010-07-23 2012-01-27 Aldebaran Robotics Robot humanoide dote d'une interface de dialogue naturel, methode d'utilisation et de programmation de ladite interface
US8582866B2 (en) 2011-02-10 2013-11-12 Edge 3 Technologies, Inc. Method and apparatus for disparity computation in stereo images
US8666144B2 (en) 2010-09-02 2014-03-04 Edge 3 Technologies, Inc. Method and apparatus for determining disparity of texture
WO2012030872A1 (en) 2010-09-02 2012-03-08 Edge3 Technologies Inc. Method and apparatus for confusion learning
US8655093B2 (en) 2010-09-02 2014-02-18 Edge 3 Technologies, Inc. Method and apparatus for performing segmentation of an image
CN102012740B (zh) * 2010-11-15 2015-10-21 中国科学院深圳先进技术研究院 人机交互方法及系统
CN102141812A (zh) * 2010-11-16 2011-08-03 深圳中科智酷机器人科技有限公司 机器人
US9431027B2 (en) * 2011-01-26 2016-08-30 Honda Motor Co., Ltd. Synchronized gesture and speech production for humanoid robots using random numbers
US8970589B2 (en) 2011-02-10 2015-03-03 Edge 3 Technologies, Inc. Near-touch interaction with a stereo camera grid structured tessellations
KR101842459B1 (ko) 2011-04-12 2018-05-14 엘지전자 주식회사 로봇 청소기 및 이의 제어 방법
JP2011193483A (ja) * 2011-04-14 2011-09-29 Toshiba Corp テレビジョン受像装置及びテレビジョン受像方法
US8235285B1 (en) * 2011-06-24 2012-08-07 American Express Travel Related Services Company, Inc. Systems and methods for gesture-based interaction with computer systems
US8714439B2 (en) 2011-08-22 2014-05-06 American Express Travel Related Services Company, Inc. Methods and systems for contactless payments at a merchant
US9672609B1 (en) 2011-11-11 2017-06-06 Edge 3 Technologies, Inc. Method and apparatus for improved depth-map estimation
JP5838781B2 (ja) * 2011-12-20 2016-01-06 富士通株式会社 複合語読み表示方法及びプログラム,並びに読み生成装置
CN103257703B (zh) * 2012-02-20 2016-03-30 联想(北京)有限公司 一种增强现实装置及方法
WO2013136118A1 (en) * 2012-03-14 2013-09-19 Nokia Corporation Spatial audio signal filtering
US8924011B2 (en) * 2012-04-03 2014-12-30 Knu-Industry Cooperation Foundation Intelligent robot apparatus responsive to environmental change and method of controlling and reconfiguring intelligent robot apparatus
JP6044819B2 (ja) * 2012-05-30 2016-12-14 日本電気株式会社 情報処理システム、情報処理方法、通信端末、情報処理装置およびその制御方法と制御プログラム
DE102012105608A1 (de) * 2012-06-27 2014-01-02 Miele & Cie. Kg Selbstfahrendes Reinigungsgerät und Verfahren zur Bedienung eines selbstfahrenden Reinigungsgeräts
WO2014129033A1 (ja) * 2013-02-25 2014-08-28 三菱電機株式会社 音声認識システムおよび音声認識装置
US10721448B2 (en) 2013-03-15 2020-07-21 Edge 3 Technologies, Inc. Method and apparatus for adaptive exposure bracketing, segmentation and scene organization
US20140337030A1 (en) * 2013-05-07 2014-11-13 Qualcomm Incorporated Adaptive audio frame processing for keyword detection
WO2014186973A1 (zh) * 2013-05-24 2014-11-27 Wen Xia 除尘装置
US9666194B2 (en) * 2013-06-07 2017-05-30 Flashbox Media, LLC Recording and entertainment system
CN103578471B (zh) * 2013-10-18 2017-03-01 威盛电子股份有限公司 语音辨识方法及其电子装置
US11138971B2 (en) 2013-12-05 2021-10-05 Lenovo (Singapore) Pte. Ltd. Using context to interpret natural language speech recognition commands
CN104715753B (zh) * 2013-12-12 2018-08-31 联想(北京)有限公司 一种数据处理的方法及电子设备
US10276154B2 (en) * 2014-04-23 2019-04-30 Lenovo (Singapore) Pte. Ltd. Processing natural language user inputs using context data
JP6388356B2 (ja) * 2014-06-17 2018-09-12 ナント ホールディングス アイピー, エルエルシー 行動認識システム及び方法
CN105881535A (zh) * 2015-02-13 2016-08-24 鸿富锦精密工业(深圳)有限公司 可根据音乐节拍跳舞的机器人
US20180009118A1 (en) * 2015-02-17 2018-01-11 Nec Corporation Robot control device, robot, robot control method, and program recording medium
US9769367B2 (en) 2015-08-07 2017-09-19 Google Inc. Speech and computer vision-based control
US9836819B1 (en) 2015-12-30 2017-12-05 Google Llc Systems and methods for selective retention and editing of images captured by mobile image capture device
US9836484B1 (en) 2015-12-30 2017-12-05 Google Llc Systems and methods that leverage deep learning to selectively store images at a mobile image capture device
US9838641B1 (en) 2015-12-30 2017-12-05 Google Llc Low power framework for processing, compressing, and transmitting images at a mobile image capture device
US10732809B2 (en) 2015-12-30 2020-08-04 Google Llc Systems and methods for selective retention and editing of images captured by mobile image capture device
US10225511B1 (en) 2015-12-30 2019-03-05 Google Llc Low power framework for controlling image sensor mode in a mobile image capture device
US10471611B2 (en) 2016-01-15 2019-11-12 Irobot Corporation Autonomous monitoring robot systems
US20170282383A1 (en) * 2016-04-04 2017-10-05 Sphero, Inc. System for content recognition and response action
JP2017205313A (ja) * 2016-05-19 2017-11-24 パナソニックIpマネジメント株式会社 ロボット
CN106095109B (zh) * 2016-06-20 2019-05-14 华南理工大学 基于手势和语音进行机器人在线示教的方法
CN106125925B (zh) * 2016-06-20 2019-05-14 华南理工大学 基于手势和语音控制的智能抓捕方法
JP6751536B2 (ja) * 2017-03-08 2020-09-09 パナソニック株式会社 装置、ロボット、方法、及びプログラム
JP6833601B2 (ja) * 2017-04-19 2021-02-24 パナソニック株式会社 相互作用装置、相互作用方法、相互作用プログラム及びロボット
CN107026940B (zh) * 2017-05-18 2018-09-11 北京神州泰岳软件股份有限公司 一种确定会话反馈信息的方法和装置
US10100968B1 (en) 2017-06-12 2018-10-16 Irobot Corporation Mast systems for autonomous mobile robots
JP6841167B2 (ja) * 2017-06-14 2021-03-10 トヨタ自動車株式会社 コミュニケーション装置、コミュニケーションロボットおよびコミュニケーション制御プログラム
JP1622874S (ja) * 2017-12-29 2019-01-28 ロボット
CN109961781B (zh) * 2017-12-22 2021-08-27 深圳市优必选科技有限公司 基于机器人的语音信息接收方法、系统及终端设备
CN109981970B (zh) * 2017-12-28 2021-07-27 深圳市优必选科技有限公司 一种确定拍摄场景的方法、装置和机器人
JP2019185360A (ja) * 2018-04-09 2019-10-24 富士ゼロックス株式会社 情報処理装置およびプログラム
JP2020034461A (ja) * 2018-08-30 2020-03-05 Zホールディングス株式会社 提供装置、提供方法、及び提供プログラム
CN109358630A (zh) * 2018-11-17 2019-02-19 国网山东省电力公司济宁供电公司 一种机房用巡检机器人系统
US11110595B2 (en) 2018-12-11 2021-09-07 Irobot Corporation Mast systems for autonomous mobile robots
WO2020184733A1 (ko) * 2019-03-08 2020-09-17 엘지전자 주식회사 로봇
KR20210067539A (ko) * 2019-11-29 2021-06-08 엘지전자 주식회사 정보 처리 방법 및 정보 처리 장치
CN111429888A (zh) * 2020-05-12 2020-07-17 珠海格力智能装备有限公司 机器人的控制方法及装置、存储介质和处理器
US11731271B2 (en) * 2020-06-30 2023-08-22 Microsoft Technology Licensing, Llc Verbal-based focus-of-attention task model encoder
CN112894831B (zh) * 2021-04-21 2022-08-23 广东电网有限责任公司电力科学研究院 一种双臂机器人绝缘导线剥皮系统及方法
JP7272521B2 (ja) * 2021-05-24 2023-05-12 三菱電機株式会社 ロボット教示装置、ロボット制御システム、ロボット教示方法、及びロボット教示プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6332624A (ja) * 1986-07-28 1988-02-12 Canon Inc 情報処理装置
JP3159242B2 (ja) * 1997-03-13 2001-04-23 日本電気株式会社 感情生成装置およびその方法
JPH10289006A (ja) * 1997-04-11 1998-10-27 Yamaha Motor Co Ltd 疑似感情を用いた制御対象の制御方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100723402B1 (ko) * 2005-02-15 2007-05-30 삼성전자주식회사 제스처 인식장치와 방법 및 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록매체
KR100723404B1 (ko) * 2005-03-29 2007-05-30 삼성전자주식회사 음성 인식 및 반응을 위한 음성 처리 장치와 방법
US8204311B2 (en) 2006-08-14 2012-06-19 Electronics And Telecommunications Research Institute Method and apparatus for shoulder-line detection and gesture spotting detection

Also Published As

Publication number Publication date
US20010020837A1 (en) 2001-09-13
CN1204543C (zh) 2005-06-01
CN1302056A (zh) 2001-07-04
US6509707B2 (en) 2003-01-21
JP2001188555A (ja) 2001-07-10

Similar Documents

Publication Publication Date Title
KR20010062767A (ko) 정보 처리 장치, 정보 처리 방법 및 저장 매체
AU2018204246B2 (en) Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
US7065490B1 (en) Voice processing method based on the emotion and instinct states of a robot
US7228276B2 (en) Sound processing registering a word in a dictionary
US8433580B2 (en) Information processing system, which adds information to translation and converts it to voice signal, and method of processing information for the same
US20180257236A1 (en) Apparatus, robot, method and recording medium having program recorded thereon
JP2004090109A (ja) ロボット装置およびロボット装置の対話方法
WO2002091356A1 (fr) Dispositif robot, appareil de reconnaissance de caracteres, procede de lecture de caracteres, programme de commande et support d&#39;enregistrement
JP2001188779A (ja) 情報処理装置および方法、並びに記録媒体
JP4600736B2 (ja) ロボット制御装置および方法、記録媒体、並びにプログラム
KR20030010736A (ko) 언어 처리 장치
JP4706893B2 (ja) 音声認識装置および方法、並びに、プログラムおよび記録媒体
JP2002307349A (ja) ロボット装置、情報学習方法、プログラム及び記録媒体
JP2002258886A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP2002372988A (ja) 認識辞書作成装置及び棄却辞書及び棄却辞書の生成方法
JP2001188783A (ja) 情報処理装置および方法、並びに記録媒体
US20240095987A1 (en) Content generation
Rossiter Multimodal intent recognition for natural human-robotic interaction
KR20220064871A (ko) 전자 장치 및 그의 제어 방법
KR20230067501A (ko) 음성 합성 장치 및 그의 음성 합성 방법
JP2001212779A (ja) 行動制御装置および行動制御方法、並びに記録媒体
JP2003271181A (ja) 情報処理装置および情報処理方法、並びに記録媒体およびプログラム
JP2001188780A (ja) 情報処理装置および方法、並びに記録媒体
JP2003076398A (ja) ロボット装置およびロボット制御方法、記録媒体、並びにプログラム
JP2004258290A (ja) 音声処理装置および方法、記録媒体、並びにプログラム

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid