KR20110008059A - 이용자 명령에 기초하여 리프리젠테이션을 수정하기 위한 방법 - Google Patents

이용자 명령에 기초하여 리프리젠테이션을 수정하기 위한 방법 Download PDF

Info

Publication number
KR20110008059A
KR20110008059A KR1020107024193A KR20107024193A KR20110008059A KR 20110008059 A KR20110008059 A KR 20110008059A KR 1020107024193 A KR1020107024193 A KR 1020107024193A KR 20107024193 A KR20107024193 A KR 20107024193A KR 20110008059 A KR20110008059 A KR 20110008059A
Authority
KR
South Korea
Prior art keywords
representation
user
animation
classification
command
Prior art date
Application number
KR1020107024193A
Other languages
English (en)
Other versions
KR101604593B1 (ko
Inventor
시아오밍 주
파울 엠. 세. 레멘스
알폰스 아. 엠. 엘. 브뤼에케르스
앤드류 에이. 토크매코프
에벨레이네 엠. 하르트 데 라위테르-베꺼르
세르페리위스 피. 피. 프롱크
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20110008059A publication Critical patent/KR20110008059A/ko
Application granted granted Critical
Publication of KR101604593B1 publication Critical patent/KR101604593B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B11/00Teaching hand-writing, shorthand, drawing, or painting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 발명은 이용자 명령에 기초하여 리프리젠테이션을 수정하기 위한 방법 및 상기 방법에 의해 수정된 리프리젠테이션을 생성하기 위한 시스템에 관한 것이다. 펜 및 종이 및 기록 타블렛들과 같은, 종래의 도화 시스템들은 상당한 정도의 도화 기술을 필요로 하지만 이 기술은 모든 이용자들이 지니지 않는다. 부가적으로, 이 종래의 시스템들을 정적 도화들을 제작한다. 본 발명의 방법은 제 1 이용자로부터 리프리젠테이션을 수신하는 단계, 리프리젠테이션을 입력 오브젝트 분류와 연관시키는 단계, 제 2 이용자로부터 명령을 수신하는 단계, 명령을 애니메이션 분류와 연관시키는 단계, 입력 오브젝트 분류 및 애니메이션 분류를 이용하여 리프리젠테이션의 수정을 결정하는 단계, 및 수정을 이용하여 리프리젠테이션을 수정하는 단계를 포함한다. 제 1 이용자가 어떤 것에 대한 리프리젠테이션, 예를 들면, 이야기 속의 캐릭터를 제공할 때, 이를 오브젝트 분류와 연관시킴으로써 캐릭터가 어느 정도 식별된다. 즉, 가장 양호한 가능한 매치가 결정된다. 제 2 이용자가 리프리젠테이션을 포함하는 이야기를 상상할 때, 이야기의 동적 요소들은 기록, 스피치, 제스처들, 안면 표정들과 같은 하나 이상의 통신 형태들로 나타난다. 이들 신호들로부터 명령을 얻음으로써, 리프리젠테이션은 이야기의 동적 요소를 도시하기 위해 수정되거나, 또는 애니메이트될 수 있다. 이는 이용자들로의 피드백을 개선하고 이용자들의 즐거움을 증가시킨다.

Description

이용자 명령에 기초하여 리프리젠테이션을 수정하기 위한 방법{METHOD FOR MODIFYING A REPRESENTATION BASED UPON A USER INSTRUCTION}
본 발명은 이용자 명령에 기초하여 리프리젠테이션(representation)을 수정하기 위한 방법, 상기 방법의 모든 단계들을 실행하기 위한 프로그램 코드 수단을 포함하는 컴퓨터 프로그램, 및 방법을 실행하기 위한 컴퓨터 판독가능한 매체 상에 저장된 프로그램 코드 수단을 포함하는 컴퓨터 프로그램 제품에 관한 것이다.
본 발명은 또한 수정된 리프리젠테이션을 생성하기 위한 시스템에 관한 것이다.
단순 펜 및 종이로부터 컴퓨팅 디바이스(computing device)의 일부 형태로 접속된 도화 타블렛들(drawing tablets)까지의 많은 상이한 유형들의 도화 시스템들(drawing systems)이 이용가능하다. 일반적으로, 이용자는 적합한 수신면(receiving surface) 상에 선들을 생성하는 적합한 도화 도구(drawing implement)로 일련의 수동 동작들을 행한다. 종이 상의 도화는 사물들을 지우고 변경하는 것이 어렵다는 것을 의미한다.
컴퓨팅 디바이스를 이용하여 그리는 것은 변경들이 행해지도록 할 수는 있지만, 이는 전형적으로 상업적인 목적들을 위해 도화가 필요한 비즈니스 세팅(business setting)에서 이용된다. 이 전자 도화들은 원하는 바에 따라 조작될 수 컴퓨팅 환경에서 입력될 수 있으나, 동작들 및 기능성들은 흔히 상업적으로 구동된다.
엔터테인먼트 목적들을 위한 도화는 대개 어린이들에 의해 행해진다. 이용가능한 도화 시스템들은 펜 및 종이 또는 전자 타블렛이든지 간에, 일반적으로 다만 이용자가 추가에 의해서 도화를 구성하도록 하고 - 도화가 종료되지 않는 한, 도화는 더욱더 진행될 수 있다. 일단 도화가 완료되면, 도화는 용이하게 수정될 수 없다. 종래에는, 이용자는 도화의 하나 이상의 윤곽선(contour)들을 지우고 상기 윤곽선을 다시 그려야만 하거나, 빈 페이지에 다시 시작해야만 한다. 하나 이상의 윤곽선들을 지우고 난 후의 재-도화(Re-drawing)는 상당한 정도의 도화 기술을 필요로 하지만, 모든 이용자들이 그 기술을 지니지는 않는다.
어린이들은 전자 도화 타블렛들을 즐겨 이용할지라도, 전자 도화 타블렛들은 어린이들을 염두해두고 설계되지 않는다. 이용자 인터페이스(user interface)들이 매우 복잡할 수 있고, 어린이는 이 전자 디바이스들을 성공적으로 이용하기 위해 필요한 정교한 능숙한 기술을 지니지 않는다. 게다가, 이 디바이스들 중 많은 디바이스들은 어린이가 이용할 만큼 충분히 튼튼하지 않다.
특히, 어린이와 관련된 추가 문제는 이 도화 시스템들의 정적인 특성이다. 그리고 있을 때, 어린이들은 흔히 이야기들을 구성하고 그리는 중에 그것을 들려준다. 이야기는 동적이므로, 이야기되는 것과 그려지는 것 사이의 오버랩(overlap)은 오브젝트들(objects) 또는 캐릭터들(characters)의 기본 외형 및 구조와 같은, 정적인 요소들로 제한된다.
본 발명의 목적은 이용자 명령에 기초하여 리프리젠테이션을 수정하기 위한 방법을 제공하는 것이다.
본 발명의 제 1 양태에 따르면 목적은 제 1 이용자로부터 리프리젠테이션을 수신하는 단계, 리프리젠테이션을 입력 오브젝트 분류와 연관시키는 단계, 제 2 이용자로부터 명령을 수신하는 단계, 명령을 애니메이션(animation) 분류와 연관시키는 단계, 입력 오브젝트 분류 및 애니메이션 분류를 이용하여 리프리젠테이션의 수정을 결정하는 단계, 및 수정을 이용하여 리프리젠테이션을 수정하는 단계를 포함하는 방법에 의해 달성된다.
본 발명의 부가적인 양태에 따르면, 명령이 제 2 이용자의 사운드들, 기록, 이동 또는 제스처(gestures)들로부터 얻어지는 방법이 제공된다.
제 1 이용자가 어떤 것에 대한 리프리젠테이션 예를 들면, 이야기 속의 캐릭터를 제공할 때, 이를 오브젝트 분류와 연관시킴으로써 캐릭터가 어느 정도 식별된다. 즉, 가장 양호한 가능한 매치(match)가 결정된다. 제 2 이용자가 리프리젠테이션을 포함하는 이야기를 상상할 때, 이야기의 동적 요소들은 움직임, 기록, 사운드들, 스피치(speech), 제스처들, 안면 제스처들, 또는 안면 표정들과 같은 하나 이상의 통신 형태들로 나타난다. 이 제 2 이용자로부터의 신호들로부터 명령을 얻음으로써, 리프리젠테이션은 이야기의 동적 요소를 도시하도록 수정되거나, 애니메이트(animate)될 수 있다. 이는 제 1 및 제 2 이용자들로의 피드백(feedback)을 개선하고 제 1 및 제 2 이용자들의 즐거움을 증가시킨다.
부가적인 이점은 리프리젠테이션을 입력하기 위해 이용되는 디바이스의 수명을 증가시키는 것이다 - 상이한 형태들로부터 얻어진 명령들을 이용함으로써, 소모되기 쉬운 터치 스크린들 및 기록 타블렛들과 같은, 공지되어 있는 디바이스들과 같이 단일 이용자 입력을 빈번하게 계속해서 이용할 필요가 없다.
본 발명의 일 양태에 따르면, 애니메이션 분류가 감정 분류를 포함하는 방법이 제공된다. 감정들을 반영하기 위한 리프리젠테이션의 수정은 특히 정적 시스템에서 어려운데, 왜냐하면 그것은 예를 들면, 특정 캐릭터에 대한 입 윤곽선들의 반복 지우기 및 그리기를 필요로 할 것이기 때문이다. 그러나, 감정을 디스플레이하는 것은 흔히 입과 같은, 단지 리프리젠테이션의 일부를 나타내는 것보다 더욱 정교하므로, 본 발명의 방법은 제 1 및 제 2 이용자들에게 더 광범위하고 재생가능한 바람직한 감정의 피드백을 가능하게 한다. 어린이들의 경우, 자신들의 도화들에 감정들을 추가함으로써 자신들의 즐거움이 증가한다.
본 발명의 또 다른 양태에 따르면, 수정된 리프리젠테이션을 생성하기 위한 시스템이 제공되고, 시스템은 제 1 이용자로부터 리프리젠테이션을 수신하기 위한 제 1 입력부; 리프리젠테이션을 입력 오브젝트 분류와 연관시키기 위한 제 1 분류기; 제 2 이용자로부터 명령을 수신하기 위한 제 2 입력부; 명령을 애니메이션 분류와 연관시키기 위한 제 2 분류기; 입력 오브젝트 분류기 및 애니메이션 분류기를 이용하여 리프리젠테이션의 수정을 결정하기 위한 선택기; 수정을 이용하여 리프리젠테이션을 수정하기 위한 수정기; 및 수정된 리프리젠테이션을 출력하기 위한 출력 디바이스를 포함한다.
본 발명의 또 다른 양태에 따르면, 제 1 이용자 및 제 2 이용자가 동일한 이용자인 시스템이 제공되고, 시스템은 리프리젠테이션을 수신하고, 이용자로부터 명령을 수신하도록 구성된다.
본 발명의 상기 및 다른 양태들은 이후에 기술되는 실시예들로부터 명확하고 상기 실시예들을 참조하여 명료해질 것이다.
도 1은 본 발명에 따라 이용자 명령에 기초하여 리프리젠테이션을 수정하기 위한 기본 방법을 도시한 도면.
도 2는 본 발명에 따른 방법을 실행하기 위한 시스템의 개략도.
도 3은 본 발명의 시스템의 일 실시예를 도시한 도면.
도 4는 도 3의 제 1 분류기의 개략도.
도 5는 도 3의 제 2 분류기의 개략도.
도 6은 도 3의 선택기의 개략도.
도 7은 음성(voice) 분석을 이용하는 감정 인식의 일례를 도시한 도면.
도면들은 순전히 개략적이고 비율대로 도시되지 않는다. 특히 명료성을 위해, 일부 차원들은 매우 과장된다. 도면들 내의 유사한 구성요소들은 되도록 동일한 참조 부호들로 병기된다.
도 1은 본 발명에 따라 이용자 명령에 기초하여 리프리젠테이션을 수정하기 위한 기본 방법을 도시한다.
리프리젠테이션은 제 1 이용자로부터 수신된다(110). 이 리프리젠테이션은 애니메이션의 기초를 형성하고, 시작 지점의 제 1 이용자에 의한 선택을 나타낸다. 리프리젠테이션은 펜 및 종이 도화를 디지털화하거나, 기록 타블렛을 직접 이용하거나, 시작 리프리젠테이션들의 라이브러리(library)로부터 선택하거나, 오브젝트의 사진을 찍거나, 컴퓨팅 디바이스에 디스플레이된 오브젝트의 스냅샷(snapshot)을 생성함으로써와 같은, 임의의 적합한 수단을 이용하여 입력될 수 있다.
리프리젠테이션이 수신된 직후 리프리젠테이션을 어떤 방식으로든 제 1 이용자에게 출력하는 것이 유용할 수 있다.
리프리젠테이션은 입력 오브젝트 분류와 연관된다(120). 오브젝트는 무생물(예를 들면, 꽃병들, 테이블들, 자동차들) 및 생명이 있는(예를 들면, 사람들, 만화 캐릭터들, 동물들, 곤충들) 오브젝트들 이 둘 모두를 포함하는 가장 넓은 의미로 이용되는 것이 주목된다. 본 발명은 입력된 리프리젠테이션을 오브젝트 분류로서 식별함으로써 수정 프로세스를 간소화한다. 식별은 컴퓨팅 디바이스에서 구현될 때, 계산 전력, 속도, 메모리 요건들, 프로그래밍 용량 등과 같은 다른 단계들, 및 다른 트레이드-오프(trade off)들의 케이퍼빌리티들(capabilities) 및 요건들에 따라 다소 크거나 다소 작은 정도로 실행될 수 있다. 예를 들면, 리프리젠테이션이 돼지를 도시하면, 오브젝트 분류는 그 돼지를 동물, 포유류, 농장 동물, 돼지, 심지어 특정 돼지의 품종과 같은 상이한 아이덴티티(identity)의 등급들과 연관되도록 규정될 수 있다.
리프리젠테이션을 오브젝트 분류와 연관시키는 것은 당업자에 공지된 임의의 적합한 방법을 이용하여 실행될 수 있다. 예를 들면, 그것은 적절한 유추 및 유사성의 모델에 기초할 수 있다.
이용자들이 자연스럽게 그림으로써 컴퓨터들과 상호동작하도록 하며 스케치로서 입력된 리프리젠테이션의 인식을 제공하는 시스템들이 당업계에 공지되어 있다. 스케치 인식을 위한 현재의 가능성들을 나타내는 그와 같은 시스템들은 MIT의 Randall Davis에 의한 2007년 9원의 논문, "Magic Paper: Sketch-Understanding Research," Computer, vol. 40, no. 9, pp. 34 - 41에 기술되어 있다. 예들 중 하나는 간소한 2D 물리적 디바이스들을 스케치한 다음, 이들이 움직이는 것을 주시하기 위해 이용되는 "Assist"(A Shrewd Sketch Interpretation and Simulation Tool)이다. "Assist"는 우리가 행하는 것과 동일한 방식으로 잉크를 해석하는 의미로 원 스케치(raw sketch)를 이해한다. 그것은 이 해석을 물리 시뮬레이터(physics simulator)에 전하고, 물리 시뮬레이터는 디바이스를 애니메이트하여, 이용자에게 지능형 종이(intelligent paper) 상의 도화의 경험을 제공한다.
입력 리프리젠테이션의 프로세싱 예를 들면, 이용자에 의해 공급된 원 데이터를 초기 형상들 - 선들 및 호들로서 재해석하는 것은 입력 리프리젠테이션이 수신될 때, 또는 오브젝트 분류와의 연관 동안 실행될 수 있다. 방향 또는 굴곡 및 속도를 나타내기 위해 데이터의 시간 캐릭터(temporal character)에 기초하여 초기 형상들을 찾는 것은 연관 태스크(task)를 조력하기 위해 이용될 수 있다.
연관(120) 이후의 일 대안으로서, 오브젝트 분류는 선택(150) 및 수정(160)의 후속 단계들 동안 리프리젠테이션을 대체할 수 있다. 그 다음, 오브젝트 분류는 입력된 리프리젠테이션의 이상화된 버전을 나타낼 것이다.
입력된 오리지널 리프리젠테이션과 이상화된 리프리젠테이션 사이의 어디엔가 있는 리프리젠테이션은 또한 선택(150) 및 수정(160)의 후속 단계들을 위해 이용될 수 있다. 이 경우에, 입력된 리프리젠테이션이 어느 정도 "정돈된(tidied-up)" 것이 제 1 이용자에게 보일 것이다. 이는 선택된 애니메이션(150)에 의한 리프리젠테이션의 수정(160)을 간소화할 수 있다.
명령은 제 2 이용자로부터 수신된다(130). 이는 의식에서 원하는바 예를 들면, "돼지가 걸어간다"를 리프리젠테이션하기 위해 임의의 형태로 제공될 수 있거나, 이야기의 내레이션 동안 제 2 이용자에 의해 행해지는 코멘트들, 예를 들면, "그리고 그것이 돼지를 행복하게 했대요"와 같은, 제 2 이용자에 의해 이용된 통신 수단으로부터 얻어진 어떤 것을 반영할 수 있다. "걷기", "행복"과 같은, 제 2 이용자가 버튼들 또는 선택가능한 아이콘들과 같은, 임의의 종래의 수단을 이용하여 직접적으로 선택할 수 있는 직접 입력 선택사항들을 제공하는 것이 유용할 수 있다.
명령은 애니메이션 분류와 연관된다(140). 특정한 정도의 적응성(flexiblity)을 허용하기 위해, 미리 결정된 분류들의 정보를 갖고 이 특정 명령들을 단지 중계만 하는 것은 필요하지 않다. 예를 들면, 애니메이션 분류 "걷기"가 이용가능하면, 이는 구어들, "워킹(walking)", "산책하기(strolling)", "완보하기(ambling)" 등과 같은, 걷기와 가까운 임의의 명령들과 연관된다. 애니메이션 분류의 다양한 등급들이 규정될 수 있다. 예를 들면, 애니메이션 명령이 "달리기"인 경우, 애니메이션 분류는 이를 "달리기", "속보", "걷기", 또는 "이동"과 연관하도록 규정될 수 있다.
애니메이션은 여기서 자체의 가장 광범위한 의미로 이용되어 달리기, 점프하기와 같은, 움직임들을 기술할 뿐만 아니라, 울기, 웃기와 같은, 감정적인 특성들의 디스플레이를 기술한다. 그러한 애니메이션은 시각 성분(visual component) 및 청각 성분(audio component)을 포함할 수 있다. 예를 들면, 애니메이션이 "슬픔"을 디스플레이하도록 의도되면, 시각 성분은 눈에 나타난 눈물일 수 있고 청각 성분은 우는 소리일 수 있다. 적절하다면, 청각 및 시각 성분은 예를 들면, 사운드들이 애니메이트된 입에 의해서 행해진 것처럼 동기화될 수 있다 - 예를 들면, 애니메이션이 "행복"인 경우, 청각 성분은 즐거운 노래(happy song)일 수 있고, 시각 성분은 동기화된 입 움직임들을 포함할 수 있다. 시각 성분은 웃을 때 입 끝이 위로 향하는 것과 같은, 수정된 윤곽선들, 또는 당황할 때 뺨이 홍조가 되는 것과 같은 색의 변화, 또는 이들의 결합일 수 있다.
애니메이션이 감정을 도시하는 경우, 애니메이션 분류의 다양한 등급들이 또한 규정된다. 예를 들면, 애니메이션 명령이 "행복"인 경우, 애니메이션 분류는 그것을 "재미", "미소", "행복" 또는 "즐거움"과 연관하도록 규정될 수 있다.
입력된 오브젝트 분류 및 애니메이션 분류를 이용하는 리프리젠테이션의 수정이 선택된다(150). 오브젝트 분류 및 애니메이션 분류는 가능한 수정들의 규정된 라이브러리에 액세스하기 위해 이용되는 파라미터들로서 고려될 수 있다. 액세스된 수정은 입력된 리프리젠테이션에 대한 적절한 애니메이션 예를 들면, 오브젝트 분류가 "돼지"이고 애니메이션 분류가 "걷기"라면 이용될 걸어가는 돼지를 나타내는 일련의 다리 이동들을 나타낸다.
수정을 이용하여 리프리젠테이션을 수정한다(160). 그 다음, 제 1 이용자의 리프리젠테이션은 선택된 수정에 따라, 즉 제 1 이용자가 직접적으로 영향을 주었던 방식으로 애니메이트된다.
유용하다고 입증될 수 있는 부가적인 매저(measure)는 학습 모드(learning mode)여서, 제 1 이용자가 수기(handwriting) 및 음성 인식에 대해 당업계에 일반적으로 공지되어 있는 것과 유사한 방식으로, 오브젝트 분류들을 스스로 규정하고/규정하거나 리프리젠테이션이 프로세싱되는 방식을 적응시켜서, 연관의 정확성을 개선시킬 수 있다. 제 1 이용자는 또한 리프리젠테이션이 무엇인지를 지정하거나, 리프리젠테이션이 정확하게 식별되는지를 확인하도록 요청받을 수 있다.
그와 같은 학습 시스템은 2006년 미국, Hanover, 20차 International Workshop on Qualitative Reasoning.에서 A. Lovett, M. Dehghani 및 K. Forbus에 의한 "Efficient Learning of Qualitative Descriptions for Sketch Recognition"에 기술되어 있다. 논문은 개방-도메인(open-domain) 스케칭 환경에서 오브젝트들을 인식하는 방법을 기술한다. 시스템은 상기 오브젝트들의 이전의 스케치들에 기초하여 오브젝트들의 일반성(generalization)들을 구축하고 상기 일반성들을 이용하여 새로운 스케치들을 분류한다. 방식은 스케치들을 질에 따라 나타내도록 선택되어야 하는데, 왜냐하면 질적 정보는 정확한 치수들과 같은, 분류로부터 전환하는 세부사항들을 발췌하는 설명의 레벨을 제공하기 때문이다. 베이지안 추론(Bayesian reasoning)이 인지 문제에 있어서의 내재하는 불확실성을 처리하기 위하여 리프리젠테이션들을 구성하는 프로세스에서 이용된다. 질적 리프리젠테이션들은 구조 매핑 엔진(Structure Mapping Engine; SME), 즉 지각적 유사성(perceptual similarity)의 연구들로부터의 심리적 증거에 의해 지지되는 유추 및 유사성의 계산 모델을 이용하여 비교된다. 시스템은 동일한 오브젝트의 상이한 스케치들에서 SME에 의해 발견된 공통 구조에 기초하여 일반화들을 생성한다.
SME은 유추 및 시뮬레이션의 계산 모델이고, 또한 리프리젠테이션을 오브젝트 분류(120)와 연관시키고/연관시키거나 명령을 애니메이션 분류(140)와 관련시키기 위한 기초를 형성할 수 있다.
유사하게 학습 모드는 또한 애니메이션 분류에 제공되어 자체의 연관의 정확성을 개선시킬 수 있다.
도 2는 도 1의 방법을 실행하기 위해 적합한 시스템의 개략도를 도시한다.
시스템은 제 1 이용자로부터 리프리젠테이션을 수신하고 상기 리프리젠테이션을 적합한 형태로 제 1 분류기(220)로 출력하기 위한 제 1 입력부(210)를 포함한다. 이는 리프리젠테이션을 원하는 전자 포맷으로 입력하기 위해 적합한 임의의 적절한 디바이스를 포함할 수 있다. 예를 들면, 시스템은 제 1 이용자의 수동 동작들을 도화 타블렛 또는 터치-스크린과 같은 디지털 형태로 전환하는 디바이스를 포함할 수 있다. 시스템은 종이 상의 이미지들을 디지털화하기 위한 스캐너 또는 이미지들을 디지털화하기 위한 카메라와 같은 디지털화기(digitizer)일 수 있다. 시스템은 또한 저장 디바이스 또는 위치로부터 디지털 상태의 리프리젠테이션을 수신하기 위한 네트워크 접속을 포함할 수 있다. 제 1 입력부(210)는 또한 리프리젠테이션을 제 1 분류기(220)에 적합한 형태로 변환하는 수단을 포함할 수 있다.
도 2의 시스템이 제 1 입력부(210)로부터 리프리젠테이션을 수신했다면, 시스템은 리프리젠테이션을 출력 디바이스(270)를 이용하여 제 1 이용자에게 출력할 수 있다. 이 방식으로, 리프리젠테이션이 입력되었을 때, 제 1 이용자는 리프리젠테이션에 대한 피드백을 즉각 획득할 것이다.
시스템은 제 1 입력부(210)로부터 수신된 리프리젠테이션을 입력 오브젝트 분류와 연관시키고, 이 오브젝트 분류를 선택기(250)에 출력하기 위한 제 1 분류기(220)를 추가로 포함한다. 제 1 분류기는 리프리젠테이션을 수신하고 리프리젠테이션을 오브젝트 분류와 연관시킴으로써 리프리젠테이션을 식별한다. 제 1 분류기(220)는 적절한 포맷으로 입력된 오브젝트 분류를 선택기(250)에 제공하도록 구성 및 배열된다.
리프리젠테이션의 하나 이상의 양태들은 리프리젠테이션을 분류와 연관시키는데 조력하기 위해 이용될 수 있다. 예를 들면, 다음 중 임의의 하나는 단독으로 또는 결합해서 이용될 수 있다:
제 1 입력부(210)가 제 1 이용자의 수동 동작을 검출하는 도화 인터페이스인 경우, 제 1 분류기(220)로의 신호들은 이용된 스트로크(stroke)들의 시퀀스(sequence), 크기, 속도 및 압력과 같은, 리프리젠테이션이 그려지는 방법을 포함할 수 있다;
리프리젠테이션이 유사하게 보이는 것 - 서로에 대한 스트로크들의 관계;
적절한 입력에 의해 검출되는 바와 같이, 제 1 이용자가 리프리젠테이션의 입력 동안 임의의 검출가능한 통신 수단에 의해 중계하는 것.
리프리젠테이션을 입력된 오브젝트 분류와 연관시킬 때 이용될 수 있는 양태들은:
리프리젠테이션이 규정되는 방법 - 즉, 특정한 오브젝트 분류의 예가 되도록, 표준화된 리프리젠테이션이 따라야 하는 기하학적 한계점들의 세트;
리프리젠테이션이 그려지는 방법 - 즉, 이용된 스트로크들의 시퀀스; 및
리프리젠테이션이 유사하게 보이는 것 - 즉, 이미지 식별의 종래의 개념.
리프리젠테이션으로부터 오브젝트 분류를 생성하는데 있어서의 문제들 중 하나는 단지 돼지의 머리와 같은, 부분적인 리프리젠테이션들, 또는 전면, 측면, 위에서부터와 같은 상이한 뷰(view)들을 입력하기 위해 제 1 이용자가 이용가능한 자유도(freedom)이다.
제 1 이용자가 리프리젠테이션을 무엇이 되도록 하려는지를 결정하는데 있어서 프로세서가 이용가능한 정보의 양을 증가시키기 위해 사운드, 제스처 또는 움직임 검출과 같은 제 1 이용자와 다른 인터페이스들을 이용하는 것이 유용할 수 있다. 이는 제 2 입력부(230)에 대한 가능성들과 관련하여 아래에 기술된다. 리프리젠테이션의 생성 및 입력 동안 사운드들, 스피치, 제스처들, 안면 제스처들, 안면 표정들 및/또는 움직임과 같은 통신 수단을 모니터링(monitoring)함으로써, 추가 실마리들이 제공될 것임이 예상된다. 음성의 경우에, 이것들은 적합한 제 2 입력부(230)에 의해서 식별되고 제 1 분류기(220)로 공급될 수 있다.
리프리젠테이션을 입력 오브젝트 분류와 연관시키기 위해서 단독 수단으로서 이용될 수 있는 이 통신 수단으로부터 명령을 얻는 것이 심지어 유용할 수 있다. 당업자는 이들 둘 모두의 방법들의 결합이 또한, 가능하면 명령 및 리프리젠테이션에 가중치가 첨부된 채로, 이용될 수 있음을 인식할 것이다.
단어 스피치(word speech)는 모든 구두 발언, 단어들 뿐만 아니라, 잡음들을 기술하기 위해 이용되는 것을 주목하라. 예를 들면, 제 1 이용자가 돼지의 꿀꿀거리는 소리를 내어야 하는 경우, 이는 리프리젠테이션을 오브젝트 분류와 연관시키는데 도움을 주기 위해 이용될 수 있다.
제 1 및 제 2 이용자가 동일한 물리적 위치에 있는 경우, 각각의 이용자에는 제 2 입력부(230)에 대해 후술되는 것과 유사한, 전용 또는 공유 입력들이 제공될 수 있다. 입력들이 공유되는 경우, 시스템은 제 1 및 제 2 이용자 입력들 사이에 구별이 행해질 수 있도록 종래의 음성 인식 시스템을 추가로 포함할 수 있다.
대안적으로, 제 1 분류기(220)가 리프리젠테이션을 오브젝트 분류와 연관시켰을 때에만, 제 1 입력부(210)를 이용하여 입력되는 것으로서 리프리젠테이션을 출력하는 것(270)이 유용할 수 있다. 이는 연관시키는 단계(120)가 성공적으로 완료되었다는 확인을 제 1 이용자에게 제공한다.
제 2 입력부(230)는 제 2 이용자로부터 명령을 수신하고 명령을 적합한 형태로 제 2 분류기(240)에 출력하기 위해서 제공된다. 이는 제 2 이용자가 시스템에 특정한 방식으로 리프리젠테이션을 수정하도록 직접적으로 또는 간접적으로 명령할 수 있게, 명령을 입력하기 위해 적합한 임의의 적절한 디바이스를 포함할 수 있다. 제 2 이용자들은 움직임, 기록, 사운드들, 음성, 제스처들, 안면 제스처들, 안면 표정들, 또는 다른 직접 선택과 같은, 많은 통신 수단에 의해, 명령들, 또는 큐(cue)들을 제공할 수 있다. 제 2 입력부(230)는 마이크로폰, 카메라 또는 아이콘들(icons)을 구비한 버튼들, 이들 입력들로부터 명령들을 얻기 위한 수단, 및 제 2 분류기(240)에 적합한 형태로 명령들을 출력하는 수단과 같은, 통신의 수단을 검출하기 위해 적합한 디바이스를 포함할 수 있다.
공동 도화(collaborative drawing)의 형태를 위해서 복수의 제 2 이용자들에게 복수의 제 2 입력부들(230)을 제공하는 것이 또한 유용할 것이다. 그 다음, 시스템은 상이한 입력들을 분석하고 가중하여, 결과적으로 우세한 애니메이션 명령이 무엇인지를 결정하기 위한 수단을 추가로 포함하도록 수정될 수 있다. 이 태스크는 모든 입력들이 특정한 유형의 애니메이션 명령들을 얻는 것으로 제한될 수 있는 경우 예를 들면, 감정들에 제한되는 경우 간소화될 수 있다. 필요한 경우, 종래의 음성 식별이 또한 특정 제 2 이용자들에 더 많은 가중치를 제공하기 위해 이용될 수 있다.
애니메이션 명령들이 제 2 입력부(220)에 의해 검출된 사운드들 또는 음성으로부터 얻어질 경우, 여러 양태들이 이용될 수 있다. 예를 들면, 다음 중 임의의 하나가 단독으로 또는 결합하여 이용될 수 있다:
- "달리기", "슬픔", "행복"과 같은, 음성 내에 포함된 트리거 단어들(trigger words)의 인식. 이를 행하는 기술들은 당업계에 공지되어 있고 예를 들면, 마이크로소프트로부터의 윈도우즈 비스타는 윈도우즈 음성 인식을 특징으로 한다;
- 제 2 이용자의 음성의 피치(pitch) 분석은 화자의 감정 상태를 검출하기 위해 이용되고,
- 문법 분석은 입력 리프리젠테이션과 연관되지 않은 가능한 애니메이션 명령들을 필터링(filtering)하기 위해 이용될 수 있다. 예를 들면, 제 1 이용자가 돼지의 리프리젠테이션을 입력하지만 이야기의 내레이션 동안, 개가 돼지 쪽으로 달리고 있으므로 돼지가 겁을 먹고 있다고 제 2 이용자가 언급하는 경우, 애니메이션 명령 "겁"을 중계하고, "달리기"를 중계하지 않는 것이 중요하다.
마이크로소프트에서 현재 입수가능한 음성 인식은 적응성이 있어서 - 이는 이용자가 주류의 애플리케이션들에서 문서들 및 이메일들을 구술하는 것을 가능하게 하고, 음성 명령들을 이용하여 애플리케이션들 사이에서 시작 및 스위칭하고, 운영 시스템을 제어하고, 심지어 웹(Web) 상에서 서식들을 작성하기 위해 음성 명령들을 이용하는 것을 가능하게 한다. 윈도우즈 음성 인식은 최근의 마이크로소프트 음성 기술들을 이용하여 구축된다. 이는 이용의 편이를 개선하기 위해 제 2 입력부(230) 및 제 2 분류기(240)에 의해 이용될 수 있는 다음의 기능들을 제공한다.
- 명령: "당신이 본 것을 말하세요" 명령들은 애플리케이션들의 자연스런 제어를 가능하게 하고 문서들을 포맷팅하고 저장하는 것; 애플리케이션들 사이에서 개방 및 스위칭하는 것; 및 파일들을 개방, 복사 및 삭제하는 것과 같은, 태스크들을 완료한다. 링크들의 명칭들을 말함으로써 심지어 인터넷을 브라우징(browsing)할 수 있다. 이는 소프트웨어가 음성으로부터 콘텍스트(context)를 추출할 필요가 있으므로, 원하지 않는 애플리케이션 명령들을 필터링 아웃(filtering out)하고/필터링 아웃하거나 애니메이션 명령들을 식별하는데 문법 분석을 적용하기 위해 이용될 수 있다;
- 명확화: 명료성을 위해 모호한 상황들을 이용자 인터페이스에 의해 용이하게 해소. 이용자가 다수의 방식들로 해석될 수 있는 명령을 말할 때, 시스템은 무엇이 의도되었는지를 명확하게 한다. 그와 같은 선택사항은 본 발명에 따라 시스템에 추가되어서 정확한 연관들이 행해졌는지를 명확하게 한다.
- 상호 동작 설명서: 상호동작 음성 인식 설명서는 윈도우즈 비스타 음성 인식을 이용하는 법을 가르치고 인식 시스템에 이용자의 음성이 비슷한 것을 알려준다; 및
- 개인화(적응): 말하는 스타일 및 액세스로의 진행중인 적응은 계속해서 음성 인식 정확성을 개선한다.
피치 분석 인식: 이를 행하는 기술들은 당업계에 공지되어 있고, 하나의 예는 유럽 특허 출원 EP 1 326 445에 기술되어 있다. 본 발명은 음성 통신을 실행하는 통신 유닛, 및 통신 파트너에 대응하는 CG 캐릭터를 선택하는 캐릭터 배경 선택 입력 유닛을 개시한다. 음성 입력 유닛은 음성을 획득한다. 음성 분석 유닛은 음성을 분석하고, 감정 추정 유닛(emotion presuming unit)은 음성 분석의 결과에 기초하여 감정을 추정한다. 입술 동작 제어 유닛, 신체 동작 제어 유닛, 및 표정 제어 유닛은 제어 정보를 3-D 도화 유닛으로 전송하여 이미지를 생성하고, 디스플레이 유닛은 이미지를 디스플레이한다.
도 2의 시스템에서 이 피치 분석 인식을 구현함으로써, 제 2 입력부(230)는 음성을 분석하기 위한 음성 분석 유닛, 및 음성 분석의 결과에 기초하여 감정을 추정하기 위한 감정 추정 유닛을 포함한다. 수정기(260)는 입술 동작 제어 유닛, 신체 동작 제어 유닛 및 표정 제어 유닛을 포함한다. 수정기(260)는 또한 이미지 도화 유닛을 포함하여 제어 유닛들로부터 제어 정보를 수신한다. 출력 디바이스(270)는 이미지를 디스플레이한다. 음성 분석 유닛은 전송된 음성 데이터의 강도 또는 음소, 또는 이 둘 모두를 분석한다. 인간의 언어에서, 음소는 의미를 구별하는 가장 작은 구조적 단위이다. 음소들은 자체가 물리적 세그먼트들(segments)은 아니지만, 이론적인 측면들에서, 물리적 분절들의 인지 관념(cognitive abstraction)들이다.
음성 강도는, 미리 결정된 시간 기간(디스플레이 비율(rate) 시간과 같은) 동안 음성 데이터 진폭의 절대값이 도 7에서 도시된 바와 같이 통합되고(샘플링 값들이 부가되고) 통합된 값의 레벨이 그 기간의 미리 결정된 값에 기초하여 결정되는 방식으로 분석된다. 음소는 정상적인 음성 인식에 대한 프로세싱이 실행되고 음소들이 "n", "a", "i", "u", "e", 또는 "o"로 분류되거나 각각의 음소의 비율이 출력되는 방식으로 분석된다. 기본적으로, 통계적으로 수집되는 음소들 "n", "a", "i", "u", "e", 또는 "o"의 음성 데이터를 표준화함으로서 획득된 템플릿(template)은 음소들로 분해되고 표준화되는 입력 음성 데이터와 매치되고, 가장 매치하는 데이터가 선택되거나, 매칭 레벨의 비가 출력된다. 매칭 레벨의 대해서, 적절한 미리 규정된 거리 함수(유클리드(Euclid) 거리, 힐버트(Hilbert) 거리 및 마하라노비스(Maharanobis) 거리와 같은)에 의해 측정된 최소 거리를 갖는 데이터가 선택되거나, 값은 각각의 거리를 모든 음소들 "n", "a", "i", "u", "e", 및 "o"의 측정된 거리들의 총계로 나눔에 의한 비율로서 계산된다. 이 음성 분석 결과들은 감정 추정 유닛에 전송된다.
감정 추정 유닛은 미리 결정된 시간 기간 동안 음성 분석 유닛으로부터 전송된 음성 분석 결과를 저장하고, 저장된 결과에 기초하여 이용자의 감정 상태를 추정한다. 예를 들면, 감정 유형들은 "정상", "웃음", "화남", "울음", 및 "걱정"으로 분류된다.
음성 강도 레벨에 대해서, 감정 추정 유닛은 특정한 시간 기간 동안 레벨 패턴들을 각각의 감정에 대한 템플릿들로서 유지한다. 특정 시간 기간이 음성 분석들의 3배에 대응한다고 가정하면, 템플릿들은 "레벨 2, 레벨 2, 레벨 2"가 "정상"이고, "레벨 3, 레벨 2, 레벨 3"이 "웃음"이고, "레벨 3, 레벨 3, 레벨 3"이 "화남"이고, "레벨 1, 레벨 2, 레벨 1"이 "울음"이고, "레벨 0, 레벨 1, 레벨 0"이 "걱정"임을 나타낸다. 이들 템플릿들에 반하는 저장된 3배 분석 결과의 경우에는, 레벨 차들(힐버트 거리)의 절대값들의 합 또는 레벨 차들(유클리드 거리)의 제곱들의 합이 계산되어 가장 근사적인 합이 그 당시의 감정 상태라고 결정된다. 또한, 감정 상태는 각각의 감정에 대한 거리를 모든 감정들에 대한 거리들의 합으로 나눔으로써 획득된 비율로 계산된다.
애니메이션 명령들을 얻는 문법 분석의 태스크는 이용자가 특정한 어구들 또는 문장 내의 휴지 부분들을 이용함으로써 간소화될 수 있다. 이 휴지 부분들은 애니메이션 명령들, 애니메이션 명령의 범위, 및 오브젝트 분류들을 분리해야만 한다.
예를 들면, 문장 "빌리라 불리는 돼지가 있어요, 그 돼지는 오늘이 자기 생일이기 때문에 매우 행복해요"는 이 경우에
"빌리라 불리는.....돼지가.....있어요, 그 돼지는 오늘이 자기 생일이기 때문에.....매우.....행복해요....." 로서 발음되어야만 한다."
유사하게, 문장 "그 개는 자신이 시험을 통과하지 못했다는 것을 알았을 때 매우 슬펐다"은 이 경우에
"그.....개는.....자신이 시험을 통과하지 못했다는 것을 알았을 때.....매우 .....슬펐다....."로 발음될 것이다.
추가적이거나, 대안적으로, 제 2 분류기(240)에는 움직임, 기록, 제스처들, 또는 안면 표정들, 또는 이들의 임의의 결합으로부터 애니메이션 명령을 얻기 위해 입력부들이 제공될 수 있다. 즉, 수기 인식, 제스처 인식, 및 안면 표정 인식과 같은, 다수의 기술들이 이용될 수 있다.
제스처 및 움직임 인식: 이를 행하는 기술들은 당업계에 공지되어 있는데, 하나의 그러한 기술은 2004년 E. Kaiser 등에 의한, "Demo: A Multimodal Learning Interface for Sketch, Speak and Point Creation of a Schedule Chart," Proc. Int'l Conf. Multimodal Interfaces(ICMI), ACM Press, pp. 329 및 330에 기술되어 있다. 이 논문은 만나기로 계획되어 있는 두 사람을 추적하는 시스템이다: 한 명은 간트 챠트(Gantt chart)를 생성하는 터치 감지 화이트보드(whiteboard)에 서 있고, 반면에 또 다른 사람은 교정된 스테레오 카메라의 뷰에서 관찰된다. 스테레오 카메라는 실시간, 얽매이지 않고, 관찰자의 머리, 몸통 및 팔다리 움직임들의 시각 기반 추적을 실행하고, 이는 차례대로 3D-제스처 인식 에이전트(agent)로 라우팅(routing)된다. 스피치, 3D 다이틱 제스처(deictic gesture) 및 2D 물체 디-레퍼런싱(de-referencing)을 이용함으로써, 시스템은 특정 이정표로 이동하려는 관찰자의 생각을 추적할 수 있다. 시스템은 또한 미등록어(out-of-vocabulary; OOV) 워드들을 음성 시퀀스들로서 인식할 수 있는 스피치 인식 에이전트를 갖는다. 그러므로, 화이트보드에 있는 이용자가 OOV 라벨 이름을 쓰면서 또한 챠트 구성요소에 대한 OVV 라벨 명칭을 발음할 때, OOV 스피치는 새로운 라벨에 대한 맞춤법, 발음 및 의미들을 산출하기 위해 수기 인식기에 의해 가정된 문자 시퀀스들과 결합된다. 그 다음, 이것들은 시스템에 의해 동적으로 학습되고 미래의 인식을 위해 즉시 이용가능하게 된다.
안면 제스처 및 안면 표정 인식: M. J. den Uyl, H.에 의해, 2005년 8월 30일 내지 9월 2일, Wageningen에서, Proceedings of Measuring Behavior 2005; "The Facereader: online facial expression recognition"에 기술된 시스템과 같은, 이를 행하는 기술들은 당업계에 공지되어 있다. 논문은 안면판독기(FaceReader) 시스템을 기술하고, 안면판독기는 안면 표정들 및 다른 안면 특징 온라인을 높은 정도의 정확성으로 기술할 수 있다. 논문은 이를 동작하도록 하기 위해 이용하는 시스템 및 기술의 가능성들을 기술한다. 시스템을 이용함으로써, 감정 표정들은 프리젠테이션들은 89%의 정확도로 인식될 수 있고, 이는 다수의 다른 안면 특징들을 또한 분류할 수 있다.
제 2 분류기(240)의 기능은 제 2 입력부(230)으로부터 수신된 명령을 애니메이션 분류와 연관시키고, 애니메이션 분류를 선택기(250)로 출력하는 것이다. 제 2 분류기(240)는 애니메이션 분류를 적절한 포맷으로 선택기(250)에 제공하도록 구성되고 배열된다.
제 2 분류기(240)에 다수의 입력들이 이용되는 경우, 제 2 분류기(240)는 상이한 입력들을 분석하고 가중하고, 그 결과에 따라 우세한 애니메이션 명령이 무엇인지, 그러므로 무엇이 애니메이션 분류와 연관되어야 하는지를 결정하기 위한 수단을 추가로 포함할 수 있다. 이 태스크는 모든 입력들이 특정한 유형의 애니메이션 명령들을 얻는 것으로 제한되는, 예를 들면, 감정들로 제한되는 경우에 간소화될 수 있다.
심지어 단일 입력이 이용될 때도, 제 2 분류기(240)는 계속해서 상이한 시간들로 도착하는 상이한 애니메이션 명령들을 분석하고 가중할 수 있다. 예를 들면, "그.....돼지는 아침에.....슬프다고.....느꼈어요....., 그러나 오후에 그 돼지는 다시.....행복.....해졌어요. 돼지는 매우.....행복해서.....자기 친구들을 바베큐를 위해 자신의 집으로 초대했어요"와 같은 입력들을 처리하기 위해, 애니메이션 명령 "행복"이 선택되어야만 한다. 실제로, 이용자는 상기 키워드들을 위해 다수의 밀리초들 동안 일지 중지할 수 있다. 대안적으로, 다수의 감정 단어들이 검출되는 경우, 캐릭터 상에 도시된 감정들은 언급되고 있는 줄거리를 동적으로 따를 수 있다. 이는 시스템의 응답 시간 - 즉, 애니메이션 명령을 제공하는 제 2 이용자로부터의 시간에서 애니메이션이 출력 디바이스(270) 상에 출력되는 시간까지 - 에 기초할 것이다.
시스템은 제 1 분류기(220)로부터, 수신된 입력 오브젝트 분류 및 제 2 분류기(240)로부터 수신된 애니메이션 분류를 이용하여 리프리젠테이션의 수정을 결정하기 위한 선택기(250)를 포함한다. 선택기(250)의 출력은 선택된 수정이고, 이는 수정기(260)에 제공된다. 두 입력 파라미터들은 리프리젠테이션이 수정기(260)에 의해 어떻게 수정될지를 결정하기 위해 이용되고, 선택기(250)는 수정기(260)에 적절한 명령들을 적합한 포맷으로 제공한다.
수정기(260)는 수정을 이용하여 리프리젠테이션을 수정하기 위하여 시스템에 제공된다. 수정기(260)는 또한 제 1 입력부(210)로부터 리프리젠테이션을 수신하고 또한 선택기(250)로부터 수정을 수신한다. 수정기(260)는 리프리젠테이션을 출력하는 출력 디바이스(270)에 접속되어 출력 디바이스는 제 1 및/또는 제 2 이용자에 의해 인지될 수 있다. 수정기(260)는 리프리젠테이션에 수정을 적용하고, 수정기가 그렇게 하기 때문에, 제 1 및/또는 제 2 이용자에 의한 출력 디바이스(270) 상의 리프리젠테이션의 인지 역시 수정된다. 수정기(260)는 제 1 입력부 디바이스(210)로부터 수신된 리프리젠테이션이 출력 디바이스(270)에 직접적으로 제공되도록 즉, 출력 디바이스(270)에 수정된 리프리젠테이션을 제공하지 않거나, 제공하기 전에 구성 및 배열될 수 있다. 예를 들면, 제 1 이용자가 도화를 입력한 후에 및 애니메이션 명령이 얻어지기 전에, 도화는 출력 디바이스 상에 디스플레이될 수 있다. 후속적으로, 명령이 제 2 입력부(230)으로부터 얻어지면, 제 1 및/또는 제 2 이용자는 애니메이트된 도화를 볼 것이다.
시스템은 또한 수정기(260)로부터 신호들을 수신하고, 이용자가 수정된 리프리젠테이션을 인지할 수 있도록 수정된 리프리젠테이션을 출력하기 위한 출력 디바이스(270)를 포함한다. 이는 예를 들면, 청각 출력 및 시각 출력을 포함할 수 있다.
시스템의 이용자에 대한 추가 장점은 고레벨의 도화 기술이 필요하지 않다는 점이다. 기본 리프리젠테이션을 이용하고 명령 수단을 제공하는 것은 훌륭한 예술가가 아닌 이용자가 계속해서 시스템을 이용할 수 있고, 그것을 이용하는 것으로부터 즐거움을 얻을 수 있음을 의미한다.
제 1 및 제 2 이용자로부터 입력을 수신함으로써, 공동 도화가 가능하다. 제 1 및 제 2 이용자들은 상이한 물리적 위치들의 동일한 물리적 위치에 존재할 수 있다.
제 1 및 제 2 이용자들이 상이한 물리적 위치들에 존재하는 경우, 방법은 제 1 리프리젠테이션이 제 1 이용자로부터 수신(110)되고 제 1 명령이 제 2 이용자로부터 수신(130)되고, 제 2 리프리젠테이션이 제 2 이용자로부터 수신되고 제 2 명령이 제 1 이용자로부터 수신되도록 수정될 수 있다.
제 1 및 제 2 이용자들이 동일한 물리적 위치에 있는 공동 도화의 경우, 출력 디바이스(270)가 공유될 수 있거나 각각의 이용자에게 개별 디스플레이가 제공될 수 있다. 제 1 및 제 2 이용자들이 상이한 물리적 위치들에 있는 경우, 두 이용자들에게 또는 단 한 명의 이용자에게만 디스플레이가 제공될 수 있다.
제 1 이용자 및 제 2 이용자가 동일한 이용자가 되도록 방법을 수정하는 것이 유용할 수 있다. 이는 필요한 입력들 및 출력들의 수를 감소시킬 수 있고, 보다 적은 순열(permutations)이 예측될 수 있으므로 연관 단계들의 정확성을 증가시킬 수 있다. 이 방식으로 본 발명은 단일 이용자에 대한 상호동작 도화 환경을 시험하기 위해 이용될 수 있다.
도 3은 어린이에게 적합할, 본 발명의 시스템의 일 실시예를 도시한다. 도 3의 시스템은 후술되는 추가 양태들을 제외하고, 도 2의 시스템과 동일하다. 당업자에게 명백한 바와 같이, 이 추가들의 대다수는 도 2의 시스템의 다른 실시예들에서 또한 이용될 수 있다.
이 실시예의 설명에서, 제 1 이용자 및 제 2 이용자는 동일한 이용자이고, 간단히 이용자로서 칭해진다.
특히, 어린이용으로 시스템을 설계함으로써, 시스템의 복잡도 레벨이 감소할 수 있다. 예를 들면, 가능한 오브젝트 분류들 및/또는 애니메이션 분류들의 수는 어린이의 어휘 및 경험에 다가가도록 감소될 수 있다. 이는 책들 또는 교육용 비디오와 같은 다른 정보 콘텐트(content)를 위해 이용되는 방식과 유사한 방식으로:
- 가능한 입력 오브젝트 분류들을 "농장에서", "집 주위", "학교에서" 와 같은 근접한 위치로 제한하고/제한하거나;
- 애니메이션 분류들을 "자동차들", "동물들", "감정들"과 같은 테마로 제한함으로써 행해진다.
가능성들이 어린이의 능력들 및 연령에 따라 튜닝(tuning)될 수 있도록 복잡도가 가변하도록 하는 것이 한층 유용할 수 있다.
출력 디바이스(270)는 LCD 모니터와 같은 시각 디스플레이 디바이스(271), 및 확성기와 같은 선택 오디오 재생 디바이스(272)를 포함한다. 이용자를 위해 시스템을 간소화하기 위해, 이용자 리프리젠테이션을 위한 제 1 입력부(210)는 출력을 위해 이용되는 것과 동일한 유닛 내에 통합될 수 있다. 이는 예를 들면, 컴퓨팅 디바이스에 접속된 기록 타블렛, 또는 터치 스크린이 제공되는 컴퓨터 모니터를 이용하여 행해질 수 있다.
제 2 입력부(230)는 사운드들, 특히 명령들이 제공될 때 또는 이야기를 들려줄 때, 어린이에 의해 행해진 스피치를 검출하기 위한 마이크로폰(235)을 포함한다. 마이크로폰(235)은 또한 출력 디바이스(270)에 통합될 수 있다.
동작 중에, 어린이는 제 1 입력부(210)를 이용하여 오브젝트의 리프리젠테이션을 도화함으로써 시작 지점을 선택한다. 예를 들면, 적절한 버튼을 누르거나 특정 길이의 시간을 대기함으로써, 도화의 완료를 나타낸 후에, 제 1 분류기(220)는 리프리젠테이션을 오브젝트 분류와 연관시킬 것이다.
대안적으로, 제 1 분류기(220)는 계속해서 리프리젠테이션을 오브젝트 분류에 연관시키는 시도를 할 수 있다. 이는 보다 신속하고 더욱 자연스런 이용자에 대하여 응답하는 장점을 갖는다.
도 4는 제 1 프로세서(221) 및 오브젝트 분류 데이터베이스(225)를 포함하는, 도 3의 제 1 분류기(220)의 개략도를 도시한다. 리프리젠테이션이 제 1 입력부(210)를 이용하여 입력되면, 원 데이터는 어떤 방식으로든 오브젝트로 변화될 필요가 있다. 예를 들면, 이용자가 돼지를 그릴 때, 제 1 분류기(220)의 태스크는 선택기(250)에 오브젝트 분류 "돼지"를 출력하는 것이다. 제 1 프로세서(221)의 태스크는 제 1 입력부(210)에 의해 제공된 신호들을 오브젝트 분류 데이터베이스(225)의 엔트리들과 비교될 수 있는 표준화된 오브젝트 규정으로 변환하는 것이다. 데이터베이스(225)에서 오브젝트의 매치가 발견되면, 오브젝트 분류는 선택기(250)로 출력된다.
리프리젠테이션의 여러 양태들은 제 1 프로세서(221)에 의해 이용되어 표준화된 오브젝트 규정을 결정될 수 있다. 예를 들면, 다음 중 임의의 하나가 단독으로 또는 결합하여 이용될 수 있다:
제 1 입력부(210)가 이용자의 수동 동작을 검출하는 도화 인터페이스인 경우, 제 1 프로세서(221)로의 신호들은 이용된 스트로크들의 시퀀스, 크기, 속도 및 압력과 같은, 리프리젠테이션이 그려지는 방법을 포함할 수 있다;
리프리젠테이션이 유사하게 보이는 것 - 서로에 대한 스트로크들의 관계;
마이크로폰(235)을 포함하는 제 2 입력부(230)에 의해 검출되는 바와 같이, 리프리젠테이션의 입력 동안 이용자가 만들어내는 사운드들; 및
리프리젠테이션의 입력 동안 이용자가 기록하는 것 - 수기 분석은 임의의 연관 단어들을 검출하기 위해 이용될 수 있다.
도 3의 시스템이 오브젝트 분류를 결정한 후에, 시스템은 시각 디스플레이 디바이스(271) 상의 제 1 입력부(210)를 이용하여 입력된 바와 같은, 오리지널 리프리젠테이션을 디스플레이할 수 있다. 이는 이용자에게 연관이 성공적이었던 시각 신호를 제공한다.
도 5는 제 2 프로세서(241) 및 애니메이션 분류 데이터베이스(245)를 포함하는 도 3의 제 2 분류기(240)의 개략도를 도시한다. 스피치와 같은 사운드들이 제 2 입력부(230)을 이용하여 입력되면, 스피치 내의 애니메이션 큐들은 어떤 방식으로든 애니메이션으로 검출되고 변환될 필요가 있다.
감정 애니메이션들은 특히, 디스플레이된 리프리젠테이션들과의 자신들의 관련성을 증가시키고, 어린이들이 시스템을 이용하는 것에 대한 관심을 더 오래 유지시키므로 어린이용으로 유용하다. 이는 기억력 유지를 개선하고 학습 경험을 향상시킨다.
예를 들면, 이용자가 "달리기"라 말할 때, 제 2 분류기(240)의 태스크는 애니메이션 분류 "달리기"를 선택기(250)에 출력하는 것이다. 이용자가 "슬픔"이라 말할 때, 제 2 분류기(240)의 태스크는 애니메이션 분류 "슬픔"을 선택기(250)에 출력하는 것이다.
제 2 프로세서(241)의 태스크는 제 2 입력부(230)에 의해 제공된 사운드들을 애니메이션 분류 데이터베이스(245)의 엔트리들(entries)과 비교될 수 있는 표준화 애니메이션 규정으로 변환하는 것이다. 애니메이션의 매치가 데이터베이스(245)에서 발견될 때, 애니메이션 분류는 선택기(250)로 출력된다.
추가적이거나, 대안적으로, 움직임, 기록, 제스처들, 안면 제스처들 또는 안면 표정들, 또는 이들의 임의의 조합으로부터 명령을 얻기 위해 적절한 입력부들이 제공될 수 있다:
- 수기 및 손 움직임 인식. 신호들은 디지털 기록 도구(335)를 포함하는 제 3 입력부(330)를 이용하여 제공될 수 있고, 제 3 입력부(330)는 편의를 위해 제 1 입력부(210)와 결합될 수 있다;
- 움직임 및 제스처 인식. 제 4 입력부(430)에 포함된 스테레오 카메라와 같은, 제 1 이미지 검출 디바이스(435)를 이용함으로써, 이용자의 사지들 및 물리적 자체의 움직임들로부터 명령들이 얻어질 수 있다.
- 안면 표정, 안면 움직임 또는 안면 제스처 인식. 제 5 입력부(530)에 포함된, 카메라와 같은, 제 2 이미지 검출 디바이스(535)를 이용함으로써, 이용자의 안면 특징들의 움직임들로부터 명령들이 얻어질 수 있다. 이는 특히 감정에 대응하는 애니메이션 명령들이 바람직할 때 유용하다.
도 3의 시스템이 애니메이션 분류를 결정하였다면, 이는 선택기(250)로 넘어가게 된다.
애니메이션 분류는 "달리기"와 같은 동작, "빠름" 또는 "느림"과 같은 정도를 포함할 수 있다. 예를 들면, 애니메이션 분류가 "슬픔"과 같은 감정인 경우, 정도는 "조금" 또는 "매우"일 수 있다. 이것이 바람직한 경우, 제 2 분류기(220)는 이용가능한 입력부들(230, 330, 430, 530)로부터 이를 결정하기 위해 수정되어야만 할 것이다. 실제로, 정도는 -5 내지 5와 같은 수로서 인코딩될 수 있고, 여기서 0은 중립 위치이거나 디폴트 레벨일 것이며, +5는 "매우", 또는 "매우 빠름"일 것이고, -5는 "조금" 또는 "매우 느림"이 될 것이다. 제 2 분류기(220)가 이 정도를 결정할 수 없었다면, 0의 디폴트 값이 이용될 수 있다.
도 6은 제 3 프로세서(251) 및 애니메이션 데이터베이스(255)를 포함하는, 도 3의 선택기(250)의 개략도를 도시한다.
제 1 분류기(220)로부터 입력 오브젝트 분류 및 제 2 분류기(240)로부터 애니메이션 분류를 수신한 후에, 제 3 프로세서(251)는 애니메이션 데이터베이스(255)에 액세스하여 적절한 애니메이션을 획득할 것이다. 이 적절한 애니메이션은 수정기(260)로 넘어갈 것이고, 여기서 이용자 리프리젠테이션은 적절한 애니메이션에 기초하여 수정되고, 애니메이트된 리프리젠테이션은 디스플레이 디바이스(270)를 이용하여 이용자에게 디스플레이될 것이다. 예를 들면, 입력 오브젝트 분류가 "돼지"이고, 애니메이션 분류가 "행복"인 경우, 제 3 프로세서(251)는 "행복한 돼지"에 대해 적절한 애니메이션에 액세스할 것이다.
상술한 바와 같이, 이용가능한 입력 오브젝트 분류들 및/또는 애니메이션 분류들을 제한함으로써 시스템의 복잡도를 감소시키는 것이 유용할 것이다. 이 파라미터들은 애니메이션 데이터베이스의 복잡성 및 크기에 직접적으로 영향을 미친다.
애니메이션들을 음성, 제스처들, 안면 표정들, 걸음걸이, 헤어스타일, 의류, 자세, 다리 위치, 팔 위치 등과 같은 하나 이상의 부분들로 제한하는 것이 또한 유용할 것이다. 이는 또한 시스템의 복잡도를 감소시킬 수 있다. 예를 들면, "슬픔"과 같은 감정은:
- 단지 리프리젠테이션의 안면, 또는
- 단지 입, 예를 들면, 입은 하향하게 되거나,
- 예를 들면, 눈물이 보이는 눈들로 제한될 수 있다.
적절한 애니메이션이 그러한 부분들로 제한되는 경우, 수정기가 이 애니메이션을 어디에 적용할지를 인지하도록, 이는 수정기(260)로 전달되어야만 할 것이다.
대안적으로, 애니메이트된 리프리젠테이션의 일부는 이용자가 기존 입력부들(210, 230, 330, 430, 530)을 통해 특정 애니메이션 명령을 제공하거나, 출력 디바이스(270) 상의 부가 입력을 검출함으로써 선택가능할 수 있다. 예를 들면, 리프리젠테이션의 일부를 터치하거나 지적함으로써, 리프리젠테이션의 상기 부분과 연관된 청각 및 시각 성분만이 출력된다. 예를 들면, 입을 지적하면, 노래하는 결과가 발생된다. 손들을 지적하는 동안, 리프리젠테이션은 박수칠 수 있다. 눈을 지적하면 눈물이 보이게 할 수 있다.
적합할 가장 단순한 애니메이션의 형태는 인터넷 "스마일리(smiley)들" - 기본적으로 입, 눈, 및 코 형상들의 복잡성과 유사할 것이다.
적절한 애니메이션은 삭제 및/또는 추가에 의해 프레임 단위(frame-by-frame)로 수정하는 것과 같은 임의의 포맷으로 수정기(260)에 제공될 수 있다. 애니메이션은 또한 "쉐이크(shake)"와 같은, 수정기에 의해 인식된 포맷으로 명령들의 형태를 취할 수 있다. 그와 같은 경우에, 수정기는 예를 들면, 오리지널 리프리젠테이션의 윤곽선들의 외부의 추가 윤곽선들을 반복해서 추가하고 삭제함으로써 리프리젠테이션을 쉐이크(shake)하는 법을 인지할 것이다.
유사하게, 애니메이션은 - 예를 들면, 걷고 있는 리프리젠테이션을 애니메이트하기 위해 명령 및 애니메이션의 결합을 포함할 수 있고, 애니메이션은 +30도에서의 다리들의 하나의 세트, -30도에서의 하나의 세트, 및 이를 교호하여 디스플레이하라는 명령을 포함할 수 있다. 그러한 애니메이션 세트의 디스플레이 사이의 시간은 "달리기" 및 "걷기"와 같은 관련 애니메이션 분류, 또는 "빠름" 또는 "느림"과 같은 애니메이션 분류의 정도에 관하여 고정될 수 있다.
애니메이션은 또한 애니메이션 피스(piece)들의 스트림(stream) 및/또는 리프리젠테이션의 상이한 부분들에 대한 명령들을 포함할 수 있다. 예를 들면, 리프리젠테이션이 개와 연관되었고 애니메이션 명령이 달리기와 연관되었다면, 애니메이션은 다리들이 좌우로 움직이고, 머리가 위 아래로 움직이고, 꼬리가 위 아래로 움직이게 하기 위한 후속 명령들을 포함할 수 있다.
도 3의 시스템이 적절한 애니메이션을 결정하였다면, 결정된 애니메이션은 수정기(260)로 넘어간다. 수정기(260)는 제 1 입력부(210)로부터 리프리젠테이션을 수신하고, 애니메이션을 선택기(250)로부터 리프리젠테이션에 적용하고, 이를 출력 디바이스(270)로 넘긴다.
적절한 애니메이션이 다리들과 같은, 리프리젠테이션의 일부에만 다리들에만 단지 영향을 미치므로, 리프리젠테이션의 적절한 부분들을 검출하는 기능이 수정기(260)에 제공되는 것이 유용할 수 있다. 이 태스크는 수정기(260)에 제 2 분류기(220)에 의해 생성된 입력 오브젝트 분류를 제공하고 관련된 리프리젠테이션의 일부를 결정하는 수단을 제공함으로써 간소화될 수 있다.
출력 디바이스(270)는 수정기로부터 신호들을 수신하고, 이용자를 위한 적절한 출력을 생성한다. 리프리젠테이션의 시각 성분은 비디오 디스플레이(271) 상에 디스플레이되고, 임의의 청각 컴포넌트는 오디오 재생 디바이스(272)를 이용하여 재생된다.
이용자가 애니메이션 데이터베이스(255)를 학습(새로운 애니메이션들) 또는 편집(수정된 애니메이션들) 모드 중 하나에 스스로 채우도록 하는 것이 유용할 수 있다. 이 방식에서, 애니메이션들은 새로운 애니메이션들로 분리되거나 병합될 수 있다. 이는 또한 애니메이션의 청각 및 시각 성분들에 대해 개별적으로 행해질 수 있어서 예를 들면, 이용자가 기존 애니메이션에 대한 새로운 청각 성분을 기록하거나 기존 청각 성분을 상이한 성분으로 대체할 수 있도록 한다. 또한 이용자는 애니메이션들을 하나의 입력 오브젝트 분류로부터 또 다른 입력 오브젝트 분류로 복사할 수 있고 예를 들면, 슬픈 돼지의 애니메이션은 개의 애니메이션으로 복사되어 슬픈 개에 대한 애니메이션이 생성될 수 있다.
도 3의 시스템은 공동 도화가 복수의 어린이들에 대해 가능하도록 수정될 수 있다. 도 1 및 도 2에 관하여 상술한 바와 같이, 이는 하나 이상의 입력부들 및 출력부들을 필요로 한다.
상술한 실시예들은 본 발명을 제한하기보다는 설명하는 것이고, 당업자들은 첨부된 청구항들의 범위를 벗어나지 않고 많은 대안적인 실시예들을 설계할 수 있음이 주목되어야 한다. 예를 들면, 실시예들은 다수의 프로세서들 및 데이터베이스들을 언급하지만, 도 2의 시스템은 단일 프로세서 또는 단일 결합된 데이터베이스를 이용하여 동작될 수 있다.
본 발명의 방법들은 하나 이상의 프로그램들 내의 프로그램 코드로 인코딩되어, 상기 방법들은 이들 프로그램들이 하나 이상의 컴퓨터들 상에서 구동될 때 실행될 수 있도록 한다. 프로그램 코드는 또한 컴퓨터 판독가능한 매체 상에 저장될 수 있고, 컴퓨터 프로그램 제품에 포함될 수 있다.
도 2의 시스템은 독립형 전용 유닛일 수 있거나, 시스템은 도 1의 방법을 실행하기 위한 프로그램 코드, 또는 소프트웨어가 제공되는 PC이거나, PC용 하드웨어 애드 온(add-on)으로서 제공될 수 있다. 이는 PDA 또는 휴대 전화와 같은, 휴대용 전자 디바이스에 통합될 수 있다.
시스템은 국제 출원 IB2007/053926(PH007064)에 기술된 물리적 표면 상의 가상 도화를 위한 시스템에 통합될 수 있다. 도 3의 시스템은 상기 출원에 기술된 시스템이 또한 어린이용으로 명확하게 설계되기 때문에 특히 유용할 것이다.
도 2의 시스템은 RFID 애플리케이션들에서 이용되는 것들과 같은, 근접 데이터 판독기를 추가로 포함할 수 있고, 근접 데이터 판독기는 데이터 캐리어(carrier)를 판독기에 가까이함으로써 리프리젠테이션이 입력되도록 한다. 유사하게 USB 디바이스와 같은 접촉 데이터 판독기가 또한 이용될 수 있다. 이때 리프리젠테이션들은 적절한 데이터 판독기 상에 개별적으로 공급될 수 있다.
당업자는 도 2의 시스템을 수정하여 인터넷과 같은, 통신 네트워크를 통해 데이터를 교환할 수 있을 것이다. 예를 들면, 리프리젠테이션들 및 적절한 애니메이션들의 온라인 라이브러리들(on-line libraries)은 시스템으로 다운로드하기 위해 이용가능해질 수 있다.
유사하게, 당업자는 또한 실시예들을 수정하여 실시예들의 기능성이 분배되도록 할 수 있어서, 제 1 및 제 2 이용자들이 물리적으로 동일한 위치 또는 물리적으로 별개의 위치들에서 공동으로 도화하는 것이 가능하다. 그 다음, 하나 이상의 이용자들에게는 다음의 디바이스들 중 하나 이상이 제공될 수 있다: 제 1 입력부(210), 제 2 입력부(230), 및 출력 디바이스(230).
청구항들에서, 괄호 사이에 배치되는 임의의 참조 부호들은 청구항을 제한하는 것으로서 해석되지 않아야 한다. 동사 "포함하다(comprise)" 및 이의 변형들의 이용은 청구항에 진술된 것과 다른 요소들 또는 단계들의 존재를 배제하지 않는다. 요소들 앞의 관사("a" 또는 "an")는 그러한 요소들의 복수의 존재를 배제하지 않는다. 본 발명은 여러 개별 요소들을 포함하는 하드웨어에 의해 구현될 수 있다. 여러 수단을 열거하는 디바이스 청구항에서, 이 수단들 중 여러 수단은 하나 및 동일한 아이템의 하드웨어에 의해 구현될 수 있다. 특정 매저들이 상호 상이한 종속항들에서 인용되고 있다는 단순한 사실은 이 매저들의 결합이 유용하게 이용될 수 없다는 것을 나타내지 않는다.
요약하면, 본 발명은 이용자 명령에 기초하여 리프리젠테이션을 수정하기 위한 방법 및 상기 방법에 의해 수정된 리프리젠테이션을 생성하기 위한 시스템에 관한 것이다. 펜 및 종이 및 기록 타블렛들과 같은 종래의 도화 시스템들은 상당한 정도의 도화 기술을 필요로 하지만 이 기술은 모든 이용자들이 지니지 않는다. 게다가, 이 종래의 시스템들을 정적 도화들을 생성한다.
본 발명의 방법은 제 1 이용자로부터 리프리젠테이션을 수신하는 단계, 리프리젠테이션을 입력 오브젝트 분류와 연관시키는 단계, 제 2 이용자로부터 명령을 수신하는 단계, 명령을 애니메이션 분류와 연관시키는 단계, 입력 오브젝트 분류 및 애니메이션 분류를 이용하여 리프리젠테이션의 수정을 결정하는 단계, 및 수정을 이용하여 리프리젠테이션을 수정하는 단계를 포함한다.
제 1 이용자가 어떤 것의 리프리젠테이션 예를 들면, 이야기 속의 캐릭터를 제공할 때, 이를 오브젝트 분류와 연관시킴으로써 캐릭터가 어느 정도 식별된다. 즉, 가장 양호한 가능한 매치가 결정된다. 제 2 이용자가 리프리젠테이션을 포함하는 이야기를 상상할 때, 이야기의 동적 요소들은 기록, 스피치, 제스처들, 안면 표정들과 같은 하나 이상의 통신 형태들로 나타난다. 이들 신호들로부터 명령을 얻음으로써, 리프리젠테이션은 이야기의 동적 요소를 도시하기 위해 수정되거나, 애니메이트될 수 있다. 이는 이용자들로의 피드백을 개선하고, 이용자들의 즐거움을 증가시킨다.
210: 제 1 입력부 220: 제 1 분류기
221: 제 1 프로세서
225: 오브젝트 분류 데이터베이스 230: 제 2 입력부
235: 마이크로폰 240: 제 2 분류기
241: 제 2 프로세서
245: 애니메이션 분류 데이터베이스 250: 선택기
251: 제 3 프로세서 255: 애니메이션 데이터베이스
260: 수정기 270: 출력 디바이스
271: 시각 디스플레이 디바이스
272: 선택 오디오 재생 디바이스 330: 제 3 입력부
335: 디지털 기록 도구 430: 제 4 입력부
435: 제 1 이미지 검출 디바이스 530: 제 5 입력부
535: 제 2 이미지 검출 디바이스

Claims (15)

  1. 이용자 명령에 기초하여 리프리젠테이션(representation)을 수정하기 위한 방법에 있어서:
    - 제 1 이용자로부터 상기 리프리젠테이션을 수신하는 단계(110);
    - 상기 리프리젠테이션을 입력 오브젝트 분류(input object classification)와 연관시키는 단계(120);
    - 제 2 이용자로부터 명령을 수신하는 단계(130);
    - 상기 명령을 애니메이션 분류와 연관시키는 단계(140);
    - 상기 입력 오브젝트 분류 및 상기 애니메이션 분류를 이용하여 상기 리프리젠테이션의 수정을 선택하는 단계(150); 및
    - 상기 수정을 이용하여 상기 리프리젠테이션을 수정하는 단계(160)를 포함하는, 이용자 명령에 기초하여 리프리젠테이션을 수정하기 위한 방법.
  2. 제 1 항에 있어서,
    상기 애니메이션 분류는 감정 분류를 포함하는, 이용자 명령에 기초하여 리프리젠테이션을 수정하기 위한 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 제 1 이용자 및 상기 제 2 이용자는 동일한 이용자인, 이용자 명령에 기초하여 리프리젠테이션을 수정하기 위한 방법.
  4. 제 1 항 또는 제 2 항에 있어서,
    - 직접 선택, 움직임, 사운드들, 스피치, 기록, 제스처들(gestures), 및 이들의 임의의 조합으로 구성되는 그룹으로부터 선택된 상기 제 1 이용자의 통신 수단으로부터 부가적인 명령을 얻는 단계, 및
    - 상기 부가적인 명령을 이용하여 상기 리프리젠테이션을 입력 오브젝트 분류와 연관시키는 단계(120)를 추가로 포함하는, 이용자 명령에 기초하여 리프리젠테이션을 수정하기 위한 방법.
  5. 제 1 항 또는 제 2 항에 있어서,
    - 직접 선택, 움직임, 사운드들, 스피치, 기록, 제스처들, 및 이들의 임의의 조합으로 구성되는 그룹으로부터 선택된 상기 제 2 이용자의 통신 수단으로부터 상기 명령을 얻는 단계(135)를 추가로 포함하는, 이용자 명령에 기초하여 리프리젠테이션을 수정하기 위한 방법.
  6. 제 5 항에 있어서,
    - 상기 제 2 이용자의 안면 제스처들 또는 안면 표정들로부터 상기 명령을 얻는 단계(135)를 추가로 포함하는, 이용자 명령에 기초하여 리프리젠테이션을 수정하기 위한 방법.
  7. 제 1 항 또는 제 2 항에 있어서,
    - 상기 제 1 이용자의 움직임 또는 제스처로부터 상기 리프리젠테이션을 얻는 단계(115)를 추가로 포함하는, 이용자 명령에 기초하여 리프리젠테이션을 수정하기 위한 방법.
  8. 제 7 항에 있어서,
    상기 리프리젠테이션은 상기 제 1 이용자의 수동 동작들로부터 얻어지는(115), 이용자 명령에 기초하여 리프리젠테이션을 수정하기 위한 방법.
  9. 제 1 항 또는 제 2 항에 있어서,
    상기 리프리젠테이션은 청각 및 시각 성분을 포함하는, 이용자 명령에 기초하여 리프리젠테이션을 수정하기 위한 방법.
  10. 제 9 항에 있어서,
    상기 수정(160)은 상기 청각 성분으로 제한되거나 상기 리프리젠테이션의 시각 성분으로 제한되는, 이용자 명령에 기초하여 리프리젠테이션을 수정하기 위한 방법.
  11. 제 1 항 또는 제 2 항에 있어서,
    상기 수정(160)은 상기 리프리젠테이션의 일부로 제한되는, 이용자 명령에 기초하여 리프리젠테이션을 수정하기 위한 방법.
  12. 수정된 리프리젠테이션을 생성하기 위한 시스템에 있어서:
    - 제 1 이용자로부터 상기 리프리젠테이션을 수신하기 위한 제 1 입력부(210);
    - 상기 리프리젠테이션을 입력 오브젝트 분류와 연관시키기 위한 제 1 분류기(220);
    - 제 2 이용자로부터 명령을 수신하기 위한 제 2 입력부(230);
    - 상기 명령을 애니메이션 분류와 연관시키기 위한 제 2 분류기(240);
    - 상기 입력 오브젝트 분류기 및 상기 애니메이션 분류기를 이용하여 상기 리프리젠테이션의 수정을 결정하기 위한 선택기(250);
    - 상기 수정을 이용하여 상기 리프리젠테이션을 수정하기 위한 수정기(260); 및
    - 상기 수정된 리프리젠테이션을 출력하기 위한 출력 디바이스(270)를 포함하는, 수정된 리프리젠테이션을 생성하기 위한 시스템.
  13. 제 12 항에 있어서,
    상기 제 1 이용자 및 상기 제 2 이용자는 동일한 이용자이고, 상기 시스템은 상기 리프리젠테이션을 수신하고, 상기 이용자로부터 상기 명령을 수신하도록 구성되는, 수정된 리프리젠테이션을 생성하기 위한 시스템.
  14. 컴퓨터 프로그램에 있어서,
    컴퓨터 상에서 구동될 때, 제 1 항 또는 제 2 항에 따른 상기 모든 단계들을 실행하기 위한 프로그램 코드 수단을 포함하는, 컴퓨터 프로그램.
  15. 컴퓨터 프로그램 제품에 있어서,
    컴퓨터 프로그램 코드가 컴퓨터 상에서 구동될 때, 제 1 항 또는 제 2 항에 따른 상기 방법을 실행하기 위한 컴퓨터 판독가능한 매체 상에 저장된 프로그램 코드 수단을 포함하는, 컴퓨터 프로그램 제품.
KR1020107024193A 2008-03-31 2009-03-24 이용자 명령에 기초하여 리프리젠테이션을 수정하기 위한 방법 KR101604593B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP08153763.1 2008-03-31
EP08153763 2008-03-31

Publications (2)

Publication Number Publication Date
KR20110008059A true KR20110008059A (ko) 2011-01-25
KR101604593B1 KR101604593B1 (ko) 2016-03-18

Family

ID=40874869

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020107024193A KR101604593B1 (ko) 2008-03-31 2009-03-24 이용자 명령에 기초하여 리프리젠테이션을 수정하기 위한 방법

Country Status (6)

Country Link
US (1) US20110022992A1 (ko)
EP (1) EP2263226A1 (ko)
JP (1) JP5616325B2 (ko)
KR (1) KR101604593B1 (ko)
CN (1) CN101983396B (ko)
WO (1) WO2009122324A1 (ko)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8594740B2 (en) 2008-06-11 2013-11-26 Pantech Co., Ltd. Mobile communication terminal and data input method
US20120026174A1 (en) * 2009-04-27 2012-02-02 Sonoma Data Solution, Llc Method and Apparatus for Character Animation
WO2011059788A1 (en) * 2009-11-11 2011-05-19 Sociotar Inc. Method for using virtual facial expressions
US20130298012A1 (en) * 2011-01-25 2013-11-07 David Neil Slatter Document Design Capture and Reuse System
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US9298287B2 (en) * 2011-03-31 2016-03-29 Microsoft Technology Licensing, Llc Combined activation for natural user interface systems
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US9858343B2 (en) 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US9454962B2 (en) 2011-05-12 2016-09-27 Microsoft Technology Licensing, Llc Sentence simplification for spoken language understanding
CN103092339B (zh) * 2012-12-13 2015-10-07 鸿富锦精密工业(深圳)有限公司 电子装置及其页面演示方法
US20140229181A1 (en) * 2013-02-12 2014-08-14 Daniel Begel Method and System to Identify Human Characteristics Using Speech Acoustics
DE202015006141U1 (de) 2014-09-02 2015-12-14 Apple Inc. Elektronische Touch-Kommunikation
US10402864B2 (en) * 2014-09-09 2019-09-03 Toshiba Memory Corporation Data processor, content distribution system, and communication apparatus
US11237717B2 (en) * 2015-11-04 2022-02-01 Sony Corporation Information processing device and information processing method
KR102174346B1 (ko) 2015-12-21 2020-11-04 구글 엘엘씨 메시징 애플리케이션들을 위한 자동적인 제안들 및 다른 콘텐츠
CN108781175B (zh) 2015-12-21 2021-09-21 谷歌有限责任公司 用于消息交换题绪的自动建议的方法、介质及系统
US10325395B2 (en) * 2016-01-20 2019-06-18 Facebook, Inc. Techniques for animating stickers with sound
US9838737B2 (en) 2016-05-05 2017-12-05 Google Inc. Filtering wind noises in video content
CN109952572B (zh) 2016-09-20 2023-11-24 谷歌有限责任公司 基于消息贴纸的建议响应
WO2018057536A1 (en) 2016-09-20 2018-03-29 Google Llc Bot requesting permission for accessing data
US10416846B2 (en) * 2016-11-12 2019-09-17 Google Llc Determining graphical element(s) for inclusion in an electronic communication
CN106781837B (zh) * 2016-12-09 2020-05-05 郭建中 一种写字板以及生成写字板的方法
US10860854B2 (en) 2017-05-16 2020-12-08 Google Llc Suggested actions for images
US10404636B2 (en) 2017-06-15 2019-09-03 Google Llc Embedded programs and interfaces for chat conversations
CN107992348B (zh) * 2017-10-31 2020-09-11 厦门宜弘电子科技有限公司 基于智能终端的动态漫画插件处理方法及系统
US11803293B2 (en) * 2018-08-30 2023-10-31 Apple Inc. Merging virtual object kits
CN113678096A (zh) * 2019-02-13 2021-11-19 曹新林 用于在计算机图形软件环境中处理命令的系统和方法
CN115512017B (zh) * 2022-10-19 2023-11-28 邝文武 一种基于人物特征的动漫形象生成系统及方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5689618A (en) * 1991-02-19 1997-11-18 Bright Star Technology, Inc. Advanced tools for speech synchronized animation
JP3203061B2 (ja) * 1992-09-07 2001-08-27 シャープ株式会社 音声電子黒板及び音声認識機能を備える表示装置
US5481278A (en) * 1992-10-21 1996-01-02 Sharp Kabushiki Kaisha Information processing apparatus
JPH0744727A (ja) * 1993-07-27 1995-02-14 Sony Corp 画像作成方法およびその装置
US6167562A (en) * 1996-05-08 2000-12-26 Kaneko Co., Ltd. Apparatus for creating an animation program and method for creating the same
JP3327127B2 (ja) * 1996-07-09 2002-09-24 松下電器産業株式会社 画像提示装置
JP3767649B2 (ja) * 1997-05-30 2006-04-19 株式会社ナムコ ゲーム装置及びゲームプログラムを記録したコンピュータ読み取り可能な記録媒体
US6721449B1 (en) * 1998-07-06 2004-04-13 Koninklijke Philips Electronics N.V. Color quantization and similarity measure for content based image retrieval
US6975988B1 (en) * 2000-11-10 2005-12-13 Adam Roth Electronic mail method and system using associated audio and visual techniques
JP2003248837A (ja) * 2001-11-12 2003-09-05 Mega Chips Corp 画像作成装置、画像作成システム、音声生成装置、音声生成システム、画像作成用サーバ、プログラム、および記録媒体
JP2003248841A (ja) * 2001-12-20 2003-09-05 Matsushita Electric Ind Co Ltd バーチャルテレビ通話装置
EP1326445B1 (en) * 2001-12-20 2008-01-23 Matsushita Electric Industrial Co., Ltd. Virtual television phone apparatus
US20060170669A1 (en) * 2002-08-12 2006-08-03 Walker Jay S Digital picture frame and method for editing
JP2006313433A (ja) * 2005-05-06 2006-11-16 Fuji Photo Film Co Ltd 電子機器
JP2007027941A (ja) * 2005-07-13 2007-02-01 Murata Mach Ltd 画像処理装置
JP4708913B2 (ja) * 2005-08-12 2011-06-22 キヤノン株式会社 情報処理方法及び情報処理装置
US7813561B2 (en) * 2006-08-14 2010-10-12 Microsoft Corporation Automatic classification of objects within images
JP4340725B2 (ja) * 2006-10-31 2009-10-07 株式会社スクウェア・エニックス ビデオゲーム処理装置、ビデオゲーム処理方法およびビデオゲーム処理プログラム
US8414399B2 (en) * 2008-06-23 2013-04-09 International Business Machines Corporation User value transport mechanism across multiple virtual world environments

Also Published As

Publication number Publication date
JP5616325B2 (ja) 2014-10-29
CN101983396A (zh) 2011-03-02
JP2011516954A (ja) 2011-05-26
WO2009122324A1 (en) 2009-10-08
KR101604593B1 (ko) 2016-03-18
EP2263226A1 (en) 2010-12-22
CN101983396B (zh) 2014-07-09
US20110022992A1 (en) 2011-01-27

Similar Documents

Publication Publication Date Title
KR101604593B1 (ko) 이용자 명령에 기초하여 리프리젠테이션을 수정하기 위한 방법
WO2022048403A1 (zh) 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端
Jaimes et al. Multimodal human–computer interaction: A survey
US8224652B2 (en) Speech and text driven HMM-based body animation synthesis
CN110688911A (zh) 视频处理方法、装置、系统、终端设备及存储介质
Benoit et al. Audio-visual and multimodal speech systems
US11989976B2 (en) Nonverbal information generation apparatus, nonverbal information generation model learning apparatus, methods, and programs
CN110148406B (zh) 一种数据处理方法和装置、一种用于数据处理的装置
Naert et al. A survey on the animation of signing avatars: From sign representation to utterance synthesis
Gibbon et al. Audio-visual and multimodal speech-based systems
US20230082830A1 (en) Method and apparatus for driving digital human, and electronic device
US20210005218A1 (en) Nonverbal information generation apparatus, method, and program
Liu Analysis of gender differences in speech and hand gesture coordination for the design of multimodal interface systems
Gjaci et al. Towards culture-aware co-speech gestures for social robots
Anderson et al. Language learning with interactive virtual agent scenarios and speech recognition: Lessons learned
Courty et al. Why is the creation of a virtual signer challenging computer animation?
JP7140984B2 (ja) 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム
Feldman et al. Engagement with artificial intelligence through natural interaction models
JP2017182261A (ja) 情報処理装置、情報処理方法、およびプログラム
Gibet et al. Signing avatars-multimodal challenges for text-to-sign generation
Melder et al. Affective multimodal mirror: sensing and eliciting laughter
He et al. LLMs Meet Multimodal Generation and Editing: A Survey
Gonzalez et al. Passing an enhanced Turing test–interacting with lifelike computer representations of specific individuals
Lücking et al. Framing multimodal technical communication
Grzyb et al. Beyond robotic speech: mutual benefits to cognitive psychology and artificial intelligence from the study of multimodal communication

Legal Events

Date Code Title Description
AMND Amendment
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
J201 Request for trial against refusal decision
AMND Amendment
B701 Decision to grant
LAPS Lapse due to unpaid annual fee