KR100656661B1 - 미디어 편집방법 및 장치 - Google Patents

미디어 편집방법 및 장치 Download PDF

Info

Publication number
KR100656661B1
KR100656661B1 KR20010055761A KR20010055761A KR100656661B1 KR 100656661 B1 KR100656661 B1 KR 100656661B1 KR 20010055761 A KR20010055761 A KR 20010055761A KR 20010055761 A KR20010055761 A KR 20010055761A KR 100656661 B1 KR100656661 B1 KR 100656661B1
Authority
KR
South Korea
Prior art keywords
editing
image
user
area
media
Prior art date
Application number
KR20010055761A
Other languages
English (en)
Other versions
KR20020021032A (ko
Inventor
다카타유지
마츠오히데아키
요시무라데츠야
이마가와가즈유키
이와사가츠히로
Original Assignee
마쯔시다덴기산교 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2000275991 priority Critical
Priority to JPJP-P-2000-00275991 priority
Application filed by 마쯔시다덴기산교 가부시키가이샤 filed Critical 마쯔시다덴기산교 가부시키가이샤
Publication of KR20020021032A publication Critical patent/KR20020021032A/ko
Application granted granted Critical
Publication of KR100656661B1 publication Critical patent/KR100656661B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/414Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
    • H04N21/41407Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance embedded in a portable device, e.g. video client on a mobile phone, PDA, laptop
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4331Caching operations, e.g. of an advertisement for later insertion during playback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8543Content authoring using a description language, e.g. Multimedia and Hypermedia information coding Expert Group [MHEG], eXtensible Markup Language [XML]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/38Displays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/53Centralised arrangements for recording incoming messages, i.e. mailbox systems
    • H04M3/5307Centralised arrangements for recording incoming messages, i.e. mailbox systems for recording messages comprising any combination of audio and non-audio components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/567Multimedia conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
    • H04N2007/145Handheld terminals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/18Information format or content conversion, e.g. adaptation by the network of the transmitted or received information for the purpose of wireless delivery to users or terminals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/02Terminal devices

Abstract

본 발명은 미디어 편집방법 및 장치에 관한 것으로서, 휴대단말 등의 커뮤니케이션 단말에 있어서, 메시지를 포함하는 미디어를 간단하게 작성할 수 있는 미디어 편집장치를 제공하는 것을 목적으로 하는 것으로, 본 발명의 미디어 편집장치에서, 동화상 데이터 보존부(14)는 사용자가 녹화·녹음한 동화상 데이터를 보존하고, 영역추출부(17)는 당해 동화상 데이터에서 사용자를 포함하는 영역을 추출하여, 정면판정부(18)는 추출된 영역 내의 사용자가 정면을 향하고 있는지의 여부를 검출하고, 음성검출부(19)는 동화상 데이터에 있어서 소정 레벨 이상의 음성신호의 유무를 검출하여, 프레임 선택부(20)는 정면판정부(18) 및 음성검출부(19)의 출력결과에 기초하여 개시 및 종료 프레임을 결정하고, 편집부(21)는 결정된 개시 및 종료 프레임에 기초하여 미디어를 클리핑하여 화상변환처리 등의 편집을 실행하며, 송신데이터 보존부(15)는 편집된 미디어를 송신 데이터로서 보존하는 것을 특징으로 한다.

Description

미디어 편집방법 및 장치{METHOD AND DEVICE FOR MEDIA EDITING}
도 1은 본 발명의 미디어 편집방법을 실현하는 화상통신을 실행할 수 있는 미디어 편집단말의 하드웨어 구성을 나타낸 블록도,
도 2는 본 발명의 미디어 편집을 실행할 때의 정보 흐름과 처리 순서를 나타낸 블록도,
도 3은 제 1 실시형태에 관련된 미디어 편집장치에 있어서 기능구성을 나타낸 블록도,
도 4는 어느 동화상 데이터를 클리핑하는 처리를 설명하기 위한 도면,
도 5는 도 4의 인덱스 정보를 MPEG-7 규격에 기초하여 기술한 메타데이터를 예시한 도면,
도 6은 동화상 데이터, 송신자의 정보, 건명(件名) 기타의 정보가 포함되는 비디오 메일을 수신한 단말의 화면표시예를 나타낸 도면,
도 7은 제 2 실시형태에 관련된 미디어 편집장치에 있어서 기능구성을 나타낸 블록도,
도 8은 트리밍 처리예와 표시화면예를 나타낸 도면,
도 9는 부분영역에 대한 메타데이터의 기술예를 나타낸 도면,
도 10은 동화상과는 별도로 건명과 본문을 표시하는 스페이스가 생기지 않는 화면표시예를 나타낸 도면,
도 11은 사용자를 포함하는 화상영역에 겹치지 않는 영역에 대해 건명을 배치한 표시예를 나타낸 도면,
도 12는 사용자를 포함하는 화상영역에 겹치는 정도가 작은 영역에 대해 본문을 배치한 표시예를 나타낸 도면,
도 13은 동화상에 대해 텍스트를 입력하는 레이아웃 처리에 관한 메타데이터의 기술예를 나타낸 도면,
도 14는 캐릭터가 부가된 비디오 메일의 수신단말에 있어서 표시화면예를 나타낸 도면,
도 15는 제 4 실시형태에 관련된 미디어 편집장치의 기능구성을 나타낸 블록도,
도 16은 두발의 특징을 이용한 얼굴특징량에 대해 예시적으로 설명한 도면,
도 17은 사용하는 캐릭터를 선택하는 편집화면을 예시한 도면,
도 18은 캐릭터메일을 수신한 경우에 있어서 수신단말 화면을 예시한 도면,
도 19는 캐릭터메일을 수신한 경우에 있어서 수신단말 화면의 다른 예를 예시한 도면 및
도 20은 분산형 미디어 편집장치 내지 시스템의 구성을 나타낸 블록도이다.
*도면의 주요부분에 대한 부호의 설명
2: 화상입력부 3: 화상표시부
4: 음입력부 5: 음출력부
6: 촬상제어부 7: 음입출력 제어부
8: 표시제어부 9: 통신부
10: 기록부 11: 기록제어부
12: 신호처리부 13: 제어부
14: 동화상 데이터 보존부 15: 송신 데이터 보존부
17: 영역 추출부 18: 정면판정부
19: 음성검출부 20: 프레임 선택부
21: 편집부 22: 레이아웃 작성부
23: 소재 데이터 보존부 24: 캐릭터 선택부
25: 캐릭터 데이터베이스 26: 편집부
100, 200, 400: 표시화면 101, 201, 401: 헤더화면
102, 202, 402: 문장화면 103, 203: 장식화면
104, 204, 404: 동화상화면 403: 캐릭터 화면
501: 캐릭터메일 편집단말 502: 캐릭터메일 수신단말
600: 네트워크 724: 캐릭터 선택부
725: 캐릭터 데이터베이스
본 발명은 정지화상 또는 동화상을 포함하는 미디어의 편집방법 및 그 장치 에 관한 것으로서, 보다 특정적으로는 텔레비전 전화, 텔레비전 회의, 비디오 메일, 비디오 채트, 도어폰(인터폰) 등, 적어도 화상을 이용하여 커뮤니케이션을 실행하는 경우에 당해 화상을 포함하는 미디어를 편집하기 위한 미디어 편집방법 및 그 장치에 관한 것이다.
종래부터 회의, 강연, 취재, 인터뷰, 전화나 텔레비전 전화 등을 사용한 회화 등의 음성 및 영상, 텔레비전이나 감시 카메라 등에서의 영상 등을 디지털 디스크, 디지털 스틸카메라, 비디오 테이프, 반도체 메모리 등에 기록하고 재생하는 장치가 제안되고 있다. 이와 같은 장치는 기록해야 하는 정보의 요점만을 기록자가 필기하여 기록하는 방법에 비해 정보를 음성이나 영상의 형태로 빠트리지 않고 기록할 수 있는 이점이 있어 근래에는 널리 이용되고 있다.
또, 근래 브로드 밴드 통신이 널리 이용되고 있는 것에 수반하여 주로 개인이 텔레비전 전화, 도어폰, 또는 카메라 부착 휴대단말 등의 정보기기를 이용하여 음성이나 화상을 취급하여 커뮤니케이션을 실행하는 장면이 늘어나고 있다. 예를 들면, 텍스트로 교환되고 있는 종래의 전자메일은 음성 및 동화상을 이용하는 비디오 메일 등으로 변용되어 가고 있다. 또, 텔레비전 전화의 보급에 수반하여 음성에서의 자동응답기록(자동응답 전화기록)이 영상과 음성에서의 자동응답기록으로 변용해 가는 등, 음성과 동화상을 동시에 이용하여 커뮤니케이션을 실행하는 장면이 늘어나고 있다.
여기에서 예를 들면 비디오 메일이나 동화상을 이용한 자동응답기록과 같이 메시지 등의 데이터를 일단 축적하여 미디어로서 이용하는 경우에는 통상, 다음과 같은 스텝을 거친다.
(1) 우선, 녹화를 실행하는 기기의 녹화개시 버튼을 누른다.
(2) 다음에 전달하고자 하는 메시지를 녹화한다.
(3) 마지막으로 종료버튼을 누른다.
또, 본 발명의 각 실시형태에 있어서, 미디어는 정지화상이나 동화상 등으로 구성된 커뮤니메이션을 위한 메시지(또는 그 데이터)를 가리키는 것으로 한다.
또, 축적된 메시지를 통신회선을 통해 다른 곳으로 송부하는 경우에는 다음 스텝을 거치는 것이 통상이다.
(4) 축적된 메시지의 어디부터 어디까지를 송부할지를 결정하고, 그 부분만을 클리핑하여 송부한다.
또, 비디오 메일과 같이 메시지를 친구 등에게 송부하는 경우에는 다음 스텝을 거치는 일도 있다.
(5) 메시지에 대해 배경무늬 등의 장식을 하거나 캐릭터 등의 그림을 첨부하거나 화상을 부분적으로 절취하는 등의 미디어 편집을 실행한다.
이상과 같은 스텝 중, 상기 (4)의 스텝에 있어서는 메시지의 어디부터 어디까지를 실제로 송부할지(즉, 클리핑의 개시점 및 종료점)를 결정할 때에 사용자는 축적된 메시지를 재생하고 확인하면서 클리핑의 개시점 및 종료점을 결정하지 않으면 안 된다. 그러나, 카메라부착 휴대단말이나 자동응답전화 등을 이용하는 경우에는 상기한 바와 같은 미디어 편집작업을 하는 것이 곤란 내지 불가능하다.
그래서, 상기 (3)의 스텝을 실행한 시점에서 다시 메시지를 재생하지 않고, 송부해야 할 구간을 결정하여 클리핑하는 방법이 바람직하다. 이와 같은 방법으로서 일본 특개평 6-343146호 공보에는 메시지의 기록 중에 사용자 입력을 실행하고, 당해 입력이 실행된 타이밍부터 일정시간만큼 신호를 재생하는 방법이 개시되어 있다. 그러나, 이와 같은 방법에 의하면, 기록자가 실행하는 사용자 입력의 타이밍에 의해 결정되는 일정시간 내의 음성이나 화상밖의 메시지로서 재생할 수 없어 당해 일정시간을 넘는 메시지는 전혀 재생할 수 없다. 또, 클리핑되는 구간은 사용자 입력의 타이밍만으로 결정되기 때문에, 신중한 조작이 요구되고, 또한 조작 자체도 번거롭다.
따라서, 상기한 종래예와 같이 사용자 입력을 요구하지 않고, 자동적으로 미리 설정된 소정 조건에 합치하는 구간을 검출하여 동화상을 클리핑하는 방법이 바람직하다. 이와 같은 방법으로서 일본 특개평 9-294239호 공보에는 입력음성정보 또는 화상정보 중, 미리 설정된 소정 조건에 합치하는 구간을 검출하여 클리핑하는 수법이 개시되어 있다. 그리고, 당해 소정 조건으로서는 소정 레벨 이상의 음성신호의 유무, 화상의 휘도변화나 색분포 변화 및 카메라(화상)의 움직임 등이 개시되어 있다.
그러나, 대개 한 사람의 인물이 카메라에 대면하여 메시지를 녹화하는 통상의 비디오 메일이나 동화상을 이용한 자동응답기록인 경우에는 상기한 종래예와 같은 방법을 이용하는 것에 대해 다음과 같은 문제점이 존재한다.
우선, 음성신호의 유무를 조건으로 하여 동화상을 클리핑하는 것은 도어폰이나 텔레비전 전화에서의 자동응답기록에는 적합하지 않다. 왜냐하면, 누가 방문했 는지(또는 누가 전화를 걸어왔는지)를 알고자 하는 경우에도 음성 메시지가 전혀 녹음되지 않은 경우에는 클리핑하는 것이 불가능하기 때문이다. 또, 화상의 휘도변화나 카메라(화상)의 움직임을 조건으로 하는 것도 적합하지 않다. 왜냐하면, 통상의 비디오 메일이나 동화상을 이용한 자동응답기록의 경우에는 화상의 휘도변화나 움직임이 적은 경우도 많아서 적절한 구간을 클리핑하는 것이 매우 곤란하기 때문이다.
또, 상기한 종래예에서는 미리 설정된 소정의 조건에 합치하는 구간을 전부 검출하여 클리핑하는데, 비디오 메일이나 동화상을 이용한 자동응답기록의 경우에는 메시지 도중에서 복수회 클리핑되면 복수개의 메시지로 분해되어 버린다. 예를 들면 음성신호의 유무를 조건으로 한 경우에 하나의 메시지 도중에서 잠시 침묵하고, 또한 메시지를 재개하면 메시지가 복수개로 분해되어 버린다. 그러나, 메일이나 자동응답기록인 경우에는 이러한 것은 1건의 메시지로서 구성하는 것이 바람직하다. 또, 설령 이러한 복수개의 메시지를 결합한다고 해도, 하나의 메시지로서는 부자연스러운 끊김을 포함하는 것이 되어 버린다.
또, 상기 스텝 (5)와 같이, 비디오 메일 등에서 장식을 하거나, 표시화면을 편집하는 경우, 당해 조작은 번잡한 것이 되는 것이 통상이다. 그 때문에, 현재는 비디오 메일에서의 장식이나 편집은 널리 실행되지 않는다. 예를 들면, 게임 센터 등에서 볼 수 있는 오락용 자동사진 촬영장치와 같이, 오로지 정지화상에 대해 배경무늬 등의 장식을 실시하는 형태나, 텍스트의 메일에 대해 정지화의 캐릭터 화상을 첨부하는 형태에 머무르고 있다. 또, 특히 시판 휴대전화단말을 이용하는 경우 에는 엄지손가락만으로 조작을 희망하기 때문에 장식이나 편집의 조작은 더욱 번잡한 것이 되기 쉽다. 그러나, 휴대단말 등의 작은 표시화면 내에 필요한 정보를 적절히 배치하기 위해서는 미디어 편집처리가 특히 중요하다. 그럼에도 불구하고, 휴대단말에도 적합한 간단한 미디어 편집방법에는 종래의 예가 없다.
그래서, 본 발명의 목적은 거의 한 사람의 인물이 카메라에 대면하여 녹화된 동화상을 포함하는 미디어를 적절하고 간단하게 편집할 수 있는 미디어 편집방법을 제공하는 것이다.
본 발명은 상기한 바와 같은 목적을 달성하기 위해 이하에 서술한 바와 같은 특징을 갖고 있다.
본 발명은 사용자의 일부 또는 전부를 피사체로 하여 촬영한 복수장의 화상으로 이루어지는 화상계열을 포함하는 미디어를 편집하는 미디어 편집방법에 있어서 다음과 같은 스텝을 포함한다. 영역추출스텝에서는 화상에서 사용자의 일부 또는 전부를 포함하는 영역을 추출한다. 지정방향 얼굴배향 판정스텝에서는 영역추출 스텝에 있어서 추출된 영역에 포함되는 사용자가 미리 정해진 지정방향을 향하고 있는지의 여부를 판정한다. 프레임 선택스텝에서는 화상계열의 개시시점에서 종료시점 방향으로, 및 종료시점에서 개시시점 방향을 향해 각각 최초에 지정방향 얼굴배향 판정스텝에 있어서 사용자가 지정방향을 향하고 있다고 판정된 시점간에 대응하는 화상계열을 선택한다. 편집스텝에서는 프레임선택 스텝에 의해 선택된 화상계열을 포함하는 미디어를 편집한다.
또, 지정방향 얼굴배향 판정스텝에서는 사용자가 정면을 향하고 있는지의 여부를 판정해도 좋다. 또, 미디어에는 음성이 포함되어 당해 미디어에 포함되는 음성을 검출하는 음성검출스텝을 또한 구비해도 좋다. 그리고, 프레임 선택스텝에서는 화상계열의 개시시점에서 종료시점 방향으로, 및 종료시점에서 개시시점 방향을 향해 각각 최초에 지정방향 얼굴배향 판정스텝에 있어서 사용자가 지정방향을 향하고 있다고 판정된 시점간에 있어서, 또한 각각 최초에 음성검출스텝에 있어서 음성이 검출된 시점간의 쌍방에 대응하는 화상계열을 선택해도 좋다.
또, 편집스텝에서는 프레임 선택스텝에서 선택된 화상계열을 메타데이터형식의 기술에 의해 특정해도 좋고, 미디어로부터 클리핑해도 좋으며, 선택된 화상계열에 있어서 최초의 화상을 초기 표시용 화상으로서 선택해도 좋다. 또, 편집스텝에서는 영역추출 스텝에 있어서 추출된 영역의 위치 및 크기에 기초하여 화상계열에 있어서 대응하는 부분 영역을 산출하고, 부분영역을 이용하여 편집을 실행해도 좋고, 당해 부분영역을 메타데이터 형식의 기술에 의해 특정해도 좋다.
또, 편집스텝에서는 영역추출 스텝에 의해 추출된 영역이나 얼굴영역에 대해 전혀 겹치지 않거나 또는 겹치는 영역이 보다 적어지도록 설정된 배치영역이나 말풍선영역에 미디어에 포함되는 텍스트를 배치해도 좋다.
또, 편집스텝에서는 하나 이상의 화상에 대해 화상변환처리를 실행해도 좋고, 영역추출 스텝에 있어서 추출된 얼굴영역에 기초하여 산출한 얼굴특징을 참조하여 복수의 캐릭터 화상 및 대응하는 얼굴특징을 축적하는 캐릭터 데이터베이스에 서 관련된 하나 이상의 캐릭터 화상을 선택해도 좋다.
본 발명의 다른 목적, 특징 및 이점은 부수하는 도면과 함께 이하의 상세한 설명을 읽는 것에 의해 알 수 있을 것이다.
(각 실시형태의 기본적 구성)
이하, 도면을 참조하여 본 발명의 각 실시형태에 대해 개설한다.
본 발명의 미디어 편집방법 및 그 장치는 텔레비전 전화, 휴대단말, 또는 도어폰과 같은 주로 개인 또는 가정 용도를 위한 화상통신단말을 이용하여 사용자가 비디오 메일을 작성하고, 또는 방문자가 자동응답기록을 작성할 때에 사용 편이성이 좋은 인터페이스를 제공할 수 있다.
도 1은 본 발명의 미디어 편집방법을 실현하는 화상통신을 실행하는 미디어 편집단말의 하드웨어 구성을 나타낸 블록도이다. 도 1에 있어서, 본 미디어 편집단말은 사용자에 대해 정보의 입출력을 실행하는 입력부(1), 화상입력부(2), 화상표시부(3), 음입력부(4) 및 음출력부(5)와, 입출력되는 정보를 처리하는 촬상제어부(6), 음입출력 제어부(7), 표시제어부(8), 통신부(9), 기록부(10), 기록제어부(11), 신호처리부(12) 및 제어부(13)를 구비한다. 이러한 것은 시스템 버스나 외부버스 등을 통해 상호 접속되어 있다. 또, 이러한 것은 일반적인 컴퓨터의 구성, 또는 그것에 유사한 구성이다.
입력부(1)는 키보드(텐 키 등을 포함)나 마우스 등으로 구성되어 있어 사용자가 미디어를 편집하기 위해 필요한 각종 정보나 텍스트 형식의 문장 등을 입력한다.
화상입력부(2)는 CCD카메라 등으로 구성되어 있고, 적어도 1장 이상의 화상으로 구성되는 동화상을 입력한다. 또, 화상입력부(2)는 기본적으로는 후술하는 음입력부(4)와 연동하여 동작하고, 전형적으로는 메시지를 녹화하는 사용자를 촬영한 동화상을 취득한다.
음입력부(4)는 마이크로폰 등으로 구성되어 있고, 장치외부의 음성을 입력하기 위해 이용된다. 또, 음입력부(4)는 기본적으로 화상입력부(2)와 연동하여 동작하고, 전형적으로는 메시지를 녹음하는 사용자의 음성을 취득한다.
화상표시부(3)는 액정 디스플레이 등으로 구성되어 있고, 사용자가 기록한 동화상이나 문자, 타인으로부터 송신되어 온 동화상이나 문자 및 조작상 필요한 각종 정보 등을 사용자에 대해 표시한다.
음출력부(5)는 스피커 등으로 구성되어 있고, 사용자가 기록한 음성, 타인으로부터 송신되어 온 음성 및 조작상 필요한 경고음이나 호출음 등을 사용자에 대해 출력한다.
촬상제어부(6)는 화상입력부(2)의 ON/OFF나 노출제어 등, 화상입력부(2)에 대한 각종 제어를 실행한다. 음입출력 제어부(7)는 음입력부(4) 및 음출력부(5)의 ON/OFF 등의 각종 제어를 실행한다. 표시제어부(8)는 화상표시부(3)의 제어를 실행한다.
통신부(9)는 공중전화회선이나 무선 등의 통신경로를 통해 상대의 정보처리장치와, 후술하는 실시형태에 있어서 작성된 각종 데이터의 송수신을 실행한다. 또, 통신부(9)가 이용하는 통신모드는 어떤 것이어도 좋고, 예를 들어 텔레비전 전 화와 같은 동기형 통신이어도 좋고, 메일과 같은 비동기형 통신이어도 좋다.
기록부(10)는 메모리 및 하드디스크 등의 기록매체로 구성되어 있고, 적어도 화상입력부(2) 및 음입력부(4)에서 입력된 데이터를 기록한다. 또, 기록부(10)는 CD-ROM이나 DVD 등의 기록매체와, 그 드라이브 장치를 포함해도 좋다. 기록제어부(11)는 기록부(10)의 입출력제어를 실행한다.
신호처리부(12)는 디지털 시그널 프로세서 등으로 구성되어 있고, 화상입력부(2)에서 입력된 화상신호나 음입력부(4)에서 입력된 음성신호 및 기록부(10)에 기록되어 있는 데이터에 대해 적어도 후술하는 각 실시형태에 있어서 편집에서 필요한 각종 처리를 실행한다.
제어부(13)는 마이크로 컴퓨터 또는 CPU등으로 구성되어 있고, 상기 데이터의 흐름을 제어하여 각종 처리를 실행한다.
또, 본 미디어 편집단말은 상기한 모든 구성부가 하나의 케이스에 수납되는 일체형 장치여도 좋고, 각 구성부가 네트워크나 신호선을 통해 데이터의 교환을 실행하는 분산형 장치여도 좋다. 예를 들면, 카메라부착 휴대전화단말은 모두 하나의 케이스에 수납되는 일체형의 장치이다. 또, 도어폰은 방문자와의 인터페이스를 꾀하기 위해 적어도 화상입력부(2), 음입력부(4) 및 음출력부(5)가 도어의 바깥쪽 근변에 설치되어 있고, 그 이외의 구성부는 거실 등에 설치된 별도의 케이스에 수납되기 때문에 분산형 장치이다. 또, 후술하는 바와 같은 캐릭터 데이터베이스를 외부에 갖는 분산형 장치도 고려할 수 있다.
다음에 본 발명의 미디어 편집방법을 이용하여 사용자가 송신용 데이터를 작 성할 때의 절차 전체의 흐름에 대해 개설한다. 도 2는 본 발명의 미디어 편집을 실행할 때의 정보의 흐름과 처리의 절차를 나타낸 블록도이다.
우선, 사용자는 상기한 도 1의 입력부(1)에 대해 화상 및 음성데이터의 취득을 개시하도록 코맨드를 입력한다. 그 후, 사용자는 화상입력부(2) 및 음입력부(4)를 통해 메시지 등을 입력하고 동화상 데이터를 작성한다.
통상, 작성한 동화상 데이터에는 많은 경우, 최초와 최후의 구간에 사용자가 입력하고자 하는 정보와는 관계없는 구간이 포함된다. 그래서, 동화상 데이터의 최초 및 최후의 불필요한 구간을 없애는 클리핑처리를 실행한다. 상세하게는 후술한다.
다음에 데이터를 송신하는 상대에 대해 유용한 정보(예를 들면, 데이터의 작성일시나 작성자의 명칭) 등을 작성한 동화상 데이터와 함께 하나의 화면에서 표시할 수 있도록 레이아웃처리를 실행한다. 예를 들면, 클리핑된 동화상 데이터에서 메시지를 발하는 사용자를 중심으로 한 특정 영역을 잘라내는 트리밍처리를 실행하고, 트리밍된 영역에 대해 또 소재 데이터로서 작성된 텍스트나 캐릭터 화상 등을 배치한다. 또, 소재 데이터는 화상, 텍스트, 컴퓨터 그래픽 등, 동화상 데이터에 대해 부가되는 데이터 전부를 나타내는 것으로 한다. 예를 들면, 소재 데이터는 미리 작성된 화상 패턴이어도 좋고, 문자나 기호의 패턴이어도 좋다. 또, 당해 레이아웃 처리는 전형적으로는 MIME(Multipurpose Internet Message(Mail) Extensions), HTML(Hyper Text Markup Language), XML(eXtensible Markup Language), MPEG-7 등 메타데이터형식을 이용하여 기술된다. 이상과 같은 처리를 거쳐, 마지막으로 데이터를 송신하는 상대방에 대한 메시지로서 작성된 송신데이터가 완성된다.
또, 이상의 클리핑 처리 및 레이아웃 처리는 도 1에 있어서 신호처리부(12), 제어부(13), 기록제어부(11) 및 기록부(10)에 있어서 실행된다. 전형적으로는 이러한 처리는 컴퓨터가 실행가능한 프로그램에 의해 실현된다. 당해 프로그램은 도시되지 않은 CD-ROM이나 반도체 메모리 카드 등의 컴퓨터가 판독가능한 기록매체에서 기록부(10) 등으로 입력되고, 또는 통신회선을 통해 다운로드된다.
그런데, 이상과 같은 처리를 실행하는 경우에는 종래의 방법에 의하면, 사용자가 정보를 입력하지 않으면 안 되는 장면이 매우 많아지는 것은 상기한 바와 같다. 보다 상세하게 설명하면, 클리핑 처리에 있어서, 사용자는 동화상이나 음성을 체크하면서 클리핑해야 하는 구간을 입력하지 않으면 안 된다. 또, 레이아웃 처리에 있어서, 사용자는 어떤 레이아웃으로 해야할 지를 편집하기 위한 조작을 실행할 필요가 있다. 특히, 레이아웃 처리에 있어서 트리밍에서는 동화상 데이터의 전체 프레임에 걸쳐 잘라내야 하는 영역을 사용자가 지정하지 않으면 안 되어 매우 번거롭다. 또, 소재 데이터를 부가하는 경우에도 사용자는 동화상 데이터에 있어서 피사체의 위치나 크기 등을 확인하면서 어디에 부가해야 할지를 입력할 필요가 있다.
본 발명의 각 실시형태에 관련된 미디어 편집장치 및 방법은 신호처리부(12) 및 제어부(13)의 한쪽 또는 양쪽에 있어서, 후술하는 영역추출처리, 정면판정처리, 음성검출처리 등 처리를 실행한다. 이 처리에 의해 클리핑 처리나 레이아웃처리의 전부 또는 일부에 있어서, 사용자가 번거롭다고 느끼는 처리(특히 클리핑 처리, 트 리밍 처리, 소재배치에 관한 편집처리)를 자동화하는 세심한 인터페이스를 제공할 수 있다.
예를 들면, 휴대단말에서 비디오 메일을 작성하는 경우에는 메시지를 찍으면 곧 메일로 하고자 하는 니즈가 높다. 그와 같은 경우에 세심한 인터페이스를 제공하는 것에 의해 곧 메일을 하는 경우에 있어서도, 메시지의 최초와 최후가 미리 클리핑되어 있고, 또 사용자가 중심으로 오도록 트리밍되어 있어 경우에 따라 배경무늬나 말풍선이 배치되어 있고, 수신자에게 있어서도 보기 쉬운 레이아웃이 되도록 작성된 비디오 메일을 사용자는 간단한 조작(예를 들면 하나의 버튼 조작)으로 작성할 수 있다. 또, 이상의 처리는 본 발명의 각 실시형태에 있어서 반드시 전부 포함될 필요는 없고, 용도에 따라 필요한 것만을 조합하여 이용해도 좋다. 이하, 본 발명의 각 실시형태에 대해 개별적으로 상술한다.
(제 1 실시형태)
제 1 실시형태에 관련된 미디어 편집장치는 상기한 도 2의 클리핑 처리를 자동적으로 실행하는 것을 가능하게 하는 것이다. 도 3은 제 1 실시형태에 관련된 미디어 편집장치에 있어서 기능구성을 나타낸 블록도이다. 도 3에 있어서, 본 미디어 편집장치는 동화상 데이터 보존부(14)와, 송신 데이터 보존부(15)와, 영역 추출부(17)와, 정면판정부(18)와, 음성검출부(19)와, 프레임 선택부(20)와, 편집부(21)를 구비한다. 이러한 구성부는 도 2의 클리핑 처리의 일부 또는 전부를 실행한다.
동화상 데이터 보존부(14)는 도 1의 기록부(10)에 대응하고 있고, 사용자가 메시지로서 녹화·녹음한 동화상 데이터를 보존한다. 영역추출부(17)는 보존된 동화상 데이터에서 피사체(사용자)의 일부 또는 전부를 포함하는 특정 영역을 추출한다. 정면판정부(18)는 영역추출부(17)에 의해 추출된 영역 내의 사용자가 정면을 향하고 있는지의 여부를 검출한다. 음성검출부(19)는 동화상 데이터의 각 프레임에 있어서 소정 레벨 이상의 음성신호의 유무를 검출한다. 프레임 선택부(20)는 정면판정부(18) 및 음성검출부(19)의 출력결과에 기초하여 개시 및 종료 프레임을 결정한다. 편집부(21)는 프레임 선택부(20)에 의해 결정된 개시 및 종료 프레임에 기초하여 미디어를 클리핑하고, 당해 미디어에 대해 화상변환처리 등의 편집을 실행한다. 송신데이터 보존부(15)는 도 1의 기록부(10)에 대응하고 있고, 편집된 미디어를 송신데이터로서 보존한다. 보존된 데이터는 적절히 송신된다.
다음에 이러한 구성부의 동작을 설명한다. 도 4는 어느 동화상 데이터를 클리핑하는 처리를 설명하기 위한 도면이다. 도 4에 있어서, 클리핑 처리는 동화상 데이터 보존부(14)에 보존된 동화상 데이터에 대해 실행된다. 동화상 데이터에는 사용자가 녹음한 메시지를 포함하는 음성데이터와, 그것에 동기하여 녹화된 화상데이터가 포함된다. 또, 화상 데이터와 음성데이터는 조합되어 하나의 데이터로서 구성되어도 좋고, 화상데이터와, 음성데이터와, 그러한 동기관계가 기술된 데이터에 의해 따로 구성되어도 좋다. 도 4에 나타낸 데이터예는 도어폰 등에서 취득된 메시지의 전형적인 예이고, 도 4 중의 A~H의 8개 장면(시점)이 포함되어 있다. 이러한 시점은 이하의 사정을 발생하고 있다.
A. 데이터 취득개시
B. 제 1 메시지 개시
C. 제 1 메시지 종료
D. 다음 메시지까지의 고려중인 구간
E. 제 2 메시지 개시
F. 음성의 정지(한숨돌림 등)
G. 제 2 메시지 종료
H. 데이터 취득종료
또, 도면 중의 그래프는 경과시간을 횡축에, 입력된 음성레벨을 종축에 취하고, A~H는 소정의 시각을 나타내고 있다. 또, 그래프의 위에 부가된 그림은 음성과 동시에 촬상된 거의 동시각의 화상데이터의 1씬이고, 예를 들어 도어폰으로 메시지를 내보내고 나서 가 버리기 까지의 사용자를 촬상한 화상을 나타내고 있다.
이 도 4를 참조하면 알 수 있는 바와 같이, 작성된 동화상 데이터에는 대부분의 경우, 최초와 최후의 부분에 사용자가 입력하고자 하는 정보와는 관계없는 구간이 포함된다. 왜냐하면, 일반적으로 사람이 메시지를 전달할 때에는 메시지를 이야기하기 시작하기 까지의 사이와, 이야기가 끝나고 나서의 사이가 생기기 때문이다. 이와 같은 메시지를 포함하는 동화상 데이터의 특색에 착안하여 본 미디어 편집장치는 화상 데이터와 음성데이터에 대해 이하와 같은 수법에 의해 클리핑해야 하는 구간을 자동적으로 결정한다.
우선, 클리핑 개시시점을 검출하는 수법에 대해 설명한다. 개시시점을 검출하는 경우, 우선 개시부터 종료방향(즉, 도 4의 A에서 보아 H방향)에 걸쳐 차례로 영역추출부(17)는 화상 데이터의 각 프레임에 대해 피사체(사용자)의 일부 또는 전부를 포함하는 영역을 검출한다.
또, 종래부터 피사체 영역을 추출하려면 여러 수법이 존재한다. 예를 들면 일본 특개평 5-91407호 공보에는 동화상의 인접하는 프레임간의 영상신호의 상대비교에 의해 움직임의 양이 작은 영상부분을 배경부분으로 하고, 그 이외의 부분을 피사체 영역으로 하여 추출하는 수법이 개시되어 있다. 또, 일본 특개평 5-161131호 공보에는 미리 배경만인 화상을 유지해 두고, 배경만인 화상과 동화상의 각 프레임과의 차를 각 화소마다 연산하여 차가 작은 영역을 배경영역으로 하고, 차가 큰 영역을 피사체 영역으로 하여 추출하는 수법이 개시되어 있다. 또, 주목영역이 피사체의 머리부나 얼굴영역인 경우에는 예를 들면 화상중의 타원영역을 검출하는 것에 의해 머리부를 검출할 수 있다. 이와 같은 수법에 대해서는 다니우치 등에 의한 「시점고정형 팬·틸트·줌 카메라를 이용한 적응적 보이기 방식 모델에 기초한 인물 머리부의 검출·추적」(MIRU2000 화상의 인식·이해 심포지움 강연논문집Ⅰ pp.9-14)에 개시되어 있다. 또, 그 이외에도 색정보에 의해 얼굴을 검출하는 수법, 눈이나 입 등의 얼굴 일부분에 착안하는 수법, 템플릿 매칭에 기초한 수법 등, 주지한 바와 같은 수법이 존재한다. 본 영역 추출부(17)는 이상과 같은 종래의 수법을 적용하면 피사체 영역을 용이하게 추출할 수 있다.
다음에 영역추출부(17)가 추출한 영역에 대해 정면판정부(18)는 당해 영역에 존재하는 사용자가 정면을 향하고 있는지의 여부를 검출한다. 또, 종래부터 인물의 정면을 검출하려면 여러 수법이 존재한다. 예를 들면 정면화상만을 템플릿으로 서 준비해 두고, 템플릿 매칭에 의해 정면인지 여부를 검출할 수 있다. 또, 바바 등에 의한 「Head Classifier: 인물얼굴화상의 실시간 분류」(제 7 회 화상 센싱 심포지움 강연논문집 PP. 411-416)에는 통계적 특징인식수법의 하나인 SVM(Support Vector Machine)을 이용하여 화상 중의 얼굴 방향을 식별하는 수법이 개시되어 있다. 정면판정부(18)는 이상과 같은 종래의 수법을 적용하면, 인물이 정면을 향하고 있는지의 여부를 판정할 수 있다. 또, 이상의 수법을 적용하면, 정면판정부(18)를 대신하여 지정방향 얼굴배향 판정부를 설치하고, 화상영역 내의 사용자가 미리 지정된 소정의 방향(예를 들면 정면에 대해 오른쪽으로 45도 경사진 방향)을 향하고 있는지의 여부를 검출하도록 구성할 수도 있다. 그렇게 하면, 경사방향을 향하고 있는 사용자의 얼굴 등을 이용하여 미리 정해진 아름답게 보이는 얼굴의 각도 화상을 선택하는 것도 가능하게 된다.
한편, 음성검출부(19)는 소정 레벨 이상의 음성신호의 유무를 조건으로 하여 음성의 유무를 검출한다. 예를 들어 당해 소정 레벨은 주위 잡음 레벨과 입력음성의 평균레벨과의 비교에서 결정된다. 또, 공지된 음성인식 등의 수법을 이용하여 인간의 음성 유무를 검출해도 좋다.
프레임 선택부(20)는 정면판정부(18) 및 음성검출부(19)의 판정결과를 참조하여 개시시점에서 종료시점 방향으로 각 프레임을 체크하고, 최초에 조건을 만족한 시점의 프레임을 개시 프레임으로 한다. 또, 종료시점에서 개시시점 방향으로 각 프레임을 체크하고, 마찬가지로 최초에 조건을 만족한 시점의 프레임을 종료프레임으로 한다. 정면판정부(18)의 판정결과에 의하면, 도 4에 나타낸 화상 중의 사용자가 최초에 정면을 향한 시각은 B의 시점이고, 최후에 정면을 향한 시각은 G의 시점이다. 또, 음성검출부(19)의 판정결과에 의하면, 최초에 입력음성 레벨이 소정값 이상이 된 시각은 B의 시점이고, 최후의 시각은 G의 시점이다. 따라서, 프레임 선택부(20)는 모두 조건을 만족하는 프레임을 선택하는 것에 의해 개시 프레임을 B시점의 프레임으로 하고, 종료프레임을 G시점의 프레임으로 한다.
이상과 같이, 본 미디어 편집장치는 개시시점에서 종료시점 방향으로, 또 종료시점에서 개시시점 방향으로 각각 스캔하여 최초에 조건을 만족하는 시점을 선택하는 것에 의해 D시점 부근에 존재하는 다음 메시지까지의 건너는 구간을 커트하지 않고 메시지 전체를 클리핑하는 것이 가능하게 된다. 따라서, 비디오 메일 등과 같이 사용자가 입력하는 데이터를 1건으로 합쳐서 송신하는 용도에 적합하다.
또, 본 미디어 편집장치는 화상 중의 피사체의 정면판정 및 음성검출의 쌍방을 실행하는 것에 의해 메시지로서 녹화된 부분을 확실하게 클리핑할 수 있다. 예를 들면, 사용자가 정면을 향한채 생각하고 있는 경우에도 메시지를 이야기하기 시작한 시점부터 확실하게 클리핑할 수 있다. 그러나, 본 미디어 편집장치에 있어서, 음성검출을 생략하는 것도 가능하다. 즉, 사용자가 메시지를 이야기하기 시작하는 때에는 단말(의 카메라)에 정면으로 마주보아 실행하는 것이 통상이기 때문에, 정면판정이 특히 유효하다. 또, 사용자가 메시지를 말풍선화하기 전의 고려도중에 생각지 못하고 발성해 버리는 경우에는 음성검출이 유효하지 않은 경우도 있다. 따라서, 음성검출부(19)를 생략해도 본 미디어 편집장치는 상기한 것과 거의 동등한 효과를 가진다.
다음에 편집부(21)는 프레임 선택부(20)에 의해 판정된 개시 및 종료 프레임에 기초하여 미디어(동화상 데이터)를 클리핑한다. 여기에서 편집부(21)는 클리핑된 구간 이외의 구간을 완전히 삭제한 동화상 데이터를 작성해도 좋고, 동화상 데이터를 삭제하지 않고, 클리핑 구간을 인덱스로서 가진 메타데이터를 작성해도 좋다. 메타데이터를 작성하는 경우에는 클리핑되지 않은 부분에 중요한 정보가 포함되어 있는 경우에도 데이터는 존재하기 때문에 그 부분을 이용하는 것이 가능하게 된다. 이하, 메타데이터 형식으로서 MPEG-7형식을 이용한 경우를 예로 하여 설명한다.
메타데이터를 기술하는 형식으로서 다양한 표준규격, 또 독자규격이 존재하는데 최신 표준규격으로서는 예를 들면 MPEG-7규격이 있다. MPEG-7은 Multimedia Content Description Interface(ISO/IEC 15938)라 불리는 MPEG(Moving Picture Experts Group: ISO/IEC JTC1/SC29/WG11)이 제정한 MPEG-1, MPEG-2, MPEG-4에 이어지는 4번째 표준규격이다. 이 표준규격은 멀티미디어 정보의 내용을 기술하기 위한 틀짜기를 규정하고 있고, 디지털 라이브러리의 검색이나 편집을 위한 어플리케이션에 이용하는 것을 목적으로 한 규격이다. 또, MPEG-7은 영상·음성을 중심으로 하는 멀티미디어 정보의 내용을 기술하기 위한 기술자(Descriptor)의 표준적인 집합을 규정한다. 이 기술(Description)이 컨텐츠에 대해 부여되는 것에 의해 멀티미디어 정보의 내용에 기초하여 검색하는 것이 가능하게 된다. 본 규격의 실제 기술정의언어는 XMLSchema언어에 대해 필요한 확장을 실시한 것이 되고 있다. 단, 이 확장에 대해서도 필요한 확장을 실시한 것이 되고 있다. 단, 이 확장에 대해서 도 XMLSchema언어의 문법과 호환성이 유지되고 있다.
이상과 같은 MPEG-7에 있어서, 컨텐츠의 특징을 기술하기 위해서는 이하의 기본요소를 조합하면 좋다.
(1) 기술자(Descriptor: D라고 생략하여 부른다)
기술자는 멀티미디어·컨텐츠에 있어서, 어느 단일 특징을 기술하기 위한 기본툴이다. MPEG-7에 있어서는 기술자의 표기방법(Syntax) 및 의미(Semantics)가 규정되어 있다.
(2) 기술 스킴(Description Schema: DS라고 생략하여 부른다)
기술 스킴은 복수의 기술 툴간의 구조나, 의미적 관계를 규정한 틀짜기이다. MPEG-7에 있어서는 마찬가지로 기술스킴의 표기방법(Syntax) 및 의미(Semantics)가 규정되어 있다. 또, 기술 스킴을 구성하는 기술툴로서는 기술자 이외의 다른 기술스킴 자체도 포함된다.
(3) 기술정의언어(Description Definition Language)
기술정의언어는 기술자 및 기술스킴의 표기방법을 규정하기 위한 언어이다. MPEG-7에 있어서는 W3C(World Wide Web Consortium)에 의해 표준화된 스키마 언어인 「XML Schema」를 베이스로 멀티미디어·컨텐츠의 특징기술시에 필요하게 되는 각종 데이터형 등을 추가하는 것에 의해 기술정의언어가 규정되어 있다.
기술스킴(DS)의 예로서는 동화상 데이터의 어느 부분으로의 포인터인 「VideoSegmentDs」나, 화상 내의 영역에 대해 기술하는 「StillRegionDS」 등이 있다. 또, 기술자(D)의 예로서는 미디어의 포맷을 기술하는 「MediaFormat」 등이 있다. 또, MPEG-7에 있어서는 표준으로 정의된 기술자 및 기술스킴 이외에 신규 기술자 및 기술스킴을 정의하고 또는 확장하기 위한 언어(Description Definition Language)가 규정되어 있다. 따라서, 본 미디어편집장치에 있어서 메타데이터를 이용하는 경우에는 상기 언어에 기초하여 메타데이터를 기술하려면 MPEG-7형식의 기술이 된다.
도 5는 도 4의 인덱스 정보를 MPEG-7 규격에 기초하여 기술한 메타데이터를 예시한 도면이다. 도 5에 있어서, 본 메타데이터는 도 4의 B 및 G의 시점에 대해 「VideoSegmentDS」를 이용하는 것에 의해 대상이 되는 화상 프레임과 관련되어 있다. 여기에서는 실제 화상프레임과의 관련은 「MediaTime」의 「MediaTimePoint」에 있어서 실행되고 대응하는 VideoSegment의 시각이 기술된다. 예를 들면, 도 5에 나타낸 바와 같은 「T13:20:01:1F15」라는 기술은 「13시 20분 01초의 제 1 프레임째(단 1초당 15프레임으로 0프레임부터 14프레임까지 존재하는 것으로 한다)」라는 의미이다. 이와 같은 메타데이터의 기술에 의해 동화상중의 특정 구간만을 선택하는 재생제어를 가능하게 할 수 있다.
또, 이상의 기술은 어디까지나 일례로서 기술형식에는 제한이 없다. 즉, 컨텐츠와 관련된 형식으로 기술되어 있으면 좋기 때문에, 이상의 다른 것에 모든 형식의 메타데이터로 기술되어 있어도 좋다. 또, 메타데이터의 기술은 도면에 나타내어 설명하는 편의상, 특히 텍스트 포맷으로 나타내 있는데 당해 포맷에는 제한이 없고 예를 들어 바이너리 포맷이어도 좋다.
이상과 같이, 동화상 데이터를 삭제하지 않고, 클리핑 구간을 인덱스로서 갖 는 메타데이터를 작성하는 경우에는 클리핑된 구간 이외의 구간을 완전히 삭제한 동화상 데이터를 작성하는 경우에 비해 자동클리핑 후의 재수정을 하고자 하는 경우에 메타데이터만을 재편집하면 좋아 자유로운 편집이 가능하게 된다.
그런데, 이상에 있어서는 자동 클리핑을 하기 위해 프레임 선택부(20)가 출력하는 개시 및 종료 프레임을 이용했는데, 프레임 선택부(20)가 출력하는 개시 프레임은 편집된 미디어를 수신하는 쪽의 단말화면에 최초에 표시하는 화상으로서 정의할 수도 있다. 따라서, 본 미디어 편집장치의 클리핑 수법은 더욱 유용하다. 즉, 수신중의 동화상 또는 보존된 동화상을 사용자에 대해 최초에 우선 정지화(예를 들어 프리뷰화면이나 섬네일화면 등)로 나타내는 경우를 상정한다. 또, 이 때에 이용되는 화상을 초기 표시용 화상으로 정의한다. 이 때에 수신단말의 화면에는 동화상의 최초 프레임 화상, 예를 들면 도 4에 있어서 A점의 화상이 표시된다. 그러나, A점의 화상은 송신원의 사용자가 옆을 향해 찍고, 프리뷰나 섬네일 등의 초기표시용 화상으로서는 어울리지 않는다. 그래서, 도 5와 같이 메타데이터를 이용하여 개시 프레임을 상기 초기표시용 화상으로서 정의한다. 이것에 의해 본 미디어 편집장치는 수신단말에 대해 새롭게 초기표시용 정지화를 송신하지 않고 초기 표시용 화상으로서 적합한 정면을 향한 사용자를 찍은 B점의 프레임 화상을 최초에 표시할 수 있다. 또, 새롭게 초기 표시용 정지화를 송신하는 경우에는 영역추출부(17) 및 정면판정부(18)를 이용하여 개시시점부터 종료시점을 향해 스캔을 실행하고 B점을 검출한다. 이 B점을 초기 표시용 화상으로서 송신하면, 수신자로부터는 정면을 향한 사용자의 화상이 보이게 된다.
또, 편집부(21)는 당해 초기 표시용 화상 또는 동화상 그 자체에 대해 화상변환처리, 예를 들면 해상도의 변환처리를 실행해도 좋다. 그렇게 하면, 수신단말측의 해상도에 맞춰 최적 표시를 실행할 수 있고, 해상도를 내리는 경우에는 송신시의 정보량도 적게 할 수 있다. 또, 화상변환처리로서 2값화 처리나 그레이화 처리와 같은 표현변환처리를 실행해도 좋다. 그렇게 하면, 수신단말측의 표시색에 맞춰 표시를 실행할 수 있다.
이상의 점에서 본 미디어 편집장치에 의하면, 사용자가 정면을 향하고 있는지의 여부를 판정하기 위해 상대를 향한 메시지 부분을 확실하게 자동적으로 클리핑할 수 있어 수신자는 필요한 부분만을 재생하는 것이 가능하게 된다. 또, 초기 표시용 화상으로서도 적합한 화상을 용이하게 설정하는 것이 가능하게 된다.
(제 2 실시형태)
제 2 실시형태에 관련된 미디어 편집장치는 상기한 트리밍처리를 자동적으로 실행하는 것에 의해 수신단말의 화면이 작은 경우에도 보기 쉬운 레이아웃을 효율적으로 작성하는 것을 가능하게 하는 것이다.
우선, 본 실시형태에 있어서 상정되는 장면에 대해 설명한다. 통상, 비디오 메일 등에 의해 상대에게 미디어를 송신하는 경우, 당해 미디어에는 대응하는 동화상 데이터만이 아니라, 동화상의 송신자의 정보나 건명 그 이외의 정보가 포함되는 것이 통상이다. 도 6은 그와 같은 비디오 메일을 수신한 단말의 화면표시예를 나타낸 도면이다. 도 6에 나타낸 바와 같이, 표시화면(100) 상에는 상대로부터의 동화상 화면(104)만이 아니라, 송신자명, 수신처, 건명 등을 포함하는 헤더화면(101) 과 텍스트에 의한 문장화면(102)과, 적당한 장식 등이 레이아웃된 장식화면(103)이 나타나 있다.
여기에서 도 6과 같은 화면을 휴대단말과 같은 좁은 표시화면에서 재생하는 경우에는 전체를 축소하여 표시하는 것이 일반적으로 실행되고 있다. 그러나, 좁은 표시화면 내에서 더욱 전체를 축소한 표시를 실행하면, 텍스트가 보이기 어려워지거나, 동화상 데이터의 상대 얼굴이 작아지는 문제점이 생긴다.
또, 메시지로서 입력되는 동화상 데이터는 카메라와 피사체와의 위치관계를 사용자가 그다지 신경쓰지 않아도 되도록, 통상은 광각 카메라를 이용하여 취득하는 일이 많다. 그 때문에 도 6의 동화상 화면(104)과 같이 사용자의 화상 이외의 배경영역이 많이 포함되게 된다. 따라서, 전체를 축소한 표시를 실행하면, 더욱 상대 얼굴이 작아 보기 어려워지는 문제점이 생긴다.
그래서, 본 실시형태에 관련된 미디어 편집장치는 사용자를 포함하는 부분 영역만을 표시화면에 표시하는 레이아웃 처리를 실행하기 위해 적어도 이하와 같은 구성부를 구비한다. 또, 제 1 실시형태에 있어서 상기한 클리핑 처리를 실행하는 경우에는 대응하는 도 3의 구성부를 추가하면 좋기 때문에 그 설명은 생략한다.
도 7은 제 2 실시형태에 관련된 미디어 편집장치에 있어서 기능구성을 나타낸 블록도이다. 도 7에 있어서 본 미디어 편집장치는 동화상 데이터 보존부(14)와, 송신데이터 보존부(15)와, 영역추출부(17)와, 레이아웃 작성부(22)와, 소재 데이터 보존부(23)를 구비한다. 이러한 구성부는 도 2에 있어서 상기한 레이아웃 처리의 일부 또는 전부를 실행한다.
또, 본 미디어 편집장치는 제 1 실시형태에 관련된 미디어 편집장치와 공통 구성 및 동작을 갖기 때문에, 공통하는 구성부에 대해서는 동일 부호를 붙여 설명을 생략한다. 단, 본 실시형태에 있어서는 음성 데이터가 특별히 필요없는 것에서 동화상 데이터 보존부(14)는 제 1 실시형태와 같은 동화상 데이터를 보존해도 좋고, 또 음성이 포함되지 않은 화상 데이터를 보존해도 좋다.
도 7에 있어서, 소재 데이터 보존부(23)는 도 1의 기록부(10)에 대응하고 있고, 도 6에 나타낸 바와 같은 텍스트나, 장식용 화상 데이터 등의 소재 데이터를 보존한다. 레이아웃 작성부(22)는 사용자의 조작에 의해 소재 데이터 보존부(23)에서 소재 데이터를 적절히 판독하고, 트리밍 처리를 실행하는 레이아웃 처리를 실행한다. 상세하게는 후술한다.
도 8은 트리밍 처리예와 표시화면예를 나타낸 도면이다. 도 8에 있어서, 도면의 상부에는 도 6에 있어서 상기한 상대로부터의 동화상 화면(104)이 나타나 있다. 당해 화상은 상기한 이유에 의해 사용자의 영역 이외의 배경영역이 많이 포함된 화상이 되고 있다. 그래서, 이하와 같이 사용자 영역에 대해서만 트리밍을 실행하고 레이아웃을 작성한다.
우선, 영역추출부(17)는 동화상 데이터 보존부(14)에 보존된 동화상의 각 프레임 화상에서 사용자의 일부(예를 들어 얼굴 부분) 또는 전부를 포함하는 영역을 추출한다. 이와 같은 영역추출부(17)의 동작에 대해서는 상기한 수법에 의해 용이하게 실현할 수 있다. 또, 당해 추출영역은 어떤 형상이어도 좋다.
다음에 레이아웃 작성부(22)는 영역추출부(17)가 추출하는 영역에 기초하여 동화상 데이터 중의 표시하도록 하는 부분영역을 산출한다. 도 8에 있어서, 부분영역은 동화상 화면(104) 내의 굵은 사각형으로 나타내고 있다.
또, 레이아웃 작성부(22)는 이 부분 영역에 대응하는 화상과, 미리 사용자가 설정한 소재 데이터(텍스트나 화상 등)를 조합하도록 하여 레이아웃을 작성한다. 도 8에 있어서, 작성된 표시화면(200)에는 부분영역에 대응하는 동화상 화상(204) 이외에 도 6과 마찬가지로 헤더화면(201)과, 문장화면(202)과, 장식화면(203)이 나타나 있다. 이와 같이, 레이아웃을 결정할 때에 자동적으로 동화상 데이터가 작은 부분영역의 화상이 되는 것에 의해 작은 표시화면에 있어서도 보기 쉬운 표시가 가능해진다.
여기에서, 레이아웃 작성부(22)는 동화상 데이터와 소재 데이터의 레이아웃을 결정하는 메타데이터를 작성하는 것이 통상이다. 따라서, 레이아웃 작성부(22)가 설정한 부분 영역에 대해서도 같은 메타데이터 형식인 편이 다루기 쉽고 형편이 좋다.
도 9는 그와 같은 부분 영역에 대한 메타데이터의 기술예를 나타낸 도면이다. 도 9의 기술은 제 1 실시형태와 같이 MPEG-7 형식에 의해 기술되어 있다. 여기에서는 제 1 실시형태에 있어서 상기한 「VideoSegmentDS」를 각 프레임에 적용하고 각 프레임 각각에 있어서 부분영역을 「StillRegionDS」를 이용하여 설정하도록 기술되어 있다. 그 경우, 영역지정정보에 대해서는 「ContourShape」를 이용하여 부분영역인 장방형 형상(도면 중에서는 정점수는 4) 및 장방형 좌표(도시되어 있지 않음)를 기술하고 있다.
이와 같이 메타데이터를 이용하는 경우에는 동화상 데이터에서 부분영역을 잘라내어 새로운 동화상 데이터를 작성하는 경우와 같이 동화상 데이터의 용량이 작아지는 일은 없다. 그러나, 수신단말의 사용자는 부분영역과 전체 영역을 기호에 따라 전환하여 표시하거나, 다른 부분영역을 표시하도록 설정하는 것도 가능하여 수신하는 단말의 화면 크기나 수신자의 기호 등에 맞춰 레이아웃을 변경하는 것이 자유로울 수 있다. 더욱이, 이 경우에 있어서도 레이아웃 작성부(22)가 설정한 부분영역이 초기적으로 설정되어 있는 것은 메시지의 송신자를 포함하는 영역이 최초에 표시되기 때문에 형편이 좋다.
또, MPEG-7에 의하면, 도 9와 같이 매 프레임마다 「StillRegionDS」를 설정하는 방법뿐만 아니라, 움직이고 있는 영역의 정보「MovingRegionDS」나, 음과 통합한 영역정보「AudioVisualRegionDS」등을 이용할 수도 있다. 이러한 것을 포함하는 기본정의로서 멀티미디어 컨텐츠의 일부를 나타내는 「SegmentDS」라는 정의가 있는데, 이 정의에 기초한 DS이면 도 9에 나타낸 기술과 동등한 기술을 보다 적은 양의 기술로 실행하는 것이 가능하다.
이상과 같이, 본 실시형태의 미디어 편집장치는 부분적인 표시영역을 결정할 수 있기 때문에, 카메라부착 휴대단말과 같이 표시화면이 작은 경우에 있어서도 피사체만의 영역을 보기 쉬운 형태로 화면 내에 표시할 수 있다. 또, 메타데이터의 기술에 따라 레이아웃을 결정하는 경우에는 카메라부착 휴대단말이나 PC단말과 같이 표시화면의 크기가 다른 경우에 있어서도 수신자가 최적 형태로 화면에 표시할 수 있다.
(제 3 실시형태)
제 3 실시형태에 관련된 미디어 편집장치는 제 2 실시형태의 트리밍 처리와는 달리 동화상의 표시영역이 될수록 많아지도록 하면서 또 필요한 텍스트 표시도 실행되는 레이아웃을 작성하는 것을 가능하게 하는 것이다.
우선, 본 실시형태에 있어서 상정되는 장면에 대해 설명한다. 예를 들면 상기한 도 6의 표시화면(100)을 될수록 동화상 화면(104)의 부분이 커지도록 트리밍하여 작은 화면(예를 들면 휴대전화의 표시화면)에 표시하는 경우에 대해 생각한다. 여기에서 당해 작은 화면 상에 최저한의 정보로서 「건명」과 「본문」과 동화상을 표시하고자 한다. 그러나, 실제로는 작은 화면에는 동화상의 전체 영역을 표시하는 것밖에 할 수 없고, 동화상과는 별도로 건명과 본문을 표시하는 스페이스는 생기지 않는다. 도 10은 이와 같이 동화상의 부분밖에 표시할 수 없는 화면표시예를 나타낸 도면이다.
그래서, 본 미디어 편집장치는 제 2 실시형태에 관련된 미디어 편집장치와 같은 구성이면서 영역추출부(17) 및 레이아웃 작성부(22)의 동작에 대해 변경을 부가하고 상기 텍스트 정보를 표시한다. 즉, 영역추출부(17)가 검출한 사용자를 포함하는 화상영역에 대해 레이아웃 작성부(22)는 「건명」이나 「본문」 등의 텍스트 정보가 겹치지 않도록, 또는 적어도 겹치는 정도가 작아지도록 배치를 실행한다. 이하, 당해 동작에 대해 상술한다.
우선, 영역추출부(17)는 동화상 데이터에서 사용자를 포함하는 화상영역을 검출하고, 당해 영역의 위치 및 크기를 산출한다. 다음에 레이아웃 작성부(22)는 영역추출부(17)가 산출한 당해 영역의 위치 및 크기와, 소재 데이터 보존부(23)에 보존된 「건명」이나 「본문」 등의 소재 데이터를 수취한다. 또, 레이아웃 작성부(22)는 상기한 화상영역에 겹치지 않는(또는 겹치는 정도가 작은) 영역에 대해 소재 데이터를 배치하는 영역을 설정한다. 도 11은 사용자를 포함하는 화상영역에 겹치지 않는 영역에 대해 건명을 배치한 표시예이다. 도 11에 예시된 바와 같이, 텍스트의 건명은 사용자 머리 위의 스페이스에 배치되어 겹치지 않는다. 그 때문에, 동화상의 표시영역이 큼에도 불구하고, 필요한 텍스트 표시도 실행되는 레이아웃을 작성할 수 있다.
또, 레이아웃 작성부(22)는 소재 데이터를 배치하는 영역을 임의의 형상으로서 설정해도 좋다. 이것을 말풍선영역이라 정의한다. 전형적으로는 말풍선영역에는 틀이 붙여져 배경색(예를 들어 백색)을 갖는다. 레이아웃 작성부(22)는 이 말풍선영역 내에 소재 데이터의 내용인 본문을 입력한다. 도 12는 사용자를 포함하는 화상영역에 겹치는 정도가 작은 영역에 대해 본문을 배치한 표시예이다. 도 12에 예시된 바와 같이, 텍스트의 본문은 사용자의 좌측 스페이스에 배치되어 거의 겹치지 않는다. 그 때문에, 동화상의 표시영역이 큼에도 불구하고, 필요한 텍스트 표시도 실행되는 레이아웃을 작성할 수 있다.
또, 도 12에 나타낸 말풍선영역의 형상에는 만화 등으로 사용되도록 사용자의 입 부근에 예각의 돌기부분을 갖는다. 이 돌기부분의 위치는 화상인식처리에 의해 산출된다. 구체적으로는 영역 추출부(17)는 사용자를 포함하는 영역에 있어서 입 영역을 추출하고, 그 위치를 산출한다. 레이아웃 작성부(22)는 산출된 당해 위치(또는 그 부근의 적절한 위치)에 상기한 돌기부분을 배치하여 텍스트의 문자수 등을 참조하면서 상기한 화상영역에 겹치지 않는(또는 겹치는 정도가 작은) 영역에 대해 말풍선영역을 설정한다.
이상의 레이아웃된 화면은 수신자 단말의 최초 화상(상기한 초기 표시용 화상)으로서 화면 상에 표시되는 것이 바람직하다. 즉, 수신자가 수신한 메일을 연 때에 최초에 도 11이나 도 12와 같은 화면을 표시한다. 그리고, 수신자는 건명이나 본문의 내용만을 확인한다. 여기에서 본문의 내용이 1페이지로 다 담을 수 없는 경우 등은 예를 들면 스크롤 처리 등을 실행한다. 이와 같이 수신자는 최초 표시화면에 있어서만 본문 등의 확인을 실행하고, 동화상 재생중은 실행하지 않는다. 그러나, 물론 동화상 재생중에도 본문이나 건명 등이 수퍼 임포즈된 형태로 재생되어 실제 동화상 메시지를 들으면서 확인할 수 있도록 구성해도 좋다.
또, 표시된 텍스트의 내용은 건명이나 본문에는 한정하지 않는다. 또, 우선 최초에 도 11과 같은 화면이 표시되고, 다음에 수신자의 조작에 의해 도 12와 같은 화면이 차례로 표시되어도 좋고, 이러한 것이 동시에 합성표시되어도 좋다. 이와 같이 사용자를 포함하는 화상영역에 겹치지 않는(또는 겹치는 정도가 작은) 영역에 대해 배치하면 어떤 구성이어도 좋다.
이상과 같이, 본 미디어 편집장치는 동화상과 텍스트가 혼재한 표시화면에 있어서도 수신자가 혼동하지 않고, 또 보기 쉽게 내용을 확인할 수 있는 레이아웃을 작성할 수 있다. 또, 말풍선형식을 이용하는 것에 의해 마치 텍스트의 내용을 화상중의 사용자가 이야기하고 있는 것 같은 화면이 되어 통신상대간의 커뮤니케이 션을 활성화할 수 있다.
다음에 레이아웃 작성부(22)는 이상의 레이아웃 처리, 즉 동화상에 대해 텍스트를 입력하는 처리를 실행하기 위해 제 1 및 제 2 실시형태와 마찬가지로 레이아웃을 결정하는 메타데이터를 작성하는 것이 바람직하다.
도 13은 그와 같은 레이아웃 처리에 관한 메타데이터의 기술예를 나타낸 도면이다. 도 13의 기술은 제 1 및 제 2 실시형태와 같이, MPEG-7형식에 의해 기술되고, 「MediaDuration」의 값, 즉 미디어의 소정 포인트로 표시되는 길이에 따라 「Text」태그로 둘러싸인 문면이 수퍼 임포즈의 형식으로 표시된다. 이와 같이 메타데이터에 의해 기술되면, 실제로 텍스트를 동화상에 메우는 처리를 실행하지 않고 텍스틀 표시하는 것이 가능하게 된다.
(제 4 실시형태)
제 4 실시형태에 관련된 미디어 편집장치는 영역추출부(17)에 의해 얼굴영역을 추출하고 당해 얼굴영역에 대응하는 캐릭터 화상을 선택하는 것에 의해 사용자가 즐겁게 표현할 수 있도록 메시지 표현의 다양성을 증대시켜 커뮤니케이션의 원활화를 촉진시키는 것을 가능하게 하는 것이다.
우선, 본 실시형태에 있어서 상정되는 장면에 대해 설명한다. 상기한 바와 같이, 화상을 이용한 메일은 장식을 부가하는 것에 의해 즐거움이 향상된 메일을 작성할 수 있다. 특히, 게임 센터에 있어서 자동사진 촬영장치와 같이 본인의 화상에 대해 만화나 3D그래픽 등으로 구성된 캐릭터를 부가하는 것은 특히 즐거움이나 친근감을 향상시키는 효과를 가진다. 도 14는 그와 같이 캐릭터가 부가된 비디 오 메일의 수신단말에 있어서 표시화면예를 나타낸 도면이다. 도 14에 나타낸 바와 같이, 표시화면(400) 상에는 송신자명, 수신처, 건명 등을 포함하는 헤더화면(401)과, 텍스트에 의한 문장화면(402)과, 상대로부터의 동화상 화면(404)에 부가하여 또한 캐릭터 화면(403)이 나타나 있다. 이상과 같이 비디오 메일의 수신화면을 구성하면, 수신자는 당해 메일에 대해 친근감을 늘린다고 할 수 있다.
또, 사용자는 이와 같은 캐릭터를 선택할 때에 동화상의 화상이나 내용과 관계없는 캐릭터를 부가하는 것보다도 화상에 관계된 캐릭터를 선택하고자 하는 요구를 갖는 일이 많다. 본 실시형태에 관련된 미디어 편집장치는 표시화면의 화상이 얼굴화상인 경우에 레이아웃 처리에 있어서 당해 얼굴화상에 대응한 캐릭터를 선택하는 것이다. 또, 이하에는 이상과 같이 캐릭터를 붙인 메일을 「캐릭터메일」로 부른다.
도 15는 제 4 실시형태에 관련된 미디어 편집장치의 기능구성을 나타낸 블록도이다. 도 15에 있어서, 본 미디어 편집장치는 동화상 데이터 보존부(14)와, 송신데이터 보존부(15)와, 영역추출부(17)와, 정면판정부(18)와, 편집부(26)와, 캐릭터 선택부(24)와, 캐릭터 데이터베이스(25)를 구비한다. 이러한 구성부는 도 2에 있어서 상기한 레이아웃 처리의 일부 또는 전부를 실행한다.
또, 본 미디어 편집장치는 제 1 실시형태에 관련된 미디어 편집장치와 공통 구성 및 동작을 갖기 때문에, 공통하는 구성부에 대해서는 동일부호를 붙여 설명을 생략한다. 단, 본 실시형태에 있어서는 음성데이터가 특별히 필요없는 점에서 동화상 데이터 보존부(14)는 제 1 실시형태와 같은 동화상 데이터를 보존해도 좋고, 또 음성이 포함되지 않는 화상데이터를 보존해도 좋다. 또, 제 1 실시형태에 있어서 상기한 클리핑처리를 실행하는 경우에는 대응하는 도 3의 구성부를 추가하면 좋기 때문에 그 설명은 생략한다. 또, 정면판정부(18)는 지정방향 얼굴배향 판정부여도 좋은 것은 상기한 바와 같다.
다음에 본 미디어 편집장치의 동작에 대해 설명한다. 영역추출부(17) 및 정면판정부(18)는 제 1 실시형태의 경우와 마찬가지로 동작하고, 동화상 중의 화상이 사용자의 정면화상인지의 여부를 판정하고 편집부(26)에 입력한다. 편집부(26)는 정면화상으로 판정된 화상을 캐릭터 선택부(24)에 입력한다. 캐릭터 선택부(24)는 당해 화상에 기초하여 각종 캐릭터를 데이터베이스화하여 보존하는 캐릭터 데이터베이스(25)에서 하나 또는 복수의 후보 캐릭터를 선택하고, 선택된 캐릭터에 대응하는 캐릭터 ID를 편집부(26)에 입력한다.
여기에서 캐릭터 선택부(24)는 캐릭터 데이터베이스(25)에 보존되어 있는 수많은 캐릭터로부터 캐릭터 후보를 선택한다. 본 실시형태에 있어서는 상기한 정면화상 중의 얼굴에 있어서 얼굴 특징을 추출하고, 캐릭터 데이터베이스(25)에 보존되어 있는 하나 또는 복수의 캐릭터를 선택한다.
즉, 캐릭터 데이터베이스(25)에는 2차원 캐릭터 화상 데이터나 컴퓨터 그래픽 수법을 이용하여 작성되는 3차원 캐릭터의 구성 데이터 등의 캐릭터 화상과, 당해 캐릭터에 대응하는 얼굴특징과, 대응하는 캐릭터 ID가 미리 캐릭터 정보로서 등록되어 있다. 캐릭터 선택부(24)는 편집부(26)에서 입력된 정면화상 중의 얼굴에 있어서 얼굴특징을 참조하여 당해 얼굴특징에 일치하는지 또는 유사한 얼굴특징을 갖는 하나 이상의 캐릭터 화상을 캐릭터 데이터베이스(25)에서 선택한다. 또, 상기한 얼굴특징으로서는 얼굴사이즈, 얼굴의 종횡비, 얼굴 부위특징 등의 특징량을 생각할 수 있다. 또, 얼굴 부위특징으로서는 예를 들어 눈코입 사이즈, 눈코입 위치관계, 머리카락의 양이나 색 등의 특징량을 생각할 수 있다. 또, 안경의 유무 등도 얼굴특징으로서 이용할 수 있다.
또, 얼굴특징량에 대해 상술한다. 도 16은 두발의 특징을 이용한 얼굴특징량에 대해 예시적으로 설명한 도면이다. 도 16에는 6명의 다른 사용자의 촬영화상과, 대응하는 화상처리결과와, 대응하는 특징량과, 대응하는 특징표현이 나타나 있다. 또, 촬영화상은 사진화상과 같지만, 도면을 보기 쉽게 하기 위해 초상화로서 그려져 있다. 또, 얼굴 특징으로서는 특징량 및 특징표현이 예시되어 있는데, 이러한 한쪽만이어도 좋고, 다른 값 또는 표현이 이용되어도 좋다.
도 16에 있어서, 처리결과는 두발이 검은 것을 전제로 하여 촬영화상의 검은 영역을 추출하는 처리를 실행한 결과를 나타내고 있다. 물론, 두발이 검은색 이외의 색이어도 두발색과 같은 색의 영역을 추출하는 것에 의해 마찬가지로 처리할 수 있다. 또, 특징량으로서는 정규화 면적 및 정규화 주위길이의 2가지가 예시되어 있다. 정규화 면적이란 두발의 면적을 얼굴 면적으로 정규화한 값이다. 정규화 주위길이란 두발 주위길이를 얼굴의 주위길이로 정규화한 값이다. 또, 특징표현예로서는 머리가락의 양 및 머리형태의 2가지가 예시되어 있다. 머리카락의 양이란 일반적인 머리카락의 양의 평균값과 비교하여 분류한 카테고리 표현으로서, 구체적으로는 상기한 정규화 면적을 이용하여 평균값보다도 작은 경우에는 머리카락의 양 이 적다고 표현되고, 평균값보다도 큰 경우에는 머리카락의 양이 많다고 표현된다. 마찬가지로, 머리형태란 일반적인 머리형태와 비교하여 분류한 카테고리 표현으로서, 구체적으로는 상기한 정규화 주위길이를 이용하여 평균값보다도 작은 경우에는 머리형태가 짧은 머리로 표현되고, 평균값보다도 큰 경우에는 머리형태가 긴 머리로 표현된다. 이와 같이 하여 추출된 얼굴 특징량 또는 그 특징표현을 이용하면, 유사한 하나 이상의 캐릭터 화상을 캐릭터 데이터베이스(25)에서 선택할 수 있다.
또, 이와 같은 얼굴 특징량의 추출수법으로서는 종래부터 여러 기술이 개시되어 있다. 예를 들어 야마구치 등에 의한 「얼굴방향이나 표정의 변화에 로버스트(robust)한 얼굴 인식시스템 "Smartface"」(전자정보통신학회 논문지 Vol. J84-D-Ⅱ, No.6)에는 부분공간법을 이용하여 얼굴영역을 검출하고, 분리도 필터에 의해 눈·코·입 등의 얼굴부품을 검출하는 수법이 개시되어 있다. 본 미디어 편집장치는 각종 주지 기술의 적어도 하나를 이용하는 것에 의해 용이하게 얼굴특징량을 추출할 수 있다.
또, 추출된 얼굴특징량을 참조하여 캐릭터 데이터베이스(25)에 등록된 각 캐릭터 후보를 선택하기 위해서는 상기한 특징표현을 이용해도 좋고, 등록된 얼굴특징량과의 상관값을 계산해도 좋다. 여기에서는 후보로 하는 것에 어울리는 것으로서 설정된 추출임계값을 계산된 상관값이 초과하는 경우에는 당해 캐릭터를 후보로서 추출한다. 캐릭터 선택부(24)는 추출된 후보 캐릭터에 대응하는 캐릭터 ID를 편집부(26)에 통지한다.
편집부(26)는 통지된 캐릭터 ID에 기초하여 후보가 된 캐릭터 화상을 사용자 에게 표시한다. 도 17은 사용하는 캐릭터를 선택하는 편집화면을 예시한 도면이다. 도 17에 있어서, 3개의 후보 캐릭터가 표시되어 있고, 화살표는 사용자가 선택하려고 하는 캐릭터를 나타낸 커서이다. 물론, 커서를 이용하지 않고 선택하려고 하는 캐릭터의 화상을 반전시키거나, 주위 틀을 두껍게 하는 등의 수법을 이용해도 좋다.
도 17과 같은 편집화면을 기초로 사용자는 사용하는 캐릭터를 선택한다. 편집부(26)는 선택된 캐릭터 ID를 기술한 메타데이터를 작성하는 미디어 편집을 실행하여 송신 데이터를 작성한다. 물론, 캐릭터 화상 자체를 송신 데이터에 짜넣어도 좋다. 이렇게 하여 작성된 송신 데이터는 송신 데이터 보존부(15)에 보존하여 적절한 타이밍으로 수신자 앞으로 송신된다.
도 18은 상기한 바와 같이 하여 작성된 송신 데이터를 수신한 경우에 있어서 수신단말 화면을 예시한 도면이다. 도 18에 나타낸 바와 같이, 수신단말 화면의 왼쪽 밑에는 송신자인 사용자가 선택한 캐릭터가 표시되고, 오른쪽 밑에는 동화상 메시지가 표시된다.
도 19는 상기 송신 데이터를 수신한 경우에 있어서 수신단말 화면의 별도 예를 나타낸 도면이다. 도 19에 나타낸 바와 같이, 수신단말 화면의 아래쪽에는 송신자인 사용자가 선택한 캐릭터가 표시되어 있다. 그리고, 예를 들면 화면 메시지가 재생될 때에는 당해 캐릭터는 표시되지 않고, 그 표시위치에 동화상을 표시해도 좋다. 이와 같은 레이아웃은 편집부(26)에 의해 작성되어도 좋고, 수신측에서 설정되어도 좋다.
또, 후보가 되는 캐릭터는 하나여도 좋고, 그 경우 후보선택을 실행하지 않고 보다 간이하게 메일을 작성하는 것이 가능하게 된다.
또, 편집부(26)는 캐릭터 선택부(24)에 대해 사용자가 입력한 특징량을 나타내는 문자열(상기한 특징표현 등)을 통지해도 좋다. 예를 들면, 사용자는 「머리카락의 양이 많고 짧은 머리이다」라는 문자열을 입력한다. 그렇게 하면 캐릭터 선택부(24)는 캐릭터 데이터베이스(25)에 보존되어 있는 도 16에 나타낸 바와 같은 특징표현과 조합하여 후보 캐릭터를 선택할 수 있다. 이와 같이 문자열에 의해 특징량을 나타내는 것에 의해 본 미디어 편집장치는 사용자가 의도하는 캐릭터에 더 가까운 후보 캐릭터를 선택하는 것이 가능하게 된다.
또, 상기한 바와 같이 본 미디어 편집장치는 모든 구성부가 하나의 케이스체에 담도록 하는 일체형의 장치뿐만 아니라, 각 구성부가 네트워크나 통신선을 통해 데이터의 교환을 실행하는 분산형 장치여도 좋다. 따라서, 예를 들면 캐릭터 선택부(24) 및 캐릭터 데이터베이스(25)가 네트워크를 통해 액세스 가능한 본 미디어 편집장치와는 별도의 장소에 존재하고 있는 형태의 경우를 생각할 수 있다. 도 20은 이와 같은 분산형 미디어 편집장치 내지 시스템의 구성을 나타낸 블록도이다.
도 20에 있어서, 이와 같은 분산형 미디어 편집장치는 제 1 내지 제 3 실시형태에 관련된 미디어 편집장치의 기능의 일부 또는 전부를 포함하는 캐릭터메일 편집단말(501)과, 캐릭터메일 편집단말(501)과는 별도의 장소에 설치된 캐릭터 선택부(724)와, 캐릭터 데이터베이스(725)를 포함하고, 이러한 것은 네트워크(600)를 통해 상호 접속되어 있다. 이와 같은 분산형 미디어 편집장치도 상기한 일체형 미 디어 편집장치와 같은 구성을 갖고 동작을 실행하기 때문에, 같은 효과를 얻을 수 있다. 또, 도 20의 분산형 미디어 편집장치는 캐릭터 선택부(724) 및 캐릭터 데이터베이스(725)를 캐릭터메일 편집단말(501) 이외의 단말, 예를 들면 메일을 수신하는 캐릭터메일 수신단말(502) 등을 이용할 수 있다. 즉, 수신시에 있어서 캐릭터메일에 포함되는 캐릭터 ID를 수신한 캐릭터메일 수신단말(502)은 캐릭터 데이터베이스(725)에서 캐릭터 화상을 수취하는 것만으로 좋기 때문에, 단말 자체에 많은 데이터를 유지할 필요가 없다. 또, 캐릭터메일 수신단말(502)이 회신시에 미디어 편집장치로서 동작하는 경우에도 캐릭터 선택부(724) 및 캐릭터 데이터베이스(725)를 공유할 수 있다.
이와 같이 분산형 미디어 편집장치는 캐릭터 선택부(724) 및 캐릭터 데이터베이스(725)를 복수의 사용자에 의해 함께 이용할 수 있기 때문에, 각 단말은 이러한 구성부를 내장할 필요가 없고, 또 대개의 캐릭터를 보존하는 데이터베이스를 이용할 수 있다.
이상과 같이, 본 미디어 편집장치에 의하면, 사용자는 촬영된 동화상에서 추출된 정면화상을 이용하여 많은 등록 캐릭터로부터 후보를 줄여내어 기호에 맞는 캐릭터를 용이하게 선택하여 캐릭터메일을 작성하는 것이 가능하게 된다. 또, 이와 같은 캐릭터메일을 이용하는 것에 의해 통신상대와의 커뮤니케이션을 활성화할 수 있다.
본 발명은 현시점에 있어서 가장 현실적이고 최적 실시예로 생각되는 것에 관련하여 설명했는데, 본 발명은 개시된 실시예에 한정된 것은 아니고, 첨부한 청 구항의 범위에 포함되는 다양한 변형예나 상당하는 구조를 포함하는 것을 의도하고 있다고 해석되어야 한다.
이상과 같이 본 발명에 따르면, 거의 한 사람의 인물이 카메라에 대면하여 녹화된 동화상을 포함하는 미디어를 적절하고 간단하게 편집할 수 있는 미디어 편집방법과 장치를 제공할 수 있다.

Claims (21)

  1. 사용자의 일부 또는 전부를 피사체로서 촬영한 복수장의 화상으로 이루어진 화상계열을 포함하는 미디어를 편집하는 미디어 편집방법에 있어서,
    상기 화상에서 사용자의 일부 또는 전부를 포함하는 영역을 추출하는 영역추출스텝,
    상기 영역추출스텝에서 추출된 영역에 포함되는 사용자가 미리 정해진 지정방향을 향하고 있는지의 여부를 판정하는 지정방향 얼굴배향 판정스텝,
    상기 화상계열의 개시시점에서 종료시점 방향으로, 및 종료시점에서 개시시점 방향으로 향하고, 각각 최초에 상기 지정방향 얼굴배향 판정스텝에서 사용자가 상기 지정방향을 향하고 있다고 판정된 시점간에 대응하는 화상계열을 선택하는 프레임 선택스텝, 및
    상기 프레임 선택스텝에 의해 선택된 화상계열을 포함하는 미디어를 편집하는 편집스텝을 포함하는 것을 특징으로 하는 미디어 편집방법.
  2. 제 1 항에 있어서,
    상기 지정방향 얼굴배향 판정스텝은 상기 영역추출스텝에서 추출된 영역에 포함되는 사용자가 정면을 향하고 있는지의 여부를 판정하는 것을 특징으로 하는 미디어 편집방법.
  3. 제 1 항에 있어서,
    상기 미디어에는 음성이 포함되어 있고, 당해 미디어에 포함되는 음성을 검출하는 음성검출스텝을 더 포함하며,
    상기 프레임 선택스텝은 상기 화상계열의 개시시점에서 종료시점 방향으로, 및 종료시점에서 개시시점 방향으로 향하고, 각각 최초에 상기 지정방향 얼굴배향 판정스텝에서 사용자가 상기 지정방향을 향하고 있다고 판정된 시점간에 있어서, 또한 각각 최초에 상기 음성검출 스텝에서 음성이 검출된 시점간의 쌍방에 대응하는 화상계열을 선택하는 것을 특징으로 하는 미디어 편집방법.
  4. 제 1 항에 있어서,
    상기 편집스텝은 상기 프레임 선택스텝에서 선택된 화상계열을 메타데이터 형식의 기술(記述)에 의해 특정하는 것을 특징으로 하는 미디어 편집방법.
  5. 제 1 항에 있어서,
    상기 편집스텝은 상기 프레임 선택스텝에서 선택된 화상계열을 상기 미디어로부터 클리핑하는 것을 특징으로 하는 미디어 편집방법.
  6. 제 1 항에 있어서,
    상기 편집스텝은 상기 프레임 선택스텝에서 선택된 화상계열에 있어서 최초의 화상을 초기표시용 화상으로서 선택하는 것을 특징으로 하는 미디어 편집방법.
  7. 제 1 항에 있어서,
    상기 편집스텝은 상기 영역추출스텝에서 추출된 영역의 위치 및 크기에 기초하여 상기 화상계열에서 대응하는 부분영역을 산출하고, 상기 부분영역을 이용하여 편집을 실행하는 것을 특징으로 하는 미디어 편집방법.
  8. 제 6 항에 있어서,
    상기 편집스텝은 상기 부분영역을 메타데이터형식의 기술에 의해 특정하는 것을 특징으로 하는 미디어 편집방법.
  9. 제 1 항에 있어서,
    상기 편집스텝은 상기 영역추출스텝에 의해 추출된 영역에 대해 전혀 겹치지 않도록 또는 겹치는 영역이 보다 적어지도록 설정된 배치영역으로 상기 미디어에 포함되는 텍스트를 배치하는 것을 특징으로 하는 미디어 편집방법.
  10. 제 1 항에 있어서,
    상기 영역추출 스텝은 사용자의 얼굴을 포함하는 얼굴영역을 추출하고,
    상기 편집스텝은 상기 영역추출스텝에서 추출된 얼굴영역에 대해 전혀 겹치지 않도록 또는 겹치는 영역이 보다 적어지도록 설정된 말풍선영역(speech bubble)에 상기 미디어에 포함되는 텍스트를 배치하는 것을 특징으로 하는 미디어 편집방법.
  11. 제 1 항에 있어서,
    상기 편집스텝은 하나 이상의 상기 화상에 대해 화상변환처리를 실행하는 것을 특징으로 하는 미디어 편집방법.
  12. 제 1 항에 있어서,
    상기 영역추출스텝은 사용자의 얼굴을 포함하는 얼굴영역을 추출하고,
    상기 편집스텝은 상기 영역추출스텝에서 추출된 얼굴영역에 기초하여 산출한 얼굴특징을 참조하여 복수의 캐릭터 화상 및 대응하는 얼굴특징을 축적하는 캐릭터 데이터베이스에서 관련된 하나 이상의 상기 캐릭터 화상을 선택하는 것을 특징으로 하는 미디어 편집방법.
  13. 제 11 항에 있어서,
    상기 편집스텝은 사용자로부터 입력된 문자데이터에 기초하여 상기 얼굴특징을 산출하는 것을 특징으로 하는 미디어 편집방법.
  14. 제 11 항에 있어서,
    상기 편집스텝은 상기 영역추출스텝에서 추출된 얼굴영역에서 얼굴의 종횡비 또는 얼굴의 부위특징에 기초하여 상기 얼굴특징을 산출하는 것을 특징으로 하는 미디어 편집방법.
  15. 사용자의 일부 또는 전부를 피사체로서 촬영한 복수장의 화상으로 이루어진 화상계열을 포함하는 미디어를 편집하는 미디어 편집장치에 있어서,
    상기 화상에서 사용자의 일부 또는 전부를 포함하는 영역을 추출하는 영역추출부,
    상기 영역추출부에 의해 추출된 영역에 포함되는 사용자가 미리 정해진 지정방향을 향하고 있는지의 여부를 판정하는 지정방향 얼굴배향 판정부,
    상기 화상계열의 개시시점에서 종료시점 방향으로, 및 종료시점에서 개시시점 방향으로 향하고, 각각 최초에 상기 지정방향 얼굴배향 판정부에 의해 사용자가 상기 지정방향을 향하고 있다고 판정된 시점간에 대응하는 화상계열을 선택하는 프레임 선택부, 및
    상기 프레임 선택부에 의해 선택된 화상계열을 포함하는 미디어를 편집하는 편집부를 구비하는 것을 특징으로 하는 미디어 편집장치.
  16. 제 15 항에 있어서,
    상기 미디어에는 음성이 포함되어 있고, 당해 미디어에 포함되는 음성을 검출하는 음성검출부를 더 구비하며,
    상기 프레임 선택부는 상기 화상계열의 개시시점에서 종료시점 방향으로, 및 종료시점에서 개시시점 방향으로 향하고, 각각 최초에 상기 지정방향 얼굴배향 판정부에 의해 사용자가 상기 지정방향을 향하고 있다고 판정된 시점간에서, 또 각각 최초에 상기 음성검출부에 의해 음성이 검출된 시점간의 쌍방에 대응하는 화상계열을 선택하는 것을 특징으로 하는 미디어 편집장치.
  17. 제 15 항에 있어서,
    상기 편집부는 상기 프레임 선택부에 의해 선택된 화상계열에 있어서 최초의 화상을 초기 표시용 화상으로서 선택하는 것을 특징으로 하는 미디어 편집장치.
  18. 제 15 항에 있어서,
    상기 편집부는 상기 영역추출부에 의해 추출된 영역의 위치 및 크기에 기초하여 상기 화상계열에 의해 대응하는 부분영역을 산출하고, 상기 부분영역을 이용하여 편집을 실행하는 것을 특징으로 하는 미디어 편집장치.
  19. 제 15 항에 있어서,
    상기 편집부는 상기 영역추출부에 의해 추출된 영역에 대해 전혀 겹치지 않도록 또는 겹치는 영역이 보다 적어지도록 설정된 배치영역에 상기 미디어에 포함되는 텍스트를 배치하는 것을 특징으로 하는 미디어 편집장치.
  20. 제 15 항에 있어서,
    상기 영역추출부는 사용자의 얼굴을 포함하는 얼굴영역을 추출하고, 상기 편집부는 상기 영역추출부에 의해 추출된 얼굴영역에 기초하여 산출한 얼굴특징을 참조하여 복수의 캐릭터 화상 및 대응하는 얼굴특징을 축적하는 캐릭터 데이터베이스에서 관련된 하나 이상의 상기 캐릭터 화상을 선택하는 것을 특징으로 하는 미디어 편집장치.
  21. 사용자의 일부 또는 전부를 피사체로서 촬영한 복수장의 화상으로 이루어지는 화상계열을 포함하는 미디어를 편집하는 미디어 편집장치에서,
    상기 화상에서 사용자의 일부 또는 전부를 포함하는 영역을 추출하는 영역추출스텝,
    상기 영역추출스텝에서 추출된 영역에 포함되는 사용자가 미리 정해진 지정방향을 향하고 있는지의 여부를 판정하는 지정방향 얼굴배향 판정스텝,
    상기 화상계열의 개시시점에서 종료시점 방향으로, 및 종료시점에서 개시시점방향으로 향하고, 각각 최초에 상기 지정방향 얼굴배향 판정스텝에서 사용자가 상기 지정방향을 향하고 있다고 판정된 시점간에 대응하는 화상계열을 선택하는 프레임 선택스텝,
    상기 프레임 선택스텝에 의해 선택된 화상계열을 포함하는 미디어를 편집하는 편집스텝을 실행시키기 위한 프로그램을 기록한 것을 특징으로 하는 컴퓨터 판독가능한 기록매체.
KR20010055761A 2000-09-12 2001-09-11 미디어 편집방법 및 장치 KR100656661B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000275991 2000-09-12
JPJP-P-2000-00275991 2000-09-12

Publications (2)

Publication Number Publication Date
KR20020021032A KR20020021032A (ko) 2002-03-18
KR100656661B1 true KR100656661B1 (ko) 2006-12-12

Family

ID=18761528

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20010055761A KR100656661B1 (ko) 2000-09-12 2001-09-11 미디어 편집방법 및 장치

Country Status (4)

Country Link
US (1) US6961446B2 (ko)
JP (1) JP3784289B2 (ko)
KR (1) KR100656661B1 (ko)
CN (1) CN1200537C (ko)

Families Citing this family (203)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
GB2370709A (en) * 2000-12-28 2002-07-03 Nokia Mobile Phones Ltd Displaying an image and associated visual effect
CN100348030C (zh) * 2001-09-14 2007-11-07 索尼株式会社 信息创建方法、信息创建设备和网络信息处理系统
JP2003219047A (ja) * 2002-01-18 2003-07-31 Matsushita Electric Ind Co Ltd 通信装置
JP2003230117A (ja) * 2002-01-31 2003-08-15 Nec Commun Syst Ltd 動画像データの送信システム、同送信装置、同送信方式および同送信方法
US20030185191A1 (en) * 2002-03-28 2003-10-02 Casio Computer Co., Ltd. Data communication apparatus, data communication system, and data communication method
US7284188B2 (en) * 2002-03-29 2007-10-16 Sony Corporation Method and system for embedding MPEG-7 header data to improve digital content queries
KR100502710B1 (ko) * 2002-05-24 2005-07-20 주식회사 아이큐브 광 디스크 재생 장치
US20050212822A1 (en) * 2002-06-03 2005-09-29 Yoshinori Honma Display device, display method and advertisement method using display device
US20040036778A1 (en) * 2002-08-22 2004-02-26 Frederic Vernier Slit camera system for generating artistic images of moving objects
KR20040025313A (ko) * 2002-09-19 2004-03-24 엘지전자 주식회사 이동통신 단말기의 사진편집 및 전송방법
JP2004135177A (ja) * 2002-10-11 2004-04-30 Sharp Corp 携帯電話機
JP3793142B2 (ja) 2002-11-15 2006-07-05 株式会社東芝 動画像加工方法及び装置
JP2004187273A (ja) * 2002-11-22 2004-07-02 Casio Comput Co Ltd 携帯電話端末、及び、発信履歴表示方法
JP2004179923A (ja) * 2002-11-27 2004-06-24 Nec Corp 携帯電話機及びそれに用いる連写画像の自作アニメーション設定方法
GB2395853A (en) * 2002-11-29 2004-06-02 Sony Uk Ltd Association of metadata derived from facial images
CN100454997C (zh) * 2002-12-06 2009-01-21 日本电气株式会社 图像记述系统及其方法
JP4336813B2 (ja) * 2002-12-06 2009-09-30 日本電気株式会社 画像記述システムおよび方法
JP2004193809A (ja) * 2002-12-10 2004-07-08 Matsushita Electric Ind Co Ltd 通信装置
US7472063B2 (en) * 2002-12-19 2008-12-30 Intel Corporation Audio-visual feature fusion and support vector machine useful for continuous speech recognition
JP2005005882A (ja) * 2003-06-10 2005-01-06 Casio Comput Co Ltd 携帯電話および画像付き文書表示方法
US20050066279A1 (en) * 2003-07-23 2005-03-24 Lebarton Jeffrey Stop motion capture tool
US20050018050A1 (en) * 2003-07-23 2005-01-27 Casio Computer Co., Ltd. Wireless communication device, dynamic image preparation method and dynamic image preparation program
JP2005094741A (ja) 2003-08-14 2005-04-07 Fuji Photo Film Co Ltd 撮像装置及び画像合成方法
JP2005108193A (ja) * 2003-09-09 2005-04-21 Canon Inc 動画システム、動画抽出装置及び動画抽出方法
US20060007243A1 (en) * 2003-11-18 2006-01-12 Miller Kevin J Method for incorporating personalized content into a video format
JP2005151282A (ja) * 2003-11-18 2005-06-09 Fuji Xerox Co Ltd 画像処理装置、画像処理方法、およびプログラム
US20050129111A1 (en) * 2003-12-16 2005-06-16 Nokia Corporation Transform-domain video editing
JP2005190088A (ja) * 2003-12-25 2005-07-14 Matsushita Electric Ind Co Ltd メール処理装置及びメール処理システム
FI20031908A0 (fi) * 2003-12-29 2003-12-29 Nokia Corp A method for composing a media clip on a mobile terminal, a terminal utilizing the method, and software means for implementing the method
WO2005076210A1 (ja) 2004-02-05 2005-08-18 Vodafone K.K. 画像処理方法、画像処理装置及び移動通信端末装置
JP2005234074A (ja) * 2004-02-18 2005-09-02 Sony Corp 情報処理装置および情報処理方法、記録媒体、並びにプログラム
JP2005311604A (ja) * 2004-04-20 2005-11-04 Sony Corp 情報処理装置及び情報処理装置に用いるプログラム
KR100552709B1 (ko) * 2004-05-21 2006-02-20 삼성전자주식회사 눈검출 장치 및 방법
US8872843B2 (en) 2004-07-02 2014-10-28 Samsung Electronics Co., Ltd. Method for editing images in a mobile terminal
JP2006080702A (ja) * 2004-09-08 2006-03-23 Nec Corp テレビ電話システム、通信端末装置及びそれに用いる文字情報送信方法並びにそのプログラム
KR100608596B1 (ko) 2004-12-28 2006-08-03 삼성전자주식회사 얼굴 검출을 기반으로 하는 휴대용 영상 촬영 기기 및영상 촬영 방법
KR100678702B1 (ko) 2005-02-03 2007-02-05 에스케이 텔레콤주식회사 이동통신 단말기를 이용하여 벡터 그래픽 애니메이션컨텐츠를 저장된 사진과 합성하는 방법 및 그 장치
US10607305B2 (en) * 2005-03-05 2020-03-31 Jeb C. Griebat Method for questioning jurors
KR101141643B1 (ko) * 2005-03-07 2012-05-04 엘지전자 주식회사 캐리커쳐 생성 기능을 갖는 이동통신 단말기 및 이를 이용한 생성 방법
US20060222243A1 (en) * 2005-04-02 2006-10-05 Newell Martin E Extraction and scaled display of objects in an image
JP4375289B2 (ja) * 2005-06-27 2009-12-02 セイコーエプソン株式会社 コメントレイアウト装置
GB2428124B (en) * 2005-07-07 2010-04-14 Hewlett Packard Development Co Data input apparatus and method
KR100667669B1 (ko) 2005-07-21 2007-01-12 장경식 휴대폰을 이용한 화상 데이터가 첨부된 메시지 전송방법
JP2006018854A (ja) * 2005-08-31 2006-01-19 Casio Comput Co Ltd カメラ付き携帯電話および画像付き文書表示方法
JP2007072520A (ja) * 2005-09-02 2007-03-22 Sony Corp 映像処理装置
KR100714700B1 (ko) 2005-09-06 2007-05-07 삼성전자주식회사 이동 통신 단말기 및 이동 통신 단말기의 단문 메시지 출력방법
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
KR100679049B1 (ko) * 2005-09-21 2007-02-05 삼성전자주식회사 인물 및 장소정보를 제공하는 썸네일에 의한 사진탐색 방법및 그 장치
JP2007096470A (ja) * 2005-09-27 2007-04-12 Nec Corp 監視機能付き移動携帯端末およびその制御方法
JP2007101945A (ja) * 2005-10-05 2007-04-19 Fujifilm Corp 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
JP4645411B2 (ja) * 2005-10-28 2011-03-09 コニカミノルタホールディングス株式会社 認証システム、登録システム及びプログラム
EP1796039B1 (en) * 2005-12-08 2018-11-28 Topcon Corporation Device and method for image processing
US8020097B2 (en) * 2006-03-21 2011-09-13 Microsoft Corporation Recorder user interface
JP4765732B2 (ja) * 2006-04-06 2011-09-07 オムロン株式会社 動画編集装置
JP4889351B2 (ja) * 2006-04-06 2012-03-07 株式会社トプコン 画像処理装置及びその処理方法
JP5362189B2 (ja) * 2006-05-10 2013-12-11 株式会社トプコン 画像処理装置及びその処理方法
US7839434B2 (en) * 2006-08-04 2010-11-23 Apple Inc. Video communication systems and methods
US20080077595A1 (en) * 2006-09-14 2008-03-27 Eric Leebow System and method for facilitating online social networking
US8436911B2 (en) * 2006-09-14 2013-05-07 Freezecrowd, Inc. Tagging camera
KR100834813B1 (ko) 2006-09-26 2008-06-05 삼성전자주식회사 휴대용 단말기의 멀티미디어 컨텐트 관리 장치 및 방법
JP4800163B2 (ja) * 2006-09-29 2011-10-26 株式会社トプコン 位置測定装置及びその方法
JP4759503B2 (ja) * 2006-12-20 2011-08-31 キヤノン株式会社 画像処理装置、画像処理装置の制御方法、プログラム
US7916894B1 (en) * 2007-01-29 2011-03-29 Adobe Systems Incorporated Summary of a video using faces
US7756338B2 (en) * 2007-02-14 2010-07-13 Mitsubishi Electric Research Laboratories, Inc. Method for detecting scene boundaries in genre independent videos
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
KR100961444B1 (ko) * 2007-04-23 2010-06-09 건국대학교 산학협력단 멀티미디어 콘텐츠를 검색하는 방법 및 장치
WO2008146616A1 (ja) * 2007-05-25 2008-12-04 Nec Corporation 画像音響区間群対応付け装置と方法およびプログラム
US20090062944A1 (en) * 2007-09-04 2009-03-05 Apple Inc. Modifying media files
JP2009077032A (ja) * 2007-09-19 2009-04-09 Pioneer Commun Corp 画像処理システム、処理装置及び画像処理方法
JP5023932B2 (ja) * 2007-09-28 2012-09-12 カシオ計算機株式会社 撮像装置、シナリオによる画像撮影方法、およびプログラム
WO2009057447A1 (ja) * 2007-10-29 2009-05-07 Nec Corporation 携帯端末、携帯端末システム、携帯端末の制御方法、プログラム、及び記録媒体
JP5100360B2 (ja) * 2007-12-21 2012-12-19 株式会社トプコン 画像処理装置
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
JP2010087907A (ja) 2008-09-30 2010-04-15 Canon Inc 映像合成表示装置、映像表示システム及び映像表示方法
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US9852761B2 (en) * 2009-03-16 2017-12-26 Apple Inc. Device, method, and graphical user interface for editing an audio or video attachment in an electronic message
US20100238323A1 (en) * 2009-03-23 2010-09-23 Sony Ericsson Mobile Communications Ab Voice-controlled image editing
CA2698052C (en) * 2009-03-30 2021-02-02 Stickeryou, Inc. Internet-based method and system for making user-customized stickers
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
JP5371574B2 (ja) * 2009-06-23 2013-12-18 株式会社第一興商 背景映像中の顔画像を避けるように歌詞字幕を表示するカラオケ装置
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
JP2011066745A (ja) * 2009-09-18 2011-03-31 Brother Industries Ltd 端末装置、通信方法および通信システム
WO2011060439A1 (en) * 2009-11-16 2011-05-19 Twentieth Century Fox Film Corporation Non-destructive file based mastering for multiple languages and versions
JP5419654B2 (ja) * 2009-12-01 2014-02-19 株式会社ソニー・コンピュータエンタテインメント 情報処理装置および情報処理システム
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
JP5389724B2 (ja) * 2010-03-31 2014-01-15 富士フイルム株式会社 画像処理装置、画像処理方法およびプログラム
US8584256B2 (en) 2010-04-21 2013-11-12 Fox Entertainment Group, Inc. Digital delivery system and user interface for enabling the digital delivery of media content
US10339570B2 (en) 2010-04-21 2019-07-02 Fox Entertainment Group, Inc. Customized billboard website advertisements
US9723303B2 (en) * 2010-08-31 2017-08-01 Tektronix, Inc. System for generating text defined test patterns
WO2012030965A2 (en) * 2010-08-31 2012-03-08 Fox Entertainment Group, Inc. Localized media content editing
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8989492B2 (en) * 2011-06-03 2015-03-24 Apple Inc. Multi-resolution spatial feature extraction for automatic handwriting recognition
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
JP5439455B2 (ja) * 2011-10-21 2014-03-12 富士フイルム株式会社 電子コミック編集装置、方法及びプログラム
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9007633B2 (en) * 2012-08-15 2015-04-14 Fuji Xerox Co., Ltd. Systems and methods for efficiently capturing high-quality scans of multi-page documents with hand-held devices
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR102158098B1 (ko) * 2013-01-07 2020-09-22 삼성전자주식회사 이미지 인식을 이용한 이미지 레이아웃 방법 및 장치
JP2016508007A (ja) 2013-02-07 2016-03-10 アップル インコーポレイテッド デジタルアシスタントのためのボイストリガ
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US20150058708A1 (en) * 2013-08-23 2015-02-26 Adobe Systems Incorporated Systems and methods of character dialog generation
US9201900B2 (en) * 2013-08-29 2015-12-01 Htc Corporation Related image searching method and user interface controlling method
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US8954521B1 (en) * 2014-07-22 2015-02-10 Google Inc. Management and presentation of notification content
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US9921796B2 (en) * 2015-04-24 2018-03-20 Kyocera Corporation Sharing of input information superimposed on images
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
KR102167628B1 (ko) * 2018-11-02 2020-10-19 가천대학교 산학협력단 인공 지능 데이터 셋을 위한 영상 수집 장치 및 방법

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0591407A (ja) 1991-09-30 1993-04-09 Nippon Telegr & Teleph Corp <Ntt> 映像通信装置
JPH06161131A (ja) 1992-11-25 1994-06-07 Mita Ind Co Ltd 電子写真感光体
JP3526067B2 (ja) 1993-03-15 2004-05-10 株式会社東芝 再生装置及び再生方法
US5500671A (en) * 1994-10-25 1996-03-19 At&T Corp. Video conference system and method of providing parallax correction and a sense of presence
JP3258840B2 (ja) * 1994-12-27 2002-02-18 シャープ株式会社 動画像符号化装置および領域抽出装置
US6636635B2 (en) * 1995-11-01 2003-10-21 Canon Kabushiki Kaisha Object extraction method, and image sensing apparatus using the method
US6577807B1 (en) * 1996-11-15 2003-06-10 Hitachi Denshi Kabushiki Kaisha Editing method and apparatus for moving pictures
JP3230569B2 (ja) 1996-04-24 2001-11-19 富士ゼロックス株式会社 情報蓄積装置、情報蓄積方法および情報蓄積再生装置
US5864630A (en) * 1996-11-20 1999-01-26 At&T Corp Multi-modal method for locating objects in images
US5907604A (en) * 1997-03-25 1999-05-25 Sony Corporation Image icon associated with caller ID
US5999207A (en) * 1997-05-16 1999-12-07 Scientific-Atlanta, Inc. Method and apparatus for implementing a user interface for a videophone in a cable television network
EP0905644A3 (en) * 1997-09-26 2004-02-25 Communications Research Laboratory, Ministry of Posts and Telecommunications Hand gesture recognizing device
US6356339B1 (en) * 1998-01-12 2002-03-12 Fuji Photo Film Co., Ltd. Digital photo system which replaces a portion of subject matter common to two digital images
JPH11219446A (ja) * 1998-02-03 1999-08-10 Matsushita Electric Ind Co Ltd 映像音響再生システム
US6546052B1 (en) * 1998-05-29 2003-04-08 Canon Kabushiki Kaisha Image processing apparatus and method, and computer-readable memory
JP2000172852A (ja) * 1998-09-28 2000-06-23 Canon Inc 画像処理方法、装置および記録媒体
JP4207099B2 (ja) * 1998-09-29 2009-01-14 ソニー株式会社 画像編集装置及びその方法
US6363160B1 (en) * 1999-01-22 2002-03-26 Intel Corporation Interface using pattern recognition and tracking
JP4227241B2 (ja) * 1999-04-13 2009-02-18 キヤノン株式会社 画像処理装置及び方法
KR100295610B1 (ko) * 1999-11-09 2001-07-12 장영규 동영상 편집 시스템 및 이를 이용한 객체 정보 서비스 방법
EP1107166A3 (en) * 1999-12-01 2008-08-06 Matsushita Electric Industrial Co., Ltd. Device and method for face image extraction, and recording medium having recorded program for the method
US6754389B1 (en) * 1999-12-01 2004-06-22 Koninklijke Philips Electronics N.V. Program classification using object tracking
KR100343223B1 (ko) * 1999-12-07 2002-07-10 윤종용 화자 위치 검출 장치 및 그 방법
JP4531897B2 (ja) * 1999-12-27 2010-08-25 パナソニック株式会社 人物追跡装置、人物追跡方法及びそのプログラムを記録した記録媒体
US6784899B1 (en) * 2000-03-31 2004-08-31 Ricoh Company, Ltd. Systems and methods for providing rich multimedia messages to remote users using telephones and facsimile machines
FI113602B (fi) * 2000-06-30 2004-05-14 Nokia Corp Menetelmä ja järjestelmä vaihtoehtoisen videodatan järjestämiseksi ja lähettämiseksi videolähetysten katkojen aikana
US6724417B1 (en) * 2000-11-29 2004-04-20 Applied Minds, Inc. Method and apparatus maintaining eye contact in video delivery systems using view morphing
US6804396B2 (en) * 2001-03-28 2004-10-12 Honda Giken Kogyo Kabushiki Kaisha Gesture recognition system

Also Published As

Publication number Publication date
JP2002176619A (ja) 2002-06-21
CN1344084A (zh) 2002-04-10
US20020031262A1 (en) 2002-03-14
JP3784289B2 (ja) 2006-06-07
US6961446B2 (en) 2005-11-01
CN1200537C (zh) 2005-05-04
KR20020021032A (ko) 2002-03-18

Similar Documents

Publication Publication Date Title
US20190267039A1 (en) Content information processing device for showing times at which objects are displayed in video content
WO2017157272A1 (zh) 一种信息处理方法及终端
US10062412B2 (en) Hierarchical segmentation and quality measurement for video editing
US10057731B2 (en) Image and message integration system and method
US10244291B2 (en) Authoring system for IPTV network
US8866943B2 (en) Video camera providing a composite video sequence
WO2019086037A1 (zh) 视频素材的处理方法、视频合成方法、终端设备及存储介质
EP2619761B1 (en) Enriching digital photographs
JP5326910B2 (ja) 情報処理装置、情報処理方法およびプログラム
US8291326B2 (en) Information-processing apparatus, information-processing methods, recording mediums, and programs
US7458013B2 (en) Concurrent voice to text and sketch processing with synchronized replay
CN101051515B (zh) 图像处理设备及图像显示方法
ES2645313T3 (es) Extracción automática de rostros
KR101167432B1 (ko) 통신 방법 및 통신 시스템
JP4760892B2 (ja) 表示制御装置、表示制御方法及びプログラム
US7904815B2 (en) Content-based dynamic photo-to-video methods and apparatuses
JP6369462B2 (ja) クライアント装置、制御方法、システム、およびプログラム
TWI496480B (zh) 偕同一可攜式電子裝置用於產生多頻道音訊之系統和方法
JPWO2014024475A1 (ja) 映像提供方法、送信装置および受信装置
KR101445263B1 (ko) 맞춤형 콘텐츠 제공 시스템 및 방법
JP5474062B2 (ja) コンテンツ再生装置、コンテンツ再生方法、プログラム、及び集積回路
CN104869467B (zh) 媒体播放中的信息输出方法、装置和系统
US8373799B2 (en) Visual effects for video calls
US6912726B1 (en) Method and apparatus for integrating hyperlinks in video
US8170269B2 (en) Image processing apparatus, image processing method, and program

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121119

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140423

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20141117

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20151118

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20161123

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20171114

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20181121

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20191119

Year of fee payment: 14