KR102118093B1 - Method for processing workflow of character information providing system based on face recognition - Google Patents
Method for processing workflow of character information providing system based on face recognition Download PDFInfo
- Publication number
- KR102118093B1 KR102118093B1 KR1020180157351A KR20180157351A KR102118093B1 KR 102118093 B1 KR102118093 B1 KR 102118093B1 KR 1020180157351 A KR1020180157351 A KR 1020180157351A KR 20180157351 A KR20180157351 A KR 20180157351A KR 102118093 B1 KR102118093 B1 KR 102118093B1
- Authority
- KR
- South Korea
- Prior art keywords
- recognition
- server
- mam
- sound source
- person
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012545 processing Methods 0.000 title abstract description 29
- 238000007781 pre-processing Methods 0.000 claims abstract description 48
- 238000000605 extraction Methods 0.000 claims abstract description 36
- 238000012795 verification Methods 0.000 claims abstract description 27
- 239000000284 extract Substances 0.000 claims description 13
- 238000012790 confirmation Methods 0.000 claims description 11
- 238000003672 processing method Methods 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 5
- 238000002203 pretreatment Methods 0.000 claims description 3
- 230000010365 information processing Effects 0.000 claims 1
- 230000001815 facial effect Effects 0.000 abstract description 13
- 238000007726 management method Methods 0.000 description 178
- 238000010586 diagram Methods 0.000 description 42
- 230000008569 process Effects 0.000 description 27
- 230000006870 function Effects 0.000 description 23
- 238000013461 design Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000012217 deletion Methods 0.000 description 6
- 230000037430 deletion Effects 0.000 description 6
- 238000012805 post-processing Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000013524 data verification Methods 0.000 description 3
- 238000012797 qualification Methods 0.000 description 3
- 239000000344 soap Substances 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/4722—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting additional data associated with the content
-
- G06K9/00221—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Computer Security & Cryptography (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
본 발명은 미디어 에셋 관리 기술에 관한 것이다.The present invention relates to a technology for managing media assets.
미디어 에셋 관리(Media Asset Management: MAM, 이하 'MAM'이라 칭함) 시스템은 좁은 의미에서 동영상, 오디오, 이미지와 같은 미디어 파일을 관리하는 것을 뜻하며, 넓은 의미에서 콘텐츠 관리 시스템(Content Management System: CMS)이라 볼 수 있다.Media Asset Management (MAM, hereinafter referred to as'MAM') refers to the management of media files such as video, audio, and images in a narrow sense, and Content Management System (CMS) in a broad sense. It can be said.
CMS란 콘텐츠에 일반데이터와 메타데이터를 포함하여 관리하는 시스템을 뜻한다. 여기서 말하는 콘텐츠(content)란 전자문서화돼 있는 데이터 파일을 뜻하며, 워드 파일, 사진 이미지, 동영상 파일, 음원 파일 등 독립적으로 존재하는 전자파일을 말한다. 일반데이터란 전자 결재 자료, 시스템 로그, 이메일, 메신저 문자 등 DB에 기록되지만, 단독으로 존재하는 파일이 아닌 데이터들을 말한다. 메타데이터(metadata)란 콘텐츠 자체를 시스템에 인식하기 위한 추가적인 데이터를 뜻한다. 예를 들어 콘텐츠 파일은 별도의 저장소에 보관하고, 이를 활용하기 위한 패스 정보나 포맷정보, 생성일, 소유자, 제목, 사용 권한 등이 DB에 관리되는데 이 정보를 메타데이터라 한다.CMS refers to a system that manages content by including general data and metadata. The content referred to herein refers to an electronically documented data file, and refers to an electronic file that exists independently, such as a word file, photo image, video file, and sound source file. General data refers to data that is recorded in DB such as electronic payment data, system logs, emails, messenger texts, etc., but does not exist alone. Metadata refers to additional data for recognizing the content itself to the system. For example, the content file is stored in a separate storage, and the path information, format information, creation date, owner, title, and permission to use it are managed in the DB, and this information is called metadata.
일 실시 예에 따라, 영상 내 등장인물, 상황, 장소, 음원 등을 인식하여 사용자에게 딥 메타데이터(deep metadata)를 제공하며, 콘텐츠를 입수하여 딥 메타데이터 추출 및 전송까지 전 과정을 통합한 최적의 딥 메타 관리기술을 제공하는 얼굴 인식 기반 등장인물 정보 제공 시스템의 워크플로우 처리방법을 제안한다.According to one embodiment, it recognizes the characters, situations, places, sound sources, etc. in a video to provide deep metadata to the user, and obtains content to optimize the entire process from extracting and transmitting deep metadata We propose a workflow processing method for face recognition based character information providing system that provides deep meta management technology.
일 실시 예에 따른 얼굴 인식 기반 등장인물 정보 제공 시스템의 워크플로우 처리방법은, 콘텐츠 등록부가 콘텐츠 원본 파일을 복사하여 스토리지에 저장하고, 콘텐츠 메타데이터를 MAM 서버에 등록 및 저장하는 단계와, MAM 서버가 전처리 서버에 인식 작업 및 검증에 필요한 전처리 작업을 할당하는 단계와, 전처리 서버가 트랜스코딩, 카탈로깅 및 프레임 추출을 포함한 전처리를 수행하는 단계와, MAM 서버가 전처리 된 결과를 이용하여 인식 작업을 인식 서버에 할당하면, 인식 서버가 영상 내 인물, 상황 및 음원을 인식하는 단계와, 관리자 단말이 저작도구(Authoring Tool)를 이용하여 인식 결과를 확인하고 검증을 거쳐 수정하는 단계와, 검증완료 후, MAM 서버가 사용자 단말로 결과를 전달하는 단계를 포함한다.The workflow processing method of the facial recognition-based character information providing system according to an embodiment includes the steps of a content registration unit copying a content original file and storing it in a storage, and registering and storing content metadata in the MAM server, and the MAM server A) assigning a pre-processing task necessary for recognition and verification to the pre-processing server; and a pre-processing server performing pre-processing including transcoding, cataloging, and frame extraction, and the MAM server using the pre-processed results to recognize the task. When assigned to the recognition server, the recognition server recognizes the person, situation, and sound source in the video, and the administrator terminal checks the recognition result using the authoring tool and verifies and corrects it after verification is completed. , MAM server passing the result to the user terminal.
전처리를 수행하는 단계는, MAM 서버가 트랜스코더에 트랜스코딩 작업을 할당하고, 트랜스코더가 원본 영상을 웹에서 재생 가능한 검색 영상으로 변환하는 단계와, MAM 서버가 카탈로거에 카탈로깅 작업을 할당하고, 카탈로거가 원본 영상을 분석하여 장면 전환 지점 기준으로 장면을 분할하여 샷 이미지를 출력하는 단계와, MAM 서버가 프레임 추출기에 프레임 추출 작업을 할당하고, 프레임 추출기가 프레임 이미지를 추출하는 단계를 포함하며, 전처리 작업을 구성하는 각 단계는 동시에 병렬로 진행되며, MAM 서버와 전처리 서버의 트랜스코더, 카탈로거 및 프레임 추출기 간에는 TCP 프로토콜을 이용하여 통신할 수 있다.The pre-processing steps include: the MAM server assigning a transcoding operation to the transcoder, the transcoder converting the original image into a searchable image playable on the web, and the MAM server assigns a cataloging operation to the cataloger , Catalogger analyzes the original video and divides the scene based on the transition point to output a shot image, and the MAM server assigns a frame extraction operation to the frame extractor, and the frame extractor extracts the frame image Each step constituting the pre-processing operation is performed in parallel at the same time, and can be communicated using the TCP protocol between the MAM server and the transcoder of the pre-processing server, the cataloger and the frame extractor.
영상 내 인물, 상황 및 음원을 인식하는 단계는, MAM 서버가 인물 인식기에 등장인물 피처 추출 작업을 할당하는 단계와, 인물 인식기가 등장인물의 인식용 피처 추출을 위한 인물인식 서버를 호출하는 단계와, 호출된 인물인식 서버가 기저장된 등장인물의 갤러리 이미지를 이용하여 등장인물의 인식용 피처를 추출하는 단계와, 인물 인식기가 인물인식 서버에 피처 추출 상태를 확인하고 확인 결과를 MAM 서버에 등록하는 단계와, MAM 서버가 인물 인식기에 인물인식 작업을 할당하는 단계와, 인물 인식기가 인물 인식을 위한 인물인식 서버를 호출하는 단계와, 호출된 인물인식 서버가 프레임 추출 이미지 및 등장인물 피처 파일을 이용하여 인물을 인식하여, 대표 프로필 추천 사진, 인물 클러스터링 이미지, 프레임별 피처 파일 및 인식 결과 파일을 제공하는 단계와, MAM 서버가 인식 결과를 저장하는 단계를 포함할 수 있다.Recognizing a person, a situation, and a sound source in an image includes: a MAM server assigning a character feature extraction task to a person recognizer, and a person recognizer calling a person recognition server for extracting features for recognition of characters; , Extracting the feature for recognition of the character using the gallery image of the character that the called character recognition server is pre-stored, and the character recognizer confirms the feature extraction status in the character recognition server and registers the confirmation result to the MAM server Step, the MAM server assigns a person recognition task to the person recognizer, the person recognizer calls the person recognition server for person recognition, and the called person recognition server uses the frame extraction image and the character feature file. The method may include recognizing a person, providing a representative profile recommendation picture, a person clustering image, a feature file for each frame, and a recognition result file, and storing the recognition result by the MAM server.
영상 내 인물, 상황 및 음원을 인식하는 단계는, MAM 서버가 음원 인식기에 음원인식 작업을 할당하는 단계와, 음원 인식기가 스토리지로부터 wav 파일을 추출하고 추출된 wav 파일을 이용하여 음원인식 서버에 음원인식을 호출하는 단계와, 음원인식 서버가 음원인식 라이브러리를 이용하여 음원을 인식하고 음원인식 결과를 MAM 서버에 등록하는 단계와, MAM 서버가 미리 설정된 단위로 인식된 결과에서 오인식 결과를 수정하고 유효한 결과를 병합 처리하는 단계와, MAM 서버가 최종 결과를 저장하는 단계를 포함할 수 있다.In the step of recognizing the person, situation, and sound source in the video, the MAM server assigns a sound source recognition task to the sound source recognizer, and the sound source recognizer extracts the wav file from the storage and uses the extracted wav file to record the sound source to the sound source recognition server. Invoking the recognition, the sound source recognition server recognizes the sound source using the sound source recognition library and registers the sound source recognition result to the MAM server, and the MAM server corrects the misrecognized result from the recognized result in a preset unit and is effective It may include the step of merging the results and storing the final result by the MAM server.
유효한 결과를 병합 처리하는 단계는, 스토리보드의 음원인식 페이지를 통해 음원인식 결과를 씬 단위로 제공하는 단계와, 타임코드가 중복된 항목을 대상으로 음원 경고를 표시하고, 중복된 음원을 삭제하거나 서로 병합하는 편집 화면을 제공하는 단계를 포함할 수 있다.The step of merging valid results includes providing sound recognition results in scene units through the sound recognition page of the storyboard, and displaying sound source warnings for items with duplicate timecodes, and deleting duplicate sound sources, or It may include a step of providing an editing screen to merge with each other.
영상 내 인물, 상황 및 음원을 인식하는 단계는, MAM 서버가 상황 인식기에 상황인식 작업을 할당하는 단계와, 상황 인식기가 프레임 추출 이미지를 상황인식 서버에 전달하면서 상황인식 서버를 호출하는 단계와, 상황인식 서버가 프레임 추출 이미지를 입력받아 상황인식을 통해 객체, 이벤트, 장소, 랜드마크 및 동영상을 인식하고 인식 결과를 제공하는 단계를 포함할 수 있다.Recognizing a person, a situation, and a sound source in the video includes: a MAM server assigning a context recognition task to the context recognizer; and a context recognizer calling the context recognition server while delivering the frame extraction image to the context recognition server, The context recognition server may include receiving a frame extraction image and recognizing objects, events, places, landmarks, and videos through context recognition, and providing a recognition result.
검증을 거쳐 수정하는 단계는, 등록된 콘텐츠와 딥메타 인식결과를 확인 및 관리할 수 있는 웹 기반의 저작도구를 제공하며, 저작도구는 콘텐츠 관리 페이지, 스토리보드 페이지, 검증 페이지, 등장인물 관리 페이지 및 관리자 페이지를 제공할 수 있다.The verification and correction step provides a web-based authoring tool that can check and manage registered content and deep meta recognition results, and the authoring tool includes a content management page, a storyboard page, a verification page, and a character management page. And an administrator page.
콘텐츠 관리 페이지는 콘텐츠 및 메타데이터 등록 화면, 콘텐츠 확인 화면, 메타데이터 확인 화면, 전처리 명령 입력 화면 및 인식 명령 입력 화면을 포함할 수 있다.The content management page may include a content and metadata registration screen, a content confirmation screen, a metadata confirmation screen, a pre-processing command input screen, and a recognition command input screen.
등장인물 관리 페이지는 인식 서버에서 추천된 프로필용 이미지 화면, 동일한 인물끼리 그룹핑한 클러스터링 이미지 화면 및 입력된 인물사진과 관련된 인물을 검색하여 제공하는 검색 화면을 포함할 수 있다.The character management page may include an image screen for a profile recommended by the recognition server, a clustering image screen grouping the same people, and a search screen to search for and provide a person related to the input portrait.
스토리보드 페이지는 카탈로깅을 통해 생성된 샷 추출내용을 확인하고 샷 기반으로 씬을 생성 및 관리하는 스토리보드-샷 화면, 음원인식 결과를 씬 단위로 확인하고 오인식된 결과를 수정하며 타임코드가 중복된 항목을 삭제하거나 병합하기 위한 스토리보드-음원인식 화면, 객체인식 결과를 확인하고 오인식된 결과를 편집하기 위한 스토리보드-객체인식 화면을 포함할 수 있다.The storyboard page is a storyboard-shot screen that checks shot extractions generated through cataloging, creates and manages scenes based on shots, checks sound source recognition results in units of scenes, corrects misrecognized results, and duplicates timecode It may include a storyboard-sound recognition screen for deleting or merging deleted items, a storyboard-object screen for checking object recognition results and editing the misrecognized results.
검증 페이지는 재생시점에 해당하는 등장인물 표시화면, 음원 표시화면, 등장인물의 부가 정보 확인 화면, 등장인물 출연지점 안내 화면, 엔딩 지점에서 관련 콘텐츠 안내 화면을 포함할 수 있다.The verification page may include a character display screen corresponding to a reproduction time point, a sound source display screen, an additional information confirmation screen of the character, a character appearance point guidance screen, and a related content guidance screen at the ending point.
일 실시 예에 따른 얼굴 인식 기반 등장인물 정보 제공 시스템은 영상 내 등장인물, 상황, 장소, 음원 등을 인식하여 사용자에게 딥 메타데이터(deep metadata)를 제공할 수 있다. 이때, 콘텐츠를 입수하여 딥 메타데이터 추출 및 전송까지 전 과정을 통합한 최적의 딥 메타 관리기술을 제공할 수 있다.The face recognition based character information providing system according to an embodiment may recognize a character, a situation, a place, and a sound source in an image and provide deep metadata to a user. At this time, it is possible to provide an optimal deep meta management technology that integrates the entire process from obtaining content to extracting and transmitting deep metadata.
얼굴 인식 기반 등장인물 정보 제공 시스템은 MAM 기술을 이용하여 최적의 콘텐츠 관리 솔루션을 제공한다. 또한, 인물 인식 엔진, 상황 인식 엔진 및 음원인식 엔진을 통합하여 자동화 처리하고, 개방형 애플리케이션 프로그래밍 인터페이스(Open Application Programming Interface: Open API)를 이용하여 서로 다양한 플랫폼의 엔진을 연동함에 따라 사용의 편의성을 증대시킨다. 나아가, 콘텐츠 및 인식 작업을 관리할 수 있는 저작도구(Authoring Tool)를 제공하며, 최종 딥 메타데이터를 검증할 수 있는 플레이어를 제공한다.The face recognition-based character information providing system provides an optimal content management solution using MAM technology. In addition, the person recognition engine, the context recognition engine, and the sound source recognition engine are integrated for automatic processing, and the convenience of use is increased by linking engines of various platforms with each other using the Open Application Programming Interface (Open API). Order. Furthermore, it provides an authoring tool that can manage content and recognition tasks, and a player that can verify the final deep metadata.
도 1은 본 발명의 일 실시 예에 따른 얼굴 인식 기반 등장인물 정보 제공 시스템의 구성을 도시한 도면,
도 2는 얼굴 인식 기반 등장인물 정보 제공 시스템의 구성요소들의 기능과 입력 데이터 및 출력 데이터를 보여주는 표를 도시한 도면,
도 3은 본 발명의 일 실시 예에 따른 MAM 서버와 클라이언트의 구성을 도시한 도면,
도 4는 본 발명의 일 실시 예에 따른 MAM 서버의 워크플로우 설정 예를 도시한 도면,
도 5는 본 발명의 일 실시 예에 따른 MAM 서버의 워크플로우 처리 흐름을 도시한 도면,
도 6은 본 발명의 일 실시 예에 따른 MAM 서버의 메타데이터 설정 예를 도시한 도면,
도 7은 본 발명의 일 실시 예에 따른 MAM 서버의 메타데이터 처리 흐름을 도시한 도면,
도 8은 본 발명의 일 실시 예에 따른 얼굴 인식 기반 등장인물 정보 제공 시스템의 전체 워크플로우 처리 프로세스를 도시한 도면,
도 9는 본 발명의 일 실시 예에 따른 얼굴 인식 기반 등장인물 정보 제공 시스템의 전처리 워크플로우 처리 프로세스를 도시한 도면,
도 10은 본 발명의 일 실시 예에 따른 얼굴 인식 기반 등장인물 정보 제공 시스템의 인물 인식 워크플로우 처리 프로세스를 도시한 도면,
도 11은 본 발명의 일 실시 예에 따른 얼굴 인식 기반 등장인물 정보 제공 시스템의 음원인식 워크플로우 처리 프로세스를 도시한 도면,
도 12는 본 발명의 일 실시 예에 따른 얼굴 인식 기반 등장인물 정보 제공 시스템의 상황 인식 워크플로우 처리 프로세스를 도시한 도면,
도 13은 본 발명의 일 실시 예에 따른 Web UI를 통한 콘텐츠 등록 화면을 도시한 도면,
도 14는 본 발명의 일 실시 예에 따른 와치폴더(WatchFolder) 방식을 위한 인제스트(Ingest) 프로그램을 통한 콘텐츠 등록 화면을 도시한 도면,
도 15는 본 발명의 일 실시 예에 따른 콘텐츠 등록 및 전처리 작업 프로세스를 도시한 도면,
도 16은 본 발명의 일 실시 예에 따른 인물인식을 위한 장치 구성을 도시한 도면,
도 17은 본 발명의 일 실시 예에 따른 인물인식 프로세스를 도시한 도면,
도 18은 본 발명의 일 실시 예에 따른 음원인식을 위한 장치 구성을 도시한 도면,
도 19는 본 발명의 일 실시 예에 따른 음원인식 프로세스를 도시한 도면,
도 20은 본 발명의 일 실시 예에 따른 상황인식을 위한 장치 구성을 도시한 도면,
도 21은 본 발명의 일 실시 예에 따른 상황 인식 프로세스를 도시한 도면,
도 22는 본 발명의 일 실시 예에 따른 저작도구 화면을 도시한 도면,
도 23은 본 발명의 일 실시 예에 따른 저작도구의 콘텐츠 관리 화면을 도시한 도면,
도 24는 본 발명의 일 실시 예에 따른 저작도구의 등장인물 관리 화면을 도시한 도면,
도 25는 본 발명의 일 실시 예에 따른 저작도구의 스토리보드(샷) 관리 화면을 도시한 도면,
도 26은 본 발명의 일 실시 예에 따른 저작도구의 스토리보드(음원인식) 관리 화면을 도시한 도면,
도 27은 본 발명의 일 실시 예에 따른 저작도구의 스토리보드(객체인식) 관리 화면을 도시한 도면,
도 28은 본 발명의 일 실시 예에 따른 저작도구의 검증 화면을 도시한 도면이다.1 is a diagram showing the configuration of a facial recognition-based character information providing system according to an embodiment of the present invention;
2 is a diagram showing a table showing functions and input data and output data of the components of the facial recognition-based character information providing system;
3 is a view showing the configuration of a MAM server and a client according to an embodiment of the present invention,
4 is a diagram showing an example of a workflow setting of the MAM server according to an embodiment of the present invention,
5 is a view showing a workflow processing flow of the MAM server according to an embodiment of the present invention,
6 is a diagram illustrating an example of metadata setting of a MAM server according to an embodiment of the present invention;
7 is a view showing a metadata processing flow of the MAM server according to an embodiment of the present invention,
8 is a diagram illustrating an entire workflow processing process of a face recognition-based character information providing system according to an embodiment of the present invention;
9 is a diagram illustrating a pre-processing workflow processing process of a face recognition-based character information providing system according to an embodiment of the present invention;
FIG. 10 is a diagram illustrating a process for processing a person recognition workflow in a system for providing character information based on face recognition according to an embodiment of the present invention;
11 is a diagram showing a sound source recognition workflow processing process of a face recognition based character information providing system according to an embodiment of the present invention;
12 is a diagram illustrating a situation recognition workflow processing process of a face recognition based character information providing system according to an embodiment of the present invention;
13 is a diagram showing a content registration screen through a Web UI according to an embodiment of the present invention;
14 is a diagram illustrating a content registration screen through an ingest program for a watchfolder method according to an embodiment of the present invention;
15 is a diagram showing a content registration and preprocessing work process according to an embodiment of the present invention;
16 is a view showing a device configuration for person recognition according to an embodiment of the present invention,
17 is a view showing a person recognition process according to an embodiment of the present invention,
18 is a view showing a device configuration for sound source recognition according to an embodiment of the present invention,
19 is a diagram illustrating a sound source recognition process according to an embodiment of the present invention,
20 is a view showing a device configuration for situational awareness according to an embodiment of the present invention;
21 is a diagram illustrating a situation recognition process according to an embodiment of the present invention,
22 is a view showing a authoring tool screen according to an embodiment of the present invention;
23 is a diagram showing a content management screen of the authoring tool according to an embodiment of the present invention;
24 is a view showing a character management screen of the authoring tool according to an embodiment of the present invention;
25 is a view showing a storyboard (shot) management screen of the authoring tool according to an embodiment of the present invention;
26 is a view showing a storyboard (sound source recognition) management screen of the authoring tool according to an embodiment of the present invention;
27 is a view showing a storyboard (object chain) management screen of the authoring tool according to an embodiment of the present invention;
28 is a view showing a verification screen of the authoring tool according to an embodiment of the present invention.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.Advantages and features of the present invention, and methods for achieving them will be clarified with reference to embodiments described below in detail together with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but may be implemented in various different forms, and only the embodiments allow the disclosure of the present invention to be complete, and common knowledge in the technical field to which the present invention pertains. It is provided to fully inform the holder of the scope of the invention, and the invention is only defined by the scope of the claims. The same reference numerals refer to the same components throughout the specification.
본 발명의 실시 예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이며, 후술되는 용어들은 본 발명의 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.In the description of the embodiments of the present invention, when it is determined that a detailed description of known functions or configurations may unnecessarily obscure the subject matter of the present invention, the detailed description will be omitted, and terms to be described later in the embodiments of the present invention These terms are defined in consideration of the function of the user, and may vary depending on the user's or operator's intention or custom. Therefore, the definition should be made based on the contents throughout this specification.
첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램인스트럭션들(실행 엔진)에 의해 수행될 수도 있으며, 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장치의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장치의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다.Combinations of each block in the accompanying block diagrams and steps in the flow charts may be performed by computer program instructions (execution engines), these computer program instructions being incorporated into a processor of a general purpose computer, special purpose computer, or other programmable data processing device. Since it can be mounted, the instructions executed through a processor of a computer or other programmable data processing device create a means to perform the functions described in each block of the block diagram or in each step of the flowchart.
이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장치를 지향할 수 있는 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다.These computer program instructions can also be stored in computer readable or computer readable memory that can be oriented to a computer or other programmable data processing device to implement a function in a particular way, so that computer readable or computer readable memory The instructions stored in it are also possible to produce an article of manufacture containing instructions means for performing the functions described in each block of the block diagram or in each step of the flowchart.
그리고 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장치 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장치 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장치를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명되는 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.And since computer program instructions may be mounted on a computer or other programmable data processing device, a series of operational steps are performed on the computer or other programmable data processing device to create a process that is executed by the computer to generate a computer or other programmable It is also possible for instructions to perform the data processing apparatus to provide steps for executing the functions described in each block of the block diagram and each step of the flowchart.
또한, 각 블록 또는 각 단계는 특정된 논리적 기능들을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있으며, 몇 가지 대체 실시 예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하며, 또한 그 블록들 또는 단계들이 필요에 따라 해당하는 기능의 역순으로 수행되는 것도 가능하다.In addition, each block or each step can represent a module, segment, or portion of code that includes one or more executable instructions for executing specified logical functions, and in some alternative embodiments referred to in blocks or steps It should be noted that it is also possible for functions to occur out of sequence. For example, two blocks or steps shown in succession may in fact be performed substantially simultaneously, and it is also possible that the blocks or steps are performed in the reverse order of the corresponding function as necessary.
이하, 첨부 도면을 참조하여 본 발명의 실시 예를 상세하게 설명한다. 그러나 다음에 예시하는 본 발명의 실시 예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 상술하는 실시 예에 한정되는 것은 아니다. 본 발명의 실시 예는 이 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공된다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. However, the embodiments of the present invention exemplified below may be modified in various other forms, and the scope of the present invention is not limited to the embodiments described below. Embodiments of the present invention are provided to more fully describe the present invention to those of ordinary skill in the art.
도 1은 본 발명의 일 실시 예에 따른 얼굴 인식 기반 등장인물 정보 제공 시스템의 구성을 도시한 도면이고, 도 2는 얼굴 인식 기반 등장인물 정보 제공 시스템의 구성요소들의 기능과 입력 데이터 및 출력 데이터를 보여주는 표를 도시한 도면이다.1 is a diagram showing the configuration of a facial recognition-based character information providing system according to an embodiment of the present invention, and FIG. 2 is a function of the components of the facial recognition-based character information providing system and input data and output data. It is a diagram showing a table.
일 실시 예에 따른 얼굴 인식 기반 등장인물 정보 제공 시스템(1)은 영상 내 등장인물, 상황, 장소, 음원 등을 인식하여 사용자에게 딥 메타데이터(deep metadata)를 제공한다. 이때, 콘텐츠를 입수하여 딥 메타데이터 추출 및 전송까지 전 과정을 통합한 최적의 딥 메타 관리기술을 제공한다. 딥 메타 솔루션은 AI 기반의 영상분석 기술로, 영상 내 등장인물, 상황 및 음원 등에 대한 상세 부가정보를 제공하며, 영상의 다양한 장면을 자동으로 분류하여 장면의 특성에 따라 오디오의 음장(sound filed), 영상의 색상 등을 자동 조절해 주는 서비스를 제공한다.The face recognition based character
보다 구체적으로, 얼굴 인식 기반 등장인물 정보 제공 시스템은 미디어 에셋 관리(Media Asset Management: MAM, 이하 'MAM'이라 칭함) 기술을 이용하여 최적의 콘텐츠 관리 솔루션을 제공한다. 또한, 인물 인식 엔진, 상황 인식 엔진 및 음원인식 엔진을 통합하여 자동화 처리하고, 개방형 애플리케이션 프로그래밍 인터페이스(Open Application Programming Interface: Open API)를 이용하여 서로 다양한 플랫폼의 엔진을 연동함에 따라 사용의 편의성을 증대시킨다. 나아가, 콘텐츠 및 인식 작업을 관리할 수 있는 저작도구(Authoring Tool)를 제공하며, 최종 딥 메타데이터를 검증할 수 있는 플레이어를 제공한다.More specifically, the facial recognition-based character information providing system provides an optimal content management solution by using a media asset management (MAM) technology. In addition, the person recognition engine, the context recognition engine, and the sound source recognition engine are integrated for automatic processing, and the convenience of use is increased by linking engines of various platforms with each other using the Open Application Programming Interface (Open API). Order. Furthermore, it provides an authoring tool that can manage content and recognition tasks, and a player that can verify the final deep metadata.
도 1 및 도 2를 참조하면, 얼굴 인식 기반 등장인물 정보 제공 시스템(1)은 콘텐츠 제공부(10), MAM 스토리지(11-1), MAM DB(11-2), 메타 관리서버(12), 전처리 서버(13), 얼굴인식 서버(14), 상황인식 서버(15), 음원인식 서버(16), 관리자 단말(17), 결과 전송부(18) 및 사용자 단말(19)을 포함한다.1 and 2, the facial recognition based character
① 메타 관리서버(12)는 콘텐츠 제공부(10)로부터 원본 영상 및 CMS 메타데이터를 획득하여 MAM 스토리지(11-1)와 MAM DB(11-2)에 저장 및 관리한다(자동 등록). 메타 관리서버(12)는 MAM 서버와 MAM 확장서버(MamEx) 를 포함할 수 있다.① The
② 전처리 서버(13)는 트랜스코더(transcoder), 카탈로거(cataloger), 프레임 추출기, 인물 인식기, 상황 인식기 및 음원 인식기를 포함한다. 트랜스코더는 원본 영상을 입력받아 스트리밍 가능한 포맷으로 변환하여 검색용 영상을 출력한다. 카탈로거는 원본 영상을 입력받아 장면(샷)을 분할하고 장면 전환 지점의 샷 이미지를 출력한다. 프레임 추출기는 원본 영상을 입력받아 프레임 이미지를 출력한다. 인물 인식기는 MAM 서버와 얼굴인식 서버(14)를 연동하고, 상황 인식기는 MAM 서버와 상황인식 서버(15)를 연동하며, 음원 인식기는 MAM 서버와 음원인식 서버(16)를 연동한다.② The
③ 얼굴인식 서버(14)는 영상 내 등장인물을 인식하고 프로필 추천 이미지를 생성한다. 얼굴인식 서버(14)의 입력 데이터는 추출 프레임 이미지(예를 들어, 10 프레임 단위로 추출된 이미지)이고, 얼굴인식을 통한 출력 데이터는 인물 클러스터링 이미지, 대표 프로필 추천 이미지, 프레임 피처 저장 파일 등이다.③ The
④ 상황인식 서버(15)는 영상 내 객체, 이벤트, 장소, 랜드마크 등을 인식한다. 상황인식 서버(15)의 입력 데이터는 추출 프레임 이미지(예를 들어, 5 프레임 단위로 추출된 이미지)이고, 상황인식을 통한 출력 데이터는 객체, 이벤트, 장소, 랜드마크, 동영상 인식 결과 파일 등이다.④ The
⑤ 관리자 단말(17)는 전처리 및 인식작업이 완료된 콘텐츠를 대상으로 샷 기반으로 씬(scene)을 생성 및 관리하며 검증한다. 관리자 단말(17)의 입력 데이터는 샷(shot) 이미지이고, 출력 데이터는 타임 코드(time code)이다. 타임 코드는 예를 들어, "시:분:초:프레임"이다. 검증을 위해 딥메타 결과를 검증할 수 있는 검증 페이지를 제공하며, 검증 페이지는 재생시점에 해당하는 등장인물과 음원을 표시하며 등장인물의 부가 정보를 확인할 수 있는 기능을 제공하며, 영상 재생시 딥메타 정보를 실시간으로 표시함으로써 데이터 검증 기능을 제공한다.⑤ The
⑥ 결과 전송부(18)는 인식 및 검증 결과를 사용자 단말(19)에 전송한다. 사용자 단말(19)은 TV, 셋톱박스, 모바일 단말 등이 있다.⑥ The
도 3은 본 발명의 일 실시 예에 따른 MAM 서버와 클라이언트의 구성을 도시한 도면이다.3 is a diagram showing the configuration of a MAM server and a client according to an embodiment of the present invention.
MAM 서버(2)는 통신부(26), MAM 엔진 및 DB(20)를 포함한다.The
통신부(26)는 클라이언트(3)와의 통신을 처리한다. 통신 시 TCP 기반 프로토콜 및 SOAP 프로토콜을 지원한다. TCP 기반 프로토콜/SOAP 프로토콜은 프로세스 실행 옵션으로 설정할 수 있다. TCP 기반 프로토콜을 지원하는 클라이언트용 SDK를 제공할 수 있다.The
MAM 엔진은 워크플로우 관리부(Workflow Manager)(21), 에셋 관리부(Asset Manager)(22), 어드민 관리부(Admin Manager)(23), 시스템 관리부(System Manager)(24) 및 확장 MAM 관리부(MamEx Manager)(25)를 포함한다.The MAM engine includes a
워크플로우 관리부(21)는 시스템 워크플로우를 관리한다. 이때, 작업 할당을 통제하여 작업 종류에 맞는 콤포넌트 서버(전처리 서버 / 인식엔진 연동기)(30)에 작업을 할당한다. MAM 서버(2)로부터 어떤 작업을 내려받아 대신 처리하는 중개 어플리케이션을 컴포넌트 서버(Component server)라고 하고, 이 서버가 처리하는 일을 컴포넌트 작업(Component job)이라 정의한다. 트랜스코딩 후 전송과 같이 컴포넌트 작업 2개가 모여 요구사항 하나가 되는데, 이런 순차로 발생하는 콤포넌트 작업 묶음을 시스템 워크플로우(System workflow)라 정의한다.The
에셋 관리부(22)는 구축된 에셋 스키마(asset scheme)에 따라 메타데이터(metadata)를 관리하며, 메타데이터의 CRUD(Create: 생성, Read: 읽기, Update: 갱신, Delete: 삭제) 기능을 제공하다. 에셋 스키마는 데이터에 대한 생성, 조회, 수정, 삭제 조작 대상이 되는 DB 필드를 재정의한 것을 뜻한다. 메타데이터는 콘텐츠 자체를 시스템에 인식하기 위한 추가적인 데이터를 의미한다. 예를 들어, 콘텐츠 파일은 별도의 저장소에 보관하고, 이를 활용하기 위한 패스정보, 포맷정보, 생성일, 소유자, 제목, 사용권한 등이 DB에 관리되는데, 이 정보를 메타데이터라 한다.The
어드민 관리부(23)는 부서, 사용자, 권한 등 시스템 운영에 필요한 관리 기능을 제공한다. 시스템 관리부(24)는 시스템 설정 기능을 지원하고, 에셋 및 워크플로우 설정을 처리한다. 확장 MAM 관리부(25)는 MAM 서버(2)의 확장 모듈인 MAM 확장서버(MamEx server)(4)와의 연동 처리를 담당한다.The
DB(20)는 DB 및 검색엔진 연동을 담당한다.The
클라이언트(3)는 콤포넌트 서버(30), 저작도구(Authoring tool)(31), 관리 및 모니터링 도구(Admin tool/Monitoring tool)(32), 메타데이터 설계도구(MAM Designer)(33)를 포함한다. 콤포넌트 서버(30)는 MAM 서버(2)의 워크플로우 관리부(21)로부터 작업을 할당받아 수행하고, 저작도구(31)는 MAM 서버(2)의 에셋 관리부(22)와 연결되고, 관리 및 모니터링 도구(32)는 MAM 서버(2)의 어드민 관리부(23)와 연결되며, 메타데이터 설계도구(33)는 MAM 서버(2)의 시스템 관리부(24)와 연결된다.The
도 4는 본 발명의 일 실시 예에 따른 MAM 서버의 워크플로우 설정 예를 도시한 도면이다.4 is a diagram illustrating an example of a workflow setting of a MAM server according to an embodiment of the present invention.
도 3 및 도 4를 참조하면, MAM 서버(2)는 모든 워크플로우 설정을 코드 레벨이 아닌 스키마 테이블(scheme table)인 작업 설정 테이블(40)에 저장하여 관리한다. 단 적격화가 필요한 전처리, 후처리는 MAM 확장서버(MamEx)를 통해 처리할 수 있다. 작업 설정 테이블(40)은 작업 식별자(41), 작업 XML(42), 캡션(CAPTION)(43), 시작호출(STARTCMSEXNAME)(44), 종료호출(ENDCMSEXNAME)(45) 필드를 포함한다.Referring to FIGS. 3 and 4, the
① MAM 서버(2)는 작업 할당 시 설정된 항목을 작업별로 표준화시킨 작업 XML(42)을 콤포넌트 서버에 전달한다. ② 작업 XML(42)은 콤포넌트 서버에서 작업 전후로 호출할 MamEx 정보(44, 45)를 포함한다. ③ 작업 설정 테이블(40)의 필드에 작업 상태정보를 업데이트한다. 작업 상태정보는 시작 시각, 종료 시각, 진행률, 작업 상태, 실패 원인 등을 포함한다.① The
도 5는 본 발명의 일 실시 예에 따른 MAM 서버의 워크플로우 처리 흐름을 도시한 도면이다.5 is a diagram showing a workflow processing flow of the MAM server according to an embodiment of the present invention.
1. 워크플로우 호출1. Call workflow
클라이언트(3)가 MAM 서버(2)에 워크플로우를 호출한다(단계 1). MAM 서버(2)는 호출된 작업 내용을 작업 설정 테이블에 추가한다(단계 1-1).The
2. 작업 할당2. Task assignment
MAM 서버(2)는 작업정보를 콤포넌트 서버(5)에 전달하여 작업을 할당한다(단계 2). 이때, 작업 관리 쓰레드가 작업 설정 테이블을 주기적으로 확인하여 대기 중인 작업을 처리 가능한 콤포넌트 서버(5)에 할당하며, 작업 설정 테이블을 기반으로 작업 XML을 전달한다. 대기중인 콤포넌트 서버가 여러 대인 경우 우선순위를 적용하여 작업을 할당한다. MAM 서버(2)는 작업할당 후 작업 시작 관련 정보를 업데이트한다(단계 2-1).The
3. 작업 전처리3. Pre-treatment
콤포넌트 서버(5)는 작업을 할당받은 후에 전처리 작업을 위한 MAM 확장서버(Start Job MamEx)(4)를 호출한다(단계 3). MAM 확장서버(4)는 작업에 필요한 전처리 작업을 실행(단계 3-1)한 후, 최종 작업 정보(Job XML)를 완성하여 콤포넌트 서버(5)에 전달한다(단계 3-2).The
4. 작업 처리4. Work processing
콤포넌트 서버(5)는 작업을 처리(단계 4) 하면서, 주기적으로 MAM 서버(2)에 진행률을 보고한다(단계 4-1). MAM 서버(2)는 작업 진행 관련 정보를 업데이트 한다(단계 4-2).The
5. 작업 후처리5. Post-processing
콤포넌트 서버(5)는 작업 결과와 산출물 정보를 포함하여 작업을 위한 MAM 확장서버(End Job MamEx)(4)를 호출한다(단계 5). MAM 확장서버(4)는 작업 후처리(작업 산출물 정보 저장 등)(단계 5-1) 후 최종 작업 결과를 콤포넌트 서버(5)에 전달한다(단계 5-2).The
6. 작업 결과 통보6. Notification of work results
콤포넌트 서버(5)는 MAM 확장서버(4)로부터 전달받은 최종 작업 결과를 MAM 서버(2)에 통보한다(단계 6). MAM 서버(2)는 작업 종료 관련 정보를 업데이트한다(단계 6-2).The
도 6은 본 발명의 일 실시 예에 따른 MAM 서버의 메타데이터 설정 예를 도시한 도면이다.6 is a diagram illustrating an example of metadata setting of a MAM server according to an embodiment of the present invention.
도 3 및 도 6을 참조하면, MAM 서버(2)는 에셋(메타데이터) 설정 역시 코드 레벨이 아닌 메타데이터 설정 테이블을 이용하여 저장 및 관리한다. 메타데이터 설계도구(MAM Designer)(33)를 통해 메타데이터를 설계할 수 있다. 단 적격화가 필요한 내용은 MAM 확장서버(4)를 통해 처리 가능하다.3 and 6, the
① 메타데이터 설계도구(MAM Designer)(33)는 메타데이터 설정 테이블의 기본 설정을 수행한다. 메타데이터 테이블의 이름 및 기본 키(Primary Key: PK, 이하 'PK'라 칭함) 발급을 위한 시퀀스와, PK 컬럼을 설정한다.① The metadata design tool (MAM Designer) 33 performs basic setting of the metadata setting table. Set the sequence and PK column for issuing the name and primary key of the metadata table (Primary Key: PK, hereinafter referred to as'PK').
② 메타데이터 설계도구(MAM Designer)(33)는 에셋 생성 또는 삭제 시 연동할 MAM 확장서버(4)를 설정한다. 생성의 경우 주로 적격화가 필요한 기본 값(메타 ID, 파일경로 등)을 업데이트 하고, 삭제의 경우 물리 파일 삭제를 처리한다.② The metadata design tool (MAM Designer) 33 sets the
③ 메타데이터 설계도구(MAM Designer)(33)는 메타데이터 항목을 설정한다. 예를 들어, 메타데이터의 필드 타입, 캡션, 기본값 등을 설정한다. 설정에 따라 저작도구(Authoring tool)의 메타데이터 항목을 동적으로 구성할 수 있다.③ The metadata design tool (MAM Designer) 33 sets metadata items. For example, set the field type, caption and default value of metadata. Depending on the setting, metadata items of the authoring tool can be dynamically configured.
도 7은 본 발명의 일 실시 예에 따른 MAM 서버의 메타데이터 처리 흐름을 도시한 도면이다.7 is a diagram illustrating a metadata processing flow of the MAM server according to an embodiment of the present invention.
1. 에셋 스키마 설정1. Asset Schema Setting
메타데이터 설계도구(MAM Designer)(33)를 이용하여 에셋 스키마를 설정한다(단계 1). 클라이언트(3)는 MAM 서버(2)를 통해 에셋 스키마 정보를 조회(단계 1-1)한 후, 동적으로 메타데이터 항목을 구성한다(단계 1-2).The asset schema is set using the metadata design tool (MAM Designer) 33 (step 1). The
2. 에셋 생성2. Asset Creation
클라이언트(3)는 MAM 서버(2)에 에셋 스키마 설정을 기반으로 에셋 생성을 요청한다(단계 2). MAM 서버(2)는 에셋을 생성하고 기본 값을 업데이트한다(단계 2-1). MAM 서버(2)는 에셋 생성 적격화를 위한 MAM 확장서버(4)를 호출(단계 2-2)하고, MAM 확장서버(4)가 에셋 생성 관련 적격화 로직을 수행하여 MAM 서버(2)에 추가 기본 값을 업데이트한다(단계 2-3). MAM 서버(2)는 신규 에셋 정보를 클라이언트에 반환한다(단계 2-4).The
3. 에셋 삭제3. Delete assets
클라이언트(3)가 MAM 서버(2)에 에셋 삭제를 요청(단계 3)하면, MAM 서버(2)는 PK로 사용하고 있는 테이블의 참조 에셋을 먼저 삭제 처리한다(단계 3-1). 예를 들어, 비디오 테이블인 경우, 샷, 얼굴인식, 음원인식 테이블 등을 삭제 처리한다. 그리고 삭제 요청된 에셋으로 실행 중인 워크플로우를 취소한다(단계 3-2). 이어서, MAM 서버(2)는 에셋 삭제 적격화를 위한 MAM 확장서버(4)를 호출(단계 3-3) 하고, MAM 확장서버(4)는 에셋 삭제 관련 적격화 로직을 수행(예를 들어, 파일 삭제 등)(단계 3-4)한 후 에셋 삭제 처리 결과를 MAM 서버(2)에 반환한다(단계 3-5). MAM 서버(2)는 에셋 삭제 처리 결과를 클라이언트(3)에 반환한다(단계 3-6).When the
도 8은 본 발명의 일 실시 예에 따른 얼굴 인식 기반 등장인물 정보 제공 시스템의 전체 워크플로우 처리 프로세스를 도시한 도면이다.8 is a diagram illustrating an entire workflow processing process of a face recognition-based character information providing system according to an embodiment of the present invention.
1. 콘텐츠 등록1. Content registration
콘텐츠 등록부(Ingest Manager)(6)는 콘텐츠 원본 파일을 복사(단계 1-1)하여 스토리지(11-1)에 저장하고, 콘텐츠 메타데이터를 MAM 서버(2)에 등록 및 저장한다(단계 1-2).The content register (Ingest Manager) 6 copies the content original file (step 1-1) and stores it in the storage 11-1, and registers and stores the content metadata in the MAM server 2 (step 1- 2).
2. 전처리 작업2. Pre-treatment work
MAM 서버(2)는 전처리 서버(13)에 인식 작업 및 검증에 필요한 전처리 작업을 할당한다(단계 2-1). 전처리 서버(13)는 트랜스코딩, 카탈로깅, 프레임 추출 등의 전처리를 수행한다. 트랜스코딩은 원본 영상을 이용하여 스트리밍 가능한 포맷으로 변환하는 것이고, 카탈로깅은 장면 전환 지점을 추출하는 것이며, 프레임 추출은 영상의 프레임을 이미지 파일로 저장하는 것이다. 추출된 프레임 이미지는 인식 서버(7)에 입력된다. 이어서, 전처리 서버(13)는 전처리 결과를 스토리지(11-1)에 저장(단계 2-1)하고, MAM 서버(2)에 작업 완료를 통보한다(단계 2-2).The
3. 인식 작업3. Recognition work
MAM 서버(2)는 전처리 된 결과를 이용하여 인식 작업을 인식 서버(7)에 할당한다. 인식 서버(7)는 인물 인식, 상황 인식 및 음원 인식 등을 수행한다. 인물 인식을 통해 영상 내 등장인물을 인식하고 프로필 추천 이미지를 생성하며 인물 클러스터링을 수행한다. 상황 인식을 통해 영상 내 객체, 이벤트, 장소 및 랜드마크 등을 인식한다. 음원 인식을 통해 배경 음악을 인식한다. 이어서, 인식 서버(7)는 인식 결과를 스토리지(11-1)에 저장(단계 3-1)하고, MAM 서버(2)에 작업 완료를 통보한다(단계 3-2).The
4. 데이터 검증4. Data verification
관리자 단말(8)은 저작도구(Authoring Tool)를 이용하여 인식 결과를 확인하고 검증을 거쳐 수정한다(단계 4).The administrator terminal 8 checks the recognition result using the authoring tool and corrects it after verification (step 4).
5. 결과 전송5. Sending results
검증완료 후, MAM 서버(2)는 사용자 단말(19)로 결과를 전달한다(단계 5).After verification is completed, the
도 9는 본 발명의 일 실시 예에 따른 얼굴 인식 기반 등장인물 정보 제공 시스템의 전처리 워크플로우 처리 프로세스를 도시한 도면이다.9 is a diagram illustrating a pre-processing workflow processing process of a face recognition-based character information providing system according to an embodiment of the present invention.
1. 트랜스코딩1. Transcoding
MAM 서버(2)는 트랜스코더(130)에 트랜스코딩 작업을 할당(단계 1)하고 트랜스코더(130)는 원본 영상(ts)을 웹에서 재생 가능한 검색 영상(mp4)으로 변환한다. 이때, 트랜스코더(130)의 입력 데이터는 원본 영상이고, 출력 데이터는 검색 영상(mp4, 640×360)이다. 트랜스코더(130)는 검색 영상(mp4)을 생성(단계 1-1)하여 스토리지(11-1)에 저장하고, 검색 영상 정보를 MAM 서버(2)에 등록(단계 1-2)하며, 완료를 통보한다(단계 1-3). 스트리밍 원본 수급 방식인 경우, 트랜스코딩 작업을 생략할 수 있다.The
2. 카탈로깅2. Cataloging
MAM 서버(2)는 카탈로거(131)에 카탈로깅 작업을 할당(단계 2)하고, 카탈로거(131)는 원본 영상을 분석하여 장면 전환 지점 기준으로 장면을 분할한다. 이때, 입력 데이터는 원본 영상이고, 출력 데이터는 샷 이미지(jpg, 320×180)이다. 카탈로거(131)는 샷 이미지(jpg)를 스토리지(11-1)에 저장(단계 2-1)하고, 샷 정보를 MAM 서버(2)에 등록(단계 2-2) 하며, 완료를 통보한다(단계 2-3).The
3. 프레임 추출3. Frame extraction
MAM 서버(2)는 프레임 추출기(132)에 프레임 추출 작업을 할당(단계 3)하고, 프레임 추출기(132)는 인물 인식 및 상황 인식에 사용될 프레임 이미지를 추출한다. 예를 들어, 인물 인식용은 10 프레임 단위로 이미지를 추출하고, 상황 인식용은 5 프레임 단위로 이미지를 추출한다. 입력 데이터는 원본 영상이고, 출력 데이터는 프레임 이미지(jpg, 원본 영상 사이즈)이다. 트랜스코딩, 카탈로깅 및 프레임 추출은 병렬로 동시에 진행될 수 있다. 프레임 추출기(132)는 프레임 이미지(jpg)를 스토리지(11-1)에 저장(단계 3-1)하고, 프레임 추출 정보를 MAM 서버(2)에 등록(단계 3-2) 하며, 완료를 통보한다(단계 3-3).The
MAM 서버(2)와 전처리 서버의 트랜스코더(130), 카탈로거(131), 프레임 추출기(132) 간에는 TCP 프로토콜을 이용하여 통신할 수 있다.The
도 10은 본 발명의 일 실시 예에 따른 얼굴 인식 기반 등장인물 정보 제공 시스템의 인물 인식 워크플로우 처리 프로세스를 도시한 도면이다.FIG. 10 is a diagram illustrating a process of processing a person recognition workflow in a face recognition based character information providing system according to an embodiment of the present invention.
1. 등장인물 피처 추출 작업1. Character feature extraction
MAM 서버(2)가 인물 인식기(133)에 등장인물 피처 추출 작업을 할당(단계 1)하면, 인물 인식기(133)가 등장인물의 인식용 피처 추출을 위한 인물인식 서버(14)를 호출한다(단계 1-1). 인물인식 서버(14)는 구축된 등장인물의 갤러리 이미지를 이용하여 등장인물의 인식용 피처를 추출하고, 추출된 피처 파일을 스토리지(11-1)에 저장한다(단계 1-2). 인물 인식기(133)는 인물인식 서버(14)에 피처 추출 상태를 확인(단계 1-3)하며, 확인 결과를 MAM 서버(2)에 등록하고 완료를 통보한다(단계 1-4). 인물인식 서버(14)의 입력 데이터는 등장인물의 갤러리 이미지이고, 출력 데이터는 등장인물의 피처 저장 파일이다. 모든 등장인물의 피처가 추출되어 있는 경우 등장인물의 피처 추출 작업은 생략 가능하다.When the
2. 인물인식 작업2. Person recognition work
인물 인식기(133)를 이용하여 인물인식 서버(14)와 MAM 서버(2)를 연동한다. MAM 서버(2)가 인물 인식기(133)에 인물인식 작업을 할당(단계 2)하면, 인물 인식기(133)는 인물 인식을 위한 인물인식 서버(14)를 호출한다(단계 2-1). 인물인식 서버(14)는 프레임 추출 이미지 및 등장인물 피처 파일을 이용하여 인물을 인식하여, 대표 프로필 추천 사진, 인물 클러스터링 이미지, 프레임별 피처 파일 및 인식 결과 파일을 출력한다. 인물인식 서버(14)는 프레임 피처 파일을 스토리지(11-1)에 저장(단계 2-2)하고, 인물 클러스터링 파일을 스토리지(11-1)에 저장(단계 2-3)하고, 대표 프로필 추천 파일을 스토리지(11-1)에 저장(단계 2-4)하며, 인물 인식 결과 파일을 스토리지(11-1)에 저장한다(단계 2-5). 인물 인식기(133)는 인물인식 서버(14)에서 인물인식 상태를 확인한다(단계 2-6). 인물 인식기(133)는 스토리지(11-1)에서 인식결과 파일을 확인(단계 2-7)하고, MAM 서버(2)에 결과를 등록하고 완료를 통보한다(단계 2-8).The
도 11은 본 발명의 일 실시 예에 따른 얼굴 인식 기반 등장인물 정보 제공 시스템의 음원인식 워크플로우 처리 프로세스를 도시한 도면이다.11 is a diagram illustrating a sound source recognition workflow processing process of a facial recognition-based character information providing system according to an embodiment of the present invention.
1. 음원 작업1. Sound source operation
영상 전체를 미리 설정된 단위, 예를 들어, 7초 단위로 잘라 wav 파일로 스토리지(11-1)에 저장한다. MAM 서버(2)가 음원 인식기(134)에 음원인식 작업을 할당한다(단계 1). 그러면, 음원 인식기(134)는 스토리지(11-1)로부터 wav 파일을 추출한다(단계 1-1). 음원 인식기(134)는 음원인식 서버(16)와 MAM 서버(2)를 연동하며, wav 파일을 이용하여 음원인식 서버(16)에 음원인식을 호출한다(단계 1-2). 음원인식 서버(16)는 음원을 인식하고 음원 인식기(134)가 음원인식 결과를 MAM 서버(2)에 등록한다(단계 1-3). 음원인식 호출(1-2 단계) 및 음원인식 결과 등록(단계 1-3)이 반복 수행된다. 작업 완료 후 음원 인식기(134)는 wav 파일을 삭제하고 MAM 서버(2)에 완료를 통보한다(단계 1-4).The entire image is cut in units of a preset unit, for example, 7 seconds, and stored in the storage 11-1 as a wav file. The
2. 음원인식 결과 병합2. Merging sound source recognition results
MAM 서버(2)는 미리 설정된 단위, 예를 들어, 7초 단위로 인식된 결과에서 오인식 결과를 수정하고 유효한 결과를 병합한다(단계 2). 예를 들어, 타임코드가 중복된 항목을 삭제하거나 서로 병합한다.The
도 12는 본 발명의 일 실시 예에 따른 얼굴 인식 기반 등장인물 정보 제공 시스템의 상황 인식 워크플로우 처리 프로세스를 도시한 도면이다.12 is a diagram illustrating a situation recognition workflow processing process of a face recognition based character information providing system according to an embodiment of the present invention.
1. 상황인식 작업1. Situational awareness work
MAM 서버(2)는 상황 인식기(135)에 상황인식 작업을 할당한다(단계 1). 상황인식 서버(15)와 MAM 서버(2)를 연동하는 상황 인식기(135)는 프레임 추출 이미지를 상황인식 서버(15)에 전달하면서 상황인식 서버(15)를 호출한다(단계 1-1). 상황인식 서버(15)는 프레임 추출 이미지를 입력받아 상황인식을 통해 객체, 이벤트, 장소, 랜드마크 및 동영상을 인식하고, 상황인식 결과 파일을 스토리지(11-1)에 저장한다(단계 1-2). 상황 인식기(135)는 상황인식 결과 파일을 스토리지(11-1)에서 확인(단계 1-3) 하고, MAM 서버(2)에 상황인식 결과를 등록한 후 완료를 통보한다(단계 1-4).The
도 13은 본 발명의 일 실시 예에 따른 Web UI를 통한 콘텐츠 등록 화면을 도시한 도면이고, 도 14는 본 발명의 일 실시 예에 따른 와치폴더(WatchFolder) 방식을 위한 인제스트(Ingest) 프로그램을 통한 콘텐츠 등록 화면을 도시한 도면이다.13 is a diagram illustrating a content registration screen through a Web UI according to an embodiment of the present invention, and FIG. 14 is an ingest program for a watch folder method according to an embodiment of the present invention This is a diagram showing a content registration screen.
도 13 및 도 14를 참조하면, 콘텐츠 등록을 위해 Web UI, 와치폴더, 스트리밍 인코딩 방식을 제공하며, 운영 시스템의 상황에 따라 등록 방법을 선택하도록 한다.13 and 14, a Web UI, a watch folder, and a streaming encoding method are provided for content registration, and a registration method is selected according to the situation of the operating system.
도 15는 본 발명의 일 실시 예에 따른 콘텐츠 등록 및 전처리 작업 프로세스를 도시한 도면이다.15 is a diagram showing a content registration and pre-processing process according to an embodiment of the present invention.
도 15를 참조하면, 얼굴 인식 기반 등장인물 정보 제공 시스템은 콘텐츠를 등록하고, 콘텐츠 등록 완료 후 자동으로 전처리 작업을 실행한다. 전처리 작업은 프레임 이미지 추출, 카탈로깅, 스트리밍 영상 생성 등을 포함한다. 전처리 작업들은 동시에 병렬로 진행 가능하다. 스트리밍 인코딩 방식을 통한 콘텐츠 등로 시에는 스트리밍 영상 생성 프로세스가 생략된다. 프레임 이미지 추출 작업 완료 후 인식 작업을 자동으로 실행한다.15, the facial recognition-based character information providing system registers content and automatically executes a pre-processing operation after content registration is completed. Pre-processing tasks include frame image extraction, cataloging, and streaming video generation. Preprocessing tasks can be performed in parallel at the same time. In the case of content such as streaming encoding, the streaming video generation process is omitted. After the frame image extraction operation is completed, the recognition operation is automatically executed.
도 16은 본 발명의 일 실시 예에 따른 인물인식을 위한 장치 구성을 도시한 도면이다.16 is a diagram illustrating a device configuration for person recognition according to an embodiment of the present invention.
도 16을 참조하면, 인물인식은 인물 인식기(133)를 통한 전처리 작업과 인물인식 서버(14)를 통한 인물 인식작업으로 구분된다. 인물 인식기(133)는 GUI(1330), 인물인식 서버(14)와 MAM 서버(2)를 연동하기 위해 MAM 연동기(1332)와 인식서버 연동기(1334)를 포함한다. MAM 연동기(1332)는 MAM 서버(2)와 TCP/IP를 이용하여 연결되고, 인식서버 연동기(1334)는 인물인식 서버(14)와 Restful을 이용하여 연결될 수 있다. 인물인식 서버(14)는 Restful API(140) 및 얼굴인식 라이브러리(142)를 포함한다. 전처리 작업과 인식 작업은 MAM 서버(2)를 통해 자동으로 진행된다.Referring to FIG. 16, person recognition is divided into a pre-processing task through the
도 17은 본 발명의 일 실시 예에 따른 인물인식 프로세스를 도시한 도면이다.17 is a diagram illustrating a person recognition process according to an embodiment of the present invention.
도 16 및 도 17을 참조하면, 콘텐츠 등록 완료 후, 얼굴 인식기(133)가 원본 영상으로부터 프레임 이미지를 추출(예를 들어, 10 프레임 당 1장씩 이미지를 추출)하고 저장된 인물 갤러리를 이용하여 등장인물들의 인식용 피처를 추출한다. 얼굴 인식기(133)는 추출된 프레임 이미지 및 인물 피처 값을 얼굴인식 서버(14)에 전달함에 따라 얼굴인식 작업이 시작된다. 얼굴인식 서버(14)는 등장인물을 인식하고 대표 프로필 추천 이미지, 등장인물 클러스터링 이미지, 프레임 피처 저장 파일을 생성한다. 인식 작업의 결과물은 MAM 서버(2)를 통해 스토리지와 DB에 저장된다.Referring to FIGS. 16 and 17, after content registration is completed, the
도 18은 본 발명의 일 실시 예에 따른 음원인식을 위한 장치 구성을 도시한 도면이다.18 is a diagram illustrating a device configuration for sound source recognition according to an embodiment of the present invention.
도 18을 참조하면, 음원 인식기(134)는 GUI(1340), MAM 연동기(1342) 및 음원인식 라이브러리(1344)를 포함한다. MAM 연동기(1342)는 MAM 서버(2)와 TCP/IP를 통해 음원 인식기(134)와 연동하도록 한다. 음원 인식기(134)는 음원인식 라이브러리(1344)를 이용하여 영상 내 음악을 인식한다.Referring to FIG. 18, the
도 19는 본 발명의 일 실시 예에 따른 음원인식 프로세스를 도시한 도면이다.19 is a diagram illustrating a sound source recognition process according to an embodiment of the present invention.
도 18 및 도 19를 참조하면, 음원 인식기(134)는 음원인식을 위해 원본영상에서 WAV 파일을 추출한다. 콘텐츠 내 음원 재생 구간을 알 수 없는 관계로, 콘텐츠의 모든 구간을 미리 설정된 단위(예를 들어, 7초 단위)로 WAV 파일을 생성한다. WAV 파일을 이용하여 음원인식을 실행하고 1차 결과를 DB에 저장한다. 음원인식은 음원인식 라이브러리(1344)를 이용해 이루어진다. MAM 서버(2)는 1차 저장된 결과를 토대로 유효한 인식 결과를 선별(결과 재처리)하여 최종 결과를 저장한다. 음원인식 작업은 MAM 서버(2)를 통해 자동으로 진행된다.18 and 19, the
도 20은 본 발명의 일 실시 예에 따른 상황인식을 위한 장치 구성을 도시한 도면이다.20 is a diagram illustrating a device configuration for situational awareness according to an embodiment of the present invention.
도 20을 참조하면, 상황인식 작업은 상황 인식기(135)를 통한 전처리 작업과 상황인식 서버(15)를 통한 상황 인식작업으로 구분된다. 상황 인식기(135)는 GUI(1350), 상황인식 서버(15)와 MAM 서버(2)를 연동하기 위해 MAM 연동기(1352)와 인식서버 연동기(1354)를 포함한다. MAM 연동기(1352)는 MAM 서버(2)와 TCP/IP를 이용하여 연결되고, 인식서버 연동기(1354)는 상황인식 서버(15)와 Restful을 이용하여 연결될 수 있다. 상황인식 서버(15)는 Restful API(150) 및 상황인식 라이브러리(152)를 포함한다. 전처리 작업과 인식 작업은 MAM 서버(2)를 통해 자동으로 진행된다.Referring to FIG. 20, the situation recognition task is divided into a pre-processing task through the
도 21은 본 발명의 일 실시 예에 따른 상황 인식 프로세스를 도시한 도면이다.21 is a diagram illustrating a situation recognition process according to an embodiment of the present invention.
도 20 및 도 21을 참조하면, 콘텐츠 등록 완료 후 상황 인식기(135)는 전처리 작업을 통해 영상으로부터 프레임 이미지를 추출(예를 들어, 5 프레임당 1장씩 이미지를 추출)한다. 그리고 추출된 프레임 이미지를 상황인식 서버(15)에 전달하여 인식작업이 시작된다. 하나의 작업으로 모든 인식 작업이 순차적으로 처리된다. 상황인식 서버(15)의 인식작업의 결과물(객체 인식결과, 이벤트 인식결과, 장소 인식결과, 랜드마크 인식결과, 동영상 인식결과)은 MAM 서버(2)를 통해 스토리지와 DB에 저장된다.20 and 21, after content registration is completed, the
이하, 도 22 내지 도 28을 참조로 하여 콘텐츠 및 인식작업을 관리할 수 있는 관리자의 저작도구(Authoring tool)에 대해 후술한다.Hereinafter, an authoring tool of an administrator who can manage content and recognition tasks will be described later with reference to FIGS. 22 to 28.
도 22는 본 발명의 일 실시 예에 따른 저작도구 화면을 도시한 도면이다.22 is a view showing a authoring tool screen according to an embodiment of the present invention.
도 22를 참조하면, 얼굴 인식 기반 등장인물 정보 제공 시스템은 등록된 콘텐츠와 딥 메타 인식결과를 확인 및 관리할 수 있는 웹 기반의 저작도구를 제공한다. 저작도구 화면은 콘텐츠 관리 페이지(2200), 스토리보드 페이지(2210), 검증 페이지(2220), 인물관리 페이지(2230), 작업 내역 페이지 및 관리자 페이지 등으로 구성되며, 관리자 화면을 통해 표시될 수 있다.Referring to FIG. 22, the facial recognition-based character information providing system provides a web-based authoring tool that can check and manage registered content and deep meta recognition results. The authoring tool screen includes a
일 실시 예에 따른 콘텐츠 관리 페이지는 콘텐츠 및 메타데이터 등록 화면, 콘텐츠 확인 화면, 메타데이터 확인 화면, 전처리 명령 입력 화면 및 인식 명령 입력 화면을 포함한다.The content management page according to an embodiment includes a content and metadata registration screen, a content confirmation screen, a metadata confirmation screen, a preprocessing command input screen, and a recognition command input screen.
일 실시 예에 따른 등장인물 관리 페이지는 인식 서버에서 추천된 프로필용 이미지 화면, 동일한 인물끼리 그룹핑한 클러스터링 이미지 화면 및 입력된 인물사진과 관련된 인물을 검색하여 제공하는 검색 화면을 포함한다.The character management page according to an embodiment includes a profile image screen recommended by the recognition server, a clustering image screen grouping the same people, and a search screen to search for and provide people related to the input portrait.
일 실시 예에 따른 스토리보드 페이지는 카탈로깅을 통해 생성된 샷 추출내용을 확인하고 샷 기반으로 씬을 생성 및 관리하는 스토리보드-샷 화면, 음원인식 결과를 씬 단위로 확인하고 오인식된 결과를 수정하며 타임코드가 중복된 항목을 삭제하거나 병합하기 위한 스토리보드-음원인식 화면, 객체인식 결과를 확인하고 오인식된 결과를 편집하기 위한 스토리보드-객체인식 화면을 포함한다.The storyboard page according to one embodiment checks the shot extraction contents generated through cataloging and checks the storyboard-shot screen, the sound source recognition result in a scene unit, and corrects the misrecognized result based on the shot. It includes a storyboard-sound recognition screen for deleting or merging items with duplicate time codes, and a storyboard-object screen for checking object recognition results and editing misrecognized results.
일 실시 예에 따른 검증 페이지는 재생시점에 해당하는 등장인물 표시화면, 음원 표시화면, 등장인물의 부가 정보 확인 화면, 등장인물 출연지점 안내 화면, 엔딩 지점에서 관련 콘텐츠 안내 화면을 포함한다.The verification page according to an embodiment includes a character display screen corresponding to a reproduction time point, a sound source display screen, an additional information confirmation screen of a character, a character appearance point guidance screen, and a related content guidance screen at the ending point.
도 23은 본 발명의 일 실시 예에 따른 저작도구의 콘텐츠 관리 화면을 도시한 도면이다.23 is a diagram illustrating a content management screen of an authoring tool according to an embodiment of the present invention.
도 23을 참조하면, 등록된 콘텐츠를 관리하는 페이지를 이용하여 콘텐츠를 등록 및 조회(2300)할 수 있고, 콘텐츠 별 관리상태를 확인(2310)할 수 있고, 메타데이터를 확인(2320)할 수 있으며, 전/후처리 명령(2330, 2340)을 실행할 수 있다. 전처리 명령(2330)의 예로는 트랜스코딩 요청, 카탈로깅 요청, 프레임 추출 요청, 인물 피처 추출 요청 명령 등이 있다. 후처리 명령(2340)의 예로는 얼굴 인식 요청, 음원인식 요청, 객체 인식 요청 등이 있다.Referring to FIG. 23, content can be registered and viewed 2300 using a page for managing registered content, management status for each content may be checked 2310, and metadata may be checked 2320. In addition, pre/post processing commands 2330 and 2340 may be executed. Examples of the
도 24는 본 발명의 일 실시 예에 따른 저작도구의 등장인물 관리 화면을 도시한 도면이다.24 is a diagram illustrating a character management screen of an authoring tool according to an embodiment of the present invention.
도 24를 참조하면, 얼굴인식이 완료된 콘텐츠는 저작도구의 등장인물 메뉴를 통해 프로필 사진을 변경하고, 갤러리에 사진을 추가할 수 있다. 등장인물 관리에서는 3가지 방식으로 프로필 사진 변경 및 갤러리 추가가 가능하다. 1단계로, 얼굴인식 서버에서 추천된 프로필용 이미지 목록(2410)을 제공한다. 2단계로, 동일한 인물끼리 그룹핑한 클러스터링 이미지(clustering image) 목록(2420)을 제공한다. 3단계로, 입력된 인물 사진과 유사한 인물 목록(2430)을 검색하여 제공한다. 각 단계 모두 프로필 사진 변경 및 갤러리 추가가 가능하다.Referring to FIG. 24, the content whose face recognition has been completed may change the profile picture through the character menu of the authoring tool and add a picture to the gallery. In character management, you can change your profile picture and add a gallery in 3 ways. As a first step, a list of
도 25는 본 발명의 일 실시 예에 따른 저작도구의 스토리보드(샷) 관리 화면을 도시한 도면이다.25 is a view showing a storyboard (shot) management screen of the authoring tool according to an embodiment of the present invention.
도 25를 참조하면, 전처리 작업과 인식 작업이 완료된 콘텐츠는 스토리보드를 통하여 샷 추출 내용과 인식 결과를 확인할 수 있다. 샷 페이지는 카타로깅을 통해 생성된 샷 추출 내용을 확인(2500, 2510)하고 샷 기반으로 씬 추가, 삭제, 이동, 샷 편집(2520)할 수 있는 기능을 제공한다. 샷 편집 기능 시에, 프레임 단위로 샷 시작 지점 변경(2530)이 가능하다.Referring to FIG. 25, the content of which the pre-processing and recognition tasks have been completed can be checked through the storyboard and the results of the shot extraction and recognition. The shot page provides a function to check (2500, 2510) shot extracts generated through catalogging and add, delete, move, and edit shots (2520) based on the shot. In the shot editing function, it is possible to change the shot start point in units of frames (2530).
도 26은 본 발명의 일 실시 예에 따른 저작도구의 스토리보드(음원인식) 관리 화면을 도시한 도면이다.26 is a view showing a storyboard (sound recognition) management screen of the authoring tool according to an embodiment of the present invention.
도 26을 참조하면, 스토리보드의 음원인식 페이지는 음원인식 결과를 씬 단위로 확인(2600, 2610)하고 오인식된 결과를 간편하게 수정할 수 있는 기능을 제공한다. 예를 들어, 타임코드가 중복된 항목을 대상으로 음원 경고를 표시(2620)하고, 중복된 음원을 삭제하거나 서로 병합(2630)할 수 있으며 편집 내용을 초기화할 수 있는 기능을 제공한다.Referring to FIG. 26, the sound source recognition page of the storyboard provides a function for checking (2600, 2610) sound source recognition results in a scene unit and easily correcting the misrecognized results. For example, a sound source warning is displayed for items with duplicated timecode (2620), and duplicate sound sources can be deleted or merged with each other (2630), and a function for initializing edits is provided.
도 27은 본 발명의 일 실시 예에 따른 저작도구의 스토리보드(객체인식) 관리 화면을 도시한 도면이다.27 is a view showing a storyboard (object chain type) management screen of the authoring tool according to an embodiment of the present invention.
도 27을 참조하면, 스토리보드의 객체인식 페이지는 객체인식 결과를 요약하여 제공(2700)하고, 오인식된 결과를 간편하게 편집(2710)할 수 있는 기능을 제공한다. 인식된 객체 클래스별 인식 결과 요약 내용과 프레임 이미지를 확인할 수 있다.Referring to FIG. 27, the object recognition page of the storyboard provides a summary of object recognition results (2700), and provides a function to easily edit (2710) misrecognized results. You can check the summary and frame image of the recognition results for each recognized object class.
도 28은 본 발명의 일 실시 예에 따른 저작도구의 검증 화면을 도시한 도면이다.28 is a view showing a verification screen of the authoring tool according to an embodiment of the present invention.
도 28을 참조하면, 검증 페이지는 딥 메타 결과를 검증할 수 있는 페이지이다. 검증 페이지는 재생시점에 해당하는 등장인물 표시화면, 음원 표시화면, 등장인물의 부가 정보 확인 화면, 등장인물 출연지점 안내 화면, 엔딩 지점에서 관련 콘텐츠 안내 화면을 제공한다. 예를 들어, 재생시점에 해당하는 등장인물을 표시(2800)하고 음원을 표시(2810)하며 등장인물의 상제정보를 표시(2820)하여 확인할 수 있는 기능을 제공한다. 그리고 등장 인물 출연 지점을 안내(2830)하고 엔딩 지점에서 관련 콘텐츠를 안내(2840)하는 등 영상 재생시 딥 메타데이터를 실시간으로 표시함으로써 효과적인 데이터 검증 기능을 제공한다.Referring to FIG. 28, the verification page is a page capable of verifying deep meta results. The verification page provides a character display screen, a sound source display screen, an additional information confirmation screen of the character, a character appearance point guidance screen, and a related content guidance screen at the ending point corresponding to the playing time. For example, it provides a function to display the character corresponding to the playback time (2800), display the sound source (2810), and display (2820) the information about the character's reciprocal character. And it provides effective data verification function by displaying deep metadata in real time during video playback, such as guiding the appearance point of the character (2830) and guiding the related content at the ending point (2840).
이제까지 본 발명에 대하여 그 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.So far, the present invention has been focused on the embodiments. Those skilled in the art to which the present invention pertains will understand that the present invention can be implemented in a modified form without departing from the essential characteristics of the present invention. Therefore, the disclosed embodiments should be considered in terms of explanation, not limitation. The scope of the present invention is shown in the claims rather than the foregoing description, and all differences within the equivalent range should be interpreted as being included in the present invention.
Claims (11)
MAM 서버가 전처리 서버에 인식 작업 및 검증에 필요한 전처리 작업을 할당하는 단계;
전처리 서버가 트랜스코딩, 카탈로깅 및 프레임 추출을 포함한 전처리를 수행하는 단계;
MAM 서버가 전처리 된 결과를 이용하여 인식 작업을 인식 서버에 할당하면, 인식 서버가 영상 내 인물, 상황 및 음원을 인식하는 단계;
관리자 단말이 저작도구(Authoring Tool)를 이용하여 인식 결과를 확인하고 검증을 거쳐 수정하는 단계; 및
검증완료 후, MAM 서버가 사용자 단말로 결과를 전달하는 단계;
를 포함하며,
검증을 거쳐 수정하는 단계는
등록된 콘텐츠와 딥메타 인식결과를 확인 및 관리할 수 있는 웹 기반의 저작도구를 제공하며,
저작도구는 콘텐츠 관리 페이지, 스토리보드 페이지, 검증 페이지, 등장인물 관리 페이지 및 관리자 페이지를 제공하는 것을 특징으로 하는 얼굴 인식 기반 등장인물 정보 제공 시스템의 워크플로우 처리방법.The content registration unit copies the content original file and stores it in storage, and registers and stores the content metadata in a media asset management (MAM, hereinafter referred to as'MAM') server;
Assigning a preprocessing task necessary for the recognition task and verification to the preprocessing server by the MAM server;
A pre-processing server performing pre-processing including transcoding, cataloging, and frame extraction;
When the MAM server assigns the recognition task to the recognition server using the pre-processed result, the recognition server recognizes a person, a situation, and a sound source in the image;
A step in which the administrator terminal checks the recognition result using an authoring tool and verifies and corrects the result; And
After verification is completed, the MAM server delivers the results to the user terminal;
It includes,
Steps to verify and correct
Provides a web-based authoring tool to check and manage registered content and deep meta recognition results,
The authoring tool provides a content management page, a storyboard page, a verification page, a character management page, and a manager page, and the workflow processing method of the face recognition based character information providing system.
MAM 서버가 트랜스코더에 트랜스코딩 작업을 할당하고, 트랜스코더가 원본 영상을 웹에서 재생 가능한 검색 영상으로 변환하는 단계;
MAM 서버가 카탈로거에 카탈로깅 작업을 할당하고, 카탈로거가 원본 영상을 분석하여 장면 전환 지점 기준으로 장면을 분할하여 샷 이미지를 출력하는 단계; 및
MAM 서버가 프레임 추출기에 프레임 추출 작업을 할당하고, 프레임 추출기가 프레임 이미지를 추출하는 단계; 를 포함하며,
전처리 작업을 구성하는 각 단계는 동시에 병렬로 진행되며,
MAM 서버와 전처리 서버의 트랜스코더, 카탈로거 및 프레임 추출기 간에는 TCP 프로토콜을 이용하여 통신하는 것을 특징으로 하는 얼굴 인식 기반 등장인물 정보 제공 시스템의 워크플로우 처리방법.The method of claim 1, wherein performing the pre-treatment
A MAM server assigning a transcoding operation to the transcoder, and the transcoder converting the original image into a searchable image playable on the web;
The MAM server allocates a cataloging operation to the cataloger, and the cataloger analyzes the original image and divides the scene based on a scene change point to output a shot image; And
MAM server assigns a frame extracting task to the frame extractor, and the frame extractor extracts the frame image; It includes,
Each step of the pre-processing work is performed in parallel at the same time,
A workflow processing method of a face recognition-based character information providing system, characterized in that the communication between the MAM server and the pre-processing server's transcoder, cataloger, and frame extractor is performed using a TCP protocol.
MAM 서버가 인물 인식기에 등장인물 피처 추출 작업을 할당하는 단계;
인물 인식기가 등장인물의 인식용 피처 추출을 위한 인물인식 서버를 호출하는 단계;
호출된 인물인식 서버가 기저장된 등장인물의 갤러리 이미지를 이용하여 등장인물의 인식용 피처를 추출하는 단계;
인물 인식기가 인물인식 서버에 피처 추출 상태를 확인하고 확인 결과를 MAM 서버에 등록하는 단계;
MAM 서버가 인물 인식기에 인물인식 작업을 할당하는 단계;
인물 인식기가 인물 인식을 위한 인물인식 서버를 호출하는 단계;
호출된 인물인식 서버가 프레임 추출 이미지 및 등장인물 피처 파일을 이용하여 인물을 인식하여, 대표 프로필 추천 사진, 인물 클러스터링 이미지, 프레임별 피처 파일 및 인식 결과 파일을 제공하는 단계; 및
MAM 서버가 인식 결과를 저장하는 단계;
를 포함하는 것을 특징으로 하는 얼굴 인식 기반 등장인물 정보 제공 시스템의 워크플로우 처리방법.The method of claim 1, wherein the step of recognizing the person, situation and sound source in the image is
Assigning, by the MAM server, a character feature extraction task to the person recognizer;
A person recognizer calling a person recognition server for feature extraction for recognition of characters;
Extracting a feature for recognition of the character by using the gallery image of the character stored by the called character recognition server;
A step in which the person recognizer checks the feature extraction status in the person recognition server and registers the verification result in the MAM server;
Assigning a person recognition task to the person recognizer by the MAM server;
A person recognizer calling a person recognition server for person recognition;
The called person recognition server recognizes the person using the frame extraction image and the character feature file, and provides a representative profile recommendation picture, a person clustering image, a feature file for each frame, and a recognition result file; And
Storing the recognition result by the MAM server;
A workflow processing method of a face recognition-based character information providing system comprising a.
MAM 서버가 음원 인식기에 음원인식 작업을 할당하는 단계;
음원 인식기가 스토리지로부터 wav 파일을 추출하고 추출된 wav 파일을 이용하여 음원인식 서버에 음원인식을 호출하는 단계;
음원인식 서버가 음원인식 라이브러리를 이용하여 음원을 인식하고 음원인식 결과를 MAM 서버에 등록하는 단계;
MAM 서버가 미리 설정된 단위로 인식된 결과에서 오인식 결과를 수정하고 유효한 결과를 병합 처리하는 단계; 및
MAM 서버가 최종 결과를 저장하는 단계;
를 포함하는 것을 특징으로 하는 얼굴 인식 기반 등장인물 정보 제공 시스템의 워크플로우 처리방법.The method of claim 1, wherein the step of recognizing the person, situation and sound source in the image is
Assigning a sound source recognition task to the sound source recognizer by the MAM server;
A sound source recognizer extracting a wav file from the storage and calling the sound source recognition server to the sound source recognition server using the extracted wav file;
A sound source recognition server recognizing a sound source using the sound source recognition library and registering the sound source recognition result to the MAM server;
Correcting a misrecognized result from the result recognized by the MAM server in a preset unit and merging the valid results; And
MAM server storing the final result;
A workflow processing method of a face recognition-based character information providing system comprising a.
스토리보드의 음원인식 페이지를 통해 음원인식 결과를 씬 단위로 제공하는 단계; 및
타임코드가 중복된 항목을 대상으로 음원 경고를 표시하고, 중복된 음원을 삭제하거나 서로 병합하는 편집 화면을 제공하는 단계;
를 포함하는 것을 특징으로 하는 얼굴 인식 기반 등장인물 정보 제공 시스템의 워크플로우 처리방법.The method of claim 4, wherein the step of merging the valid results is
Providing sound source recognition results in a scene unit through a sound source recognition page of the storyboard; And
Providing an editing screen for displaying a sound source warning for the items with duplicate time codes and deleting the duplicated sound sources or merging each other;
A workflow processing method of a face recognition-based character information providing system comprising a.
MAM 서버가 상황 인식기에 상황인식 작업을 할당하는 단계;
상황 인식기가 프레임 추출 이미지를 상황인식 서버에 전달하면서 상황인식 서버를 호출하는 단계; 및
상황인식 서버가 프레임 추출 이미지를 입력받아 상황인식을 통해 객체, 이벤트, 장소, 랜드마크 및 동영상을 인식하고 인식 결과를 제공하는 단계;
를 포함하는 것을 특징으로 하는 얼굴 인식 기반 등장인물 정보 제공 시스템의 워크플로우 처리방법.The method of claim 1, wherein the step of recognizing the person, situation and sound source in the image is
Assigning a context-aware task to the context-aware MAM server;
The situation recognizer transmitting the frame extraction image to the situation awareness server and calling the situation awareness server; And
Receiving a frame extraction image by the context recognition server, recognizing objects, events, places, landmarks and videos through context recognition, and providing recognition results;
A workflow processing method of a face recognition-based character information providing system comprising a.
콘텐츠 관리 페이지는 콘텐츠 및 메타데이터 등록 화면, 콘텐츠 확인 화면, 메타데이터 확인 화면, 전처리 명령 입력 화면 및 인식 명령 입력 화면을 포함하는 것을 특징으로 하는 얼굴 인식 기반 등장인물 정보 제공 시스템의 워크플로우 처리방법.According to claim 1,
The content management page includes a content and metadata registration screen, a content confirmation screen, a metadata confirmation screen, a pre-processing command input screen, and a recognition command input screen.
등장인물 관리 페이지는 인식 서버에서 추천된 프로필용 이미지 화면, 동일한 인물끼리 그룹핑한 클러스터링 이미지 화면 및 입력된 인물사진과 관련된 인물을 검색하여 제공하는 검색 화면을 포함하는 것을 특징으로 하는 얼굴 인식 기반 등장인물 정보 제공 시스템의 워크플로우 처리방법.According to claim 1,
The character management page includes a face image-based character recognition characterized by including an image screen for a profile recommended by the recognition server, a clustering image screen grouping the same people, and a search screen to search for and provide people related to the input portrait photo. Information processing system workflow processing method.
스토리보드 페이지는 카탈로깅을 통해 생성된 샷 추출내용을 확인하고 샷 기반으로 씬을 생성 및 관리하는 스토리보드-샷 화면, 음원인식 결과를 씬 단위로 확인하고 오인식된 결과를 수정하며 타임코드가 중복된 항목을 삭제하거나 병합하기 위한 스토리보드-음원인식 화면, 객체인식 결과를 확인하고 오인식된 결과를 편집하기 위한 스토리보드-객체인식 화면을 포함하는 것을 특징으로 하는 얼굴 인식 기반 등장인물 정보 제공 시스템의 워크플로우 처리방법.According to claim 1,
The storyboard page is a storyboard-shot screen that checks shot extractions generated through cataloging, creates and manages scenes based on shots, checks the sound source recognition results in units of scenes, corrects misrecognized results, and duplicates the timecode It includes a storyboard-sound recognition screen for deleting or merging deleted items, and a storyboard-object screen for viewing object recognition results and editing misrecognized results. Workflow processing method.
검증 페이지는 재생시점에 해당하는 등장인물 표시화면, 음원 표시화면, 등장인물의 부가 정보 확인 화면, 등장인물 출연지점 안내 화면, 엔딩 지점에서 관련 콘텐츠 안내 화면을 포함하는 것을 특징으로 하는 얼굴 인식 기반 등장인물 정보 제공 시스템의 워크플로우 처리방법.According to claim 1,
The verification page is based on face recognition, characterized in that it includes a character display screen, a sound source display screen, an additional information confirmation screen of the character, a character appearance point guidance screen, and a related content guidance screen at the ending point corresponding to the playing time. Workflow processing method of person information providing system.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180157351A KR102118093B1 (en) | 2018-12-07 | 2018-12-07 | Method for processing workflow of character information providing system based on face recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180157351A KR102118093B1 (en) | 2018-12-07 | 2018-12-07 | Method for processing workflow of character information providing system based on face recognition |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102118093B1 true KR102118093B1 (en) | 2020-06-02 |
Family
ID=71090880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180157351A KR102118093B1 (en) | 2018-12-07 | 2018-12-07 | Method for processing workflow of character information providing system based on face recognition |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102118093B1 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040074623A (en) * | 2003-02-19 | 2004-08-25 | 비브콤 인코포레이티드 | Method and apparatus for fast metadata generation, delivery and access for live broadcast program |
KR20160053549A (en) * | 2014-11-05 | 2016-05-13 | 삼성전자주식회사 | Terminal device and information providing method thereof |
KR20160067685A (en) * | 2014-12-04 | 2016-06-14 | 주식회사 케이티 | Method, server and system for providing video scene collection |
-
2018
- 2018-12-07 KR KR1020180157351A patent/KR102118093B1/en active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040074623A (en) * | 2003-02-19 | 2004-08-25 | 비브콤 인코포레이티드 | Method and apparatus for fast metadata generation, delivery and access for live broadcast program |
KR20160053549A (en) * | 2014-11-05 | 2016-05-13 | 삼성전자주식회사 | Terminal device and information providing method thereof |
KR20160067685A (en) * | 2014-12-04 | 2016-06-14 | 주식회사 케이티 | Method, server and system for providing video scene collection |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10587920B2 (en) | Cognitive digital video filtering based on user preferences | |
US11356746B2 (en) | Dynamic overlay video advertisement insertion | |
US10721507B2 (en) | Systems and methods of content transaction consensus | |
US9979770B2 (en) | Method of requesting a social media link authorization based on a social media content item | |
JP2019036980A (en) | Storyboard-directed video production from shared and individualized assets | |
JP3449671B2 (en) | System and method for enabling creation of personal movie presentations and personal movie collections | |
CN101300567B (en) | Method for media sharing and authoring on the web | |
US11570525B2 (en) | Adaptive marketing in cloud-based content production | |
US20200192866A1 (en) | Connecting storyboard system to editorial system | |
US20100100439A1 (en) | Multi-platform system apparatus for interoperable, multimedia-accessible and convertible structured and unstructured wikis, wiki user networks, and other user-generated content repositories | |
US10264329B2 (en) | Descriptive metadata extraction and linkage with editorial content | |
US20120177345A1 (en) | Automated Video Creation Techniques | |
US20140304597A1 (en) | Content-object synchronization and authoring of dynamic metadata | |
JPH0937223A (en) | System and method for displaying movie in linkage with source information on which the movie is based | |
US10694263B2 (en) | Descriptive metadata extraction and linkage with editorial content | |
US20200186869A1 (en) | Method and apparatus for referencing, filtering, and combining content | |
US10038730B2 (en) | Contextualizing interactions in web meeting sessions | |
JP2019512144A (en) | Real-time content editing using limited dialogue function | |
WO2023092067A1 (en) | System and method for access control, group ownership, and redaction of recordings of events | |
US20230418874A1 (en) | Styling a query response based on a subject identified in the query | |
KR102118093B1 (en) | Method for processing workflow of character information providing system based on face recognition | |
KR102296483B1 (en) | Terminal and method for providing conference record | |
KR102072617B1 (en) | Method for processing workflow and metadata of character information providing system based on face recognition and system thereof | |
KR101328270B1 (en) | Annotation method and augmenting video process in video stream for smart tv contents and system thereof | |
US20130055325A1 (en) | Online advertising relating to feature film and television delivery over the internet |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |