KR102319583B1 - System for providing interactive content based on image or voice analysis - Google Patents

System for providing interactive content based on image or voice analysis Download PDF

Info

Publication number
KR102319583B1
KR102319583B1 KR1020190114179A KR20190114179A KR102319583B1 KR 102319583 B1 KR102319583 B1 KR 102319583B1 KR 1020190114179 A KR1020190114179 A KR 1020190114179A KR 20190114179 A KR20190114179 A KR 20190114179A KR 102319583 B1 KR102319583 B1 KR 102319583B1
Authority
KR
South Korea
Prior art keywords
scene
module
situation
text
interactive content
Prior art date
Application number
KR1020190114179A
Other languages
Korean (ko)
Other versions
KR20210032761A (en
Inventor
김익재
조정현
최희승
남기표
김학섭
Original Assignee
한국과학기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술연구원 filed Critical 한국과학기술연구원
Priority to KR1020190114179A priority Critical patent/KR102319583B1/en
Publication of KR20210032761A publication Critical patent/KR20210032761A/en
Application granted granted Critical
Publication of KR102319583B1 publication Critical patent/KR102319583B1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8545Content authoring for generating interactive applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47202End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting content on demand, e.g. video on demand

Abstract

실시예들은 영상 또는 소리를 갖는 장면을 촬영하도록 구성된 영상장비, 및 촬영된 장면을 분석하여 해당 장면에 대한 상호 대화형 컨텐츠를 생성하도록 구성된 서버로서, 상기 서버는: 상기 영상장비로부터 획득된 촬영정보에서 상기 장면을 소리 또는 영상 측면에서 분석하여 장면정보를 산출하도록 구성된 상황 분석 모듈; 상기 촬영정보 및 장면정보 중 적어도 하나에 기초하여 해당 장면을 표현한 장면 텍스트로 변환하도록 구성된 상황 표현 모듈; 상기 장면 텍스트에 응답하여 상호 대화형 컨텐츠를 생성하도록 구성된 인터랙티브 모듈; 및 상기 상황 분석 모듈 또는 인터랙티브 모듈의 동작을 제어하는 액티베이션 모듈을 포함한, 서버를 포함한 상호 대화형 컨텐츠를 제공하는 시스템에 관련된다.Embodiments are an imaging device configured to shoot a scene having an image or sound, and a server configured to analyze the shot scene to generate interactive content for the scene, wherein the server includes: shooting information obtained from the imaging device a situation analysis module configured to analyze the scene in terms of sound or image to calculate scene information; a situation expression module configured to convert a scene text into a scene text expressing a corresponding scene based on at least one of the shooting information and the scene information; an interactive module configured to generate interactive content in response to the scene text; And it relates to a system for providing interactive content including a server, including an activation module for controlling the operation of the situation analysis module or the interactive module.

Description

영상 또는 음성 분석에 기반한 상호 대화형 컨텐츠 제공 시스템{SYSTEM FOR PROVIDING INTERACTIVE CONTENT BASED ON IMAGE OR VOICE ANALYSIS}System for providing interactive content based on video or audio analysis {SYSTEM FOR PROVIDING INTERACTIVE CONTENT BASED ON IMAGE OR VOICE ANALYSIS}

본 발명의 실시예들은 비인간형 대화를 통한 상호 대화형 컨텐츠를 제공하는 기술에 관한 것으로서, 보다 상세하게는 영상장비를 통해 장면을 촬영하여 획득한 영상 및/또는 음성을 분석하고, 상기 장면에 나타난 상황에 적합한 컨텐츠를 음성, 영상, 프로젝션 및 이들의 조합 등으로 제공하는 시스템 및 방법에 관한 것이다.Embodiments of the present invention relate to a technology for providing interactive content through non-human dialogue, and more particularly, by analyzing images and/or voices obtained by shooting a scene through an imaging device, and It relates to a system and method for providing content suitable for a situation in the form of audio, video, projection, and a combination thereof.

현대사회에서 보안, 범죄 수사 등의 치안 분야에서의 관심, 또는 소송 자료 등의 법률 분야에서의 관심으로 인해, CCTV에 대한 수요가 증가하고 있는 추세이다. 이로 인해, 효율적인 CCTV 모니터링 관제 시스템 구축에 대한 필요성이 요구되고 있다. In modern society, the demand for CCTV is increasing due to interest in the field of policing, such as security and criminal investigation, or interest in the field of law, such as litigation materials. For this reason, there is a need for establishing an efficient CCTV monitoring control system.

종래의 CCTV 모니터링 관제 시스템은 CCTV가 촬영한 영상 및 이를 분석한 정보를 관제사에게 제공하도록 구성되었다. 또한, 관제사 중심의 일방적인 경보와 같은, 촬영 대상에 대한 단방향 의사소통만을 제공하는 한계가 있다. The conventional CCTV monitoring control system is configured to provide the video captured by the CCTV and the information analyzed thereto to the controller. In addition, there is a limitation in providing only one-way communication for a subject to be filmed, such as a one-way alert centered on a controller.

등록특허공보 제10-1998963호Registered Patent Publication No. 10-1998963

본 발명의 다수의 측면들에 따르면 촬영장면에서의 음성 또는 영상을 분석하여 해당 상황을 판단한 뒤, 장면의 대상에 대해 적합한 상호 대화형 컨텐츠를 제공하는 시스템 및 방법을 제공할 수 있다.According to a number of aspects of the present invention, it is possible to provide a system and method for analyzing a voice or video in a shooting scene to determine a corresponding situation, and then providing interactive content suitable for the subject of the scene.

본 발명의 일 측면에 따른 상호 대화형 컨텐츠를 제공하는 시스템은: 영상 또는 소리를 갖는 장면을 촬영하도록 구성된 영상장비, 및 촬영된 장면을 분석하여 해당 장면에 대한 상호 대화형 컨텐츠를 생성하도록 구성된 서버를 포함할 수 있다. 상기 서버는: 상기 영상장비로부터 획득된 촬영정보에서 상기 장면을 소리 또는 영상 측면에서 분석하여 장면정보를 산출하도록 구성된 상황 분석 모듈; 상기 촬영정보 및 장면정보 중 적어도 하나에 기초하여 해당 장면을 표현한 장면 텍스트로 변환하도록 구성된 상황 표현 모듈; 상기 장면 텍스트에 응답하여 상호 대화형 컨텐츠를 생성하도록 구성된 인터랙티브 모듈; 및 상기 상황 분석 모듈 또는 인터랙티브 모듈의 동작을 제어하는 액티베이션 모듈 중 적어도 하나를 포함한다. A system for providing interactive content according to an aspect of the present invention includes: an imaging device configured to shoot a scene having an image or sound, and a server configured to analyze the captured scene to generate interactive content for the scene may include. The server may include: a situation analysis module configured to calculate scene information by analyzing the scene in terms of sound or image from the shooting information obtained from the imaging device; a situation expression module configured to convert a scene text into a scene text expressing a corresponding scene based on at least one of the shooting information and the scene information; an interactive module configured to generate interactive content in response to the scene text; And it includes at least one of the activation module for controlling the operation of the situation analysis module or the interactive module.

일 실시예에서, 상기 상황 분석 모듈은 영상 분석 모델을 통해 장면의 영상을 분석하며, 상기 영상 분석 모델은, 상기 영상 내 객체 검출 또는 식별, 객체의 행동 검출, 장면의 상황 중 적어도 하나를 산출하도록 기계학습된다. In an embodiment, the situation analysis module analyzes an image of a scene through an image analysis model, and the image analysis model calculates at least one of detecting or identifying an object in the image, detecting an object's behavior, and a scene situation. machine learned

일 실시예에서, 상기 상황 분석 모듈은 소리 분석 모델을 통해 장면의 소리를 분석하며, 상기 소리 분석 모델은, 소리신호의 유형, 서브 유형, 및 상기 소리신호가 발생한 장면의 상황 중 적어도 하나를 산출하도록 기계학습된다. In an embodiment, the situation analysis module analyzes a sound of a scene through a sound analysis model, and the sound analysis model calculates at least one of a type of a sound signal, a sub-type, and a situation of a scene in which the sound signal is generated. machine learned to do

일 실시예에서, 상기 상황 분석 모듈은, 영상 또는 소리 분석 결과 촬영장면의 상황이 정상상황으로 일치하지 않는 경우, 정상상황과 상이한 상황을 촬영장면의 상황으로 산출하도록 더 구성될 수 있다. In an embodiment, the situation analysis module may be further configured to calculate a situation different from the normal situation as a situation of the shooting scene when the situation of the shooting scene does not match the normal situation as a result of the image or sound analysis.

일 실시예에서, 상기 상황 분석 모듈은, 상기 장면의 소리가 다이얼로그으로 산출된 경우에 상기 장면의 영상에 대한 분석을 수행하도록 구성될 수 있다. In an embodiment, the situation analysis module may be configured to analyze the image of the scene when the sound of the scene is calculated as a dialog.

일 실시예에서, 상기 상황 표현 모듈은, 상기 장면정보 내 영상 관련 정보에 기초하여 영상을 표현하기 위해 맥락(context)을 갖는 장면 텍스트를 생성하도록 더 구성될 수 있다. In an embodiment, the situation expression module may be further configured to generate a scene text having a context to represent an image based on the image-related information in the scene information.

일 실시예에서, 상기 장면 텍스트는 상기 영상의 객체 관련 정보를 입력으로 수신하여 상기 영상을 표현하기 위한 텍스트로 변환하는 캡셔닝 모델을 통해 생성될 수 있다. In an embodiment, the scene text may be generated through a captioning model that receives object-related information of the image as an input and converts it into text for expressing the image.

일 실시예에서, 상기 인터랙티브 모듈은, 챗봇 프로그램을 통해 상기 장면 텍스트에 연관된 상호 대화형 컨텐츠를 생성하고, 그리고 상기 상호 대화형 컨텐츠를 소리로 변환하도록 더 구성될 수 있다. In an embodiment, the interactive module may be further configured to generate interactive content associated with the scene text through a chatbot program, and convert the interactive content into sound.

일 실시예에서, 상기 인터랙티브 모듈은, 상호 대화형 컨텐츠를 생성하기 이전에, 상기 장면의 소리를 장면 텍스트로 변환하도록 더 구성될 수 있다. In an embodiment, the interactive module may be further configured to convert the sound of the scene into scene text before generating the interactive content.

일 실시예에서, 상기 인터랙티브 모듈은, 상기 챗봇 프로그램의 미리 저장된 대화 규칙에 기초하여 상기 장면 텍스트에 연관되어 있는 대화를 상호 대화형 컨텐츠로 생성할 수 있다. In an embodiment, the interactive module may generate the dialogue related to the scene text as interactive content based on a pre-stored dialogue rule of the chatbot program.

일 실시예에서, 상기 인터랙티브 모듈은, 훈련 샘플을 기반으로 입력 텍스트에 적합한 출력 텍스트를 산출하는 기계학습 모델을 갖는 챗봇 프로그램을 통해 상기 장면에 대한 상호 대화형 컨텐츠로 생성할 수 있다. In an embodiment, the interactive module may generate interactive content for the scene through a chatbot program having a machine learning model that generates output text suitable for input text based on a training sample.

일 실시예에서, 상기 상황 분석 모듈은, 상기 장면의 소리를 텍스트로 변환한 이후에, 상기 장면에 대한 분석을 수행하도록 더 구성될 수 있다. In an embodiment, the situation analysis module may be further configured to perform analysis on the scene after converting the sound of the scene into text.

일 실시예에서, 상기 액티베이션 모듈은, 상기 영상장비의 촬영 정보가 지정된 시간 또는 지정된 장소에서 획득된 경우에 상기 장면에 대한 분석을 수행하게 할 수 있다. In an embodiment, the activation module may perform analysis of the scene when the shooting information of the imaging equipment is acquired at a specified time or a specified place.

일 실시예에서, 상기 액티베이션 모듈은, 상기 상호 대화형 컨텐츠의 생성의 필요성에 기초하여 인터랙티브 모듈의 동작 개시를 제어할 수 있다. In an embodiment, the activation module may control the initiation of an operation of the interactive module based on the necessity of generating the interactive content.

일 실시예에서, 상기 필요성은, 대상의 행동, 대상의 음성의 유형, 촬영상황의 유형 및 이들의 조합 중 적어도 하나에 기초할 수 있다. In an embodiment, the need may be based on at least one of the subject's behavior, the subject's voice type, the shooting situation type, and a combination thereof.

일 실시예에서, 상기 상호 대화형 컨텐츠는 음성, 영상, 프로젝션 및 이들의 조합으로 상기 영상장비를 통해 제공될 수 있다.In an embodiment, the interactive content may be provided through the video device in the form of voice, video, projection, or a combination thereof.

본 발명의 일 측면에 따른 시스템은 대상으로부터 획득된 음성/영상 등을 통해 대상의 음성/행동에 기초하여 대상이 원하는 정보를 예측하여 대화로 제공하는 지능형 그리고 상호 대화형 컨텐츠를 제공한다. A system according to an aspect of the present invention provides intelligent and interactive content that predicts information desired by a target based on the target's voice/action through voice/video acquired from the target and provides it through conversation.

특히, 상기 시스템은 대상자의 기본 행동 패턴에 기반한 이상 행동을 검출하는 것에 제한되지 않고, 촬영장면에서의 영상 및 음성에 기초해 촬영장면을 분석하여 장면이 갖는 상황에 적합한 상호 대화형 컨텐츠를 생성한다. In particular, the system is not limited to detecting abnormal behavior based on the basic behavior pattern of the subject, and generates interactive content suitable for the situation of the scene by analyzing the shooting scene based on the video and audio in the shooting scene. .

본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 청구범위의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.Effects of the present invention are not limited to the effects mentioned above, and other effects not mentioned will be clearly understood by those skilled in the art from the description of the claims.

본 발명 또는 종래 기술의 실시예의 기술적 해결책을 보다 명확하게 설명하기 위해, 실시예에 대한 설명에서 필요한 도면이 아래에서 간단히 소개된다. 아래의 도면들은 본 명세서의 실시예를 설명하기 위한 목적일 뿐 한정의 목적이 아니라는 것으로 이해되어야 한다. 또한, 설명의 명료성을 위해 아래의 도면들에서 과장, 생략 등 다양한 변형이 적용된 일부 요소들이 도시될 수 있다.
도 1은, 본 발명의 일 실시예에 따른, 상호 대화형 CCTV 시스템의 개념도이다.
도 2a 내지 도 2c는, 본 발명의 일 실시예에 따른, 상황 표현 모듈의 동작 결과를 도시한 도면이다.
도 3은, 본 발명의 일 실시예에 따른, 인터렉션 모듈의 개념도이다.
도 4는, 본 발명의 일 실시예에 따른, 음성신호가 비-다이얼로그인 경우 상호 대화형 컨텐츠를 생성하는 과정을 설명하기 위한 도면이다.
도 5는, 본 발명의 일 실시예에 따른, 음성신호가 다이얼로그인 경우 상호 대화형 컨텐츠를 생성하는 과정을 설명하기 위한 도면이다.
도 6 및 도 7은, 본 발명의 다양한 실시예에 따른, 도 1의 상호 대화형 컨텐츠 제공 시스템을 변형한 시스템 개념도이다.
In order to more clearly explain the technical solutions of the embodiments of the present invention or the prior art, drawings necessary for the description of the embodiments are briefly introduced below. It should be understood that the drawings below are for the purpose of explaining the embodiments of the present specification and not for the purpose of limitation. In addition, some elements to which various modifications such as exaggeration and omission have been applied may be shown in the drawings below for clarity of description.
1 is a conceptual diagram of an interactive CCTV system according to an embodiment of the present invention.
2A to 2C are diagrams illustrating an operation result of a situation expression module according to an embodiment of the present invention.
3 is a conceptual diagram of an interaction module according to an embodiment of the present invention.
4 is a diagram for explaining a process of generating interactive content when a voice signal is a non-dialog, according to an embodiment of the present invention.
5 is a diagram for explaining a process of generating interactive content when a voice signal is a dialog, according to an embodiment of the present invention.
6 and 7 are system conceptual diagrams modified from the interactive content providing system of FIG. 1 according to various embodiments of the present invention.

여기서 사용되는 전문 용어는 단지 특정 실시예를 언급하기 위한 것이며, 본 발명을 한정하는 것을 의도하지 않는다. 여기서 사용되는 단수 형태들은 문구들이 이와 명백히 반대의 의미를 나타내지 않는 한 복수 형태들도 포함한다. 명세서에서 사용되는 "포함하는"의 의미는 특정 특성, 영역, 정수, 단계, 동작, 요소, 성분 및/또는 부품을 구체화하려는 것이며, 다른 특성, 영역, 정수, 단계, 동작, 요소, 성분 및/또는 부품의 존재나 부가를 제외시키는 것은 아니다.The terminology used herein is for the purpose of referring to specific embodiments only, and is not intended to limit the invention. As used herein, the singular forms also include the plural forms unless the phrases clearly indicate the opposite. The meaning of "comprising," as used herein, is intended to specify a particular characteristic, region, integer, step, operation, element, component, and/or part, and is intended to specify another characteristic, region, integer, step, operation, element, component and/or component. or the presence or addition of parts.

다르게 정의하지는 않았지만, 여기에 사용되는 기술용어 및 과학용어를 포함하는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 일반적으로 이해하는 의미와 동일한 의미를 가진다. 보통 사용되는 사전에 정의된 용어들은 관련기술문헌과 현재 개시된 내용에 부합하는 의미를 가지는 것으로 추가 해석되고, 정의되지 않는 한 이상적이거나 매우 공식적인 의미로 해석되지 않는다.Although not defined otherwise, all terms including technical and scientific terms used herein have the same meaning as commonly understood by those of ordinary skill in the art to which the present invention belongs. Commonly used terms defined in the dictionary are additionally interpreted as having a meaning consistent with the related technical literature and the presently disclosed content, and unless defined, they are not interpreted in an ideal or very formal meaning.

이하에서, 도면을 참조하여 본 발명의 실시예들에 대하여 상세히 살펴본다.Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

본 발명의 실시예들에 따른 상호 대화형 컨텐츠 제공 시스템은 촬영기기에서 획득된 영상 및/또는 음성을 분석하여 해당 장면에 적합한 의사소통(communication)(예컨대, 경보 알람, 정보 제공 등)을 자연스러운 언어로 표현해 다양한 수단(사운드 출력 장치, 디스플레이 장치, 프로젝션 장치 등)으로 제공할 수 있다. The interactive content providing system according to embodiments of the present invention analyzes an image and/or voice acquired from a photographing device to provide a communication (eg, alarm, alarm, information provision, etc.) suitable for the scene in a natural language. It can be expressed by various means (sound output device, display device, projection device, etc.).

도 1은, 본 발명의 일 실시예에 따른, 상호 대화형 CCTV 시스템의 개념도이다. 1 is a conceptual diagram of an interactive CCTV system according to an embodiment of the present invention.

도 1을 참조하면, 상호 대화형 컨텐츠 제공 시스템(1)은 촬영기기(5)와 전기통신하는 서버(10)를 포함한다. Referring to FIG. 1 , the interactive content providing system 1 includes a server 10 in electrical communication with a photographing device 5 .

실시예들에 따른 상호 대화형 컨텐츠 제공 시스템(1)은 전적으로 하드웨어이거나, 전적으로 소프트웨어이거나, 또는 부분적으로 하드웨어이고 부분적으로 소프트웨어인 측면을 가질 수 있다. 예컨대, 상호 대화형 컨텐츠 제공 시스템(1)은 데이터 처리 능력이 구비된 하드웨어 및 이를 구동시키기 위한 운용 소프트웨어를 통칭할 수 있다. 본 명세서에서 "부(unit)", "시스템" 및 "장치" 등의 용어는 하드웨어 및 해당 하드웨어에 의해 구동되는 소프트웨어의 조합을 지칭하는 것으로 의도된다. 예를 들어, 하드웨어는 CPU(Central Processing Unit), GPU(Graphic Processing Unit) 또는 다른 프로세서(processor)를 포함하는 데이터 처리 기기일 수 있다. 또한, 소프트웨어는 실행중인 프로세스, 객체(object), 실행파일(executable), 실행 스레드(thread of execution), 프로그램(program) 등을 지칭할 수 있다.The interactive content providing system 1 according to embodiments may have aspects that are entirely hardware, entirely software, or partially hardware and partially software. For example, the interactive content providing system 1 may collectively refer to hardware equipped with data processing capability and operating software for driving the same. As used herein, terms such as “unit”, “system” and “device” are intended to refer to a combination of hardware and software run by the hardware. For example, the hardware may be a data processing device including a central processing unit (CPU), a graphic processing unit (GPU), or another processor. In addition, software may refer to a running process, an object, an executable file, a thread of execution, a program, and the like.

영상장비(5)는 영상신호 및 소리신호를 수신하도록 구성된다. 영상장비(5)는 (예컨대, 사람이 나타난) 장면을 이루는 영상 또는 소리(예컨대, 대상의 음성) 을 획득할 수 있다. 이를 위해, 영상장비(5)는, 예를 들어, 영상 또는 동영상을 촬영하는 촬영 유닛; 소리(sound)를 수신하는 소리 입력 유닛(예컨대, 마이크 유닛 등)을 포함한다.The imaging equipment 5 is configured to receive a video signal and a sound signal. The imaging device 5 may acquire an image or sound (eg, a voice of a subject) constituting a scene (eg, a person appears). To this end, the imaging equipment 5, for example, a photographing unit for photographing an image or a moving picture; and a sound input unit (eg, a microphone unit, etc.) for receiving a sound.

본 명세서에서, 음성신호는 사람의 구강 구조로부터 출력된 신호만으로 제한되지 않는다. 즉, 음성신호는 사람의 음성 이외에 기타 소리신호를 포함하는 신호를 지칭한다. In the present specification, the voice signal is not limited to only the signal output from the human oral structure. That is, the voice signal refers to a signal including other sound signals in addition to the human voice.

또한, 영상장비(5)는 서버(10)와 데이터를 송수신하도록 더 구성된다. 영상장비(5)는 수신한 영상신호 및 소리신호의 입력을 서버(10)로 전송한다. 이를 위해, 영상장비(5)는 서버(10)와 유/무선의 전기적 연결을 통해 전기 통신할 수 있는 송수신 유닛을 더 포함한다. 상기 송수신 유닛은 서버(10)의 통신 프로토콜에 따라서, 유/무선을 통한 광역/근거리 네트워크 또는 로컬 접속 방식 등의 다양한 네트워크 인터페이스를 통해 서버(10)에 액세스한다. In addition, the imaging equipment 5 is further configured to transmit and receive data to and from the server 10 . The video equipment 5 transmits the input of the received video signal and sound signal to the server 10 . To this end, the imaging device 5 further includes a transmission/reception unit capable of electrical communication with the server 10 through a wired/wireless electrical connection. The transceiver unit accesses the server 10 through various network interfaces such as a wide area/local area network or a local access method through wired/wireless according to the communication protocol of the server 10 .

또한, 영상장비(5)는 상기 영상신호 및 소리신호에 기초하여 생성된 상호 대화형 컨텐츠(예컨대, 다이얼로그(dialogue))를 서버(10)로부터 수신하여 출력한다. 상기 상호 대화형 컨텐츠는 소리 또는 영상으로 출력된다. 일 실시예에서, 서버(10)에 의해 자동으로 생성된 자연스러운 소리나, 또는 디스플레이 장치 상에 표시하여 정보(즉, 상호 대화형 컨텐츠)를 제공할 수 있다. 또는, 상황에 따라서 프로젝션과 같은 형태로 상호 대화형 컨텐츠를 영상장비(5)로부터 일정 간격에 위치한 대상에게 제공할 수 있다. Also, the video device 5 receives and outputs interactive content (eg, a dialog) generated based on the video signal and the sound signal from the server 10 . The interactive content is output as sound or image. In an embodiment, information (ie, interactive content) may be provided by displaying a natural sound automatically generated by the server 10 or on a display device. Alternatively, the interactive content may be provided to a target located at a predetermined interval from the imaging device 5 in the form of projection, depending on circumstances.

이를 위해, 영상장비(5)는, 예를 들어, 상호 대화형 컨텐츠를 영상으로 출력하는 디스플레이 유닛; 및 소리로 출력하는 음향 유닛(예컨대, 스피커 등) 중 적어도 하나를 포함한다. 일부 실시예에서, 상기 디스플레이 유닛은 프로젝션 방식으로 출력하는 프로젝션 유닛일 수 있다. To this end, the video equipment 5 includes, for example, a display unit for outputting interactive content as an image; and at least one of a sound unit (eg, a speaker, etc.) outputting sound. In some embodiments, the display unit may be a projection unit that outputs in a projection method.

이하, 설명의 명료성을 위해, 소리입력 유닛; 송수신 유닛; 음향 유닛을 포함한 CCTV를 영상장비(5)로 갖는 실시예들을 통해 본 발명을 보다 상세하게 서술한다. Hereinafter, for clarity of explanation, a sound input unit; transceiver unit; The present invention will be described in more detail through embodiments having a CCTV including a sound unit as the video equipment 5 .

이러한 영상장비(5)는 촬영범위 내 장면 등과 같은, 상황을 나타내는 촬영 정보를 서버(10)에 전송한다. 상기 촬영 정보는 촬영범위 내 물리적 신호에 기초한 영상(또는 동영상), 소리 정보를 포함한다. 또한, 상기 촬영 정보는 영상, 소리 등을 촬영한 영상장비(5)의 식별자, 촬영 시간 등을 더 포함한다. 상기 촬영 정보가 동영상에 관한 것인 경우, 상기 촬영 정보는 각 프레임별 관련 정보(프레임 식별자 등)를 더 포함한다. The imaging device 5 transmits shooting information indicating a situation, such as a scene within a shooting range, to the server 10 . The photographing information includes image (or video) and sound information based on a physical signal within a photographing range. In addition, the photographing information further includes an identifier of the imaging device 5 that photographed an image, a sound, and the like, a photographing time, and the like. When the shooting information relates to a moving picture, the shooting information further includes related information (frame identifier, etc.) for each frame.

서버(10)는 프로세서를 포함한 데이터 처리 장치로서, 영상장비(5)로부터 촬영장면에서의 영상신호 및/또는 소리신호를 수신하고, 해당 신호를 처리하여 해당 신호가 획득될 당시의 장면을 분석한 뒤, 상기 장면에 나타난 상황에 적합한 상호 대화형 컨텐츠를 생성한다. The server 10 is a data processing device including a processor, which receives an image signal and/or a sound signal in a shooting scene from the imaging device 5, processes the signal, and analyzes the scene at the time the signal was obtained. Then, interactive content suitable for the situation shown in the scene is generated.

일 실시예에서, 서버(10)는 상황 분석 모듈(100), 상황 표현 모듈(300), 인터랙티브 모듈(500) 및 액티베이션 모듈(700) 중 적어도 하나를 포함한다. In an embodiment, the server 10 includes at least one of a context analysis module 100 , a context expression module 300 , an interactive module 500 , and an activation module 700 .

상호 대화형 컨텐츠 제공 시스템(1)은 서버(10)가 영상장비(5)로부터 입력을 수신한 뒤, 상황 분석 모듈(100), 상황 표현 모듈(300), 인터랙티브 모듈(500) 및 액티베이션 모듈(700) 중 적어도 하나를 통해 상호 대화형 컨텐츠를 도출하면, 영상장비(5)의 출력 유닛(예컨대, 디스플레이 유닛 또는 음향 유닛)을 통해 영상장비(5)와 일정 간격 내에 위치한 대상에게 해당 상호 대화형 컨텐츠를 제공할 수 있다. After the server 10 receives an input from the video equipment 5, the interactive content providing system 1 includes a situation analysis module 100, a situation expression module 300, an interactive module 500, and an activation module ( 700), when interactive content is derived through at least one of the interactive content can be provided.

한편, 상호 대화형 컨텐츠 제공 시스템(1)의 상호 대화형 컨텐츠는 반드시 모든 모듈을 거친 데이터 처리 결과에 제한되지 않으며, 다수의 모듈 중 적어도 일부에 의한 데이터 처리 결과를 제공할 수도 있다. On the other hand, the interactive content of the interactive content providing system 1 is not necessarily limited to the results of data processing through all modules, and data processing results by at least some of a plurality of modules may be provided.

그러나, 서버(10)를 구성하는 각각의 부(100, 300, 500, 700)는 반드시 물리적으로 구분되는 별개의 구성요소를 지칭하는 것으로 의도되지 않는다. 따라서, 도 1에서 각각의 부(100, 300, 500, 700)는 서로 구분되는 별개의 블록으로 도시되나, 실시예에 따라서는 각각의 부(100, 300, 500, 700)는 중 일부 또는 전부가 동일한 장치 내에 집적화될 수 있다. 또한, 각각의 부(100, 300, 500, 700)는 이들이 구현된 컴퓨팅 장치에서 수행하는 동작에 따라 장치를 기능적으로 구분한 것일 뿐, 반드시 서로 분리된 별개의 소자를 의미하는 것이 아니다. However, each of the units 100 , 300 , 500 , and 700 constituting the server 10 is not necessarily intended to refer to physically distinct separate components. Accordingly, in FIG. 1 , each of the parts 100 , 300 , 500 , and 700 is shown as a separate block that is distinguished from each other, but according to an embodiment, each of the parts 100 , 300 , 500 , and 700 includes some or all of them. may be integrated in the same device. In addition, each of the units 100 , 300 , 500 , and 700 merely functionally classifies the devices according to the operations performed by the computing devices in which they are implemented, and does not necessarily mean separate elements separated from each other.

따라서, 도 1의 상호 대화형 컨텐츠 제공 시스템(1)의 시스템 아키텍쳐(system architecture)는 영상 및 음성을 분석하여 상호 대화형 컨텐츠를 생성 및 출력하는 과정에 대한 예시적인 설명에 불과하며, 다양하게 변형된 구조를 갖는 경우에도 상호 대화형 컨텐츠를 생성 및 출력할 수도 있다. 도 1의 상호 대화형 컨텐츠 제공 시스템(1)의 변형된 시스템 아키텍쳐에 대해서는 아래의 도 6 및 도 7을 참조하여 보다 상세하게 서술한다. Accordingly, the system architecture of the interactive content providing system 1 of FIG. 1 is only an exemplary description of a process of generating and outputting interactive content by analyzing video and audio, and various modifications Even in the case of having a structured structure, interactive content can be generated and output. The modified system architecture of the interactive content providing system 1 of FIG. 1 will be described in more detail with reference to FIGS. 6 and 7 below.

상황 분석 모듈(100)은 촬영장면에서의 영상 및/또는 음성을 분석하여 촬영장면의 상황을 판단하도록 구성된다. The situation analysis module 100 is configured to analyze the image and/or audio in the shooting scene to determine the situation of the shooting scene.

상황 분석 모듈(100)은 영상 기반 분석 및 음성 기반 분석 중 적어도 하나의 분석 동작을 수행하도록 구성된다. 예를 들어, 상황 분석 모듈(100)은 영상 기반 분석과 음성 기반 분석을 동시에 활용하도록 구성되거나, 또는 선택적으로 활용하도록 구성된다. 예를 들어, 도 1에 도시된 바와 같이, 상황 분석 모듈(100)은 영상 분석 모듈(110) 및 음성 분석 모듈(130)을 포함하여, 영상 정보 및 음성 정보를 분석할 수 있다. The context analysis module 100 is configured to perform at least one of an image-based analysis and a voice-based analysis. For example, the situation analysis module 100 is configured to simultaneously utilize image-based analysis and voice-based analysis, or is configured to selectively utilize it. For example, as shown in FIG. 1 , the situation analysis module 100 may include the image analysis module 110 and the audio analysis module 130 to analyze image information and audio information.

영상 분석 모듈(110)은 영상장비(5)로부터 서버(10)에 의해 수신된 영상신호를 사용하여 상기 영상신호에 관련된 장면의 객체 검출(object detection), 객체 인식(object recognition) 및 이상 검출(anormaly detection) 등과 같은, 영상 기반 컴퓨터 비전(computer vision) 또는 영상 처리 동작을 수행하도록 구성된다. 여기서, 객체 검출은 지정된 객체 검출(예컨대, 얼굴 검출), 사용자 정의 객체 검출을 포함하며, 객체 인식은 얼굴 인식, 신원확인 등을 포함한다. The image analysis module 110 uses the image signal received by the server 10 from the image equipment 5 to perform object detection, object recognition, and abnormality detection (object detection) of a scene related to the image signal. and to perform image-based computer vision or image processing operations, such as anormaly detection. Here, object detection includes detection of a designated object (eg, detection of a face) and detection of a user-defined object, and object recognition includes detection of a face, identification, and the like.

영상 분석 모듈(110)은 영상의 촬영 장소, 영상 내 객체 검출 또는 식별, 객체의 행동 검출 등을 수행할 수 있다. 이로 인해, 영상 분석 모듈(110)은 영상 내 객체 식별 정보(사람, 차, 동물 등), 객체의 수, 객체의 행동, 객체의 외관(옷, 액세서리, 색상, 재질 등), 객체의 위치 등을 영상 분석 결과로 산출할 수 있다. The image analysis module 110 may perform an image capturing location, detection or identification of an object in an image, and detection of an object's behavior. For this reason, the image analysis module 110 includes object identification information (person, car, animal, etc.) in the image, the number of objects, the behavior of the object, the appearance of the object (clothes, accessories, color, material, etc.), the location of the object, etc. can be calculated as an image analysis result.

또한, 영상 분석 모듈(110)은 촬영장면의 상황을 분류하도록 더 구성된다. 상기 촬영상황은, 예를 들어, 정상 상황, 이상상황(위험, 위급 등)을 포함한다. 이로 인해, 영상 분석 모듈(110)은 이상상황 여부, 이상상황 식별 정보(위험, 폭력, 배회, 대상의 넘어짐) 등을 포함한다.In addition, the image analysis module 110 is further configured to classify the situation of the shooting scene. The photographing situation includes, for example, a normal situation and an abnormal situation (dangerous, emergency, etc.). For this reason, the image analysis module 110 includes an abnormal situation, abnormal situation identification information (danger, violence, wandering, falling of the target), and the like.

영상 분석 모듈(110)은 영상 분석 모델을 통해 영상 처리 동작을 수행한다. 여기서, 영상 분석 모델은, 딥러닝 모델과 같은, 기계학습 모델이다. 상기 영상 분석 모델은, 예를 들어, CNN(Convolution Neural Network), RNN(Recurrent Neural Networks), LSTM(Long Short Term Memory), GAN(Generative Adversarial Network) 구조 등을 포함한 기계학습 모델 구조로 구성된다. The image analysis module 110 performs an image processing operation through the image analysis model. Here, the image analysis model is a machine learning model, such as a deep learning model. The image analysis model consists of, for example, a machine learning model structure including a Convolution Neural Network (CNN), Recurrent Neural Networks (RNN), Long Short Term Memory (LSTM), Generative Adversarial Network (GAN) structure, and the like.

이러한 영상 분석 모델을 통해 영상 분석 모듈(110)은 영상 내 객체를 검출 및 인지할 수 있고, 영상 내 이상(예컨대, 객체의 이상행동 등)을 검출 및 예측할 수 있다. Through such an image analysis model, the image analysis module 110 may detect and recognize an object in an image, and may detect and predict an abnormality (eg, abnormal behavior of an object, etc.) in an image.

영상 분석 모듈(110)은 다수의 영상 분석 동작을 수행하도록 학습된 모델을 갖거나, 또는 특정 분석 동작을 위한 모델(예컨대, 이상상황 검출을 위한 모델, 얼굴인식을 위한 모델 등)을 복수 개 가질 수 있다. The image analysis module 110 has a model trained to perform a plurality of image analysis operations, or has a plurality of models (eg, a model for abnormal situation detection, a model for face recognition, etc.) for a specific analysis operation. can

대안적인 실시예에서, 영상 분석 모듈(110)은 영상장비(5)의 목적에 맞는 분석을 수행하도록 구성될 수 있다.In an alternative embodiment, the image analysis module 110 may be configured to perform an analysis suitable for the purpose of the imaging device 5 .

일 예에서, 상호 대화형 컨텐츠 제공 시스템(1)이 정보 제공을 위한 영상장비(5)를 갖는 경우, 영상 분석 모듈(110)은 객체 검출을 위한 분석을 수행하도록 구성된다. 다른 일 예에서, 상호 대화형 컨텐츠 제공 시스템(1)이 경보 알람을 위한 영상장비(5)를 갖는 경우, 상황 분석 모듈(100)은 객체 인식을 위한 분석을 수행하도록 구성된다.In one example, when the interactive content providing system 1 has the image equipment 5 for providing information, the image analysis module 110 is configured to perform analysis for object detection. In another example, when the interactive content providing system 1 has the video equipment 5 for an alert alarm, the situation analysis module 100 is configured to perform an analysis for object recognition.

음성 분석 모듈(130)은 사람의 음성을 포함한, 촬영 장면에 연관된 음성의 일부 또는 전부에 대해 음성 기반 분석을 수행하도록 구성된다. 즉, 음성 분석 모듈(130)은 입력된 음성 중 사람의 음성을 중점적으로 분석하나, 다른 음성(예컨대, 배경음)에 대한 분석 또한 수행한다. The voice analysis module 130 is configured to perform voice-based analysis on some or all of the voices related to the shooting scene, including human voices. That is, the voice analysis module 130 mainly analyzes the human voice among the input voices, but also analyzes other voices (eg, background sound).

상기 촬영 장면에 연관된 음성은, 사람의 음성 및 사물의 음성을 포함한다. 여기서, 사람의 음성은 특정인의 대화, 다수의 웅성웅성하는 음성을 포함한다. 사물의 음성은 엠뷸란스 음성 등을 포함한다. 촬영 장면에 연관된 음성의 분석 결과는 장면의 장면을 판단하는데 사용될 수 있다. The voice related to the shooting scene includes a human voice and an object voice. Here, the human voice includes a conversation of a specific person and a plurality of loud voices. The object's voice includes an ambulance voice and the like. The analysis result of the voice related to the shooting scene may be used to determine the scene of the scene.

이러한 음성 기반 분석을 위해, 음성 분석 모듈(130)은, 영상장비(5)로부터 서버(10)에 의해 수신된 촬영장면에서의 음성신호에서 상기 음성신호가 발생한 객체의 상황(예컨대, 위험 상황)을 판단하게 하는 음성 처리 동작을 수행하도록 구성된다. For such a voice-based analysis, the voice analysis module 130, the voice signal in the shooting scene received by the server 10 from the video equipment 5, the situation of the object in which the voice signal is generated (eg, dangerous situation) is configured to perform a voice processing operation to determine

일 실시예에서, 음성 분석 모듈(130)은 촬영 정보의 음성신호로부터 음원인 대상의 음성 특성을 산출하도록 더 구성된다. 상기 음성 특성은, 예를 들어 음성신호의 주파수, 진폭, 파형, 음성신호 간의 간격 등을 포함한다. In one embodiment, the voice analysis module 130 is further configured to calculate the voice characteristics of the target, which is the sound source, from the voice signal of the shooting information. The voice characteristics include, for example, the frequency, amplitude, and waveform of the voice signal, the interval between the voice signals, and the like.

또한, 음성 분석 모듈(130)은 음성신호 및/또는 음성 특성에 기초하여 음성신호의 유형을 산출한다. 상기 음성신호의 유형은, 음성신호가 특정 목적을 위한 대화인 다이얼로그, 또는 배경음과 같은 다이얼로그가 아닌 음성 등을 포함한다. Also, the voice analysis module 130 calculates the type of the voice signal based on the voice signal and/or the voice characteristics. The type of the voice signal includes a dialog in which the voice signal is a conversation for a specific purpose, or a non-dialog voice such as a background sound.

일부 실시예에서, 음성 분석 모듈(130)은 특정 유형의 서브 유형을 더 산출할 수 있다. 음성신호의 유형이 다이얼로그인 경우, 음성 분석 모듈(130)은 해당 다이얼로그의 유형을 서브 유형으로 산출한다. 상기 서브 유형은, 예를 들어 정상상황 하에서의 문의, 위급상황 하에서의 요청 등을 포함한다. In some embodiments, the voice analysis module 130 may further calculate a specific type of subtype. When the type of the voice signal is a dialog, the voice analysis module 130 calculates the type of the corresponding dialog as a sub-type. The sub-type includes, for example, an inquiry under normal circumstances, a request under an emergency, and the like.

음성 분석 모듈(130)은 음성 분석 모델을 통해 전술한 음성 처리 동작을 수행한다. 여기서, 음성 분석 모델은 전술한 영상 분석 모델과 유사한 구조를 가지나, 음성 데이터를 훈련 데이터로 하여 기계학습된다. The voice analysis module 130 performs the above-described voice processing operation through the voice analysis model. Here, the voice analysis model has a structure similar to the above-described image analysis model, but is machine-learned using voice data as training data.

상황 분석 모듈(100)은 영상 또는 음성 분석 결과 촬영장면의 상황이 정상상황으로 일치하지 않는 경우, 정상상황과 상이한 상황을 촬영장면의 상황으로 산출한다. The situation analysis module 100 calculates a situation different from the normal situation as the situation of the shooting scene when the situation of the shooting scene does not match the normal situation as a result of video or audio analysis.

예를 들어, 이상상황이 검출되지 않아 영상 분석에 따른 촬영상황의 유형이 정상상황으로 산출되었으나 음성 분석 결과 촬영상황의 유형이 위급상황으로 산출된 경우, 상황 분석 모듈(100)은 정상상황과 상이한 상황(즉, 위급상황)을 촬영장면의 상황으로 판단한다. For example, when no abnormal situation is detected and the type of the shooting situation according to the image analysis is calculated as a normal situation, but the type of the shooting situation is calculated as an emergency situation as a result of the voice analysis, the situation analysis module 100 is different from the normal situation. The situation (that is, an emergency situation) is judged as the situation of the shooting scene.

또는, 객체의 행동이 “폭행”으로 검출되어 영상 분석에 따른 촬영상황의 유형이 위험상황으로 산출되었으나, 입력된 음성이 작아 음성 분석에 따른 촬영상황의 유형이 정상상황으로 산출된 경우, 상황 분석 모듈(100)은 정상상황과 상이한 상황(즉, 위험상황)을 촬영장면의 상황으로 판단한다. Alternatively, if the behavior of the object is detected as “assault” and the type of shooting situation according to the image analysis is calculated as a dangerous situation, but the input voice is small, the type of the shooting situation according to the voice analysis is calculated as a normal situation, situation analysis The module 100 determines a situation different from the normal situation (ie, a dangerous situation) as the situation of the shooting scene.

상황 분석 모듈(100)의 분석 결과는 장면 정보로서 상황 표현 모듈(300) 또는 인터랙티브 모듈(500)에 제공될 수 있다. The analysis result of the situation analysis module 100 may be provided to the situation expression module 300 or the interactive module 500 as scene information.

상황 표현 모듈(300)은 촬영장면에서 영상 또는 영상에 대한 분석 결과에 기초하여 장면에 나타난 상황을 맥락을 갖는 텍스트로 표현하는, 상황 해석 동작을 수행하도록 구성된다. 예를 들어, 도 1에 도시된 바와 같이, 상황 표현 모듈(300)은 영상-텍스트 변환 모듈(310) 및 음성-텍스트 변환 모듈(330)을 포함한다. 장면의 상황을 맥락을 갖는 텍스트로 표현하는 상황 해석 동작은 단순히 장면의 상황이 이상상황인지 여부를 판단하는 상황 판단 동작과는 구별된다. The situation expression module 300 is configured to perform a situation analysis operation of expressing a situation appearing in a scene as a text having a context based on an image or an analysis result of the image in the shooting scene. For example, as shown in FIG. 1 , the situation expression module 300 includes a video-text conversion module 310 and an audio-text conversion module 330 . The situation analysis operation of expressing the situation of the scene as a text having a context is distinguished from the situation determination operation of simply determining whether the situation of the scene is an abnormal situation.

상기 상황 해석 동작에 있어서, 영상정보를 단어 또는 문장으로 변환하는 동작은 캡셔닝(captioning)으로 지칭될 수 있다. 변환 모듈(310)은 영상정보를 텍스트로 변환하도록 구성되어, 영상 측면에서 장면을 해석한다. 이를 위해, 변환 모듈(310)은 정지된 영상에 대한 캡셔닝(image captioning) 또는 동영상에 대한 캡셔닝(video captioning) 방식을 영상 분석 결과에 적용하도록 구성될 수 있다. In the situation analysis operation, the operation of converting image information into words or sentences may be referred to as captioning. The conversion module 310 is configured to convert image information into text, and interprets the scene in terms of the image. To this end, the conversion module 310 may be configured to apply an image captioning method for a still image or a video captioning method for a moving image to an image analysis result.

영상 캡셔닝 방식에 의해, 정지 영상 1장에 대한 영상 정보가 문장 등의 텍스트로 변환된다. 한편, 동영상 캡셔닝 방식에 의해, 동영상 내 연속된 프레임을 바탕으로 동영상에 대한 정보가 텍스트로 변환된다. 여기서, 텍스트는 단어(word) 또는 문장(sentence)을 포함한다. Image information for one still image is converted into text such as sentences by the image captioning method. Meanwhile, by the video captioning method, information about the video is converted into text based on continuous frames in the video. Here, the text includes a word or a sentence.

일 실시예에서, 변환 모듈(310)은 캡셔닝 모델을 통해 영상 정보를 텍스트로 변환한다. 여기서, 캡셔닝 모델은, 예를 들어, CNN(Convolution Neural Network), RNN(Recurrent Neural Networks), LSTM(Long Short Term Memory) 구조 등을 포함한 기계학습 모델 구조로 구성되나, 이에 제한되지 않는다. 상기 캡셔닝 모델은, 영상 관련 정보 및/또는 상기 영상을 표현하는 텍스트를 포함한 훈련 샘플을 통해 미리 기계 학습된다. In an embodiment, the conversion module 310 converts image information into text through a captioning model. Here, the captioning model is configured of a machine learning model structure including, for example, a Convolution Neural Network (CNN), Recurrent Neural Networks (RNN), Long Short Term Memory (LSTM) structure, etc., but is not limited thereto. The captioning model is machine-learned in advance through a training sample including image-related information and/or text representing the image.

또한, 일부 실시예에서, 캡셔닝 모델은 해당 모델로 하여금 텍스트 변환을 위해 중요한 부분에만 집중하게 하는 어텐션(Attention) 메커니즘에 의해 기계학습될 수도 있다. 상기 중요한 부분은, 예를 들어 영상의 객체와 관련된 정보(예컨대, 객체 식별 정보, 행동 등)를 포함한다. Also, in some embodiments, the captioning model may be machine-learned by an Attention mechanism that causes the corresponding model to focus only on important parts for text conversion. The important part includes, for example, information related to the object of the image (eg, object identification information, behavior, etc.).

캡셔닝 모델을 통해 변환 모듈(310)은 촬영 당시 장면을 맥락(context)을 갖는 텍스트로 표현할 수 있다. Through the captioning model, the conversion module 310 may express a scene at the time of shooting as text having a context.

도 2a 내지 도 2c는, 본 발명의 일 실시예에 따른, 상황 표현 모듈의 동작 결과를 도시한 도면이다.2A to 2C are diagrams illustrating an operation result of a situation expression module according to an embodiment of the present invention.

도 2a의 영상이 서버(10)에 입력된 경우, 변환 모듈(310)은 도 2a의 영상 분석 결과를 “블랙 셔츠의 남자는 기타를 연주한다”는 맥락을 갖는 텍스트로 변환한다. When the image of FIG. 2A is input to the server 10 , the conversion module 310 converts the analysis result of the image of FIG. 2A into text having a context of “a man in a black shirt plays a guitar”.

도 2b의 영상이 서버(10)에 입력된 경우, 변환 모듈(310)은 도 2b의 영상 분석 결과를 “오렌지색 안전 조끼의 노동자가 도로에서 일하고 있다”는 텍스트로 변환한다. When the image of FIG. 2B is input to the server 10, the conversion module 310 converts the image analysis result of FIG. 2B into text "a worker in an orange safety vest is working on the road".

도 2c의 영상이 서버(10)에 입력된 경우, 변환 모듈(310)은 도 2c의 영상 분석 결과를 “두 명이 레고를 갖고 논다”는 텍스트로 변환한다. When the image of FIG. 2C is input to the server 10, the conversion module 310 converts the image analysis result of FIG. 2C into text "two people play with Lego".

동영상 캡셔닝 방식은 정지된 영상에 대응하는 프레임 각각에 대한 정보에 기초하여 동영상에 대한 정보를 텍스트로 변환할 수 있다. In the video captioning method, information on a video may be converted into text based on information on each frame corresponding to a still image.

대안적인 실시예에서, 상황 표현 모듈(300)은 하나 이상의 언어(예컨대, 한글, 영문 등)로 장면을 텍스트로 표현할 수 있다. 예를 들어, 도 2a 내지 도 2c의 영상에 대해서 상황 표현 모듈(300)은 각각 “man in black shirt is playing guitar”,“worker in orange safety vest in working on road”,“two people are playing with lego toy”로 각각 변환할 수 있다. In an alternative embodiment, the context expression module 300 may express a scene in text in one or more languages (eg, Korean, English, etc.). For example, with respect to the image of FIGS. 2A to 2C , the situation expression module 300 is “man in black shirt is playing guitar”, “worker in orange safety vest in working on road”, “two people are playing with lego”, respectively. toy” respectively.

일부 실시예에서, 상호 대화형 컨텐츠 제공 시스템(1)은 각 언어에 대한 개별적인 영상 해석을 위한 딥러닝 모델을 이용하도록 구성될 수 있다. In some embodiments, the interactive content providing system 1 may be configured to use a deep learning model for individual image interpretation for each language.

다른 일부 실시예에서, 상호 대화형 컨텐츠 제공 시스템(1)은 다수의 언어에 대하여 동시에 학습하여 하나의 모델로 다수의 언어를 출력하도록 구성된 딥러닝 모델을 이용하도록 구성될 수 있다. In some other embodiments, the interactive content providing system 1 may be configured to use a deep learning model configured to simultaneously learn multiple languages and output multiple languages as one model.

이로 인해, 상호 대화형 컨텐츠 제공 시스템(1)은 다양한 언어에 대응하여 상호 대화할 수 있다. For this reason, the interactive content providing system 1 can interact with each other in response to various languages.

일 실시예에서, 변환 모듈(310)은 영상장비(5)의 목적에 맞는 캡셔닝 동작을 수행하도록 구성될 수 있다. 일 예에서, 상호 대화형 컨텐츠 제공 시스템(1)이 정보 제공을 위한 영상장비(5)를 갖는 경우, 변환 모듈(310)은 정지된 영상에 대한 캡셔닝 동작을 수행하도록 구성된다. In an embodiment, the conversion module 310 may be configured to perform a captioning operation suitable for the purpose of the imaging device 5 . In one example, when the interactive content providing system 1 has the video equipment 5 for providing information, the conversion module 310 is configured to perform a captioning operation on a still image.

음성-텍스트 변환 모듈(330)은 촬영장면의 음성신호 또는 분석 결과에 기초하여 장면에 나타난 상황을 텍스트로 표현하도록 구성된다. 변환 모듈(330)은 음성정보를 텍스트로 변환하도록 구성되어, 음성 측면에서 장면을 해석한다. 이를 위해, 변환 모듈(330)은 스피치-투-텍스트 프로그램(STT, Speech-to-text)을 통해 서버(10)가 수신한 대상의 음성을 텍스트로 변환하도록 구성된다. The voice-to-text conversion module 330 is configured to express a situation appearing in a scene as text based on a voice signal or analysis result of the shooting scene. The conversion module 330 is configured to convert voice information into text, and interprets the scene in terms of voice. To this end, the conversion module 330 is configured to convert the speech of the target received by the server 10 through a speech-to-text program (STT, Speech-to-text) into text.

상기 변환 모듈(330)은 서버(10)가 수신한 음성신호를 직접 수신하여 텍스트로 변환하거나, 또는 서버(10)가 수신한 음성신호 및 음성 분석 모듈(130)로부터 수신한 음성 분석 결과 중 하나 이상에 기초하여 장면을 표현한 텍스트를 생성한다.The conversion module 330 directly receives the voice signal received by the server 10 and converts it into text, or one of the voice signal received by the server 10 and the voice analysis result received from the voice analysis module 130 . Based on the above, a text representing a scene is generated.

이러한 상황 표현 모듈(300)의 상황 해석 결과(예컨대, 텍스트 변환 결과)는 인터랙티브 모듈(500)로 전송될 수 있다.The situation analysis result (eg, text conversion result) of the situation expression module 300 may be transmitted to the interactive module 500 .

인터랙티브 모듈(500)은 촬영 정보(입력 영상 또는 음성), 상황 분석 결과, 해석 결과 및 이들의 조합 등에 기초하여 촬영 장면(예컨대, 촬영 장면)에 적합한 상호 대화형 컨텐츠를 생성한다. 이를 통해 서버(10)는 장면(예컨대, 장면 내 대상)과 상호작용을 수행하도록 구성된다. The interactive module 500 generates interactive content suitable for a shooting scene (eg, a shooting scene) based on shooting information (input image or voice), a situation analysis result, an analysis result, and a combination thereof. Thereby the server 10 is configured to perform an interaction with the scene (eg, an object in the scene).

도 3은, 본 발명의 일 실시예에 따른, 인터랙티브 모듈의 개념도이다. 3 is a conceptual diagram of an interactive module according to an embodiment of the present invention.

도 3을 참조하면, 인터랙티브 모듈은 입력의 유형에 따라 상이한 데이터 처리 경로를 가진다. Referring to FIG. 3 , the interactive module has different data processing paths according to the type of input.

일 실시예에서, 인터랙티브 모듈(500)은 상황 표현 모듈(500)에 의해 생성된 장면 텍스트를 수신할 경우, 수신된 텍스트에 응답하여 상호 대화형 컨텐츠를 생성할 수 있다. In an embodiment, when receiving the scene text generated by the situation expression module 500 , the interactive module 500 may generate interactive content in response to the received text.

인터랙티브 모듈(500)은 상호 대화형 컨텐츠를 생성하기 위한 하나 이상의 컴퓨터 프로그램을 수행할 수 있다. 상기 컴퓨터 프로그램은, 예를 들어 기계학습 또는 인공 지능을 지원하는 (예컨대, NLP(Nature Langague Processing) 및/또는 NLU(Nature Language Understanding) 프로그램을 포함하는) 자연어 프로그램 또는 다양한 비인간형 채팅 프로그램일 수 있다. 예를 들어, 인터랙티브 모듈(500)은 챗봇 프로그램(530)이 설치되어 상호 대화형 컨텐츠를 생성 및 제공한다. The interactive module 500 may execute one or more computer programs for generating interactive content. The computer program may be, for example, a natural language program (including, for example, a Nature Langague Processing (NLP) and/or a Nature Language Understanding (NLU) program) supporting machine learning or artificial intelligence or various non-humanoid chat programs. . For example, in the interactive module 500, a chatbot program 530 is installed to generate and provide interactive content.

상기 인터랙티브 모듈(500)은 영상으로부터의 텍스트를 수신하면, 예컨대 챗봇 프로그램(530)을 통해, 수신한 영상으로부터의 텍스터에 적합한 응답을 생성한다. 상기 응답은 상호 대화형 컨텐츠를 위한 맥락을 갖는 텍스트 데이터(“상호 대화형 컨텐츠”)이다. Upon receiving the text from the image, the interactive module 500 generates a response suitable for the text from the received image, for example, through the chatbot program 530 . The response is text data with context for interactive content (“interactive content”).

일 실시예에서, 인터랙티브 모듈(500)은 규칙 기반 챗봇(Rule-based chatbot)(530)을 통해 상호 대화형 컨텐츠를 생성한다. 규칙 기반 챗봇은 미리 설정된 규칙에서 지정된 텍스트가 입력되는 경우, 상기 규칙에 따라 입력에 대응하는 결과를 출력하도록 구성된다. 상기 규칙 기반 챗봇은, 예를 들어, Google DialogFlow API, Amazon LEX API 등으로 구성될 수 있다. In one embodiment, the interactive module 500 generates interactive content via a rule-based chatbot 530 . The rule-based chatbot is configured to, when a text specified in a preset rule is input, output a result corresponding to the input according to the rule. The rule-based chatbot may be configured of, for example, a Google DialogFlow API, an Amazon LEX API, or the like.

예를 들어, 상황 표현 모듈(300)에서 미리 지정된 장면 텍스트가 생성되어 인터랙티브 모듈(500)에 수신된 경우, 챗봇 프로그램은 미리 지정된 규칙에 따른 출력을 생성한다. For example, when a predetermined scene text is generated in the situation expression module 300 and received by the interactive module 500 , the chatbot program generates an output according to a predetermined rule.

다른 일 실시예에서, 인터랙티브 모듈(500)은 기계학습 기반 챗봇(Machine Learning based Chatbot)을 통해 상호 대화형 컨텐츠를 생성한다. 기계학습 기반 챗봇은 대규모의 훈련 샘플을 기반으로 입력 텍스트에 적합한 출력 텍스트를 산출하는 대화 모델로 구성된다. 상기 훈련 샘플은 특정 목적에 대한 대화인 다이얼로그(dialog)를 포함한다. 상기 기계학습 기반 챗봇은, 예를 들어, seq2seq model, pLSA 등으로 구성될 수 있다. In another embodiment, the interactive module 500 generates interactive content through a machine learning based chatbot (Machine Learning based Chatbot). Machine-learning-based chatbots consist of a dialog model that produces output text suitable for input text based on a large-scale training sample. The training sample includes a dialog, which is a conversation for a specific purpose. The machine learning-based chatbot may be configured of, for example, a seq2seq model, pLSA, or the like.

대안적인 실시예들에서, 인터랙티브 모듈(500)은, 입력 텍스트에 적합한 출력 텍스트를 출력하는 다양한 알고리즘 기반 챗봇을 가질 수 있다. In alternative embodiments, interactive module 500 may have various algorithm-based chatbots that output output text suitable for input text.

챗봇 프로그램(530)에 의해 생성된 상호 대화형 컨텐츠는 텍스트-투-스피치(TTS, Text-to-Speech) 프로그램(550)을 통해 음성으로 변환되어, 상호 대화형 컨텐츠가 생성된다. The interactive content generated by the chatbot program 530 is converted into voice through a text-to-speech (TTS) program 550 to generate interactive content.

다른 일 실시예에서, 인터랙티브 모듈(500)은 음성신호를 수신하고, 수신된 음성신호에 응답하여 상호 대화형 컨텐츠를 생성할 수 있다. In another embodiment, the interactive module 500 may receive a voice signal and generate interactive content in response to the received voice signal.

도 3에 도시된 바와 같이, 인터랙티브 모듈(500)은 음성-텍스트 변환 모듈(510)을 더 포함할 수 있다. 이 경우, 인터랙티브 모듈(500)은 서버(10)가 수신한 음성신호를 텍스트로 변환한 뒤, 이어서 변환된 텍스트를 챗봇 프로그램에 입력하여 수신된 음성신호에 적합한 상호 대화형 컨텐츠를 생성할 수 있다. 일부 실시예에서, 변환 모듈(510)은 변환 모듈(330)의 적어도 일부 동작을 수행할 수 있다. 또한, 변환 모듈(510)은 음성의 맥락(context) 또는 상기 음성에 나타난 대상의 의도(intent)를 검출하도록 더 구성될 수 있다. 3 , the interactive module 500 may further include a voice-to-text conversion module 510 . In this case, the interactive module 500 converts the voice signal received by the server 10 into text, and then inputs the converted text into the chatbot program to generate interactive content suitable for the received voice signal. . In some embodiments, the transform module 510 may perform at least some operations of the transform module 330 . In addition, the conversion module 510 may be further configured to detect a context of a voice or an intent of an object appearing in the voice.

일 예로서, 변환 모듈(510)은 텍스트 기반 의도분석 모델을 통해 사람의 음성이 수신된 경우, 해당 음성에 나타난 사람의 의도를 산출할 수 있다. 여기서, 의도분석 모델은 음성을 텍스트화한 훈련 샘플을 통해 미리 특정한 의도(길 안내, 날씨, 위험, 시간 등)를 지정하도록 미리 학습된 기계학습 모델이다. 그러면, 변환 모듈(510)은 사람의 음성이 수신된 경우, 해당 음성을 텍스트화한 뒤 상기 의도분석 모델에 적용하여, 해당 음성에 나타난 사람의 의도를 출력할 수 있다. As an example, when a human voice is received through the text-based intention analysis model, the conversion module 510 may calculate the human intention indicated in the corresponding voice. Here, the intention analysis model is a pre-trained machine learning model to designate a specific intention (path guidance, weather, danger, time, etc.) in advance through a training sample obtained by converting speech into text. Then, when a human voice is received, the conversion module 510 may convert the voice into text and then apply it to the intention analysis model to output the intention of the person indicated in the voice.

한편, 변환 모듈(510)은 다른 기계학습 모델을 가질 수 있다. 예를 들어, 주제 모델링(topic modeling) 방식, 텍스트 분류(text classification) 방식으로 음성의 맥락 또는 의도를 출력하도록 기계학습된 모델을 가질 수 있다. Meanwhile, the transformation module 510 may have another machine learning model. For example, it is possible to have a machine-learned model to output the context or intent of speech by a topic modeling method or a text classification method.

이로 인해, 만약 입력 음성이 지정된 특정한 의도로 산출된 경우, 산출된 의도에 대해 미리 연관된 대화 텍스트로 상호 대화형 컨텐츠를 제공할 수 있다. 또는, 상황 분석 모듈(100)로 산출된 의도 및 수신한 음성 입력 등을 전달할 수 있다. For this reason, if the input voice is calculated with a specified specific intention, interactive content may be provided as a dialogue text previously related to the calculated intention. Alternatively, the calculated intention and the received voice input may be transmitted to the situation analysis module 100 .

이러한 음성의 맥락 또는 의도를 분석하고, 분석된 맥락 또는 음성에 미리 연관된 대화 텍스트를 음성으로 변환하는 과정들은 애플의 시리(Siri), 아마존의 에코(Echo), 또는 공개특허공보 제10-2019-0099061호 등을 통해 통상의 기술자에게 잘 알려져 있는 것이므로, 발명의 요지를 명확하게 하기 위하여 본 명세서에서는 자세한 설명은 생략한다. The processes of analyzing the context or intention of the voice and converting the conversation text previously related to the analyzed context or voice into voice are Apple's Siri, Amazon's Echo, or Korean Patent Application Laid-Open No. 10-2019- Since it is well known to those skilled in the art through No. 0099061 and the like, a detailed description will be omitted herein in order to clarify the gist of the present invention.

이와 같이, 인터랙티브 모듈(500)은 적어도 음성신호에 대해서는 자체적으로 상호 대화형 컨텐츠를 생성할 수도 있다. 이러한 인터랙티브 모듈(500)은 미리 지정된 입력(예컨대, 음성을 변환한 텍스트)를 수신할 경우, 상호 대화형 컨텐츠를 생성할 필요가 있는 것으로 판단하고, 그러면 수신한 입력에 연관되어 있는, 미리 지정된 출력을 상호 대화형 컨텐츠로 생성한다. As such, the interactive module 500 may generate interactive content by itself for at least a voice signal. When this interactive module 500 receives a predetermined input (eg, text converted to speech), it determines that interactive content needs to be generated, and then a predetermined output associated with the received input. to create interactive content.

일부 실시예에서, 서버(10)내에서 음성신호를 텍스트로 변환하는 동작은 변환 모듈(510)에 의해서만 수행될 수 있다. 여기서, 상황 표현 모듈(300)은 영상정보만을 텍스트로 변환한다. In some embodiments, the operation of converting the voice signal into text in the server 10 may be performed only by the conversion module 510 . Here, the situation expression module 300 converts only image information into text.

또한, 인터랙티브 모듈(500)은 이전 상호 대화형 컨텐츠(pre-interactive content)를 생성한 이후에 대화의 지속이 필요한 경우 후속 상호 대화형 컨텐츠(post-interactive content)를 생성하여 영상장비(5)로 전송한다. In addition, the interactive module 500 generates a subsequent post-interactive content when it is necessary to continue the conversation after generating the pre-interactive content and transmits the post-interactive content to the video device 5 . send.

일 실시예에서, 대화의 지속이 필요한 경우는, 시스템(1)이 이전 상호 대화형 컨텐츠를 출력한 시간으로부터 소정 시간(예컨대, 수초, 또는 수십초) 이내에 수신한 대상의 음성에 기초한 변환 텍스트가 인터랙티브 모듈(500)의 미리 지정된 입력인 경우를 포함한다.In one embodiment, when it is necessary to continue the conversation, the converted text based on the voice of the received subject within a predetermined time (eg, several seconds or tens of seconds) from the time the system 1 output the previous interactive content Including the case of a preset input of the interactive module 500 .

한편, 인터랙티브 모듈(500)은 음성으로 변환된 상호 대화형 컨텐츠 이외의, 다른 데이터를 서버(10) 내 다른 구성요소에 제공할 수 있다. Meanwhile, the interactive module 500 may provide other data other than the interactive content converted into voice to other components in the server 10 .

일 실시예에서, 인터랙티브 모듈(500)은 변환 모듈(510)에 의해 입력 음성을 텍스트로 변환한 장면의 음성 텍스트를 상황 분석 모듈(100)에 제공할 수도 있다. 이 경우, 인터랙티브 모듈(500)은 상호 대화형 컨텐츠를 생성함에 있어서, 상황 표현 모듈(300)에서 출력된 텍스트 대신에, 상황 분석 결과 및 입력 음성으로부터 획득된 장면 텍스트에 기초하여 상호 대화형 컨텐츠를 생성한다. In an embodiment, the interactive module 500 may provide the speech text of the scene in which the input speech is converted into text by the conversion module 510 to the context analysis module 100 . In this case, in generating the interactive content, the interactive module 500 generates interactive content based on the situation analysis result and the scene text obtained from the input voice instead of the text output from the situation expression module 300 . create

액티베이션 모듈(700)은 전술한 모듈(100, 300, 또는 500) 중 적어도 하나의 동작을 제어한다. 액티베이션 모듈(700)에는 제어 동작을 위한 명령어가 미리 저장되어 있다. The activation module 700 controls the operation of at least one of the above-described modules 100 , 300 , or 500 . In the activation module 700, a command for a control operation is stored in advance.

액티베이션 모듈(700)은 상황 분석이 필요할 경우 촬영 정보에 기초하여 상황을 분석한다. When a situation analysis is required, the activation module 700 analyzes the situation based on the shooting information.

상기 상황 분석이 필요한 경우는, 촬영 정보가 지정된 시간에 획득된 경우, 촬영 정보가 지정된 장소에서 획득된 경우, 또는 상황의 재-분석을 해야 할 경우 등을 포함한다. Cases in which the situation analysis is necessary include a case in which shooting information is acquired at a specified time, a case in which shooting information is acquired at a specified place, or a case where re-analysis of the situation is required.

예를 들어, 액티베이션 모듈(700)은 영상장비(5)의 촬영 정보(예컨대, 음성 또는 영상신호)가 지정된 장소에서 획득된 경우 상황 분석 모듈(100)이 동작하게 한다. 촬영 정보가 촬영한 영상장비(5)의 식별자를 포함하는 경우, 액티베이션 모듈(700)은 영상신호 또는 소리신호(예컨대, 음성신호)와 함께 영상장비(5)의 식별자를 획득하고, 미리 저장된 식별자-위치 테이블을 통해 서버(10)가 수신한 촬영 정보가 지정된 장소에서 획득되었는지를 판단한다. For example, the activation module 700 causes the situation analysis module 100 to operate when the shooting information (eg, audio or video signal) of the video equipment 5 is obtained at a designated place. When the shooting information includes the identifier of the video equipment 5 that was photographed, the activation module 700 obtains the identifier of the video equipment 5 together with the video signal or sound signal (eg, voice signal), and the identifier stored in advance - It is determined whether the shooting information received by the server 10 through the location table is acquired at a designated place.

액티베이션 모듈(700)은 영상장비(5)의 촬영 정보(예컨대, 음성 또는 영상신호)가 지정된 시간 범위 내에서 획득 경우, 상황 분석 모듈(100)이 동작하게 한다. 촬영 정보가 촬영시간을 포함하는 경우, 액티베이션 모듈(700)은 영상장비(5)의 신호와 함께 획득된 촬영시간에 기초하여 지정된 시간에서 영상이 획득되었는지 여부를 판단한다.The activation module 700 causes the situation analysis module 100 to operate when the shooting information (eg, audio or video signal) of the imaging device 5 is acquired within a specified time range. When the shooting information includes a shooting time, the activation module 700 determines whether an image is acquired at a specified time based on the shooting time acquired together with the signal of the imaging device 5 .

액티베이션 모듈(700)은 인터랙티브 모듈(500)이 입력에 대한 상호 대화형 컨텐츠를 생성하지 못할 경우, 상황 분석 모듈(100)이 상기 촬영 정보의 상황을 재-분석하게 한다. 만약, 재-분석 결과에도 입력에 대한 상호 대화형 컨텐츠를 생성하지 못할 경우, 시스템(1)은 대화를 종료하거나, 다른 촬영 정보의 입력을 유도할 수 있다. The activation module 700 causes the situation analysis module 100 to re-analyze the situation of the shooting information when the interactive module 500 fails to generate interactive content for the input. If it is not possible to generate interactive content for the input even as a result of the re-analysis, the system 1 may end the conversation or induce input of other shooting information.

이와 같이, 액티베이션 모듈(700)은 촬영 정보를 수신하여 상황 분석의 동작을 개시할지를 제어한다. In this way, the activation module 700 receives the shooting information and controls whether to start the situation analysis operation.

일부 실시예에서, 액티베이션 모듈(700)은 촬영 정보의 특정 신호에 대해서만 상황 분석 모듈(100)의 동작 개시를 제어하도록 설정된다. 예를 들어, 액티베이션 모듈(700)은 음성신호에 대해서는 상황 분석 모듈(100)(예컨대, 음성 분석 모듈(130))이 음성신호가 음성신호인지, 또한 음성신호 인경우 다이얼로그인지, 나아가 다이얼로그의 서브 유형이 무엇인지를 분석하게 한다. 만약 영상장비(5)를 통해 입력된 음성신호가 다이얼로그인 경우, 액티베이션 모듈(700)은 상황 분석 모듈(100)(예컨대, 영상 분석 모듈(110))이 영상 분석 동작을 수행하게 한다. , 액티베이션 모듈(700)은 입력 음성이 사람의 음성으로 판단된 경우, 입력 음성 및 유형 판단 결과(예컨대, 이 음성은 사람의 음성으로서, 다이얼로그)를 인터랙티브 모듈(500)로 전송한다. 그러면, 인터랙티브 모듈(500)을 중심으로 음성을 발화한 대상과 상호 작용이 가능하다. 예를 들어, 상황 분석 모듈(100)의 동작 결과가 사용되지 않고도, 인터랙티브 모듈(500)(또는 액티베이션 모듈(700)) 만으로 음성을 발화하는 대상과 상호 작용을 수행할 수도 있다. 이러한 경우에 대해서는 아래의 도 5를 참조하여 보다 상세하게 서술한다. In some embodiments, the activation module 700 is set to control the start of the operation of the situation analysis module 100 only for a specific signal of the shooting information. For example, for the voice signal, the activation module 700 determines whether the situation analysis module 100 (eg, the voice analysis module 130) determines whether the voice signal is a voice signal, or a dialog when the voice signal is a voice signal, and furthermore, a sub of the dialog. Let's analyze what the type is. If the audio signal input through the video equipment 5 is a dialog, the activation module 700 causes the situation analysis module 100 (eg, the video analysis module 110) to perform an image analysis operation. , when it is determined that the input voice is a human voice, the activation module 700 transmits the input voice and the type determination result (eg, the voice is a human voice and a dialog) to the interactive module 500 . Then, it is possible to interact with the object uttering the voice centering on the interactive module 500 . For example, an interaction with a target uttering a voice may be performed only by the interactive module 500 (or the activation module 700 ) without using the operation result of the situation analysis module 100 . This case will be described in more detail with reference to FIG. 5 below.

또한, 액티베이션 모듈(700)은 촬영 정보의 분석 결과에 기초하여 상호 대화형 컨텐츠의 생성을 개시할지 여부를 제어한다. 액티베이션 모듈(700)은 상호 대화형 컨텐츠의 생성의 필요성에 기초하여 인터랙티브 모듈(500)의 동작의 개시 여부를 판단한다. In addition, the activation module 700 controls whether to start the creation of interactive content based on the analysis result of the shooting information. The activation module 700 determines whether to start the operation of the interactive module 500 based on the necessity of generating interactive content.

상기 상호 대화형 컨텐츠의 생성의 필요성은 대상의 행동, 대상의 음성의 유형, 촬영상황의 유형 등에 기초한다. 상기 서버(10)가 데이터 처리를 통해 상기 요소들 중 적어도 하나를 획득하는 경우, 필요성이 있다고 판단될 수 있다. The necessity of generating the interactive content is based on the behavior of the target, the type of the target's voice, the type of shooting situation, and the like. When the server 10 obtains at least one of the elements through data processing, it may be determined that there is a need.

일 예에서, 액티베이션 모듈(700)은 촬영상황의 유형이 위급상황과 같은 비-정상상황인 경우, 생성의 필요성이 있다고 판단한다. In one example, the activation module 700 determines that generation is necessary when the type of the shooting situation is a non-normal situation such as an emergency situation.

다른 일 예에서, 액티베이션 모듈(700)은 음성신호가 다이얼로그로 산출된 경우, 생성의 필요성이 있다고 판단한다. 또한, 액티베이션 모듈(700)은 문의 또는 요청과 같은, 다이얼로그의 서브 유형에 더 기초하여 생성의 필요성이 있다고 판단할 수 있다. In another example, when the voice signal is calculated as a dialog, the activation module 700 determines that generation is necessary. In addition, the activation module 700 may determine that there is a need for generation further based on a sub-type of the dialog, such as an inquiry or a request.

이와 같이 상호 대화형 컨텐츠의 생성의 필요성이 있다고 판단된 경우, 상황 표현 모듈(300)이 해당 상황을 해석한 텍스트를 생성하게 한다. 그러면, 상기 텍스트에 기초하여 상호 대화형 컨텐츠가 생성될 수 있다. As such, when it is determined that there is a need to generate interactive content, the context expression module 300 generates text that interprets the context. Then, interactive content may be generated based on the text.

이러한 액티베이션 모듈(700)에 의해 모든 입력신호에 대한 불필요한 데이터 처리(예컨대, 영상 분석 등)를 방지하여 과도한 리소스 사용을 최소화하고 효율적인 시스템 구동을 가능하게 한다. The activation module 700 prevents unnecessary data processing (eg, image analysis, etc.) for all input signals, thereby minimizing excessive resource use and enabling efficient system operation.

서버(10)는 생성된 상호 대화형 컨텐츠를 영상장비(5)로 전송하고, 영상장비(5)는 수신한 상호 대화형 컨텐츠를 출력한다. The server 10 transmits the generated interactive content to the video device 5, and the video device 5 outputs the received interactive content.

본 발명의 일 측면에 따른 상호 대화형 컨텐츠 제공 방법은 프로세서를 포함한 컴퓨팅 장치에 의해 수행될 수 있다. 일 실시예에서, 상호 대화형 컨텐츠 제공 방법은 상기 시스템(1)의 일부 또는 전부에 의해 수행될 수 있다. The interactive content providing method according to an aspect of the present invention may be performed by a computing device including a processor. In an embodiment, the interactive content providing method may be performed by some or all of the system 1 .

도 4는, 본 발명의 일 실시예에 따른, 음성신호가 비-다이얼로그인 경우 상호 대화형 컨텐츠를 생성하는 과정을 설명하기 위한 도면이다. 4 is a diagram for explaining a process of generating interactive content when a voice signal is a non-dialog, according to an embodiment of the present invention.

상기 시스템(1)은 예를 들어, 상황 인지와 같은, 촬영 정보의 음성이 비-다이얼로그인 경우 상호 대화형 컨텐츠 제공를 생성할 수 있다. The system 1 can create interactive content provision, for example, when the voice of the shooting information is non-dialog, such as situational awareness.

도 4에서는 액티베이션 모듈(700)에 의해 상황 분석 모듈(100), 상황 표현 모듈(300), 인터랙티브 모듈(500)의 동작이 개시되는 것으로 가정한다.In FIG. 4 , it is assumed that the operation of the situation analysis module 100 , the situation expression module 300 , and the interactive module 500 is started by the activation module 700 .

서버(10)는 영상장비(5)가 획득한 촬영 정보를 분석하여 장면 정보를 산출한다(S410). The server 10 analyzes the shooting information acquired by the imaging device 5 and calculates scene information (S410).

도 4의 영상장비(5A)의 촬영 정보로부터는 촬영 장소는 “놀이터”, 객체 유형 및 수는 “사람”, “3명”, 객체의 행동은 “폭행” 등의 장면 정보가 산출된다. From the shooting information of the imaging device 5A of FIG. 4 , scene information such as “playground” as the shooting location, “person” and “3 people” as the object type and number, and “assault” as the behavior of the object is calculated.

영상장비(5B)의 촬영 정보로부터는 촬영 장소는 “길가”, 검출된 객체 유형는 각각 “사람”, “자동차” 객체의 수는 각각 “1명”, “7대”, 객체(사람)의 외관 특성은 “검은 옷”, 객체(사람)의 행동은 “차량 옆 배회” 등의 장면 정보가 산출된다. From the shooting information of the imaging device 5B, the shooting location is “roadside”, the detected object type is “person”, and the number of “car” objects is “1 person” and “7 units”, respectively, and the appearance of the object (person) Scene information such as “black clothes” for the characteristic and “lorowing next to the vehicle” for the behavior of the object (person) is calculated.

영상장비(5C)의 촬영 정보로부터는 촬영 장소가 “가게 앞”, 촬영 시간은 “새벽”, 검출된 객체의 유형 및 수는 “사람”, “1명”, 객체의 외관 특성은 “반나체”, 객체의 행동은 “배회” 등의 장면 정보가 산출된다. From the shooting information of the imaging equipment (5C), the shooting location is “in front of the store”, the shooting time is “dawn”, the type and number of detected objects are “person”, “1 person”, and the appearance characteristics of the object are “semi-nude” , the behavior of the object, such as "roaming" scene information is calculated.

영상장비(5D)의 촬영 정보로부터는 촬영 장소가 “횡단보도”, 검출된 객체의 유형은 “사람”, “신호등”, 객체의 수는 “2명”, 인식된 객체는 “어린아이”, 각각의 객체의 행동은 “위험행동”, “빨간불 온(on)” 등의 장면 정보가 산출된다. From the shooting information of the imaging equipment (5D), the shooting location is “crosswalk”, the detected object type is “person”, “traffic light”, the number of objects is “2 people”, the recognized object is “child”, For each object's behavior, scene information such as “dangerous behavior” and “red light on” is calculated.

그러면, 산출된 장면 정보는 촬영된 장면을 표현하기 위한 맥락을 갖는 텍스트로 변환한다(S430). Then, the calculated scene information is converted into text having a context for expressing the captured scene (S430).

도 4의 영상장비(5A)로부터 촬영된 상황은 “두명의 사람이 한 명의 사람을 놀이터에서 폭행하고 있다”는 텍스트로 변환된다. The situation photographed from the video equipment 5A of FIG. 4 is converted into text “two people are assaulting one person at the playground”.

영상장비(5B)로부터 촬영된 상황은 “한명의 사람이 길가에서 자동차 1대 옆에서 배회하고 있다”는 텍스트로 변환된다.The situation photographed by the video equipment 5B is converted into text saying “one person is wandering next to a car on the roadside”.

영상장비(5C)로부터 촬영된 상황은 “새벽에 반나체의 사람이 가게 앞에서 배회하고 있다”는 텍스트로 변환된다.The situation captured by the video equipment (5C) is converted to the text “A semi-nude person is roaming in front of the store at dawn”.

영상장비(5D)로부터 촬영된 상황은 “횡단보도의 빨간불 신호에서 어린아이 두 명이 위험한 행동을 하고 있다”는 텍스트로 변환된다.The situation filmed by the video equipment (5D) is converted into text that says, “Two children are acting dangerously at the red light at the crosswalk.”

그러면, 단계(S300)에서 생성된 장면 텍스트에 응답하여 해당 상황에 대한 상호 대화형 컨텐츠가 생성된다(S450). 도 4에서 상호 대화형 컨텐츠는 적어도 촬영된 영상과 상호 작용하여 생성된다. Then, in response to the scene text generated in step S300, interactive content for the corresponding situation is generated (S450). In FIG. 4 , interactive content is generated by interacting with at least a captured image.

도4의 영상장비(5A)로부터 촬영된 상황에 대하여, “거기! 사람을 폭행하시면 안됩니다! 경찰 출동하였습니다!”는 상호 대화형 컨텐츠를 맥락으로 갖는, 상호 대화형 컨텐츠가 생성된다. Regarding the situation photographed from the imaging device 5A in Fig. 4, "There! You must not assault people! The police have arrived!”, interactive content with interactive content as the context is created.

영상장비(5B)로부터 촬영된 상황에 대하여, “검은옷 입으신 분! 혹시 본인 차량이신가요? 문제가 있으신가요?” 또는 “검은옷 입으신 분! CCTV 촬영 중입니다. 본인 차량이 아니시면 수상한 행동으로 간주하겠습니다”는 상호 대화형 컨텐츠를 맥락으로 갖는, 상호 대화형 컨텐츠가 생성된다. Regarding the situation filmed by the video equipment (5B), “The person in black! Do you have your own vehicle? Do you have any problems?” or “The one in black! CCTV is being filmed. If it is not your vehicle, it will be considered suspicious behavior.” Interactive content with interactive content as the context is created.

영상장비(5C)로부터 촬영된 상황에 대하여, “현재 옷차림 및 행동이 정상적이지 않습니다. 무슨 일이 신가요?” 또는 “지금 수상한 행동을 하고 계십니다. 행동에 대한 답변이 없을 시, 경찰 출동하도록 하겠습니다”는 상호 대화형 컨텐츠를 맥락으로 갖는, 상호 대화형 컨텐츠가 생성된다. Regarding the situation filmed by the video equipment (5C), “Currently, your attire and behavior are not normal. What's going on?” or “You are acting suspiciously. If there is no response to the action, the police will be dispatched.” Interactive content with interactive content as the context is created.

영상장비(5D)로부터 촬영된 상황에 대하여, “횡단보도가 빨간불이니 건너지 말고 길가에서 물러나 주시고 위험한행동은 삼가해주시기 바랍니다”는 상호 대화형 컨텐츠를 맥락으로 갖는, 상호 대화형 컨텐츠가 생성된다. Regarding the situation filmed from the video equipment (5D), interactive content is created with interactive content as the context, “Please do not cross the crosswalk, please step back from the roadside and refrain from dangerous actions because the crosswalk is a red light.”

단계(S450)에서 생성된 상호 대화형 컨텐츠는 영상장비(5)를 통해 대상에게 제공된다(S460). 상호 대화형 컨텐츠가 음성으로 변환되어 영상장비(5)에 제공된 경우, 영상장비(5)는 상호 대화형 컨텐츠를 음향 유닛을 통해 제공한다. The interactive content generated in step S450 is provided to the target through the video device 5 (S460). When the interactive content is converted into voice and provided to the video device 5 , the video device 5 provides the interactive content through the sound unit.

또한, 단계(S450)에서 생성된 상호 대화형 컨텐츠에 이어서 상호 작용(예컨대, 대상과 시스템(1) 간의 대화)이 지속될 수 있다(S470). 단계(S470)에서, 전술한 단계(S410 내지 S450) 중 적어도 하나가 수행된다. Also, following the interactive content generated in step S450, an interaction (eg, a conversation between the object and the system 1) may be continued (S470). In step S470, at least one of the above-described steps S410 to S450 is performed.

도 5는, 본 발명의 일 실시예에 따른, 음성신호가 다이얼로그인 경우 상호 대화형 컨텐츠를 생성하는 과정을 설명하기 위한 도면이다.5 is a diagram for explaining a process of generating interactive content when a voice signal is a dialog, according to an embodiment of the present invention.

상기 시스템(1)은, 예를 들어, 대화 상황과 같은, 촬영 정보의 음성이 다이얼로그인 경우 상호 대화형 컨텐츠 제공를 생성할 수 있다. The system 1 may generate interactive content provision when, for example, the voice of the shooting information is a dialog, such as a conversation situation.

도 5에서도, 도 4와 유사하게, 액티베이션 모듈(700)에 의해 상황 분석 모듈(100), 상황 표현 모듈(300), 인터랙티브 모듈(500)의 동작이 개시되는 것으로 가정한다. 예를 들어, 액티베이션 모듈(700)은, 예컨대, 수신한 음성신호가 사람의 음성인지 판단하고, 해당 신호 및/또는 판단 결과를 인터랙티브 모듈(500) 또는 상황 분석 모듈(100)로 전달한다. In FIG. 5 , similarly to FIG. 4 , it is assumed that the operation of the situation analysis module 100 , the situation expression module 300 , and the interactive module 500 is started by the activation module 700 . For example, the activation module 700 determines whether the received voice signal is a human voice, for example, and transmits the signal and/or the determination result to the interactive module 500 or the situation analysis module 100 .

영상장비(5)에 의해 획득된 음성은 분석 이전에 텍스트로 변환될 수 있다(S501). The voice acquired by the video equipment 5 may be converted into text before analysis (S501).

예를 들어, 영상장비(5E)의 입력 음성은 변환 모듈(510)에 의해 “시청에 가려면 어떻게 가야하죠?”인 텍스트로 변환된다. For example, the input voice of the video equipment 5E is converted into text “How do I go to the city hall?” by the conversion module 510 .

영상장비(5F)의 입력 음성은 변환 모듈(510)에 의해 “도와주세요!”인 텍스트로 변환된다. 이어서, 단계(S501)의 음성에 대한 촬영 정보를 분석한다(S510). 일부 실시예에서, 음성신호에 대한 분석이 우선 수행된 이후에, 음성신호가 다이얼로그인 경우에 촬영 정보에 대한 추가적인 분석(예컨대, 영상 신호 분석)이 수행될 수 있다. The input voice of the video equipment 5F is converted into text “Help!” by the conversion module 510 . Next, the photographing information for the voice of step S501 is analyzed (S510). In some embodiments, after the audio signal is first analyzed, when the audio signal is a dialog, additional analysis (eg, image signal analysis) of the shooting information may be performed.

영상장비(5E)의 촬영 정보 내 음성신호에 기초하여, 음성 유형은 다이얼로그, 및 서브 유형은 “문의”로 분석된다. 그러면, 음성신호 이외의 다른 촬영 정보에 기초하여, 촬영 장소는 “시청역 10번 출구”, 검출된 객체 유형 및 수는 “사람”, “1명”, 객체의 외관 특성은 “검은 옷”인 분석 결과가 산출된다. Based on the audio signal in the shooting information of the video equipment 5E, the audio type is analyzed as a dialog, and the sub type is “inquiry”. Then, based on the shooting information other than the voice signal, the shooting location is “City Hall Station Exit 10”, the detected object type and number are “person”, “1 person”, and the appearance characteristic of the object is “black clothes” The result is produced.

영상장비(5F)의 촬영 정보 내 음성신호에 기초하여, 음성 유형은 다이얼로그, 및 서브 유형은 “요청”로 분석된다. 그러면, 음성신호 이외의 다른 촬영 정보에 기초하여, 촬영 장소는 “월곡역 10번 출구”, 검출된 객체 유형 및 수는 “사람”, “2명”, 각 객체의 외관 특성은 각각 “검은 옷”, “파란 옷”, 상황 유형은 “위급”인 분석 결과가 산출된다. Based on the audio signal in the shooting information of the video equipment 5F, the audio type is analyzed as a dialog, and the sub type is “request”. Then, based on the shooting information other than the voice signal, the shooting location is “Wolgok Station Exit 10”, the detected object types and number are “person”, “2 people”, and the appearance characteristics of each object are “black clothes”, respectively. ”, “blue clothes”, and the situation type is “critical”.

그러면, 입력 음성으로부터 변환된 장면 텍스트, 및 해당 상황의 분석 결과 중 적어도 하나에 기초하여 상호 대화형 컨텐츠가 생성된다(S550). 여기서, 장면 텍스트는 입력 음성이므로, 상황을 텍스트로 표현하는 캡셔닝 동작은 수행되지 않을 수도 있다. Then, interactive content is generated based on at least one of the scene text converted from the input voice and the analysis result of the corresponding situation ( S550 ). Here, since the scene text is an input voice, a captioning operation for expressing the situation as text may not be performed.

영상장비(5E)로부터 촬영된 상황에 대하여, “길 건너 우측으로 100m 앞에 있습니다”는 상호 대화형 컨텐츠를 음성으로 변환한, 상호 대화형 컨텐츠가 생성된다. Regarding the situation photographed from the video equipment 5E, interactive content is created by converting the interactive content into voice saying “I am 100m ahead on the right across the street”.

영상장비(5F)로부터 촬영된 상황에 대하여, “경찰 출동하였습니다”, “우측 100m 앞에 경찰서가 있습니다”, 또는 “CCTV 촬영중입니다! 검은 옷을 입으신 분 추적을 멈춰 주십시오!”란 상호 대화형 컨텐츠를 맥락으로 갖는, 상호 대화형 컨텐츠가 생성된다. Regarding the situation filmed from the video equipment (5F), “The police have arrived”, “There is a police station 100m to the right”, or “CCTV is being filmed! The interactive content is created with the interactive content as the context, “Stop tracking the person in black!”

단계(S550)에서 생성된 상호 대화형 컨텐츠는 영상장비(5)를 통해 대상에게 제공된다(S560). 상호 대화형 컨텐츠가 음성 변환되어 영상장비(5)에 제공된 경우, 영상장비(5)는 상호 대화형 컨텐츠를 음향 유닛을 통해 제공한다. The interactive content generated in step S550 is provided to the target through the video equipment 5 (S560). When the interactive content is voice-converted and provided to the video device 5 , the video device 5 provides the interactive content through the sound unit.

또는, 도 5에 도시되진 않았지만, 단계(S510) 이전에 인터랙티브 모듈(500) 자체적으로 상호 대화형 컨텐츠를 생성 및 제공하고, 나아가 후속 상호 대화형 컨텐츠 또한 생성 및 제공할 수 있다. Alternatively, although not shown in FIG. 5 , the interactive module 500 itself may generate and provide interactive content before step S510 , and further generate and provide subsequent interactive content.

상기 액티베이션 모듈(700)은 도 1에서는 단일 구성요소로 도시되었으나, 이에 제한되지 않는다. 다른 실시예들에서, 시스템(1)은 입력, 제어 대상 등에 따라서, 복수의 액티베이션 모듈(700)을 포함할 수도 있다. The activation module 700 is illustrated as a single component in FIG. 1 , but is not limited thereto. In other embodiments, the system 1 may include a plurality of activation modules 700 according to an input, a control target, and the like.

도 6 및 도 7은, 본 발명의 다양한 실시예에 따른, 도 1의 상호 대화형 컨텐츠 제공 시스템을 변형한 시스템 개념도이다. 6 and 7 are system conceptual diagrams modified from the interactive content providing system of FIG. 1 according to various embodiments of the present invention.

도 1의 상호 대화형 컨텐츠 제공 시스템은, 다수의 액티베이션 모듈을 포함하도록 구성될 수 있다. 예를 들어, 도 6에 도시된 바와 같이, 제어 대상별로 다수의 액티베이션 모듈(710, 730, 750)을 포함한 시스템(1)으로 구성된다. 여기서, 시스템(1)은, 상황 분석 모듈(100)의 동작을 제어하는 제1 액티베이션 모듈(710), 상황 표현 모듈(300)의 동작을 제어하는 제2 액티베이션 모듈(730), 상호 대화형 컨텐츠의 생성을 위해 인터랙티브 모듈(500)의 동작을 제어하는 제3 액티베이션 모듈(750) 등을 포함할 수도 있다. The interactive content providing system of FIG. 1 may be configured to include a plurality of activation modules. For example, as shown in FIG. 6 , the system 1 includes a plurality of activation modules 710 , 730 , and 750 for each control target. Here, the system 1 includes a first activation module 710 that controls the operation of the situation analysis module 100 , a second activation module 730 that controls the operation of the situation expression module 300 , and interactive content It may include a third activation module 750 for controlling the operation of the interactive module 500 for generation of .

도 1의 상호 대화형 컨텐츠 제공 시스템(1)은, 각 구성요소(100, 300, 500)에 액티베이션 모듈(700)의 기능을 부분적으로 집적하여, 제어 대상이 액티베이션 모듈(700)의 제어 기능을 자체적으로 수행하도록 구성될 수 있다. 예를 들어, 도 7에 도시된 바와 같이, 상기 시스템(1)은 각 액티베이션 모듈(710, 730, 750)이 각 제어 대상 내에 집적되도록 변형될 수 있다. The interactive content providing system 1 of FIG. 1 partially integrates the functions of the activation module 700 in each component 100 , 300 , and 500 , so that the control target controls the activation module 700 . It can be configured to do it on its own. For example, as shown in FIG. 7 , the system 1 may be modified such that each activation module 710 , 730 , and 750 is integrated within each control object.

상기 시스템(1)이 본 명세서에 서술되지 않은 다른 구성요소를 포함할 수도 있다는 것이 통상의 기술자에게 명백할 것이다. 예를 들어, 데이터 입력 장치, 디스플레이, 인쇄와 같은 출력 장치, 메모리와 같은 저장장치, 전기 통신을 통해 데이터를 송수신하는 송수신장치, 네트워크, 네트워크 인터페이스 및 프로토콜 등을 더 포함할 수 있다. It will be apparent to a person skilled in the art that the system 1 may include other components not described herein. For example, it may further include a data input device, an output device such as a display and printing, a storage device such as a memory, a transceiver for transmitting and receiving data through electrical communication, a network, a network interface and a protocol, and the like.

이와 같이, 상기 시스템(1)은 촬영 장면에서의 소리 및 영상을 분석하여, 해당 장면에 대한 가이드와 같은 적절한 상호 대화형 컨텐츠를 제공할 수 있다. In this way, the system 1 can provide appropriate interactive content such as a guide for the scene by analyzing the sound and image in the shooting scene.

이상에서 설명한 실시예들에 따른 상호 대화형 컨텐츠 제공 시스템(1) 및 방법에 의한 작동(operation)은 적어도 부분적으로 컴퓨터 프로그램으로 구현되어, 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다. 예를 들어, 프로그램 코드를 포함하는 컴퓨터-판독가능 매체로 구성되는 프로그램 제품과 함께 구현되고, 이는 기술된 임의의 또는 모든 단계, 작동, 또는 과정을 수행하기 위한 프로세서에 의해 실행될 수 있다. An operation by the interactive content providing system 1 and method according to the embodiments described above may be at least partially implemented as a computer program and recorded in a computer-readable recording medium. For example, embodied with a program product consisting of a computer-readable medium containing program code, which may be executed by a processor for performing any or all steps, operations, or processes described.

상기 컴퓨터는 데스크탑 컴퓨터, 랩탑 컴퓨터, 노트북, 스마트 폰, 또는 이와 유사한 것과 같은 컴퓨팅 장치일 수도 있고 통합될 수도 있는 임의의 장치일 수 있다. 컴퓨터는 하나 이상의 대체적이고 특별한 목적의 프로세서, 메모리, 저장공간, 및 네트워킹 구성요소(무선 또는 유선 중 어느 하나)를 가지는 장치다. 상기 컴퓨터는 예를 들어, 마이크로소프트의 윈도우와 호환되는 운영 체제, 애플 OS X 또는 iOS, 리눅스 배포판(Linux distribution), 또는 구글의 안드로이드 OS와 같은 운영체제(operating system)를 실행할 수 있다.The computer may be any device that may be incorporated into or may be a computing device such as a desktop computer, laptop computer, notebook, smart phone, or the like. A computer is a device having one or more alternative and special purpose processors, memory, storage, and networking components (either wireless or wired). The computer may run, for example, an operating system compatible with Microsoft's Windows, Apple OS X or iOS, a Linux distribution, or an operating system such as Google's Android OS.

상기 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장신원확인 장치 등을 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다. 또한, 본 실시예를 구현하기 위한 기능적인 프로그램, 코드 및 코드 세그먼트(segment)들은 본 실시예가 속하는 기술 분야의 통상의 기술자에 의해 용이하게 이해될 수 있을 것이다. The computer-readable recording medium includes all types of recording devices in which computer-readable data is stored. Examples of the computer-readable recording medium include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage identification device, and the like. In addition, the computer-readable recording medium may be distributed in a network-connected computer system, and the computer-readable code may be stored and executed in a distributed manner. In addition, functional programs, codes, and code segments for implementing the present embodiment may be easily understood by those skilled in the art to which the present embodiment belongs.

이상에서 살펴본 본 발명은 도면에 도시된 실시예들을 참고로 하여 설명하였으나 이는 예시적인 것에 불과하며 당해 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 실시예의 변형이 가능하다는 점을 이해할 것이다. 그러나, 이와 같은 변형은 본 발명의 기술적 보호범위 내에 있다고 보아야 한다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해서 정해져야 할 것이다.Although the present invention as described above has been described with reference to the embodiments shown in the drawings, it will be understood that these are merely exemplary and that various modifications and variations of the embodiments are possible therefrom by those of ordinary skill in the art. However, such modifications should be considered to be within the technical protection scope of the present invention. Accordingly, the true technical protection scope of the present invention should be defined by the technical spirit of the appended claims.

Claims (16)

영상 또는 소리를 갖는 장면을 촬영하도록 구성된 영상장비, 및 촬영된 장면을 분석하여 해당 장면에 대한 상호 대화형 컨텐츠를 생성하도록 구성된 서버를 포함한 상호 대화형 컨텐츠를 제공하는 시스템에 있어서, 상기 서버는:
상기 영상장비로부터 획득된 촬영정보에서 상기 장면을 소리 또는 영상 측면에서 분석하여 장면정보를 산출하도록 구성된 상황 분석 모듈 - 상기 장면정보는 상기 장면에 대한 분석 결과를 포함함;
상기 촬영정보 및 장면정보 중 적어도 하나에 기초하여 해당 장면을 표현한 장면 텍스트로 변환하도록 구성된 상황 표현 모듈;
상기 장면 텍스트에 응답하여 상호 대화형 컨텐츠를 생성하도록 구성된 인터랙티브 모듈; 및
상기 상황 분석 모듈 또는 인터랙티브 모듈의 동작을 제어하는 액티베이션 모듈 중 적어도 하나를 포함하되,
상기 인터랙티브 모듈은,
상기 장면에 대한 분석 결과 및 상기 장면에 대한 분석 결과에 기초한 장면 텍스트 중 적어도 하나에 기초하여, 상기 장면에 대한 응답으로서 상기 상호 대화형 컨텐츠를 챗봇 프로그램을 통해 생성하고,
상기 챗봇 프로그램은 상기 장면 텍스트를 입력 텍스트로 수신하여 상기 장면 텍스트에 대한 응답인 출력 텍스트를 산출하도록 구성되고,
상기 장면에 대한 분석 결과는 상기 상황 분석 모듈의 영상 분석 모델을 통해 획득되는 장면 내 객체의 식별 정보, 객체의 수, 객체의 행동, 객체의 외관 또는 객체의 위치를 포함하며,
상기 상호 대화형 컨텐츠는 음성, 영상, 프로젝션 및 이들의 조합 중 적어도 하나의 방식으로 상기 영상장비를 통해 제공하는 것을 특징으로 하는 시스템.
A system for providing interactive content, comprising: an imaging device configured to photograph a scene having an image or sound; and a server configured to analyze the captured scene to generate interactive content for the scene, the server comprising:
a situation analysis module configured to calculate scene information by analyzing the scene in terms of sound or image from the shooting information obtained from the imaging equipment, wherein the scene information includes an analysis result for the scene;
a situation expression module configured to convert a scene text into a scene text expressing a corresponding scene based on at least one of the shooting information and the scene information;
an interactive module configured to generate interactive content in response to the scene text; and
Comprising at least one of the activation module for controlling the operation of the situation analysis module or the interactive module,
The interactive module,
Based on at least one of an analysis result for the scene and a scene text based on the analysis result for the scene, the interactive content is generated as a response to the scene through a chatbot program,
the chatbot program is configured to receive the scene text as input text and produce an output text that is a response to the scene text;
The analysis result for the scene includes identification information of the object in the scene, the number of objects, the behavior of the object, the appearance of the object or the location of the object obtained through the image analysis model of the situation analysis module,
The interactive content is provided through the video device in at least one of audio, video, projection, and a combination thereof.
삭제delete 제1항에 있어서,
상기 상황 분석 모듈은 소리 분석 모델을 통해 장면의 소리를 분석하며,
상기 소리 분석 모델은,
소리신호의 유형, 서브 유형, 및 상기 소리신호가 발생한 장면의 상황 중 적어도 하나를 산출하도록 기계학습된 것을 특징으로 하는 시스템.
According to claim 1,
The situation analysis module analyzes the sound of the scene through the sound analysis model,
The sound analysis model is
A system according to any one of the preceding claims, wherein the system is machine-learned to calculate at least one of a type, a sub-type of a sound signal, and a situation of a scene in which the sound signal occurs.
제3항에 있어서, 상기 상황 분석 모듈은,
영상 또는 소리 분석 결과 촬영장면의 상황이 정상상황으로 분류하지 않는 경우, 촬영장면의 상황을 정상상황과 상이한 상황으로 산출하도록 더 구성되는 시스템.
According to claim 3, wherein the situation analysis module,
The system further configured to calculate the situation of the shooting scene as a situation different from the normal situation when the situation of the shooting scene is not classified as the normal situation as a result of the image or sound analysis.
제3항에 있어서, 상기 상황 분석 모듈은,
상기 장면의 소리가 다이얼로그로 산출된 경우에 상기 장면의 영상에 대한 분석을 수행하도록 구성된 것을 특징으로 하는 시스템.
According to claim 3, wherein the situation analysis module,
and perform analysis on the image of the scene when the sound of the scene is calculated as a dialog.
삭제delete 제1항에 있어서,
상기 장면 텍스트는 상기 영상의 영상 분석 결과를 입력으로 수신하여 상기 영상을 표현하기 위한 텍스트로 변환하는 캡셔닝 모델을 통해 생성되는 것을 특징으로 하는 시스템.
According to claim 1,
The scene text is generated through a captioning model that receives an image analysis result of the image as an input and converts it into text for expressing the image.
제1항에 있어서, 상기 인터랙티브 모듈은,
상기 상호 대화형 컨텐츠를 소리로 변환하도록 더 구성되는 시스템.
According to claim 1, wherein the interactive module,
The system further configured to convert the interactive content into sound.
제8항에 있어서, 상기 인터랙티브 모듈은,
상호 대화형 컨텐츠를 생성하기 이전에, 상기 장면의 소리를 장면 텍스트로 변환하도록 더 구성되고,
상기 상호 대화형 컨텐츠를 생성하는데 사용되는 장면 텍스트는,
상기 상황 표현 모듈에 의해 획득된 입력 음성으로부터의 장면 텍스트 또는 상기 인터랙티브 모듈에 의해 획득된 입력 음성으로부터의 장면 텍스트를 포함하는 것을 특징으로 하는 시스템.
The method of claim 8, wherein the interactive module,
before generating the interactive content, convert the sound of the scene into scene text;
The scene text used to create the interactive content is:
and a scene text from an input voice acquired by the situation expression module or a scene text from an input voice acquired by the interactive module.
제1항에 있어서, 상기 인터랙티브 모듈은,
상기 챗봇 프로그램의 미리 저장된 대화 규칙에 기초하여 상기 장면 텍스트에 연관되어 있는 대화를 상호 대화형 컨텐츠로 생성하는 시스템.
According to claim 1, wherein the interactive module,
A system for generating a dialogue associated with the scene text as interactive content based on a pre-stored dialogue rule of the chatbot program.
제1항에 있어서, 상기 인터랙티브 모듈은,
훈련 샘플에 기반하여 입력 텍스트에 대응한 출력 텍스트를 입력 텍스트에 대한 응답으로서 산출하는 기계학습 모델을 갖는 챗봇 프로그램을 통해 상기 장면에 대한 상호 대화형 컨텐츠로 생성하는 시스템.
According to claim 1, wherein the interactive module,
A system for generating interactive content for the scene through a chatbot program having a machine learning model that produces output text corresponding to input text as a response to input text based on training samples.
제9항에 있어서, 상기 상황 분석 모듈은,
상기 장면의 소리를 텍스트로 변환한 이후에, 상기 장면에 대한 분석을 수행하도록 더 구성되는 시스템.
The method of claim 9, wherein the situation analysis module,
After converting the sound of the scene to text, the system further configured to perform analysis on the scene.
제1항에 있어서, 상기 액티베이션 모듈은,
상기 영상장비의 촬영 정보가 지정된 시간 또는 지정된 장소에서 획득된 경우에 상기 장면에 대한 분석을 수행하게 하는 시스템.
According to claim 1, wherein the activation module,
A system for performing analysis of the scene when the shooting information of the imaging equipment is acquired at a specified time or a specified place.
제1항에 있어서, 상기 액티베이션 모듈은,
대상의 행동, 대상의 음성의 유형, 촬영상황의 유형 및 이들의 조합 중 적어도 하나에 기초하여 상호 대화형 컨텐츠를 생성하기 위한 인터랙티브 모듈의 동작 개시를 제어하는 시스템.
According to claim 1, wherein the activation module,
A system for controlling the initiation of an operation of an interactive module for generating interactive content based on at least one of a behavior of a target, a type of a voice of the target, a type of a shooting situation, and a combination thereof.
삭제delete 삭제delete
KR1020190114179A 2019-09-17 2019-09-17 System for providing interactive content based on image or voice analysis KR102319583B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190114179A KR102319583B1 (en) 2019-09-17 2019-09-17 System for providing interactive content based on image or voice analysis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190114179A KR102319583B1 (en) 2019-09-17 2019-09-17 System for providing interactive content based on image or voice analysis

Publications (2)

Publication Number Publication Date
KR20210032761A KR20210032761A (en) 2021-03-25
KR102319583B1 true KR102319583B1 (en) 2021-11-02

Family

ID=75222523

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190114179A KR102319583B1 (en) 2019-09-17 2019-09-17 System for providing interactive content based on image or voice analysis

Country Status (1)

Country Link
KR (1) KR102319583B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102411095B1 (en) * 2021-12-30 2022-06-22 주식회사 파일러 System and method for searching contents in accordance with advertisements

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101862079B1 (en) * 2016-12-13 2018-05-29 한국건설기술연구원 Apparatus for recogning road traffic situation based on artificial intelligence and method thereof

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160038375A (en) * 2014-09-30 2016-04-07 주식회사 엘지유플러스 Contents creation apparatus and method for operating the contents creation apparatus
KR20180102871A (en) * 2017-03-08 2018-09-18 엘지전자 주식회사 Mobile terminal and vehicle control method of mobile terminal
KR101998963B1 (en) 2017-10-19 2019-07-10 주식회사 포스코아이씨티 System for Managing Tunnel Using Movable CCTV

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101862079B1 (en) * 2016-12-13 2018-05-29 한국건설기술연구원 Apparatus for recogning road traffic situation based on artificial intelligence and method thereof

Also Published As

Publication number Publication date
KR20210032761A (en) 2021-03-25

Similar Documents

Publication Publication Date Title
JP7242520B2 (en) visually aided speech processing
JP6635049B2 (en) Information processing apparatus, information processing method and program
KR100586767B1 (en) System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
KR20190098110A (en) Intelligent Presentation Method
EP3955245A1 (en) Apparatus, method and program for parsing an utterance using a speaker feature vector
US11657800B2 (en) Electronic device with wakeup word determined multi-mode operation
CN112581938B (en) Speech breakpoint detection method, device and equipment based on artificial intelligence
CN112017633B (en) Speech recognition method, device, storage medium and electronic equipment
US20230368796A1 (en) Speech processing
CN111326152A (en) Voice control method and device
US20230360650A1 (en) Response orchestrator for natural language interface
KR102319583B1 (en) System for providing interactive content based on image or voice analysis
WO2020048358A1 (en) Method, system, and computer-readable medium for recognizing speech using depth information
JP2022530201A (en) Automatic captioning of audible parts of content on computing devices
WO2021085242A1 (en) Information processing device, and command processing method
WO2019150708A1 (en) Information processing device, information processing system, information processing method, and program
KR101906428B1 (en) Method for providing speech recognition based ai safety service
CN115171692A (en) Voice interaction method and device
KR102302029B1 (en) System for recogniting multiple input based on artificial intelligent
CN114550720A (en) Voice interaction method and device, electronic equipment and storage medium
JP2018055155A (en) Voice interactive device and voice interactive method
CN116959496A (en) Voice emotion change recognition method and device, electronic equipment and medium
US11775617B1 (en) Class-agnostic object detection
KR102258531B1 (en) Analysis unit for integrated recognition for multiple input recognition system
KR102356915B1 (en) Voice data recording device for speech recognition learning, and method therefor

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant