KR102319583B1 - System for providing interactive content based on image or voice analysis - Google Patents
System for providing interactive content based on image or voice analysis Download PDFInfo
- Publication number
- KR102319583B1 KR102319583B1 KR1020190114179A KR20190114179A KR102319583B1 KR 102319583 B1 KR102319583 B1 KR 102319583B1 KR 1020190114179 A KR1020190114179 A KR 1020190114179A KR 20190114179 A KR20190114179 A KR 20190114179A KR 102319583 B1 KR102319583 B1 KR 102319583B1
- Authority
- KR
- South Korea
- Prior art keywords
- scene
- module
- situation
- text
- interactive content
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8545—Content authoring for generating interactive applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/47202—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting content on demand, e.g. video on demand
Abstract
실시예들은 영상 또는 소리를 갖는 장면을 촬영하도록 구성된 영상장비, 및 촬영된 장면을 분석하여 해당 장면에 대한 상호 대화형 컨텐츠를 생성하도록 구성된 서버로서, 상기 서버는: 상기 영상장비로부터 획득된 촬영정보에서 상기 장면을 소리 또는 영상 측면에서 분석하여 장면정보를 산출하도록 구성된 상황 분석 모듈; 상기 촬영정보 및 장면정보 중 적어도 하나에 기초하여 해당 장면을 표현한 장면 텍스트로 변환하도록 구성된 상황 표현 모듈; 상기 장면 텍스트에 응답하여 상호 대화형 컨텐츠를 생성하도록 구성된 인터랙티브 모듈; 및 상기 상황 분석 모듈 또는 인터랙티브 모듈의 동작을 제어하는 액티베이션 모듈을 포함한, 서버를 포함한 상호 대화형 컨텐츠를 제공하는 시스템에 관련된다.Embodiments are an imaging device configured to shoot a scene having an image or sound, and a server configured to analyze the shot scene to generate interactive content for the scene, wherein the server includes: shooting information obtained from the imaging device a situation analysis module configured to analyze the scene in terms of sound or image to calculate scene information; a situation expression module configured to convert a scene text into a scene text expressing a corresponding scene based on at least one of the shooting information and the scene information; an interactive module configured to generate interactive content in response to the scene text; And it relates to a system for providing interactive content including a server, including an activation module for controlling the operation of the situation analysis module or the interactive module.
Description
본 발명의 실시예들은 비인간형 대화를 통한 상호 대화형 컨텐츠를 제공하는 기술에 관한 것으로서, 보다 상세하게는 영상장비를 통해 장면을 촬영하여 획득한 영상 및/또는 음성을 분석하고, 상기 장면에 나타난 상황에 적합한 컨텐츠를 음성, 영상, 프로젝션 및 이들의 조합 등으로 제공하는 시스템 및 방법에 관한 것이다.Embodiments of the present invention relate to a technology for providing interactive content through non-human dialogue, and more particularly, by analyzing images and/or voices obtained by shooting a scene through an imaging device, and It relates to a system and method for providing content suitable for a situation in the form of audio, video, projection, and a combination thereof.
현대사회에서 보안, 범죄 수사 등의 치안 분야에서의 관심, 또는 소송 자료 등의 법률 분야에서의 관심으로 인해, CCTV에 대한 수요가 증가하고 있는 추세이다. 이로 인해, 효율적인 CCTV 모니터링 관제 시스템 구축에 대한 필요성이 요구되고 있다. In modern society, the demand for CCTV is increasing due to interest in the field of policing, such as security and criminal investigation, or interest in the field of law, such as litigation materials. For this reason, there is a need for establishing an efficient CCTV monitoring control system.
종래의 CCTV 모니터링 관제 시스템은 CCTV가 촬영한 영상 및 이를 분석한 정보를 관제사에게 제공하도록 구성되었다. 또한, 관제사 중심의 일방적인 경보와 같은, 촬영 대상에 대한 단방향 의사소통만을 제공하는 한계가 있다. The conventional CCTV monitoring control system is configured to provide the video captured by the CCTV and the information analyzed thereto to the controller. In addition, there is a limitation in providing only one-way communication for a subject to be filmed, such as a one-way alert centered on a controller.
본 발명의 다수의 측면들에 따르면 촬영장면에서의 음성 또는 영상을 분석하여 해당 상황을 판단한 뒤, 장면의 대상에 대해 적합한 상호 대화형 컨텐츠를 제공하는 시스템 및 방법을 제공할 수 있다.According to a number of aspects of the present invention, it is possible to provide a system and method for analyzing a voice or video in a shooting scene to determine a corresponding situation, and then providing interactive content suitable for the subject of the scene.
본 발명의 일 측면에 따른 상호 대화형 컨텐츠를 제공하는 시스템은: 영상 또는 소리를 갖는 장면을 촬영하도록 구성된 영상장비, 및 촬영된 장면을 분석하여 해당 장면에 대한 상호 대화형 컨텐츠를 생성하도록 구성된 서버를 포함할 수 있다. 상기 서버는: 상기 영상장비로부터 획득된 촬영정보에서 상기 장면을 소리 또는 영상 측면에서 분석하여 장면정보를 산출하도록 구성된 상황 분석 모듈; 상기 촬영정보 및 장면정보 중 적어도 하나에 기초하여 해당 장면을 표현한 장면 텍스트로 변환하도록 구성된 상황 표현 모듈; 상기 장면 텍스트에 응답하여 상호 대화형 컨텐츠를 생성하도록 구성된 인터랙티브 모듈; 및 상기 상황 분석 모듈 또는 인터랙티브 모듈의 동작을 제어하는 액티베이션 모듈 중 적어도 하나를 포함한다. A system for providing interactive content according to an aspect of the present invention includes: an imaging device configured to shoot a scene having an image or sound, and a server configured to analyze the captured scene to generate interactive content for the scene may include. The server may include: a situation analysis module configured to calculate scene information by analyzing the scene in terms of sound or image from the shooting information obtained from the imaging device; a situation expression module configured to convert a scene text into a scene text expressing a corresponding scene based on at least one of the shooting information and the scene information; an interactive module configured to generate interactive content in response to the scene text; And it includes at least one of the activation module for controlling the operation of the situation analysis module or the interactive module.
일 실시예에서, 상기 상황 분석 모듈은 영상 분석 모델을 통해 장면의 영상을 분석하며, 상기 영상 분석 모델은, 상기 영상 내 객체 검출 또는 식별, 객체의 행동 검출, 장면의 상황 중 적어도 하나를 산출하도록 기계학습된다. In an embodiment, the situation analysis module analyzes an image of a scene through an image analysis model, and the image analysis model calculates at least one of detecting or identifying an object in the image, detecting an object's behavior, and a scene situation. machine learned
일 실시예에서, 상기 상황 분석 모듈은 소리 분석 모델을 통해 장면의 소리를 분석하며, 상기 소리 분석 모델은, 소리신호의 유형, 서브 유형, 및 상기 소리신호가 발생한 장면의 상황 중 적어도 하나를 산출하도록 기계학습된다. In an embodiment, the situation analysis module analyzes a sound of a scene through a sound analysis model, and the sound analysis model calculates at least one of a type of a sound signal, a sub-type, and a situation of a scene in which the sound signal is generated. machine learned to do
일 실시예에서, 상기 상황 분석 모듈은, 영상 또는 소리 분석 결과 촬영장면의 상황이 정상상황으로 일치하지 않는 경우, 정상상황과 상이한 상황을 촬영장면의 상황으로 산출하도록 더 구성될 수 있다. In an embodiment, the situation analysis module may be further configured to calculate a situation different from the normal situation as a situation of the shooting scene when the situation of the shooting scene does not match the normal situation as a result of the image or sound analysis.
일 실시예에서, 상기 상황 분석 모듈은, 상기 장면의 소리가 다이얼로그으로 산출된 경우에 상기 장면의 영상에 대한 분석을 수행하도록 구성될 수 있다. In an embodiment, the situation analysis module may be configured to analyze the image of the scene when the sound of the scene is calculated as a dialog.
일 실시예에서, 상기 상황 표현 모듈은, 상기 장면정보 내 영상 관련 정보에 기초하여 영상을 표현하기 위해 맥락(context)을 갖는 장면 텍스트를 생성하도록 더 구성될 수 있다. In an embodiment, the situation expression module may be further configured to generate a scene text having a context to represent an image based on the image-related information in the scene information.
일 실시예에서, 상기 장면 텍스트는 상기 영상의 객체 관련 정보를 입력으로 수신하여 상기 영상을 표현하기 위한 텍스트로 변환하는 캡셔닝 모델을 통해 생성될 수 있다. In an embodiment, the scene text may be generated through a captioning model that receives object-related information of the image as an input and converts it into text for expressing the image.
일 실시예에서, 상기 인터랙티브 모듈은, 챗봇 프로그램을 통해 상기 장면 텍스트에 연관된 상호 대화형 컨텐츠를 생성하고, 그리고 상기 상호 대화형 컨텐츠를 소리로 변환하도록 더 구성될 수 있다. In an embodiment, the interactive module may be further configured to generate interactive content associated with the scene text through a chatbot program, and convert the interactive content into sound.
일 실시예에서, 상기 인터랙티브 모듈은, 상호 대화형 컨텐츠를 생성하기 이전에, 상기 장면의 소리를 장면 텍스트로 변환하도록 더 구성될 수 있다. In an embodiment, the interactive module may be further configured to convert the sound of the scene into scene text before generating the interactive content.
일 실시예에서, 상기 인터랙티브 모듈은, 상기 챗봇 프로그램의 미리 저장된 대화 규칙에 기초하여 상기 장면 텍스트에 연관되어 있는 대화를 상호 대화형 컨텐츠로 생성할 수 있다. In an embodiment, the interactive module may generate the dialogue related to the scene text as interactive content based on a pre-stored dialogue rule of the chatbot program.
일 실시예에서, 상기 인터랙티브 모듈은, 훈련 샘플을 기반으로 입력 텍스트에 적합한 출력 텍스트를 산출하는 기계학습 모델을 갖는 챗봇 프로그램을 통해 상기 장면에 대한 상호 대화형 컨텐츠로 생성할 수 있다. In an embodiment, the interactive module may generate interactive content for the scene through a chatbot program having a machine learning model that generates output text suitable for input text based on a training sample.
일 실시예에서, 상기 상황 분석 모듈은, 상기 장면의 소리를 텍스트로 변환한 이후에, 상기 장면에 대한 분석을 수행하도록 더 구성될 수 있다. In an embodiment, the situation analysis module may be further configured to perform analysis on the scene after converting the sound of the scene into text.
일 실시예에서, 상기 액티베이션 모듈은, 상기 영상장비의 촬영 정보가 지정된 시간 또는 지정된 장소에서 획득된 경우에 상기 장면에 대한 분석을 수행하게 할 수 있다. In an embodiment, the activation module may perform analysis of the scene when the shooting information of the imaging equipment is acquired at a specified time or a specified place.
일 실시예에서, 상기 액티베이션 모듈은, 상기 상호 대화형 컨텐츠의 생성의 필요성에 기초하여 인터랙티브 모듈의 동작 개시를 제어할 수 있다. In an embodiment, the activation module may control the initiation of an operation of the interactive module based on the necessity of generating the interactive content.
일 실시예에서, 상기 필요성은, 대상의 행동, 대상의 음성의 유형, 촬영상황의 유형 및 이들의 조합 중 적어도 하나에 기초할 수 있다. In an embodiment, the need may be based on at least one of the subject's behavior, the subject's voice type, the shooting situation type, and a combination thereof.
일 실시예에서, 상기 상호 대화형 컨텐츠는 음성, 영상, 프로젝션 및 이들의 조합으로 상기 영상장비를 통해 제공될 수 있다.In an embodiment, the interactive content may be provided through the video device in the form of voice, video, projection, or a combination thereof.
본 발명의 일 측면에 따른 시스템은 대상으로부터 획득된 음성/영상 등을 통해 대상의 음성/행동에 기초하여 대상이 원하는 정보를 예측하여 대화로 제공하는 지능형 그리고 상호 대화형 컨텐츠를 제공한다. A system according to an aspect of the present invention provides intelligent and interactive content that predicts information desired by a target based on the target's voice/action through voice/video acquired from the target and provides it through conversation.
특히, 상기 시스템은 대상자의 기본 행동 패턴에 기반한 이상 행동을 검출하는 것에 제한되지 않고, 촬영장면에서의 영상 및 음성에 기초해 촬영장면을 분석하여 장면이 갖는 상황에 적합한 상호 대화형 컨텐츠를 생성한다. In particular, the system is not limited to detecting abnormal behavior based on the basic behavior pattern of the subject, and generates interactive content suitable for the situation of the scene by analyzing the shooting scene based on the video and audio in the shooting scene. .
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 청구범위의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.Effects of the present invention are not limited to the effects mentioned above, and other effects not mentioned will be clearly understood by those skilled in the art from the description of the claims.
본 발명 또는 종래 기술의 실시예의 기술적 해결책을 보다 명확하게 설명하기 위해, 실시예에 대한 설명에서 필요한 도면이 아래에서 간단히 소개된다. 아래의 도면들은 본 명세서의 실시예를 설명하기 위한 목적일 뿐 한정의 목적이 아니라는 것으로 이해되어야 한다. 또한, 설명의 명료성을 위해 아래의 도면들에서 과장, 생략 등 다양한 변형이 적용된 일부 요소들이 도시될 수 있다.
도 1은, 본 발명의 일 실시예에 따른, 상호 대화형 CCTV 시스템의 개념도이다.
도 2a 내지 도 2c는, 본 발명의 일 실시예에 따른, 상황 표현 모듈의 동작 결과를 도시한 도면이다.
도 3은, 본 발명의 일 실시예에 따른, 인터렉션 모듈의 개념도이다.
도 4는, 본 발명의 일 실시예에 따른, 음성신호가 비-다이얼로그인 경우 상호 대화형 컨텐츠를 생성하는 과정을 설명하기 위한 도면이다.
도 5는, 본 발명의 일 실시예에 따른, 음성신호가 다이얼로그인 경우 상호 대화형 컨텐츠를 생성하는 과정을 설명하기 위한 도면이다.
도 6 및 도 7은, 본 발명의 다양한 실시예에 따른, 도 1의 상호 대화형 컨텐츠 제공 시스템을 변형한 시스템 개념도이다. In order to more clearly explain the technical solutions of the embodiments of the present invention or the prior art, drawings necessary for the description of the embodiments are briefly introduced below. It should be understood that the drawings below are for the purpose of explaining the embodiments of the present specification and not for the purpose of limitation. In addition, some elements to which various modifications such as exaggeration and omission have been applied may be shown in the drawings below for clarity of description.
1 is a conceptual diagram of an interactive CCTV system according to an embodiment of the present invention.
2A to 2C are diagrams illustrating an operation result of a situation expression module according to an embodiment of the present invention.
3 is a conceptual diagram of an interaction module according to an embodiment of the present invention.
4 is a diagram for explaining a process of generating interactive content when a voice signal is a non-dialog, according to an embodiment of the present invention.
5 is a diagram for explaining a process of generating interactive content when a voice signal is a dialog, according to an embodiment of the present invention.
6 and 7 are system conceptual diagrams modified from the interactive content providing system of FIG. 1 according to various embodiments of the present invention.
여기서 사용되는 전문 용어는 단지 특정 실시예를 언급하기 위한 것이며, 본 발명을 한정하는 것을 의도하지 않는다. 여기서 사용되는 단수 형태들은 문구들이 이와 명백히 반대의 의미를 나타내지 않는 한 복수 형태들도 포함한다. 명세서에서 사용되는 "포함하는"의 의미는 특정 특성, 영역, 정수, 단계, 동작, 요소, 성분 및/또는 부품을 구체화하려는 것이며, 다른 특성, 영역, 정수, 단계, 동작, 요소, 성분 및/또는 부품의 존재나 부가를 제외시키는 것은 아니다.The terminology used herein is for the purpose of referring to specific embodiments only, and is not intended to limit the invention. As used herein, the singular forms also include the plural forms unless the phrases clearly indicate the opposite. The meaning of "comprising," as used herein, is intended to specify a particular characteristic, region, integer, step, operation, element, component, and/or part, and is intended to specify another characteristic, region, integer, step, operation, element, component and/or component. or the presence or addition of parts.
다르게 정의하지는 않았지만, 여기에 사용되는 기술용어 및 과학용어를 포함하는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 일반적으로 이해하는 의미와 동일한 의미를 가진다. 보통 사용되는 사전에 정의된 용어들은 관련기술문헌과 현재 개시된 내용에 부합하는 의미를 가지는 것으로 추가 해석되고, 정의되지 않는 한 이상적이거나 매우 공식적인 의미로 해석되지 않는다.Although not defined otherwise, all terms including technical and scientific terms used herein have the same meaning as commonly understood by those of ordinary skill in the art to which the present invention belongs. Commonly used terms defined in the dictionary are additionally interpreted as having a meaning consistent with the related technical literature and the presently disclosed content, and unless defined, they are not interpreted in an ideal or very formal meaning.
이하에서, 도면을 참조하여 본 발명의 실시예들에 대하여 상세히 살펴본다.Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
본 발명의 실시예들에 따른 상호 대화형 컨텐츠 제공 시스템은 촬영기기에서 획득된 영상 및/또는 음성을 분석하여 해당 장면에 적합한 의사소통(communication)(예컨대, 경보 알람, 정보 제공 등)을 자연스러운 언어로 표현해 다양한 수단(사운드 출력 장치, 디스플레이 장치, 프로젝션 장치 등)으로 제공할 수 있다. The interactive content providing system according to embodiments of the present invention analyzes an image and/or voice acquired from a photographing device to provide a communication (eg, alarm, alarm, information provision, etc.) suitable for the scene in a natural language. It can be expressed by various means (sound output device, display device, projection device, etc.).
도 1은, 본 발명의 일 실시예에 따른, 상호 대화형 CCTV 시스템의 개념도이다. 1 is a conceptual diagram of an interactive CCTV system according to an embodiment of the present invention.
도 1을 참조하면, 상호 대화형 컨텐츠 제공 시스템(1)은 촬영기기(5)와 전기통신하는 서버(10)를 포함한다. Referring to FIG. 1 , the interactive
실시예들에 따른 상호 대화형 컨텐츠 제공 시스템(1)은 전적으로 하드웨어이거나, 전적으로 소프트웨어이거나, 또는 부분적으로 하드웨어이고 부분적으로 소프트웨어인 측면을 가질 수 있다. 예컨대, 상호 대화형 컨텐츠 제공 시스템(1)은 데이터 처리 능력이 구비된 하드웨어 및 이를 구동시키기 위한 운용 소프트웨어를 통칭할 수 있다. 본 명세서에서 "부(unit)", "시스템" 및 "장치" 등의 용어는 하드웨어 및 해당 하드웨어에 의해 구동되는 소프트웨어의 조합을 지칭하는 것으로 의도된다. 예를 들어, 하드웨어는 CPU(Central Processing Unit), GPU(Graphic Processing Unit) 또는 다른 프로세서(processor)를 포함하는 데이터 처리 기기일 수 있다. 또한, 소프트웨어는 실행중인 프로세스, 객체(object), 실행파일(executable), 실행 스레드(thread of execution), 프로그램(program) 등을 지칭할 수 있다.The interactive
영상장비(5)는 영상신호 및 소리신호를 수신하도록 구성된다. 영상장비(5)는 (예컨대, 사람이 나타난) 장면을 이루는 영상 또는 소리(예컨대, 대상의 음성) 을 획득할 수 있다. 이를 위해, 영상장비(5)는, 예를 들어, 영상 또는 동영상을 촬영하는 촬영 유닛; 소리(sound)를 수신하는 소리 입력 유닛(예컨대, 마이크 유닛 등)을 포함한다.The
본 명세서에서, 음성신호는 사람의 구강 구조로부터 출력된 신호만으로 제한되지 않는다. 즉, 음성신호는 사람의 음성 이외에 기타 소리신호를 포함하는 신호를 지칭한다. In the present specification, the voice signal is not limited to only the signal output from the human oral structure. That is, the voice signal refers to a signal including other sound signals in addition to the human voice.
또한, 영상장비(5)는 서버(10)와 데이터를 송수신하도록 더 구성된다. 영상장비(5)는 수신한 영상신호 및 소리신호의 입력을 서버(10)로 전송한다. 이를 위해, 영상장비(5)는 서버(10)와 유/무선의 전기적 연결을 통해 전기 통신할 수 있는 송수신 유닛을 더 포함한다. 상기 송수신 유닛은 서버(10)의 통신 프로토콜에 따라서, 유/무선을 통한 광역/근거리 네트워크 또는 로컬 접속 방식 등의 다양한 네트워크 인터페이스를 통해 서버(10)에 액세스한다. In addition, the
또한, 영상장비(5)는 상기 영상신호 및 소리신호에 기초하여 생성된 상호 대화형 컨텐츠(예컨대, 다이얼로그(dialogue))를 서버(10)로부터 수신하여 출력한다. 상기 상호 대화형 컨텐츠는 소리 또는 영상으로 출력된다. 일 실시예에서, 서버(10)에 의해 자동으로 생성된 자연스러운 소리나, 또는 디스플레이 장치 상에 표시하여 정보(즉, 상호 대화형 컨텐츠)를 제공할 수 있다. 또는, 상황에 따라서 프로젝션과 같은 형태로 상호 대화형 컨텐츠를 영상장비(5)로부터 일정 간격에 위치한 대상에게 제공할 수 있다. Also, the
이를 위해, 영상장비(5)는, 예를 들어, 상호 대화형 컨텐츠를 영상으로 출력하는 디스플레이 유닛; 및 소리로 출력하는 음향 유닛(예컨대, 스피커 등) 중 적어도 하나를 포함한다. 일부 실시예에서, 상기 디스플레이 유닛은 프로젝션 방식으로 출력하는 프로젝션 유닛일 수 있다. To this end, the
이하, 설명의 명료성을 위해, 소리입력 유닛; 송수신 유닛; 음향 유닛을 포함한 CCTV를 영상장비(5)로 갖는 실시예들을 통해 본 발명을 보다 상세하게 서술한다. Hereinafter, for clarity of explanation, a sound input unit; transceiver unit; The present invention will be described in more detail through embodiments having a CCTV including a sound unit as the
이러한 영상장비(5)는 촬영범위 내 장면 등과 같은, 상황을 나타내는 촬영 정보를 서버(10)에 전송한다. 상기 촬영 정보는 촬영범위 내 물리적 신호에 기초한 영상(또는 동영상), 소리 정보를 포함한다. 또한, 상기 촬영 정보는 영상, 소리 등을 촬영한 영상장비(5)의 식별자, 촬영 시간 등을 더 포함한다. 상기 촬영 정보가 동영상에 관한 것인 경우, 상기 촬영 정보는 각 프레임별 관련 정보(프레임 식별자 등)를 더 포함한다. The
서버(10)는 프로세서를 포함한 데이터 처리 장치로서, 영상장비(5)로부터 촬영장면에서의 영상신호 및/또는 소리신호를 수신하고, 해당 신호를 처리하여 해당 신호가 획득될 당시의 장면을 분석한 뒤, 상기 장면에 나타난 상황에 적합한 상호 대화형 컨텐츠를 생성한다. The
일 실시예에서, 서버(10)는 상황 분석 모듈(100), 상황 표현 모듈(300), 인터랙티브 모듈(500) 및 액티베이션 모듈(700) 중 적어도 하나를 포함한다. In an embodiment, the
상호 대화형 컨텐츠 제공 시스템(1)은 서버(10)가 영상장비(5)로부터 입력을 수신한 뒤, 상황 분석 모듈(100), 상황 표현 모듈(300), 인터랙티브 모듈(500) 및 액티베이션 모듈(700) 중 적어도 하나를 통해 상호 대화형 컨텐츠를 도출하면, 영상장비(5)의 출력 유닛(예컨대, 디스플레이 유닛 또는 음향 유닛)을 통해 영상장비(5)와 일정 간격 내에 위치한 대상에게 해당 상호 대화형 컨텐츠를 제공할 수 있다. After the
한편, 상호 대화형 컨텐츠 제공 시스템(1)의 상호 대화형 컨텐츠는 반드시 모든 모듈을 거친 데이터 처리 결과에 제한되지 않으며, 다수의 모듈 중 적어도 일부에 의한 데이터 처리 결과를 제공할 수도 있다. On the other hand, the interactive content of the interactive
그러나, 서버(10)를 구성하는 각각의 부(100, 300, 500, 700)는 반드시 물리적으로 구분되는 별개의 구성요소를 지칭하는 것으로 의도되지 않는다. 따라서, 도 1에서 각각의 부(100, 300, 500, 700)는 서로 구분되는 별개의 블록으로 도시되나, 실시예에 따라서는 각각의 부(100, 300, 500, 700)는 중 일부 또는 전부가 동일한 장치 내에 집적화될 수 있다. 또한, 각각의 부(100, 300, 500, 700)는 이들이 구현된 컴퓨팅 장치에서 수행하는 동작에 따라 장치를 기능적으로 구분한 것일 뿐, 반드시 서로 분리된 별개의 소자를 의미하는 것이 아니다. However, each of the
따라서, 도 1의 상호 대화형 컨텐츠 제공 시스템(1)의 시스템 아키텍쳐(system architecture)는 영상 및 음성을 분석하여 상호 대화형 컨텐츠를 생성 및 출력하는 과정에 대한 예시적인 설명에 불과하며, 다양하게 변형된 구조를 갖는 경우에도 상호 대화형 컨텐츠를 생성 및 출력할 수도 있다. 도 1의 상호 대화형 컨텐츠 제공 시스템(1)의 변형된 시스템 아키텍쳐에 대해서는 아래의 도 6 및 도 7을 참조하여 보다 상세하게 서술한다. Accordingly, the system architecture of the interactive
상황 분석 모듈(100)은 촬영장면에서의 영상 및/또는 음성을 분석하여 촬영장면의 상황을 판단하도록 구성된다. The
상황 분석 모듈(100)은 영상 기반 분석 및 음성 기반 분석 중 적어도 하나의 분석 동작을 수행하도록 구성된다. 예를 들어, 상황 분석 모듈(100)은 영상 기반 분석과 음성 기반 분석을 동시에 활용하도록 구성되거나, 또는 선택적으로 활용하도록 구성된다. 예를 들어, 도 1에 도시된 바와 같이, 상황 분석 모듈(100)은 영상 분석 모듈(110) 및 음성 분석 모듈(130)을 포함하여, 영상 정보 및 음성 정보를 분석할 수 있다. The
영상 분석 모듈(110)은 영상장비(5)로부터 서버(10)에 의해 수신된 영상신호를 사용하여 상기 영상신호에 관련된 장면의 객체 검출(object detection), 객체 인식(object recognition) 및 이상 검출(anormaly detection) 등과 같은, 영상 기반 컴퓨터 비전(computer vision) 또는 영상 처리 동작을 수행하도록 구성된다. 여기서, 객체 검출은 지정된 객체 검출(예컨대, 얼굴 검출), 사용자 정의 객체 검출을 포함하며, 객체 인식은 얼굴 인식, 신원확인 등을 포함한다. The
영상 분석 모듈(110)은 영상의 촬영 장소, 영상 내 객체 검출 또는 식별, 객체의 행동 검출 등을 수행할 수 있다. 이로 인해, 영상 분석 모듈(110)은 영상 내 객체 식별 정보(사람, 차, 동물 등), 객체의 수, 객체의 행동, 객체의 외관(옷, 액세서리, 색상, 재질 등), 객체의 위치 등을 영상 분석 결과로 산출할 수 있다. The
또한, 영상 분석 모듈(110)은 촬영장면의 상황을 분류하도록 더 구성된다. 상기 촬영상황은, 예를 들어, 정상 상황, 이상상황(위험, 위급 등)을 포함한다. 이로 인해, 영상 분석 모듈(110)은 이상상황 여부, 이상상황 식별 정보(위험, 폭력, 배회, 대상의 넘어짐) 등을 포함한다.In addition, the
영상 분석 모듈(110)은 영상 분석 모델을 통해 영상 처리 동작을 수행한다. 여기서, 영상 분석 모델은, 딥러닝 모델과 같은, 기계학습 모델이다. 상기 영상 분석 모델은, 예를 들어, CNN(Convolution Neural Network), RNN(Recurrent Neural Networks), LSTM(Long Short Term Memory), GAN(Generative Adversarial Network) 구조 등을 포함한 기계학습 모델 구조로 구성된다. The
이러한 영상 분석 모델을 통해 영상 분석 모듈(110)은 영상 내 객체를 검출 및 인지할 수 있고, 영상 내 이상(예컨대, 객체의 이상행동 등)을 검출 및 예측할 수 있다. Through such an image analysis model, the
영상 분석 모듈(110)은 다수의 영상 분석 동작을 수행하도록 학습된 모델을 갖거나, 또는 특정 분석 동작을 위한 모델(예컨대, 이상상황 검출을 위한 모델, 얼굴인식을 위한 모델 등)을 복수 개 가질 수 있다. The
대안적인 실시예에서, 영상 분석 모듈(110)은 영상장비(5)의 목적에 맞는 분석을 수행하도록 구성될 수 있다.In an alternative embodiment, the
일 예에서, 상호 대화형 컨텐츠 제공 시스템(1)이 정보 제공을 위한 영상장비(5)를 갖는 경우, 영상 분석 모듈(110)은 객체 검출을 위한 분석을 수행하도록 구성된다. 다른 일 예에서, 상호 대화형 컨텐츠 제공 시스템(1)이 경보 알람을 위한 영상장비(5)를 갖는 경우, 상황 분석 모듈(100)은 객체 인식을 위한 분석을 수행하도록 구성된다.In one example, when the interactive
음성 분석 모듈(130)은 사람의 음성을 포함한, 촬영 장면에 연관된 음성의 일부 또는 전부에 대해 음성 기반 분석을 수행하도록 구성된다. 즉, 음성 분석 모듈(130)은 입력된 음성 중 사람의 음성을 중점적으로 분석하나, 다른 음성(예컨대, 배경음)에 대한 분석 또한 수행한다. The
상기 촬영 장면에 연관된 음성은, 사람의 음성 및 사물의 음성을 포함한다. 여기서, 사람의 음성은 특정인의 대화, 다수의 웅성웅성하는 음성을 포함한다. 사물의 음성은 엠뷸란스 음성 등을 포함한다. 촬영 장면에 연관된 음성의 분석 결과는 장면의 장면을 판단하는데 사용될 수 있다. The voice related to the shooting scene includes a human voice and an object voice. Here, the human voice includes a conversation of a specific person and a plurality of loud voices. The object's voice includes an ambulance voice and the like. The analysis result of the voice related to the shooting scene may be used to determine the scene of the scene.
이러한 음성 기반 분석을 위해, 음성 분석 모듈(130)은, 영상장비(5)로부터 서버(10)에 의해 수신된 촬영장면에서의 음성신호에서 상기 음성신호가 발생한 객체의 상황(예컨대, 위험 상황)을 판단하게 하는 음성 처리 동작을 수행하도록 구성된다. For such a voice-based analysis, the
일 실시예에서, 음성 분석 모듈(130)은 촬영 정보의 음성신호로부터 음원인 대상의 음성 특성을 산출하도록 더 구성된다. 상기 음성 특성은, 예를 들어 음성신호의 주파수, 진폭, 파형, 음성신호 간의 간격 등을 포함한다. In one embodiment, the
또한, 음성 분석 모듈(130)은 음성신호 및/또는 음성 특성에 기초하여 음성신호의 유형을 산출한다. 상기 음성신호의 유형은, 음성신호가 특정 목적을 위한 대화인 다이얼로그, 또는 배경음과 같은 다이얼로그가 아닌 음성 등을 포함한다. Also, the
일부 실시예에서, 음성 분석 모듈(130)은 특정 유형의 서브 유형을 더 산출할 수 있다. 음성신호의 유형이 다이얼로그인 경우, 음성 분석 모듈(130)은 해당 다이얼로그의 유형을 서브 유형으로 산출한다. 상기 서브 유형은, 예를 들어 정상상황 하에서의 문의, 위급상황 하에서의 요청 등을 포함한다. In some embodiments, the
음성 분석 모듈(130)은 음성 분석 모델을 통해 전술한 음성 처리 동작을 수행한다. 여기서, 음성 분석 모델은 전술한 영상 분석 모델과 유사한 구조를 가지나, 음성 데이터를 훈련 데이터로 하여 기계학습된다. The
상황 분석 모듈(100)은 영상 또는 음성 분석 결과 촬영장면의 상황이 정상상황으로 일치하지 않는 경우, 정상상황과 상이한 상황을 촬영장면의 상황으로 산출한다. The
예를 들어, 이상상황이 검출되지 않아 영상 분석에 따른 촬영상황의 유형이 정상상황으로 산출되었으나 음성 분석 결과 촬영상황의 유형이 위급상황으로 산출된 경우, 상황 분석 모듈(100)은 정상상황과 상이한 상황(즉, 위급상황)을 촬영장면의 상황으로 판단한다. For example, when no abnormal situation is detected and the type of the shooting situation according to the image analysis is calculated as a normal situation, but the type of the shooting situation is calculated as an emergency situation as a result of the voice analysis, the
또는, 객체의 행동이 “폭행”으로 검출되어 영상 분석에 따른 촬영상황의 유형이 위험상황으로 산출되었으나, 입력된 음성이 작아 음성 분석에 따른 촬영상황의 유형이 정상상황으로 산출된 경우, 상황 분석 모듈(100)은 정상상황과 상이한 상황(즉, 위험상황)을 촬영장면의 상황으로 판단한다. Alternatively, if the behavior of the object is detected as “assault” and the type of shooting situation according to the image analysis is calculated as a dangerous situation, but the input voice is small, the type of the shooting situation according to the voice analysis is calculated as a normal situation, situation analysis The
상황 분석 모듈(100)의 분석 결과는 장면 정보로서 상황 표현 모듈(300) 또는 인터랙티브 모듈(500)에 제공될 수 있다. The analysis result of the
상황 표현 모듈(300)은 촬영장면에서 영상 또는 영상에 대한 분석 결과에 기초하여 장면에 나타난 상황을 맥락을 갖는 텍스트로 표현하는, 상황 해석 동작을 수행하도록 구성된다. 예를 들어, 도 1에 도시된 바와 같이, 상황 표현 모듈(300)은 영상-텍스트 변환 모듈(310) 및 음성-텍스트 변환 모듈(330)을 포함한다. 장면의 상황을 맥락을 갖는 텍스트로 표현하는 상황 해석 동작은 단순히 장면의 상황이 이상상황인지 여부를 판단하는 상황 판단 동작과는 구별된다. The
상기 상황 해석 동작에 있어서, 영상정보를 단어 또는 문장으로 변환하는 동작은 캡셔닝(captioning)으로 지칭될 수 있다. 변환 모듈(310)은 영상정보를 텍스트로 변환하도록 구성되어, 영상 측면에서 장면을 해석한다. 이를 위해, 변환 모듈(310)은 정지된 영상에 대한 캡셔닝(image captioning) 또는 동영상에 대한 캡셔닝(video captioning) 방식을 영상 분석 결과에 적용하도록 구성될 수 있다. In the situation analysis operation, the operation of converting image information into words or sentences may be referred to as captioning. The
영상 캡셔닝 방식에 의해, 정지 영상 1장에 대한 영상 정보가 문장 등의 텍스트로 변환된다. 한편, 동영상 캡셔닝 방식에 의해, 동영상 내 연속된 프레임을 바탕으로 동영상에 대한 정보가 텍스트로 변환된다. 여기서, 텍스트는 단어(word) 또는 문장(sentence)을 포함한다. Image information for one still image is converted into text such as sentences by the image captioning method. Meanwhile, by the video captioning method, information about the video is converted into text based on continuous frames in the video. Here, the text includes a word or a sentence.
일 실시예에서, 변환 모듈(310)은 캡셔닝 모델을 통해 영상 정보를 텍스트로 변환한다. 여기서, 캡셔닝 모델은, 예를 들어, CNN(Convolution Neural Network), RNN(Recurrent Neural Networks), LSTM(Long Short Term Memory) 구조 등을 포함한 기계학습 모델 구조로 구성되나, 이에 제한되지 않는다. 상기 캡셔닝 모델은, 영상 관련 정보 및/또는 상기 영상을 표현하는 텍스트를 포함한 훈련 샘플을 통해 미리 기계 학습된다. In an embodiment, the
또한, 일부 실시예에서, 캡셔닝 모델은 해당 모델로 하여금 텍스트 변환을 위해 중요한 부분에만 집중하게 하는 어텐션(Attention) 메커니즘에 의해 기계학습될 수도 있다. 상기 중요한 부분은, 예를 들어 영상의 객체와 관련된 정보(예컨대, 객체 식별 정보, 행동 등)를 포함한다. Also, in some embodiments, the captioning model may be machine-learned by an Attention mechanism that causes the corresponding model to focus only on important parts for text conversion. The important part includes, for example, information related to the object of the image (eg, object identification information, behavior, etc.).
캡셔닝 모델을 통해 변환 모듈(310)은 촬영 당시 장면을 맥락(context)을 갖는 텍스트로 표현할 수 있다. Through the captioning model, the
도 2a 내지 도 2c는, 본 발명의 일 실시예에 따른, 상황 표현 모듈의 동작 결과를 도시한 도면이다.2A to 2C are diagrams illustrating an operation result of a situation expression module according to an embodiment of the present invention.
도 2a의 영상이 서버(10)에 입력된 경우, 변환 모듈(310)은 도 2a의 영상 분석 결과를 “블랙 셔츠의 남자는 기타를 연주한다”는 맥락을 갖는 텍스트로 변환한다. When the image of FIG. 2A is input to the
도 2b의 영상이 서버(10)에 입력된 경우, 변환 모듈(310)은 도 2b의 영상 분석 결과를 “오렌지색 안전 조끼의 노동자가 도로에서 일하고 있다”는 텍스트로 변환한다. When the image of FIG. 2B is input to the
도 2c의 영상이 서버(10)에 입력된 경우, 변환 모듈(310)은 도 2c의 영상 분석 결과를 “두 명이 레고를 갖고 논다”는 텍스트로 변환한다. When the image of FIG. 2C is input to the
동영상 캡셔닝 방식은 정지된 영상에 대응하는 프레임 각각에 대한 정보에 기초하여 동영상에 대한 정보를 텍스트로 변환할 수 있다. In the video captioning method, information on a video may be converted into text based on information on each frame corresponding to a still image.
대안적인 실시예에서, 상황 표현 모듈(300)은 하나 이상의 언어(예컨대, 한글, 영문 등)로 장면을 텍스트로 표현할 수 있다. 예를 들어, 도 2a 내지 도 2c의 영상에 대해서 상황 표현 모듈(300)은 각각 “man in black shirt is playing guitar”,“worker in orange safety vest in working on road”,“two people are playing with lego toy”로 각각 변환할 수 있다. In an alternative embodiment, the
일부 실시예에서, 상호 대화형 컨텐츠 제공 시스템(1)은 각 언어에 대한 개별적인 영상 해석을 위한 딥러닝 모델을 이용하도록 구성될 수 있다. In some embodiments, the interactive
다른 일부 실시예에서, 상호 대화형 컨텐츠 제공 시스템(1)은 다수의 언어에 대하여 동시에 학습하여 하나의 모델로 다수의 언어를 출력하도록 구성된 딥러닝 모델을 이용하도록 구성될 수 있다. In some other embodiments, the interactive
이로 인해, 상호 대화형 컨텐츠 제공 시스템(1)은 다양한 언어에 대응하여 상호 대화할 수 있다. For this reason, the interactive
일 실시예에서, 변환 모듈(310)은 영상장비(5)의 목적에 맞는 캡셔닝 동작을 수행하도록 구성될 수 있다. 일 예에서, 상호 대화형 컨텐츠 제공 시스템(1)이 정보 제공을 위한 영상장비(5)를 갖는 경우, 변환 모듈(310)은 정지된 영상에 대한 캡셔닝 동작을 수행하도록 구성된다. In an embodiment, the
음성-텍스트 변환 모듈(330)은 촬영장면의 음성신호 또는 분석 결과에 기초하여 장면에 나타난 상황을 텍스트로 표현하도록 구성된다. 변환 모듈(330)은 음성정보를 텍스트로 변환하도록 구성되어, 음성 측면에서 장면을 해석한다. 이를 위해, 변환 모듈(330)은 스피치-투-텍스트 프로그램(STT, Speech-to-text)을 통해 서버(10)가 수신한 대상의 음성을 텍스트로 변환하도록 구성된다. The voice-to-
상기 변환 모듈(330)은 서버(10)가 수신한 음성신호를 직접 수신하여 텍스트로 변환하거나, 또는 서버(10)가 수신한 음성신호 및 음성 분석 모듈(130)로부터 수신한 음성 분석 결과 중 하나 이상에 기초하여 장면을 표현한 텍스트를 생성한다.The
이러한 상황 표현 모듈(300)의 상황 해석 결과(예컨대, 텍스트 변환 결과)는 인터랙티브 모듈(500)로 전송될 수 있다.The situation analysis result (eg, text conversion result) of the
인터랙티브 모듈(500)은 촬영 정보(입력 영상 또는 음성), 상황 분석 결과, 해석 결과 및 이들의 조합 등에 기초하여 촬영 장면(예컨대, 촬영 장면)에 적합한 상호 대화형 컨텐츠를 생성한다. 이를 통해 서버(10)는 장면(예컨대, 장면 내 대상)과 상호작용을 수행하도록 구성된다. The
도 3은, 본 발명의 일 실시예에 따른, 인터랙티브 모듈의 개념도이다. 3 is a conceptual diagram of an interactive module according to an embodiment of the present invention.
도 3을 참조하면, 인터랙티브 모듈은 입력의 유형에 따라 상이한 데이터 처리 경로를 가진다. Referring to FIG. 3 , the interactive module has different data processing paths according to the type of input.
일 실시예에서, 인터랙티브 모듈(500)은 상황 표현 모듈(500)에 의해 생성된 장면 텍스트를 수신할 경우, 수신된 텍스트에 응답하여 상호 대화형 컨텐츠를 생성할 수 있다. In an embodiment, when receiving the scene text generated by the
인터랙티브 모듈(500)은 상호 대화형 컨텐츠를 생성하기 위한 하나 이상의 컴퓨터 프로그램을 수행할 수 있다. 상기 컴퓨터 프로그램은, 예를 들어 기계학습 또는 인공 지능을 지원하는 (예컨대, NLP(Nature Langague Processing) 및/또는 NLU(Nature Language Understanding) 프로그램을 포함하는) 자연어 프로그램 또는 다양한 비인간형 채팅 프로그램일 수 있다. 예를 들어, 인터랙티브 모듈(500)은 챗봇 프로그램(530)이 설치되어 상호 대화형 컨텐츠를 생성 및 제공한다. The
상기 인터랙티브 모듈(500)은 영상으로부터의 텍스트를 수신하면, 예컨대 챗봇 프로그램(530)을 통해, 수신한 영상으로부터의 텍스터에 적합한 응답을 생성한다. 상기 응답은 상호 대화형 컨텐츠를 위한 맥락을 갖는 텍스트 데이터(“상호 대화형 컨텐츠”)이다. Upon receiving the text from the image, the
일 실시예에서, 인터랙티브 모듈(500)은 규칙 기반 챗봇(Rule-based chatbot)(530)을 통해 상호 대화형 컨텐츠를 생성한다. 규칙 기반 챗봇은 미리 설정된 규칙에서 지정된 텍스트가 입력되는 경우, 상기 규칙에 따라 입력에 대응하는 결과를 출력하도록 구성된다. 상기 규칙 기반 챗봇은, 예를 들어, Google DialogFlow API, Amazon LEX API 등으로 구성될 수 있다. In one embodiment, the
예를 들어, 상황 표현 모듈(300)에서 미리 지정된 장면 텍스트가 생성되어 인터랙티브 모듈(500)에 수신된 경우, 챗봇 프로그램은 미리 지정된 규칙에 따른 출력을 생성한다. For example, when a predetermined scene text is generated in the
다른 일 실시예에서, 인터랙티브 모듈(500)은 기계학습 기반 챗봇(Machine Learning based Chatbot)을 통해 상호 대화형 컨텐츠를 생성한다. 기계학습 기반 챗봇은 대규모의 훈련 샘플을 기반으로 입력 텍스트에 적합한 출력 텍스트를 산출하는 대화 모델로 구성된다. 상기 훈련 샘플은 특정 목적에 대한 대화인 다이얼로그(dialog)를 포함한다. 상기 기계학습 기반 챗봇은, 예를 들어, seq2seq model, pLSA 등으로 구성될 수 있다. In another embodiment, the
대안적인 실시예들에서, 인터랙티브 모듈(500)은, 입력 텍스트에 적합한 출력 텍스트를 출력하는 다양한 알고리즘 기반 챗봇을 가질 수 있다. In alternative embodiments,
챗봇 프로그램(530)에 의해 생성된 상호 대화형 컨텐츠는 텍스트-투-스피치(TTS, Text-to-Speech) 프로그램(550)을 통해 음성으로 변환되어, 상호 대화형 컨텐츠가 생성된다. The interactive content generated by the
다른 일 실시예에서, 인터랙티브 모듈(500)은 음성신호를 수신하고, 수신된 음성신호에 응답하여 상호 대화형 컨텐츠를 생성할 수 있다. In another embodiment, the
도 3에 도시된 바와 같이, 인터랙티브 모듈(500)은 음성-텍스트 변환 모듈(510)을 더 포함할 수 있다. 이 경우, 인터랙티브 모듈(500)은 서버(10)가 수신한 음성신호를 텍스트로 변환한 뒤, 이어서 변환된 텍스트를 챗봇 프로그램에 입력하여 수신된 음성신호에 적합한 상호 대화형 컨텐츠를 생성할 수 있다. 일부 실시예에서, 변환 모듈(510)은 변환 모듈(330)의 적어도 일부 동작을 수행할 수 있다. 또한, 변환 모듈(510)은 음성의 맥락(context) 또는 상기 음성에 나타난 대상의 의도(intent)를 검출하도록 더 구성될 수 있다. 3 , the
일 예로서, 변환 모듈(510)은 텍스트 기반 의도분석 모델을 통해 사람의 음성이 수신된 경우, 해당 음성에 나타난 사람의 의도를 산출할 수 있다. 여기서, 의도분석 모델은 음성을 텍스트화한 훈련 샘플을 통해 미리 특정한 의도(길 안내, 날씨, 위험, 시간 등)를 지정하도록 미리 학습된 기계학습 모델이다. 그러면, 변환 모듈(510)은 사람의 음성이 수신된 경우, 해당 음성을 텍스트화한 뒤 상기 의도분석 모델에 적용하여, 해당 음성에 나타난 사람의 의도를 출력할 수 있다. As an example, when a human voice is received through the text-based intention analysis model, the
한편, 변환 모듈(510)은 다른 기계학습 모델을 가질 수 있다. 예를 들어, 주제 모델링(topic modeling) 방식, 텍스트 분류(text classification) 방식으로 음성의 맥락 또는 의도를 출력하도록 기계학습된 모델을 가질 수 있다. Meanwhile, the
이로 인해, 만약 입력 음성이 지정된 특정한 의도로 산출된 경우, 산출된 의도에 대해 미리 연관된 대화 텍스트로 상호 대화형 컨텐츠를 제공할 수 있다. 또는, 상황 분석 모듈(100)로 산출된 의도 및 수신한 음성 입력 등을 전달할 수 있다. For this reason, if the input voice is calculated with a specified specific intention, interactive content may be provided as a dialogue text previously related to the calculated intention. Alternatively, the calculated intention and the received voice input may be transmitted to the
이러한 음성의 맥락 또는 의도를 분석하고, 분석된 맥락 또는 음성에 미리 연관된 대화 텍스트를 음성으로 변환하는 과정들은 애플의 시리(Siri), 아마존의 에코(Echo), 또는 공개특허공보 제10-2019-0099061호 등을 통해 통상의 기술자에게 잘 알려져 있는 것이므로, 발명의 요지를 명확하게 하기 위하여 본 명세서에서는 자세한 설명은 생략한다. The processes of analyzing the context or intention of the voice and converting the conversation text previously related to the analyzed context or voice into voice are Apple's Siri, Amazon's Echo, or Korean Patent Application Laid-Open No. 10-2019- Since it is well known to those skilled in the art through No. 0099061 and the like, a detailed description will be omitted herein in order to clarify the gist of the present invention.
이와 같이, 인터랙티브 모듈(500)은 적어도 음성신호에 대해서는 자체적으로 상호 대화형 컨텐츠를 생성할 수도 있다. 이러한 인터랙티브 모듈(500)은 미리 지정된 입력(예컨대, 음성을 변환한 텍스트)를 수신할 경우, 상호 대화형 컨텐츠를 생성할 필요가 있는 것으로 판단하고, 그러면 수신한 입력에 연관되어 있는, 미리 지정된 출력을 상호 대화형 컨텐츠로 생성한다. As such, the
일부 실시예에서, 서버(10)내에서 음성신호를 텍스트로 변환하는 동작은 변환 모듈(510)에 의해서만 수행될 수 있다. 여기서, 상황 표현 모듈(300)은 영상정보만을 텍스트로 변환한다. In some embodiments, the operation of converting the voice signal into text in the
또한, 인터랙티브 모듈(500)은 이전 상호 대화형 컨텐츠(pre-interactive content)를 생성한 이후에 대화의 지속이 필요한 경우 후속 상호 대화형 컨텐츠(post-interactive content)를 생성하여 영상장비(5)로 전송한다. In addition, the
일 실시예에서, 대화의 지속이 필요한 경우는, 시스템(1)이 이전 상호 대화형 컨텐츠를 출력한 시간으로부터 소정 시간(예컨대, 수초, 또는 수십초) 이내에 수신한 대상의 음성에 기초한 변환 텍스트가 인터랙티브 모듈(500)의 미리 지정된 입력인 경우를 포함한다.In one embodiment, when it is necessary to continue the conversation, the converted text based on the voice of the received subject within a predetermined time (eg, several seconds or tens of seconds) from the time the
한편, 인터랙티브 모듈(500)은 음성으로 변환된 상호 대화형 컨텐츠 이외의, 다른 데이터를 서버(10) 내 다른 구성요소에 제공할 수 있다. Meanwhile, the
일 실시예에서, 인터랙티브 모듈(500)은 변환 모듈(510)에 의해 입력 음성을 텍스트로 변환한 장면의 음성 텍스트를 상황 분석 모듈(100)에 제공할 수도 있다. 이 경우, 인터랙티브 모듈(500)은 상호 대화형 컨텐츠를 생성함에 있어서, 상황 표현 모듈(300)에서 출력된 텍스트 대신에, 상황 분석 결과 및 입력 음성으로부터 획득된 장면 텍스트에 기초하여 상호 대화형 컨텐츠를 생성한다. In an embodiment, the
액티베이션 모듈(700)은 전술한 모듈(100, 300, 또는 500) 중 적어도 하나의 동작을 제어한다. 액티베이션 모듈(700)에는 제어 동작을 위한 명령어가 미리 저장되어 있다. The
액티베이션 모듈(700)은 상황 분석이 필요할 경우 촬영 정보에 기초하여 상황을 분석한다. When a situation analysis is required, the
상기 상황 분석이 필요한 경우는, 촬영 정보가 지정된 시간에 획득된 경우, 촬영 정보가 지정된 장소에서 획득된 경우, 또는 상황의 재-분석을 해야 할 경우 등을 포함한다. Cases in which the situation analysis is necessary include a case in which shooting information is acquired at a specified time, a case in which shooting information is acquired at a specified place, or a case where re-analysis of the situation is required.
예를 들어, 액티베이션 모듈(700)은 영상장비(5)의 촬영 정보(예컨대, 음성 또는 영상신호)가 지정된 장소에서 획득된 경우 상황 분석 모듈(100)이 동작하게 한다. 촬영 정보가 촬영한 영상장비(5)의 식별자를 포함하는 경우, 액티베이션 모듈(700)은 영상신호 또는 소리신호(예컨대, 음성신호)와 함께 영상장비(5)의 식별자를 획득하고, 미리 저장된 식별자-위치 테이블을 통해 서버(10)가 수신한 촬영 정보가 지정된 장소에서 획득되었는지를 판단한다. For example, the
액티베이션 모듈(700)은 영상장비(5)의 촬영 정보(예컨대, 음성 또는 영상신호)가 지정된 시간 범위 내에서 획득 경우, 상황 분석 모듈(100)이 동작하게 한다. 촬영 정보가 촬영시간을 포함하는 경우, 액티베이션 모듈(700)은 영상장비(5)의 신호와 함께 획득된 촬영시간에 기초하여 지정된 시간에서 영상이 획득되었는지 여부를 판단한다.The
액티베이션 모듈(700)은 인터랙티브 모듈(500)이 입력에 대한 상호 대화형 컨텐츠를 생성하지 못할 경우, 상황 분석 모듈(100)이 상기 촬영 정보의 상황을 재-분석하게 한다. 만약, 재-분석 결과에도 입력에 대한 상호 대화형 컨텐츠를 생성하지 못할 경우, 시스템(1)은 대화를 종료하거나, 다른 촬영 정보의 입력을 유도할 수 있다. The
이와 같이, 액티베이션 모듈(700)은 촬영 정보를 수신하여 상황 분석의 동작을 개시할지를 제어한다. In this way, the
일부 실시예에서, 액티베이션 모듈(700)은 촬영 정보의 특정 신호에 대해서만 상황 분석 모듈(100)의 동작 개시를 제어하도록 설정된다. 예를 들어, 액티베이션 모듈(700)은 음성신호에 대해서는 상황 분석 모듈(100)(예컨대, 음성 분석 모듈(130))이 음성신호가 음성신호인지, 또한 음성신호 인경우 다이얼로그인지, 나아가 다이얼로그의 서브 유형이 무엇인지를 분석하게 한다. 만약 영상장비(5)를 통해 입력된 음성신호가 다이얼로그인 경우, 액티베이션 모듈(700)은 상황 분석 모듈(100)(예컨대, 영상 분석 모듈(110))이 영상 분석 동작을 수행하게 한다. , 액티베이션 모듈(700)은 입력 음성이 사람의 음성으로 판단된 경우, 입력 음성 및 유형 판단 결과(예컨대, 이 음성은 사람의 음성으로서, 다이얼로그)를 인터랙티브 모듈(500)로 전송한다. 그러면, 인터랙티브 모듈(500)을 중심으로 음성을 발화한 대상과 상호 작용이 가능하다. 예를 들어, 상황 분석 모듈(100)의 동작 결과가 사용되지 않고도, 인터랙티브 모듈(500)(또는 액티베이션 모듈(700)) 만으로 음성을 발화하는 대상과 상호 작용을 수행할 수도 있다. 이러한 경우에 대해서는 아래의 도 5를 참조하여 보다 상세하게 서술한다. In some embodiments, the
또한, 액티베이션 모듈(700)은 촬영 정보의 분석 결과에 기초하여 상호 대화형 컨텐츠의 생성을 개시할지 여부를 제어한다. 액티베이션 모듈(700)은 상호 대화형 컨텐츠의 생성의 필요성에 기초하여 인터랙티브 모듈(500)의 동작의 개시 여부를 판단한다. In addition, the
상기 상호 대화형 컨텐츠의 생성의 필요성은 대상의 행동, 대상의 음성의 유형, 촬영상황의 유형 등에 기초한다. 상기 서버(10)가 데이터 처리를 통해 상기 요소들 중 적어도 하나를 획득하는 경우, 필요성이 있다고 판단될 수 있다. The necessity of generating the interactive content is based on the behavior of the target, the type of the target's voice, the type of shooting situation, and the like. When the
일 예에서, 액티베이션 모듈(700)은 촬영상황의 유형이 위급상황과 같은 비-정상상황인 경우, 생성의 필요성이 있다고 판단한다. In one example, the
다른 일 예에서, 액티베이션 모듈(700)은 음성신호가 다이얼로그로 산출된 경우, 생성의 필요성이 있다고 판단한다. 또한, 액티베이션 모듈(700)은 문의 또는 요청과 같은, 다이얼로그의 서브 유형에 더 기초하여 생성의 필요성이 있다고 판단할 수 있다. In another example, when the voice signal is calculated as a dialog, the
이와 같이 상호 대화형 컨텐츠의 생성의 필요성이 있다고 판단된 경우, 상황 표현 모듈(300)이 해당 상황을 해석한 텍스트를 생성하게 한다. 그러면, 상기 텍스트에 기초하여 상호 대화형 컨텐츠가 생성될 수 있다. As such, when it is determined that there is a need to generate interactive content, the
이러한 액티베이션 모듈(700)에 의해 모든 입력신호에 대한 불필요한 데이터 처리(예컨대, 영상 분석 등)를 방지하여 과도한 리소스 사용을 최소화하고 효율적인 시스템 구동을 가능하게 한다. The
서버(10)는 생성된 상호 대화형 컨텐츠를 영상장비(5)로 전송하고, 영상장비(5)는 수신한 상호 대화형 컨텐츠를 출력한다. The
본 발명의 일 측면에 따른 상호 대화형 컨텐츠 제공 방법은 프로세서를 포함한 컴퓨팅 장치에 의해 수행될 수 있다. 일 실시예에서, 상호 대화형 컨텐츠 제공 방법은 상기 시스템(1)의 일부 또는 전부에 의해 수행될 수 있다. The interactive content providing method according to an aspect of the present invention may be performed by a computing device including a processor. In an embodiment, the interactive content providing method may be performed by some or all of the
도 4는, 본 발명의 일 실시예에 따른, 음성신호가 비-다이얼로그인 경우 상호 대화형 컨텐츠를 생성하는 과정을 설명하기 위한 도면이다. 4 is a diagram for explaining a process of generating interactive content when a voice signal is a non-dialog, according to an embodiment of the present invention.
상기 시스템(1)은 예를 들어, 상황 인지와 같은, 촬영 정보의 음성이 비-다이얼로그인 경우 상호 대화형 컨텐츠 제공를 생성할 수 있다. The
도 4에서는 액티베이션 모듈(700)에 의해 상황 분석 모듈(100), 상황 표현 모듈(300), 인터랙티브 모듈(500)의 동작이 개시되는 것으로 가정한다.In FIG. 4 , it is assumed that the operation of the
서버(10)는 영상장비(5)가 획득한 촬영 정보를 분석하여 장면 정보를 산출한다(S410). The
도 4의 영상장비(5A)의 촬영 정보로부터는 촬영 장소는 “놀이터”, 객체 유형 및 수는 “사람”, “3명”, 객체의 행동은 “폭행” 등의 장면 정보가 산출된다. From the shooting information of the
영상장비(5B)의 촬영 정보로부터는 촬영 장소는 “길가”, 검출된 객체 유형는 각각 “사람”, “자동차” 객체의 수는 각각 “1명”, “7대”, 객체(사람)의 외관 특성은 “검은 옷”, 객체(사람)의 행동은 “차량 옆 배회” 등의 장면 정보가 산출된다. From the shooting information of the
영상장비(5C)의 촬영 정보로부터는 촬영 장소가 “가게 앞”, 촬영 시간은 “새벽”, 검출된 객체의 유형 및 수는 “사람”, “1명”, 객체의 외관 특성은 “반나체”, 객체의 행동은 “배회” 등의 장면 정보가 산출된다. From the shooting information of the imaging equipment (5C), the shooting location is “in front of the store”, the shooting time is “dawn”, the type and number of detected objects are “person”, “1 person”, and the appearance characteristics of the object are “semi-nude” , the behavior of the object, such as "roaming" scene information is calculated.
영상장비(5D)의 촬영 정보로부터는 촬영 장소가 “횡단보도”, 검출된 객체의 유형은 “사람”, “신호등”, 객체의 수는 “2명”, 인식된 객체는 “어린아이”, 각각의 객체의 행동은 “위험행동”, “빨간불 온(on)” 등의 장면 정보가 산출된다. From the shooting information of the imaging equipment (5D), the shooting location is “crosswalk”, the detected object type is “person”, “traffic light”, the number of objects is “2 people”, the recognized object is “child”, For each object's behavior, scene information such as “dangerous behavior” and “red light on” is calculated.
그러면, 산출된 장면 정보는 촬영된 장면을 표현하기 위한 맥락을 갖는 텍스트로 변환한다(S430). Then, the calculated scene information is converted into text having a context for expressing the captured scene (S430).
도 4의 영상장비(5A)로부터 촬영된 상황은 “두명의 사람이 한 명의 사람을 놀이터에서 폭행하고 있다”는 텍스트로 변환된다. The situation photographed from the
영상장비(5B)로부터 촬영된 상황은 “한명의 사람이 길가에서 자동차 1대 옆에서 배회하고 있다”는 텍스트로 변환된다.The situation photographed by the
영상장비(5C)로부터 촬영된 상황은 “새벽에 반나체의 사람이 가게 앞에서 배회하고 있다”는 텍스트로 변환된다.The situation captured by the video equipment (5C) is converted to the text “A semi-nude person is roaming in front of the store at dawn”.
영상장비(5D)로부터 촬영된 상황은 “횡단보도의 빨간불 신호에서 어린아이 두 명이 위험한 행동을 하고 있다”는 텍스트로 변환된다.The situation filmed by the video equipment (5D) is converted into text that says, “Two children are acting dangerously at the red light at the crosswalk.”
그러면, 단계(S300)에서 생성된 장면 텍스트에 응답하여 해당 상황에 대한 상호 대화형 컨텐츠가 생성된다(S450). 도 4에서 상호 대화형 컨텐츠는 적어도 촬영된 영상과 상호 작용하여 생성된다. Then, in response to the scene text generated in step S300, interactive content for the corresponding situation is generated (S450). In FIG. 4 , interactive content is generated by interacting with at least a captured image.
도4의 영상장비(5A)로부터 촬영된 상황에 대하여, “거기! 사람을 폭행하시면 안됩니다! 경찰 출동하였습니다!”는 상호 대화형 컨텐츠를 맥락으로 갖는, 상호 대화형 컨텐츠가 생성된다. Regarding the situation photographed from the
영상장비(5B)로부터 촬영된 상황에 대하여, “검은옷 입으신 분! 혹시 본인 차량이신가요? 문제가 있으신가요?” 또는 “검은옷 입으신 분! CCTV 촬영 중입니다. 본인 차량이 아니시면 수상한 행동으로 간주하겠습니다”는 상호 대화형 컨텐츠를 맥락으로 갖는, 상호 대화형 컨텐츠가 생성된다. Regarding the situation filmed by the video equipment (5B), “The person in black! Do you have your own vehicle? Do you have any problems?” or “The one in black! CCTV is being filmed. If it is not your vehicle, it will be considered suspicious behavior.” Interactive content with interactive content as the context is created.
영상장비(5C)로부터 촬영된 상황에 대하여, “현재 옷차림 및 행동이 정상적이지 않습니다. 무슨 일이 신가요?” 또는 “지금 수상한 행동을 하고 계십니다. 행동에 대한 답변이 없을 시, 경찰 출동하도록 하겠습니다”는 상호 대화형 컨텐츠를 맥락으로 갖는, 상호 대화형 컨텐츠가 생성된다. Regarding the situation filmed by the video equipment (5C), “Currently, your attire and behavior are not normal. What's going on?” or “You are acting suspiciously. If there is no response to the action, the police will be dispatched.” Interactive content with interactive content as the context is created.
영상장비(5D)로부터 촬영된 상황에 대하여, “횡단보도가 빨간불이니 건너지 말고 길가에서 물러나 주시고 위험한행동은 삼가해주시기 바랍니다”는 상호 대화형 컨텐츠를 맥락으로 갖는, 상호 대화형 컨텐츠가 생성된다. Regarding the situation filmed from the video equipment (5D), interactive content is created with interactive content as the context, “Please do not cross the crosswalk, please step back from the roadside and refrain from dangerous actions because the crosswalk is a red light.”
단계(S450)에서 생성된 상호 대화형 컨텐츠는 영상장비(5)를 통해 대상에게 제공된다(S460). 상호 대화형 컨텐츠가 음성으로 변환되어 영상장비(5)에 제공된 경우, 영상장비(5)는 상호 대화형 컨텐츠를 음향 유닛을 통해 제공한다. The interactive content generated in step S450 is provided to the target through the video device 5 (S460). When the interactive content is converted into voice and provided to the
또한, 단계(S450)에서 생성된 상호 대화형 컨텐츠에 이어서 상호 작용(예컨대, 대상과 시스템(1) 간의 대화)이 지속될 수 있다(S470). 단계(S470)에서, 전술한 단계(S410 내지 S450) 중 적어도 하나가 수행된다. Also, following the interactive content generated in step S450, an interaction (eg, a conversation between the object and the system 1) may be continued (S470). In step S470, at least one of the above-described steps S410 to S450 is performed.
도 5는, 본 발명의 일 실시예에 따른, 음성신호가 다이얼로그인 경우 상호 대화형 컨텐츠를 생성하는 과정을 설명하기 위한 도면이다.5 is a diagram for explaining a process of generating interactive content when a voice signal is a dialog, according to an embodiment of the present invention.
상기 시스템(1)은, 예를 들어, 대화 상황과 같은, 촬영 정보의 음성이 다이얼로그인 경우 상호 대화형 컨텐츠 제공를 생성할 수 있다. The
도 5에서도, 도 4와 유사하게, 액티베이션 모듈(700)에 의해 상황 분석 모듈(100), 상황 표현 모듈(300), 인터랙티브 모듈(500)의 동작이 개시되는 것으로 가정한다. 예를 들어, 액티베이션 모듈(700)은, 예컨대, 수신한 음성신호가 사람의 음성인지 판단하고, 해당 신호 및/또는 판단 결과를 인터랙티브 모듈(500) 또는 상황 분석 모듈(100)로 전달한다. In FIG. 5 , similarly to FIG. 4 , it is assumed that the operation of the
영상장비(5)에 의해 획득된 음성은 분석 이전에 텍스트로 변환될 수 있다(S501). The voice acquired by the
예를 들어, 영상장비(5E)의 입력 음성은 변환 모듈(510)에 의해 “시청에 가려면 어떻게 가야하죠?”인 텍스트로 변환된다. For example, the input voice of the
영상장비(5F)의 입력 음성은 변환 모듈(510)에 의해 “도와주세요!”인 텍스트로 변환된다. 이어서, 단계(S501)의 음성에 대한 촬영 정보를 분석한다(S510). 일부 실시예에서, 음성신호에 대한 분석이 우선 수행된 이후에, 음성신호가 다이얼로그인 경우에 촬영 정보에 대한 추가적인 분석(예컨대, 영상 신호 분석)이 수행될 수 있다. The input voice of the video equipment 5F is converted into text “Help!” by the
영상장비(5E)의 촬영 정보 내 음성신호에 기초하여, 음성 유형은 다이얼로그, 및 서브 유형은 “문의”로 분석된다. 그러면, 음성신호 이외의 다른 촬영 정보에 기초하여, 촬영 장소는 “시청역 10번 출구”, 검출된 객체 유형 및 수는 “사람”, “1명”, 객체의 외관 특성은 “검은 옷”인 분석 결과가 산출된다. Based on the audio signal in the shooting information of the
영상장비(5F)의 촬영 정보 내 음성신호에 기초하여, 음성 유형은 다이얼로그, 및 서브 유형은 “요청”로 분석된다. 그러면, 음성신호 이외의 다른 촬영 정보에 기초하여, 촬영 장소는 “월곡역 10번 출구”, 검출된 객체 유형 및 수는 “사람”, “2명”, 각 객체의 외관 특성은 각각 “검은 옷”, “파란 옷”, 상황 유형은 “위급”인 분석 결과가 산출된다. Based on the audio signal in the shooting information of the video equipment 5F, the audio type is analyzed as a dialog, and the sub type is “request”. Then, based on the shooting information other than the voice signal, the shooting location is “
그러면, 입력 음성으로부터 변환된 장면 텍스트, 및 해당 상황의 분석 결과 중 적어도 하나에 기초하여 상호 대화형 컨텐츠가 생성된다(S550). 여기서, 장면 텍스트는 입력 음성이므로, 상황을 텍스트로 표현하는 캡셔닝 동작은 수행되지 않을 수도 있다. Then, interactive content is generated based on at least one of the scene text converted from the input voice and the analysis result of the corresponding situation ( S550 ). Here, since the scene text is an input voice, a captioning operation for expressing the situation as text may not be performed.
영상장비(5E)로부터 촬영된 상황에 대하여, “길 건너 우측으로 100m 앞에 있습니다”는 상호 대화형 컨텐츠를 음성으로 변환한, 상호 대화형 컨텐츠가 생성된다. Regarding the situation photographed from the
영상장비(5F)로부터 촬영된 상황에 대하여, “경찰 출동하였습니다”, “우측 100m 앞에 경찰서가 있습니다”, 또는 “CCTV 촬영중입니다! 검은 옷을 입으신 분 추적을 멈춰 주십시오!”란 상호 대화형 컨텐츠를 맥락으로 갖는, 상호 대화형 컨텐츠가 생성된다. Regarding the situation filmed from the video equipment (5F), “The police have arrived”, “There is a police station 100m to the right”, or “CCTV is being filmed! The interactive content is created with the interactive content as the context, “Stop tracking the person in black!”
단계(S550)에서 생성된 상호 대화형 컨텐츠는 영상장비(5)를 통해 대상에게 제공된다(S560). 상호 대화형 컨텐츠가 음성 변환되어 영상장비(5)에 제공된 경우, 영상장비(5)는 상호 대화형 컨텐츠를 음향 유닛을 통해 제공한다. The interactive content generated in step S550 is provided to the target through the video equipment 5 (S560). When the interactive content is voice-converted and provided to the
또는, 도 5에 도시되진 않았지만, 단계(S510) 이전에 인터랙티브 모듈(500) 자체적으로 상호 대화형 컨텐츠를 생성 및 제공하고, 나아가 후속 상호 대화형 컨텐츠 또한 생성 및 제공할 수 있다. Alternatively, although not shown in FIG. 5 , the
상기 액티베이션 모듈(700)은 도 1에서는 단일 구성요소로 도시되었으나, 이에 제한되지 않는다. 다른 실시예들에서, 시스템(1)은 입력, 제어 대상 등에 따라서, 복수의 액티베이션 모듈(700)을 포함할 수도 있다. The
도 6 및 도 7은, 본 발명의 다양한 실시예에 따른, 도 1의 상호 대화형 컨텐츠 제공 시스템을 변형한 시스템 개념도이다. 6 and 7 are system conceptual diagrams modified from the interactive content providing system of FIG. 1 according to various embodiments of the present invention.
도 1의 상호 대화형 컨텐츠 제공 시스템은, 다수의 액티베이션 모듈을 포함하도록 구성될 수 있다. 예를 들어, 도 6에 도시된 바와 같이, 제어 대상별로 다수의 액티베이션 모듈(710, 730, 750)을 포함한 시스템(1)으로 구성된다. 여기서, 시스템(1)은, 상황 분석 모듈(100)의 동작을 제어하는 제1 액티베이션 모듈(710), 상황 표현 모듈(300)의 동작을 제어하는 제2 액티베이션 모듈(730), 상호 대화형 컨텐츠의 생성을 위해 인터랙티브 모듈(500)의 동작을 제어하는 제3 액티베이션 모듈(750) 등을 포함할 수도 있다. The interactive content providing system of FIG. 1 may be configured to include a plurality of activation modules. For example, as shown in FIG. 6 , the
도 1의 상호 대화형 컨텐츠 제공 시스템(1)은, 각 구성요소(100, 300, 500)에 액티베이션 모듈(700)의 기능을 부분적으로 집적하여, 제어 대상이 액티베이션 모듈(700)의 제어 기능을 자체적으로 수행하도록 구성될 수 있다. 예를 들어, 도 7에 도시된 바와 같이, 상기 시스템(1)은 각 액티베이션 모듈(710, 730, 750)이 각 제어 대상 내에 집적되도록 변형될 수 있다. The interactive
상기 시스템(1)이 본 명세서에 서술되지 않은 다른 구성요소를 포함할 수도 있다는 것이 통상의 기술자에게 명백할 것이다. 예를 들어, 데이터 입력 장치, 디스플레이, 인쇄와 같은 출력 장치, 메모리와 같은 저장장치, 전기 통신을 통해 데이터를 송수신하는 송수신장치, 네트워크, 네트워크 인터페이스 및 프로토콜 등을 더 포함할 수 있다. It will be apparent to a person skilled in the art that the
이와 같이, 상기 시스템(1)은 촬영 장면에서의 소리 및 영상을 분석하여, 해당 장면에 대한 가이드와 같은 적절한 상호 대화형 컨텐츠를 제공할 수 있다. In this way, the
이상에서 설명한 실시예들에 따른 상호 대화형 컨텐츠 제공 시스템(1) 및 방법에 의한 작동(operation)은 적어도 부분적으로 컴퓨터 프로그램으로 구현되어, 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다. 예를 들어, 프로그램 코드를 포함하는 컴퓨터-판독가능 매체로 구성되는 프로그램 제품과 함께 구현되고, 이는 기술된 임의의 또는 모든 단계, 작동, 또는 과정을 수행하기 위한 프로세서에 의해 실행될 수 있다. An operation by the interactive
상기 컴퓨터는 데스크탑 컴퓨터, 랩탑 컴퓨터, 노트북, 스마트 폰, 또는 이와 유사한 것과 같은 컴퓨팅 장치일 수도 있고 통합될 수도 있는 임의의 장치일 수 있다. 컴퓨터는 하나 이상의 대체적이고 특별한 목적의 프로세서, 메모리, 저장공간, 및 네트워킹 구성요소(무선 또는 유선 중 어느 하나)를 가지는 장치다. 상기 컴퓨터는 예를 들어, 마이크로소프트의 윈도우와 호환되는 운영 체제, 애플 OS X 또는 iOS, 리눅스 배포판(Linux distribution), 또는 구글의 안드로이드 OS와 같은 운영체제(operating system)를 실행할 수 있다.The computer may be any device that may be incorporated into or may be a computing device such as a desktop computer, laptop computer, notebook, smart phone, or the like. A computer is a device having one or more alternative and special purpose processors, memory, storage, and networking components (either wireless or wired). The computer may run, for example, an operating system compatible with Microsoft's Windows, Apple OS X or iOS, a Linux distribution, or an operating system such as Google's Android OS.
상기 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장신원확인 장치 등을 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다. 또한, 본 실시예를 구현하기 위한 기능적인 프로그램, 코드 및 코드 세그먼트(segment)들은 본 실시예가 속하는 기술 분야의 통상의 기술자에 의해 용이하게 이해될 수 있을 것이다. The computer-readable recording medium includes all types of recording devices in which computer-readable data is stored. Examples of the computer-readable recording medium include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage identification device, and the like. In addition, the computer-readable recording medium may be distributed in a network-connected computer system, and the computer-readable code may be stored and executed in a distributed manner. In addition, functional programs, codes, and code segments for implementing the present embodiment may be easily understood by those skilled in the art to which the present embodiment belongs.
이상에서 살펴본 본 발명은 도면에 도시된 실시예들을 참고로 하여 설명하였으나 이는 예시적인 것에 불과하며 당해 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 실시예의 변형이 가능하다는 점을 이해할 것이다. 그러나, 이와 같은 변형은 본 발명의 기술적 보호범위 내에 있다고 보아야 한다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해서 정해져야 할 것이다.Although the present invention as described above has been described with reference to the embodiments shown in the drawings, it will be understood that these are merely exemplary and that various modifications and variations of the embodiments are possible therefrom by those of ordinary skill in the art. However, such modifications should be considered to be within the technical protection scope of the present invention. Accordingly, the true technical protection scope of the present invention should be defined by the technical spirit of the appended claims.
Claims (16)
상기 영상장비로부터 획득된 촬영정보에서 상기 장면을 소리 또는 영상 측면에서 분석하여 장면정보를 산출하도록 구성된 상황 분석 모듈 - 상기 장면정보는 상기 장면에 대한 분석 결과를 포함함;
상기 촬영정보 및 장면정보 중 적어도 하나에 기초하여 해당 장면을 표현한 장면 텍스트로 변환하도록 구성된 상황 표현 모듈;
상기 장면 텍스트에 응답하여 상호 대화형 컨텐츠를 생성하도록 구성된 인터랙티브 모듈; 및
상기 상황 분석 모듈 또는 인터랙티브 모듈의 동작을 제어하는 액티베이션 모듈 중 적어도 하나를 포함하되,
상기 인터랙티브 모듈은,
상기 장면에 대한 분석 결과 및 상기 장면에 대한 분석 결과에 기초한 장면 텍스트 중 적어도 하나에 기초하여, 상기 장면에 대한 응답으로서 상기 상호 대화형 컨텐츠를 챗봇 프로그램을 통해 생성하고,
상기 챗봇 프로그램은 상기 장면 텍스트를 입력 텍스트로 수신하여 상기 장면 텍스트에 대한 응답인 출력 텍스트를 산출하도록 구성되고,
상기 장면에 대한 분석 결과는 상기 상황 분석 모듈의 영상 분석 모델을 통해 획득되는 장면 내 객체의 식별 정보, 객체의 수, 객체의 행동, 객체의 외관 또는 객체의 위치를 포함하며,
상기 상호 대화형 컨텐츠는 음성, 영상, 프로젝션 및 이들의 조합 중 적어도 하나의 방식으로 상기 영상장비를 통해 제공하는 것을 특징으로 하는 시스템.
A system for providing interactive content, comprising: an imaging device configured to photograph a scene having an image or sound; and a server configured to analyze the captured scene to generate interactive content for the scene, the server comprising:
a situation analysis module configured to calculate scene information by analyzing the scene in terms of sound or image from the shooting information obtained from the imaging equipment, wherein the scene information includes an analysis result for the scene;
a situation expression module configured to convert a scene text into a scene text expressing a corresponding scene based on at least one of the shooting information and the scene information;
an interactive module configured to generate interactive content in response to the scene text; and
Comprising at least one of the activation module for controlling the operation of the situation analysis module or the interactive module,
The interactive module,
Based on at least one of an analysis result for the scene and a scene text based on the analysis result for the scene, the interactive content is generated as a response to the scene through a chatbot program,
the chatbot program is configured to receive the scene text as input text and produce an output text that is a response to the scene text;
The analysis result for the scene includes identification information of the object in the scene, the number of objects, the behavior of the object, the appearance of the object or the location of the object obtained through the image analysis model of the situation analysis module,
The interactive content is provided through the video device in at least one of audio, video, projection, and a combination thereof.
상기 상황 분석 모듈은 소리 분석 모델을 통해 장면의 소리를 분석하며,
상기 소리 분석 모델은,
소리신호의 유형, 서브 유형, 및 상기 소리신호가 발생한 장면의 상황 중 적어도 하나를 산출하도록 기계학습된 것을 특징으로 하는 시스템.
According to claim 1,
The situation analysis module analyzes the sound of the scene through the sound analysis model,
The sound analysis model is
A system according to any one of the preceding claims, wherein the system is machine-learned to calculate at least one of a type, a sub-type of a sound signal, and a situation of a scene in which the sound signal occurs.
영상 또는 소리 분석 결과 촬영장면의 상황이 정상상황으로 분류하지 않는 경우, 촬영장면의 상황을 정상상황과 상이한 상황으로 산출하도록 더 구성되는 시스템.
According to claim 3, wherein the situation analysis module,
The system further configured to calculate the situation of the shooting scene as a situation different from the normal situation when the situation of the shooting scene is not classified as the normal situation as a result of the image or sound analysis.
상기 장면의 소리가 다이얼로그로 산출된 경우에 상기 장면의 영상에 대한 분석을 수행하도록 구성된 것을 특징으로 하는 시스템.
According to claim 3, wherein the situation analysis module,
and perform analysis on the image of the scene when the sound of the scene is calculated as a dialog.
상기 장면 텍스트는 상기 영상의 영상 분석 결과를 입력으로 수신하여 상기 영상을 표현하기 위한 텍스트로 변환하는 캡셔닝 모델을 통해 생성되는 것을 특징으로 하는 시스템.
According to claim 1,
The scene text is generated through a captioning model that receives an image analysis result of the image as an input and converts it into text for expressing the image.
상기 상호 대화형 컨텐츠를 소리로 변환하도록 더 구성되는 시스템.
According to claim 1, wherein the interactive module,
The system further configured to convert the interactive content into sound.
상호 대화형 컨텐츠를 생성하기 이전에, 상기 장면의 소리를 장면 텍스트로 변환하도록 더 구성되고,
상기 상호 대화형 컨텐츠를 생성하는데 사용되는 장면 텍스트는,
상기 상황 표현 모듈에 의해 획득된 입력 음성으로부터의 장면 텍스트 또는 상기 인터랙티브 모듈에 의해 획득된 입력 음성으로부터의 장면 텍스트를 포함하는 것을 특징으로 하는 시스템.
The method of claim 8, wherein the interactive module,
before generating the interactive content, convert the sound of the scene into scene text;
The scene text used to create the interactive content is:
and a scene text from an input voice acquired by the situation expression module or a scene text from an input voice acquired by the interactive module.
상기 챗봇 프로그램의 미리 저장된 대화 규칙에 기초하여 상기 장면 텍스트에 연관되어 있는 대화를 상호 대화형 컨텐츠로 생성하는 시스템.
According to claim 1, wherein the interactive module,
A system for generating a dialogue associated with the scene text as interactive content based on a pre-stored dialogue rule of the chatbot program.
훈련 샘플에 기반하여 입력 텍스트에 대응한 출력 텍스트를 입력 텍스트에 대한 응답으로서 산출하는 기계학습 모델을 갖는 챗봇 프로그램을 통해 상기 장면에 대한 상호 대화형 컨텐츠로 생성하는 시스템.
According to claim 1, wherein the interactive module,
A system for generating interactive content for the scene through a chatbot program having a machine learning model that produces output text corresponding to input text as a response to input text based on training samples.
상기 장면의 소리를 텍스트로 변환한 이후에, 상기 장면에 대한 분석을 수행하도록 더 구성되는 시스템.
The method of claim 9, wherein the situation analysis module,
After converting the sound of the scene to text, the system further configured to perform analysis on the scene.
상기 영상장비의 촬영 정보가 지정된 시간 또는 지정된 장소에서 획득된 경우에 상기 장면에 대한 분석을 수행하게 하는 시스템.
According to claim 1, wherein the activation module,
A system for performing analysis of the scene when the shooting information of the imaging equipment is acquired at a specified time or a specified place.
대상의 행동, 대상의 음성의 유형, 촬영상황의 유형 및 이들의 조합 중 적어도 하나에 기초하여 상호 대화형 컨텐츠를 생성하기 위한 인터랙티브 모듈의 동작 개시를 제어하는 시스템.
According to claim 1, wherein the activation module,
A system for controlling the initiation of an operation of an interactive module for generating interactive content based on at least one of a behavior of a target, a type of a voice of the target, a type of a shooting situation, and a combination thereof.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190114179A KR102319583B1 (en) | 2019-09-17 | 2019-09-17 | System for providing interactive content based on image or voice analysis |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190114179A KR102319583B1 (en) | 2019-09-17 | 2019-09-17 | System for providing interactive content based on image or voice analysis |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210032761A KR20210032761A (en) | 2021-03-25 |
KR102319583B1 true KR102319583B1 (en) | 2021-11-02 |
Family
ID=75222523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190114179A KR102319583B1 (en) | 2019-09-17 | 2019-09-17 | System for providing interactive content based on image or voice analysis |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102319583B1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102411095B1 (en) * | 2021-12-30 | 2022-06-22 | 주식회사 파일러 | System and method for searching contents in accordance with advertisements |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101862079B1 (en) * | 2016-12-13 | 2018-05-29 | 한국건설기술연구원 | Apparatus for recogning road traffic situation based on artificial intelligence and method thereof |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160038375A (en) * | 2014-09-30 | 2016-04-07 | 주식회사 엘지유플러스 | Contents creation apparatus and method for operating the contents creation apparatus |
KR20180102871A (en) * | 2017-03-08 | 2018-09-18 | 엘지전자 주식회사 | Mobile terminal and vehicle control method of mobile terminal |
KR101998963B1 (en) | 2017-10-19 | 2019-07-10 | 주식회사 포스코아이씨티 | System for Managing Tunnel Using Movable CCTV |
-
2019
- 2019-09-17 KR KR1020190114179A patent/KR102319583B1/en active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101862079B1 (en) * | 2016-12-13 | 2018-05-29 | 한국건설기술연구원 | Apparatus for recogning road traffic situation based on artificial intelligence and method thereof |
Also Published As
Publication number | Publication date |
---|---|
KR20210032761A (en) | 2021-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7242520B2 (en) | visually aided speech processing | |
JP6635049B2 (en) | Information processing apparatus, information processing method and program | |
KR100586767B1 (en) | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input | |
KR20190098110A (en) | Intelligent Presentation Method | |
EP3955245A1 (en) | Apparatus, method and program for parsing an utterance using a speaker feature vector | |
US11657800B2 (en) | Electronic device with wakeup word determined multi-mode operation | |
CN112581938B (en) | Speech breakpoint detection method, device and equipment based on artificial intelligence | |
CN112017633B (en) | Speech recognition method, device, storage medium and electronic equipment | |
US20230368796A1 (en) | Speech processing | |
CN111326152A (en) | Voice control method and device | |
US20230360650A1 (en) | Response orchestrator for natural language interface | |
KR102319583B1 (en) | System for providing interactive content based on image or voice analysis | |
WO2020048358A1 (en) | Method, system, and computer-readable medium for recognizing speech using depth information | |
JP2022530201A (en) | Automatic captioning of audible parts of content on computing devices | |
WO2021085242A1 (en) | Information processing device, and command processing method | |
WO2019150708A1 (en) | Information processing device, information processing system, information processing method, and program | |
KR101906428B1 (en) | Method for providing speech recognition based ai safety service | |
CN115171692A (en) | Voice interaction method and device | |
KR102302029B1 (en) | System for recogniting multiple input based on artificial intelligent | |
CN114550720A (en) | Voice interaction method and device, electronic equipment and storage medium | |
JP2018055155A (en) | Voice interactive device and voice interactive method | |
CN116959496A (en) | Voice emotion change recognition method and device, electronic equipment and medium | |
US11775617B1 (en) | Class-agnostic object detection | |
KR102258531B1 (en) | Analysis unit for integrated recognition for multiple input recognition system | |
KR102356915B1 (en) | Voice data recording device for speech recognition learning, and method therefor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |