KR20210088680A - 비디오 커팅 방법, 장치, 컴퓨터 기기 및 저장매체 - Google Patents
비디오 커팅 방법, 장치, 컴퓨터 기기 및 저장매체 Download PDFInfo
- Publication number
- KR20210088680A KR20210088680A KR1020217017667A KR20217017667A KR20210088680A KR 20210088680 A KR20210088680 A KR 20210088680A KR 1020217017667 A KR1020217017667 A KR 1020217017667A KR 20217017667 A KR20217017667 A KR 20217017667A KR 20210088680 A KR20210088680 A KR 20210088680A
- Authority
- KR
- South Korea
- Prior art keywords
- marking
- data
- video
- recognition result
- cutting
- Prior art date
Links
- 238000005520 cutting process Methods 0.000 title claims abstract description 179
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000006399 behavior Effects 0.000 claims description 141
- 238000012549 training Methods 0.000 claims description 25
- 230000009471 action Effects 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 21
- 238000013518 transcription Methods 0.000 claims description 16
- 230000035897 transcription Effects 0.000 claims description 16
- 238000013075 data extraction Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/266—Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
- H04N21/26603—Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel for automatically generating descriptors from content, e.g. when it is not made available by its provider, using content analysis techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/27—Server based end-user applications
- H04N21/274—Storing end-user multimedia data in response to end-user request, e.g. network recorder
- H04N21/2743—Video hosting of uploaded data from client
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/4223—Cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8455—Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Security & Cryptography (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
비디오 커팅 방법에 있어서, 비디오 스트림 데이터에서 인식 대기 비디오 데이터를 추출하고, 인식 대기 비디오 데이터에서 영상 데이터 및 오디오 데이터를 추출하는 단계; 영상 데이터를 기설정된 마킹 행동 인식 모델에 입력하여 마킹 행동 인식 결과를 얻고, 오디오 데이터를 기설정된 마킹 음성 인식 모델에 입력하여 마킹 음성 인식 결과를 얻는 단계; 마킹 행동 인식 결과, 마킹 음성 인식 결과 및 기설정된 마킹 트리거 규칙에 근거하여 마킹 인식 결과를 얻는 단계; 마킹 인식 결과의 유형이 마킹 작업일 경우, 인식 대기 비디오 데이터에 커팅점 식별자를 추가하는 단계; 커팅점 식별자에 따라 비디오 스트림 데이터를 커팅 처리하여 비디오 세그먼트 데이터를 얻는 단계를 포함한다.
Description
본원 발명은 비디오 커팅 방법, 장치, 컴퓨터 기기 및 저장매체에 관한 것이다.
본원 발명은 2018년 12월 14일에 중국특허청에 제출한, 출원 번호가 201811536818X이고 출원 명칭이 "비디오 커팅 방법, 장치, 컴퓨터 기기 및 저장매체"인 중국 특허 출원의 우선권을 주장하며, 이의 전부 내용은 인용을 통해 본원 발명에 통합된다.
멀티미디어 기술의 발전에 따라, 비디오 형태로 정보와 자원을 전달하는 영화, TV, 뉴스, 소셜 네트워킹, 교육 및 게임 등이 널리 적용되고 있고, 예컨대 비디오 채팅, 비디오 회의, 비디오 모니터링 및 영화와 드라마이며, 비디오는 이미 사람들의 사업, 학습 및 생활의 중요한 부분이 되었다.
비디오 적용에서, TV 뉴스 차단, 녹화 비디오의 둔감 처리 등과 같이 비디오를 커팅 처리하여야 하는 시나리오가 있다. 발명자는 현재 비디오의 커팅 처리에 있어서, 인위적으로 수동 마킹 표기하여야 하고, 비디오 커팅의 시간축 위치를 결정하며, 비디오 커팅 처리의 효율이 낮다는 것을 깨닫게 되었다.
본원 발명에 개시된 다양한 실시예에 근거하여 비디오 커팅 방법, 장치, 컴퓨터 기기 및 저장매체를 제공한다.
비디오 커팅 방법은,
비디오 스트림 데이터에서 인식 대기 비디오 데이터를 추출하고, 인식 대기 비디오 데이터에서 영상 데이터 및 오디오 데이터를 추출하는 단계;
영상 데이터를 기설정된 마킹 행동 인식 모델에 입력하여 마킹 행동 인식 결과를 얻고, 오디오 데이터를 기설정된 마킹 음성 인식 모델에 입력하여 마킹 음성 인식 결과를 얻는 단계;
마킹 행동 인식 결과, 마킹 음성 인식 결과 및 기설정된 마킹 트리거 규칙에 근거하여 마킹 인식 결과를 얻는 단계;
마킹 인식 결과의 유형이 마킹 작업일 경우, 인식 대기 비디오 데이터에 커팅점 식별자를 추가하는 단계; 및
커팅점 식별자에 따라 비디오 스트림 데이터를 커팅 처리하여 비디오 세그먼트 데이터를 얻는 단계를 포함한다.
비디오 커팅 장치는,
비디오 스트림 데이터에서 인식 대기 비디오 데이터를 추출하고, 인식 대기 비디오 데이터에서 영상 데이터 및 오디오 데이터를 추출하기 위한 인식 데이터 추출 모듈;
영상 데이터를 기설정된 마킹 행동 인식 모델에 입력하여 마킹 행동 인식 결과를 얻고, 오디오 데이터를 기설정된 마킹 음성 인식 모델에 입력하여 마킹 음성 인식 결과를 얻기 위한 마킹 인식 처리 모듈;
마킹 행동 인식 결과, 마킹 음성 인식 결과 및 기설정된 마킹 트리거 규칙에 근거하여 마킹 인식 결과를 얻기 위한 마킹 결과 획득 모듈;
마킹 인식 결과의 유형이 마킹 작업일 경우, 인식 대기 비디오 데이터에 커팅점 식별자를 추가하기 위한 커팅 식별자 추가 모듈; 및
커팅점 식별자에 따라 비디오 스트림 데이터를 커팅 처리하여 비디오 세그먼트 데이터를 얻기 위한 비디오 커팅 모듈을 포함한다.
컴퓨터 기기에 있어서, 메모리 및 하나 또는 다수의 프로세서를 포함하되, 상기 메모리에는 컴퓨터 판독 가능 명령이 저장되어 있고, 상기 컴퓨터 판독 가능 명령이 상기 프로세서에 의해 실행될 경우, 상기 하나 또는 다수의 프로세서로 하여금,
비디오 스트림 데이터에서 인식 대기 비디오 데이터를 추출하고, 인식 대기 비디오 데이터에서 영상 데이터 및 오디오 데이터를 추출하는 단계;
영상 데이터를 기설정된 마킹 행동 인식 모델에 입력하여 마킹 행동 인식 결과를 얻고, 오디오 데이터를 기설정된 마킹 음성 인식 모델에 입력하여 마킹 음성 인식 결과를 얻는 단계;
마킹 행동 인식 결과, 마킹 음성 인식 결과 및 기설정된 마킹 트리거 규칙에 근거하여 마킹 인식 결과를 얻는 단계;
마킹 인식 결과의 유형이 마킹 작업일 경우, 인식 대기 비디오 데이터에 커팅점 식별자를 추가하는 단계; 및
커팅점 식별자에 따라 비디오 스트림 데이터를 커팅 처리하여 비디오 세그먼트 데이터를 얻는 단계를 수행하도록 한다.
컴퓨터 판독 가능 명령이 저장된 하나 또는 다수의 비휘발성 컴퓨터 판독 가능 저장매체에 있어서, 컴퓨터 판독 가능 명령이 하나 또는 다수의 프로세서에 의해 실행될 경우, 하나 또는 다수의 프로세서로 하여금,
비디오 스트림 데이터에서 인식 대기 비디오 데이터를 추출하고, 인식 대기 비디오 데이터에서 영상 데이터 및 오디오 데이터를 추출하는 단계;
영상 데이터를 기설정된 마킹 행동 인식 모델에 입력하여 마킹 행동 인식 결과를 얻고, 오디오 데이터를 기설정된 마킹 음성 인식 모델에 입력하여 마킹 음성 인식 결과를 얻는 단계;
마킹 행동 인식 결과, 마킹 음성 인식 결과 및 기설정된 마킹 트리거 규칙에 근거하여 마킹 인식 결과를 얻는 단계;
마킹 인식 결과의 유형이 마킹 작업일 경우, 인식 대기 비디오 데이터에 커팅점 식별자를 추가하는 단계; 및
커팅점 식별자에 따라 비디오 스트림 데이터를 커팅 처리하여 비디오 세그먼트 데이터를 얻는 단계를 수행하도록 한다.
본원 발명의 하나 또는 다수의 실시예의 세부절차는 이하 도면 및 설명에서 제출된다. 본원 발명의 기타 특징 및 장점은 명세서, 도면 및 특허청구범위로부터 명백해질 것이다.
본원 발명의 실시예의 기술적 해결수단을 보다 명확하게 설명하기 위하여 이하 실시예에서 사용되어야 하는 도면을 간단하게 소개하고, 이하 설명의 도면은 단지 본원 발명의 일부 실시예일 뿐, 본 분야의 통상의 지식을 가진 자에게 있어서, 진보성 창출에 힘쓰지 않은 전제 하에 이러한 도면에 근거하여 다른 도면을 더 얻을 수 있음은 자명한 것이다.
도 1은 하나 또는 다수의 실시예에 따른 비디오 커팅 방법의 적용 시나리오 다이어그램이다.
도 2는 하나 또는 다수의 실시예에 따른 비디오 커팅 방법의 흐름 모식도이다.
도 3은 하나 또는 다수의 실시예에 따른 마킹 커팅 명령에 응답하는 흐름 모식도이다.
도 4는 다른 하나의 실시예의 비디오 커팅 방법의 흐름 모식도이다.
도 5는 하나 또는 다수의 실시예에 따른 비디오 커팅 장치의 구조 블록도이다.
도 6은 하나 또는 다수의 실시예에 따른 컴퓨터 기기의 내부 구조도이다.
도 1은 하나 또는 다수의 실시예에 따른 비디오 커팅 방법의 적용 시나리오 다이어그램이다.
도 2는 하나 또는 다수의 실시예에 따른 비디오 커팅 방법의 흐름 모식도이다.
도 3은 하나 또는 다수의 실시예에 따른 마킹 커팅 명령에 응답하는 흐름 모식도이다.
도 4는 다른 하나의 실시예의 비디오 커팅 방법의 흐름 모식도이다.
도 5는 하나 또는 다수의 실시예에 따른 비디오 커팅 장치의 구조 블록도이다.
도 6은 하나 또는 다수의 실시예에 따른 컴퓨터 기기의 내부 구조도이다.
본원 발명의 기술적 해결수단 및 장점을 보다 명확하게 하기 위하여 이하 도면 및 실시예를 결부하여 본원 발명을 더 상세하게 설명한다. 여기서 설명된 구체적인 실시예는 단지 본원 발명을 해석하기 위한 것일 뿐, 본원 발명을 한정하기 위한 것이 아님을 이해하여야 한다.
본원 발명에서 제공하는 비디오 커팅 방법은 도 1에 도시된 적용 환경에 적용될 수 있다. 녹화 기기(102)는 네트워크를 통해 서버(104)와 통신한다. 녹화 기기(102)는 비디오 녹화를 수행하고 녹화된 비디오 스트림 데이터를 서버(104)로 발송하며, 서버(104)는 비디오 스트림 데이터에서 얻은 인식 대기 비디오 데이터에서 영상 데이터 및 오디오 데이터를 추출하고, 영상 데이터 및 오디오 데이터를 대응되는 기설정된 마킹 행동 인식 모델 및 마킹 음성 인식 모델에 각각 입력하며, 다음 얻은 마킹 행동 인식 결과, 마킹 음성 인식 결과 및 기설정된 마킹 트리거 규칙에 근거하여 마킹 인식 결과를 획득하고, 마킹 인식 결과의 유형이 마킹 작업일 경우, 인식 대기 비디오 데이터에 커팅점 식별자를 추가하며, 마지막으로 상기 커팅점 식별자에 따라 비디오 스트림 데이터를 커팅하여 비디오 세그먼트 데이터를 얻는다.
녹화 기기(102)는 다양한 비디오 녹화 카메라일 수 있지만 이에 한정되지 않고, 또한 개인용 컴퓨터, 랩톱, 스마트폰, 태블릿 및 휴대용 웨어러블 기기와 같은 비디오 녹화 기능을 갖는 단말기일 수 있으며, 서버(104)는 독립적인 서버 또는 다수의 서버로 구성된 서버 클러스터로 구현될 수 있다.
하나의 실시예에서, 도 2에 도시된 바와 같이, 비디오 커팅 방법을 제공하는데, 상기 방법이 도 1의 서버(104)에 적용되는 것을 예로 설명하고, 이하 단계를 포함한다.
단계S201: 비디오 스트림 데이터에서 인식 대기 비디오 데이터를 추출하고, 인식 대기 비디오 데이터에서 영상 데이터 및 오디오 데이터를 추출한다.
본 실시예에서, 비디오 스트림 데이터에서 인식 대기 비디오 데이터를 추출한다. 여기서, 비디오 스트림 데이터는 커팅 처리해야 하는 비디오 데이터이고, 녹화 기기에 의해 녹화되어 얻을 수 있다. 예를 들면, 금융 산업의 대면 검증 프로세스에 있어서, 비디오 스트림 데이터는 이중 기록 과정에서 카메라가 실시간으로 촬영한 비디오 데이터일 수 있다. 인식 대기 비디오 데이터는 기설정된 길이의 비디오 데이터이고, 상기 인식 길이는 실제 요구에 따라 설정되어 인식 대기 비디오 데이터를 마킹 인식함으로써, 상응한 커팅점 식별자를 추가할 수 있다. 기설정된 길이의 인식 대기 비디오 데이터를 마킹 인식하여 녹화된 비디오 데이터를 실시간으로 커팅하고 비디오 커팅의 시효성을 확보하며 비디오 커팅 효율을 향상시킬 수 있다.
일반적으로, 비디오 데이터는 영상 및 오디오 두 부분으로 구성되고, 영상 및 오디오 두 부분을 모두 마킹 인식할 수 있다. 구체적으로, 인식 대기 비디오 데이터를 마킹 인식할 경우, 인식 대기 비디오 데이터에서 영상 데이터 및 오디오 데이터를 추출하여 인식 대기 비디오 데이터의 영상 데이터 및 오디오 데이터를 각각 동시에 인식 처리함으로써, 비디오 영상에 마킹 행동이 나타나는 지의 여부, 또는 비디오 및 오디오에 마킹 음성이 나타나는 지의 여부를 인식하여 영상 행위 및 오디오 음성의 마킹 인식을 구현하고, 마킹 인식의 정확성을 향상시킬 수 있다.
단계S203: 영상 데이터를 기설정된 마킹 행동 인식 모델에 입력하여 마킹 행동 인식 결과를 얻고, 오디오 데이터를 기설정된 마킹 음성 인식 모델에 입력하여 마킹 음성 인식 결과를 얻는다.
인식 대기 비디오 데이터에서 영상 데이터 및 오디오 데이터를 추출한 후, 영상 데이터 및 오디오 데이터를 대응되는 마킹 행동 인식 모델 및 마킹 음성 인식 모델에 각각 입력하여 마킹 인식한다. 여기서, 마킹 행동 인식 모델은 인공 신경망 알고리즘을 기반으로 하고, 비즈니스 시스템의 비즈니스 담당자가 대응되는 비즈니스 시나리오에서의 과거 마킹 행동 데이터를 트레이닝하여 얻을 수 있고, 예를 들면 박수 동작, 손 올리는 동작, 두드리는 동작과 같은 마킹 행동 동작이며; 마킹 음성 인식 모델은 비즈니스 담당자의 과거 마킹 음성 데이터를 트레이닝하여 얻을 수 있고, 예를 들면 "제1, 제2, 제3" 등 키워드와 같은 키워드 음성 마킹일 수 있다.
본 실시예에서, 한편으로, 영상 데이터를 기설정된 마킹 행동 인식 모델에 입력하여 마킹 행동 인식을 수행하여 마킹 행동 인식 결과를 얻고; 다른 한편으로, 오디오 데이터를 기설정된 마킹 음성 인식 모델에 입력하여 마킹 음성 인식을 수행하여 마킹 음성 인식 결과를 얻는다. 영상 데이터 및 오디오 데이터를 각각 마킹 인식하여 마킹 작업의 다양성을 확장하고, 비즈니스 프로세스의 유창성을 피하며, 동시에 비디오 커팅의 정확성을 확보할 수 있다.
단계S205: 마킹 행동 인식 결과, 마킹 음성 인식 결과 및 기설정된 마킹 트리거 규칙에 근거하여 마킹 인식 결과를 얻는다.
마킹 행동 인식 결과 및 마킹 음성 인식 결과를 얻은 후, 양자를 결부하여 마킹 인식 결과를 얻는다. 구체적으로, 기설정된 마킹 트리거 규칙을 조회하고, 상기 마킹 트리거 규칙은 실제 비즈니스 요구에 근거하여 설정된다. 예를 들면 마킹 행동 인식 결과 및 마킹 음성 인식 결과에 대하여 OR을 취하도록 설정할 수 있고, 즉 마킹 행동 인식 결과 및 마킹 음성 인식 결과 중 임의의 하나의 유형이 마킹 작업이기만 하면, 즉 커팅점 식별자를 추가해야 할 경우, 마킹하도록 트리거하며 얻은 마킹 인식 결과는 마킹 작업이고; 또한 마킹 행동 인식 결과 및 마킹 음성 인식 결과에 대하여 AND 처리하며 즉 마킹 행동 인식 결과 및 마킹 음성 인식 결과의 유형이 동시에 마킹 작업일 경우에만 마킹하도록 트리거하고 얻은 마킹 인식 결과의 유형은 마킹 작업이다.
단계S207: 마킹 인식 결과의 유형이 마킹 작업일 경우, 인식 대기 비디오 데이터에 커팅점 식별자를 추가한다.
마킹 인식 결과를 얻는 후, 상기 마킹 인식 결과의 유형을 판단하고, 마킹 인식 결과의 유형이 마킹 작업일 경우, 상기 인식 대기 비디오 데이터의 영상 데이터 및/또는 오디오 데이터가 이미 마킹하도록 트리거하였음을 나타내고, 상기 인식 대기 비디오 데이터는 비디오 커팅 위치이며, 이를 마킹 처리하고, 구체적으로 상기 인식 대기 비디오 데이터에 커팅점 식별자를 추가할 수 있다. 여기서, 커팅점 식별자는 비디오 커팅의 커팅점을 식별자하기 위한 것으로, 비디오 스트림 데이터를 커팅할 경우, 상기 커팅점 식별자를 직접 검색하여 커팅 처리할 수 있다.
구체적으로 구현할 경우, 커팅점 식별자는 커팅 라벨일 수 있고, 인식 대기 비디오 데이터에 커팅점 식별자를 추가할 경우, 기설정된 라벨 추가 규칙에 따라, 상기 인식 대기 비디오 데이터에서 키프레임을 결정하며, 예를 들면 인식 대기 비디오 데이터의 제1 프레임을 키프레임으로 사용하고, 상기 키프레임에 커팅 라벨을 추가하며, 커팅 라벨은 커팅점 일련번호, 커팅 시간값을 포함할 수 있지만 이에 한정되지 않는다.
단계S209: 커팅점 식별자에 따라 비디오 스트림 데이터를 커팅 처리하여 비디오 세그먼트 데이터를 얻는다.
비디오 스트림 데이터를 커팅 처리할 경우, 비디오 스트림 데이터의 커팅점 식별자를 검색하고, 상기 커팅점 식별자에 따라 커팅 처리함으로써, 비디오 스트림 데이터를 분할하여 각 비디오 세그먼트 데이터를 얻는다.
상기 비디오 커팅 방법에서, 비디오 스트림 데이터에서 얻은 인식 대기 비디오 데이터에서 영상 데이터 및 오디오 데이터를 추출하고, 영상 데이터 및 오디오 데이터를 대응되는 기설정된 마킹 행동 인식 모델 및 마킹 음성 인식 모델에 각각 입력하며, 다음 얻은 마킹 행동 인식 결과, 마킹 음성 인식 결과 및 기설정된 마킹 트리거 규칙에 근거하여 마킹 인식 결과를 획득하고, 마킹 인식 결과의 유형이 마킹 작업일 경우, 인식 대기 비디오 데이터에 커팅점 식별자를 추가하며, 마지막으로 상기 커팅점 식별자에 따라 비디오 스트림 데이터를 커팅하여 비디오 세그먼트 데이터를 얻는다. 비디오 커팅 처리 과정에서, 인식 대기 비디오 데이터의 영상 데이터 및 오디오 데이터에 근거하여 마킹 인식하고 커팅점 식별자를 추가하며 인위적으로 수동 마킹 표기할 필요가 없어 비디오 커팅의 처리 효율을 향상시킬 수 있다.
일부 실시예에서, 비디오 스트림 데이터에서 인식 대기 비디오 데이터를 추출하는 단계는, 비디오 스트림 데이터를 획득하는 단계; 비디오 스트림 인식 길이를 결정하는 단계; 및 비디오 스트림 인식 길이에 따라, 비디오 스트림 데이터에서 인식 대기 비디오 데이터를 추출하는 단계를 포함한다.
녹화 기기(102)에 의해 직접 녹화된 비디오 스트림 데이터에 있어서, 마킹 인식 처리를 직접 수행할 수 없고, 이를 고정된 인식 길이의 인식 대기 비디오 데이터로 분할하여야 하며, 인식 대기 비디오 데이터를 통해 마킹 인식한다. 본 실시예에서, 비디오 스트림 데이터에서 인식 대기 비디오 데이터를 추출할 경우, 한편, 먼저 비디오 스트림 데이터를 획득하고, 구체적으로 녹화 기기(102)에서 실시간 녹화된 비디오 스트림 데이터를 직접 수신할 수 있거나, 기설정된 메모리에서 녹화가 종료된 비디오 스트림 데이터를 판독할 수 있다. 다른 한편, 비디오 스트림 인식 길이를 결정하고, 상기 비디오 스트림 인식 길이는 실제 요구에 근거하여 설정될 수 있으며, 예를 들면 마킹 행동 인식 모델 및 마킹 음성 인식 모델의 입력 요구에 근거하여 설정될 수 있거나, 서버(104)의 처리 자원에 근거하여 설정될 수 있다. 비디오 스트림 인식 길이를 결정한 후, 상기 비디오 스트림 인식 길이에 따라, 비디오 스트림 데이터에서 인식 대기 비디오 데이터를 추출한다. 구체적인 적용에서, 비디오 스트림 데이터에서 비디오 스트림 인식 길이를 충족시키는 인식 대기 비디오 데이터를 순차적으로 추출하고, 다음 추출된 인식 대기 비디오 데이터에 대하여 후속적인 마킹 인식 처리를 수행한다.
하나의 실시예에서, 영상 데이터를 기설정된 마킹 행동 인식 모델에 입력하여 마킹 행동 인식 결과를 얻고, 오디오 데이터를 기설정된 마킹 음성 인식 모델에 입력하여 마킹 음성 인식 결과를 얻는 단계는, 인식 대기 비디오 데이터에 대응되는 비즈니스 담당자의 신원 식별 정보를 결정하는 단계; 신원 식별 정보에 각각 대응되는 기설정된 마킹 행동 인식 모델 및 마킹 음성 인식 모델을 조회하는 단계; 영상 데이터에서 영상 특징 데이터를 추출하고, 오디오 데이터에서 오디오 특징 데이터를 추출하는 단계; 및 영상 특징 데이터를 마킹 행동 인식 모델에 입력하여 마킹 행동 인식 결과를 얻고, 오디오 특징 데이터를 마킹 음성 인식 모델에 입력하여 마킹 음성 인식 결과를 얻는 단계를 포함한다.
본 실시예에서, 마킹 행동 인식 모델 및 마킹 음성 인식 모델은 모두 비즈니스 시스템의 각 비즈니스 담당자의 과거 마킹 데이터를 기반으로 트레이닝하여 얻은 것이다. 일반적으로, 비즈니스 대면 검증 이중 기록 과정에서, 상이한 비즈니스 시스템은 상이한 마킹 작업 요구가 있고, 상이한 비즈니스 담당자도 상이한 마킹 작업 습관이 있다.
구체적으로, 영상 데이터를 기설정된 마킹 행동 인식 모델에 입력하여 마킹 행동 인식 결과를 얻고, 오디오 데이터를 기설정된 마킹 음성 인식 모델에 입력하여 마킹 음성 인식 결과를 얻을 경우, 먼저 인식 대기 비디오 데이터에 대응되는 비즈니스 담당자의 신원 식별 정보를 결정한다. 적용할 경우, 각 비즈니스 서비스 창에는 모두 녹화 기기(102)가 설치되고, 인식 대기 비디오 데이터의 출처를 통해, 즉 녹화 기기(102)에 근거하여 대응되는 비즈니스 담당자를 결정하며, 상기 비즈니스 담당자에 대응되는 신원 식별 정보를 추가로 조회할 수 있다. 신원 식별 정보는 직원 번호, 직원 이름과 같은 비즈니스 담당자를 유일하게 인식하는 신원 정보일 수 있지만 이에 한정되지 않는다. 신원 식별 정보를 결정한 후, 상기 신원 식별 정보에 대응되는 기설정된 마킹 행동 인식 모델 및 마킹 음성 인식 모델을 조회하고, 마킹 행동 인식 모델 및 마킹 음성 인식 모델은 대응되는 비즈니스 담당자의 과거 마킹 행동 데이터 및 과거 마킹 음성 데이터를 각각 기반으로 트레이닝하여 얻은 것이며, 마킹 인식의 목표성이 강하고 인식 정확도가 높다.
마킹 행동 인식 모델 및 마킹 음성 인식 모델을 얻은 후, 한편으로 영상 데이터에서 영상 특징 데이터를 추출하고, 영상 특징 데이터를 마킹 행동 인식 모델에 입력하여 마킹 행동 인식 결과를 얻는다. 다른 한편으로 오디오 데이터에서 오디오 특징 데이터를 추출하고, 오디오 특징 데이터를 마킹 음성 인식 모델에 입력하여 마킹 음성 인식 결과를 얻는다. 영상 데이터 및 오디오 데이터를 마킹 인식할 경우, 특징 추출을 수행하고, 불필요한 중복 정보를 필터링하여 영상 특징 데이터 및 오디오 특징 데이터를 얻으며, 후속적인 마킹 인식 처리를 수행하여 마킹 행동 인식 결과 및 마킹 음성 인식 결과를 얻는다.
하나의 실시예에서, 신원 식별 정보에 각각 대응되는 기설정된 마킹 행동 인식 모델 및 마킹 음성 인식 모델을 조회하는 단계 이전에, 비즈니스 시스템에서 과거 행위 영상 데이터 및 과거 마킹 음성 데이터를 획득하는 단계; 과거 행위 영상 데이터 및 과거 마킹 음성 데이터를 비즈니스 담당자에 따라 각각 분류하여 각 비즈니스 담당자에 대응되는 과거 행위 영상 데이터 및 각 비즈니스 담당자에 대응되는 과거 마킹 음성 데이터를 얻는 단계; 각 비즈니스 담당자에 대응되는 과거 행위 영상 데이터를 트레이닝하여 마킹 행동 인식 모델을 얻는 단계; 및 각 비즈니스 담당자에 대응되는 과거 마킹 음성 데이터를 트레이닝하여 마킹 음성 인식 모델을 얻는 단계를 더 포함한다.
마킹 행동 인식 모델 및 마킹 음성 인식 모델을 트레이닝할 경우, 먼저 비즈니스 시스템에서 과거 행위 영상 데이터 및 과거 마킹 음성 데이터를 획득한다. 여기서, 과거 행위 영상 데이터는 비즈니스 시스템의 각 비즈니스 담당자가 비즈니스 대면 검증 프로세스에서 이중 기록 및 촬영된 마킹 영상 데이터일 수 있고, 예를 들면 박수, 손 올리기, 양손 교차, 머리 끄덕임 등 마킹 행동을 포함할 수 있으며; 과거 마킹 음성 데이터는 과거 행위 영상 데이터와 유사하고, 예컨대 키워드 문구, "X번째 문제", "네, 감사합니다" 등이다. 구체적인 적용에서, 각 비즈니스 담당자는 상이한 개인 습관이 있을 수 있고, 이에 대응되는 과거 행위 영상 데이터 및 과거 마킹 음성 데이터의 마킹 작업의 표현도 상이하므로, 비즈니스 담당자에 따라 과거 행위 영상 데이터 및 과거 마킹 음성 데이터를 분류하여 각 비즈니스 담당자에게 대응되는 마킹 행동 인식 모델 및 마킹 음성 인식 모델을 구축한다.
구체적으로, 각 비즈니스 담당자에 대응되는 과거 행위 영상 데이터를 트레이닝하여 마킹 행동 인식 모델을 얻고; 각 비즈니스 담당자에 대응되는 과거 마킹 음성 데이터를 트레이닝하여 마킹 음성 인식 모델을 얻는다. 구체적으로 구현할 경우, 과거 행위 영상 데이터를 트레이닝 샘플 세트 및 테스트 샘플 세트로 나눌 수 있고, 감독 학습 방법을 통해 상기 트레이닝 샘플 세트를 트레이닝하여 테스트할 마킹 행동 모듈을 얻으며, 다음 테스트 샘플 세트를 통해 테스트할 마킹 행동 모델에 대하여 인식 정밀도 테스트를 진행하고, 인식 정밀도 테스트를 통과한 후, 마킹 행동 인식 모델을 얻는다. 마킹 음성 인식 모델의 트레이닝 과정은 마킹 행동 인식 모델의 트레이닝 과정과 유사하다.
하나의 실시예에서, 마킹 행동 인식 결과, 마킹 음성 인식 결과 및 기설정된 마킹 트리거 규칙에 근거하여 마킹 인식 결과를 얻는 단계는, 행위 트리거 규칙 및 음성 트리거 규칙을 포함하는 기설정된 마킹 트리거 규칙을 조회하는 단계; 마킹 행동 인식 결과를 행위 트리거 규칙과 비교하여 행위 트리거 결과를 얻는 단계; 마킹 음성 인식 결과를 음성 트리거 규칙과 비교하여 음성 트리거 결과를 얻는 단계; 및 행위 트리거 결과 및 음성 트리거 결과에 근거하여 마킹 인식 결과를 얻는 단계를 포함한다.
마킹 행동 인식 결과 및 마킹 음성 인식 결과를 얻은 후, 실제 비즈니스 요구의 마킹 트리거 규칙을 결부하여 마킹 인식 결과를 얻는다. 구체적으로, 기설정된 마킹 트리거 규칙을 조회하고, 상기 마킹 트리거 규칙은 실제 비즈니스 요구에 근거하여 설정되며, 구체적으로 비즈니스 유형 및 비즈니스 담당자의 습관에 근거하여 설정될 수 있고, 예를 들면, 영상 데이터에서 비즈니스 담당자의 박수 행위가 인식될 경우, 또는 오디오 데이터에서 "X번째 문제"의 핵심 문구가 인식될 경우, 마킹하도록 트리거된 것으로 간주하도록 설정된다. 마킹 트리거 규칙은 행위 트리거 규칙 및 음성 트리거 규칙을 포함하고, 영상 데이터의 마킹 인식 및 오디오 데이터의 마킹 인식에 각각 대응된다.
한편, 마킹 행동 인식 결과를 행위 트리거 규칙과 비교하여 행위 트리거 결과를 얻고; 다른 한편, 마킹 음성 인식 결과를 음성 트리거 규칙과 비교하여 음성 트리거 결과를 얻는다. 마지막으로 행위 트리거 결과 및 음성 트리거 결과를 종합하여 마킹 인식 결과를 얻고, 예를 들면 행위 트리거 결과 및 음성 트리거 결과에 대하여 OR 연산을 수행할 수 있으며, 즉 행위 트리거 결과 및 음성 트리거 결과 중 어느 하나의 유형이 마킹 작업일 경우, 얻은 마킹 인식 결과의 유형은 마킹 작업이고, 인식 대기 비디오 데이터에 대하여 커팅점 식별자 추가 처리를 수행한다.
하나의 실시예에서, 도 3에 도시된 바와 같이, 마킹 커팅 명령에 응답하는 단계를 더 포함하고, 구체적으로 이하 단계를 포함한다.
단계S301: 마킹 커팅 명령을 수신할 경우, 마킹 커팅 명령의 커팅 시간값을 결정한다.
본 실시예에서, 비디오 스트림 데이터에서 인식 대기 비디오 데이터를 추출하고, 인식 대기 비디오 데이터를 마킹 인식하는 외에, 외부에서 발송한 마킹 커팅 명령에 응답하여 인위적인 마킹 작업을 구현할 수 있다. 구체적으로, 마킹 커팅 명령을 수신할 경우, 상기 마킹 커팅 명령의 커팅 시간값을 결정한다. 여기서, 마킹 커팅 명령은 비즈니스 담당자가 관련 마킹 버튼을 클릭하는 것과 같이 외부에서 발송할 수 있고; 커팅 시간값은 마킹 커팅 명령의 발송 시간으로서, 비디오 스트림 데이터에서 마킹 작업이 필요한 시간축 위치를 반영한다.
단계S303: 커팅 시간값이 인식 대기 비디오 데이터에 대응되는 커팅 비디오 프레임을 결정한다.
마킹 커팅 명령의 커팅 시간값을 결정한 후, 인식 대기 비디오 데이터에서 상기 커팅 시간값에 대응되는 커팅 비디오 프레임을 결정한다. 일반적으로, 외부에서 마킹 커팅 명령을 발송할 경우, 인식 대기 비디오 데이터에서 상기 시각에 대응되는 비디오 프레임이 마킹 작업을 수행하여야 하는 것을 나타내고, 상기 마킹 커팅 명령의 커팅 시간값에 근거하여 인식 대기 비디오 데이터의 시간축에서 대응되는 커팅 비디오 프레임을 결정할 수 있다.
단계S305: 커팅 비디오 프레임에 커팅점 식별자를 추가한다.
커팅 비디오 프레임을 결정한 후, 상기 커팅 비디오 프레임에 커팅점 식별자를 추가하고, 커팅점 식별자는 비디오 커팅의 커팅점을 식별자하기 위한 것이며, 비디오 스트림 데이터를 커팅할 경우, 상기 커팅점 식별자를 직접 검색하여 커팅 처리할 수 있다.
단계S307: 커팅점 식별자에 따라 비디오 스트림 데이터를 커팅 처리하는 단계로 리턴하여 비디오 세그먼트 데이터를 얻는다.
커팅점 식별자를 추가한 후, 커팅점 식별자에 따라 상기 비디오 스트림 데이터를 커팅 처리하는 단계로 리턴하고, 비디오 스트림 데이터의 커팅점 식별자를 검색하며, 다 상기 커팅점 식별자에 따라 커팅 처리함으로써, 비디오 스트림 데이터를 분할하여 각 비디오 세그먼트 데이터를 얻는다.
본 실시예에서, 인식 대기 비디오 데이터의 영상 데이터 및 오디오 데이터를 마킹 인식하는 외에, 또한 외부에서 발송한 마킹 커팅 명령을 실시간으로 수신하고, 상기 마킹 커팅 명령에 따라 비디오 커팅 처리를 수행하며, 비디오 커팅에 대한 외부의 제어를 구현하여 비디오 커팅의 작업 다양성을 효과적으로 확장하고, 비디오 커팅 처리의 효율을 향상시킬 수 있다.
일부 실시예에서, 비디오 세그먼트 데이터를 얻는 단계 이후에, 비디오 세그먼트 데이터에서 오디오 세그먼트 데이터를 추출하는 단계; 기설정된 음성 인식 모델을 조회하는 단계; 오디오 세그먼트 데이터를 음성 인식 모델에 입력하여 비디오 세그먼트 데이터의 전사 데이터를 얻는 단계; 및 전사 데이터에 근거하여 비디오 세그먼트 데이터에 대응되는 비즈니스 유형을 결정하고, 비디오 세그먼트 데이터를 비즈니스 유형에 대응되는 저장 위치에 저장하는 단계를 더 포함한다.
본 실시예에서, 비디오 스트림 데이터가 커팅 처리된 비디오 세그먼트 데이터를 얻은 후, 각 비디오 세그먼트 데이터의 비즈니스 유형에 따라 이를 대응되는 저장 위치에 저장할 수 있다. 구체적으로, 비디오 세그먼트 데이터에서 오디오 세그먼트 데이터를 추출하고, 오디오 세그먼트 데이터는 비디오 세그먼트 데이터의 대화 데이터를 포함하며, 상기 오디오 세그먼트 데이터에 근거하여 상기 비디오 세그먼트 데이터에 대응되는 비즈니스 유형을 결정할 수 있다. 기설정된 음성 인식 모델을 조회하고, 음성 인식 모델은 입력된 음성 데이터를 음성 인식하여 대응되는 전사 데이터를 얻을 수 있다.
본 실시예에서, 오디오 세그먼트 데이터를 상기 음성 인식 모델에 입력하여 비디오 세그먼트 데이터의 전사 데이터를 얻고, 전사 데이터는 덱스트 형태의 데이터일 수 있으며, 상기 전사 데이터에 근거하여 비디오 세그먼트 데이터에 대응되는 비즈니스 유형을 결정할 수 있다. 구체적으로 구현할 경우, 전사 데이터에서 비즈니스 키워드를 추출하고, 얻은 비즈니스 키워드에 근거하여 대응되는 비즈니스 유형을 매칭시킬 수 있다. 비디오 세그먼트 데이터에 대응되는 비즈니스 유형을 결정한 후, 상기 비디오 세그먼트 데이터를 비즈니스 유형에 대응되는 저장 위치에 저장한다. 예를 들면 상기 비즈니스 유형에 대응되는 기설정된 저장 위치를 조회하고, 비디오 세그먼트 데이터를 상기 저장 위치에 저장함으로써, 비디오 세그먼트 데이터의 자동 분류 및 저장을 구현할 수 있다.
하나의 실시예에서, 도 4에 도시된 바와 같이, 비디오 커팅 방법을 제공하는데, 이하 단계를 포함한다.
단계S401: 비디오 스트림 데이터를 획득한다.
단계S402: 비디오 스트림 인식 길이를 결정한다.
단계S403: 비디오 스트림 인식 길이에 따라, 비디오 스트림 데이터에서 인식 대기 비디오 데이터를 추출한다.
단계S404: 인식 대기 비디오 데이터에서 영상 데이터 및 오디오 데이터를 추출한다.
본 실시예에서, 서버(104)는 녹화 기기(102)에 의해 발송된 비디오 스트림 데이터를 수신하고, 실제 요구에 근거하여 설정된 비디오 스트림 인식 길이를 결정하며, 상기 비디오 스트림 인식 길이에 따라, 비디오 스트림 데이터에서 비디오 스트림 인식 길이를 충족시키는 인식 대기 비디오 데이터를 순차적으로 추출하고, 다음 추출된 인식 대기 비디오 데이터에 대하여 후속적인 마킹 인식 처리를 수행한다.
단계S405: 인식 대기 비디오 데이터에 대응되는 비즈니스 담당자의 신원 식별 정보를 결정한다.
단계S406: 신원 식별 정보에 각각 대응되는 기설정된 마킹 행동 인식 모델 및 마킹 음성 인식 모델을 조회한다.
단계S407: 영상 데이터에서 영상 특징 데이터를 추출하고, 오디오 데이터에서 오디오 특징 데이터를 추출한다.
단계S408: 영상 특징 데이터를 마킹 행동 인식 모델에 입력하여 마킹 행동 인식 결과를 얻고, 오디오 특징 데이터를 마킹 음성 인식 모델에 입력하여 마킹 음성 인식 결과를 얻는다.
영상 데이터 및 오디오 데이터를 얻은 후, 인식 대기 비디오 데이터의 출처를 통해, 즉 녹화 기기(102)에 근거하여 대응되는 비즈니스 담당자를 결정하고, 상기 비즈니스 담당자에 대응되는 신원 식별 정보를 추가로 조회하며, 신원 식별 정보는 직원 번호, 직원 이름이다. 상기 신원 식별 정보에 대응되는 기설정된 마킹 행동 인식 모델 및 마킹 음성 인식 모델을 조회하고, 마킹 행동 인식 모델 및 마킹 음성 인식 모델은 대응되는 비즈니스 담당자의 과거 마킹 행동 데이터 및 과거 마킹 음성 데이터를 각각 기반으로 트레이닝하여 얻은 것이며, 마킹 인식의 목표성이 강하고 인식 정확도가 높다. 한편으로, 영상 데이터에서 영상 특징 데이터를 추출하고, 영상 특징 데이터를 마킹 행동 인식 모델에 입력하여 마킹 행동 인식 결과를 얻는다. 다른 한편으로, 오디오 데이터에서 오디오 특징 데이터를 추출하고, 오디오 특징 데이터를 마킹 음성 인식 모델에 입력하여 마킹 음성 인식 결과를 얻는다.
단계S409: 마킹 행동 인식 결과, 마킹 음성 인식 결과 및 기설정된 마킹 트리거 규칙에 근거하여 마킹 인식 결과를 얻는다.
마킹 행동 인식 결과 및 마킹 음성 인식 결과를 얻은 후, 실제 비즈니스 요구의 마킹 트리거 규칙을 결부하여 마킹 인식 결과를 얻는다. 구체적으로, 행위 트리거 규칙 및 음성 트리거 규칙을 포함하는 기설정된 마킹 트리거 규칙을 조회하는 단계; 마킹 행동 인식 결과를 행위 트리거 규칙과 비교하여 행위 트리거 결과를 얻는 단계; 마킹 음성 인식 결과를 음성 트리거 규칙과 비교하여 음성 트리거 결과를 얻는 단계; 행위 트리거 결과 및 음성 트리거 결과에 근거하여 마킹 인식 결과를 얻는 단계를 포함할 수 있다.
단계S410: 마킹 인식 결과의 유형이 마킹 작업일 경우, 인식 대기 비디오 데이터에 커팅점 식별자를 추가한다.
단계S411: 커팅점 식별자에 따라 비디오 스트림 데이터를 커팅 처리하여 비디오 세그먼트 데이터를 얻는다.
마킹 인식 결과를 얻은 후, 유형을 판단하고, 마킹 인식 결과의 유형이 마킹 작업일 경우, 상기 인식 대기 비디오 데이터가 커팅점인 것을 나타내며, 이를 마킹 처리하고, 구체적으로 상기 인식 대기 비디오 데이터에 커팅점 식별자를 추가할 수 있다. 비디오 스트림 데이터의 커팅점 식별자를 검색하고, 상기 커팅점 식별자에 따라 커팅 처리함으로써, 비디오 스트림 데이터를 분할하여 각 비디오 세그먼트 데이터를 얻는다.
단계S412: 비디오 세그먼트 데이터에서 오디오 세그먼트 데이터를 추출한다.
단계S413: 기설정된 음성 인식 모델을 조회한다.
단계S414: 오디오 세그먼트 데이터를 음성 인식 모델에 입력하여 비디오 세그먼트 데이터의 전사 데이터를 얻는다
단계S415: 전사 데이터에 근거하여 비디오 세그먼트 데이터에 대응되는 비즈니스 유형을 결정하고, 비디오 세그먼트 데이터를 비즈니스 유형에 대응되는 저장 위치에 저장한다.
본 실시예에서, 비디오 스트림 데이터가 커팅 처리된 비디오 세그먼트 데이터를 얻은 후, 각 비디오 세그먼트 데이터의 비즈니스 유형에 따라 이를 대응되는 저장 위치에 저장함으로써, 비디오 세그먼트 데이터의 자동 분류 및 저장을 구현할 수 있다.
도 2-도 4의 흐름도의 각 단계는 화살표의 지시에 따라 순차적으로 표시되지만, 이러한 단계는 반드시 화살표가 지시하는 순서에 따라 순차적으로 수행되어야 하는 것이 아님을 이해하여야 한다. 본 명세서에서 달리 명확하게 설명하지 않는 한, 이러한 단계의 수행은 엄격한 순서 제한이 없고, 이러한 단계는 기타 순서로 수행될 수 있다. 또한, 도 2-도 4의 적어도 일부 단계는 다수의 하위 단계 또는 다수의 단계를 포함할 수 있고, 이러한 하위 단계 또는 단계는 반드시 동일한 시각에 실행되어 완성되어야 하는 것이 아니라, 상이한 시각에 실행될 수 있으며, 또한 이러한 하위 단계 또는 단계의 수행 순서는 반드시 순서적으로 수행되어야 하는 것이 아니라, 기타 단계 또는 기타 단계의 하위 단계 또는 단계의 적어도 일부와 순번대로 또는 교대로 수행될 수 있다.
하나의 실시예에서, 도 5에 도시된 바와 같이, 비디오 커팅 장치를 제공하는데, 인식 데이터 추출 모듈(501), 마킹 인식 처리 모듈(503), 마킹 결과 획득 모듈(505), 커팅 식별자 추가 모듈(507) 및 비디오 커팅 모듈(509)을 포함하되, 여기서,
인식 데이터 추출 모듈(501)은 비디오 스트림 데이터에서 인식 대기 비디오 데이터를 추출하고, 인식 대기 비디오 데이터에서 영상 데이터 및 오디오 데이터를 추출하기 위한 것이며;
마킹 인식 처리 모듈(503)은 영상 데이터를 기설정된 마킹 행동 인식 모델에 입력하여 마킹 행동 인식 결과를 얻고, 오디오 데이터를 기설정된 마킹 음성 인식 모델에 입력하여 마킹 음성 인식 결과를 얻기 위한 것이며;
마킹 결과 획득 모듈(505)은 마킹 행동 인식 결과, 마킹 음성 인식 결과 및 기설정된 마킹 트리거 규칙에 근거하여 마킹 인식 결과를 얻기 위한 것이고;
커팅 식별자 추가 모듈(507)은 마킹 인식 결과의 유형이 마킹 작업일 경우, 인식 대기 비디오 데이터에 커팅점 식별자를 추가하기 위한 것이며; 및
비디오 커팅 모듈(509)은 커팅점 식별자에 따라 비디오 스트림 데이터를 커팅 처리하여 비디오 세그먼트 데이터를 얻기 위한 것이다.
하나의 실시예에서, 인식 데이터 추출 모듈(501)은 비디오 스트림 획득 유닛, 인식 길이 결정 유닛 및 인식 데이터 추출 유닛을 포함하되, 여기서, 비디오 스트림 획득 유닛은 비디오 스트림 데이터를 획득하기 위한 것이고; 인식 길이 결정 유닛은 비디오 스트림 인식 길이를 결정하기 위한 것이며; 및 인식 데이터 추출 유닛은 비디오 스트림 인식 길이에 따라, 비디오 스트림 데이터에서 인식 대기 비디오 데이터를 추출하기 위한 것이다.
하나의 실시예에서, 마킹 인식 처리 모듈(503)은 신원 식별 결정 유닛, 인식 모델 조회 유닛, 특징 데이터 추출 유닛 및 마킹 인식 유닛을 포함하되, 여기서, 신원 식별 결정 유닛은 인식 대기 비디오 데이터에 대응되는 비즈니스 담당자의 신원 식별 정보를 결정하기 위한 것이고; 인식 모델 조회 유닛은 신원 식별 정보에 각각 대응되는 기설정된 마킹 행동 인식 모델 및 마킹 음성 인식 모델을 조회하기 위한 것이며; 특징 데이터 추출 유닛은 영상 데이터에서 영상 특징 데이터를 추출하고, 오디오 데이터에서 오디오 특징 데이터를 추출하기 위한 것이고; 및 마킹 인식 유닛, 영상 특징 데이터를 마킹 행동 인식 모델에 입력하여 마킹 행동 인식 결과를 얻고, 오디오 특징 데이터를 마킹 음성 인식 모델에 입력하여 마킹 음성 인식 결과를 얻기 위한 것이다.
하나의 실시예에서, 과거 데이터 획득 모듈, 과거 데이터 분류 모듈, 행위 인식 모델 트레이닝 모듈 및 음성 인식 모델 트레이닝 모듈을 더 포함하되, 여기서, 과거 데이터 획득 모듈은 비즈니스 시스템에서 과거 행위 영상 데이터 및 과거 마킹 음성 데이터를 획득하기 위한 것이고; 과거 데이터 분류 모듈은 과거 행위 영상 데이터 및 과거 마킹 음성 데이터를 비즈니스 담당자에 따라 각각 분류하여 각 비즈니스 담당자에 대응되는 과거 행위 영상 데이터 및 각 비즈니스 담당자에 대응되는 과거 마킹 음성 데이터를 얻기 위한 것이며; 행위 인식 모델 트레이닝 모듈은 각 비즈니스 담당자에 대응되는 과거 행위 영상 데이터를 트레이닝하여 마킹 행동 인식 모델을 얻기 위한 것이고; 및 음성 인식 모델 트레이닝 모듈은 각 비즈니스 담당자에 대응되는 과거 마킹 음성 데이터를 트레이닝하여 마킹 음성 인식 모델을 얻기 위한 것이다.
하나의 실시예에서, 마킹 결과 획득 모듈(505)은 트리거 규칙 조회 유닛, 행위 비교 유닛, 음성 비교 유닛 및 마킹 결과 획득 유닛을 포함하되, 여기서, 트리거 규칙 조회 유닛은 행위 트리거 규칙 및 음성 트리거 규칙을 포함하는 기설정된 마킹 트리거 규칙을 조회하기 위한 것이며; 행위 비교 유닛은 마킹 행동 인식 결과를 행위 트리거 규칙과 비교하여 행위 트리거 결과를 얻기 위한 것이고; 음성 비교 유닛은 마킹 음성 인식 결과를 음성 트리거 규칙과 비교하여 음성 트리거 결과를 얻기 위한 것이며; 및 마킹 결과 획득 유닛은 행위 트리거 결과 및 음성 트리거 결과에 근거하여 마킹 인식 결과를 얻기 위한 것이다.
하나의 실시예에서, 커팅 명령 수신 모듈, 커팅 프레임 결정 모듈, 식별자 추가 모듈 및 커팅 처리 모듈을 더 포함하되, 여기서, 커팅 명령 수신 모듈은 마킹 커팅 명령을 수신할 경우, 마킹 커팅 명령의 커팅 시간값을 결정하기 위한 것이고; 커팅 프레임 결정 모듈은 커팅 시간값이 인식 대기 비디오 데이터에 대응되는 커팅 비디오 프레임을 결정하기 위한 것이며; 식별자 추가 모듈은 커팅 비디오 프레임에 커팅점 식별자를 추가하기 위한 것이고; 및 커팅 처리 모듈은 커팅점 식별자에 따라 상기 비디오 스트림 데이터를 커팅 처리하는 단계로 리턴하여 비디오 세그먼트 데이터를 얻기 위한 것이다.
하나의 실시예에서, 오디오 세그먼트 추출 모듈, 음성 인식 모델 조회 모듈, 전사 데이터 획득 모듈 및 비디오 세그먼트 저장 모듈을 더 포함하되, 여기서, 오디오 세그먼트 추출 모듈은 비디오 세그먼트 데이터에서 오디오 세그먼트 데이터를 추출하기 위한 것이고; 음성 인식 모델 조회 모듈은 기설정된 음성 인식 모델을 조회하기 위한 것이며; 전사 데이터 획득 모듈은 오디오 세그먼트 데이터를 음성 인식 모델에 입력하여 비디오 세그먼트 데이터의 전사 데이터를 얻기 위한 것이고; 및 비디오 세그먼트 저장 모듈은 전사 데이터에 근거하여 비디오 세그먼트 데이터에 대응되는 비즈니스 유형을 결정하고, 비디오 세그먼트 데이터를 비즈니스 유형에 대응되는 저장 위치에 저장하기 위한 것이다.
비디오 커팅 장치에 대한 구체적인 한정은 전술한 비디오 커팅 방법에 대한 한정을 참조할 수 있고, 여기서 더 반복하지 않는다. 상기 비디오 커팅 장치의 각 모듈은 소프트웨어, 하드웨어 및 이들의 조합에 의해 전체적으로 또는 부분적으로 구현될 수 있다. 상기 각 모듈은 하드웨어 형태로 컴퓨터 기기의 프로세서에 내장되거나 독립될 수 있고, 또한 소프트웨어 형태로 컴퓨터 기기의 메모리에 저장되어 프로세서가 이상 각 모듈에 대응되는 작업을 호출하여 실행하도록 할 수 있다.
하나의 실시예에서, 컴퓨터 기기를 제공하고, 상기 컴퓨터 기기는 서버일 수 있으며, 이의 내부 구조도는 도 6에 도시된 바와 같을 수 있다. 상기 컴퓨터 기기는 시스템 버스를 통해 연결되는 프로세서, 메모리 및 네트워크 인터페이스를 포함한다. 여기서, 상기 컴퓨터 기기의 프로세서는 계산 및 제어 능력을 제공하기 위한 것이다. 상기 컴퓨터 기기의 메모리는 비휘발성 저장매체, 내부 메모리를 포함한다. 상기 비휘발성 저장매체에는 운영체제 및 컴퓨터 판독 가능 명령이 저장되어 있다. 상기 내부 메모리는 비휘발성 저장매체의 운영체제 및 컴퓨터 판독 가능 명령의 실행에 환경을 제공한다. 상기 컴퓨터 기기의 네트워크 인터페이스는 네트워크 연결을 통해 외부의 단말기와 통신하기 위한 것이다. 상기 컴퓨터 판독 가능 명령은 프로세서에 의해 실행되어 비디오 커팅 방법을 구현한다.
본 분야의 통상의 지식을 가진 자는, 도 6에 도시된 구조는 단지 본원 발명의 방안과 관련된 부분 구조의 블록도일 뿐, 본원 발명의 방안이 적용되는 컴퓨터 기기에 대한 한정을 구성하지 않고, 구체적인 컴퓨터 기기는 도면에 도시된 것보다 더 많거나 더 적은 부품을 포함하거나, 일부 부품을 조합하거나, 상이한 부품 배치를 가질 수 있음을 이해할 수 있다.
컴퓨터 기기에 있어서, 메모리 및 하나 또는 다수의 프로세서를 포함하되, 메모리에는 컴퓨터 판독 가능 명령이 저장되어 있고, 컴퓨터 판독 가능 명령이 상기 프로세서에 의해 실행될 경우, 본원 발명의 임의의 하나의 실시예에서 제공하는 비디오 커팅 방법의 단계를 구현한다.
컴퓨터 판독 가능 명령이 저장된 하나 또는 다수의 비휘발성 컴퓨터 판독 가능 저장매체에 있어서, 컴퓨터 판독 가능 명령이 하나 또는 다수의 프로세서에 의해 실행될 경우, 하나 또는 다수의 프로세서로 하여금 본원 발명의 임의의 하나의 실시예에서 제공하는 비디오 커팅 방법의 단계를 구현하도록 한다.
본 분야의 통상의 지식을 가진 자는 상기 실시예의 방법의 전부 또는 일부 프로세스를 구현하는 것은 컴퓨터 판독 가능 명령을 통해 관련된 하드웨어를 지시하여 구현될 수 있음을 이해할 수 있고, 상기 컴퓨터 판독 가능 명령은 비휘발성 컴퓨터 판독 가능 저장매체에 저장될 수 있으며, 상기 컴퓨터 판독 가능 명령이 실행될 경우, 예컨대 상기와 같은 각 방법의 실시예의 프로세스를 포함할 수 있다. 여기서, 본원 발명에서 제공하는 각 실시예에 사용되는 메모리, 스토리지, 데이터베이스 또는 기타 매체에 대한 모든 인용은 모두 비휘발성 및/또는 휘발성 메모리를 포함할 수 있다. 비휘발성 메모리는 읽기 전용 메모리(ROM), 프로그램 가능 ROM(PROM), 전기적 프로그램 가능 ROM(EPROM), 전기적 소거 가능 프로그램 가능 ROM(EEPROM) 또는 플래시 메모리를 포함할 수 있다. 휘발성 메모리는 랜덤 액세스 메모리(RAM) 또는 외부 캐시 메모리를 포함할 수 있다. 제한이 아닌 설명으로서, RAM은 정적 RAM(SRAM), 동적 RAM(DRAM), 동기식 DRAM(SDRAM), 이중 데이터 속도SDRAM(DDRSDRAM), 향상형 SDRAM(ESDRAM), 동기식 링크(Synchlink) DRAM(SLDRAM), 메모리 버스(Rambus) 직접 RAM(RDRAM), 직접 메모리 버스 동적 RAM(DRDRAM), 및 메모리 버스 동적 RAM(RDRAM) 등 여러 가지 형태로 얻을 수 있다.
이상 실시예의 각 기술특징은 임의로 조합될 수 있고, 설명의 간결을 위해, 상기 실시예의 각 기술특징의 모든 가능한 조합을 설명하지 않았지만, 이러한 기술특징의 조합에 모순이 없는 한, 본 명세서에 기재된 범위로 간주되어야 한다.
이상 상기 실시예는 단지 본원 발명의 여러 가지 구현 방식을 표현할 뿐이고, 이의 설명은 상대적으로 구체적이며 상세하지만, 발명 특허 범위에 대한 제한으로 이해되어서는 아니된다. 지적해야 할 부분으로는, 본 분야의 통상의 지식을 가진 자에게 있어서, 본원 발명의 사상을 벗어나지 않는 전제 하에서, 약간의 변형 및 개선을 더 진행할 수 있고, 이들은 모두 본원 발명의 보호범위에 속한다. 따라서, 본원 발명 특허의 보호범위는 첨부된 특허청구범위에 따른다.
Claims (20)
- 비디오 스트림 데이터에서 인식 대기 비디오 데이터를 추출하고, 상기 인식 대기 비디오 데이터에서 영상 데이터 및 오디오 데이터를 추출하는 단계;
상기 영상 데이터를 기설정된 마킹 행동 인식 모델에 입력하여 마킹 행동 인식 결과를 얻고, 상기 오디오 데이터를 기설정된 마킹 음성 인식 모델에 입력하여 마킹 음성 인식 결과를 얻는 단계;
상기 마킹 행동 인식 결과, 상기 마킹 음성 인식 결과 및 기설정된 마킹 트리거 규칙에 근거하여 마킹 인식 결과를 얻는 단계;
상기 마킹 인식 결과의 유형이 마킹 작업일 경우, 상기 인식 대기 비디오 데이터에 커팅점 식별자를 추가하는 단계; 및
상기 커팅점 식별자에 따라 상기 비디오 스트림 데이터를 커팅 처리하여 비디오 세그먼트 데이터를 얻는 단계를 포함하는 것을 특징으로 하는 비디오 커팅 방법. - 제1항에 있어서,
비디오 스트림 데이터에서 인식 대기 비디오 데이터를 추출하는 상기 단계는,
비디오 스트림 데이터를 획득하는 단계;
비디오 스트림 인식 길이를 결정하는 단계; 및
상기 비디오 스트림 인식 길이에 따라, 상기 비디오 스트림 데이터에서 인식 대기 비디오 데이터를 추출하는 단계를 포함하는 것을 특징으로 하는 비디오 커팅 방법. - 제1항에 있어서,
상기 영상 데이터를 기설정된 마킹 행동 인식 모델에 입력하여 마킹 행동 인식 결과를 얻고, 상기 오디오 데이터를 기설정된 마킹 음성 인식 모델에 입력하여 마킹 음성 인식 결과를 얻는 상기 단계는,
상기 인식 대기 비디오 데이터에 대응되는 비즈니스 담당자의 신원 식별 정보를 결정하는 단계;
상기 신원 식별 정보에 각각 대응되는 기설정된 마킹 행동 인식 모델 및 마킹 음성 인식 모델을 조회하는 단계;
상기 영상 데이터에서 영상 특징 데이터를 추출하고, 상기 오디오 데이터에서 오디오 특징 데이터를 추출하는 단계; 및
상기 영상 특징 데이터를 상기 마킹 행동 인식 모델에 입력하여 마킹 행동 인식 결과를 얻고, 상기 오디오 특징 데이터를 상기 마킹 음성 인식 모델에 입력하여 마킹 음성 인식 결과를 얻는 단계를 포함하는 것을 특징으로 하는 비디오 커팅 방법. - 제3항에 있어서,
상기 신원 식별 정보에 각각 대응되는 기설정된 마킹 행동 인식 모델 및 마킹 음성 인식 모델을 조회하는 상기 단계 이전에, 상기 방법은,
비즈니스 시스템에서 과거 행위 영상 데이터 및 과거 마킹 음성 데이터를 획득하는 단계;
상기 과거 행위 영상 데이터 및 상기 과거 마킹 음성 데이터를 비즈니스 담당자에 따라 각각 분류하여 각 비즈니스 담당자에 대응되는 과거 행위 영상 데이터 및 각 비즈니스 담당자에 대응되는 과거 마킹 음성 데이터를 얻는 단계;
상기 각 비즈니스 담당자에 대응되는 과거 행위 영상 데이터를 트레이닝하여 상기 마킹 행동 인식 모델을 얻는 단계; 및
상기 각 비즈니스 담당자에 대응되는 과거 마킹 음성 데이터를 트레이닝하여 상기 마킹 음성 인식 모델을 얻는 단계를 더 포함하는 것을 특징으로 하는 비디오 커팅 방법. - 제1항에 있어서,
상기 마킹 행동 인식 결과, 상기 마킹 음성 인식 결과 및 기설정된 마킹 트리거 규칙에 근거하여 마킹 인식 결과를 얻는 상기 단계는,
행위 트리거 규칙 및 음성 트리거 규칙을 포함하는 기설정된 마킹 트리거 규칙을 조회하는 단계;
상기 마킹 행동 인식 결과를 상기 행위 트리거 규칙과 비교하여 행위 트리거 결과를 얻는 단계;
상기 마킹 음성 인식 결과를 상기 음성 트리거 규칙과 비교하여 음성 트리거 결과를 얻는 단계; 및
상기 행위 트리거 결과 및 상기 음성 트리거 결과에 근거하여 마킹 인식 결과를 얻는 단계를 포함하는 것을 특징으로 하는 비디오 커팅 방법. - 제5항에 있어서,
상기 행위 트리거 결과 및 상기 음성 트리거 결과에 근거하여 마킹 인식 결과를 얻는 상기 단계는,
상기 행위 트리거 결과 및 상기 음성 트리거 결과에 대하여 OR 연산을 수행하여 마킹 인식 결과를 얻는 단계를 포함하는 것을 특징으로 하는 비디오 커팅 방법. - 제1항에 있어서,
상기 마킹 인식 결과의 유형이 마킹 작업일 경우, 상기 인식 대기 비디오 데이터에 커팅점 식별자를 추가하는 상기 단계는,
상기 마킹 인식 결과의 유형을 결정하는 단계;
상기 마킹 인식 결과의 유형이 마킹 작업일 경우, 기설정된 라벨 추가 규칙을 조회하는 단계;
상기 라벨 추가 규칙에 근거하여 상기 인식 대기 비디오 데이터에서 키프레임을 결정하고, 상기 키프레임에 커팅 라벨을 추가하며, 상기 커팅점 식별자는 상기 커팅 라벨을 포함하는 단계를 포함하는 것을 특징으로 하는 비디오 커팅 방법. - 제1항 내지 제7항 중 임의의 한 항에 있어서,
마킹 커팅 명령을 수신할 경우, 상기 마킹 커팅 명령의 커팅 시간값을 결정하는 단계;
상기 커팅 시간값이 상기 인식 대기 비디오 데이터에 대응되는 커팅 비디오 프레임을 결정하는 단계;
상기 커팅 비디오 프레임에 커팅점 식별자를 추가하는 단계; 및
상기 커팅점 식별자에 따라 상기 비디오 스트림 데이터를 커팅 처리하는 상기 단계로 리턴하여 비디오 세그먼트 데이터를 얻는 단계를 더 포함하는 것을 특징으로 하는 비디오 커팅 방법. - 제8항에 있어서,
비디오 세그먼트 데이터를 얻는 상기 단계 이후에, 상기 방법은,
상기 비디오 세그먼트 데이터에서 오디오 세그먼트 데이터를 추출하는 단계;
기설정된 음성 인식 모델을 조회하는 단계;
상기 오디오 세그먼트 데이터를 상기 음성 인식 모델에 입력하여 상기 비디오 세그먼트 데이터의 전사 데이터(transcription data)를 얻는 단계; 및
상기 전사 데이터에 근거하여 상기 비디오 세그먼트 데이터에 대응되는 비즈니스 유형을 결정하고, 상기 비디오 세그먼트 데이터를 상기 비즈니스 유형에 대응되는 저장 위치에 저장하는 단계를 더 포함하는 것을 특징으로 하는 비디오 커팅 방법. - 제9항에 있어서,
상기 전사 데이터에 근거하여 상기 비디오 세그먼트 데이터에 대응되는 비즈니스 유형을 결정하고, 상기 비디오 세그먼트 데이터를 상기 비즈니스 유형에 대응되는 저장 위치에 저장하는 상기 단계는,
상기 전사 데이터에서 비즈니스 키워드를 추출하는 단계;
상기 비즈니스 키워드에 근거하여 상기 비디오 세그먼트 데이터에 대응되는 비즈니스 유형을 결정하는 단계;
상기 비즈니스 유형에 대응되는 기설정된 저장 위치를 조회하는 단계;
상기 비디오 세그먼트 데이터를 상기 저장 위치에 저장하는 단계를 포함하는 것을 특징으로 하는 비디오 커팅 방법. - 비디오 스트림 데이터에서 인식 대기 비디오 데이터를 추출하고, 상기 인식 대기 비디오 데이터에서 영상 데이터 및 오디오 데이터를 추출하기 위한 인식 데이터 추출 모듈;
상기 영상 데이터를 기설정된 마킹 행동 인식 모델에 입력하여 마킹 행동 인식 결과를 얻고, 상기 오디오 데이터를 기설정된 마킹 음성 인식 모델에 입력하여 마킹 음성 인식 결과를 얻기 위한 마킹 인식 처리 모듈;
상기 마킹 행동 인식 결과, 상기 마킹 음성 인식 결과 및 기설정된 마킹 트리거 규칙에 근거하여 마킹 인식 결과를 얻기 위한 마킹 결과 획득 모듈;
상기 마킹 인식 결과의 유형이 마킹 작업일 경우, 상기 인식 대기 비디오 데이터에 커팅점 식별자를 추가하기 위한 커팅 식별자 추가 모듈; 및
상기 커팅점 식별자에 따라 상기 비디오 스트림 데이터를 커팅 처리하여 비디오 세그먼트 데이터를 얻기 위한 비디오 커팅 모듈을 포함하는 것을 특징으로 하는 비디오 커팅 장치. - 제11항에 있어서,
상기 인식 데이터 추출 모듈은,
비디오 스트림 데이터를 획득하기 위한 비디오 스트림 획득 유닛;
비디오 스트림 인식 길이를 결정하기 위한 인식 길이 결정 유닛; 및
상기 비디오 스트림 인식 길이에 따라, 상기 비디오 스트림 데이터에서 인식 대기 비디오 데이터를 추출하기 위한 인식 데이터 추출 유닛을 포함하는 것을 특징으로 하는 비디오 커팅 장치. - 제11항에 있어서,
상기 마킹 인식 처리 모듈은,
상기 인식 대기 비디오 데이터에 대응되는 비즈니스 담당자의 신원 식별 정보를 결정하기 위한 신원 식별 결정 유닛;
상기 신원 식별 정보에 각각 대응되는 기설정된 마킹 행동 인식 모델 및 마킹 음성 인식 모델을 조회하기 위한 인식 모델 조회 유닛;
상기 영상 데이터에서 영상 특징 데이터를 추출하고, 상기 오디오 데이터에서 오디오 특징 데이터를 추출하기 위한 특징 데이터 추출 유닛; 및
상기 영상 특징 데이터를 상기 마킹 행동 인식 모델에 입력하여 마킹 행동 인식 결과를 얻고, 상기 오디오 특징 데이터를 상기 마킹 음성 인식 모델에 입력하여 마킹 음성 인식 결과를 얻기 위한 마킹 인식 유닛을 포함하는 것을 특징으로 하는 비디오 커팅 장치. - 제13항에 있어서,
상기 장치는,
비즈니스 시스템에서 과거 행위 영상 데이터 및 과거 마킹 음성 데이터를 획득하기 위한 과거 데이터 획득 모듈;
상기 과거 행위 영상 데이터 및 상기 과거 마킹 음성 데이터를 비즈니스 담당자에 따라 각각 분류하여 각 비즈니스 담당자에 대응되는 과거 행위 영상 데이터 및 각 비즈니스 담당자에 대응되는 과거 마킹 음성 데이터를 얻기 위한 과거 데이터 분류 모듈;
상기 각 비즈니스 담당자에 대응되는 과거 행위 영상 데이터를 트레이닝하여 상기 마킹 행동 인식 모델을 얻기 위한 행위 인식 모델 트레이닝 모듈; 및
상기 각 비즈니스 담당자에 대응되는 과거 마킹 음성 데이터를 트레이닝하여 상기 마킹 음성 인식 모델을 얻기 위한 음성 인식 모델 트레이닝 모듈을 더 포함하는 것을 특징으로 하는 비디오 커팅 장치. - 메모리 및 하나 또는 다수의 프로세서를 포함하되, 상기 메모리에는 컴퓨터 판독 가능 명령이 저장되어 있고, 상기 컴퓨터 판독 가능 명령이 상기 하나 또는 다수의 프로세서에 의해 실행될 경우, 상기 하나 또는 다수의 프로세서로 하여금 이하 단계를 수행하도록 하는 컴퓨터 기기에 있어서,
비디오 스트림 데이터에서 인식 대기 비디오 데이터를 추출하고, 상기 인식 대기 비디오 데이터에서 영상 데이터 및 오디오 데이터를 추출하는 단계;
상기 영상 데이터를 기설정된 마킹 행동 인식 모델에 입력하여 마킹 행동 인식 결과를 얻고, 상기 오디오 데이터를 기설정된 마킹 음성 인식 모델에 입력하여 마킹 음성 인식 결과를 얻는 단계;
상기 마킹 행동 인식 결과, 상기 마킹 음성 인식 결과 및 기설정된 마킹 트리거 규칙에 근거하여 마킹 인식 결과를 얻는 단계;
상기 마킹 인식 결과의 유형이 마킹 작업일 경우, 상기 인식 대기 비디오 데이터에 커팅점 식별자를 추가하는 단계; 및
상기 커팅점 식별자에 따라 상기 비디오 스트림 데이터를 커팅 처리하여 비디오 세그먼트 데이터를 얻는 단계를 수행하는 것을 특징으로 하는 컴퓨터 기기. - 제15항에 있어서,
상기 프로세서는 상기 컴퓨터 판독 가능 명령을 실행할 경우,
비디오 스트림 데이터를 획득하는 단계;
비디오 스트림 인식 길이를 결정하는 단계; 및
상기 비디오 스트림 인식 길이에 따라, 상기 비디오 스트림 데이터에서 인식 대기 비디오 데이터를 추출하는 단계를 더 수행하는 것을 특징으로 하는 컴퓨터 기기. - 제15항에 있어서,
상기 프로세서는 상기 컴퓨터 판독 가능 명령을 실행할 경우,
상기 인식 대기 비디오 데이터에 대응되는 비즈니스 담당자의 신원 식별 정보를 결정하는 단계;
상기 신원 식별 정보에 각각 대응되는 기설정된 마킹 행동 인식 모델 및 마킹 음성 인식 모델을 조회하는 단계;
상기 영상 데이터에서 영상 특징 데이터를 추출하고, 상기 오디오 데이터에서 오디오 특징 데이터를 추출하는 단계; 및
상기 영상 특징 데이터를 상기 마킹 행동 인식 모델에 입력하여 마킹 행동 인식 결과를 얻고, 상기 오디오 특징 데이터를 상기 마킹 음성 인식 모델에 입력하여 마킹 음성 인식 결과를 얻는 단계를 더 수행하는 것을 특징으로 하는 컴퓨터 기기. - 컴퓨터 판독 가능 명령이 하나 또는 다수의 프로세서에 의해 실행될 경우, 상기 하나 또는 다수의 프로세서로 하여금 이하 단계를 수행하도록 하는 상기 컴퓨터 판독 가능 명령이 저장된 하나 또는 다수의 비휘발성 컴퓨터 판독 가능 저장매체에 있어서,
비디오 스트림 데이터에서 인식 대기 비디오 데이터를 추출하고, 상기 인식 대기 비디오 데이터에서 영상 데이터 및 오디오 데이터를 추출하는 단계;
상기 영상 데이터를 기설정된 마킹 행동 인식 모델에 입력하여 마킹 행동 인식 결과를 얻고, 상기 오디오 데이터를 기설정된 마킹 음성 인식 모델에 입력하여 마킹 음성 인식 결과를 얻는 단계;
상기 마킹 행동 인식 결과, 상기 마킹 음성 인식 결과 및 기설정된 마킹 트리거 규칙에 근거하여 마킹 인식 결과를 얻는 단계;
상기 마킹 인식 결과의 유형이 마킹 작업일 경우, 상기 인식 대기 비디오 데이터에 커팅점 식별자를 추가하는 단계; 및
상기 커팅점 식별자에 따라 상기 비디오 스트림 데이터를 커팅 처리하여 비디오 세그먼트 데이터를 얻는 단계를 수행하는 것을 특징으로 하는 비휘발성 컴퓨터 판독 가능 저장매체. - 제18항에 있어서,
상기 컴퓨터 판독 가능 명령이 상기 프로세서에 의해 실행될 경우,
비디오 스트림 데이터를 획득하는 단계;
비디오 스트림 인식 길이를 결정하는 단계; 및
상기 비디오 스트림 인식 길이에 따라, 상기 비디오 스트림 데이터에서 인식 대기 비디오 데이터를 추출하는 단계를 더 수행하는 것을 특징으로 하는 비휘발성 컴퓨터 판독 가능 저장매체. - 제18항에 있어서,
상기 컴퓨터 판독 가능 명령이 상기 프로세서에 의해 실행될 경우,
상기 인식 대기 비디오 데이터에 대응되는 비즈니스 담당자의 신원 식별 정보를 결정하는 단계;
상기 신원 식별 정보에 각각 대응되는 기설정된 마킹 행동 인식 모델 및 마킹 음성 인식 모델을 조회하는 단계;
상기 영상 데이터에서 영상 특징 데이터를 추출하고, 상기 오디오 데이터에서 오디오 특징 데이터를 추출하는 단계; 및
상기 영상 특징 데이터를 상기 마킹 행동 인식 모델에 입력하여 마킹 행동 인식 결과를 얻고, 상기 오디오 특징 데이터를 상기 마킹 음성 인식 모델에 입력하여 마킹 음성 인식 결과를 얻는 단계를 더 수행하는 것을 특징으로 하는 비휘발성 컴퓨터 판독 가능 저장매체.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811536818.XA CN109743624B (zh) | 2018-12-14 | 2018-12-14 | 视频切割方法、装置、计算机设备和存储介质 |
CN201811536818.X | 2018-12-14 | ||
PCT/CN2019/122472 WO2020119508A1 (zh) | 2018-12-14 | 2019-12-02 | 视频切割方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20210088680A true KR20210088680A (ko) | 2021-07-14 |
Family
ID=66360325
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020217017667A KR20210088680A (ko) | 2018-12-14 | 2019-12-02 | 비디오 커팅 방법, 장치, 컴퓨터 기기 및 저장매체 |
Country Status (6)
Country | Link |
---|---|
EP (1) | EP3890333A4 (ko) |
JP (1) | JP2022510479A (ko) |
KR (1) | KR20210088680A (ko) |
CN (1) | CN109743624B (ko) |
SG (1) | SG11202103326QA (ko) |
WO (1) | WO2020119508A1 (ko) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109151615B (zh) * | 2018-11-02 | 2022-01-25 | 湖南双菱电子科技有限公司 | 视频处理方法、计算机设备和计算机存储介质 |
CN109743624B (zh) * | 2018-12-14 | 2021-08-17 | 深圳壹账通智能科技有限公司 | 视频切割方法、装置、计算机设备和存储介质 |
CN110446061B (zh) * | 2019-07-04 | 2023-04-07 | 深圳壹账通智能科技有限公司 | 视频数据获取方法、装置、计算机设备及存储介质 |
CN112380922B (zh) * | 2020-10-23 | 2024-03-22 | 岭东核电有限公司 | 复盘视频帧确定方法、装置、计算机设备和存储介质 |
CN112487238B (zh) * | 2020-10-27 | 2024-05-17 | 百果园技术(新加坡)有限公司 | 一种音频处理方法、装置、终端及介质 |
CN113096687B (zh) * | 2021-03-30 | 2024-04-26 | 中国建设银行股份有限公司 | 音视频处理方法、装置、计算机设备及存储介质 |
CN113207033B (zh) * | 2021-04-29 | 2022-09-20 | 读书郎教育科技有限公司 | 一种智慧课堂录制视频无效片段处理的系统及方法 |
CN113810766B (zh) * | 2021-11-17 | 2022-02-08 | 深圳市速点网络科技有限公司 | 一种视频剪辑组合处理方法及系统 |
CN114374885B (zh) * | 2021-12-31 | 2024-07-09 | 北京百度网讯科技有限公司 | 视频关键片段确定方法、装置、电子设备及可读存储介质 |
CN114022828A (zh) * | 2022-01-05 | 2022-02-08 | 北京金茂教育科技有限公司 | 视频流处理方法及装置 |
CN114465737B (zh) * | 2022-04-13 | 2022-06-24 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
CN118377812B (zh) * | 2024-06-25 | 2024-09-27 | 宁波菊风系统软件有限公司 | 一种双录音视频文件质检方法及计算机可读存储介质 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6999620B1 (en) * | 2001-12-10 | 2006-02-14 | Hewlett-Packard Development Company, L.P. | Segmenting video input using high-level feedback |
JP4228673B2 (ja) * | 2002-12-04 | 2009-02-25 | 富士ゼロックス株式会社 | 映像処理装置、映像処理方法及びプログラム |
US20060059120A1 (en) * | 2004-08-27 | 2006-03-16 | Ziyou Xiong | Identifying video highlights using audio-visual objects |
US20080066107A1 (en) * | 2006-09-12 | 2008-03-13 | Google Inc. | Using Viewing Signals in Targeted Video Advertising |
JP2009272816A (ja) * | 2008-05-02 | 2009-11-19 | Visionere Corp | サーバ、情報処理システム及び情報処理方法 |
CN101616264B (zh) * | 2008-06-27 | 2011-03-30 | 中国科学院自动化研究所 | 新闻视频编目方法及系统 |
JP5845801B2 (ja) * | 2011-10-18 | 2016-01-20 | ソニー株式会社 | 画像処理装置、画像処理方法、及び、プログラム |
US20140328570A1 (en) * | 2013-01-09 | 2014-11-06 | Sri International | Identifying, describing, and sharing salient events in images and videos |
WO2015038749A1 (en) * | 2013-09-13 | 2015-03-19 | Arris Enterprises, Inc. | Content based video content segmentation |
CN104519401B (zh) * | 2013-09-30 | 2018-04-17 | 贺锦伟 | 视频分割点获得方法及设备 |
CN104780388B (zh) * | 2015-03-31 | 2018-03-09 | 北京奇艺世纪科技有限公司 | 一种视频数据的切分方法和装置 |
CN105931635B (zh) * | 2016-03-31 | 2019-09-17 | 北京奇艺世纪科技有限公司 | 一种音频分割方法及装置 |
US9830516B1 (en) * | 2016-07-07 | 2017-11-28 | Videoken, Inc. | Joint temporal segmentation and classification of user activities in egocentric videos |
CN106658169B (zh) * | 2016-12-18 | 2019-06-07 | 北京工业大学 | 一种基于深度学习多层次分割新闻视频的通用方法 |
CN106782507B (zh) * | 2016-12-19 | 2018-03-06 | 平安科技(深圳)有限公司 | 语音分割的方法及装置 |
CN107358945A (zh) * | 2017-07-26 | 2017-11-17 | 谢兵 | 一种基于机器学习的多人对话音频识别方法及系统 |
CN107623860A (zh) * | 2017-08-09 | 2018-01-23 | 北京奇艺世纪科技有限公司 | 多媒体数据分割方法和装置 |
CN108132995A (zh) * | 2017-12-20 | 2018-06-08 | 北京百度网讯科技有限公司 | 用于处理音频信息的方法和装置 |
CN108235141B (zh) * | 2018-03-01 | 2020-11-20 | 北京网博视界科技股份有限公司 | 直播视频转碎片化点播的方法、装置、服务器和存储介质 |
CN109831677B (zh) * | 2018-12-14 | 2022-04-01 | 平安科技(深圳)有限公司 | 视频脱敏方法、装置、计算机设备和存储介质 |
CN109743624B (zh) * | 2018-12-14 | 2021-08-17 | 深圳壹账通智能科技有限公司 | 视频切割方法、装置、计算机设备和存储介质 |
-
2018
- 2018-12-14 CN CN201811536818.XA patent/CN109743624B/zh active Active
-
2019
- 2019-12-02 WO PCT/CN2019/122472 patent/WO2020119508A1/zh unknown
- 2019-12-02 KR KR1020217017667A patent/KR20210088680A/ko not_active Application Discontinuation
- 2019-12-02 JP JP2021532494A patent/JP2022510479A/ja active Pending
- 2019-12-02 EP EP19896863.8A patent/EP3890333A4/en not_active Withdrawn
- 2019-12-02 SG SG11202103326QA patent/SG11202103326QA/en unknown
Also Published As
Publication number | Publication date |
---|---|
EP3890333A4 (en) | 2022-05-25 |
WO2020119508A1 (zh) | 2020-06-18 |
EP3890333A1 (en) | 2021-10-06 |
SG11202103326QA (en) | 2021-05-28 |
CN109743624B (zh) | 2021-08-17 |
CN109743624A (zh) | 2019-05-10 |
JP2022510479A (ja) | 2022-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20210088680A (ko) | 비디오 커팅 방법, 장치, 컴퓨터 기기 및 저장매체 | |
CN110781916B (zh) | 视频数据的欺诈检测方法、装置、计算机设备和存储介质 | |
US11605229B2 (en) | Inmate tracking system in a controlled environment | |
WO2020140665A1 (zh) | 双录视频质量检测方法、装置、计算机设备和存储介质 | |
CN110444198B (zh) | 检索方法、装置、计算机设备和存储介质 | |
US9858340B1 (en) | Systems and methods for queryable graph representations of videos | |
CN111444723B (zh) | 信息抽取方法、计算机设备和存储介质 | |
WO2021042503A1 (zh) | 信息分类抽取方法、装置、计算机设备和存储介质 | |
CN112037791B (zh) | 会议纪要转录方法、设备和存储介质 | |
CN109740620B (zh) | 人群画像分类模型的建立方法、装置、设备和存储介质 | |
US20200074156A1 (en) | Emotion detection enabled video redaction | |
EP3757873B1 (en) | Facial recognition method and device | |
CN113192516B (zh) | 语音角色分割方法、装置、计算机设备及存储介质 | |
CN109831677B (zh) | 视频脱敏方法、装置、计算机设备和存储介质 | |
WO2022116436A1 (zh) | 长短句文本语义匹配方法、装置、计算机设备及存储介质 | |
KR102070197B1 (ko) | 영상 분석 기반 토픽 모델링 영상 검색 시스템 및 방법 | |
CN111475616B (zh) | 基于对话状态预测的多轮对话方法、装置和计算机设备 | |
CN111160275B (zh) | 行人重识别模型训练方法、装置、计算机设备和存储介质 | |
US20230206928A1 (en) | Audio processing method and apparatus | |
CN110362798B (zh) | 裁决信息检索分析方法、装置、计算机设备和存储介质 | |
CN115828112A (zh) | 一种故障事件的响应方法、装置、电子设备及存储介质 | |
US11657316B2 (en) | Self-feeding deep learning method and system | |
CN112784029B (zh) | 基于自然语言处理的业务处理方法、装置和计算机设备 | |
CN104361311A (zh) | 多模态在线增量式来访识别系统及其识别方法 | |
CN110362592B (zh) | 裁决指引信息推送方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |