KR20210124112A

KR20210124112A - 오디오/동영상 데이터 처리 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램 제품

Info

Publication number: KR20210124112A
Application number: KR1020210126011A
Authority: KR
Inventors: 밍위에 장
Original assignee: 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date: 2021-02-19
Filing date: 2021-09-23
Publication date: 2021-10-14
Also published as: JP2022000972A; JP7271626B2; CN112860939A; CN112860939B; US20220124420A1

Abstract

오디오/동영상 데이터 처리 방법을 개시하였으며, 자연 언어 처리 기술 분야에 관한 것이며, 구체적으로 자연 언어의 시맨틱 이해에 관한 것이다. 해당 방법은 오디오/동영상 데이터에서 텍스트 정보를 추출하는 것; 텍스트 정보에 따라 복수 등급의 요강 조목을 포함한 텍스트 요강 및 복수 등급의 요강 조목과 관련된 복수의 시간 구간을 생성하는 것; 텍스트 요강 및 복수의 시간 구간에 따라, 오디오/동영상 데이터에 대한 전시 필드를 생성하는 것; 및 업데이트된 오디오/동영상 데이터를 획득하도록 전시 필드를 오디오/동영상 데이터에 추가하는 것을 포함한다. 또한 오디오/동영상 데이터 처리 장치, 기기 및 저장 매체를 개시하였다.

Description

오디오/동영상 데이터 처리 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램 제품{METHOD AND APPARATUS FOR PROCESSING AUDIO/VIDEO DATA, DEVICE, STORAGE MEDIUM AND COMPUTER PROGRAM PRODUCT}

본 개시는 자연 언어 처리 기술 분야에 관한 것이며, 구체적으로 자연 언어의 시맨틱 이해에 관한 것이며, 특히 오디오/동영상 데이터 처리 방법, 장치, 기기 및 저장 매체에 관한 것이다.

오디오/동영상 데이터를 소비함으로써 정보를 획득하는 것은 현재 지식이 전파되는 주요한 경로이다. 사용자가 오디오를 듣거나 동영상을 관람할 때 오디오나 동영상의 시간이 상대적으로 짧으면 더 쉽고 신속하게 필요한 오디오나 동영상의 콘텐츠를 찾을 수 있다. 하지만 오디오나 동영상의 시간이 상대적으로 길면 제한된 시간 내에 신속하고 정확하게 필요한 오디오나 동영상의 콘텐츠를 찾을 수가 없어, 이는 사용자에게 나쁜 체험을 주게 된다. 특히 오디오나 동영상의 시간이 늘어남에 따라 또는 오디오나 동영상에 대량의 사용자가 관심을 가지지 않는 콘텐츠가 존재할 경우, 사용자의 주의력 및 관심도 따라서 떨어지기에 계속하여 소비하려는 의도가 중단된다.

본 개시는 오디오/동영상 데이터 처리 방법, 장치, 기기 및 저장 매체를 제공한다.

본 개시의 일 측면에 의하면, 오디오/동영상 데이터에서 텍스트 정보를 추출하는 것; 상기 텍스트 정보에 따라 복수 등급의 요강 조목을 포함한 텍스트 요강 및 상기 복수 등급의 요강 조목과 관련된 복수의 시간 구간을 생성하는 것; 상기 텍스트 요강 및 상기 복수의 시간 구간에 따라, 상기 오디오/동영상 데이터에 대한 전시 필드를 생성하는 것; 및 업데이트된 오디오/동영상 데이터를 획득하도록 상기 전시 필드를 상기 오디오/동영상 데이터에 추가하는 것을 포함하는 오디오/동영상 데이터 처리 방법을 제공한다.

본 개시의 다른 측면에 의하면, 상기 오디오/동영상 데이터 처리 방법에 따라 생성된 업데이트된 오디오/동영상 데이터를 획득하는 것; 및 상기 업데이트된 오디오/동영상 데이터에서 전시 필드를 추출하며, 상기 전시 필드에 따라 전시 컨트롤을 작성하는 것을 포함하는 오디오/동영상 데이터 처리 방법을 제공한다.

본 개시의 다른 측면에 의하면, 오디오/동영상 데이터에서 텍스트 정보를 추출하도록 구성되어 있는 정보 추출 모듈;상기 텍스트 정보에 따라 복수 등급의 요강 조목을 포함한 텍스트 요강 및 복수 등급의 요강 조목과 관련된 복수의 시간 구간을 생성하도록 구성되어 있는 제1 생성 모듈; 상기 텍스트 요강 및 상기 복수의 시간 구간에 따라, 상기 오디오/동영상 데이터에 대한 전시 필드를 생성하도록 구성되어 있는 제2 생성 모듈; 및 업데이트된 오디오/동영상 데이터를 획득하도록 상기 전시 필드를 상기 오디오/동영상 데이터에 추가하도록 구성되어 있는 필드 추가 모듈을 포함하는 오디오/동영상 데이터 처리 장치를 제공한다.

본 개시의 다른 측면에 의하면, 상기에 따른 오디오/동영상 데이터 처리 방법에 따라 생성된 업데이트된 오디오/동영상 데이터를 획득하도록 구성된 획득 모듈; 및 상기 업데이트된 오디오/동영상 데이터에서 전시 필드를 추출하고, 상기 전시 필드에 따라 전시 컨트롤을 작성하도록 구성되어 있는 작성 모듈을 포함하는 오디오/동영상 데이터 처리 장치를 제공한다.

본 개시의 다른 측면에 의하면, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서와 통신 연결된 메모리를 포함하고, 상기 메모리는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령어를 저장하고 있으며, 상기 명령어는 상기 적어도 하나의 프로세서에 의해 실행되어 상기 적어도 하나의 프로세서로 하여금 상기 오디오/동영상 데이터 처리 방법을 실행할 수 있게 하는 전자 기기를 제공한다.

본 개시의 다른 측면에 의하면, 컴퓨터로 하여금 상기 오디오/동영상 데이터 처리 방법을 실행하게 하기 위한 컴퓨터 명령어가 저장되어 있는 비휘발성 컴퓨터 판독 가능 저장 매체를 제공한다.

본 개시의 다른 측면에 의하면, 프로세서에 의해 실행될 때 상기 오디오/동영상 데이터 처리 방법을 구현하는 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 제공한다.

이 부분에서 설명한 내용은 본 개시의 실시예의 핵심 또는 중요한 특징을 지정하기 위한 것이 아니고, 또한 본 개시의 범위을 제한하기 위한 것이 아님을 이해해야 한다. 본 개시의 다른 특징들은 하기 설명으로부터 쉽게 이해할 수 있을 것이다.

첨부된 도면은 본 기술 수단을 더 잘 이해하기 위한 것이고 본 개시에 대한 한정은 이루어지지 않는다. 여기서,
도 1은 본 개시의 실시예에 관한 응용 장면의 설명도이며;
도 2는 본 개시의 실시예에 따른 오디오/동영상 데이터 처리 방법의 흐름도이며;
도 3은 본 개시의 실시예에 따른 텍스트 요강 및 복수의 시간 구간을 생성하는 프로세스의 설명도이며;
도 4는 본 개시의 실시예에 따른 텍스트 요강을 생성하는 예시이며;
도 5는 본 개시의 실시예에 따른 텍스트 요강의 구조의 예시이며;
도 6은 본 개시의 실시예에 따른 시간 구간을 생성하는 예시이며;
도 7은 본 개시의 다른 실시예에 따른 오디오/동영상 데이터 처리 방법의 흐름도이며;
도 8은 본 개시의 실시예에 따른 텍스트 요강을 전시하는 예시이며;
도 9는 본 개시의 실시예에 따른 오디오/동영상 데이터 처리 장치의 블록도이며;
도 10은 본 개시의 다른 실시예에 따른 오디오/동영상 데이터 처리 장치의 블록도이며; 그리고
도 11은 본 개시의 실시예의 오디오/동영상 데이터 처리 방법을 구현하기 위한 전자 기기의 블록도이다.

이하, 첨부된 도면과 결합하여 본 개시의 시범적인 실시예에 대해 설명하고, 쉽게 이해할 수 있도록 여기에 본 개시의 실시예의 다양한 세부 사항을 포함하며, 이들을 단지 시범적인 것으로 알아야 한다. 따라서 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 개시의 범위 및 사상을 어기지 않으면서 여기에서 설명한 실시예에 대해 다양한 개변 및 수정을 할 수 있음을 알아야 한다. 마찬가지로, 명확성과 간결성을 위해 이하의 설명에서는 공지된 기능 및 구조에 대한 설명을 생략한다.

전통적인 오디오/동영상 서비스는 콘텐츠 개요 미리 보기 기능을 제공하지 않았다. 신속히 필요한 콘텐츠를 찾기 위해, 사용자는 클라이언트의 인터페이스에서 플레이어의 프로그레스 바를 드래그하여 필요한 콘텐츠를 찾아야 한다. 이러한 방식은 정확한 위치 찾기를 이룰 수 없고 중요한 콘텐츠를 빠뜨릴 수 있다. 클라이언트에 다운로드되어 있지 않은 오디오/동영상 데이터에 대한 브라우징은 버퍼링 시간이 너무 길어져 계속하여 찾을 수 없게 되는 것을 초래할 수 있다. 일부 동영상 사이트에서는 사용자가 쉽게 동영상의 콘텐츠를 브라우징하게 하기 위해 긴 동영상을 복수의 짧은 동영상으로 분해하는 방법을 채용하였다. 이러한 방식은 동영상의 단락 나누기에 대해 세밀하게 계획하여야 하고, 단락 나뉜 동영상을 제작하는 단계는 복잡하고 또 시간이 걸리기에 제작 코스트가 증가된다. 또한, 상기 두 가지 방식은 모두 생방송 동영상을 재생하기에 적합하지 않고, 생방송을 다시 재생하는 동영상은 일반적으로 매우 길며(예를 들어 몇 시간에 달함), 생방송 재생 동영상은 일반적으로 특정된 플랫폼에 저장되어 있으며 재생할 때 다운로드 할 필요가 없다. 본 개시의 실시예는 오디오/동영상 데이터의 텍스트 정보를 추출함으로써 텍스트 요강을 작성하고, 텍스트 요강에 의해 장황한 동영상에 대한 미리 보기 및 신속한 위치 찾기를 구현할 수 있는 오디오/동영상 데이터의 처리 방법을 제공한다.

도 1은 본 개시의 실시예에 따른 응용 장면의 설명도이다. 도 1에서는 복수의 단말기기(101), 서버(102) 및 네트워크(103)를 나타낸다. 네트워크(103)는 단말기기(101)와 서버(102) 사이에서 통신 링크를 제공하기 위한 매체이다. 네트워크(103)는 다양한 연결 유형, 예를 들어 유선 및/또는 무선 통신 링크 등을 포함할 수 있다. 단말기기(101)는 동영상이나 오디오의 재생을 지원하는 다양한 전자 기기일 수 있으며, 단말기기(101)에는 오디오/동영상 재생 유형의 애플리케이션의 클라이언트가 설치되어 있을 수 있으며, 사용자는 해당 클라이언트를 통해 서버(102)에 오디오/동영상 데이터를 요청하여 단말기기(101)에서 재생할 수 있다. 단말기기(101)의 예시는 개인 컴퓨터, 노트북, 태블릿, 휴대전화, 스마트폰, 개인 휴대 정보 단말기 PDA, 웨어러블 기기 등을 포함하지만 이에 한정되지 않는다. 서버(102)는 오디오/동영상 데이터 서비스를 제공할 수 있는 컴퓨팅 기기이다. 예를 들어, 서버(102)는 동영상 사이트나 생방송 플랫폼의 호스트일 수 있다. 서버(102)에는 사용자에게 필요한 대량의 오디오/동영상 데이터나 생방송 후의 스트리밍 데이터가 저장되어 있다. 사용자는 단말기기(101)를 통해 서버(102)에 연결될 수 있으며 예를 들어 동영상 사이트를 통해 온라인으로 동영상을 관람하고 동영상을 다운로드할 수 있다. 또는, 사용자는 단말기기(101)를 통해 서버(102)에 연결하여 예를 들어 생방송 플랫폼을 통해 다른 사용자한테 생방송할 수도 있다. 서버(102)는 독립적인 서버일 수 있고 복수의 서버로 구성된 클러스터일 수도 있다. 도 1에 도시된 바와 같은 시스템 아키텍처는 단지 실례일 뿐이고, 본 개시의 실시예에 따른 오디오/동영상 데이터 처리 방법은 오디오/동영상 데이터에 대한 처리를 구현할 수 있도록 임의의 적합한 장면에 응용할 수 있다.

도 2는 본 개시의 실시예에 따른 오디오/동영상 데이터 처리 방법(200)의 흐름도이다. 해당 오디오/동영상 데이터 처리 방법(200)은 오디오/동영상 데이터 서비스를 제공하는 서버에 적용하며, 오디오/동영상 데이터를 처리하는 데 사용할 수 있다. 도 2에 도시된 바와 같이, 해당 오디오/동영상 데이터 처리 방법(200)은 아래의 단계를 포함한다.

단계 S210에서, 오디오/동영상 데이터에서 텍스트 정보를 추출한다.

단계 S220에서, 텍스트 정보에 따라 텍스트 요강 및 복수의 시간 구간을 생성한다.

단계 S230에서, 텍스트 요강 및 복수의 시간 구간에 따라 오디오/동영상 데이터에 대한 전시 필드를 생성한다.

단계 S240에서, 전시 필드를 오디오/동영상 데이터에 추가하여 업데이트된 오디오/동영상 데이터를 획득하도록 한다.

실시예에 따르면, 처리될 데이터가 오디오 데이터이면 오디오 데이터에서 바로 텍스트 정보에 추출할 수 있다. 예를 들어, 처리될 오디오 데이터를 음성 인식 기능을 가진 음성 인식 모듈에 입력할 수 있으며, 음성 인식 모듈은 입력된 오디오 데이터를 오리지널 텍스트 정보로 인식할 수 있다. 실시예에 따르면, 처리될 데이터가 동영상 데이터이면, 동영상 데이터에서 오디오 부분의 오리지널 PCM(Pulse Code Modulation, 펄스 코드 변조) 데이터를 추출해서 획득하여, 해당 오리지널 PCM 데이터를 음성 인식 모듈에 입력하여 인식을 진행하여 오리지널 텍스트 정보를 획득하도록 할 수 있다. 상기 예시에서의 음성 인식 모듈은 임의의 적합한 종래 기술에 기반하여 구조될 수 있으며, 본 개시의 실시예는 이에 대해 한정하지 않는다.

실시예에 따르면, 텍스트 요강은 복수 등급의 요강 조목을 포함할 수 있으며, 복수 등급의 요강 조목은 복수의 시간 구간과 관련될 수 있다. 텍스트 정보는 일반적으로 내재적인 논리적 구조를 가진다. 이러한 논리적 구조는 한 단락의 텍스트 정보의 콘텐츠가 같거나 유사한 주제를 설명하는 데 사용된다는 것으로 표현된다. 본 개시의 실시예에서 텍스트 요강 중의 매 등급의 요강 조목은 모두 이러한 같거나 유사한 주제를 나타내는 데 사용될 수 있다. 텍스트 요강을 이용하면, 신속히 텍스트를 미리 볼 수 있으며 텍스트 정보의 개요 및 텍스트 정보의 콘텐츠의 분포 상황을 획득할 수 있다. 텍스트 정보는 오디오/동영상 데이터에서 추출된 것이기 때문에, 텍스트 정보 중의 텍스트 문구는 오디오나 동영상의 하나의 시간 구간에 대응될 수 있으며, 따라서, 텍스트 요강에 의해 오디오나 동영상의 콘텐츠에 대한 개요 미리 보기를 구현할 수 있다.

실시예에 따르면, 전시 필드를 이용하여 텍스트 요강과 시간 구간 사이의 관련 관계 및 텍스트 요강 중의 복수의 요강 조목과 복수의 시간 구간 사이의 관련 관계를 저장한다. 구체적인 실시예에서는 서로 관련된 텍스트 요강 중의 매 등급의 요강 조목과 복수의 시간 구간 중의 각 시간 구간을 데이터쌍으로 조합하고 데이터쌍을 복수 등급의 요강 조목 간의 등급 관계에 따라 전용적인 데이터 구조에 저장하여 전시 필드로 할 수 있다. 실시예에 따르면, 문자열형 변수나 집합형 변수를 이용하여 데이터쌍을 저장할 수 있지만, 본 개시의 실시예는 이에 한정되지 않으며 기타 적합한 형식을 이용하여 전시 필드를 저장할 수 있다.

실시예에 따르면, 전시 필드를 오디오/동영상 데이터에 추가할 수 있으며, 이로써, 사용자의 획득 요청에 응답하여 동영상 정보를 전송할 때, 동영상 링크, 표지 링크 등 오리지널의 오디오/동영상 데이터 이외, 전시 필드도 함께 사용자가 사용하는 클라이언트에 전송된다. 전시 필드는 텍스트 요강을 통해 동영상을 신속히 위치 찾을 수 있도록 클라이언트에 텍스트 요강을 표시하는 데 사용할 수 있다.

본 개시의 실시예에서는 오디오/동영상 데이터에서 추출된 텍스트 정보에 따라 텍스트 요강 및 텍스트 요강과 관련된 시간 구간을 생성하고, 텍스트 요강 및 시간 구간에 따라 전시 필드를 생성할 수 있으며, 전시 필드는 사용자에게 오디오/동영상에 관한 개요 미리 보기를 제공할 수 있으며, 사용자가 신속히 필요한 콘텐츠를 위치 찾는 것에 기여하고 사용자 체험을 향상할 수 있다.

도 3은 본 개시의 실시예에 따른 텍스트 요강 및 복수의 시간 구간을 생성하는 프로세스의 설명도이다. 도 3에 도시된 바와 같이, 단계 S310에서는 동영상에서 오리지널 PCM 데이터와 같은 오디오 데이터를 추출한다. 단계 S320에서는 예를 들어 음성 인식 모듈을 이용하여 추출된 오디오를 문자로 전환한다. 단계 S310 및 단계 S320의 구체적인 동작은 전술한 실시예를 참조할 수 있으며, 여기서 더 이상 중복하여 설명하지 않는다. 이어서, 단계 S330 및 단계 S340은 획득된 텍스트 정보에 대해 전처리를 진행하기 위한 단계이다.

단계 S330에서는 후속 처리를 방해하는 중요하지 않은 텍스트 콘텐츠를 제거하도록 텍스트 정보에 대해 비구어화 처리를 진행한다. 구체적인 실시예에서는 훈련된 딥 러닝 모델을 채용하여 비구어화 동작을 완성할 수 있다. 예를 들어, 만약 딥 러닝 모델에 "음, 오천원이면, 음, 충분할 가, 음"라는 것을 입력하면, 딥 러닝 모델은 문자열 "IOOOOOIOOOOI"를 출력하고, 문자 "I"가 있는 위치의 대응하는 문자를 삭제할 수 있음을 나타낸다. 즉 비구어화 처리된 후, "음, 오천원이면, 음, 충분할 가, 음"라는 입력이 처리되어 "오천원이면 충분할 가"로 처리된다. 여기서는 단지 예시일 뿐, 본 개시는 이에 한정되지 않는다.

단계 S340에서는 텍스트 정보(또는 비구어화 처리를 한 텍스트 정보)에 대해 오류 교정을 진행하며, 즉, 후속 처리 중 모호성 때문에 처리 결과에 영향을 주는 것을 피하도록 텍스트 중의 모호성을 일으킬 수 있는 오류 텍스트를 찾아낸다. 구체적인 실시예에서는 마찬가지로 훈련된 딥 러닝 모델을 채용하여 텍스트의 오류 교정 처리를 완성할 수 있다. 예를 들어, 만약 딥 러닝 모델에 "XX는 하나의 인공 지넝 회사이다"를 입력하면, 딥 러닝 모델은 입력을 "XX는 하나의 인공 지능 회사이다"로 교정할 수 있다. 여기서는 단지 예시일 뿐, 본 개시는 이에 한정되지 않는다.

설명이 필요한 것은, 단계 S330 및 단계 S340에서 사용한 딥 러닝 모델은 임의의 적합한 딥 러닝 모델일 수 있으며, 본 개시의 실시예는 이에 대해 한정하지 않는다.

이어서, 단계 S350, 단계 S360 및 단계 S370에서는 전처리된 텍스트 정보에 대해 지능적 단락 나누기, 텍스트 단락 제목 및 텍스트 단락 요약을 생성하는 처리를 진행한다.

구체적으로, 단계 S350에서는 전처리된 텍스트에 대해 단락 나누기를 진행한다. 오리지널 오디오/동영상 데이터로부터 생성되는 텍스트 정보는 일반적으로 한 단락의 콘텐츠이며, 지능적 단락 나누기는 논리적으로 더 가까운 텍스트 콘텐츠를 하나의 독립적인 단락에 분할해 놓을 수 있으며 구체적인 실시예에서 단락 나누기 처리는 훈련된 딥 러닝 모델을 채용해 완성할 수도 있다. 단계 S360에서는 단락으로 나윈 텍스트에 대해 텍스트 단락 제목을 생성한다. 텍스트 단락 제목은 텍스트 단락에 대해 고도로 집중된 개괄이며, 훈련된 딥 러닝 모델을 이용하여 생성할 수 있다. 단계 S370에서는 단락으로 나뉜 텍스트에 대해 요약 생성을 진행한다. 텍스트 단락의 요약은 하나의 단락의 핵심 정보로 취급할 수 있다. 구체적인 실시예에서는 적합한 딥 러닝 모델을 채용하여 요약을 생성할 수 있다. 예를 들어, 텍스트 단락 및 텍스트 단락에 대한 텍스트 제목을 모델에 입력하면 해당 텍스트 단락에 대한 요약을 획득할 수 있다.

예를 들어, 아래의 한 단락의 문자

"만약 과음으로 구간질, 구토 등이 나면 귤차를 마실 수 있으며, 귤은 신속하게 술을 깨게 하며, 인체의 불편감을 완화할 수 있다. 신선한 귤껍질 100g을 500mL의 물에 넣어 끓이고, 약간의 소금을 넣고 균일하게 흔들어, 찻물로 마시면 신속하게 해장할 수 있다. 술을 마시기 전에 꿀을 먹으면 술에 취하는 것을 예방하는 데 일정한 도움이 된다. 술을 마시기 한 시간 전 쯤에 꿀이 인체에 들어가면 인체의 각 기관이 알코올에 대한 흡수를 감소하여, 이로써, 술에 취하는 것을 예방하는 효과를 일으킨다. 술에 취한 후 미지근한 물로 꿀을 희석한 후 몇 잔 더 마시면 좋을 것이다. 꿀이 인체에 들어가면 빠르게 흡수되어 인체의 해독 기능을 증가시켜 간이 알코올을 빨리 밖으로 배출하도록 도울 수 있으며, 이렇게 해장의 목적을 이루게 된다. 식용 소금은 여러분의 생활에서 흔한 것이며 이것도 훌륭한 해장제의 일종이며, 술에 취한 후 식용 소금을 사용하면 위 속의 알코올 농도를 낮추고 혈액 중의 알코올 농도를 낮추는 데 도움이 되는 역할을 하여 해장을 도울 수 있다. 방법: 끓인 물 한 잔에 식용 소금을 약간 넣고 바로 마시면 된다. 어떤 사람들은 술을 많이 마시는데 요구르트가 바로 그분들의 해장 비법이며, 일단 술을 과음하면 요구르트를 마시고, 요구르트는 위 점막을 보호하고 알코올 흡수를 늦출 수 있다. 요구르트에는 칼슘 함유량이 풍부하기 때문에, 술을 마신 후의 초조 증상을 풀리게 하는 데 대해 특히 효과적이다. 대추, 어떤 지역에서는 이 것을 만수과라고 부르기도 하는데, 이 것으로 물을 끓이면 해장에 효과가 일품이다. 대추는 대량의 포도당, 사과산 칼슘을 함유하고 있어 비교적 강한 이뇨 작용이 있으며 에탄올의 분해와 배출을 촉진할 수 있으며 혈액 중의 에탄올의 농도를 현저히 낮추며, 에탄올이 체내에서 생성한 자유기를 제거하고 과산화 에스테르질의 형성을 방지하여 에탄올이 간 조직에 대한 손상을 경감하여 알코올 중독으로 인한 각종 대사 이상을 피할 수 있다. 대추는 또 인체의 과다한 지방을 소화할 수 있어 다이어트를 할 수 있다. 배는 초조함을 없애고 열을 내리게 하며 술독을 해독할 수 있으며, 취객한테 배를 먹이면 일반적으로 배 2~3개이면 술을 깰 수 있으며, 만약 취객이 술에 만취했으면, 배를 갈아서 즙을 내서 마시게 하면 신속히 해장할 수 있는 효과도 있다. 물을 많이 마셔 알코올을 희석하고 신진대사를 빨리하여 신속하게 배출되도록 하며, 포도당 두 개를 더 마시거나 또한 꿀로 찻물을 만들어 마시면 술을 빨리 깨게 되는데, 술 마신 뒤에 머리가 아프면 포도를 조금 먹으면 좋을 것이다."에 대해

이를 텍스트 제목을 생성하기 위한 딥 러닝 모델에 입력하면 아래와 같은 텍스트 제목을 생성할 수 있다. 즉, "숙취를 해소하는 방법은 어떤 것이 있나요？"이다.

나아가, 생성된 텍스트 제목 및 상기 텍스트 단락의 문자를 텍스트 요약을 생성하기 위한 딥 러닝 모델에 입력하면 아래와 같은 요약을 획득할 수 있다.

즉, "술을 마시기 전에 꿀을 먹으면 술에 취하는 것을 예방하는 데 일정한 도움이 된다. 술을 마시기 한 시간 전 쯤에 꿀이 인체에 들어가면 인체의 각 기관이 알코올에 대한 흡수를 감소하여, 이로써, 술에 취하는 것을 예방하는 효과를 일으킨다. 요구르트에는 칼슘 함유량이 풍부하기 때문에, 술을 마신 후의 초조 증상을 플리는 데 대해 특히 효과적이다. 대추, 어떤 지역에서는 이것을 만수과라고 부르기도 하는데, 이것으로 물을 끓이면 해장에 효과가 일품이다. 배는 초조함을 없애고 열을 내리게 하며 술독을 해독할 수 있으며, 취객한테 배를 먹이면 일반적으로 배 2~3개이면 술을 깰 수 있으며 만약 취객이 술에 만취했으면, 배를 갈아서 즙을 내서 마시게 하면 신속히 해장할 수 있는 효과도 있다."

단계 S380에서는 텍스트 정보에 대응하는 동영상 시간 구간에 대해 표기를 진행한다. 아래에 텍스트 정보에 따라 텍스트 요강 및 시간 구간을 생성하는 프로세스에 대해 상세하게 설명한다.

실시예에 따르면, 텍스트 정보에 따라 텍스트 요강을 생성하는 것은, 텍스트 정보를 복수의 제1 텍스트 단락으로 분할하는 것, 복수의 제1 텍스트 단락 중의 각 제1 텍스트 단락에 대해, 제1 텍스트 단락 제목을 생성하여 1등급의 요강 조목으로 하는 것을 포함할 수 있다. 이어서 복수의 제1 텍스트 단락에 기반하여 텍스트 단락 집합을 구축하고 텍스트 단락 집합 중의 각 제1 텍스트 단락에 대해 텍스트 단락 집합 중의 각 제1 텍스트 단락의 데이터의 양이 모두 미리 설정한 임계치보다 작아질 때까지, 제1 텍스트 단락의 데이터의 양을 미리 설정한 임계치와 비교하여, 제1 텍스트 단락의 데이터의 양이 미리 설정한 임계치보다 크거나 같을 경우, 제1 텍스트 단락을 복수의 제2 텍스트 단락으로 분할하며, 복수의 제2 텍스트 단락 중의 각 제2 텍스트 단락에 대해, 제2 텍스트 단락 제목을 생성하며, 제2 텍스트 단락 제목을 해당 제1 텍스트 단락에 의해 생성된 제1 텍스트 단락 제목의 다음 등급의 요강 조목으로 하며, 복수의 제2 텍스트 단락을 각각 제1 텍스트 단락으로 하여 텍스트 단락 집합에 추가하는 동작을 실행한다.

도 4는 본 개시의 실시예에 따른 텍스트 요강을 생성하는 예시이다. 도 4에 도시된 바와 같이, 텍스트 정보(401)는 우선 복수의 제1 텍스트 단락(402)으로 분할되며, 예를 들어, 상기 텍스트 단락에 대해 지능적 단락 나누기를 진행하기 위한 딥 러닝 모델을 이용하여 완성할 수 있다. 제1 텍스트 단락(402)에 대해 생성한 제1 텍스트 단락 제목은 텍스트 요강의 1등급의 요강 조목으로 한다. 도 4에 도시된 바와 같이, 각 제1 텍스트 단락에 대해 하나의 대응하는 1등급의 요강 조목을 생성하며, 이로써, 복수의 1등급의 요강 조목을 획득하며, 이 프로세스는 상기 텍스트 단락에 대한 텍스트 제목을 생성하기 위한 딥 러닝 모델을 이용하여 완성할 수 있다. 이어서, 첫 번째 제1 텍스트 단락(402)을 예로 하여 뒤의 처리 프로세스를 설명하며, 아래의 설명 과정에서 "첫 번째"의 한정을 생략한다.

제1 텍스트 단락(402)의 데이터의 양을 미리 설정한 데이터의 양의 임계치와 비교한다. 만약 제1 텍스트 단락(402)의 데이터의 양이 미리 설정한 임계치보다 크거나 같으면, 계속하여 제1 텍스트 단락(402)에 대해 다음 등급의 요강 조목을 생성한다. 여기서 미리 설정한 임계치는 텍스트 요강의 깊이 또는 입도에 따라 결정할 수 있으며, 예를 들어, 미리 설정한 임계치를 오리지널 텍스트 정보의 데이터의 양의 50%로 설치할 수 있다. 해당 제1 텍스트 단락(402) 및 그와 대응하는 1등급의 요강 조목을 상기 텍스트 단락 요약을 생성하기 위한 딥 러닝 모델(제1 딥 러닝 모델)에 입력하면, 제1 텍스트 단락(402)의 요약 텍스트 단락을 획득할 수 있다. 다음으로, 복수의 제2 텍스트 단락(403)을 획득하도록 생성된 요약 텍스트 단락을 상기 지능적 단락 나누기를 하기 위한 딥 러닝 모델(제2 딥 러닝 모델)에 입력하여 요약 텍스트 단락에 대해 단락 나누기를 한다. 도 4에 도시된 바와 같이, 제1 텍스트 단락(402)에 대해 상기 분할을 진행함으로써, 세 개의 제2 텍스트 단락(403)을 획득할 수 있다. 각 제2 텍스트 단락(403)에 대해 텍스트 단락 제목을 각각 생성하고, 해당 텍스트 단락 제목을 제1 텍스트 단락 제목의 다음 등급의 요강 조목 즉 2등급의 요강 조목으로 할 수 있다.

이어서, 각 제2 텍스트 단락(403)에 대해 위에서 서술한 바와 같이 제1 텍스트 단락(402)에 대해 실행한 동작을 실행한다. 제2 텍스트 단락(403)의 데이터의 양을 미리 설정한 임계치와 비교하여, 만약 제2 텍스트 단락(403)의 데이터의 양이 미리 설정한 임계치보다 크거나 같으면, 계속하여 제2 텍스트 단락(403)에 대해 다음 등급의 요강 조목을 생성한다. 도 4에 도시된 바와 같이, 비교에 의해 두 번째 제2 텍스트 단락(403)만 계속하여 분할을 진행할 요구를 만족하기 때문에, 두 번째 제2 텍스트 단락(403)에 대해서만 요약 생성 및 지능적 단락 나누기를 실행하며, 두 개의 제2 텍스트 단락(404)(여기에서 제2 텍스트 단락(403)을 제1 텍스트 단락(402)으로 하여 처리를 진행할 수 있으며 이로써 획득한 텍스트 단락은 제2 텍스트 단락이다)을 획득한다. 이 두 개의 제2 텍스트 단락(404)에 대해 텍스트 단락 제목을 생성하여 제2 텍스트 단락(403)의 다음 등급의 요강 조목 즉 3등급의 요강 조목으로 한다. 만약 이 두 개의 제2 텍스트 단락(404)에 계속하여 분할을 진행할 요구를 만족하는 제2 텍스트 단락이 더 존재하면, 계속하여 위에서 서술한 바와 같이 처리를 진행한다.

위에서 설명한 것은 하나의(첫 번째) 제1 텍스트 단락(402)에 대한 프로세스이며, 각 제1 텍스트 단락(402)에 대해 상기 프로세스를 반복하여 실행하면, 텍스트 요강이 포함하는 복수 등급의 요강 조목을 획득할 수 있으며, 도 5에 도시된 바와 같은 구조를 가질 수 있다. 도 5에 도시된 바와 같이, 각 등급의 요강 조목을 트리형 구조로 나타낸다. 상이한 수량의 문자 "X"는 상이한 텍스트 제목 즉 상이한 등급의 요강 조목을 나타낸다. 도 5에서 트리형 구조의 루트 노드에 위치한 제목은 전체 텍스트 에 대한 제목일 수 있으며, 상기 텍스트 단락 제목을 생성하기 위한 딥 러닝 모델을 이용하여 획득하여 오디오/동영상 데이터에 대한 전체적인 개괄로 할 수 있다.

본 개시의 실시예에 따르면, 텍스트 정보에 대해 한 층씩 분석하여 텍스트 정보에 대한 텍스트 요강을 획득하며, 텍스트 요강을 통해 명확하게 텍스트의 논리적 구조를 전시하였고, 사용자의 열람에 유리하다.

실시예에 따르면, 텍스트 정보에 의해 복수의 시간 구간을 생성하는 것은, 오디오/동영상 데이터에 따라, 텍스트 정보에 포함된 각 텍스트 문구의 시작 시각 및 종료 시각에 대해 표기하는 것, 및 텍스트 정보에 포함된 각 텍스트 문구의 시작 시각 및 종료 시각에 의해 시간 구간을 결정하는 것을 포함할 수 있다.

실시예에 따르면, 텍스트 정보에 포함된 각 텍스트 문구의 시작 시각 및 종료 시각에 의해 시간 구간을 결정하는 것은, 복수의 제1 텍스트 단락 중의 각 제1 텍스트 단락에 대해, 제1 텍스트 단락 제목을 생성하여 1등급의 요강 조목으로 한 후, 제1 텍스트 단락 중의 첫 번째 텍스트 문구의 시작 시각을 결정하여 1등급의 요강 조목과 관련된 시간 구간의 시작 시각으로 하는 것, 및 제1 텍스트 단락 중의 마지막 하나의 텍스트 문구의 종료 시각을 결정하여 1등급의 요강 조목과 관련된 시간 구간의 종료 시각으로 하는 것을 포함할 수 있다.

실시예에 따르면, 텍스트 정보에 포함된 각 텍스트 문구의 시작 시각 및 종료 시각에 의해 시간 구간을 결정하는 것은 또한, 복수의 제2 텍스트 단락 중의 각 제2 텍스트 단락에 대해, 제2 텍스트 단락 제목을 생성하며, 제2 텍스트 단락 제목을 해당 제1 텍스트 단락에 의해 생성된 제1 텍스트 단락 제목의 다음 등급의 요강 조목으로 한 후, 제2 텍스트 단락 중의 첫 번째 텍스트 문구의 시작 시각을 결정하여 다음 등급의 요강 조목과 관련된 시간 구간의 시작 시각으로 하는 것; 및 제2 텍스트 단락 중의 마지막 하나의 텍스트 문구의 종료 시각을 결정하여 다음 등급의 요강 조목과 관련된 시간 구간의 종료 시각으로 하는 것을 포함할 수 있다.

도 6은 본 개시의 실시예에 따른 시간 구간을 생성하는 예시이다. 도 6에 도시된 바와 같이, 오리지널 텍스트 정보(601)에 다섯 개의 텍스트 문구가 포함되어 있다고 가정하고, 오디오/동영상 데이터 중의 시간 정보에 따라 이 다섯 개의 텍스트 문구의 시작 시각 및 종료 시각을 각각 표기한다. 도 6에서는 표기된 첫 번째 텍스트 문구의 시작 시각 및 종료 시각을 나타냈다. 예를 들어, 첫 번째 텍스트 문구의 시작 시각은 3분 15초이고, 종료 시각은 15분 22초이다. 기타의 텍스트 문구의 시작 시각 및 종료 시각을 유사하게 표기할 수 있으며, 도 6에는 도시하지 않았다. 여기서 설명이 필요한 것은, 도 6에 나타낸 첫 번째 텍스트 문구의 시작 시각이 0분 0초가 아니며, 이는 관련된 오디오/동영상이 0분 0초에서 3분 15초까지 이 동안의 시간 내에 소리(또는 텍스트 정보)가 없었기 때문이다.

도 6에 도시된 바와 같이, 오리지널 텍스트 정보(601)를 분할하여 두 개의 제1 텍스트 단락(602 및 603)을 획득한다. 그중, 제1 텍스트 단락(602)은 두 개의 텍스트 문구 ↘ 및 ♭를 포함한다. 제1 텍스트 단락(603)은 세 개의 텍스트 문구 ♩, ♪ 및 ♬를 포함한다. 제1 텍스트 단락(602)의 시간 구간을 결정할 때 텍스트 문구 ↘의 시작 시각을 시간 구간의 시작 시각으로 하고, 텍스트 문구 ♭의 종료 시각을 시간 구간의 종료 시각으로 한다. 제1 텍스트 단락(603)의 시간 구간을 결정할 때 텍스트 문구 ♩의 시작 시각을 시간 구간의 시작 시각으로 하고, 텍스트 문구 ♬의 종료 시각을 시간 구간의 종료 시각으로 한다.

실시예에 따르면, 제1 텍스트 단락(602 및 603)에 대응하는 1등급의 요강 조목을 상기 시간 구간에 각각 관련시키고, 이에 의해, 텍스트 요강 중의 조목을 시간 구간에 관련시킬 수 있으며, 이러한 관련 관계를 전시 필드에 저장할 수 있다. 본 개시의 실시예에 따른 전시 필드는 사용자에게 오디오/동영상에 관한 개요 미리 보기를 제공할 수 있으며, 사용자가 신속히 필요한 콘텐츠를 위치 찾는 것에 기여하고 사용자 체험을 향상할 수 있다.

도 7은 본 개시의 다른 실시예에 따른 오디오/동영상 데이터 처리 방법(700)의 흐름도이다. 해당 오디오/동영상 데이터 처리 방법(700)은 단말기기에 적용할 수 있으며 또는 단말기기에 설치된 앱(APP) 클라이언트에 의해 제공될 수 있다. 또한, 쉽게 이해되는 것은, 해당 오디오/동영상 데이터 처리 방법(700)은 오디오/동영상 데이터 서비스를 제공하는 서버에 적용할 수도 있으며, 서버의 오디오/동영상 데이터에 대해 요청한 주체에 의한 것이며, 본 개시는 이에 대해 한정하지 않는다. 도 7에 도시된 바와 같이, 해당 오디오/동영상 데이터 처리 방법(700)은 아래의 단계를 포함한다.

단계 S710에서, 업데이트된 오디오/동영상 데이터를 획득한다.

단계 S720에서, 업데이트된 오디오/동영상 데이터에서 전시 필드를 추출하고, 전시 필드에 따라 전시 컨트롤을 작성한다.

실시예에 따르면, 획득된 업데이트된 오디오/동영상 데이터는 전술한 오디오/동영상 데이터 처리 방법에 따라 처리된 것이며, 전시 필드를 포함할 수 있다.

실시예에 따르면, 전시 컨트롤을 통해 오디오/동영상 데이터에 대응하는 텍스트 요강을 전시하도록 전시 필드에 따라 전시 컨트롤을 작성한다. 전시 컨트롤은 플로팅 컨트롤(Floating Control) 및 복수의 서브 컨트롤을 포함하며, 전시 필드에 따라 전시 컨트롤을 작성하는 것은 전시 필드가 비어 있지 않을 경우, 플로팅 컨트롤을 작성하는 것, 전시 필드에 대해 해석하여 복수 등급의 요강 조목을 획득하도록 하는 것, 및 복수 등급의 요강 조목에 따라 플로팅 컨트롤에 한 등급씩 서브 컨트롤을 추가하는 것을 포함한다.

실시예에 따르면, 나아가 전시 컨트롤에 대해 클릭 이벤트를 추가하며, 클릭 이벤트는 하나의 서브 컨트롤을 클릭하는 데에 응답하여, 해당 서브 컨트롤이 전시하는 요강 조목에 관련된 시간 구간을 획득하고, 플레이어를 호출하여 시간 구간 내의 오디오/동영상 데이터에 대해 디코딩하여 시간 구간 내의 오디오/동영상 데이터를 재생하도록 할 수 있다.

실시예에 따르면, 만약 전시 필드가 문자열의 형식, 예를 들어, 전시 필드가 "제목(0, 120000)[1등급의 요강 조목(3000, 20000)[2등급의 요강 조목(8000, 15000)]] [1등급의 요강 조목(30000, 800000)[2등급의 요강 조목(30000, 70000)[3등급의 요강 조목(50000, 60000),3등급의 요강 조목(60000, 70000)]]] [1등급의 요강 조목(100000, 120000)]"일 경우, 정규 표현식을 이용하여 전시 필드에 대해 해석하고 트리형 구조로 해석하여 메모리에 저장할 수 있다.

실시예에 따르면, 만약 전시 필드가 집합의 형식, 예를 들어, 전시 필드가

{ content：//예를 들어 제목, 요강 조목 등 실제로 전시가 필요한 텍스트 콘텐츠를 저장한다

Id：//현재 유일한 표기

ParentId：//현재 부모 노드의 ID

videoStart：//대응하는 동영상의 시작 시각

videoEnd：//대응하는 동영상의 종료 시각

}

일 경우, 직접 집합을 순회하며, 트리형 구조로 해석하여 메모리에 저장할 수 있다.

도 8은 본 개시의 실시예에 따른 텍스트 요강을 전시하는 예시이다. 도 8에 도시된 바와 같이, 서버에서 전시 필드를 클라이언트에 전송한 후, 클라이언트는 해당 전시 필드를 해석하여, 해당 전시 필드가 비어 있지 않은 것으로 판단되면, 플로팅 컨트롤을 추가하며, 텍스트 요강 앤트리 버튼을 나타낸다(도 8 중의 제목에 나타낸 바와 같다). 클라이언트는 서버가 전송한 전시 필드를 해석하여 그 중의 텍스트 요강 및 텍스트 요강에 관련된 시간 구간을 획득하도록 한다. 해석이 완성된 후, 한 층씩 및 동적으로 서브 컨트롤을 추가하고 해당 층의 서브 컨트롤의 요강 조목을 나타낸다. 이어서, 클라이언트는 서브 컨트롤에 클릭 이벤트를 추가한다. 사용자는 동영상을 관람할 때, 어느 한 서브 컨트롤을 클릭할 수 있다. 클라이언트는 클릭 이벤트를 접수한 후, 현재 서브 컨트롤이 위치한 층의 등급의 데이터 구조에 대해 해석하여, 시간 구간의 시작 시각을 획득하며, 다음으로, 현재 플레이어의 실례를 호출하여, 플레이어의 seek 방법을 호출하며, 파라미터는 획득된 시간 구간의 시작 시각이다. 다음으로, 플레이어는 내부 디코더를 이용하여 동영상을 시작 시각 위치로 디코딩하여, 다시 화면을 렌더링하여, 사용자에게 해당 시간 구간 내의 동영상을 전시한다.

본 개시의 실시예의 오디오/동영상 데이터 처리 방법에 따르면, 사용자는 동영상을 드래그할 필요가 없이 전시된 텍스트 요강에 의해 동영상에 대해 개요 미리 보기를 진행할 수 있어 신속하고 정확하게 필요한 동영상을 위치 찾도록 한다.

본 개시의 실시예는 오디오/동영상 데이터 처리 장치를 더 제공한다.

도 9는 본 개시의 실시예에 따른 오디오/동영상 데이터 처리 장치(900)의 블록도를 나타낸다. 도 9에 도시된 바와 같이, 해당 오디오/동영상 데이터 처리 장치(900)는 정보 추출 모듈(910), 제1 생성 모듈(920), 제2 생성 모듈(930) 및 필드 추가 모듈(940)을 포함한다.

실시예에 따르면, 정보 추출 모듈(910)은 오디오/동영상 데이터에서 텍스트 정보를 추출하도록 구성되어 있다. 제1 생성 모듈(920)은 텍스트 정보에 따라 복수 등급의 요강 조목을 포함한 텍스트 요강 및 복수 등급의 요강 조목과 관련된 복수의 시간 구간을 생성하도록 구성되어 있다. 제2 생성 모듈(930)은 텍스트 요강 및 복수의 시간 구간에 따라, 오디오/동영상 데이터에 대한 전시 필드를 생성하도록 구성되어 있다. 필드 추가 모듈(940)은 업데이트된 오디오/동영상 데이터를 획득하도록 전시 필드를 오디오/동영상 데이터에 추가하도록 구성되어 있다.

위의 각 기능 모듈의 구체적인 동작은 전술한 실시예의 오디오/동영상 데이터 처리 방법(200)의 동작 단계를 참조하여 획득할 수 있으며, 여기서 더 이상 중복하여 설명하지 않는다.

도 10은 본 개시의 실시예에 따른 오디오/동영상 데이터 처리 장치(1000)의 블록도를 나타낸다. 도 10에 도시된 바와 같이, 해당 오디오/동영상 데이터 처리 장치(1000)는 획득 모듈(1010) 및 작성 모듈(1020)을 포함한다.

실시예에 따르면, 획득 모듈(1010)은 업데이트된 오디오/동영상 데이터를 획득하도록 구성되어 있으며, 여기서, 업데이트된 오디오/동영상 데이터는 전술한 오디오/동영상 데이터 처리 방법에 따라 처리된 것이고 전시 필드를 포함한다. 작성 모듈(1020)은 업데이트된 오디오/동영상 데이터에서 전시 필드를 추출하고, 전시 필드에 따라 전시 컨트롤을 작성하도록 구성되어 있다.

위의 각 기능 모듈의 구체적인 동작은 전술한 실시예의 오디오/동영상 데이터 처리 방법(700)의 동작 단계를 참조하여 획득할 수 있으며, 여기서 더 이상 중복하여 설명하지 않는다.

도 11은 본 개시의 실시예를 실시하기 위해 사용할 수 있는 예시적인 전자 기기(1100)의 예시적인 블록도를 나타낸다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크스테이션, 개인 휴대 정보 단말기, 서버, 블레이드 서버, 메인 프레임 컴퓨터 및 기타 적합한 컴퓨터와 같은 다양한 형식의 디지털 컴퓨터를 나타내기 위한 것이다. 전자 기기는 개인 휴대 정보 단말기, 셀룰러폰, 스마트폰, 웨어러블 기기 및 기타 유사한 컴퓨팅 장치와 같은 다양한 형식의 모바일 장치를 나타낼 수도 있다. 본문에 기재된 부품, 그들의 연결 및 관계, 및 그들의 기능은 단지 예시로 할 것이고 본문에서 설명 및/또는 요구한 본 개시의 구현을 제한하려는 것은 아니다.

도 11에 도시한 바와 같이 기기(1100)는 읽기 전용 메모리(ROM)(1102)에 저장된 컴퓨터 프로그램 또는 저장 유닛(1108)으로부터 랜덤 액세스 메모리(RAM)(1103)에 로딩된 컴퓨터 프로그램에 따라 다양한 적합한 동작 및 처리를 실행할 수 있는 컴퓨팅 유닛(1101)을 포함한다. RAM(1103)에는 기기(1100)가 동작하는데 필요한 다양한 프로그램 및 데이터를 저장할 수도 있다. 컴퓨팅 유닛(1101), ROM(1102) 및 RAM(1103)은 버스(1104)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(1105)도 버스(1104)에 연결된다.

기기(1100) 중의 복수의 부품은 I/O 인터페이스(1105)에 연결되며, 키보드, 마우스 등과 같은 입력 유닛(1106); 다양한 유형의 디스플레이, 스피커 등과 같은 출력 유닛(1107); 자기 디스크, 광 디스크 등과 같은 저장 유닛(1108); 및 네트워크 카드, 모뎀, 무선 통신 송수신기 등과 같은 통신 유닛(1109)을 포함한다. 통신 유닛(1109)은 기기(1100)로 하여금 인터넷과 같은 컴퓨터 네트워크 및/또는 다양한 통신 네트워크를 통해 기타 기기와 정보/데이터를 교환하도록 허용한다.

컴퓨팅 유닛(1101)은 다양한 처리 및 계산 능력을 가진 범용 및/또는 전용 처리 컴포넌트일 수 있다. 컴퓨팅 유닛(1101)의 일부 예시는 중앙 처리 유닛(CPU), 그래픽 처리 유닛(GPU), 다양한 전용적인 인공 지능(AI) 컴퓨팅 칩, 기계 학습 모델 알고리즘을 실행하는 다양한 컴퓨팅 유닛, 디지털 신호 프로세서(DSP) 및 임의의 적합한 프로세서, 컨트롤러, 마이크로 컨트롤러 등을 포함하지만 이에 한정되지 않는다. 컴퓨팅 유닛(1101)은 위에서 설명한 각 방법 및 처리, 예를 들어 오디오/동영상 데이터 처리 방법을 실행한다. 예를 들어 일부 실시예에서, 오디오/동영상 데이터 처리 방법은 컴퓨터 소프터웨어 프로그램으로 구현될 수 있으며, 저장 유닛(1108)과 같은 기계 판독 가능 매체에 유형적으로 저장될 수 있다. 일부 실시예에서 컴퓨터 프로그램의 부분 또는 전부는 ROM(1102) 및/또는 통신 유닛(1109)을 통해 기기(1100)에 로딩되거나 설치될 수 있다. 컴퓨터 프로그램이 RAM(1103)에 로딩되고 컴퓨팅 유닛(1101)에 의해 실행될 때 상기에서 설명한 오디오/동영상 데이터 처리 방법 중의 하나 또는 복수의 단계를 실행할 수 있다. 선택적으로, 기타 실시예에서, 컴퓨팅 유닛(1101)은 기타 임의의 적합한 방식을 통해(예를 들어 펌웨어에 의해) 오디오/동영상 데이터 처리 방법을 실행하도록 구성될 수 있다.

본문에서 이상 설명한 시스템 및 기술의 다양한 실시 방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 필드 프로그램 가능 게이트 어레이(FPGA), 전용 집적 회로(ASIC), 특정 용도 표준 제품(ASSP), 시스템 온 칩(SOC), 복합 프로그램 가능 논리 소자(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 구현할 수 있다. 이러한 여러가지 실시 방식은 하나 또는 복수의 컴퓨터 프로그램에서 실시되는 것을 포함할 수 있으며, 상기 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있으며, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령어를 수신할 수 있으며, 데이터 및 명령어를 상기 저장 시스템, 상기 적어도 하나의 입력 장치 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.

본 개시의 방법을 실시하기 위한 프로그램 코드는 하나 또는 복수의 프로그래밍 언어의 임의의 조합을 채용하여 프로그래밍할 수 있다. 이러한 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그램 가능 데이터 처리 장치의 프로세서 또는 컨트롤러에 제공됨으로써 프로그램 코드가 프로세서 또는 컨트롤러에 의해 실행될 때 흐름도 및/또는 블록도에서 규정한 기능 및/또는 단계가 실시될 수 있도록 한다. 프로그램 코드는 전부 기계에서 실행, 부분적으로 기계에서 실행되고, 독립형 소프트웨어 패키지로서 부분적으로 기계에서 실행되고 부분적으로 원격 기계에서 실행 또는 전부 원격 기계 또는 서버에서 실행될 수 있다.

본 개시의 문맥에서 기계 판독 가능 매체는 유형 매체일 수 있으며, 이는 명령어 실행 시스템, 장치 또는 기기가 사용하거나 명령어 실행 시스템, 장치 또는 기기와 결합하여 사용하기 위한 프로그램을 포함하거나 저장할 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 저장 매체일 수 있다. 기계 판독 가능 매체는 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 기기, 또는 상기 콘텐츠의 임의의 적합한 조합을 포함할 수 있지만 이에 한정되지 않는다. 기계 판독 가능 저장 매체의 더 구체적인 예시는 하나 또는 복수의 와이어를 기반으로 한 전기적 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 소거 가능 및 프로그램 가능 읽기 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 콤팩트 디스크 읽기 전용 메모리(CD-ROM), 광학적 저장 기기, 자기적 저장 기기 또는 상기 콘텐츠의 임의의 적합한 조합을 포함한다.

사용자와의 인터랙션을 제공하기 위하여, 컴퓨터에서 여기에서 설명한 시스템 및 기술을 실시할 수 있으며, 해당 컴퓨터는 사용자에게 정보를 나타내기 위한 디스플레이 장치(예를 들어 CRT(음극선 관) 또는 LCD(액정 디스플레이) 모니터); 및 키보드와 지향 장치(예를 들어 마우스 또는 트랙볼)를 가지며, 사용자는 해당 키보드 및 해당 지향 장치를 통해 컴퓨터에 입력을 제공할 수 있다. 기타 종류의 장치도 사용자와의 인터랙션을 제공하는 데 사용될 수 있으며, 예를 들어 사용자에게 제공되는 피드백은 임의의 형식의 센싱 피드백(예를 들어 시각적 피드백, 청각적 피드백 또는 촉각적 피드백)일 수 있으며, 또 임의의 형식(소리 입력, 음성 입력 또는 촉각 입력을 포함)으로 사용자로부터의 입력을 접수할 수 있다.

여기에서 설명한 시스템 및 기술을 백그라운드 부품을 포함하는 컴퓨팅 시스템(예를 들어 데이터 서버) 또는 미들웨어 부품을 포함하는 컴퓨팅 시스템(예를 들어 응용 서버) 또는 프런트 엔드 부품을 포함하는 컴퓨팅 시스템(예를 들어 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 가진 사용자 컴퓨터, 사용자는 해당 그래픽 사용자 인터페이스 또는 해당 네트워크 브라우저를 통해 여기에서 설명한 시스템 및 기술의 실시 방식과 인터랙션 할 수 있음), 또는 이러한 백그라운드 부품, 미들웨어 부품 또는 프런트 엔드 부품을 포함하는 임의의 조합의 컴퓨팅 시스템에서 실시할 수 있다. 임의의 형식 또는 매체의 디지털 데이터 통신(예를 들어 통신 네트워크)을 통해 시스템의 부품을 서로 연결할 수 있다. 통신 네트워크의 예시로는 근거리 통신망(LAN), 광역 통신망(WAN) 및 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있으며, 보통 통신 네트워크를 통해 서로 인터랙션 한다. 대응되는 컴퓨터에서 실행하고 또 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 가짐으로써, 클라이언트와 서버의 관계를 생성한다.

이해해야 할 것은, 위에서 설명한 바와 같은 다양한 형식의 프로세스를 사용하여, 단계를 다시 순서 배열, 추가 또는 삭제할 수 있다. 예를 들어 본 개시에 기재된 각 단계는 병행적으로 실행할 수도 있고 순차적으로 실행할 수도 있으며 상이한 순서로 실행할 수도 있는 바, 본 개시에서 기재된 기술적 해결 수단에서 기대하는 결과를 구현할 수만 있으면, 본문은 이에 대해 제한하지 않는다.

상기 구체적인 실시 방식은 본 개시의 보호 범위를 한정하지 않는다. 본 기술 분야에서 통상의 지식을 가진 자들은 설계 요구와 기타 요소에 따라 다양한 수정, 조합, 하위 조합 및 교체를 할 수 있다는 것을 이해해야 한다. 본 개시의 사상 및 원칙 내에서 진행한 임의의 수정, 균등한 교체 및 개선 등은 모두 본 개시의 보호 범위 내에 포함되어야 한다.

Claims

오디오/동영상 데이터 처리 방법으로서,
오디오/동영상 데이터에서 텍스트 정보를 추출하는 단계;
상기 텍스트 정보에 따라 복수 등급의 요강 조목을 포함한 텍스트 요강 및 상기 복수 등급의 요강 조목과 관련된 복수의 시간 구간을 생성하는 단계;
상기 텍스트 요강 및 상기 복수의 시간 구간에 따라, 상기 오디오/동영상 데이터에 대한 전시 필드를 생성하는 단계; 및
업데이트된 오디오/동영상 데이터를 획득하도록 상기 전시 필드를 상기 오디오/동영상 데이터에 추가하는 단계
를 포함하는, 오디오/동영상 데이터 처리 방법.
제1항에 있어서,
상기 텍스트 정보에 따라 텍스트 요강 및 복수의 시간 구간을 생성하는 단계는,
상기 텍스트 정보를 복수의 제1 텍스트 단락으로 분할하는 것;
상기 복수의 제1 텍스트 단락 중의 각 제1 텍스트 단락에 대해, 제1 텍스트 단락 제목을 생성하여 1등급의 요강 조목으로 하는 것;
상기 복수의 제1 텍스트 단락에 기반하여 텍스트 단락 집합을 구축하는 것; 및
상기 텍스트 단락 집합 중의 각 제1 텍스트 단락에 대해, 상기 텍스트 단락 집합 중의 각 제1 텍스트 단락의 데이터의 양이 모두 미리 설정한 임계치보다 작을 때까지
상기 제1 텍스트 단락의 데이터의 양을 상기 미리 설정한 임계치와 비교하여;
상기 제1 텍스트 단락의 데이터의 양이 상기 미리 설정한 임계치보다 크거나 같을 경우,
상기 제1 텍스트 단락을 복수의 제2 텍스트 단락으로 분할하며;
상기 복수의 제2 텍스트 단락 중의 각 제2 텍스트 단락에 대해, 제2 텍스트 단락 제목을 생성하며, 상기 제2 텍스트 단락 제목을 해당 제1 텍스트 단락에 의해 생성된 제1 텍스트 단락 제목의 다음 등급의 요강 조목으로 하며; 및
상기 복수의 제2 텍스트 단락을 각각 제1 텍스트 단락으로 하여 상기 텍스트 단락 집합에 추가하는 동작을 실행하는 것
을 포함하는, 오디오/동영상 데이터 처리 방법.
제2항에 있어서,
상기 제1 텍스트 단락을 복수의 제2 텍스트 단락으로 분할하는 것은,
제1 딥 러닝 모델을 이용하여 상기 제1 텍스트 단락에 대해 요약 추출하여 요약 텍스트 단락을 획득하도록 하는 것; 및
제2 딥 러닝 모델을 이용하여 상기 요약 텍스트 단락에 대해 단락 나누기를 하여 복수의 제2 텍스트 단락을 획득하도록 하는 것
을 포함하는, 오디오/동영상 데이터 처리 방법.
제2항에 있어서,
상기 텍스트 정보에 따라 텍스트 요강 및 복수의 시간 구간을 생성하는 단계는 또한
상기 오디오/동영상 데이터에 따라, 상기 텍스트 정보에 포함된 각 텍스트 문구의 시작 시각 및 종료 시각을 표기하는 것; 및
상기 텍스트 정보에 포함된 각 텍스트 문구의 시작 시각 및 종료 시각에 의해 상기 시간 구간을 결정하는 것
을 포함하는, 오디오/동영상 데이터 처리 방법.
제4항에 있어서,
상기 텍스트 정보에 포함된 각 텍스트 문구의 시작 시각 및 종료 시각에 의해 상기 시간 구간을 결정하는 것은,
상기 복수의 제1 텍스트 단락 중의 각 제1 텍스트 단락에 대해, 제1 텍스트 단락 제목을 생성하여 1등급의 요강 조목으로 한 후,
상기 제1 텍스트 단락 중의 첫 번째 텍스트 문구의 시작 시각을 결정하여 상기 1등급의 요강 조목과 관련된 시간 구간의 시작 시각으로 하는 것; 및
상기 제1 텍스트 단락 중의 마지막 하나의 텍스트 문구의 종료 시각을 결정하여 상기 1등급의 요강 조목과 관련된 시간 구간의 종료 시각으로 하는 것
을 포함하는, 오디오/동영상 데이터 처리 방법.
제5항에 있어서,
상기 텍스트 정보에 포함된 각 텍스트 문구의 시작 시각 및 종료 시각에 의해 상기 시간 구간을 결정하는 것은, 또한
상기 복수의 제2 텍스트 단락 중의 각 제2 텍스트 단락에 대해, 제2 텍스트 단락 제목을 생성하며, 상기 제2 텍스트 단락 제목을 해당 제1 텍스트 단락에 의해 생성된 제1 텍스트 단락 제목의 다음 등급의 요강 조목으로 한 후,
상기 제2 텍스트 단락 중의 첫 번째 텍스트 문구의 시작 시각을 결정하여 상기 다음 등급의 요강 조목과 관련된 시간 구간의 시작 시각으로 하는 것; 및
상기 제2 텍스트 단락 중의 마지막 하나의 텍스트 문구의 종료 시각을 결정하여 상기 다음 등급의 요강 조목과 관련된 시간 구간의 종료 시각으로 하는 것
을 포함하는, 오디오/동영상 데이터 처리 방법.
제5항 또는 제6항에 있어서,
상기 텍스트 요강 및 상기 복수의 시간 구간에 따라, 상기 오디오/동영상 데이터에 대한 전시 필드를 생성하는 단계는,
서로 관련된 상기 텍스트 요강 중의 각 등급의 요강 조목과 상기 복수의 시간 구간 중의 각 시간 구간을 데이터쌍으로 조합하는 것; 및
상기 데이터쌍을 복수 등급의 요강 조목 간의 등급 관계에 따라 문자열형 변수 또는 집합형 변수에 저장하여 상기 전시 필드로 하는 것
을 포함하는, 오디오/동영상 데이터 처리 방법.
오디오/동영상 데이터 처리 방법으로서,
제1항 내지 제6항 중 어느 한 항에 따른 오디오/동영상 데이터 처리 방법에 따라 생성된 업데이트된 오디오/동영상 데이터를 획득하는 단계; 및
상기 업데이트된 오디오/동영상 데이터에서 전시 필드를 추출하며, 상기 전시 필드에 따라 전시 컨트롤을 작성하는 단계
을 포함하는, 오디오/동영상 데이터 처리 방법.
제8항에 있어서,
상기 전시 컨트롤은 플로팅 컨트롤 및 복수의 서브 컨트롤을 포함하며, 상기 전시 필드에 따라 전시 컨트롤을 작성하는 단계는,
상기 전시 필드가 비어 있지 않을 경우, 플로팅 컨트롤을 작성하는 것;
상기 전시 필드에 대해 해석하여 복수 등급의 요강 조목을 획득하도록 하는 것; 및
상기 복수 등급의 요강 조목에 따라 상기 플로팅 컨트롤에 한 등급씩 서브 컨트롤을 추가하는 것
을 포함하는, 오디오/동영상 데이터 처리 방법.
제9항에 있어서,
상기 전시 컨트롤에 대해 클릭 이벤트를 추가하는 단계를 더 포함하며,
상기 클릭 이벤트는 하나의 서브 컨트롤이 클릭된 것에 응답하여, 해당 서브 컨트롤이 전시하는 요강 조목에 관련된 시간 구간을 획득하고, 플레이어를 호출하여 상기 시간 구간 내의 오디오/동영상 데이터에 대해 디코딩하여 상기 시간 구간 내의 오디오/동영상 데이터를 재생하도록 하는, 오디오/동영상 데이터 처리 방법.
오디오/동영상 데이터 처리 장치로서,
오디오/동영상 데이터에서 텍스트 정보를 추출하도록 구성되어 있는 정보 추출 모듈;
상기 텍스트 정보에 따라 복수 등급의 요강 조목을 포함한 텍스트 요강 및 복수 등급의 요강 조목과 관련된 복수의 시간 구간을 생성하도록 구성되어 있는 제1 생성 모듈;
상기 텍스트 요강 및 상기 복수의 시간 구간에 따라, 상기 오디오/동영상 데이터에 대한 전시 필드를 생성하도록 구성되어 있는 제2 생성 모듈; 및
업데이트된 오디오/동영상 데이터를 획득하도록 상기 전시 필드를 상기 오디오/동영상 데이터에 추가하도록 구성되어 있는 필드 추가 모듈
을 포함하는, 오디오/동영상 데이터 처리 장치.
제1항 내지 제6항에 따른 오디오/동영상 데이터 처리 방법에 따라 생성된 업데이트된 오디오/동영상 데이터를 획득하도록 구성된 획득 모듈; 및
상기 업데이트된 오디오/동영상 데이터에서 전시 필드를 추출하고, 상기 전시 필드에 따라 전시 컨트롤을 작성하도록 구성되어 있는 작성 모듈
을 포함하는, 오디오/동영상 데이터 처리 장치.
전자 기기로서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결된 메모리
를 포함하되, 상기 메모리는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령어를 저장하고 있으며, 상기 명령어는 상기 적어도 하나의 프로세서에 의해 실행되어 상기 적어도 하나의 프로세서로 하여금 제1항 내지 제6항 중 어느 한 항에 따른 오디오/동영상 데이터 처리 방법을 실행할 수 있게 하는, 전자 기기.
전자 기기로서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결된 메모리
를 포함하되, 상기 메모리는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령어를 저장하고 있으며, 상기 명령어는 상기 적어도 하나의 프로세서에 의해 실행되어 상기 적어도 하나의 프로세서로 하여금 제8항에 따른 오디오/동영상 데이터 처리 방법을 실행할 수 있게 하는, 전자 기기.
컴퓨터로 하여금 제1항 내지 제6항 중 어느 한 항에 따른 오디오/동영상 데이터 처리 방법을 실행하게 하기 위한 컴퓨터 명령어가 저장되어 있는 비휘발성 컴퓨터 판독 가능 저장 매체.
컴퓨터로 하여금 제8항에 따른 오디오/동영상 데이터 처리 방법을 실행하게 하기 위한 컴퓨터 명령어가 저장되어 있는 비휘발성 컴퓨터 판독 가능 저장 매체.
프로세서에 의해 실행될 때 제1항 내지 제6항 중 어느 한 항에 따른 오디오/동영상 데이터 처리 방법을 구현하는 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품.
프로세서에 의해 실행될 때 제8항에 따른 오디오/동영상 데이터 처리 방법을 구현하는 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품.