KR20220149570A

KR20220149570A - 오디오 처리 방법 및 전자 기기

Info

Publication number: KR20220149570A
Application number: KR1020227033855A
Authority: KR
Inventors: 지샹 후
Original assignee: 비보 모바일 커뮤니케이션 컴퍼니 리미티드
Priority date: 2020-03-11
Filing date: 2021-03-04
Publication date: 2022-11-08
Also published as: EP4120268A4; WO2021179991A1; CN111445927B; US20230005506A1; EP4120268A1; CN111445927A

Abstract

본 발명의 실시예는 오디오 처리 방법 및 전자 기기를 제공하며, 상기 방법은 우선 처리할 오디오에 대응되는 텍스트 정보를 획득하되, 텍스트 정보는 처리할 텍스트 및 처리할 텍스트 중 각 필드에 대응되는 재생 시간대를 포함하며, 그 후, 처리할 텍스트에 대한 제1 입력을 수신하고, 상기 제1 입력에 응답하여, 처리할 텍스트에서 제1 입력에 의해 지시되는 필드를 처리할 필드로 결정하며, 그 다음으로, 처리할 필드에 대한 제2 입력을 수신하고, 상기 제2 입력에 응답하여, 타깃 오디오 세그먼트를 획득하며, 마지막으로, 타깃 오디오 세그먼트에 따라, 처리할 필드에 대응되는 재생 시간대 위치의 오디오 세그먼트를 보정하여, 타깃 오디오를 획득한다.

Description

오디오 처리 방법 및 전자 기기

본 발명은 통신 기술 분야에 관한 것으로, 특히 오디오 처리 방법 및 전자 기기에 관한 것이다.

생활 속에서 사람들은 항상 오디오를 녹음하게 되지만, 녹음 과정에서 잘못 말하거나 습관적으로 하는 말버릇이 여러 번 나타나는 등의 문제가 발생하는 경우가 많아, 오디오 내용을 보정하여 사용자가 원하지 않는 세그먼트를 처리해야 한다.

기존 기술에서, 사용자는 수동으로 오디오의 프로그레스 바를 조정하여, 보정이 필요한 오디오 세그먼트가 위치한 재생 시간대를 찾은 다음, 해당 재생 시간대 위치의 오디오 세그먼트를 보정해야 한다. 조작 과정에서, 사용자는 항상 프로그레스 바를 반복 조정해야만, 보정이 필요한 오디오 세그먼트가 위치한 재생 시간대를 정확하게 포지셔닝할 수 있으므로, 전체 조작 과정이 번거롭고, 오디오 처리 효율이 낮다.

본 발명의 실시예는 오디오 내용을 보정할 때, 조작 과정이 번거롭고 오디오 처리의 효율이 낮은 문제를 해결하기 위한 오디오 처리 방법 및 전자 기기를 제공한다.

상기 기술적 과제를 해결하기 위해, 본 발명은 아래와 같이 구현된다.

제1 면에서, 본 발명의 실시예는 전자 기기에서 적용되고,

처리할 오디오에 대응되는 텍스트 정보를 획득하되, 상기 텍스트 정보는 처리할 텍스트 및 상기 처리할 텍스트 중 각 필드에 대응되는 재생 시간대를 포함하는 단계;

상기 처리할 텍스트에 대한 제1 입력을 수신하는 단계;

상기 제1 입력에 응답하여, 상기 제1 입력에 의해 지시되는 필드에 따라, 상기 처리할 텍스트 중의 처리할 필드를 결정하는 단계;

상기 처리할 필드에 대한 제2 입력을 수신하는 단계;

상기 제2 입력에 따라, 타깃 오디오 세그먼트를 획득하는 단계; 및

상기 타깃 오디오 세그먼트에 따라, 상기 처리할 필드에 대응되는 재생 시간대 위치의 오디오 세그먼트를 보정하여, 타깃 오디오를 획득하는 단계;를 포함하는 오디오 처리 방법을 제공한다.

제2 면에서, 본 발명의 실시예는,

처리할 오디오에 대응되는 텍스트 정보를 획득하되, 상기 텍스트 정보는 처리할 텍스트 및 상기 처리할 텍스트 중 각 필드에 대응되는 재생 시간대를 포함하는 제1 획득 모듈;

상기 처리할 텍스트에 대한 제1 입력을 수신하는 제1 수신 모듈;

상기 제1 입력에 응답하여, 상기 제1 입력에 의해 지시되는 필드에 따라, 상기 처리할 텍스트 중의 처리할 필드를 결정하는 제1 결정 모듈;

상기 처리할 필드에 대한 제2 입력을 수신하는 제2 수신 모듈;

상기 제2 입력에 따라, 타깃 오디오 세그먼트를 획득하는 제2 획득 모듈; 및

상기 타깃 오디오 세그먼트에 따라, 상기 처리할 필드에 대응되는 재생 시간대 위치의 오디오 세그먼트를 보정하여, 타깃 오디오를 획득하는 제2 결정 모듈;을 포함하는 전자 기기를 더 제공한다.

제3 면에서, 본 발명의 실시예는 프로세서, 메모리 및 상기 메모리에 저장되고 상기 프로세서에 의해 실행 가능한 오디오 처리 프로그램을 포함하며, 상기 오디오 처리 프로그램이 상기 프로세서에 의해 실행되면 제1 면에 따른 오디오 처리 방법의 단계가 구현되는 전자 기기를 제공한다.

제4 면에서, 본 발명의 실시예는 프로세서에 의해 실행되면 제1 면에 따른 오디오 처리 방법의 단계가 구현되는 오디오 처리 프로그램이 저장되어 있는 컴퓨터 판독 가능 저장 매체를 제공한다.

상술한 바와 같이, 본 발명의 실시예에서 제공되는 오디오 처리 방법 및 전자 기기는 우선 처리할 오디오에 대응되는 텍스트 정보를 획득하되, 텍스트 정보는 처리할 텍스트 및 처리할 텍스트 중 각 필드에 대응되는 재생 시간대를 포함하고, 그 후, 처리할 텍스트에 대한 제1 입력을 수신하고, 상기 제1 입력에 응답하여, 처리할 텍스트에서 제1 입력에 의해 지시되는 필드를 처리할 필드로 결정하며, 그 다음으로, 처리할 필드에 대한 제2 입력을 수신하고, 상기 제2 입력에 응답하여, 타깃 오디오 세그먼트를 획득하며, 마지막으로, 타깃 오디오 세그먼트에 따라, 처리할 필드에 대응되는 재생 시간대 위치의 오디오 세그먼트를 보정하여 타깃 오디오를 획득한다. 이로써, 프로그레스 바를 수동으로 조정할 필요 없이, 오디오에 대한 보정을 구현할 수 있으므로, 오디오 처리 효율을 향상시킬 수 있다.

본 발명의 실시예의 기술적 해결수단을 보다 명확하게 설명하기 위하여, 이하에서는 본 발명의 실시예에 대한 설명에서 사용되는 첨부 도면을 간단히 설명하기로 한다. 하기 도면은 본 발명의 일부 실시예일 뿐이고, 본 기술분야의 통상의 기술자들은 창조적인 노력 없이도 이러한 도면으로부터 다른 도면을 얻을 수 있을 것이다.
도 1은 본 발명의 오디오 처리 방법의 실시예의 단계를 나타내는 흐름도이다.
도 2a는 본 발명의 오디오 처리 방법의 다른 실시예의 단계를 나타내는 흐름도이다.
도 2b는 본 발명의 실시예에서 제공되는 처리할 텍스트를 표시하는 예시를 나타내는 모식도이다.
도 2c는 본 발명의 실시예에서 제공되는 처리할 텍스트를 표시하는 다른 예시를 나타내는 모식도이다.
도 2d는 본 발명의 실시예에서 제공되는 처리할 텍스트를 편집하는 예시를 나타내는 모식도이다.
도 2e는 본 발명의 실시예에서 제공되는 처리할 텍스트를 편집하는 다른 예시를 나타내는 모식도이다.
도 2f는 본 발명의 실시예에서 제공되는 처리할 텍스트를 편집하는 또 다른 예시를 나타내는 모식도이다.
도 3은 본 발명의 오디오 처리 방법의 또 다른 실시예의 단계를 나타내는 흐름도이다.
도 4는 본 발명의 전자 기기의 실시예의 구조 블록도이다.
도 5는 본 발명의 전자 기기의 실시예의 하드웨어 구조를 나타내는 모식도이다.

[관련 출원의 상호 인용]

본 출원은 2020년 03월 11일 중국에서 제출한 중국특허출원번호 202010167788.0의 우선권을 주장하며, 본 출원에서는 그 전체 내용을 인용하고 있다.

아래에서 본 발명의 실시예 중의 첨부 도면을 참조하여 본 발명의 실시예 중의 기술적 해결수단을 명확하고 완전하게 설명하되, 설명된 실시예는 본 발명의 일부 실시예일 뿐, 전체 실시예가 아님은 분명하다. 본 발명의 실시예를 기반으로, 본 기술분야의 통상의 기술자가 창조적 노력 없이 획득한 모든 다른 실시예는 전부 본 발명의 보호 범위 내에 속한다.

도 1은 본 발명의 오디오 처리 방법의 실시예의 단계를 나타내는 흐름도이다. 상기 방법은 전자 기기에 적용될 수 있으며, 도 1에 도시된 바와 같이, 상기 방법은 단계 101 내지 단계 106을 포함할 수 있다.

단계 101에서, 처리할 오디오에 대응되는 텍스트 정보를 획득하되, 상기 텍스트 정보는 처리할 텍스트 및 상기 처리할 텍스트 중 각 필드에 대응되는 재생 시간대를 포함한다.

본 발명의 실시예에서, 처리할 오디오는 로컬에 저장된 오디오일 수 있고, 인터넷에서 다운받은 보정이 필요한 오디오일 수도 있으며, 처리할 오디오는 오디오 녹음을 통해 직접적으로 획득된 것일 수 있고, 비디오 녹화 과정에서 녹음된 것일 수도 있으며, 즉, 처리할 오디오는 비디오로부터 추출된 오디오일 수 있다. 또한, 처리할 텍스트는 처리할 오디오에 대응되는 텍스트일 수 있고, 상기 대응되는 텍스트는 오디오를 텍스트로 변환하는 방법에 따라, 처리할 오디오를 변환하여 획득되는 것일 수 있다. 처리할 텍스트 중 각 필드에 대응되는 재생 시간대는, 처리할 오디오에서 상기 필드에 대응되는 오디오의 대응되는 재생 시간대일 수 있다. 예시적으로, 처리할 텍스트의 필드 “기분 좋음”에 대응되는 오디오가 처리할 오디오에서 대응되는 재생 시간대가 제 5.1초 내지 제 5.9초라고 가정하면, 재생 시간대 “제 5.1초 내지 제 5.9초”를 필드 “기분 좋음”에 대응되는 재생 시간대로 결정할 수 있다.

단계 102에서, 상기 처리할 텍스트에 대한 제1 입력을 수신한다.

본 발명의 실시예에서, 처리할 텍스트에 대한 제1 입력은, 처리할 텍스트를 표시하는 인터페이스에서, 처리할 텍스트에서 보정이 필요한 필드를 선택하는 조작일 수 있다. 상기 조작은 클릭, 더블 클릭 등일 수 있다.

단계 103에서, 상기 제1 입력에 응답하여, 상기 제1 입력에 의해 지시되는 필드에 따라, 상기 처리할 텍스트 중의 처리할 필드를 결정한다.

본 발명의 실시예에서, 제1 입력에 의해 지시되는 필드는 사용자가 제1 입력에 의해 선택한 필드, 즉, 사용자가 보정하고자 하는 오디오에 대응되는 필드를 의미하므로, 제1 입력에 의해 지시되는 필드에 따라, 처리할 필드를 결정할 수 있다. 제1 입력에 의해 지시되는 필드에 따라, 처리할 텍스트 중의 처리할 필드를 결정할 때, 처리할 텍스트에서 제1 입력에 의해 지시되는 필드를 처리할 필드로 할 수 있다.

단계 104에서, 상기 처리할 필드에 대한 제2 입력을 수신한다.

본 발명의 실시예에서, 처리할 필드에 대한 제2 입력은, 처리할 텍스트를 표시하는 인터페이스에서 수행될 수 있고, 제2 입력은 처리할 필드에 대응되는 오디오 세그먼트의 보정 요구에 따라 사용자가 수행할 수 있다. 예를 들어, 상기 제2 입력은 처리할 필드에 대한 삭제 조작이거나, 처리할 필드를 대체하기 위한 입력 조작이거나, 추가해야 하는 필드를 입력하는 조작이거나, 또는 처리할 필드에 대응되는 오디오 세그먼트를 대체하기 위한 오디오 세그먼트를 입력하는 조작일 수 있다.

단계 105에서, 상기 제2 입력에 응답하여, 타깃 오디오 세그먼트를 획득한다.

본 발명의 실시예에서, 타깃 오디오 세그먼트는 사용자가 최종적으로 원하는 오디오 세그먼트일 수 있다. 상기 타깃 오디오 세그먼트는 사용자가 직접 입력한 것일 수 있고, 전자 기기에 의해 처리할 필드를 편집하여 획득한 것일 수도 있다. 여기서, 처리할 필드를 편집하는 구체적인 방식은 제2 입력에 따라 결정될 수 있다. 예를 들어, 제2 입력이 추가해야 하는 필드를 입력하는 조작인 경우, 처리할 필드에 새로운 필드를 추가할 수 있다. 제2 입력이 처리할 필드에 대한 삭제 조작인 경우, 처리할 필드를 삭제하는 등과 같다. 제2 입력은 처리할 필드에 대응되는 오디오 세그먼트의 보정 요구에 따라 사용자가 수행하므로, 처리할 필드를 편집하여, 획득된 타깃 오디오 세그먼트가 바로 사용자가 최종적으로 원하는 오디오에 대응되는 필드가 되도록 보장할 수 있다.

단계 106에서, 상기 타깃 오디오 세그먼트에 따라, 상기 처리할 필드에 대응되는 재생 시간대 위치의 오디오 세그먼트를 보정하여, 타깃 오디오를 획득한다.

본 발명의 실시예에서, 타깃 오디오 세그먼트에 따라 보정을 수행할 때, 텍스트 정보에 포함된 각 필드에 대응되는 재생 시간대에서, 처리할 필드에 대응되는 재생 시간대를 판독한 다음, 처리할 필드에 대응되는 재생 시간대 위치의 오디오 세그먼트를 타깃 오디오 세그먼트로 보정함으로써, 처리할 오디오에 대한 보정을 구현할 수 있다.

상기 내용을 종합해보면, 본 발명의 실시예에서 제공되는 오디오 처리 방법은, 우선 처리할 오디오에 대응되는 텍스트 정보를 획득하되, 텍스트 정보는 처리할 텍스트 및 처리할 텍스트 중 각 필드에 대응되는 재생 시간대를 포함하고, 그 다음, 처리할 텍스트에 대한 제1 입력을 수신하고, 상기 제1 입력에 응답하여, 제1 입력에 의해 지시되는 필드에 따라, 처리할 텍스트 중의 처리할 필드를 결정하며, 다음으로, 처리할 필드에 대한 제2 입력을 수신하고, 상기 제2 입력에 응답하여, 타깃 오디오 세그먼트를 획득하며, 마지막으로, 타깃 오디오 세그먼트에 따라, 처리할 필드에 대응되는 재생 시간대 위치의 오디오 세그먼트를 보정하여, 타깃 오디오를 획득한다. 이로써, 프로그레스 바를 수동으로 조정할 필요 없이, 오디오에 대한 보정을 구현할 수 있으므로, 오디오 처리 효율을 향상시킬 수 있다.

도 2a는 본 발명의 오디오 처리 방법의 다른 실시예의 단계를 나타내는 흐름도이다. 상기 방법은 전자 기기에 적용될 수 있으며, 도 2a에 도시된 바와 같이, 상기 방법은 단계 201 내지 단계 207를 포함할 수 있다.

단계 201에서, 처리할 오디오에 대응되는 텍스트 정보를 획득하되, 상기 텍스트 정보는 처리할 텍스트 및 상기 처리할 텍스트 중 각 필드에 대응되는 재생 시간대를 포함한다.

본 발명의 실시예에서, 전자 기기는 아래 단계 2011~단계 2013를 통하여 처리할 오디오에 대응되는 텍스트 정보를 획득할 수 있다.

단계 2011에서, 상기 처리할 오디오에 매칭되는 자막 파일이 존재하는지 여부를 검출하되, 상기 자막 파일은 자막 텍스트 및 상기 자막 텍스트 중 각 필드에 대응되는 재생 시간대를 포함한다.

본 발명의 실시예에서, 처리할 오디오는 비디오 중의 오디오일 수 있고, 상응하게, 자막 파일은 비디오에 매칭되는 자막 파일일 수 있다. 처리할 오디오는 노래와 같은 독립적인 오디오일 수도 있고, 상응하게, 자막 파일은 노래에 매칭되는 가사 파일일 수 있다. 처리할 오디오에 매칭되는 자막 파일이 존재하는지 여부를 검출하는 것은, 인터넷에서 처리할 오디오에 매칭되는 자막 파일이 있는지 여부를 검색하는 것일 수 있고, 로컬에서 매칭되는 자막 파일이 있는지 여부를 검색하는 것일 수도 있다.

단계 2012에서, 상기 처리할 오디오에 매칭되는 자막 파일이 존재하면, 상기 자막 파일을 상기 처리할 오디오에 대응되는 텍스트 정보로 한다.

본 발명의 실시예에서, 자막 파일을 처리할 오디오에 대응되는 텍스트 정보로 하는 것은, 자막 파일에 포함된 자막 텍스트를 처리할 오디오에 대응되는 처리할 텍스트로 하고, 자막 텍스트 중 각 필드에 대응되는 재생 시간대를 처리할 오디오에서 상기 필드의 재생 시간대로 하는 것이다. 매칭되는 자막 파일이 있는지 여부를 검출하여, 자막 파일이 있는 경우, 자막 파일을 처리할 오디오에 대응되는 텍스트 정보로 하고, 오디오에 따라 텍스트를 생성하는 단계를 생략할 수 있으므로, 오디오 처리의 시간을 어느 정도 절약한다.

단계 2013에서, 상기 처리할 오디오에 매칭되는 자막 파일이 존재하지 않으면, 상기 처리할 오디오에 포함된 오디오를 텍스트로 변환하고, 상기 처리할 오디오에서 재생되는 오디오 세그먼트의 시간 정보에 따라, 상기 텍스트 중 각 필드에 대응되는 재생 시간대를 생성하되, 상기 텍스트와 상기 텍스트 중 각 필드에 대응되는 재생 시간대를 상기 처리할 오디오에 대응되는 텍스트 정보로 한다.

본 발명의 실시예에서, 처리할 오디오를 텍스트로 변환하는 것은, 음성을 문자로 변환하는 방법을 이용하여 구현할 수 있다. 구체적으로, 우선 오디오를 처리하여, 오디오 중의 노이즈를 제거하여, 변환 과정에 간섭하지 않도록 할 수 있고, 다음으로, 오디오 중의 특징값을 재추출하고, 오디오를 더 작은 오디오 세그먼트로 분할하여, 상기 오디오 세그먼트에 하나 이상의 특징값을 포함하도록 하고, 오디오 세그먼트의 특징값과 오디오 모델 베이스 중의 모델 특징값에 따라 매칭하여, 매칭된 모델 특징값에 대응되는 문자를 상기 오디오 세그먼트에 대응되는 텍스트로 결정할 수 있다. 텍스트 중 각 필드에 대응되는 재생 시간대를 생성하는 것은, 오디오를 텍스트로 변환하는 과정에서, 분할되는 오디오 세그먼트에 대응되는 재생 시간대를 판독한 후, 분할되는 오디오 세그먼트에 대응되는 재생 시간대를 상기 필드에 대응되는 재생 시간대로 하는 것일 수 있다. 이로써, 자막 파일이 존재하지 않을 때, 오디오를 통해 대응되는 텍스트를 생성하여, 처리할 오디오에 매칭되는 텍스트 내용을 획득할 수 있으므로, 정확한 텍스트 정보를 후속적으로 제공할 수 있도록 확보한다.

단계 202에서, 상기 처리할 텍스트에 대한 제1 입력을 수신한다.

본 발명의 실시예에서, 처리할 텍스트에 대한 제1 입력을 수신하는 단계 이전에, 아래 단계에 의해 처리할 텍스트를 표시할 수 있다.

기설정된 화면을 표시하고, 상기 기설정된 화면에 상기 처리할 텍스트를 전부 표시하며; 또는, 상기 처리할 비디오의 각 비디오 화면을 표시하되, 상기 비디오 화면에 상기 비디오 화면에 대응되는 처리할 텍스트를 표시한다.

구체적으로, 기설정된 화면은 실제 상황에 따라 미리 설정된 것일 수 있고, 예시적으로, 기설정된 화면은 처리할 오디오와 관련될 수 있는 화면이며, 예를 들어, 처리할 오디오에 속하는 비디오의 비디오 표지이거나, 처리할 오디오에 속하는 오디오 앨범의 표지일 수 있고, 또는 처리할 오디오의 가수 사진, 등일 수 있으며, 본 발명의 실시예는 이에 대해 한정하지 않는다. 또한, 기설정된 화면에 처리할 텍스트를 전부 표시함으로써, 사용자는 전체 처리할 텍스트를 직관적으로 볼 수 있는 동시에, 처리할 텍스트와 관련된 기설정된 화면을 이용하여, 사용자의 시청 경험을 향상시킬 수 있다. 예시적으로, 도 2b는 본 발명의 실시예에서 제공되는 처리할 텍스트를 표시하는 예시를 나타내는 모식도이다. 도 2b에 도시된 바와 같이, 처리할 오디오를 부른 특정 가수가 포함된 관련 화면에, 처리할 텍스트를 전부 표시한다. 설명해야 할 것은, 실제 응용 시나리오에서, 처리할 텍스트의 수량이 많아, 전자 기기 화면 사이즈에 의해 제한될 수 있고, 전체 처리할 텍스트를 한 번에 표시하지 못할 수 있으므로, 처리할 텍스트에 대해 스크롤 표시를 수행하여, 완전히 표시할 수 있도록 확보할 수 있다.

또한, 비디오 화면을 표시하고, 비디오 화면에 대응되는 처리할 텍스트를 표시할 수도 있다. 여기서, 비디오 화면에 대응되는 처리할 텍스트는, 재생 시간대가 상기 비디오 화면의 재생 시간대와 동일한 텍스트일 수 있다. 비디오 화면의 내용이 비디오 화면에 대응되는 처리할 텍스트와 강한 관련성을 가지는 경우가 많으므로, 각각 비디오 화면에 표시하는 방식으로, 사용자는 비디오 화면의 내용 및 텍스트 내용을 동시에 관찰하기에 편리하고, 사용자가 선택하기 편리하다. 구체적으로, 표시할 때, 비디오 화면에 텍스트 표시 프레임을 생성하고, 텍스트 표시 프레임에 처리할 텍스트를 표시할 수 있으며, 상기 표시 프레임의 구체적인 방식은 실제 상황에 따라 미리 설정될 수 있다. 예시적으로, 도 2c는 본 발명의 실시예에서 제공되는 처리할 텍스트를 표시하는 다른 예시를 나타내는 모식도이다. 도 2c에 도시된 바와 같이, 비디오 화면에는 대응되는 처리할 텍스트가 표시되어 있고, 즉, “날 눈물 흘리게 하는 건 어젯밤의 술뿐만은 아니야”이다.

상응하게, 전자 기기는 표시되는 처리할 텍스트에 대한 선택 입력을 수신하여, 제1 입력 수신을 구현할 수 있다. 이로써, 기설정된 화면 또는 비디오 화면에 처리할 텍스트를 표시하여, 사용자에게 가시적 선택 시나리오 및 풍부한 정보를 제공하고, 사용자가 처리할 텍스트를 편리하게 선택할 수 있도록 하여, 선택 효율을 향상시킬 수 있다.

단계 203에서, 상기 제1 입력에 응답하여, 상기 제1 입력에 의해 지시되는 필드에 따라, 상기 처리할 텍스트 중의 처리할 필드를 결정한다.

구체적으로, 처리할 텍스트에서 제1 입력에 의해 지시되는 필드를 처리할 필드로 결정할 때, 모든 처리할 텍스트로부터 포함되는 모든 제1 입력 지시의 필드를 검색한 다음, 검색된 필드를 처리할 필드로 결정할 수 있고; 여기서, 제1 입력에 의해 지시되는 필드는 사용자가 표시되는 처리할 텍스트의 선택 입력에 대해 선택한 필드일 수 있다. 또는, 제1 입력은 기설정된 검색 영역을 통해 수행될 수 있고, 제1 입력에 의해 지시되는 필드는 상기 검색 영역을 통해 입력될 수 있다. 상응하게, 전자 기기는 본 단계 이전에, 검색 영역을 표시하고; 다음으로 상기 검색 영역을 통해 사용자가 수행하는 제1 입력을 수신한다. 이로써, 사용자는 한 번의 선택만으로 모든 동일한 필드를 보정하도록 전자 기기를 제어할 수 있어, 선택 효율을 향상시킬 수 있다.

또한, 단계 203을 수행한 이후에 아래 단계 A~단계 C를 통해 오디오 음량 조정을 구현할 수도 있다.

단계 A에서, 상기 처리할 텍스트에 대한 제3 입력을 수신한다.

본 발명의 실시예에서, 처리할 텍스트에 대한 제3 입력은 처리할 텍스트를 표시하는 인터페이스에서 수행할 수 있고, 제3 입력은 처리할 텍스트 폰트에 대한 조정 조작일 수 있다. 사용자는 처리할 텍스트 폰트를 조정해야 할 때, 제3 입력을 수행할 수 있고, 상응하게, 전자 기기는 상기 제3 입력을 수신할 수 있다.

단계 B에서, 상기 제3 입력에 응답하여, 상기 제3 입력에 의해 지시되는 조정할 필드의 폰트 크기를 조정하여, 조정된 조정할 필드를 획득한다.

본 발명의 실시예에서, 제3 입력에 의해 지시되는 조정할 필드의 폰트 크기를 조정하는 것은, 제3 입력에 의해 지시되는 조정 조작에 따라, 조정할 필드 폰트 크기에 대해 확대 또는 축소를 수행하여, 조정된 조정할 필드를 획득하는 것일 수 있다.

단계 C에서, 상기 조정된 조정할 필드의 폰트 크기에 따라, 상기 조정할 필드에 대응되는 오디오의 음량 크기를 조정하되, 상기 조정된 조정할 필드의 폰트가 클수록, 상기 조정할 필드에 대응되는 오디오의 음량이 커진다.

본 발명의 실시예에서, 조정된 조정할 필드의 폰트 크기에 따라, 조정할 필드에 대응되는 오디오의 음량 크기를 조정할 때, 우선 조정된 조정할 필드의 폰트 크기를 결정한 다음, 기설정된 폰트 크기와 음량 크기의 대응 관계에 따라, 조정된 조정할 필드의 폰트 크기에 대응되는 음량을 결정하며, 마지막으로, 상기 조정할 필드에 대응되는 오디오의 음량 크기를 상기 조정할 필드에 대응되는 오디오의 음량으로 설정함으로써, 음량 조정을 구현할 수 있다. 여기서, 상기 기설정된 폰트 크기와 음량 크기의 대응 관계에서, 폰트가 클수록, 음량이 커진다.

예시적으로, 조정된 조정할 필드의 폰트 크기가 4이고, 폰트 크기 4에 대응되는 음량은 60 데시벨이라고 가정하면, 상응하게, 상기 조정할 필드에 대응되는 오디오의 음량 크기를 상기 60 데시벨로 설정할 수 있다. 이로써, 사용자는 텍스트 폰트 크기를 조정하는 것만으로, 대응되는 오디오의 음량 크기를 상응하게 제어하고 조정하여, 오디오 음량 조정의 과정을 더욱 간편하게 함으로써, 조정 효율을 향상시킬 수 있다.

또한, 본 발명의 실시예는 폰트 크기를 조정하기 위한 곡선을 미리 설정할 수도 있다. 상응하게, 사용자는 처리할 텍스트로부터 폰트 크기를 조정해야 하는 조정할 필드를 선택한 다음, 상기 곡선의 형상을 조정함으로써, 제2 입력에 의한 입력을 구현할 수 있다. 또한, 폰트 크기를 조정할 때, 조정된 곡선의 각 부분의 높이에 따라, 순차적으로 조정할 필드에 포함된 각 폰트의 크기를 조정하고; 여기서, 각 부분의 높이는 상기 폰트 크기에 비례하거나, 반비례할 수 있다. 이로써, 사용자는 곡선 형상을 조정하는 것만으로, 대응되는 오디오 세그먼트의 음량 크기를 구현할 수 있다. 동시에, 곡선 형상의 다양성에 의해, 처리할 필드에 대응되는 오디오 세그먼트의 음량 크기는 다양한 가능성을 가지며, 예를 들어, 사용자는 곡선을 물결 모양으로 조정하여, 조정할 필드에 대응되는 음량이 높았다 낮았다 하도록 제어함으로써, 오디오의 재미를 향상시킬 수 있다.

단계 204에서, 상기 처리할 필드에 대한 제2 입력을 수신한다.

구체적으로, 본 단계의 실시형태는 전술한 단계 104를 참조할 수 있으며, 본 발명의 실시예는 이에 대해 한정하지 않는다.

단계 205에서, 상기 제2 입력에 따라, 상기 처리할 필드를 편집하여, 타깃 필드를 획득한다.

본 발명의 실시예에서, 상기 제2 입력이 삭제 입력이면, 사용자가 처리할 필드를 삭제하고자 하는 것으로 인식할 수 있으므로, 상기 처리할 필드를 삭제하고, 삭제 후 획득한 블랭크 필드를 상기 타깃 필드로 결정할 수 있다.

또한, 상기 제2 입력이 대체 입력이면, 사용자가 처리할 필드를 대체하고자 하는 것으로 인식할 수 있으므로, 상기 제2 입력에 대응되는 대체할 필드를 획득하고; 상기 처리할 필드를 삭제하고 상기 처리할 필드의 위치에 상기 대체할 필드를 추가하여, 상기 타깃 필드를 획득할 수 있다. 여기서, 제2 입력에 대응되는 대체할 필드를 획득하는 것은, 제2 입력에 포함된 필드를 추출하여, 상기 필드를 대체할 필드로 사용하는 것일 수 있고, 제2 입력에 포함된 음성을 추출하고, 음성을 문자로 변환하는 방법에 따라 상기 음성에 대응되는 문자를 획득하여, 획득한 문자를 대체할 필드로 사용하는 것일 수도 있다.

또한, 상기 제2 입력이 증가 입력이면, 사용자가 처리할 필드에 새로운 필드를 추가하고자 하는 것으로 인식할 수 있으므로, 상기 제2 입력에 대응되는 증가할 필드를 획득하고; 상기 처리할 필드의 위치에 상기 증가할 필드를 추가하여, 상기 타깃 필드를 획득할 수 있다. 본 발명의 실시예에서, 제2 입력에 대응되는 증가할 필드를 획득하는 것은, 제2 입력에 포함된 필드를 추출하여, 상기 필드를 증가할 필드로 사용하는 것일 수 있고, 제2 입력에 포함된 음성을 추출하고, 음성을 문자로 변환하는 방법에 따라 상기 음성에 대응되는 문자를 획득하여, 획득한 문자를 증가할 필드로 사용하는 것일 수도 있다. 본 발명의 실시예에서, 상이한 제2 입력에 따라, 상응한 편집 조작을 수행함으로써, 사용자의 다양한 보정 요구를 만족시키고, 오디오 보정 효과를 향상시킬 수 있다.

설명해야 할 것은, 표시되는 처리할 필드에 기설정된 표기를 추가하고, 처리할 필드에 대응되는 표시 위치에 따라, 대체할 필드 또는 증가할 필드를 표시할 수도 있다. 구체적으로, 기설정된 표기는 처리할 필드에 대해 수행하는 구체적인 편집 조작을 반영하는 표기일 수 있고, 상이한 편집 조작에 대응되는 기설정된 표기는 다르다. 예시적으로, 편집 조작이 처리할 필드를 삭제하는 것이면, 기설정된 표기는 처리할 필드에 추가되는 삭제선일 수 있고, 처리할 필드에 상기 필드가 삭제된 것을 나타내는 문자 표기를 추가할 수도 있다. 편집 조작이 처리할 필드를 대체하는 것이면, 기설정된 표기는 처리할 필드에 추가되는 밑줄일 수 있고, 처리할 필드에 상기 필드가 대체됨을 나타내는 문자 표기를 추가하고, 처리할 필드 옆에 대체할 필드를 표시할 수도 있으며, 구체적인 표시 위치는 실제 상황에 따라 설정할 수 있다. 편집 조작이 처리할 필드의 위치에 필드를 증가하는 것이면, 기설정된 표기는 처리할 필드에 대응되는 위치에 화살표와 같은 필드 증가 표기를 추가하여, 상기 위치에 필드를 추가하도록 지시할 수 있다. 동시에 추가되는 증가할 필드를 표시할 수 있어, 사용자는 구체적으로 어떤 필드가 추가되었는지 편리하게 확인할 수 있다. 구체적인 표기 방식은 다양할 수 있고, 본 발명의 실시예는 이에 대해 한정하지 않는다. 처리할 필드에 기설정된 표기를 추가하여, 사용자는 보정된 처리할 필드의 위치, 및 구체적으로 이에 수행된 편집 조작을 더욱 명확하게 확인할 수 있다.

또한, 표시 위치는 실제 요구에 따라 미리 설정될 수 있고, 예시적으로, 상기 표시 위치는 삭제할 필드의 아래일 수 있다. 이로써, 삭제할 필드에 대응되는 표시 위치에 대체할 필드 또는 증가할 필드를 표시하여, 사용자가 구체적으로 보정된 내용을 신속하게 확인하기 편리하므로, 사용자가 추후 검사하기 편리할 수 있다.

예시적으로, 도 2d는 본 발명의 실시예에서 제공되는 처리할 텍스트를 편집하는 예시를 나타내는 모식도이다. 도 2d에 도시된 바와 같이, 처리할 필드는 “날 눈물 흘리게 하는 건”이고, 제2 입력이 삭제 입력이면, 처리할 필드를 삭제하고, 즉, “날 눈물 흘리게 하는 건”에 삭제선을 추가하고 삭제한다.

도 2e는 본 발명의 실시예에서 제공되는 처리할 텍스트를 편집하는 다른 예시를 나타내는 모식도이다. 도 2e에 도시된 바와 같이, 처리할 필드는 “눈물”이고, 제2 입력이 대체 입력이면, 처리할 필드를 삭제하고 대체할 필드를 표시하며, 즉, “눈물”에 삭제선을 추가하고, 처리할 필드 아래의 “침”을 대체할 필드로 한다.

도 2f는 본 발명의 실시예에서 제공되는 처리할 텍스트를 편집하는 또 다른 예시를 나타내는 모식도이다. 도 2f에 도시된 바와 같이, 처리할 필드에 의해 지시되는 위치는 “날”과 “눈물”사이이고, 제2 입력이 증가 입력이면, 화살표를 사용하여 처리할 필드의 위치를 표시하고, 화살표 아래의 “오늘”을 증가할 필드로 한다.

단계 206에서, 상기 타깃 필드에 대응되는 오디오를 상기 타깃 오디오 세그먼트로 결정한다.

구체적으로, 우선 텍스트에 대해 언어 분석을 수행하여 타깃 필드를 단어로 분할한 다음, 분할된 단어에 따라, 음성 합성 베이스로부터 매칭되는 필드에 대응되는 오디오 파형 세그먼트를 추출하고, 각 단어에 대응되는 오디오 파형 세그먼트를 합성하여, 상기 텍스트에 대응되는 오디오 세그먼트를 획득한다. 처리할 오디오에서 타깃 필드와 동일한 필드가 존재하는지 여부를 검색할 수도 있으며, 존재한다면, 상기 동일한 필드에 대응되는 오디오 세그먼트를 추출하여, 타깃 필드에 대응되는 오디오로 사용함으로써, 타깃 오디오 세그먼트를 획득한다.

단계 207에서, 상기 타깃 오디오 세그먼트에 따라, 상기 처리할 필드에 대응되는 재생 시간대 위치의 오디오 세그먼트를 보정하여, 타깃 오디오를 획득한다.

구체적으로, 본 단계에서 우선 각 필드에 대응되는 재생 시간대로부터 처리할 필드에 대응되는 재생 시간대를 획득하고, 다음으로, 상기 처리할 오디오에 대응되는 오디오 파형도를 획득하며, 마지막으로, 오디오 파형도에서 처리할 필드에 대응되는 재생 시간대의 대응 파장 대역을 타깃 오디오 세그먼트에 대응되는 오디오 파장 대역으로 보정하여, 타깃 오디오를 획득한다.

여기서, 처리할 필드에 대응되는 재생 시간대를 획득할 때, 각 필드로부터 상기 처리할 필드를 조회한 다음, 상기 처리할 필드에 대응되는 재생 시간대를 판독한다. 처리할 오디오에 대응되는 오디오 파형도를 획득할 때, 진동 주파수와 같은 오디오에 포함된 특징을 추출하여, 정규화 처리 등과 같이 상기 특징을 처리하고, 재생 시간에 따라 오디오 특징을 표시하는 파형도를 획득한다.

또한, 오디오 파형도에서 처리할 필드에 대응되는 재생 시간대의 대응 파장 대역을 타깃 오디오 세그먼트에 대응되는 블랭크 파장 대역으로 보정할 때, 상기 블랭크 파장 대역을 사용하여 상기 대응 파장 대역을 대체하여, 보정을 구현할 수 있다. 또는, 직접적으로 상기 대응 파장 대역을 삭제하여, 보정을 구현할 수도 있다. 설명해야 할 것은, 삭제할 때, 상기 대응 파장 대역의 파형 표시를 제거하고, 이를 직선으로 변경하여, 음성이 삭제되었음을 표시할 수 있다.

타깃 필드가 대체할 필드이면, 타깃 오디오 세그먼트에 대응되는 오디오 파장 대역을 사용하여 직접 상기 대응 파장 대역을 대체할 수 있고, 우선 상기 대응 파장 대역을 삭제한 다음, 삭제된 위치에 타깃 오디오 세그먼트에 대응되는 오디오 파장 대역에서 대체할 필드에 대응되는 오디오 파장 대역을 추가할 수도 있다. 타깃 필드가 증가할 필드이면, 타깃 오디오 세그먼트에 대응되는 오디오 파장 대역을 사용하여 직접 상기 대응 파장 대역을 대체할 수 있고, 처리할 필드에 대응되는 재생 시간대에 따라 오디오 파형도의 대응 파장 대역의 위치에, 타깃 오디오 세그먼트에 대응되는 오디오 파장 대역에서 증가할 필드에 대응되는 오디오 파장 대역을 추가하여, 합성하여 획득된 오디오 파장 대역을 타깃 오디오로 사용할 수도 있다. 이로써, 오디오 파형도에서 처리할 오디오의 파장 대역을 상응하게 보정함으로써, 처리할 오디오에 대한 보정을 구현하여, 보정 과정을 더욱 정확하게 할 수 있어, 보정의 정확도를 향상시킬 수 있다.

설명해야 할 것은, 전자 기기는 오디오 파형도를 획득한 이후에, 아래 조작을 수행할 수도 있다.

상기 처리할 오디오에 대응되는 오디오 파형도를 표시하고; 상기 오디오 파형도에서 상기 처리할 필드에 대응되는 재생 시간대의 대응 파장 대역을 표기한다. 여기서, 표기는 대응 파장 대역을 상이한 컬러로 채우거나, 대응 파장 대역의 위치에 마킹을 추가할 수도 있으며, 구체적인 표기 방식에 대해 본 발명의 실시예는 한정하지 않는다. 이로써, 처리할 오디오에 대응되는 오디오 파형도를 표시하고, 오디오 파형도에서 처리할 필드에 대응되는 파장 대역을 표기하여, 사용자는 보정된 오디오 파장 대역을 검색하기 편리할 수 있다.

설명해야 할 것은, 오디오 파장 대역을 보정하기 이전에, 처리할 오디오를 처리하여, 처리할 오디오 중의 사람 음성과 배경 음악을 분리한 다음, 처리할 오디오 중의 사람 음성을 추출하고, 상기 사람 음성에 대응되는 오디오 파장 대역에 대해 상응하게 보정을 수행하며, 마지막으로, 보정된 사람 음성과 배경 음악을 합성하여, 타깃 오디오를 획득할 수도 있다. 이로써, 사람 음성에 대해서만 보정하고, 오디오 중의 배경 음악을 보류하여, 오디오의 보정 정도를 크게 줄여, 보정된 오디오를 더욱 자연스럽고 일관되게 할 수 있다.

상기 내용을 종합해보면, 본 발명의 실시예에서 제공되는 오디오 처리 방법은, 우선 처리할 오디오에 대응되는 텍스트 정보를 획득하되, 텍스트 정보는 처리할 텍스트 및 처리할 텍스트 중 각 필드에 대응되는 재생 시간대를 포함하고, 그 다음, 처리할 텍스트에 대한 제1 입력을 수신하고, 상기 제1 입력에 응답하여, 제1 입력에 의해 지시되는 필드에 따라, 처리할 텍스트 중의 처리할 필드를 결정하며, 다음으로, 처리할 필드에 대한 제2 입력을 수신하고, 상기 제2 입력에 따라, 처리할 필드를 편집하여, 타깃 필드를 획득하고, 타깃 필드에 대응되는 오디오를 타깃 오디오 세그먼트로 결정하며, 마지막으로, 타깃 오디오 세그먼트에 따라, 처리할 필드에 대응되는 재생 시간대 위치의 오디오 세그먼트를 보정하여, 타깃 오디오를 획득한다. 이로써, 상이한 제2 입력에 따라 상응한 편집 조작을 수행함으로써, 사용자의 다양한 보정 요구를 만족시키고, 오디오의 보정 효과를 향상시킬 수 있다. 동시에, 사용자는 프로그레스 바를 수동으로 조정할 필요 없이, 오디오에 대한 보정을 구현할 수 있으므로, 오디오 처리 효율을 향상시킬 수 있다.

도 3은 본 발명의 오디오 처리 방법의 또 다른 실시예의 단계를 나타내는 흐름도이다. 상기 방법은 전자 기기에 적용될 수 있으며, 도 3에 도시된 바와 같이, 상기 방법은 단계 301 내지 단계 307를 포함할 수 있다.

단계 301에서, 처리할 오디오에 대응되는 텍스트 정보를 획득하되, 상기 텍스트 정보는 처리할 텍스트 및 상기 처리할 텍스트 중 각 필드에 대응되는 재생 시간대를 포함한다.

구체적으로, 본 단계의 실시형태는 전술한 단계 201를 참조할 수 있으며, 본 발명의 실시예는 이에 대해 한정하지 않는다.

단계 302에서, 상기 처리할 텍스트에 대한 제1 입력을 수신한다.

구체적으로, 본 단계의 실시형태는 전술한 단계 202를 참조할 수 있으며, 본 발명의 실시예는 이에 대해 한정하지 않는다.

단계 303에서, 상기 제1 입력에 응답하여, 상기 제1 입력에 의해 지시되는 필드에 따라, 상기 처리할 텍스트 중의 처리할 필드를 결정한다.

구체적으로, 본 단계의 실시형태는 전술한 단계 203을 참조할 수 있으며, 본 발명의 실시예는 이에 대해 한정하지 않는다.

단계 304에서, 상기 처리할 필드에 대한 제2 입력을 수신한다.

단계 305에서, 상기 제2 입력에 구비되는 오디오 세그먼트를 추출한다.

본 발명의 실시예에서, 제2 입력은 오디오 녹음 조작일 수 있고, 상응하게, 제2 입력에 구비되는 오디오 세그먼트는 사용자가 녹음한 음성 세그먼트일 수 있다. 제2 입력은 오디오 업로드 조작일 수도 있고, 상응하게, 제2 입력에 구비되는 오디오 세그먼트는 사용자가 선택하여 업로드하는 오디오 세그먼트일 수도 있다.

단계 306에서, 상기 오디오 세그먼트를 상기 타깃 오디오 세그먼트로 결정한다.

본 발명의 실시예에서, 제2 입력은 종종 처리할 필드에 대응되는 오디오 세그먼트에 대한 사용자의 보정 요구에 따라 수행하게 되고, 즉, 제2 입력에 구비되는 오디오 세그먼트가 바로 사용자가 최종적으로 원하는 오디오 세그먼트이다. 따라서, 상기 오디오 세그먼트를 직접 타깃 오디오 세그먼트로 결정할 수 있다.

설명해야 할 것은, 본 발명의 실시예에서, 입력되는 오디오 세그먼트를 타깃 오디오 세그먼트로 결정하기 이전에, 사용자에게 입력되는 오디오 세그먼트를 처리할지 여부를 프롬프트하고, 처리한다면, 사용자 조작에 따라 입력되는 오디오 세그먼트를 잘라내고, 잘라낸 오디오 세그먼트를 타깃 오디오 세그먼트로 사용할 수도 있다. 이로써, 사용자에게 입력되는 오디오 세그먼트를 처리할지 여부를 프롬프트하여, 타깃 오디오 세그먼트의 품질을 더욱 향상시킬 수 있다.

단계 307에서, 상기 타깃 오디오 세그먼트에 따라, 상기 처리할 필드에 대응되는 재생 시간대 위치의 오디오 세그먼트를 보정하여, 타깃 오디오를 획득한다.

구체적으로, 본 단계의 실시형태는 전술한 단계 207을 참조할 수 있으며, 본 발명의 실시예는 이에 대해 한정하지 않는다.

상기 내용을 종합해보면, 본 발명의 실시예에서 제공되는 오디오 처리 방법은, 우선 처리할 오디오에 대응되는 텍스트 정보를 획득하되, 텍스트 정보는 처리할 텍스트 및 처리할 텍스트 중 각 필드에 대응되는 재생 시간대를 포함하고, 그 다음, 처리할 텍스트에 대한 제1 입력을 수신하고, 상기 제1 입력에 응답하여, 제1 입력에 의해 지시되는 필드에 따라, 처리할 텍스트 중의 처리할 필드를 결정하며, 다음으로, 처리할 필드에 대한 제2 입력을 수신하고, 상기 제2 입력에 구비되는 오디오 세그먼트를 추출하여, 오디오 세그먼트를 타깃 오디오 세그먼트로 결정하며, 마지막으로, 타깃 오디오 세그먼트에 따라, 처리할 필드에 대응되는 재생 시간대 위치의 오디오 세그먼트를 보정하여, 타깃 오디오를 획득한다. 이로써, 제2 입력에 구비되는 오디오 세그먼트를 직접 추출하여, 간편하게 타깃 오디오 세그먼트를 획득할 수 있으므로, 처리 효율을 향상시킬 수 있다. 동시에, 사용자가 프로그레스 바를 수동으로 조정할 필요 없이, 오디오에 대한 보정을 구현할 수 있으므로, 오디오 처리 효율을 더욱 향상시킬 수 있다.

앞에서 본 발명의 실시예에서 제공되는 오디오 처리 방법을 설명하였고, 아래에서 첨부된 도면을 참조하여 본 발명의 실시예에서 제공되는 전자 기기를 설명한다.

도 4를 참조하면, 본 발명의 실시예는 전자 기기를 더 제공하고, 도 4에 도시된 바와 같이, 상기 전자 기기(40)는,

처리할 오디오에 대응되는 텍스트 정보를 획득하되, 상기 텍스트 정보는 처리할 텍스트 및 상기 처리할 텍스트 중 각 필드에 대응되는 재생 시간대를 포함하는 제1 획득 모듈(401);

상기 처리할 텍스트에 대한 제1 입력을 수신하는 제1 수신 모듈(402);

상기 제1 입력에 응답하여, 상기 제1 입력에 의해 지시되는 필드에 따라, 상기 처리할 텍스트 중의 처리할 필드를 결정하는 제1 결정 모듈(403);

상기 처리할 필드에 대한 제2 입력을 수신하는 제2 수신 모듈(404);

상기 제2 입력에 따라, 타깃 오디오 세그먼트를 획득하는 제2 획득 모듈(405); 및

상기 타깃 오디오 세그먼트에 따라, 상기 처리할 필드에 대응되는 재생 시간대 위치의 오디오 세그먼트를 보정하여, 타깃 오디오를 획득하는 제2 결정 모듈(406)을 포함할 수 있다.

상기 내용을 종합해보면, 본 발명의 실시예에서 제공되는 전자 기기는, 우선 처리할 오디오에 대응되는 텍스트 정보를 획득하되, 텍스트 정보는 처리할 텍스트 및 처리할 텍스트 중 각 필드에 대응되는 재생 시간대를 포함하고, 그 다음, 처리할 텍스트에 대한 제1 입력을 수신하고, 상기 제1 입력에 응답하여, 제1 입력에 의해 지시되는 필드에 따라, 처리할 텍스트 중의 처리할 필드를 결정하며, 다음으로, 처리할 필드에 대한 제2 입력을 수신하고, 상기 제2 입력에 응답하여, 타깃 오디오 세그먼트를 획득하며, 마지막으로, 타깃 오디오 세그먼트에 따라, 처리할 필드에 대응되는 재생 시간대 위치의 오디오 세그먼트를 보정하여, 타깃 오디오를 획득한다. 이로써, 프로그레스 바를 수동으로 조정할 필요 없이, 오디오에 대한 보정을 구현할 수 있으므로, 오디오 처리 효율을 향상시킬 수 있다.

선택 가능하게, 상기 제2 획득 모듈(405)은,

상기 제2 입력에 따라, 상기 처리할 필드를 편집하여, 타깃 필드를 획득하고, 상기 타깃 필드에 대응되는 오디오를 상기 타깃 오디오 세그먼트로 결정하며; 또는,

상기 제2 입력에 구비되는 오디오 세그먼트를 추출하고, 상기 오디오 세그먼트를 상기 타깃 오디오 세그먼트로 결정한다.

선택 가능하게, 상기 제2 획득 모듈(405)은 또한,

상기 제2 입력이 삭제 입력이면, 상기 처리할 필드를 삭제하고, 삭제 후 획득한 블랭크 필드를 상기 타깃 필드로 결정하고;

상기 제2 입력이 대체 입력이면, 상기 제2 입력에 대응되는 대체할 필드를 획득하며, 상기 처리할 필드를 삭제하고 상기 처리할 필드의 위치에 상기 대체할 필드를 추가하여, 상기 타깃 필드를 획득하며;

상기 제2 입력이 증가 입력이면, 상기 제2 입력에 대응되는 증가할 필드를 획득하고, 상기 처리할 필드의 위치에 상기 증가할 필드를 추가하여, 상기 타깃 필드를 획득한다.

선택 가능하게, 상기 전자 기기(40)는,

기설정된 화면을 표시하고, 상기 기설정된 화면에 상기 처리할 텍스트를 전부 표시하며; 또는, 상기 처리할 비디오의 각 비디오 화면을 표시하되, 상기 비디오 화면에 상기 비디오 화면에 대응되는 처리할 텍스트를 표시하는 제1 표시 모듈을 더 포함한다.

상기 제1 수신 모듈(402)은 또한,

표시되는 처리할 텍스트에 대한 선택 입력을 수신한다.

선택 가능하게, 상기 전자 기기(40)는,

표시되는 상기 처리할 필드에 기설정된 표기를 추가하고, 상기 처리할 필드에 대응되는 표시 위치에 따라, 상기 대체할 필드 또는 증가할 필드를 표시하는 제2 표시 모듈을 더 포함한다.

선택 가능하게, 상기 제2 결정 모듈(406)은,

상기 각 필드에 대응되는 재생 시간대로부터 상기 처리할 필드에 대응되는 재생 시간대를 획득하고;

상기 처리할 오디오에 대응되는 오디오 파형도를 획득하며;

상기 오디오 파형도에서 상기 처리할 필드에 대응되는 재생 시간대의 대응 파장 대역을 상기 타깃 오디오 세그먼트에 대응되는 오디오 파장 대역으로 보정하여, 상기 타깃 오디오를 획득한다.

선택 가능하게, 상기 전자 기기(40)는,

상기 처리할 텍스트에 대한 제3 입력을 수신하는 제3 수신 모듈;

상기 제3 입력에 응답하여, 상기 제3 입력에 의해 지시되는 조정할 필드의 폰트 크기를 조정하여, 조정된 조정할 필드를 획득하는 제1 조정 모듈; 및

상기 조정된 조정할 필드의 폰트 크기에 따라, 상기 조정할 필드에 대응되는 오디오의 음량 크기를 조정하되, 상기 조정된 조정할 필드의 폰트가 클수록, 상기 조정할 필드에 대응되는 오디오의 음량이 커지는 제2 조정 모듈을 더 포함한다.

선택 가능하게, 상기 제1 획득 모듈(401)은,

상기 처리할 오디오에 매칭되는 자막 파일이 존재하는지 여부를 검출하되, 상기 자막 파일은 자막 텍스트 및 상기 자막 텍스트 중 각 필드에 대응되는 재생 시간대를 포함하고;

상기 처리할 오디오에 매칭되는 자막 파일이 존재하면, 상기 자막 파일을 상기 처리할 오디오에 대응되는 텍스트 정보로 하며;

상기 처리할 오디오에 매칭되는 자막 파일이 존재하지 않으면, 상기 처리할 오디오에 포함된 오디오를 텍스트로 변환하고, 상기 처리할 오디오에서 재생되는 오디오 세그먼트의 시간 정보에 따라, 상기 텍스트 중 각 필드에 대응되는 재생 시간대를 생성하되, 상기 텍스트와 상기 텍스트 중 각 필드에 대응되는 재생 시간대를 상기 처리할 오디오에 대응되는 텍스트 정보로 한다.

상기 내용을 종합해보면, 본 발명의 실시예에서 제공되는 전자 기기는, 우선 처리할 오디오에 대응되는 텍스트 정보를 획득하되, 텍스트 정보는 처리할 텍스트 및 처리할 텍스트 중 각 필드에 대응되는 재생 시간대를 포함하고, 그 다음, 처리할 텍스트에 대한 제1 입력을 수신하고, 상기 제1 입력에 응답하여, 제1 입력에 의해 지시되는 필드에 따라, 처리할 텍스트 중의 처리할 필드를 결정하며, 다음으로, 처리할 필드에 대한 제2 입력을 수신하고, 상기 제2 입력에 따라, 처리할 필드를 편집하여, 타깃 필드를 획득하며, 타깃 필드에 대응되는 오디오를 타깃 오디오 세그먼트로 결정하고, 마지막으로, 타깃 오디오 세그먼트에 따라, 처리할 필드에 대응되는 재생 시간대 위치의 오디오 세그먼트를 보정하여, 타깃 오디오를 획득한다. 이로써, 상이한 제2 입력에 따라 상응한 편집 조작을 수행함으로써, 사용자의 다양한 보정 요구를 만족시키고, 오디오의 보정 효과를 향상시킬 수 있다. 동시에, 사용자가 프로그레스 바를 수동으로 조정할 필요 없이, 오디오에 대한 보정을 구현할 수 있으므로, 오디오 처리 효율을 향상시킬 수 있다.

도 5는 본 발명의 전자 기기의 실시예의 하드웨어 구조를 나타내는 모식도이다.

상기 전자 기기(500)는 무선주파수 유닛(501), 네트워크 모듈(502), 오디오 출력 유닛(503), 입력 유닛(504), 센서(505), 디스플레이 유닛(506), 사용자 입력 유닛(507), 인터페이스 유닛(508), 메모리(509), 프로세서(510), 및 전원(511) 등 부재를 포함하지만 이에 한정되지 않는다. 본 기술분야의 통상의 기술자가 이해할 수 있는 것은, 도 5에 도시된 전자 기기의 구조는 전자 기기에 대한 한정이 아니며, 전자 기기는 도면에 도시된 것보다 더 많거나 적은 부재를 포함하거나, 특정 부재를 조합하거나, 상이한 부재로 배치될 수 있다. 본 발명의 실시예에서, 전자 기기는 휴대폰, 태블릿 PC, 노트북 컴퓨터, 개인 휴대 정보 단말기, 차량용 단말기, 웨어러블 기기, 보수계 등을 포함하지만 이에 한정되지 않는다.

여기서, 프로세서(510)는 처리할 오디오에 대응되는 텍스트 정보를 획득하되, 상기 텍스트 정보는 처리할 텍스트 및 상기 처리할 텍스트 중 각 필드에 대응되는 재생 시간대를 포함한다.

프로세서(510)는 상기 처리할 텍스트에 대한 제1 입력을 수신한다.

프로세서(510)는 상기 제1 입력에 응답하여, 상기 제1 입력에 의해 지시되는 필드에 따라, 상기 처리할 텍스트 중의 처리할 필드를 결정한다.

프로세서(510)는 상기 처리할 필드에 대한 제2 입력을 수신한다.

프로세서(510)는 상기 제2 입력에 응답하여, 타깃 오디오 세그먼트를 획득한다.

프로세서(510)는 상기 타깃 오디오 세그먼트에 따라, 상기 처리할 필드에 대응되는 재생 시간대 위치의 오디오 세그먼트를 보정하여, 타깃 오디오를 획득한다.

상기 내용을 종합해보면, 본 발명의 실시예에서 제공되는 전자 기기는, 우선 처리할 오디오에 대응되는 텍스트 정보를 획득하되, 여기서, 텍스트 정보는 처리할 텍스트 및 처리할 텍스트 중 각 필드에 대응되는 재생 시간대를 포함하고, 그 다음, 처리할 텍스트에 대한 제1 입력을 수신하고, 상기 제1 입력에 응답하여, 제1 입력에 의해 지시되는 필드에 따라, 처리할 텍스트 중의 처리할 필드를 결정하며, 다음으로, 처리할 필드에 대한 제2 입력을 수신하고, 상기 제2 입력에 응답하여, 타깃 오디오 세그먼트를 획득하며, 마지막으로, 타깃 오디오 세그먼트에 따라, 처리할 필드에 대응되는 재생 시간대 위치의 오디오 세그먼트를 보정하여, 타깃 오디오를 획득한다. 이로써, 프로그레스 바를 수동으로 조정할 필요 없이, 오디오에 대한 보정을 구현할 수 있으므로, 오디오 처리 효율을 향상시킬 수 있다.

선택 가능하게, 프로세서(510)는,

상기 제2 입력에 따라, 상기 처리할 필드를 편집하여, 타깃 필드를 획득하고; 상기 타깃 필드에 대응되는 오디오를 상기 타깃 오디오 세그먼트로 결정하며; 또는,

상기 제2 입력에 구비되는 오디오 세그먼트를 추출하고; 상기 오디오 세그먼트를 상기 타깃 오디오 세그먼트로 결정한다.

선택 가능하게, 프로세서(510)는 또한,

상기 제2 입력이 대체 입력이면, 상기 제2 입력에 대응되는 대체할 필드를 획득하고; 상기 처리할 필드를 삭제하고 상기 처리할 필드의 위치에 상기 대체할 필드를 추가하여, 상기 타깃 필드를 획득하며;

상기 제2 입력이 증가 입력이면, 상기 제2 입력에 대응되는 증가할 필드를 획득하고; 상기 처리할 필드의 위치에 상기 증가할 필드를 추가하여, 상기 타깃 필드를 획득한다.

선택 가능하게, 디스플레이 유닛(506)은,

기설정된 화면을 표시하고, 상기 기설정된 화면에 상기 처리할 텍스트를 전부 표시하거나; 또는, 상기 처리할 비디오의 각 비디오 화면을 표시하며; 상기 비디오 화면에 상기 비디오 화면에 대응되는 처리할 텍스트를 표시한다.

상응하게, 사용자 입력 유닛(507)은 표시되는 처리할 텍스트에 대한 선택 입력을 수신한다.

선택 가능하게, 프로세서(510)는,

상기 처리할 오디오에 대응되는 오디오 파형도를 획득하며;

선택 가능하게, 사용자 입력 유닛(507)은,

상기 처리할 텍스트에 대한 제3 입력을 수신한다.

프로세서(510)는,

상기 제3 입력에 응답하여, 상기 제3 입력에 의해 지시되는 조정할 필드의 폰트 크기를 조정하여, 조정된 조정할 필드를 획득하고;

상기 조정된 조정할 필드의 폰트 크기에 따라, 상기 조정할 필드에 대응되는 오디오의 음량 크기를 조정하고; 여기서, 상기 조정된 조정할 필드의 폰트가 클수록, 상기 조정할 필드에 대응되는 오디오의 음량이 커진다.

선택 가능하게, 프로세서(510)는,

상기 처리할 오디오에 매칭되는 자막 파일이 존재하는지 여부를 검출하고; 상기 자막 파일은 자막 텍스트 및 상기 자막 텍스트 중 각 필드에 대응되는 재생 시간대를 포함하며;

상기 처리할 오디오에 매칭되는 자막 파일이 존재하지 않으면, 상기 처리할 오디오에 포함된 오디오를 텍스트로 변환하고, 상기 처리할 오디오에서 재생되는 오디오 세그먼트의 시간 정보에 따라, 상기 텍스트 중 각 필드에 대응되는 재생 시간대를 생성하며; 상기 텍스트와 상기 텍스트 중 각 필드에 대응되는 재생 시간대를 상기 처리할 오디오에 대응되는 텍스트 정보로 한다.

이해해야 할 것은, 본 발명의 실시예에서, 무선주파수 유닛(501)은 정보 송수신 또는 통화 중에 신호를 송수신하는 데 사용될 수 있고, 구체적으로, 기지국으로부터의 다운링크 데이터를 수신한 후 프로세서(510)에 제공하여 처리하도록 하며; 이 밖에, 업링크의 데이터를 기지국에 송신한다. 일반적으로, 무선주파수 유닛(501)은 안테나, 적어도 하나의 증폭기, 트랜시버, 커플러, 저잡음 증폭기, 듀플렉서 등을 포함하지만 이에 한정되지 않는다. 또한, 무선주파수 유닛(501)은 또한 무선 통신 시스템을 통해 네트워크 및 다른 기기와 통신할 수 있다.

전자 기기는 사용자를 도와 전자 이메일을 송수신하고, 웹 페이지를 열람하며 스트리밍 미디어에 액세스하는 것과 같이 네트워크 모듈(502)을 통해 사용자에게 무선 광대역 인터넷 액세스를 제공한다.

오디오 출력 유닛(503)은 무선주파수 유닛(501) 또는 네트워크 모듈(502)에 의해 수신되거나 메모리(509)에 저장된 오디오 데이터를 오디오 신호로 변환하여 소리로 출력할 수 있다. 또한, 오디오 출력 유닛(503)은 전자 기기(500)에서 수행되는 특정 기능과 관련된 오디오 출력(예를 들어, 호출 신호 수신음, 메시지 수신음 등)도 제공할 수 있다. 오디오 출력 유닛(503)은 스피커, 버저, 리시버 등을 포함한다.

입력 유닛(504)은 오디오 또는 비디오 신호를 수신하는 데 사용된다. 입력 유닛(504)은 그래픽 처리장치(Graphics Processing Unit, GPU)(5041) 및 마이크(5042)를 포함할 수 있고, 그래픽 처리장치(5041)는 비디오 캡처 모드 또는 이미지 캡처 모드에서 이미지 캡처 장치(예를 들어, 카메라)에 의해 획득된 정지 사진 또는 비디오 이미지 데이터를 처리한다. 처리된 이미지 프레임은 디스플레이 유닛(506)에 표시될 수 있다. 그래픽 처리장치(5041)에 의해 처리된 이미지 프레임은 메모리(509)(또는 다른 저장 매체)에 저장되거나 무선주파수 유닛(501) 또는 네트워크 모듈(502)을 통해 송신될 수 있다. 마이크(5042)는 소리를 수신할 수 있고, 이러한 소리를 오디오 데이터로 처리할 수 있다. 처리된 오디오 데이터는 통화 모드의 경우 무선주파수 유닛(501)을 통해 이동통신 기지국으로 전송될 수 있는 포맷으로 변환되어 출력될 수 있다.

전자 기기(500)는 광 센서, 모션 센서 및 기타 센서와 같은 적어도 하나의 센서(505)를 더 포함한다. 구체적으로, 광 센서는 주변 광 센서 및 근접 센서를 포함하되, 여기서 주변 광 센서는 주변 광의 밝기에 따라 디스플레이 패널(5061)의 밝기를 조절할 수 있고, 근접 센서는 전자 기기(500)가 귓가로 이동될 경우 디스플레이 패널(5061) 및/또는 백라이트를 끌 수 있다. 모션 센서의 일종으로 가속도 센서는 다양한 방향(일반적으로 3축)의 가속도의 크기를 감지할 수 있고 정지 상태일 때 중력의 크기와 방향을 감지할 수 있으며 전자 기기의 자세(예를 들어, 수평 및 수직 화면 변환, 관련 게임, 자력계 자세 보정) 인식, 진동 인식 관련 기능(예를 들어, 보수계, 탭핑) 등에 사용될 수 있고; 센서(505)는 지문 센서, 압력 센서, 홍채 센서, 분자 센서, 자이로스코프, 기압계, 습도계, 온도계, 적외선 센서 등을 더 포함할 수 있으며, 여기서 더 이상 반복 설명하지 않는다.

디스플레이 유닛(506)은 사용자에 의해 입력된 정보 또는 사용자에게 제공되는 정보를 표시하는 데 사용된다. 디스플레이 유닛(506)은 디스플레이 패널(5061)을 포함할 수 있고, 액정 디스플레이(Liquid Crystal Display, LCD)、 유기발광 다이오드(Organic Light-Emitting Diode, OLED) 등 형태를 사용하여 디스플레이 패널(5061)을 구성할 수 있다.

사용자 입력 유닛(507)은 입력된 숫자 또는 캐릭터 정보를 수신하고, 전자 기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 생성하는 데 사용될 수 있다. 구체적으로, 사용자 입력 유닛(507)은 터치 패널(5071) 및 다른 입력 기기(5072)를 포함한다. 터치 스크린이라고도 하는 터치 패널(5071)은 그 위 또는 근처에서의 사용자의 터치 조작(예를 들어, 사용자가 손가락, 스타일러스 등과 같은 임의의 적절한 물체 또는 액세서리를 사용하여 터치 패널(5071) 상에서 또는 터치 패널(5071) 근처에서 조작하는 것)을 수집할 수 있다. 터치 패널(5071)은 터치 감지 장치와 터치 컨트롤러 두 부분을 포함할 수 있다. 여기서, 터치 감지 장치는 사용자의 터치 방위를 감지하고 터치 조작에 의해 발생하는 신호를 감지하여 신호를 터치 컨트롤러로 전송하고; 터치 컨트롤러는 터치 감지 장치로부터 터치 정보를 수신하여 접촉점 좌표로 변환한 다음, 프로세서(510)로 송신하며, 프로세서(510)에 의해 송신된 명령을 수신하여 실행한다. 이 밖에, 저항성, 정전용량, 적외선, 탄성 표면파 등 다양한 형태로 터치 패널(5071)을 구현할 수 있다. 터치 패널(5071)을 제외하고, 사용자 입력 유닛(507)은 다른 입력 기기(5072)를 더 포함할 수 있다. 구체적으로, 다른 입력 기기(5072)는 물리적 키보드, 기능 키(예를 들어, 볼륨 제어 키, 스위치 키 등), 트랙볼, 마우스 및 조작 스틱을 포함할 수 있지만 이에 한정되지 않으며, 여기서 더 이상 반복 설명하지 않는다.

또한, 터치 패널(5071)은 디스플레이 패널(5061)에 커버될 수 있고 터치 패널(5071)은 그 위 또는 근처에서의 터치 조작을 감지한 후, 프로세서(510)로 전송하여 터치 이벤트의 유형을 결정하고, 잇따라 프로세서(510)는 터치 이벤트의 유형에 따라 디스플레이 패널(5061)에 해당하는 시각적 출력을 제공한다. 도 5에는 터치 패널(5071)과 디스플레이 패널(5061)을 두 개의 독립된 부재로 사용하여 전자 기기의 입력 및 출력 기능을 구현하는 것으로 도시되었지만, 일부 실시예에서는 터치 패널(5071)과 디스플레이 패널(5061)을 통합하여 전자 기기의 입력 및 출력 기능을 구현할 수 있으며, 구체적으로 여기서 한정하지 않는다.

인터페이스 유닛(508)은 외부 장치와 전자 기기(500)를 연결하는 인터페이스이다. 예를 들어, 외부 장치는 유선 또는 무선 헤드셋 포트, 외부 전원(또는 배터리 충전기) 포트, 유선 또는 무선 데이터 포트, 메모리 카드 포트, 인식 모듈을 가진 장치를 연결하기 위한 포트, 오디오 입력/출력(I/O) 포트, 비디오 I/O 포트, 헤드폰 포트 등을 포함할 수 있다. 인터페이스 유닛(508)은 외부 장치로부터의 입력(예를 들어, 데이터 정보, 전력 등)을 수신하고, 수신된 입력을 전자 기기(500) 내의 하나 이상의 소자로 전송하는 데 사용될 수 있거나, 전자 기기(500)와 외부 장치 사이에서 데이터를 전송하는 데 사용될 수 있다.

메모리(509)는 소프트웨어 프로그램 및 다양한 데이터를 저장하는 데 사용될 수 있다. 메모리(509)는 주로 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있으며, 여기서 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 필요한 애플리케이션(예를 들어, 소리 재생 기능, 이미지 재생 기능 등) 등을 저장할 수 있고; 데이터 저장 영역은 휴대폰의 사용에 따라 생성된 데이터(예를 들어, 오디오 데이터, 전화번호부 등) 등을 저장할 수 있다. 또한, 메모리(509)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 적어도 하나의 자기 디스크 저장 장치, 플래시 메모리 장치, 또는 다른 휘발성 고체 상태 저장 장치와 같은 비휘발성 메모리를 더 포함할 수 있다.

프로세서(510)는 전자 기기의 제어 센터로서, 다양한 인터페이스 및 회로를 이용하여 전체 전자 기기의 각 부분을 연결하며, 메모리(509)에 저장된 소프트웨어 프로그램 및/또는 모듈을 실행하거나 수행하고, 메모리(509)에 저장된 데이터를 호출함으로써 전자 기기의 다양한 기능 및 처리 데이터를 실행함으로써 전자 기기를 전체적으로 모니터링한다. 프로세서(510)는 하나 이상의 처리 유닛을 포함할 수 있고; 바람직하게는, 프로세서(510)는 애플리케이션 프로세서와 모뎀 프로세서를 통합할 수 있으며, 여기서 애플리케이션 프로세서는 주로 운영 체제, 사용자 인터페이스 및 애플리케이션 등을 처리하고, 모뎀 프로세서는 주로 무선 통신을 처리한다. 상술한 모뎀 프로세서는 프로세서(510)에 통합되지 않을 수 있음을 이해할 수 있을 것이다.

전자 기기(500)는 다양한 부재에 전기를 공급하기 위한 전원(511)(예를 들어, 배터리)을 더 포함할 수 있으며, 바람직하게는, 전원(511)은 전원 관리 시스템을 통해 프로세서(510)와 논리적으로 연결됨으로써 전원 관리 시스템을 통해 충전, 방전 및 전력 소모 관리 등의 기능을 구현한다.

이 밖에, 전자 기기(500)는 일부 도시되지 않은 기능 모듈을 포함하며 여기서 더 이상 반복 설명하지 않는다.

바람직하게는, 본 발명의 실시예는 전자 기기를 더 제공하며, 상기 전자 기기는, 프로세서(510), 메모리(509), 메모리(509)에 저장되고 상기 프로세서(510)에 의해 실행 가능한 오디오 처리 프로그램을 포함하며, 상기 오디오 처리 프로그램이 프로세서(510)에 의해 실행되면 상기 오디오 처리 방법 실시예의 각 과정이 구현되고, 동일한 기술적 효과를 달성할 수 있으며, 중복을 피하기 위해 여기서 더 이상 반복 설명하지 않는다.

본 발명의 실시예는 컴퓨터 판독 가능 저장 매체를 더 제공하며, 컴퓨터 판독 가능 저장 매체에는 오디오 처리 프로그램이 저장되고, 상기 오디오 처리 프로그램이 프로세서에 의해 실행되면 상기 오디오 처리 방법 실시예의 각 과정이 수행되고, 동일한 기술적 효과를 달성할 수 있으며, 중복을 피하기 위해 여기서 더 이상 반복 설명하지 않는다. 여기서, 상기 컴퓨터 판독 가능 저장 매체의 예시로는 판독 전용 메모리(Read-Only Memory, ROM), 랜덤 액세스 메모리(Random Access Memory, RAM), 자기 디스크 또는 광 디스크 등과 같은 비일시적 컴퓨터 판독 가능 저장 매체를 포함한다.

여기서 본 발명의 실시예에 따른 방법, 장치(시스템) 및 컴퓨터 프로그램 제품의 흐름도 및/또는 블록도를 참조하여 본 발명의 각 양태를 설명하였다. 반드시 이해해야 할 것은, 흐름도 및/또는 블록도의 각각의 블록 및 흐름도 및/또는 블록도에서 각 블록의 조합은 컴퓨터 프로그램 명령에 의해 구현된다. 이러한 컴퓨터 프로그램 명령은 범용 컴퓨터, 전용 컴퓨터 또는 다른 프로그래머블 데이터 처리 장치의 프로세서에 제공되어, 기계를 생산할 수 있도록 하여, 컴퓨터 또는 기타 프로그램 가능 데이터 처리 장치의 프로세서에 의해 수행되는 이러한 명령은 흐름도 및/또는 블록도의 하나 이상의 블록에서 지정된 기능/조작의 구현을 가능하게 한다. 이러한 프로세서는 범용 프로세서, 전용 프로세서, 특수 응용 프로세서 또는 현장 프로그램 가능한 로직 회로일 수 있으나 이에 한정되지 않는다. 또한, 블록도 및/또는 흐름도의 각 블록, 및 블록도 및/또는 흐름도에서 블록의 조합은 지정된 기능 또는 조작을 수행하는 전용 하드웨어에 의해 구현될 수 있거나 전용 하드웨어와 컴퓨터 명령을 조합하여 구현할 수도 있음에 유의해야 한다.

설명해야 할 것은, 본문에서, 용어 “포괄”, “포함” 또는 이들의 임의의 다른 변형은 비배타적인 포함을 포함하도록 의도되어 일련의 요소를 포함하는 프로세스, 방법, 물품 또는 장치가 그런 요소를 포함할 뿐만 아니라 명시적으로 나열되지 않은 다른 요소, 또는 그러한 프로세스, 방법, 물품 또는 장치의 고유한 요소를 더 포함하도록 의도된다. 추가적인 제한이 없는 경우, “하나의 …를 포함하는”이라는 문장으로 한정된 요소는 상기 요소를 포함하는 프로세스, 방법, 물품 또는 장치에 다른 동일한 요소가 존재하는 경우를 배제하지 않는다.

이상 실시형태의 설명을 통하여, 본 기술분야의 통상의 기술자는 상기 실시예 방법이 소프트웨어에 필수 범용 하드웨어 플랫폼을 추가하는 방식으로 구현될 수 있고, 물론 하드웨어로도 구현될 수 있음을 명확하게 이해할 수 있지만, 많은 상황에서 전자가 더 바람직한 실시형태이다. 이러한 이해에 기반해보면, 본 발명의 기술적 해결수단의 본질적으로 또는 선행 기술에 기여하는 부분은 소프트웨어 제품의 형태로 반영될 수 있고, 상기 컴퓨터 소프트웨어 제품은 저장 매체(예를 들어, ROM/RAM, 자기 디스크, 광 디스크)에 저장되고, 단말기(핸드폰, 컴퓨터, 서버, 에어컨 또는 네트워크 기기 등일 수 있음)가 본 발명의 다양한 실시예에 따른 방법을 구현하도록 하는 복수개의 명령을 포함한다.

상술한 바와 같이, 첨부된 도면을 참조하여 본 발명의 실시예에 대해 설명하였으나, 본 발명은 상기 구체적인 실시형태에 한정되지 않으며, 상기 구체적인 실시형태는 단지 예시적인 것일 뿐 한정된 것이 아니고, 본 기술분야의 통상의 기술자는 본 발명의 시사 하에 본 발명의 취지나 청구보호범위가 보호하고자 하는 범위를 벗어나지 않으면서 다양한 형태를 이룰 수 있으며 이들은 모두 본 발명의 보호 범위에 속한다.

Claims

전자 기기에 적용되고,
처리할 오디오에 대응되는 텍스트 정보를 획득하되, 상기 텍스트 정보는 처리할 텍스트 및 상기 처리할 텍스트 중 각 필드에 대응되는 재생 시간대를 포함하는 단계;
상기 처리할 텍스트에 대한 제1 입력을 수신하는 단계;
상기 제1 입력에 응답하여, 상기 제1 입력에 의해 지시되는 필드에 따라, 상기 처리할 텍스트 중의 처리할 필드를 결정하는 단계;
상기 처리할 필드에 대한 제2 입력을 수신하는 단계;
상기 제2 입력에 따라, 타깃 오디오 세그먼트를 획득하는 단계; 및
상기 타깃 오디오 세그먼트에 따라, 상기 처리할 필드에 대응되는 재생 시간대 위치의 오디오 세그먼트를 보정하여, 타깃 오디오를 획득하는 단계;를 포함하는 오디오 처리 방법.
제1항에 있어서,
상기 제2 입력에 따라, 타깃 오디오 세그먼트를 획득하는 단계는,
상기 제2 입력에 따라, 상기 처리할 필드를 편집하여, 타깃 필드를 획득하고, 상기 타깃 필드에 대응되는 오디오를 상기 타깃 오디오 세그먼트로 결정하는 단계; 또는,
상기 제2 입력에 구비되는 오디오 세그먼트를 추출하되, 상기 오디오 세그먼트를 상기 타깃 오디오 세그먼트로 결정하는 단계;를 포함하는 오디오 처리 방법.
제2항에 있어서,
상기 제2 입력에 따라, 상기 처리할 필드를 편집하여, 타깃 필드를 획득하는 단계는,
상기 제2 입력이 삭제 입력이면, 상기 처리할 필드를 삭제하고, 삭제 후 획득한 블랭크 필드를 상기 타깃 필드로 결정하는 단계;
상기 제2 입력이 대체 입력이면, 상기 제2 입력에 대응되는 대체할 필드를 획득하며, 상기 처리할 필드를 삭제하고 상기 처리할 필드의 위치에 상기 대체할 필드를 추가하여, 상기 타깃 필드를 획득하는 단계; 및
상기 제2 입력이 증가 입력이면, 상기 제2 입력에 대응되는 증가할 필드를 획득하고, 상기 처리할 필드의 위치에 상기 증가할 필드를 추가하여, 상기 타깃 필드를 획득하는 단계;를 포함하는 오디오 처리 방법.
제3항에 있어서,
상기 처리할 오디오는 처리할 비디오에 포함된 오디오이고;
상기 처리할 텍스트에 대한 제1 입력을 수신하는 단계 이전에,
기설정된 화면을 표시하고, 상기 기설정된 화면에 상기 처리할 텍스트를 전부 표시하는 단계; 또는,
상기 처리할 비디오의 각 비디오 화면을 표시하되, 상기 비디오 화면에 상기 비디오 화면에 대응되는 처리할 텍스트를 표시하는 단계;를 더 포함하고,
상기 처리할 텍스트에 대한 제1 입력을 수신하는 단계는,
표시되는 처리할 텍스트에 대한 선택 입력을 수신하는 단계를 포함하는 오디오 처리 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 타깃 오디오 세그먼트에 따라, 상기 처리할 필드에 대응되는 재생 시간대 위치의 오디오 세그먼트를 보정하여, 타깃 오디오를 획득하는 단계는,
상기 각 필드에 대응되는 재생 시간대로부터 상기 처리할 필드에 대응되는 재생 시간대를 획득하는 단계;
상기 처리할 오디오에 대응되는 오디오 파형도를 획득하는 단계; 및
상기 오디오 파형도에서 상기 처리할 필드에 대응되는 재생 시간대의 대응 파장 대역을 상기 타깃 오디오 세그먼트에 대응되는 오디오 파장 대역으로 보정하여, 상기 타깃 오디오를 획득하는 단계;를 포함하는 오디오 처리 방법.
제1항에 있어서,
상기 제1 입력에 의해 지시되는 필드에 따라, 상기 처리할 텍스트 중의 처리할 필드를 결정하는 단계 이후에,
상기 처리할 텍스트에 대한 제3 입력을 수신하는 단계;
상기 제3 입력에 응답하여, 상기 제3 입력에 의해 지시되는 조정할 필드의 폰트 크기를 조정하여, 조정된 조정할 필드를 획득하는 단계; 및
상기 조정된 조정할 필드의 폰트 크기에 따라, 상기 조정할 필드에 대응되는 오디오의 음량 크기를 조정하되, 상기 조정된 조정할 필드의 폰트가 클수록 상기 조정할 필드에 대응되는 오디오의 음량이 커지는 단계;를 더 포함하는 오디오 처리 방법.
제1항에 있어서,
상기 처리할 오디오에 대응되는 텍스트 정보를 획득하는 단계는,
상기 처리할 오디오에 매칭되는 자막 파일이 존재하는지 여부를 검출하되, 상기 자막 파일은 자막 텍스트 및 상기 자막 텍스트 중 각 필드에 대응되는 재생 시간대를 포함하는 단계;
상기 처리할 오디오에 매칭되는 자막 파일이 존재하면, 상기 자막 파일을 상기 처리할 오디오에 대응되는 텍스트 정보로 하는 단계; 및
상기 처리할 오디오에 매칭되는 자막 파일이 존재하지 않으면, 상기 처리할 오디오에 포함된 오디오를 텍스트로 변환하고, 상기 처리할 오디오에서 재생되는 오디오 세그먼트의 시간 정보에 따라, 상기 텍스트 중 각 필드에 대응되는 재생 시간대를 생성하되, 상기 텍스트와 상기 텍스트 중 각 필드에 대응되는 재생 시간대를 상기 처리할 오디오에 대응되는 텍스트 정보로 하는 단계;를 포함하는 오디오 처리 방법.
처리할 오디오에 대응되는 텍스트 정보를 획득하되, 상기 텍스트 정보는 처리할 텍스트 및 상기 처리할 텍스트 중 각 필드에 대응되는 재생 시간대를 포함하는 제1 획득 모듈;
상기 처리할 텍스트에 대한 제1 입력을 수신하는 제1 수신 모듈;
상기 제1 입력에 응답하여, 상기 제1 입력에 의해 지시되는 필드에 따라, 상기 처리할 텍스트 중의 처리할 필드를 결정하는 제1 결정 모듈;
상기 처리할 필드에 대한 제2 입력을 수신하는 제2 수신 모듈;
상기 제2 입력에 따라, 타깃 오디오 세그먼트를 획득하는 제2 획득 모듈; 및
상기 타깃 오디오 세그먼트에 따라, 상기 처리할 필드에 대응되는 재생 시간대 위치의 오디오 세그먼트를 보정하여, 타깃 오디오를 획득하는 제2 결정 모듈;을 포함하는 전자 기기.
제8항에 있어서,
상기 제2 획득 모듈은,
상기 제2 입력에 따라, 상기 처리할 필드를 편집하여, 타깃 필드를 획득하고, 상기 타깃 필드에 대응되는 오디오를 상기 타깃 오디오 세그먼트로 결정하거나; 또는,
상기 제2 입력에 구비되는 오디오 세그먼트를 추출하되, 상기 오디오 세그먼트를 상기 타깃 오디오 세그먼트로 결정하는 전자 기기.
제9항에 있어서,
상기 제2 획득 모듈은 또한,
상기 제2 입력이 삭제 입력이면, 상기 처리할 필드를 삭제하고, 삭제 후 획득한 블랭크 필드를 상기 타깃 필드로 결정하고;
상기 제2 입력이 대체 입력이면, 상기 제2 입력에 대응되는 대체할 필드를 획득하며, 상기 처리할 필드를 삭제하고 상기 처리할 필드의 위치에 상기 대체할 필드를 추가하여, 상기 타깃 필드를 획득하며;
상기 제2 입력이 증가 입력이면, 상기 제2 입력에 대응되는 증가할 필드를 획득하고, 상기 처리할 필드의 위치에 상기 증가할 필드를 추가하여, 상기 타깃 필드를 획득하는 전자 기기.
제10항에 있어서,
기설정된 화면을 표시하고, 상기 기설정된 화면에 상기 처리할 텍스트를 전부 표시하며; 또는, 상기 처리할 비디오의 각 비디오 화면을 표시하되, 상기 비디오 화면에 상기 비디오 화면에 대응되는 처리할 텍스트를 표시하는 제1 표시 모듈;을 더 포함하고,
상기 제1 수신 모듈은 또한,
표시되는 처리할 텍스트에 대한 선택 입력을 수신하는 전자 기기.
제8항 내지 제11항 중 어느 한 항에 있어서,
상기 제2 결정 모듈은,
상기 각 필드에 대응되는 재생 시간대로부터 상기 처리할 필드에 대응되는 재생 시간대를 획득하고;
상기 처리할 오디오에 대응되는 오디오 파형도를 획득하며;
상기 오디오 파형도에서 상기 처리할 필드에 대응되는 재생 시간대의 대응 파장 대역을 상기 타깃 오디오 세그먼트에 대응되는 오디오 파장 대역으로 보정하여, 상기 타깃 오디오를 획득하는 전자 기기.
제8항에 있어서,
상기 처리할 텍스트에 대한 제3 입력을 수신하는 제3 수신 모듈;
상기 제3 입력에 응답하여, 상기 제3 입력에 의해 지시되는 조정할 필드의 폰트 크기를 조정하여, 조정된 조정할 필드를 획득하는 제1 조정 모듈; 및
상기 조정된 조정할 필드의 폰트 크기에 따라, 상기 조정할 필드에 대응되는 오디오의 음량 크기를 조정하되, 상기 조정된 조정할 필드의 폰트가 클수록, 상기 조정할 필드에 대응되는 오디오의 음량이 커지는 제2 조정 모듈;을 더 포함하는 전자 기기.
제8항에 있어서,
상기 제1 획득 모듈은,
상기 처리할 오디오에 매칭되는 자막 파일이 존재하는지 여부를 검출하되, 상기 자막 파일은 자막 텍스트 및 상기 자막 텍스트 중 각 필드에 대응되는 재생 시간대를 포함하고;
상기 처리할 오디오에 매칭되는 자막 파일이 존재하면, 상기 자막 파일을 상기 처리할 오디오에 대응되는 텍스트 정보로 하며;
상기 처리할 오디오에 매칭되는 자막 파일이 존재하지 않으면, 상기 처리할 오디오에 포함된 오디오를 텍스트로 변환하고, 상기 처리할 오디오에서 재생되는 오디오 세그먼트의 시간 정보에 따라, 상기 텍스트 중 각 필드에 대응되는 재생 시간대를 생성하되, 상기 텍스트와 상기 텍스트 중 각 필드에 대응되는 재생 시간대를 상기 처리할 오디오에 대응되는 텍스트 정보로 하는 전자 기기.
프로세서, 메모리 및 상기 메모리에 저장되고 상기 프로세서에 의해 실행 가능한 오디오 처리 프로그램을 포함하며, 상기 오디오 처리 프로그램이 상기 프로세서에 의해 실행되면 제1항 내지 제7항 중 어느 한 항에 따른 오디오 처리 방법의 단계가 구현되는 전자 기기.
제1항 내지 제7항 중 어느 한 항에 따른 오디오 처리 방법의 단계를 수행하도록 구성되는 전자 기기.
프로세서에 의해 실행되면 제1항 내지 제7항 중 어느 한 항에 따른 오디오 처리 방법의 단계가 수행되는 오디오 처리 프로그램이 저장되어 있는 컴퓨터 판독 가능 저장 매체.
상기 프로그램 제품은 프로세서에 의해 실행되어 제1항 내지 제7항 중 어느 한 항에 따른 오디오 처리 방법의 단계를 구현할 수 있는 컴퓨터 프로그램 제품.