KR20230163278A - 전자 장치 및 그 제어 방법 - Google Patents

전자 장치 및 그 제어 방법 Download PDF

Info

Publication number
KR20230163278A
KR20230163278A KR1020220160910A KR20220160910A KR20230163278A KR 20230163278 A KR20230163278 A KR 20230163278A KR 1020220160910 A KR1020220160910 A KR 1020220160910A KR 20220160910 A KR20220160910 A KR 20220160910A KR 20230163278 A KR20230163278 A KR 20230163278A
Authority
KR
South Korea
Prior art keywords
audio
audio data
electronic device
data
source
Prior art date
Application number
KR1020220160910A
Other languages
English (en)
Inventor
김수필
김지원
김종태
황재용
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to PCT/KR2023/003317 priority Critical patent/WO2023229166A1/ko
Priority to US18/204,190 priority patent/US20230410831A1/en
Publication of KR20230163278A publication Critical patent/KR20230163278A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 전자 장치는 적어도 하나의 인트럭션을 저장하는 메모리 및 오디오 데이터를 중복 영역이 포함되도록 복수의 구간으로 분할하고, 분할된 복수의 구간 각각으로부터 오디오 특징을 획득하고, 오디오 특징에 기초하여 분할된 복수의 구간 각각에서 제1 오디오 소스 및 제2 오디오 소스를 식별하고, 오디오 데이터로부터 제1 오디오 소스에 대응되는 제1 오디오 데이터 및 제2 오디오 소스에 대응되는 제2 오디오 데이터를 획득하는 적어도 하나의 프로세서를 포함한다.

Description

전자 장치 및 그 제어 방법{ELECTRONIC APPARATUS AND CONTROLLING METHOD THEREOF}
본 개시는 전자 장치 및 그 제어방법에 관한 것으로, 더욱 상세하게는 오디오 신호를 오디오 소스 별로 분리하는 전자 장치 및 그 제어방법에 대한 것이다.
오디오 분리 모델은 혼합된 하나의 오디오 신호에서 화자별로 오디오 신호를 분리하는 모델일 수 있다. 남자 및 여자가 동시에 대화하는 10초의 오디오 신호가 있음을 가정한다. 오디오 분리 모델은 10초의 오디오 신호를 남자가 발화한 10초의 오디오 신호와 여자가 발화한 10초의 오디오 신호로 분리할 수 있다.
하지만, 분석 대상이 되는 오디오 신호에 여러명의 화자가 존재하는 경우, 오디오 분리 모델에서 출력되는 결과의 품질이 떨어질 수 있다. 예를 들어, 서로 다른 화자의 오디오 신호가 결합될 수 있다.
또한, 2명의 화자가 존재하는 경우에도, 오디오 신호를 짧은 시간으로 분할한 뒤 각각을 오디오 분리 모델로 출력하는 경우, 출력되는 결과의 화자 순서가 규칙적이지 않다. 따라서 서로 다른 화자의 오디오 신호가 결합될 수 있다.
또한, 오디오 분리 모델이 허용 가능한 분리 화자의 수보다 많은 화자가 포함된 오디오 신호를 분리하는 경우, 오디오 분리 모델에서 출력되는 결과의 품질이 떨어질 수 있다.
본 개시는 상술한 문제를 개선하기 위해 고안된 것으로, 본 개시의 목적은 오디오 정보를 중복 영역을 포함하는 복수의 오디오 정보로 분할하고 분할된 오디오 정보에서 오디오 소스 별로 오디오 데이터를 획득하는 전자 장치 및 그의 제어 방법을 제공함에 있다.
본 실시 예에 따른 전자 장치는 적어도 하나의 인트럭션을 저장하는 메모리 및 오디오 데이터를 중복 영역이 포함되도록 복수의 구간으로 분할하고, 상기 분할된 복수의 구간 각각으로부터 오디오 특징을 획득하고, 상기 오디오 특징에 기초하여 상기 분할된 복수의 구간 각각에서 제1 오디오 소스 및 제2 오디오 소스를 식별하고, 상기 오디오 데이터로부터 상기 제1 오디오 소스에 대응되는 제1 오디오 데이터 및 상기 제2 오디오 소스에 대응되는 제2 오디오 데이터를 획득하는 적어도 하나의 프로세서를 포함한다.
한편, 상기 적어도 하나의 프로세서는 상기 오디오 데이터를 분할하여 제1 구간의 제1 분할 데이터 및 상기 제1 구간과 상이한 제2 구간의 제2 분할 데이터를 획득하고, 상기 제1 분할 데이터 및 상기 제2 분할 데이터는 상기 중복 영역을 포함할 수 있다.
한편, 상기 적어도 하나의 프로세서는 상기 분할된 복수의 구간 각각에서 오디오 소스에 기초하여 구분되는 복수의 오디오 블록을 식별하고, 상기 제1 오디오 소스에 대응되는 오디오 블록들을 결합하여 상기 제1 오디오 데이터를 획득하고, 상기 제2 오디오 소스에 대응되는 오디오 블록들을 결합하여 상기 제2 오디오 데이터를 획득할 수 있다.
한편, 상기 적어도 하나의 프로세서는 상기 복수의 오디오 블록에 포함된 중복 영역들을 식별하고, 상기 식별된 중복 영역들을 비교하여 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 획득할 수 있다.
한편, 상기 적어도 하나의 프로세서는 상기 복수의 오디오 블록에 포함된 상기 중복 영역들 사이의 유사도를 획득하고, 유사도가 제1 임계값 이상인 오디오 블록들을 결합하여 상기 제1 오디오 데이터 및 제2 오디오 데이터를 획득할 수 있다.
한편, 상기 적어도 하나의 프로세서는 상기 유사도가 제1 임계값 미만이고 상기 제2 임계값 이상이면, 상기 중복 영역을 확장하고, 상기 확장된 중복 영역에 기초하여 상기 오디오 데이터를 분할할 수 있다.
한편, 상기 적어도 하나의 프로세서는 상기 오디오 블록들 중 제1 오디오 블록에 포함된 오디오 신호의 최고값을 획득하고, 상기 제1 오디오 블록의 중복 영역에 포함된 오디오 신호의 평균값을 획득하고, 상기 최고값 및 상기 평균값의 차이값에 기초하여 상기 중복 영역이 무음인지 여부를 식별할 수 있다.
한편, 상기 적어도 하나의 프로세서는 상기 오디오 데이터에 포함된 오디오 소스의 개수를 식별하고, 상기 식별된 오디오 소스의 개수가 임계 개수 미만이면, 상기 오디오 데이터를 분할할 수 있다.
한편, 상기 적어도 하나의 프로세서는 상기 오디오 데이터의 시간이 임계 시간 이상이면, 상기 오디오 데이터를 분할할 수 있다.
한편, 상기 적어도 하나의 프로세서는 상기 메모리에 저장된 제1 인공 지능 모델에 기초하여 상기 오디오 데이터에 포함된 오디오 소스의 개수를 식별하고, 상기 메모리에 저장된 상기 제1 인공 지능 모델과 상이한 제2 인공 지능 모델에 기초하여 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 획득할 수 있다.
본 실시 예에 따른 전자 장치의 제어 방법은 오디오 데이터를 중복 영역이 포함되도록 복수의 구간으로 분할하는 단계, 상기 분할된 복수의 구간 각각으로부터 오디오 특징을 획득하는 단계, 상기 오디오 특징에 기초하여 상기 분할된 복수의 구간 각각에서 제1 오디오 소스 및 제2 오디오 소스를 식별하는 단계 및 상기 오디오 데이터로부터 상기 제1 오디오 소스에 대응되는 제1 오디오 데이터 및 상기 제2 오디오 소스에 대응되는 제2 오디오 데이터를 획득하는 단계를 포함할 수 있다.
한편, 상기 분할하는 단계는 상기 오디오 데이터를 분할하여 제1 구간의 제1 분할 데이터 및 상기 제1 구간과 상이한 제2 구간의 제2 분할 데이터를 획득하고, 상기 제1 분할 데이터 및 상기 제2 분할 데이터는 상기 중복 영역을 포함할 수 있다.
한편, 상기 제어 방법은 상기 분할된 복수의 구간 각각에서 오디오 소스에 기초하여 구분되는 복수의 오디오 블록을 식별하는 단계를 더 포함하고, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 획득하는 단계는 상기 제1 오디오 소스에 대응되는 오디오 블록들을 결합하여 상기 제1 오디오 데이터를 획득하고, 상기 제2 오디오 소스에 대응되는 오디오 블록들을 결합하여 상기 제2 오디오 데이터를 획득할 수 있다.
한편, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 획득하는 단계는 상기 복수의 오디오 블록에 포함된 중복 영역들을 식별하고, 상기 식별된 중복 영역들을 비교하여 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 획득할 수 있다.
한편, 상기 복수의 오디오 블록에 포함된 상기 중복 영역들 사이의 유사도를 획득하는 단계를 더 포함하고, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 획득하는 단계는 유사도가 제1 임계값 이상인 오디오 블록들을 결합하여 상기 제1 오디오 데이터 및 제2 오디오 데이터를 획득할 수 있다.
한편, 상기 제어 방법은 상기 유사도가 제1 임계값 미만이고 상기 제2 임계값 이상이면, 상기 중복 영역을 확장하는 단계 및 상기 확장된 중복 영역에 기초하여 상기 오디오 데이터를 분할하는 단계를 더 포함할 수 있다.
한편, 상기 제어 방법은 상기 오디오 블록들 중 제1 오디오 블록에 포함된 오디오 신호의 최고값을 획득하는 단계, 상기 제1 오디오 블록의 중복 영역에 포함된 오디오 신호의 평균값을 획득하는 단계 및 상기 최고값 및 상기 평균값의 차이값에 기초하여 상기 중복 영역이 무음인지 여부를 식별하는 단계를 더 포함할 수 있다.
한편, 상기 분할하는 단계는 상기 오디오 데이터에 포함된 오디오 소스의 개수를 식별하고, 상기 식별된 오디오 소스의 개수가 임계 개수 미만이면, 상기 오디오 데이터를 분할할 수 있다.
한편, 상기 분할하는 단계는 상기 오디오 데이터의 시간이 임계 시간 이상이면, 상기 오디오 데이터를 분할할 수 있다.
한편, 상기 분할하는 단계는 제1 인공 지능 모델에 기초하여 상기 오디오 데이터에 포함된 오디오 소스의 개수를 식별하고, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 획득하는 단계는 상기 제1 인공 지능 모델과 상이한 제2 인공 지능 모델에 기초하여 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 획득할 수 있다.
도 1은 본 개시의 일 실시 예에 따른 전자 장치를 도시한 블록도이다.
도 2는 도 1의 전자 장치의 구체적인 구성을 설명하기 위한 블록도이다.
도 3은 하나의 오디오 정보에서 복수의 오디오 소스를 식별하는 동작을 설명하기 위한 도면이다.
도 4는 복수의 오디오 소스 각각에 대응되는 오디오 데이터를 획득하는 동작을 설명하기 위한 흐름도이다.
도 5는 오디오 정보를 분할하여 오디오 소스를 분석하는 동작을 설명하기 위한 흐름도이다.
도 6은 오디오 블록을 결합하여 오디오 소스에 대응되는 오디오 데이터를 획득하는 동작을 설명하기 위한 흐름도이다.
도 7은 복수의 오디오 소스를 구분하기 위해 오디오 정보를 분할하는 동작을 설명하기 위한 도면이다.
도 8은 분할된 오디오 블록을 설명하기 위한 도면이다.
도 9는 기 설정된 개수의 오디오 소스가 식별될 때까지 오디오 정보를 분할하는 동작을 설명하기 위한 도면이다.
도 10은 복수의 오디오 소스 각각에 대응되는 오디오 데이터를 획득하는 동작을 설명하기 위한 흐름도이다.
도 11은 오디오 소스의 개수를 식별하여 오디오 정보를 분할하는 동작을 설명하기 위한 흐름도이다.
도 12는 분할되는 오디오 정보의 최소 시간을 고려하는 동작을 설명하기 위한 흐름도이다.
도 13은 오디오 소스의 개수가 허용 범위를 넘어서는 경우 분석을 수행하지 않는 동작을 설명하기 위한 흐름도이다.
도 14는 오디오 블록을 결합하여 오디오 소스에 대응되는 오디오 데이터를 획득하는 동작을 설명하기 위한 흐름도이다.
도 15는 오디오 데이터를 획득함에 있어 무음 블록을 추가하는 동작을 설명하기 위한 흐름도이다.
도 16은 오디오 블록들 간 유사도를 획득하는 동작을 설명하기 위한 도면이다.
도 17은 오디오 정보를 분할하여 오디오 소스 각각에 대응되는 오디오 데이터를 획득하는 동작을 설명하기 위한 도면이다.
도 18은 유사도를 획득하는 동작에 있어 중복 영역을 설명하기 위한 도면이다.
도 19는 유사도에 기초하여 오디오 블록을 결합하는 동작을 설명하기 위한 도면이다.
도 20은 오디오 블록들 간 유사도를 획득하는 동작을 설명하기 위한 흐름도이다.
도 21은 오디오 블록들 간 유사도를 획득하는 동작을 구체적인 예시로 설명하기 위한 흐름도이다.
도 22는 다양한 실시 예에 따라, 오디오 블록을 분석하는 동작을 설명하기 위한 도면이다.
도 23은 중복 영역의 무음 여부에 기초하여 오디오 특징을 분석하는 동작을 설명하기 위한 흐름도이다.
도 24는 중복 영역의 무음 여부에 기초하여 오디오 특징을 분석하는 동작을 구체적인 예시로 설명하기 위한 흐름도이다.
도 25는 다른 구간의 중복 영역이 무음인지 여부에 기초하여 오디오 특징을 분석하는 동작을 설명하기 위한 흐름도이다.
도 26은 다른 구간의 중복 영역이 무음인지 여부에 기초하여 오디오 특징을 분석하는 동작을 구체적인 예시로 설명하기 위한 흐름도이다.
도 27은 중복 영역을 증가시키는 동작을 설명하기 위한 흐름도이다.
도 28은 오디오 특징을 분석하는 동작을 설명하기 위한 흐름도이다.
도 29는 다양한 실시 예에 따라, 무음 여부를 판단하는 동작을 설명하기 위한 도면이다.
도 30은 다양한 실시 예에 따라, 무음 여부를 판단하는 동작을 설명하기 위한 도면이다.
도 31은 유사도를 획득하는 동작을 설명하기 위한 도면이다.
도 32는 다양한 실시 예에 따라, 오디오 추출 동작과 관련된 UI(User Interface)를 설명하기 위한 도면이다.
도 33은 분리된 오디오 데이터의 음량을 변경하기 위한 UI를 특정 오브젝트에 대응되는 위치에 표시하는 동작을 설명하기 위한 도면이다.
도 34는 분리된 오디오 데이터의 음량을 변경하기 위한 UI를 특정 오브젝트에 대응되는 위치에 표시하는 동작을 설명하기 위한 흐름도이다.
도 35는 다양한 실시 예에 따라 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
이하에서는 첨부 도면을 참조하여 본 개시를 상세히 설명한다.
본 개시의 실시 예에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 개시의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
본 명세서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
A 또는/및 B 중 적어도 하나라는 표현은 "A" 또는 "B" 또는 "A 및 B" 중 어느 하나를 나타내는 것으로 이해되어야 한다.
본 명세서에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 어떤 구성요소가 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 개시에서 "모듈" 혹은 "부"는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈" 혹은 복수의 "부"는 특정한 하드웨어로 구현될 필요가 있는 "모듈" 혹은 "부"를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.
본 명세서에서, 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치(예: 인공지능 전자 장치)를 지칭할 수 있다.
이하 첨부된 도면들을 참조하여 본 개시의 일 실시 예를 보다 상세하게 설명한다.
도 1은 본 개시의 일 실시 예에 따른 전자 장치(100)를 도시한 블록도이다.
도 1을 참조하면, 전자 장치(100)는 메모리(110) 및 적어도 하나의 프로세서(120)를 포함할 수 있다.
전자 장치(100)는 오디오 데이터를 분석하는 기기일 수 있다. 예를 들어, 전자 장치(100)는 오디오 데이터를 수신하여 오디오 소스 별로 오디오 신호를 분리하는 인공 지능 모델을 포함하는 장치일 수 있다.
메모리(110)는 적어도 하나의 인스트럭션 또는 오디오 데이터를 저장할 수 있다.
적어도 하나의 프로세서(120)는 전자 장치(100)의 전반적인 제어 동작을 수행할 수 있다. 구체적으로, 적어도 하나의 프로세서(120)는 전자 장치(100)의 전반적인 동작을 제어하는 기능을 한다. 적어도 하나의 프로세서(120)는 메모리(110)에 저장된 적어도 하나의 인스트럭션을 제어하여 아래의 동작을 수행할 수 있다.
적어도 하나의 프로세서(120) 오디오 데이터를 중복 영역이 포함되도록 복수의 구간으로 분할하고, 분할된 복수의 구간 각각으로부터 오디오 특징을 획득하고, 오디오 특징에 기초하여 분할된 복수의 구간 각각에서 제1 오디오 소스 및 제2 오디오 소스를 식별하고, 오디오 데이터로부터 제1 오디오 소스에 대응되는 제1 오디오 데이터 및 제2 오디오 소스에 대응되는 제2 오디오 데이터를 획득할 수 있다.
여기서, 오디오 데이터는 오디오 정보 또는 오디오 파일로 기재될 수 있다. 분할된 오디오 데이터는 분할 데이터(제1 분할 데이터, 제2 분할 데이터로 기재될 수 있다. 따라서, 복수의 구간은 오디오 데이터가 기 설정된 기준에 따라 분할된 시간 구간을 의미할 수 있다. 또한, 분할 데이터는 분할된 시간 구간에 대응되는 오디오 데이터를 의미할 수 있다.
여기서, 중복 영역은 중복 구간 내지 중복 시간 구간을 의미할 수 있다.
적어도 하나의 프로세서(120)는 메모리(110)에 저장된 오디오 데이터를 중복 영역에 기초하여 기 설정된 시간으로 분할하고, 분할된 오디오 데이터에 기초하여 오디오 특징을 획득하고, 오디오 특징에 기초하여 분할된 오디오 데이터에서 제1 오디오 소스 및 제2 오디오 소스를 식별하고, 제1 오디오 소스에 대응되는 제1 오디오 데이터 및 제2 오디오 소스에 대응되는 제2 오디오 데이터를 획득할 수 있다.
분할된 오디오 데이터에 기초하여 오디오 특징을 획득하는 동작은 분할된 오디오 데이터에 기초하여 중첩되는 구간의 표준 제곱 오차를 획득하는 동작을 의미할 수 있다.
오디오 특징에 기초하여 분할된 오디오 데이터에서 제1 오디오 소스 및 제2 오디오 소스를 식별하는 동작은 구간 별 표준 제곱 오차에 기초하여 분할된 오디오 데이터에서 제1 오디오 소스 및 제2 오디오 소스를 식별하는 동작을 의미할 수 있다. 적어도 하나의 프로세서(120)는 오디오 데이터(원본 정보)를 획득할 수 있다. 오디오 데이터는 사람의 음성, 사람 이외의 사물에서 발생되는 소리를 포함할 수 있다. 소리를 발생시키는 객체를 오디오 소스로 표현할 수 있다. 오디오 데이터는 사운드 정보를 의미할 수 있다.
적어도 하나의 프로세서(120)는 수신된 오디오 데이터를 분할할 수 있다. 적어도 하나의 프로세서(120)는 기 설정된 시간에 기초하여 오디오 데이터를 분할할 수 있다. 기 설정된 시간은 전체 시간의 임계 비율에 해당하는 시간 또는 단위 시간을 의미할 수 있다.
전체 시간의 임계 비율은 50%일 수 있다. 적어도 하나의 프로세서(120)는 전체 시간의 50%를 기준으로 오디오 데이터를 분할할 수 있다. 예를 들어, 오디오 데이터가 8초의 오디오 신호를 포함한다고 가정한다. 적어도 하나의 프로세서(120)는 8초의 오디오 신호를 4초를 기준으로 2개의 오디오 신호로 분할할 수 있다.
단위 시간은 사용자가 기 설정한 단위 시간 또는 인공 지능 모델에 적용되는 기 설정된 단위 시간을 의미할 수 있다. 적어도 하나의 프로세서(120)는 단위 시간에 기초하여 오디오 데이터를 분할할 수 있다. 예를 들어, 단위 시간은 2초일 수 있다. 2초는 예시일 뿐이며, 사용자의 설정 또는 적용되는 인공지능 모델에 의하여 변경될 수 있다. 적어도 하나의 프로세서(120)는 8초의 오디오 신호를 2초 단위의 4개의 오디오 신호로 분할할 수 있다.
분할 동작과 관련된 구체적인 설명은 도 7 내지 도 9에서 기재한다.
적어도 하나의 프로세서(120)는 분할된 오디오 신호(또는 분할된 오디오 데이터)에 기초하여 오디오 특징을 획득할 수 있다. 오디오 특징은 오디오 신호의 파형, 진동수, 진폭 등을 포함할 수 있다. 적어도 하나의 프로세서(120)는 분할된 오디오 신호(또는 분할된 오디오 데이터)에 기초하여 오디오 특징을 획득(또는 추출)할 수 있다.
적어도 하나의 프로세서(120)는 오디오 데이터를 인공 지능 모델(또는 딥러닝 모델)에 입력 데이터로써 입력할 수 있다. 그리고, 적어도 하나의 프로세서(120)는 인공 지능 모델을 통해 오디오 데이터에 대응되는 오디오 특징을 출력 데이터로써 획득할 수 있다. 여기서, 인공 지능 모델은 오디오 신호를 분석하는 오디오 인식 모델을 의미할 수 있다.
구체적으로, 적어도 하나의 프로세서(120)는 오디오 데이터(또는 오디오 파일)를 수신할 수 있다. 예를 들어, 오디오 파일은 1초의 오디오 신호를 포함할 수 있다.
적어도 하나의 프로세서(120)는 오디오 데이터가 아날로그 데이터인 경우, 아날로그 데이터에 대응되는 디지털 데이터를 획득할 수 있다. 디지털 데이터는 raw data를 의미할 수 있다. 예를 들어, 디지털 데이터는 0.001초마다 사운드를 숫자로 표현한 데이터일 수 있다.
적어도 하나의 프로세서(120)는 디지털 데이터를 기 설정된 시간 단위로 분할할 수 있다. 예를 들어, 1초의 디지털 데이터는 25ms 단위로 분할될 수 있다. 1초의 데이터는 40개의 구간으로 분할될 수 있다. 만약 중첩되는 구간이 있는 경우 1초의 데이터는 40개의 구간보다 더 많은 구간으로 분할될 수 있다.
적어도 하나의 프로세서(120)는 기 설정된 시간 단위로 분할된 복수의 분할 데이터(또는 구간 데이터)에 기초하여 MFCC(Mel-Frequency Cepstral Coefficient)를 획득할 수 있다.
적어도 하나의 프로세서(120)는 인공 지능 모델의 입력 데이터를 위해 MFCC 값을 정규화할 수 있다. 인공 지능 모델에 기 설정된 입력 데이터의 범위가 존재할 수 있으며, 적어도 하나의 프로세서(120)는 기 설정된 입력 데이터의 범위를 위해 MFCC 값을 정규화할 수 있다.
적어도 하나의 프로세서(120)는 정규화된 MFCC 값을 인공 지능 모델에 입력 데이터로써 입력(또는 적용)할 수 있다. 그리고, 적어도 하나의 프로세서(120)는 인공 지능 모델로부터 정규화된 MFCC값(입력 데이터)에 대응되는 오디오 특징(출력 데이터)을 획득할 수 있다.
분할된 오디오 신호에 적어도 하나의 오디오 소스가 출력한(또는 발생한) 오디오 신호가 혼합되어 있다고 가정한다. 적어도 하나의 프로세서(120)는 혼합되어 있는 오디오 데이터를 오디오 소스별로 분리할 수 있다. 분리된 제1 오디오 데이터 및 제2 오디오 데이터는 제1 오디오 신호 및 제2 오디오 신호로 기재될 수 있다.
적어도 하나의 프로세서(120)는 추출된 오디오 특징에 기초하여 오디오 소스를 식별할 수 있다. 분할된 오디오 데이터에 복수의 오디오 소스가 포함되어 있는 경우, 적어도 하나의 프로세서(120)는 오디오 특징에 기초하여 제1 오디오 소스 및 제2 오디오 소스를 판단할 수 있다.
적어도 하나의 프로세서(120)는 전체 오디오 데이터(원본 정보) 중 제1 오디오 소스에 대응되는 제1 오디오 데이터를 획득할 수 있다. 또한, 적어도 하나의 프로세서(120)는 오디오 데이터(원본 정보) 중 제2 오디오 소스에 대응되는 제2 오디오 데이터를 획득할 수 있다. 결과적으로, 적어도 하나의 프로세서(120)는 제1 오디오 소스 및 제2 오디오 소스에서 출력한 오디오 신호가 혼합되어 있는 오디오 데이터(원본 정보)에서 오디오 소스 각각에서 출력한 오디오 신호를 별도로 분리할 수 있다.
한편, 적어도 하나의 프로세서(120)는 오디오 데이터를 분할하여 제1 구간의 제1 분할 데이터 및 제1 구간과 상이한 제2 구간의 제2 분할 데이터를 획득하고, 제1 분할 데이터 및 제2 분할 데이터는 중복 영역을 포함할 수 있다.
예를 들어, 적어도 하나의 프로세서(120)는 기 설정된 시간(4초)에 기초하여 오디오 데이터를 분할할 수 있다. 적어도 하나의 프로세서(120)는 전체 구간(0초-8초)의 오디오 데이터를 분할하여 제1 구간(0초-4초)의 제1 분할 데이터와 제2 구간(3.9초-8초)의 제2 분할 데이터를 획득할 수 있다. 중복 영역은 3.9초-4초일 수 있다.
다양한 실시 예에 따라, 적어도 하나의 프로세서(120)는 전체 구간(0초-8초)의 오디오 데이터를 분할하여 제1 구간(0초-4.1초)의 제1 분할 데이터와 제2 구간(3.9초-8초)의 제2 분할 데이터를 획득할 수 있다. 중복 영역은 3.9초-4.1초일 수 있다.
중복 영역과 관련된 구체적인 설명은 도 18 및 도 19에서 기재한다.
한편, 적어도 하나의 프로세서(120)는 분할된 오디오 데이터에서 오디오 소스에 기초하여 구분되는 복수의 오디오 블록을 식별하고, 제1 오디오 소스에 대응되는 오디오 블록들을 결합하여 제1 오디오 데이터를 획득하고, 제2 오디오 소스에 대응되는 오디오 블록들을 결합하여 제2 오디오 데이터를 획득할 수 있다.
적어도 하나의 프로세서(120)는 분할된 오디오 데이터에서 오디오 소스 별 복수의 오디오 블록을 식별할 수 있다. 적어도 하나의 프로세서(120)는 오디오 소스를 특정하지 않고 서로 다른 오디오 소스에 대응되는 오디오 신호를 분리할 수 있다. 적어도 하나의 프로세서(120)는 오디오 데이터에 혼합되어 있는 다양한 오디오 소스의 오디오 신호를 분리할 수 있다.
적어도 하나의 프로세서(120)는 제1 분할 데이터에서 오디오 소스가 상이한 제1 오디오 블록 및 제2 오디오 블록을 획득할 수 있다. 또한, 적어도 하나의 프로세서(120)는 제2 분할 데이터에서 오디오 소스가 상이한 제3 오디오 블록 및 제4 오디오 블록을 획득할 수 있다. 적어도 하나의 프로세서(120)는 오디오 블록 각각이 어떤 오디오 소스(예를 들어, 성인 남자인지, 자동차 소음인지)인지 판단하지 않고 단순히 오디오 소스가 상이한 복수의 오디오 블록을 획득할 수 있다.
적어도 하나의 프로세서(120)는 획득된 오디오 블록들 중 관련성이 높은 블록을 결합하여 하나의 오디오 데이터를 획득할 수 있다. 이와 관련된 구체적인 동작은 도 17에서 기재한다.
한편, 적어도 하나의 프로세서(120)는 복수의 오디오 블록에 포함된 중복 영역들을 식별하고, 식별된 중복 영역들을 비교하여 제1 오디오 데이터 및 제2 오디오 데이터를 획득할 수 있다.
적어도 하나의 프로세서(120)는 오디오 블록에 포함된 오디오 신호 중 중복 영역에 포함된 오디오 신호를 식별할 수 있다. 적어도 하나의 프로세서(120)는 중복 영역에 포함된 오디오 신호들을 비교하여 특정 오디오 소스에 대응되는 오디오 블록들을 결합할 수 있다. 이와 관련된 구체적인 동작은 도 19에서 기재한다.
한편, 적어도 하나의 프로세서(120)는 복수의 오디오 블록에 포함된 중복 영역들 사이의 유사도를 획득하고, 유사도가 제1 임계값 이상인 오디오 블록들을 결합하여 제1 오디오 데이터 및 제2 오디오 데이터를 획득할 수 있다.
적어도 하나의 프로세서(120)는 제1 구간에서 획득된 오디오 블록과 제2 구간에서 획득된 오디오 블록의 결합 여부를 중복 영역의 유사도에 기초하여 결정할 수 있다. 적어도 하나의 프로세서(120)는 복수의 오디오 블록에 포함된 중복 영역들 사이의 유사도를 비교할 수 있다. 중복 영역의 유사도를 획득 및 비교하는 동작은 시간 구간이 인접한 오디오 블록들에 대하여 수행될 수 있다.
예를 들어, 0초-2초 구간에서 제1 오디오 블록 및 제2 오디오 블록이 획득되고, 2초-4초 구간에서 제3 오디오 블록 및 제4 오디오 블록이 획득되었다고 가정한다. 적어도 하나의 프로세서(120)는 제1 오디오 블록을 제3 오디오 블록 또는 제4 오디오 블록과 결합할지 여부를 판단할 수 있다. 또한, 적어도 하나의 프로세서(120)는 제2 오디오 블록을 제4 오디오 블록 또는 제4 오디오 블록과 결합할지 여부를 판단할 수 있다.
적어도 하나의 프로세서(120)는 유사도가 제1 임계값 이상인 경우, 유사도가 획득되는데 이용된 오디오 블록들을 결합할 수 있다. 그리고, 적어도 하나의 프로세서(120)는 오디오 블록들의 결합 동작을 반복하여 전체 시간 구간의 오디오 데이터를 획득할 수 있다.
한편, 적어도 하나의 프로세서(120)는 유사도가 제1 임계값 미만이고 제2 임계값 이상이면, 중복 영역을 확장하고, 확장된 중복 영역에 기초하여 오디오 데이터를 분할할 수 있다.
제1 임계값은 제2 임계값보다 클 수 있다.
유사도가 제1 임계값 이상인 경우, 전자 장치(100)는 유사도를 획득하는데 비교되었던 오디오 블록들을 결합할 수 있다.
유사도가 제1 임계값 미만이고 제2 임계값 이상인 경우, 전자 장치(100)는 중복 영역을 확장(또는 증가)하여 오디오 데이터를 재분할할 수 있다. 중복 영역을 증가시켜 유사도 비교 여부를 다시 판단 받고자 함이다. 이와 관련된 구체적인 설명은 도 27에서 기재한다. 중복 영역을 확장하는 경우, 처리 시간이 늘어나더라도 더욱 정확한 비교가 가능할 수 있다.
유사도가 제2 임계값 미만인 경우, 전자 장치(100)는 타겟 오디오 블록에 대하여 오디오 특징을 획득할 수 있다. 더 이상 연결될 오디오 블록이 없다고 판단했기 때문이다.
한편, 적어도 하나의 프로세서(120)는 오디오 블록들 중 제1 오디오 블록에 포함된 오디오 신호의 최고값을 획득하고, 제1 오디오 블록의 중복 영역에 포함된 오디오 신호의 평균값을 획득하고, 최고값 및 평균값의 차이값에 기초하여 중복 영역이 무음인지 여부를 식별할 수 있다.
적어도 하나의 프로세서(120)는 오디오 블록에 포함된 중복 영역이 무음인지 판단할 수 있다. 오디오 신호가 오디오 소스별로 분리되었다고 하더라도 노이즈가 존재할 수 있으며, 분리 과정에서 오차가 발생할 수 있다. 따라서, 적어도 하나의 프로세서(120)는 세부적인 방법에 따라 무음 여부를 판단할 수 있다.
다양한 실시 예에 따라, 적어도 하나의 프로세서(120)는 오디오 신호의 절대값에 기초하여 중복 영역이 무음인지 여부를 판단할 수 있다. 중복 영역에 포함된 오디오 신호의 평균값이 임계값 이하이면, 적어도 하나의 프로세서(120)는 중복 영역이 무음이라고 판단할 수 있다.
다양한 실시 예에 따라, 적어도 하나의 프로세서(120)는 오디오 블록의 전체 시간 구간에서 오디오 신호의 최고값(peak value)을 획득할 수 있다. 적어도 하나의 프로세서(120)는 중복 영역에 포함된 오디오 신호의 평균값을 획득할 수 있다. 적어도 하나의 프로세서(120)는 최고값 및 평균값을 비교하여 중복 영역이 무음인지 여부를 판단할 수 있다. 최고값과 평균값의 차이값이 임계값 이상이면, 적어도 하나의 프로세서(120)는 중복 영역이 무음이라고 판단할 수 있다. 평균값은 최고값보다 작은 값이므로, “최고값과 평균값의 차이값이 임계값 이상”의 의미는 평균값이 최고값에 비하여 상대적으로 현저하게 낮다는 것을 의미할 수 있다. 단순히 평균값이 임계값보다 낮은지 여부를 판단하는 방식보다 최고값을 이용하는 방식이 무음 여부를 판단함에 있어 정확도가 높을 수 있다.
최고값 및 평균값을 이용하는 구체적인 설명은 도 29 및 도 30에서 기재한다.
한편, 적어도 하나의 프로세서(120)는 오디오 데이터에 포함된 오디오 소스의 개수를 식별하고, 식별된 오디오 소스의 개수가 임계 개수 미만이면, 오디오 데이터를 분할할 수 있다.
이와 관련된 구체적인 설명은 도 11에서 기재한다.
한편, 적어도 하나의 프로세서(120)는 오디오 데이터의 시간이 임계 시간 이상이면, 오디오 데이터를 분할할 수 있다.
이와 관련된 구체적인 설명은 도 12 내지 도 13에서 기재한다.
한편, 적어도 하나의 프로세서(120)는 메모리(110)에 저장된 제1 인공 지능 모델에 기초하여 오디오 데이터에 포함된 오디오 소스의 개수를 식별하고, 메모리(110)에 저장된 제1 인공 지능 모델과 상이한 제2 인공 지능 모델에 기초하여 제1 오디오 데이터 및 제2 오디오 데이터를 획득할 수 있다.
제1 인공 지능 모델은 오디오 데이터를 입력 데이터로서 수신하여 오디오 데이터에 오디오 소스의 개수를 출력 데이터로서 획득하는 모델일 수 있다. 적어도 하나의 프로세서(120)는 분할된 오디오 데이터를 제1 인공 지능 모델에 입력할 수 있다.
적어도 하나의 프로세서(120)는 제1 인공 지능 모델을 통해 오디오 데이터에 오디오 소스의 개수 만을 식별할 수 있고, 오디오 소스를 특정할 수는 없다. 오디오 소스를 특정하기 위해서는 오디오 특징을 추출하여 분석 동작이 추가로 필요할 수 있다.
오디오 소스의 개수가 임계 개수 이상이면 오디오 분석 동작의 정확도가 떨어질 수 있다. 따라서, 제1 인공 지능 모델은 오디오 분석 동작의 입력 데이터로서 오디오 데이터가 이용될 수 있는지 여부를 판단할 수 있다.
제2 인공 지능 모델은 오디오 데이터를 입력 데이터로서 수신하여 오디오 데이터에 포함된 오디오 신호를 오디오 소스별로 분리하는 모델일 수 있다. 적어도 하나의 프로세서(120)는 분할된 오디오 데이터를 제2 인공 지능 모델에 입력할 수 있다.
적어도 하나의 프로세서(120)는 제2 인공 지능 모델을 통해 오디오 소스 별로 오디오 신호를 분리할 수 있다. 적어도 하나의 프로세서(120)는 분할된 오디오 데이터에서 복수의 오디오 블록을 획득할 수 있고, 복수의 오디오 블록을 중복 영역 간 유사도에 기초하여 오디오 소스 별로 결합할 수 있다. 그리고, 적어도 하나의 프로세서(120)는 오디오 소스 별로 결합된 오디오 데이터(또는 오디오 블록)의 오디오 특징을 추출할 수 있다. 그리고, 적어도 하나의 프로세서(120)는 오디오 특징에 기초하여 결합된 오디오 데이터의 오디오 소스를 특정할 수 있다.
제1 인공 지능 모델은 제2 인공 지능 모델에 적용(또는 입력)되는 입력 데이터를 사전에 판단하는 동작을 수행할 수 있다.
적어도 하나의 프로세서(120)는 제2 인공 지능 모델을 통해 오디오 소스 별로 오디오 신호를 분리할 수 있다.
한편, 상술한 설명에서는 제1 인공 지능 모델 및 제2 인공 지능 모델이 상이한 것으로 기재하였지만, 다양한 실시 예에 따라, 하나의 인공 지능 모델이 상술한 동작을 모두 수행할 수 있다. 하나의 인공 지능 모델 안에 제1 소프트웨어 모듈 및 제2 소프트웨어 모듈이 포함되어 있을 수 있다. 제1 소프트웨어 모듈이 오디오 데이터에 포함된 오디오 소스의 개수를 식별하고, 제2 소프트웨어 모듈이 오디오 소스 별로 오디오 신호를 분리할 수 있다.
다양한 실시 예에 따른 전자 장치(100)는 다양한 오디오 소스에서 출력된 오디오 신호를 포함하는 오디오 데이터를 획득할 수 있다. 그리고, 전자 장치(100)는 오디오 데이터에서 오디오 소스 별 오디오 신호를 추출할 수 있다. 오디오 소스 별로 오디오 신호를 추출함에 있어 분할된 오디오 블록을 결합하는데 중복 영역이 이용될 수 있다. 중복 영역을 이용하는 경우 오디오 결합 과정의 정확도가 높아질 수 있다.
또한, 중복 영역의 유사도를 결정함에 있어 중복 영역을 확장하는 경우, 결합 과정에서 발생하는 오류를 추가적으로 보정할 수 있다. 따라서, 오디오 신호를 분리한 결과의 품질을 향상시킬 수 있다.
또한, 오디오 데이터 내지 오디오 블록을 분할하는 과정에서 오디오 소스의 개수 내지 임계 시간 등을 고려함으로써 최저 품질을 보장할 수 있다.
한편, 이상에서는 전자 장치(100)를 구성하는 간단한 구성에 대해서만 도시하고 설명하였지만, 구현 시에는 다양한 구성이 추가로 구비될 수 있다. 이에 대해서는 도 2를 참조하여 이하에서 설명한다.
도 2는 도 1의 전자 장치(100)의 구체적인 구성을 설명하기 위한 블록도이다.
도 2를 참조하면, 전자 장치(100)는 메모리(110), 적어도 하나의 프로세서(120), 통신 인터페이스(130), 디스플레이(140), 조작 인터페이스(150), 입출력 인터페이스(160), 스피커(170) 또는 마이크(180) 중 적어도 하나를 포함할 수 있다.
한편, 전자 장치(100)의 동작 중에서 앞서 설명한 것과 동일한 동작에 대해서는 중복 설명은 생략한다.
전자 장치(100)가 서버로 구현되는 경우, 전자 장치(100)는 통신 인터페이스(130)를 통해 외부 기기로부터 오디오 데이터를 수신할 수 있다.
전자 장치(100)가 TV로 구현되는 경우, 전자 장치(100)는 디스플레이(140), 입출력 인터페이스(160)를 포함할 수 있다.
전자 장치(100)가 AI(Artificial Intelligence) 스피커에 해당하는 경우, 전자 장치(100)는 스피커(170)를 포함할 수 있다.
전자 장치(100)가 실시간으로 수집된 오디오 데이터를 분석하는 경우, 전자 장치(100)는 마이크(180)를 포함할 수 있다.
본 명세서의 다양한 실시 예들에 따른 전자 장치(100)는, 예를 들면, 스마트폰, 태블릿 PC, 이동 전화기, 영상 전화기, 전자책 리더기, 데스크탑 PC, 랩탑 PC, 넷북 컴퓨터, 워크스테이션, 서버, PDA, PMP(portable multimedia player), MP3 플레이어, 의료기기, 카메라, 또는 웨어러블 장치 중 적어도 하나를 포함할 수 있다. 웨어러블 장치는 액세서리형(예: 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체형(예: 전자 의복), 신체 부착형(예: 스킨 패드 또는 문신), 또는 생체 이식형 회로 중 적어도 하나를 포함할 수 있다. 어떤 실시예들에서, 전자 장치는, 예를 들면, 텔레비전, DVD(digital video disk) 플레이어, 오디오, 냉장고, 에어컨, 청소기, 오븐, 전자레인지, 세탁기, 공기 청정기, 셋톱 박스, 홈 오토매이션 컨트롤 패널, 보안 컨트롤 패널, 미디어 박스(예: 삼성 HomeSyncTM, 애플TVTM, 또는 구글 TVTM), 게임 콘솔(예: XboxTM, PlayStationTM), 전자 사전, 전자 키, 캠코더, 또는 전자 액자 중 적어도 하나를 포함할 수 있다.
메모리(110)는 적어도 하나의 프로세서(120)에 포함된 롬(ROM)(예를 들어, EEPROM(electrically erasable programmable read-only memory)), 램(RAM) 등의 내부 메모리로 구현되거나, 적어도 하나의 프로세서(120)와 별도의 메모리로 구현될 수도 있다. 이 경우, 메모리(110)는 데이터 저장 용도에 따라 전자 장치(100)에 임베디드된 메모리 형태로 구현되거나, 전자 장치(100)에 탈부착이 가능한 메모리 형태로 구현될 수도 있다. 예를 들어, 전자 장치(100)의 구동을 위한 데이터의 경우 전자 장치(100)에 임베디드된 메모리에 저장되고, 전자 장치(100)의 확장 기능을 위한 데이터의 경우 전자 장치(100)에 탈부착이 가능한 메모리에 저장될 수 있다.
한편, 전자 장치(100)에 임베디드된 메모리의 경우 휘발성 메모리(예: DRAM(dynamic RAM), SRAM(static RAM), 또는 SDRAM(synchronous dynamic RAM) 등), 비휘발성 메모리(non-volatile Memory)(예: OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, 플래시 메모리(예: NAND flash 또는 NOR flash 등), 하드 드라이브, 또는 솔리드 스테이트 드라이브(solid state drive(SSD)) 중 적어도 하나로 구현되고, 전자 장치(100)에 탈부착이 가능한 메모리의 경우 메모리 카드(예를 들어, CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), xD(extreme digital), MMC(multi-media card) 등), USB 포트에 연결 가능한 외부 메모리(예를 들어, USB 메모리) 등과 같은 형태로 구현될 수 있다.
적어도 하나의 프로세서(120)는 디지털 신호를 처리하는 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor), TCON(Time controller)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), GPU(graphics-processing unit) 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM(advanced reduced instruction set computer (RISC) machines) 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 적어도 하나의 프로세서(120)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형태로 구현될 수도 있다. 또한, 적어도 하나의 프로세서(120)는 메모리(110)에 저장된 컴퓨터 실행가능 명령어(computer executable instructions)를 실행함으로써 다양한 기능을 수행할 수 있다.
통신 인터페이스(130)는 다양한 유형의 통신 방식에 따라 다양한 유형의 외부 장치와 통신을 수행하는 구성이다. 통신 인터페이스(130)는 무선 통신 모듈 또는 유선 통신 모듈을 포함할 수 있다. 여기서, 각 통신 모듈은 적어도 하나의 하드웨어 칩 형태로 구현될 수 있다.
무선 통신 모듈은 무선으로 외부 장치와 통신하는 모듈일 수 있다. 예를 들어, 무선 통신 모듈은 와이파이 모듈, 블루투스 모듈, 적외선 통신 모듈 또는 기타 통신 모듈 중 적어도 하나의 모듈을 포함할 수 있다.
와이파이 모듈, 블루투스 모듈은 각각 와이파이 방식, 블루투스 방식으로 통신을 수행할 수 있다. 와이파이 모듈이나 블루투스 모듈을 이용하는 경우에는 SSID(service set identifier) 및 세션 키 등과 같은 각종 연결 정보를 먼저 송수신하여, 이를 이용하여 통신 연결한 후 각종 정보들을 송수신할 수 있다.
적외선 통신 모듈은 가시 광선과 밀리미터파 사이에 있는 적외선을 이용하여 근거리에 무선으로 데이터를 전송하는 적외선 통신(IrDA, infrared Data Association)기술에 따라 통신을 수행한다.
기타 통신 모듈은 상술한 통신 방식 이외에 지그비(zigbee), 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), LTE-A(LTE Advanced), 4G(4th Generation), 5G(5th Generation)등과 같은 다양한 무선 통신 규격에 따라 통신을 수행하는 적어도 하나의 통신 칩을 포함할 수 있다.
유선 통신 모듈은 유선으로 외부 장치와 통신하는 모듈일 수 있다. 예를 들어, 유선 통신 모듈은 LAN(Local Area Network) 모듈, 이더넷 모듈, 페어 케이블, 동축 케이블, 광섬유 케이블 또는 UWB(Ultra Wide-Band) 모듈 중 적어도 하나를 포함할 수 있다.
디스플레이(140)는 LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diodes) 디스플레이, PDP(Plasma Display Panel) 등과 같은 다양한 형태의 디스플레이로 구현될 수 있다. 디스플레이(140)내에는 a-si TFT(amorphous silicon thin film transistor), LTPS(low temperature poly silicon) TFT, OTFT(organic TFT) 등과 같은 형태로 구현될 수 있는 구동 회로, 백라이트 유닛 등도 함께 포함될 수 있다. 한편, 디스플레이(140)는 터치 센서와 결합된 터치 스크린, 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display, three-dimensional dispaly) 등으로 구현될 수 있다. 또한, 본 개시의 일 실시 예에 따른, 디스플레이(140)는 이미지를을 출력하는 디스플레이 패널뿐만 아니라, 디스플레이 패널을 하우징하는 베젤을 포함할 수 있다. 특히, 본 개시의 일 실시 예에 따른, 베젤은 사용자 인터렉션을 감지하기 위한 터치 센서(미도시)를 포함할 수 있다.
조작 인터페이스(150)는 버튼, 터치 패드, 마우스 및 키보드와 같은 장치로 구현되거나, 상술한 디스플레이 기능 및 조작 입력 기능도 함께 수행 가능한 터치 스크린으로도 구현될 수 있다. 여기서, 버튼은 전자 장치(100)의 본체 외관의 전면부나 측면부, 배면부 등의 임의의 영역에 형성된 기계적 버튼, 터치 패드, 휠 등과 같은 다양한 유형의 버튼이 될 수 있다.
입출력 인터페이스(160)는 HDMI(High Definition Multimedia Interface), MHL (Mobile High-Definition Link), USB (Universal Serial Bus), DP(Display Port), 썬더볼트(Thunderbolt), VGA(Video Graphics Array)포트, RGB 포트, D-SUB(D-subminiature), DVI(Digital Visual Interface) 중 어느 하나의 인터페이스일 수 있다. 입출력 인터페이스(160)는 오디오 및 비디오 신호 중 적어도 하나를 입출력 할 수 있다. 구현 예에 따라, 입출력 인터페이스(160)는 오디오 신호만을 입출력하는 포트와 비디오 신호만을 입출력하는 포트를 별개의 포트로 포함하거나, 오디오 신호 및 비디오 신호를 모두 입출력하는 하나의 포트로 구현될 수 있다. 한편, 전자 장치(100)는 입출력 인터페이스(160)를 통해 오디오 및 비디오 신호 중 적어도 하나를 외부 장치(예를 들어, 외부 디스플레이 장치 또는 외부 스피커)에 전송할 수 있다. 구체적으로, 입출력 인터페이스(160)에 포함된 출력 포트가 외부 장치와 연결될 수 있으며, 전자 장치(100)는 오디오 및 비디오 신호 중 적어도 하나를 출력 포트를 통해 외부 장치에 전송할 수 있다.
여기서, 입출력 인터페이스(160)는 통신 인터페이스와 연결될 수 있다. 입출력 인터페이스(160)는 외부 기기로부터 수신되는 정보를 통신 인터페이스에 전송하거나 통신 인터페이스를 통해 수신되는 정보를 외부 기기에 전송할 수 있다.
스피커(170)는 각종 오디오 데이터뿐만 아니라 각종 알림 음이나 음성 메시지 등을 출력하는 구성요소일 수 있다.
마이크(180)는 사용자 음성이나 기타 소리를 입력 받아 오디오 데이터로 변환하기 위한 구성이다. 마이크(180)는 활성화 상태에서 사용자의 음성을 수신할 수 있다. 예를 들어, 마이크(180)는 전자 장치(100)의 상측이나 전면 방향, 측면 방향 등에 일체형으로 형성될 수 있다. 마이크(180)는 아날로그 형태의 사용자 음성을 수집하는 마이크, 수집된 사용자 음성을 증폭하는 앰프 회로, 증폭된 사용자 음성을 샘플링하여 디지털 신호로 변환하는 A/D 변환회로, 변환된 디지털 신호로부터 노이즈 성분을 제거하는 필터 회로 등과 같은 다양한 구성을 포함할 수 있다.
도 3은 하나의 오디오 데이터에서 복수의 오디오 소스를 식별하는 동작을 설명하기 위한 도면이다.
도 3의 실시 예(310)를 참조하면, aaa.mp3의 오디오 데이터는 2개의 오디오 소스에 대응되는 오디오 데이터를 포함할 수 있다. 예를 들어, 오디오 소스가 모두 사람이라고 가정한다. aaa.mp3는 2명의 목소리가 혼합된 오디오 파일일 수 있다. 전자 장치(100)는 하나의 오디오 데이터를 분석하여 오디오 소스 각각에 대응되는 오디오 데이터를 획득할 수 있다. 전자 장치(100)는 제1 화자(제1 채널)의 목소리만을 포함하는 오디오 데이터(311)와 제2 화자(제2 채널)의 목소리만을 포함하는 오디오 데이터(312)를 획득할 수 있다.
도 3의 실시 예(320)를 참조하면, 전자 장치(100)는 bbb.mp3의 오디오 데이터를 분석하여 제1 화자(제1 채널)의 목소리만을 포함하는 오디오 데이터(321)와 제2 화자(제2 채널)의 목소리만을 포함하는 오디오 데이터(322)를 획득할 수 있다.
도 4는 복수의 오디오 소스 각각에 대응되는 오디오 데이터를 획득하는 동작을 설명하기 위한 흐름도이다.
도 4를 참조하면, 전자 장치(100)는 오디오 데이터를 획득할 수 있다 (S410). 오디오 데이터는 오디오 또는 사운드를 포함하는 정보를 의미할 수 있다. 오디오 데이터는 오디오 컨텐츠, 오디오 파일 등으로 기재될 수 있다.
전자 장치(100)는 오디오 데이터에 포함된 복수의 오디오 소스를 식별할 수 있다 (S420). 오디오 소스는 오디오 신호의 출처를 의미할 수 있다. 예를 들어, 사용자 음성의 오디오 소스는 사용자일 수 있다. 또한, 자동차 배기음의 오디오 소스는 자동차일 수 있다. 오디오 소스는 음원(사운드 소스), 오디오 오브젝트, 오디오 채널 등으로 기재될 수 있다.
전자 장치(100)는 복수의 오디오 소스 각각에 대응되는 오디오 데이터를 획득할 수 있다 (S430). 전자 장치(100)는 오디오 데이터에 포함된 오디오 신호를 분석하여 복수의 오디오 소스에 대응되는 오디오 데이터를 획득할 수 있다. 예를 들어, 전자 장치(100)는 하나의 오디오 데이터에 기초하여 제1 화자(제1 채널)가 발화한 제1 오디오 데이터 및 제2 화자(제2 채널)가 발화한 제2 오디오 데이터를 획득할 수 있다.
도 5는 오디오 데이터를 분할하여 오디오 소스를 분석하는 동작을 설명하기 위한 흐름도이다.
도 5를 참조하면, 전자 장치(100)는 오디오 데이터를 획득할 수 있다 (S510). 그리고, 전자 장치(100)는 오디오 데이터를 분할할 수 있다 (S520). 하나의 오디오 데이터에 복수의 오디오 소스가 결합되어 있는 경우 분석 정확도가 낮아질 수 있다. 따라서, 오디오 소스를 세밀하게 분석하기 위해 전자 장치(100)는 오디오 데이터를 복수 개로 분할할 수 있다.
전자 장치(100)는 분할된 오디오 데이터에 기초하여 오디오 소스를 분석(또는 식별)할 수 있다 (S530). 전자 장치(100)는 분할된 오디오 데이터 각각을 분석하여 오디오 소스가 무엇인지 판단할 수 있다.
분석 동작이 완료된 후, 전자 장치(100)는 분할된 오디오 데이터를 하나의 오디오 데이터로 결합할 수 있다 (S540). 전자 장치(100)는 분할된 오디오 데이터에 기초하여 오디오 소스를 판단하였으며, 이를 하나의 데이터 형태로 만들기 위해 결합 동작을 수행할 수 있다.
도 6은 오디오 블록을 결합하여 오디오 소스에 대응되는 오디오 데이터를 획득하는 동작을 설명하기 위한 흐름도이다.
도 6을 참조하면, 전자 장치(100)는 오디오 데이터를 획득할 수 있다 (S610). 전자 장치(100)는 오디오 데이터를 분할할 수 있다 (S620). 전자 장치(100)는 분할된 오디오 데이터에 기초하여 오디오 소스를 식별할 수 있다 (S630). 전자 장치(100)는 분할된 오디오 데이터를 각각 분석하여 오디오 신호를 분석할 수 있으며, 분석 결과에 기초하여 적어도 하나의 오디오 소스를 식별할 수 있다.
전자 장치(100)는 분할된 오디오 데이터 각각에 기초하여 오디오 소스에 대응되는 오디오 블록을 획득할 수 있다 (S640). 예를 들어, 전자 장치(100)는 10초의 오디오 데이터를 1초 단위의 10개의 오디오 데이터로 분할할 수 있다. 전자 장치(100)는 1초 단위의 제1 분할 데이터에서 오디오 소스 별로 오디오 블록을 획득할 수 있다. 전자 장치(100)는 복수의 오디오 블록 각각이 어느 오디오 소스에 대응되는 것인지 판단할 수 있다.
전자 장치(100)는 오디오 소스에 기초하여 전체 구간에서 오디오 블록을 결합할 수 있다 (S650). 예를 들어, 전자 장치(100)는 1초 단위 각각의 오디오 데이터에서 획득된 복수의 오디오 블록을 10초 구간에 걸쳐 결합할 수 있다 (S650).
전자 장치(100)는 오디오 소스에 대응되는 오디오 데이터를 획득할 수 있다 (S660). 오디오 소스가 2개이면 오디오 데이터도 2개가 획득될 수 있다. 예를 들어, 전자 장치(100)는 제1 화자(제1 채널)가 발화한 10초짜리 제1 오디오 데이터를 획득하고 제2 화자(제2 채널)가 발화한 10초짜리 제2 오디오 데이터를 획득할 수 있다.
도 7은 복수의 오디오 소스를 구분하기 위해 오디오 데이터를 분할하는 동작을 설명하기 위한 도면이다.
도 7의 실시 예(710)는 복수의 오디오 소스 각각에 대응되는 오디오 블록을 나타낸다. 실시 예(710)는 제1 오디오 소스가 0초부터 3초까지 오디오를 출력하고, 제2 오디오 소스가 2초부터 5초까지 오디오를 출력하고, 제3 오디오 소스가 4초부터 8초까지 오디오를 출력하고, 제4 오디오 소스가 0초부터 2초, 6.5초부터 8초까지 오디오를 출력함을 나타낸다.
도 7의 표(720)는 실시 예(710)에 따라 오디오 데이터를 분할하는 과정을 나타낸다. 원본 오디오 데이터가 8초라고 가정한다. 전자 장치(100)는 0초-8초라는 전체 구간에서 4개의 오디오 소스를 식별할 수 있다. 한번의 분석에서 4개의 오디오 소스를 구분하는 것이 어려운 경우, 전자 장치(100)는 분할 동작을 수행할 수 있다.
따라서, 전자 장치(100)는 8초의 오디오 데이터를 4초 단위로 분할할 수 있다(분할 1단계). 전자 장치(100)는 0초-4초의 제1 그룹에 대응되는 오디오 데이터 및 4초-8초의 제2 그룹에 대응되는 오디오 데이터를 획득할 수 있다. 전자 장치(100)는 0초-4초 구간에서 3개의 오디오 소스를 식별하고, 4초-8초 구간에서 3개의 오디오 소스를 식별할 수 있다. 한번의 분석에서 3개의 오디오 소스를 구분하는 것이 어려운 경우, 전자 장치(100)는 추가 분할 동작을 수행할 수 있다.
따라서, 전자 장치(100)는 4초의 오디오 데이터를 2초 단위로 분할할 수 있다(분할 2단계). 전자 장치(100)는 0초-2초의 제1-1그룹에 대응되는 오디오 데이터, 2초-4초의 제1-2그룹에 대응되는 오디오 데이터, 4초-6초의 제2-1 그룹에 대응되는 오디오 데이터 및 6초-8초의 제2-2 그룹에 대응되는 오디오 데이터를 획득할 수 있다. 전자 장치(100)는 0초-2초 구간에서 2개의 오디오 소스를 식별하고, 2초-4초 구간에서 2개의 오디오 소스를 식별하고, 4초-6초 구간에서 2개의 오디오 소스를 식별하고, 6초-8초 구간에서 2개의 오디오 소스를 식별할 수 있다. 한번의 분석에서 2개의 오디오 소스를 구분할 수 있는 경우, 전자 장치(100)는 추가 분할 동작을 수행하지 않을 수 있다.
도 8은 분할된 오디오 블록을 설명하기 위한 도면이다.
도 8의 실시 예(810)를 참조하면, 전자 장치(100)는 분할된 오디오 데이터에서 오디오 소스에 따라 구분되는 오디오 블록을 획득할 수 있다.
전자 장치(100)는 0초-2초 구간에서 제1 오디오 소스에 대응되는 오디오 블록(811-1)을 획득하고, 2초-4초 구간에서 제1 오디오 소스에 대응되는 오디오 블록(811-2)을 획득할 수 있다.
전자 장치(100)는 2초-4초 구간에서 제2 오디오 소스에 대응되는 오디오 블록(812-1)을 획득하고, 4초-6초 구간에서 제2 오디오 소스에 대응되는 오디오 블록(812-2)을 획득할 수 있다.
전자 장치(100)는 4초-6초 구간에서 제3 오디오 소스에 대응되는 오디오 블록(813-1)을 획득하고, 6초-8초 구간에서 제3 오디오 소스에 대응되는 오디오 블록(813-2)을 획득할 수 있다.
전자 장치(100)는 0초-2초 구간에서 제4 오디오 소스에 대응되는 오디오 블록(814-1)을 획득하고, 6초-8초 구간에서 제3 오디오 소스에 대응되는 오디오 블록(814-2)을 획득할 수 있다.
도 9는 기 설정된 개수의 오디오 소스가 식별될 때까지 오디오 데이터를 분할하는 동작을 설명하기 위한 도면이다.
도 9의 실시 예(910)는 복수의 오디오 소스 각각에 대응되는 오디오 블록을 나타낸다. 실시 예(910)는 제1 오디오 소스가 0초부터 3초까지 오디오를 출력하고, 제2 오디오 소스가 3초부터 6.2초까지 오디오를 출력하고, 제3 오디오 소스가 4초부터 8초까지 오디오를 출력하고, 제4 오디오 소스가 0초부터 3초까지, 6.5초부터 8초까지 오디오를 출력함을 나타낸다.
도 9의 표(920)는 실시 예(910)에 따라 오디오 데이터를 분할하는 과정을 나타낸다. 원본 오디오 데이터가 8초라고 가정한다. 전자 장치(100)는 0초-8초라는 전체 구간에서 4개의 오디오 소스를 식별할 수 있다. 한번의 분석에서 4개의 오디오 소스를 구분하는 것이 어려운 경우, 전자 장치(100)는 분할 동작을 수행할 수 있다.
따라서, 전자 장치(100)는 8초의 오디오 데이터를 4초 단위로 분할할 수 있다(분할 1단계). 전자 장치(100)는 0초-4초의 제1 그룹에 대응되는 오디오 데이터 및 4초-8초의 제2 그룹에 대응되는 오디오 데이터를 획득할 수 있다. 전자 장치(100)는 0초-4초 구간에서 3개의 오디오 소스를 식별하고, 4초-8초 구간에서 3개의 오디오 소스를 식별할 수 있다. 한번의 분석에서 3개의 오디오 소스를 구분하는 것이 어려운 경우, 전자 장치(100)는 추가 분할 동작을 수행할 수 있다.
따라서, 전자 장치(100)는 4초의 오디오 데이터를 2초 단위로 분할할 수 있다(분할 2단계). 전자 장치(100)는 0초-2초의 제1-1그룹에 대응되는 오디오 데이터, 2초-4초의 제1-2그룹에 대응되는 오디오 데이터, 4초-6초의 제2-1 그룹에 대응되는 오디오 데이터 및 6초-8초의 제2-2 그룹에 대응되는 오디오 데이터를 획득할 수 있다. 전자 장치(100)는 0초-2초 구간에서 2개의 오디오 소스를 식별하고, 2초-4초 구간에서 3개의 오디오 소스를 식별하고, 4초-6초 구간에서 2개의 오디오 소스를 식별하고, 6초-8초 구간에서 3개의 오디오 소스를 식별할 수 있다. 한번의 분석에서 2개의 오디오 소스를 구분할 수 있는 경우, 전자 장치(100)는 추가 분할 동작을 수행하지 않을 수 있다. 한번의 분석에서 3개의 오디오 소스를 구분하는 것이 어려운 경우, 전자 장치(100)는 추가 분할 동작을 수행할 수 있다.
따라서, 전자 장치(100)는 2초의 오디오 데이터를 1초 단위로 분할할 수 있다(분할 3단계). 전자 장치(100)는 2초-3초의 제1-2-1그룹에 대응되는 오디오 데이터, 3초-4초의 제1-2-2그룹에 대응되는 오디오 데이터, 6초-7초의 제2-2-1 그룹에 대응되는 오디오 데이터 및 7초-8초의 제2-2-2 그룹에 대응되는 오디오 데이터를 획득할 수 있다. 전자 장치(100)는 2초-3초 구간에서 2개의 오디오 소스를 식별하고, 3초-4초 구간에서 2개의 오디오 소스를 식별하고, 6초-7초 구간에서 2개의 오디오 소스를 식별하고, 7초-8초 구간에서 2개의 오디오 소스를 식별할 수 있다. 한번의 분석에서 2개의 오디오 소스를 구분할 수 있는 경우, 전자 장치(100)는 추가 분할 동작을 수행하지 않을 수 있다.
도 10은 복수의 오디오 소스 각각에 대응되는 오디오 데이터를 획득하는 동작을 설명하기 위한 흐름도이다.
도 10을 참조하면, 전자 장치(100)는 오디오 데이터를 획득할 수 있다 (S1010). 오디오 데이터와 관련된 구체적인 설명은 도 4에서 기재하였으므로, 중복 설명을 생략한다.
전자 장치(100)는 오디오 데이터를 복수의 구간으로 분할할 수 있다 (S1020). 전자 장치(100)는 전체 오디오 데이터를 기 설정된 단위 시간에 기초하여 복수의 구간으로 분할할 수 있다. 분할된 오디오 데이터는 분할 데이터로 기재될 수 있다. 기 설정된 단위 시간은 사용자의 설정에 따라 변경될 수 있다.
전자 장치(100)는 분할된 오디오 데이터에 기초하여 오디오 특징을 획득할 수 있다 (S1030). 전자 장치(100)는 오디오 데이터에 포함된 오디오 신호의 특징을 추출할 수 있다. 오디오 특징은 오디오 신호의 파형, 진동수, 진폭 등을 포함할 수 있다.
전자 장치(100)는 오디오 특징에 기초하여 제1 오디오 소스 및 제2 오디오 소스를 식별할 수 있다 (S1040). 분석 대상의 오디오 데이터(또는 분할된 오디오 데이터)에 복수의 오디오 소스를 통해 출력된 오디오 신호가 포함되어 있다고 가정한다. 전자 장치(100)는 오디오 특징에 기초하여 제1 오디오 소스와 제2 오디오 소스를 식별할 수 있다.
전자 장치(100)는 제1 오디오 소스에 대응되는 제1 오디오 데이터 및 제2 오디오 소스에 대응되는 제2 오디오 데이터를 획득할 수 있다 (S1050). 전자 장치(100)는 복수의 오디오 소스가 출력한 오디오 신호가 결합된 하나의 오디오 데이터에서 오디오 소스 각각에 대응되는 오디오 데이터를 획득할 수 있다. 전자 장치(100)는 제1 오디오 소스에 대응되는 제1 오디오 데이터와 제2 오디오 소스에 대응되는 제2 오디오 데이터를 결합하여 하나의 오디오 데이터를 획득할 수 있다. 획득되는 오디오 데이터는 최초 S1010 단계에서 획득한 오디오 데이터와 동일/유사할 수 있다.
예를 들어, 전자 장치(100)는 하나의 오디오 신호에서 제1 화자가 발화한 제1 음성 데이터와 제2 화자가 발화한 제2 음성 데이터를 분리할 수 있다. 제1 음성 데이터와 제2 음성 데이터를 결합하면 최초 하나의 오디오 데이터가 획득될 수 있다.
도 11은 오디오 소스의 개수를 식별하여 오디오 데이터를 분할하는 동작을 설명하기 위한 흐름도이다.
도 11의 S1110, S1130, S1140, S1150 단계는 도 10의 S1010, S1030, S1040, S1050 단계에 대응될 수 있다. 따라서, 중복 설명을 생략한다.
오디오 데이터를 획득한 후, 전자 장치(100)는 오디오 소스의 개수를 식별할 수 있다 (S1121). 전자 장치(100)는 제1 인공 지능 모델에 기초하여 오디오 소스의 개수를 식별할 수 있다. 전자 장치(100)는 오디오 소스의 개수가 임계 개수 미만인지 식별할 수 있다 (S1122). 임계 개수는 오디오 소스를 정확히 분석하는데 필요한 한계 값을 의미할 수 있다. 임계 개수 이상의 오디오 소스가 포함된 오디오 데이터는 분석하는 동작에 어려움이 있을 수 있다.
오디오 소스의 개수가 임계 개수 미만이 아니면 (S1122-N), 전자 장치(100)는 오디오 데이터를 복수의 구간으로 분할할 수 있다 (S1123). 오디오 소스의 개수가 임계 개수 이상이면, 전자 장치(100)는 오디오 데이터를 분석하는데 어렵다고 판단할 수 있다. 따라서, 전자 장치(100)는 오디오 데이터를 분할할 수 있다. 예를 들어, 분할 기준은 전체 구간의 50%일 수 있다. 전자 장치(100)는 8초의 오디오 데이터를 4초 단위로 분할할 수 있다. 그리고, 전자 장치(100)는 S1121 내지 S1122 단계를 다시 수행할 수 있다.
오디오 소스의 개수가 임계 개수 미만이면 (S1122-Y), 전자 장치(100)는 S1130 내지 S1150 단계를 수행할 수 있다. 오디오 소스의 개수가 임계 개수 미만이면, 전자 장치(100)는 오디오 소스를 정확히 식별할 수 있다고 판단할 수 있다. 전자 장치(100)는 제2 인공 지능 모델을 이용하여 오디오 데이터를 분석할 수 있다. 구체적으로, 전자 장치(100)는 제2 인공 지능 모델에 분할된 오디오 데이터를 입력할 수 있다. 그리고, 전자 장치(100)는 제2 인공 지능 모델로부터 오디오 소스 별 오디오 데이터를 획득할 수 있다.
도 12는 분할되는 오디오 데이터의 최소 시간을 고려하는 동작을 설명하기 위한 흐름도이다.
도 12의 S1210, S1221, S1222, S1223, S1230, S1240, S1250 단계는 도 11의 S1110, S1121, S1122, S1123, S1130, S1140, S1150 단계에 대응될 수 있다. 따라서, 중복 설명을 생략한다.
오디오 데이터를 획득한 후, 전자 장치(100)는 오디오 데이터의 시간이 임계 시간 미만인지 식별할 수 있다 (S1220). 임계 시간은 오디오 특징을 분석하는데 필요한 한계 시간을 의미할 수 있다. 임계 시간 미만의 오디오 신호가 포함된 오디오 데이터를 분석하는 동작에 어려움이 있을 수 있다. 임계 시간은 분할을 금지하는데 이용되는 시간을 의미할 뿐, 전자 장치(100)는 임계 시간 미만의 오디오 신호를 분석할 수 있다.
오디오 데이터(또는 분할된 오디오 데이터)의 시간이 임계 시간 미만이면 (S1220-Y), 전자 장치(100)는 S1230 내지 S1250 단계를 수행할 수 있다. 오디오 데이터(또는 분할된 오디오 데이터)의 시간이 임계 시간 미만이면, 전자 장치(100)는 더 이상의 분할 동작을 수행하지 않고, 바로 오디오 특징을 획득할 수 있다.
오디오 데이터(또는 분할된 오디오 데이터)의 시간이 임계 시간 미만이 아니면 (S1220-N), 전자 장치(100)는 S1221 내지 S1223 단계를 수행하고, S1230 내지 S1250 단계를 수행할 수 있다.
도 13은 오디오 소스의 개수가 허용 범위를 넘어서는 경우 분석을 수행하지 않는 동작을 설명하기 위한 흐름도이다.
도 13의 S1310, S1321, S1322, S1323, S1330, S1340, S1350 단계는 도 12의 S1210, S1221, S1222, S1223, S1230, S1240, S1250 단계에 대응될 수 있다. 따라서, 중복 설명을 생략한다.
오디오 데이터를 획득한 후, 전자 장치(100)는 오디오 데이터의 시간이 임계 시간 미만인지 식별할 수 있다 (S1320).
오디오 데이터의 시간이 임계 시간 미만이 아니면 (S1320-N), 전자 장치(100)는 오디오 소스의 개수를 식별할 수 있다 (S1321). 전자 장치(100)는 오디오 소스의 개수가 제1 임계 개수 미만인지 식별할 수 있다 (S1322). 오디오 소스의 개수가 제1 임계 개수 미만이면 (S1322-Y), 전자 장치(100)는 S1330 내지 S1350 단계를 수행할 수 있다. 오디오 소스의 개수가 제1 임계 개수 미만이 아니면 (S1322-N), 전자 장치(100)는 오디오 데이터를 복수의 구간으로 분할할 수 있다 (S1323) 그리고, S1320 내지 S1322 단계를 반복할 수 있다.
도 12에서는 오디오 데이터의 시간이 임계 시간 미만인 경우 바로 오디오 특징을 획득하는 실시 예를 기재하였다.
다양한 실시 예에 따라, 오디오 데이터의 시간이 임계 시간 미만이면 (S1320-Y), 전자 장치(100)는 오디오 소스의 개수를 식별할 수 있다 (S1320-2). 전자 장치(100)는 오디오 소스가 제2 임계 개수 미만인지 여부를 식별할 수 있다 (S1320-3).
오디오 소스가 제2 임계 개수 미만이면 (S1320-3-Y), 전자 장치(100)는 S1330 내지 S1350 단계를 수행할 수 있다. 오디오 소스가 제2 임계 개수 미만이 아니면 (S1320-3-N), 전자 장치(100)는 오디오 소스를 식별하지 않을 수 있다. 오디오 데이터에 오디오 소스가 허용 개수보다 많이 존재하는 경우, 분석의 정확도가 떨어질 수 있기 때문이다. 따라서, 전자 장치(100)는 해당 부분에 대한 오디오 소스 식별 동작을 수행하지 않을 수 있다.
다양한 실시 예에 따라, 제1 임계 개수보다 제2 임계 개수가 클 수 있다. 제1 임계 개수는 적합한(상대적으로 긴) 시간 구간의 오디오 데이터에서 오디오 소스를 분석 여부를 결정하는 값일 수 있다. 제2 임계 개수는 적합하지 않은(상대적으로 짧은) 시간 구간의 오디오 데이터에서 오디오 소스를 분석 여부를 결정하는 값일 수 있다. 따라서, 제1 임계 개수가 제2 임계 개수보다 클 수 있다. 정확도를 요하는 오디오 분석 동작이 필요한 경우, 전자 장치(100)는 제1 임계 개수를 제2 임계 개수보다 크게 설정할 수 있다.
다양한 실시 예에 따라, 제1 임계 개수가 제2 임계 개수보다 작을 수 있다. 제2 임계 개수를 통해 판단되는 오디오 데이터는 상대적으로 시간 구간이 짧은 오디오 데이터일 수 있다. 시간 구간이 짧은 오디오 데이터는, 더 이상의 분할 동작이 불가할 수 있다. 따라서, 전자 장치(100)는 허용 임계치를 늘려 분석 결과를 획득할 수 있다. 따라서, 제2 임계 개수가 제1 임계 개수보다 클 수 있다. 결과 데이터를 획득하는 것이 중요한 오디오 분석 동작이 필요한 경우, 전자 장치(100)는 제1 임계 개수를 제2 임계 개수보다 작게 설정할 수 있다.
다양한 실시 예에 따라, 제1 임계 개수와 제2 임계 개수를 동일하게 적용할 수 있다. 일반적인 상황에서, 전자 장치(100)는 오디오 소스를 분석하는데 이용하는 임계 개수를 일관되게 적용할 수 있다. 오디오 데이터의 시간 구간에 관계없이 오디오 소스의 개수가 오디오 특징을 획득하는데 중요한 요소일 수 있다. 따라서, 전자 장치(100)는 제1 임계 개수와 제2 임계 개수를 동일하게 적용할 수 있다. 오디오 소스를 식별함에 있어 일관된 성능을 요하는 오디오 분석 동작이 필요한 경우, 전자 장치(100)는 제1 임계 개수와 제2 임계 개수를 동일하게 설정할 수 있다.
도 14는 오디오 블록을 결합하여 오디오 소스에 대응되는 오디오 데이터를 획득하는 동작을 설명하기 위한 흐름도이다.
도 14의 S1410, S1420, S1430, S1440 단계는 도 10의 S1010, S1020, S1030, S1040 단계에 대응될 수 있다. 따라서, 중복 설명을 생략한다.
오디오 특징에 기초하여 제1 오디오 소스 및 제2 오디오 소스를 식별한 후, 전자 장치(100)는 제1 오디오 소스에 대응되는 오디오 블록들 및 제2 오디오 소스에 대응되는 오디오 블록들을 획득할 수 있다 (S1451). 전자 장치(100)는 분할된 오디오 데이터 각각에 기초하여 오디오 소스 별 오디오 블록을 획득할 수 있다.
전자 장치(100)는 오디오 데이터의 전체 구간(또는 전체 시간 구간)에서 제1 오디오 소스에 대응되는 오디오 블록들을 결합하여 제1 오디오 데이터를 획득할 수 있다 (S1452). 전자 장치(100)는 분할된 오디오 데이터 각각에서 획득된 복수의 오디오 블록 중 제1 오디오 소스와 관련된 오디오 블록을 하나의 데이터(제1 오디오 데이터)로 결합할 수 있다.
전자 장치(100)는 오디오 데이터의 전체 구간(또는 전체 시간 구간)에서 제2 오디오 소스에 대응되는 오디오 블록들을 결합하여 제2 오디오 데이터를 획득할 수 있다 (S1453). 전자 장치(100)는 분할된 오디오 데이터 각각에서 획득된 복수의 오디오 블록 중 제2 오디오 소스와 관련된 오디오 블록을 하나의 데이터(제2 오디오 데이터)로 결합할 수 있다.
도 15는 오디오 데이터를 획득함에 있어 무음 블록을 추가하는 동작을 설명하기 위한 흐름도이다.
도 15의 실시 예(1510)는 도 8의 실시 예(810)에서 언급한 복수의 블록을 오디오 소스에 기초하여 결합한 데이터를 나타낸다. 전자 장치(100)는 분할된 오디오 데이터에서 복수의 오디오 블록을 획득할 수 있으며, 각각의 오디오 블록에 기초하여 오디오 특징을 획득할 수 있다. 그리고, 전자 장치(100)는 오디오 특징에 기초하여 오디오 소스를 식별할 수 있다.
전자 장치(100)는 실시 예(810)에서 4개의 오디오 소스를 식별할 수 있다. 그리고, 전자 장치(100)는 4개의 오디오 소스 각각에 대응되는 오디오 블록을 하나의 데이터로 결합할 수 있다. 예를 들어, 전자 장치(100)는 복수의 오디오 블록 중 제1 오디오 소스에 대응되는 오디오 블록을 결합하여 하나의 데이터(1511)로 결합할 수 있다. 전자 장치(100)는 복수의 오디오 블록 중 제2 오디오 소스에 대응되는 오디오 블록을 결합하여 하나의 데이터(1512)로 결합할 수 있다. 전자 장치(100)는 복수의 오디오 블록 중 제3 오디오 소스에 대응되는 오디오 블록을 결합하여 하나의 데이터(1513)로 결합할 수 있다. 전자 장치(100)는 복수의 오디오 블록 중 제4 오디오 소스에 대응되는 오디오 블록을 결합하여 하나의 데이터(1514)로 결합할 수 있다. 데이터(1514)는 시간이 0초-2초, 6.5초-8초로 구분되어 있을 뿐, 하나의 데이터일 수 있다. 데이터(1514)는 2초 내지 6.5초 사이에 오디오 신호가 인식되지 않은 데이터일 수 있다.
도 15의 실시 예(1520)에서, 전자 장치(100)는 오디오 신호가 인식되지 않는 시간 구간에 무음 블록 (또는 무음 신호, 1521, 1522, 1523, 1524, 1525)를 추가할 수 있다. 예를 들어, 전자 장치(100)는 제1 오디오 데이터에서 2.5초-8초 구간에 무음 블록을 추가할 수 있다. 또한, 전자 장치(100)는 제2 오디오 데이터에서 0초-2초, 4.5초-8초 구간에 무음 블록을 추가할 수 있다. 또한, 전자 장치(100)는 제3 오디오 데이터에서 0초-4초 구간에 무음 블록을 추가할 수 있다. 또한, 전자 장치(100)는 제4 오디오 데이터에서 2초-6.5초 구간에 무음 블록을 추가할 수 있다.
무음 블록이 추가되면, 제1 내지 제4 오디오 데이터는 0초 내지 8초에 해당하는 오디오 신호를 포함할 수 있다.
도 16은 오디오 블록들 간 유사도를 획득하는 동작을 설명하기 위한 도면이다.
도 16을 참조하면, 전자 장치(100)는 제1 분할 데이터에서 오디오 블록(1611, 1621)을 획득하고, 제2 분할 데이터에서 오디오 블록(1612, 1622)을 획득하였다고 가정한다. 전자 장치(100)는 복수의 오디오 블록에서 오디오 소스가 동일한 블록을 결합할 수 있다.
전자 장치(100)는 유사도에 기초하여 오디오 블록의 결합 여부를 결정할 수 있다. 전자 장치(100)는 비교 대상이 되는 유사도 중 임계 값 이상인 유사도를 식별하고, 식별된 유사도에 대응되는 오디오 블록들을 결합할 수 있다. 임계값 이상인 유사도가 복수 개인 경우, 가장 높은 유사도에 대응되는 오디오 블록들을 결합할 수 있다.
전자 장치(100)는 제1 분할 데이터에서 획득한 오디오 블록(1611)을 제2 분할 데이터에서 획득한 오디오 블록(1612), 오디오 블록(1622) 중 하나와 결합할 수 있는지 여부를 판단할 수 있다. 전자 장치(100)는 오디오 블록(1611)과 오디오 블록(1612) 사이의 유사도를 획득할 수 있다. 전자 장치(100)는 오디오 블록(1611)과 오디오 블록(1622)사이의 유사도를 획득할 수 있다. 유사도가 임계값 이상이면, 전자 장치(100)는 동일한 오디오 소스에 대응되는 블록인 것으로 식별할 수 있다. 전자 장치(100)는 오디오 블록(1611)과 오디오 블록(1612)이 동일한 오디오 소스에 대응되는 것으로 판단할 수 있다.
전자 장치(100)는 제1 분할 데이터에서 획득한 오디오 블록(1621)을 제2 분할 데이터에서 획득한 오디오 블록(1612), 오디오 블록(1622) 중 하나와 결합할 수 있는지 여부를 판단할 수 있다. 전자 장치(100)는 오디오 블록(1621)과 오디오 블록(1612) 사이의 유사도를 획득할 수 있다. 전자 장치(100)는 오디오 블록(1621)과 오디오 블록(1622)사이의 유사도를 획득할 수 있다. 유사도가 임계값 이상이면, 전자 장치(100)는 동일한 오디오 소스에 대응되는 블록인 것으로 식별할 수 있다. 전자 장치(100)는 오디오 블록(1621)과 오디오 블록(1622)이 동일한 오디오 소스에 대응되는 것으로 판단할 수 있다.
다양한 실시 예에 따라, 오디오 블록(1611) 및 오디오 블록(1612)이 동일한 오디오 소스에 대응되는 것으로 식별하면, 전자 장치(100)는 오디오 블록(1621) 및 오디오 블록(1612) 사이의 유사도를 판단하지 않을 수 있다. 이와 같은 동작을 통해 처리 시간을 단축시킬 수 있다.
도 17은 오디오 데이터를 분할하여 오디오 소스 각각에 대응되는 오디오 데이터를 획득하는 동작을 설명하기 위한 도면이다.
도 17의 실시 예(1710)는 복수의 오디오 소스에서 출력된 오디오 신호가 모두 포함된 오디오 데이터(1711)를 나타낸다. 전자 장치(100)는 오디오 데이터(1711)를 획득할 수 있다. 예를 들어, 오디오 데이터가 8초의 오디오 신호를 포함한다고 가정한다.
도 17의 실시 예(1720)는 분할될 오디오 데이터를 나타낸다. 분할 시점은 6초인 것으로 가정한다. 절반인 4초가 아닌 6초인 이유는 8초 이후에 새로운 오디오 소스에서 출력되는 오디오 신호가 식별되었기 때문일 수 있다. 0-12초 사이의 오디오 데이터가 0-6초의 제1 구간과 6-12의 제2 구간으로 분할될 수 있다. 여기서, 8초 이후에 새로운 오디오 소스가 출력됨에 따라, 제2 구간의 데이터가 6-8초의 제3 구간, 8-10초의 제4 구간으로 다시 분할 될 수 있다. 도 17의 실시 예(1720)에 따라, 전자 장치(100)는 0초-6초 구간에 기초하여 분할된 제1 분할 데이터(1721) 및 6초-8초 구간에 기초하여 분할된 제2 분할 데이터(1722)를 획득할 수 있다. 도 17에서 기재한 실시 예에서 분할 시점은 6초가 아니라 4초일 수 있다. 하지만, 분할 시점은 사용자 설정에 따라 달라 질 수 있으며 특정 방법에 제한되지 않는다.
도 17의 실시 예(1730)는 분할된 오디오 데이터에서 복수의 오디오 블록을 획득하고 결합하는 동작을 나타낸다. 전자 장치(100)는 제1 분할 데이터(1721)에서 오디오 소스가 상이한 제1 오디오 블록(1731-1) 및 제2 오디오 블록(1731-2)을 획득할 수 있다. 전자 장치(100)는 제2 분할 데이터(1722)에서 오디오 소스가 상이한 제3 오디오 블록(1732-1) 및 제4 오디오 블록(1732-2)을 획득할 수 있다. 전자 장치(100)는 획득된 복수의 오디오 블록 사이의 유사도를 획득할 수 있다. 전자 장치(100)는 유사도에 기초하여 동일한 오디오 소스에 대응되는 오디오 블록들을 결합할 수 있다. 전자 장치(100)는 제1 오디오 소스에 대응되는 오디오 블록들(1731-1, 1731-2)을 결합하여 하나의 제1 오디오 데이터(1731-3)를 획득할 수 있다. 전자 장치(100)는 제2 오디오 소스에 대응되는 오디오 블록들(1732-1, 1732-2)을 결합하여 하나의 제2 오디오 데이터(1732-3)를 획득할 수 있다.
도 17의 실시 예(1740)는 제1 오디오 데이터(1731-3) 및 제2 오디오 데이터(1732-3)를 포함하는 하나의 오디오 데이터(1741)를 나타낸다. 전자 장치(100)는 제1 오디오 데이터(1731-3) 및 제2 오디오 데이터(1732-3)를 결합하여 오디오 데이터(1741)를 획득할 수 있다. 오디오 데이터(1741) 및 오디오 데이터(1711)가 동일 또는 유사할 수 있다. 분할 및 합성 과정에서 일부 계산 오차가 발생할 수 있으므로, 오디오 데이터(1741) 및 오디오 데이터(1711)가 완벽하게 동일하지 않을 가능성이 있다.
도 18은 유사도를 획득하는 동작에 있어 중복 영역을 설명하기 위한 도면이다.
전자 장치(100)는 기 설정된 시간을 기준으로 오디오 데이터를 분할할 수 있다. 그리고, 전자 장치(100)는 기 설정된 시간에서 임계 시간을 기준으로 중복 영역을 설정할 수 있다. 중복 영역은 분할된 복수의 오디오 데이터에서 제1 시점의 오디오 데이터와 제1 시점의 다음 시점인 제2 시점의 오디오 데이터가 동일한 오디오 신호를 포함하는 영역(또는 구간)을 의미할 수 있다.
도 18의 실시 예(1810)를 참조하면, 중복 영역은 기 설정된 시간(예를 들어, 2초 단위)에서 임계 시간(예를 들어, 0.1초) 이전의 구간일 수 있다. 0초-8초를 2초 단위로 분할하는 경우 4개의 오디오 데이터를 획득할 수 있다. 전자 장치(100)는 오디오 데이터를 분할함에 있어 중복 영역을 기 설정된 시간에서 임계 시간만큼 이전 구간(또는 범위)로 설정할 수 있다. 예를 들어, 0초-2초 구간에 기초하여 제1 분할 데이터(1811)를 획득하고, 1.9초-4초 구간에 기초하여 제2 분할 데이터(1812)를 획득하고, 3.9초-6초 구간에 기초하여 제3 오디오 데이터(1813)를 획득하고, 5.9초-8초 구간에 기초하여 제4 오디오 데이터(1814)를 획득할 수 있다.
제1 분할 데이터와 제2 분할 데이터의 중복 영역은 1.9초-2초 구간일 수 있다. 제2 분할 데이터와 제3 오디오 데이터의 중복 영역은 3.9초-4초 구간일 수 있다. 제3 오디오 데이터와 제4 오디오 데이터의 중복 영역은 5.9초-6초 구간일 수 있다. 중복 영역은 0.1초 일 수 있다.
도 18의 실시 예(1820)를 참조하면, 중복 영역은 기 설정된 시간(예를 들어, 2초 단위)에서 임계 시간(예를 들어, 0.1초) 이전 및 임계 시간(예를 들어, 0.1초) 이후의 구간일 수 있다. 0초-8초를 2초 단위로 분할하는 경우 4개의 오디오 데이터를 획득할 수 있다. 전자 장치(100)는 오디오 데이터를 분할함에 있어 중복 영역을 기 설정된 시간에서 임계 시간만큼 이전 구간(또는 범위) 및 임계 시간만큼 이후 구간(또는 범위)로 설정할 수 있다. 예를 들어, 0초-2.1초 구간에 기초하여 제1 분할 데이터(1821)를 획득하고, 1.9초-4.1초 구간에 기초하여 제2 분할 데이터(1822)를 획득하고, 3.9초-6.1초 구간에 기초하여 제3 오디오 데이터(1823)를 획득하고, 5.9초-8초 구간에 기초하여 제4 오디오 데이터(1824)를 획득할 수 있다.
제1 분할 데이터와 제2 분할 데이터의 중복 영역은 1.9초-2.1초 구간일 수 있다. 제2 분할 데이터와 제3 오디오 데이터의 중복 영역은 3.9초-4.1초 구간일 수 있다. 제3 오디오 데이터와 제4 오디오 데이터의 중복 영역은 5.9초-6.1초 구간일 수 있다. 중복 영역은 0.2초일 수 있다.
도 19는 유사도에 기초하여 오디오 블록을 결합하는 동작을 설명하기 위한 도면이다.
도 19의 실시 예(1910)는 복수의 오디오 소스에서 출력된 오디오 신호가 모두 포함된 오디오 데이터(1911)를 나타낸다. 전자 장치(100)는 오디오 데이터(1911)를 획득할 수 있다. 예를 들어, 오디오 데이터가 8초의 오디오 신호를 포함한다고 가정한다.
도 19의 실시 예(1920)는 분할될 오디오 데이터를 나타낸다. 분할 시점은 6초인 것으로 가정한다. 분할 시점과 관련된 설명은 도 17에서 기재하였는 바, 이와 관련된 구체적인 설명은 생략한다. 중복 영역은 분할 시점을 기준으로 임계 시간(예를 들어, 0.1초) 이전 및 임계 시간(예를 들어, 0.1초) 이후일 수 있다. 전자 장치(100)는 0초-6.1초 구간에 기초하여 분할된 제1 분할 데이터(1921) 및 5.9초-8초 구간에 기초하여 분할된 제2 분할 데이터(1922)를 획득할 수 있다.
전자 장치(100)는 획득된 복수의 오디오 블록의 중복 영역(1923)을 설정할 수 있다. 중복 영역(1923)은 2개로 분할되는 오디오 데이터가 모두 포함하는 영역을 의미할 수 있다. 전자 장치(100)는 분할되는 2개의 오디오 데이터가 중복 영역을 모두 포함하도록 분할 동작을 수행할 수 있다. 따라서, 제1 분할 데이터(1921) 및 제2 분할 데이터(1922)는 동일한 중복 영역(1923)이 포함할 수 있다.
도 19의 실시 예(1930)는 분할된 오디오 데이터에서 복수의 오디오 블록을 획득하고 결합하는 동작을 나타낸다. 전자 장치(100)는 제1 분할 데이터(1921)에서 오디오 소스가 상이한 제1 오디오 블록(1931-1) 및 제2 오디오 블록(1931-2)을 획득할 수 있다. 전자 장치(100)는 제2 분할 데이터(1922)에서 오디오 소스가 상이한 제3 오디오 블록(1932-1) 및 제4 오디오 블록(1932-2)을 획득할 수 있다.
전자 장치(100)는 획득된 복수의 오디오 블록의 중복 영역(1923)에 기초하여 유사도를 획득할 수 있다. 제1 오디오 블록(1931-1)은 중복 영역(1933-1)을 포함할 수 있다. 제2 오디오 블록(1931-2)은 중복 영역(1933-2)을 포함할 수 있다. 제3 오디오 블록(1932-1)은 중복 영역(1935-1)을 포함할 수 있다. 제4 오디오 블록(1932-2)은 중복 영역(1935-2)을 포함할 수 있다.
전자 장치(100)는 제1 분할 데이터에 포함된 중복 영역과 제2 분할 데이터에 포함된 중복 영역 사이의 유사도를 비교할 수 있다.
전자 장치(100)는 중복 영역(1933-1)과 중복 영역(1933-2)사이의 유사도를 획득할 수 있다. 전자 장치(100)는 중복 영역(1933-1)과 중복 영역(1935-2)사이의 유사도를 획득할 수 있다. 그리고 전자 장치(100)는 획득된 2개의 유사도에 기초하여 제1 오디오 블록(1931-1)과 결합할 오디오 블록을 결정할 수 있다.
전자 장치(100)는 중복 영역(1935-1)과 중복 영역(1933-2)사이의 유사도를 획득할 수 있다. 전자 장치(100)는 중복 영역(1935-1)과 중복 영역(1935-2)사이의 유사도를 획득할 수 있다. 그리고 전자 장치(100)는 획득된 2개의 유사도에 기초하여 제2 오디오 블록(1932-1)과 결합할 오디오 블록을 결정할 수 있다.
전자 장치(100)는 유사도에 기초하여 동일한 오디오 소스에 대응되는 오디오 블록들을 결합할 수 있다. 전자 장치(100)는 제1 오디오 소스에 대응되는 오디오 블록들(1931-1, 1931-2)을 결합하여 하나의 제1 오디오 데이터(1931-3)를 획득할 수 있다. 전자 장치(100)는 제2 오디오 소스에 대응되는 오디오 블록들(1932-1, 1932-2)을 결합하여 하나의 제2 오디오 데이터(1932-3)를 획득할 수 있다.
도 19의 실시 예(1940)는 제1 오디오 데이터(1931-3) 및 제2 오디오 데이터(1932-3)를 포함하는 하나의 오디오 데이터(1941)를 나타낸다. 전자 장치(100)는 제1 오디오 데이터(1931-3) 및 제2 오디오 데이터(1932-3)를 결합하여 오디오 데이터(1941)를 획득할 수 있다. 오디오 데이터(1941) 및 오디오 데이터(1911)가 동일 또는 유사할 수 있다. 분할 및 합성 과정에서 일부 계산 오차가 발생할 수 있으므로, 오디오 데이터(1941) 및 오디오 데이터(1911)가 완벽하게 동일하지 않을 가능성이 있다.
도 20은 오디오 블록들 간 유사도를 획득하는 동작을 설명하기 위한 흐름도이다.
도 20의 S2010, S2040, S2050 단계는 도 10의 S1010, S1040, S1050 단계에 대응될 수 있다. 따라서, 중복 설명을 생략한다.
오디오 데이터를 획득한 후, 전자 장치(100)는 오디오 데이터를 중복 영역을 포함하는 복수의 오디오 데이터로 분할할 수 있다 (S2021). 도 19의 실시 예(1920)와 같이, 분할되는 2개의 오디오 데이터는 동일한 중복 영역을 포함할 수 있다. 분할되는 모든 오디오 데이터가 동일한 중복 영역을 포함하는 것이 아니며, 특정 시점을 기준으로 분할되는 2개의 오디오 데이터가 동일한 중복 영역을 포함할 수 있다.
전자 장치(100)는 분할된 오디오 데이터에서 복수의 오디오 블록들을 획득할 수 있다 (S2031). 전자 장치(100)는 오디오 소스가 상이하다고 판단되는 오디오 블록을 구분할 수 있다. 이 단계에서, 전자 장치(100)는 오디오 소스를 특정하지 않고 단순히 서로 다른 오디오 소스라고 판단되는 오디오 신호를 별도의 블록으로 구분할 수 있다. 예를 들어, 도 19의 실시 예(1930)와 같이 제1 분할 데이터(1921)는 제1 오디오 블록(1931-1) 및 제2 오디오 블록(1932-1)으로 구분될 수 있다.
전자 장치(100)는 복수의 오디오 블록들 사이의 유사도를 획득할 수 있다 (S2032). 유사도는 중복 영역간 유사도를 의미할 수 있다. 예를 들어, 도 19의 실시 예(1930)와 같이, 전자 장치(100)는 중복 영역(1933-1)과 중복 영역(1933-2) 사이의 유사도를 획득할 수 있다. 또한, 전자 장치(100)는 중복 영역(1933-1)과 중복 영역(1935-2) 사이의 유사도를 획득할 수 있다.
전자 장치(100)는 유사도 획득 결과에 기초하여 오디오 블록들을 결합하여 오디오 데이터를 획득할 수 있다 (S2033). 전자 장치(100)는 획득되는 유사도에 기초하여 어느 블록을 결합할지 결정할 수 있다. 전자 장치(100)는 동일한 오디오 소스라고 판단되는 블록들을 결합할 수 있다.
전자 장치(100)는 오디오 데이터에 기초하여 오디오 특징을 획득할 수 있다 (S2034). 전자 장치(100)는 적어도 하나의 오디오 블록이 결합된 오디오 데이터에 기초하여 오디오 특징을 획득할 수 있다. 예를 들어, 도 19의 실시 예(1930)에서, 전자 장치(100)는 오디오 블록(1931-1, 1931-2)들이 결합된 제1 오디오 데이터(1931-3)에 기초하여 오디오 특징을 획득하고, 오디오 블록(1932-1, 1932-2)들이 결합된 제2 오디오 데이터(1932-3)에 기초하여 오디오 특징을 획득할 수 있다.
이후, 전자 장치(100)는 S2040 내지 S2050 단계를 수행할 수 있다. 전자 장치(100)는 각각의 오디오 데이터에 대응되는 오디오 소스를 식별할 수 있다. 전자 장치(100)는 단순히 제1 오디오 데이터(1931-3)와 제2 오디오 데이터(1932-3)가 상이한 오디오 소스라는 결과를 획득할 수 있다. 또한, 전자 장치(100)는 제1 오디오 데이터(1931-3)가 특정 오디오 소스(예를 들어, 남자 사람)로부터 출력되고, 제2 오디오 데이터(1932-3)가 특정 오디오 소스(예를 들어, 여자 사람)로부터 출력된 것이라는 결과를 획득할 수 있다.
도 21은 오디오 블록들 간 유사도를 획득하는 동작을 구체적인 예시로 설명하기 위한 흐름도이다.
도 21을 참조하면, 전자 장치(100)는 오디오 데이터를 획득할 수 있다 (S2110). 그리고, 전자 장치(100)는 오디오 데이터를 중복 영역을 포함하는 제1 분할 데이터 및 제2 분할 데이터로 분할할 수 있다 (S2120).
전자 장치(100)는 제1 분할 데이터에 기초하여 오디오 특징을 획득할 수 있다 (S2130-1). 전자 장치(100)는 오디오 특징에 기초하여 제1 오디오 소스 및 제2 오디오 소스를 식별할 수 있다 (S2140-1). 전자 장치(100)는 제1 오디오 소스에 대응되는 제1 오디오 블록 및 제2 오디오 소스에 대응되는 제2 오디오 블록을 획득할 수 있다 (S2141-1).
전자 장치(100)는 제2 분할 데이터에 기초하여 오디오 특징을 획득할 수 있다 (S2130-2). 전자 장치(100)는 오디오 특징에 기초하여 제1 오디오 소스 및 제2 오디오 소스를 식별할 수 있다 (S2140-2). 전자 장치(100)는 제1 오디오 소스에 대응되는 제3 오디오 블록 및 제2 오디오 소스에 대응되는 제4 오디오 블록을 획득할 수 있다 (S2141-2).
전자 장치(100)는 제1 분할 데이터에서 획득한 오디오 블록(제1 오디오 블록, 제2 오디오 블록)과 제2 분할 데이터에서 획득한 오디오 블록(제3 오디오 블록, 제4 오디오 블록) 사이의 유사도를 획득할 수 있다 (S2151).
전자 장치(100)는 유사도 획득 결과에 기초하여 제1 오디오 블록 및 제3 오디오 블록을 결합하여 제1 오디오 데이터를 획득할 수 있다 (S2152). 전자 장치(100)는 유사도 획득 결과에 기초하여 제2 오디오 블록 및 제4 오디오 블록을 결합하여 제2 오디오 데이터를 획득할 수 있다 (S2153).
도 22는 다양한 실시 예에 따라, 오디오 블록을 분석하는 동작을 설명하기 위한 도면이다.
도 22의 실시 예(2210)는 서로 다른 오디오 소스에서 출력되는 오디오 신호를 나타낸다. 그래프(2211)는 제1 오디오 소스에서 출력되는 오디오 신호이고, 그래프(2212)는 제2 오디오 소스에서 출력되는 오디오 신호이다. 그래프(2211)는 제1 오디오 소스가 2초부터 8초까지 오디오 신호를 출력함을 나타내고, 그래프(2212)는 제2 오디오 소스가 0초부터 8초까지 오디오 신호를 출력함을 나타낸다.
도 22의 실시 예(2220)는 서로 다른 오디오 소스에서 출력되는 오디오 신호를 나타낸다. 그래프(2221)는 제1 오디오 소스에서 출력되는 오디오 신호이고, 그래프(2222)는 제2 오디오 소스에서 출력되는 오디오 신호이다. 그래프(2221)는 제1 오디오 소스가 0초부터 8초까지 오디오 신호를 출력함을 나타내고, 그래프(2222)는 제2 오디오 소스가 0초부터 8초까지 오디오 신호를 출력함을 나타낸다.
도 23은 중복 영역의 무음 여부에 기초하여 오디오 특징을 분석하는 동작을 설명하기 위한 흐름도이다.
도 23을 참조하면, 전자 장치(100)는 오디오 데이터를 획득할 수 있다 (S2310). 전자 장치(100)는 오디오 데이터를 중복 영역을 포함하는 복수의 오디오 데이터로 분할할 수 있다 (S2320). 전자 장치(100)는 분할된 오디오 데이터에서 복수의 오디오 블록들을 획득할 수 있다 (S2330). 전자 장치(100)는 특정 구간에서 오디오 블록을 분석할 수 있다 (S2340).
전자 장치(100)는 오디오 데이터의 분석이 완료되었는지 여부를 판단할 수 있다 (S2341). 전자 장치(100)는 분할되기 전의 오디오 데이터의 전체 시간 구간에 대하여 분석이 완료되었는지 여부를 판단할 수 있다. 분석이 완료되면 (S2341-Y), 전자 장치(100)는 오디오 소스에 대응되는 오디오 데이터를 획득할 수 있다 (S2350).
분석이 완료되지 않으면 (S2341-N), 전자 장치(100)는 분할된 오디오 데이터의 중복 영역이 무음인지 여부를 판단할 수 있다 (S2342).
중복 영역이 무음인 경우 (S2342-Y), 전자 장치(100)는 분할된 오디오 데이터의 전체 영역이 무음인지 식별할 수 있다 (S2343). 분할된 오디오 데이터의 전체 영역이 무음이 아닌 경우 (S2343-N), 전자 장치(100)는 분할된 오디오 데이터에 기초하여 오디오 특징을 획득할 수 있다 (S2344). S2344 단계는 중복 영역이 무음에 해당하여 연결된 오디오 신호가 없다고 판단되는 경우에 수행되는 동작일 수 있다. 중복 영역이 무음이고 중복 영역 이외의 영역이 무음이 아니면, 전자 장치(100)는 분할된 오디오 데이터가 독립적인 오디오 데이터라고 판단할 수 있다. 그리고, 전자 장치(100)는 다음 구간에서 오디오 블록을 분석할 수 있다 (S2340). 그리고, 전자 장치(100)는 S2341 내지 S2350 단계를 반복할 수 있다.
분할된 오디오 데이터의 전체 영역이 무음이면 (S2343-Y), 전자 장치(100)는 다음 구간에서 오디오 블록을 분석할 수 있다 (S2340). 그리고, 전자 장치(100)는 S2341 내지 S2350 단계를 반복할 수 있다.
중복 영역이 무음이 아니면 (S2342-N), 전자 장치(100)는 복수의 오디오 블록들 사이의 유사도를 획득할 수 있다 (S2345). 전자 장치(100)는 유사도가 임계값 이상인 오디오 블록이 존재하는지 여부를 식별할 수 있다 (S2346). S2346 단계는 특정 오디오 블록과 결합될 가능성이 있는 모든 오디오 블록들에 대한 유사도 비교 동작을 의미할 수 있다.
유사도가 임계값 이상인 오디오 블록이 존재하지 않으면 (S2346-N), 전자 장치(100)는 현재 대상 오디오 블록에 기초하여 오디오 특징을 획득할 수 있다 (S2347). S2347 단계는 현재 대상 오디오 블록과 연결된 오디오 블록이 없다고 판단되는 경우에 수행되는 동작일 수 있다. 중복 영역이 무음이 아니고 유사도가 임계값 이상인 오디오 블록이 없는 경우, 전자 장치(100)는 대상 오디오 블록이 독립적인 오디오 블록이라고 판단할 수 있다. 그리고, 전자 장치(100)는 다음 구간에서 오디오 블록을 분석할 수 있다 (S2340). 그리고, 전자 장치(100)는 S2341 내지 S2350 단계를 반복할 수 있다.
유사도가 임계값 이상인 오디오 블록이 존재하면 (S2346-Y), 전자 장치(100)는 유사도 획득 결과에 기초하여 오디오 블록들을 결합할 수 있다 (S2348). 그리고, 전자 장치(100)는 다음 구간에서 오디오 블록을 분석할 수 있다 (S2340). 그리고, 전자 장치(100)는 S2341 내지 S2350 단계를 반복할 수 있다.
도 23의 실시 예에서는 유사도가 임계값 이상인 오디오 블록들이 연속적으로 결합될 수 있다. 전체 시간 구간에 대하여 유사한 오디오 블록들이 반복하여 결합되고 더 이상 결합될 오디오 블록들이 없는 경우, 전자 장치(100)는 오디오 특징을 획득하여 분석 동작을 수행할 수 있다. 오디오 블록 각각에 대하여 개별적으로 분석하는 방법보다 오디오 블록이 결합된 오디오 데이터를 분석하는 방법이 정확성이 더 높을 수 있다.
도 24는 중복 영역의 무음 여부에 기초하여 오디오 특징을 분석하는 동작을 구체적인 예시로 설명하기 위한 흐름도이다.
도 24의 실시 예는 도 23의 실시 예에 대응될 수 있다. 따라서, 중복 설명을 생략한다.
전자 장치(100)는 오디오 데이터를 획득할 수 있다 (S2410). 전자 장치(100)는 오디오 데이터를 중복 영역을 포함하는 제1 분할 데이터 및 제2 분할 데이터로 분할할 수 있다 (S2420). 전자 장치(100)는 제1 분할 데이터에서 제1 오디오 블록 및 제2 오디오 블록을 획득하고, 제2 분할 데이터에서 제3 오디오 블록 및 제4 오디오 블록을 획득할 수 있다. (S2430). 전자 장치(100)는 특정 구간에서 오디오 블록을 분석할 수 있다 (S2440).
전자 장치(100)는 오디오 데이터의 분석이 완료되었는지 여부를 판단할 수 있다 (S2441). 전자 장치(100)는 분할되기 전의 오디오 데이터의 전체 시간 구간에 대하여 분석이 완료되었는지 여부를 판단할 수 있다. 분석이 완료되면 (S2441-Y), 전자 장치(100)는 제1 오디오 소스에 대응되는 제1 오디오 데이터 및 제2 오디오 소스에 대응되는 제2 오디오 데이터를 획득할 수 있다 (S2450).
분석이 완료되지 않으면 (S2441-N), 전자 장치(100)는 제1 오디오 블록의 중복 영역이 무음인지 여부를 판단할 수 있다 (S2442).
제1 오디오 블록의 중복 영역이 무음인 경우 (S2442-Y), 전자 장치(100)는 제1 분할 데이터의 전체 영역이 무음인지 식별할 수 있다 (S2443). 제1 분할 데이터의 전체 영역이 무음이 아닌 경우 (S2443-N), 전자 장치(100)는 제1 분할 데이터에 기초하여 오디오 특징을 획득할 수 있다 (S2444).
분할된 오디오 데이터의 전체 영역이 무음이면 (S2443-Y), 전자 장치(100)는 다음 구간에서 오디오 블록을 분석할 수 있다 (S2440). 그리고, 전자 장치(100)는 S2441 내지 S2450 단계를 반복할 수 있다.
중복 영역이 무음이 아니면 (S2442-N), 전자 장치(100)는 제1 오디오 블록과 제3 오디오 블록 사이의 제1 유사도를 획득하고 제2 오디오 블록과 제4 오디오 블록 사이의 제2 유사도를 획득할 수 있다 (S2445). 전자 장치(100)는 제1 유사도 또는 제2 유사도가 임계값 이상인지 여부를 식별할 수 있다 (S2446). S2446 단계는 특정 오디오 블록과 결합될 가능성이 있는 모든 오디오 블록들에 대한 유사도 비교 동작을 의미할 수 있다.
제1 유사도 및 제2 유사도가 모두 임계값 이상이 아니면 (S2446-N), 전자 장치(100)는 제1 오디오 블록에 기초하여 오디오 특징을 획득할 수 있다 (S2447). S2447 단계는 현재 대상 오디오 블록과 연결된 오디오 블록이 없다고 판단되는 경우에 수행되는 동작일 수 있다. 중복 영역이 무음이 아니고 유사도가 임계값 이상인 오디오 블록이 없는 경우, 전자 장치(100)는 대상 오디오 블록이 독립적인 오디오 블록이라고 판단할 수 있다. 그리고, 전자 장치(100)는 다음 구간에서 오디오 블록을 분석할 수 있다 (S2440). 그리고, 전자 장치(100)는 S2441 내지 S2450 단계를 반복할 수 있다.
제1 유사도 또는 제2 유사도가 임계값 이상이면 (S2446-Y), 전자 장치(100)는 유사도가 임계값 이상인 오디오 블록(제3 오디오 블록 또는 제4 오디오 블록)과 제1 오디오 블록을 결합할 수 있다 (S2448). 그리고, 전자 장치(100)는 다음 구간에서 오디오 블록을 분석할 수 있다 (S2440). 그리고, 전자 장치(100)는 S2441 내지 S2450 단계를 반복할 수 있다.
도 25는 다른 구간의 중복 영역이 무음인지 여부에 기초하여 오디오 특징을 분석하는 동작을 설명하기 위한 흐름도이다.
도 25의 S2510, S2525, S2530, S2540, S2541, S2542, S2543, S2544, S2545, S2546, S2547, S2548 단계는 도 23의 S2310, S2323, S2330, S2340, S2341, S2342, S2343, S2344, S2345, S2346, S2347, S2348 단계에 대응될 수 있다. 따라서, 중복 설명을 생략한다.
오디오 데이터의 중복 영역이 무음이 아니면 (S2542-N), 전자 장치(100)는 다른 구간의 중복 영역이 모두 무음인지 여부를 식별할 수 있다 (S2542-2). 다른 구간의 중복 영역은 현재 타겟의 오디오 블록과 결합될 가능성이 있는 다음 구간의 중복 영역을 의미할 수 있다.
다른 구간의 중복 영역이 모두 무음이면 (S2542-2-Y), 전자 장치(100)는 S2547 단계를 수행할 수 있다.
다른 구간의 중복 영역이 모두 무음이 아니면 (S2542-2-N), 전자 장치(100)는 S2545 내지 S2548 단계를 수행할 수 있다.
도 26은 다른 구간의 중복 영역이 무음인지 여부에 기초하여 오디오 특징을 분석하는 동작을 구체적인 예시로 설명하기 위한 흐름도이다.
도 26의 S2610, S2626, S2630, S2640, S2641, S2642, S2643, S2644, S2645, S2646, S2647, S2648 단계는 도 24의 S2410, S2424, S2430, S2440, S2441, S2442, S2443, S2444, S2445, S2446, S2447, S2448 단계에 대응될 수 있다. 따라서, 중복 설명을 생략한다.
제1 오디오 블록의 중복 영역이 무음이 아니면 (S2642-N), 전자 장치(100)는 제3 오디오 블록의 중복 영역 및 제4 오디오 블록의 중복 영역이 모두 무음인지 여부를 식별할 수 있다 (S2642-2). 다른 구간의 중복 영역은 현재 타겟의 오디오 블록과 결합될 가능성이 있는 다음 구간의 중복 영역을 의미할 수 있다.
예를 들어, 도 19의 실시 예(1930)를 참조하면, 타겟의 오디오 블록(1931-1)의 중복 영역(1933-1)이 무음이 아닌 경우 다음 구간의 오디오 블록(1931-2)의 중복 영역(1933-2) 및 오디오 블록(1932-2)의 중복 영역(1932-2)이 모두 무음인지 여부를 식별할 수 있다.
제3 오디오 블록의 중복 영역 및 제4 오디오 블록의 중복 영역이 모두 무음이면 (S2642-2-Y), 전자 장치(100)는 S2647 단계를 수행할 수 있다.
제3 오디오 블록의 중복 영역 및 제4 오디오 블록의 중복 영역이 모두 무음이 아니면 (S2642-2-N), 전자 장치(100)는 S2645 내지 S2648 단계를 수행할 수 있다.
도 27은 중복 영역을 증가시키는 동작을 설명하기 위한 흐름도이다.
도 27의 S2710, S2727, S2730, S2740, S2741, S2742, S2743, S2744, S2745, S2747, S2748 단계는 도 23의 S2310, S2323, S2330, S2340, S2341, S2342, S2343, S2344, S2345, S2347, S2348 단계에 대응될 수 있다. 따라서, 중복 설명을 생략한다.
복수의 오디오 블록들 사이의 유사도를 획득한 후, 전자 장치(100)는 유사도가 제1 임계값 이상인지 식별할 수 있다 (S2346-1).
유사도가 제1 임계값 이상이면 (S2346-1 ?Y), 전자 장치(100)는 유사도 획득 결과에 기초하여 오디오 블록들을 결합할 수 있다 (S2348).
유사도가 제1 임계값 이상이 아니면 (S2346-1), 전자 장치(100)는 유사도가 제2 임계값 이상인지 식별할 수 있다 (S2346-2-Y). 유사도가 제2 임계값 이상이 아니면 (S2346-2-N), 전자 장치(100)는 오디오 블록에 기초하여 오디오 특징을 획득할 수 있다 (S2347). 유사도가 제2 임계값 이상이면 (S2346-2-Y), 전자 장치(100)는 중복 영역을 증가시킬 수 있다 (S2346-3). 그리고, 전자 장치(100)는 증가된 중복 영역에 기초하여 분할 동작을 재수행할 수 있다 (S2320). 그리고, 전자 장치(100)는 S2330 내지 S2350 단계를 반복할 수 있다.
제1 임계값은 제2 임계값보다 클 수 있다.
유사도가 제1 임계값 이상인 경우, 전자 장치(100)는 유사도를 획득하는데 비교되었던 오디오 블록들을 결합할 수 있다.
유사도가 제1 임계값 미만이고 제2 임계값 이상인 경우, 전자 장치(100)는 중복 영역을 증가하여 오디오 데이터를 재분할할 수 있다. 중복 영역을 증가시켜 유사도 비교 여부를 다시 판단 받고자 함이다.
유사도가 제2 임계값 미만인 경우, 전자 장치(100)는 타겟 오디오 블록에 대하여 오디오 특징을 획득할 수 있다. 더 이상 연결될 오디오 블록이 없다고 판단했기 때문이다.
도 28은 오디오 특징을 분석하는 동작을 설명하기 위한 흐름도이다.
도 28을 참조하면, 전자 장치(100)는 오디오 특징을 획득할 수 있다 (S2810). 그리고, 전자 장치(100)는 오디오 특징이 기 저장된 오디오 소스의 특징인지 식별할 수 있다 (S2820). 전자 장치(100)는 적어도 하나의 오디오 소스와 관련된 오디오 특징을 저장할 수 있다. 전자 장치(100)는 S2810 단계에서 획득한 오디오 특징이 기 저장된 오디오 소스의 특징과 유사 한지 여부를 비교할 수 있다.
획득된 오디오 특징이 기 저장된 오디오 소스의 특징이면 (S2820-Y), 전자 장치(100)는 오디오 특징에 기초하여 기 저장된 오디오 소스를 식별할 수 있다 (S2830). 전자 장치(100)는 오디오 특징을 획득한 오디오 블록(또는 오디오 데이터)이 기 저장된 오디오 소스에 의하여 출력된 것이라고 판단할 수 있다.
획득된 오디오 특징이 기 저장된 오디오 소스의 특징이 아니면 (S2820-N), 전자 장치(100)는 새로운 오디오 소스를 식별할 수 있다 (S2840). 전자 장치(100)는 오디오 특징을 획득한 오디오 블록(또는 오디오 데이터)이 새로운 오디오 소스에 의하여 출력된 것이라고 판단할 수 있다. 전자 장치(100)는 새로운 오디오 소스에 대한 정보를 저장할 수 있다.
도 29는 다양한 실시 예에 따라, 무음 여부를 판단하는 동작을 설명하기 위한 도면이다.
도 29의 실시 예(2910)는, 0초-8초 구간의 오디오 데이터를 나타낸다. 전자 장치(100)는 오디오 데이터의 전체 구간에서 최대값(peak)을 획득할 수 있다.
도 29의 실시 예(2920)는 분할된 오디오 데이터를 나타낸다. 전자 장치(100)는 0초-8초의 오디오 데이터를 분할하여 0초-6초 구간의 제1 분할 데이터와 6초-8초 구간의 제2 분할 데이터를 획득할 수 있다. 전자 장치(100)는 제1 분할 데이터에 포함된 오디오 신호의 제1 평균값(aver1)을 획득할 수 있다. 전자 장치(100)는 제2 분할 데이터에 포함된 오디오 신호의 제2 평균값(aver2)을 획득할 수 있다.
전자 장치(100)는 실시 예(2910)에서 획득한 최대값(peak)과 제1 평균값(aver1) 또는 제2 평균값(aver2)을 비교할 수 있다. 구체적으로, 전자 장치(100)는 최대값과 평균값의 차이값을 획득할 수 있다. 그리고, 전자 장치(100)는 차이값이 임계 값 이상인지 여부를 판단할 수 있다. 차이값이 임계값 이상이면, 전자 장치(100)는 해당 오디오 데이터가 무음인 것으로 판단할 수 있다. 획득된 오디오 신호가 있지만, 오디오 신호에 주변 잡음이 포함된 것일 수 있다. 평균값이 최고값에 비하여 상대적으로 너무 낮은 경우, 전자 장치(100)는 해당 오디오 신호가 무음인 것으로 판단할 수 있다.
도 29의 실시 예(2930)는 제1 분할 데이터를 다시 4개의 오디오 데이터로 분할한 것을 나타낸다. 전자 장치(100)는 분할된 각 오디오 데이터(2931, 2932, 2933, 2934)에 기초하여 평균값(aver1, aver2, aver3, aver4)을 각각 획득할 수 있다.
전자 장치(100)는 획득한 최대값(peak)과 평균값들(aver1, aver2, aver3, aver4)을 비교할 수 있다. 그리고, 최대값(peak)과 평균값들(aver1, aver2, aver3, aver4)의 차이값을 획득할 수 있다. 그리고, 전자 장치(100)는 차이값이 임계 값 이상인지 여부를 판단할 수 있다. 차이값이 임계값 이상이면, 전자 장치(100)는 해당 오디오 데이터가 무음인 것으로 판단할 수 있다.
도 30은 다양한 실시 예에 따라, 무음 여부를 판단하는 동작을 설명하기 위한 도면이다.
전자 장치(100)는 오디오 블록 간 결합 여부를 판단하기 위해 서로 다른 오디오 데이터에 공통으로 포함된 중복 영역을 비교할 수 있다. 전자 장치(100)는 중복 영역이 무음인지 여부를 판단할 수 있다. 실제 오디오 신호는 잡음이 포함되어 있으므로 완벽히 오디오 신호가 측정되지 않을 수 있다. 따라서, 전자 장치(100)는 무음을 판단하는 기준을 오디오 분석 동작에 적용할 수 있다.
도 30의 실시 예(3010)는 실시 예(2910)는, 0초-8초 구간의 오디오 데이터를 나타낸다. 전자 장치(100)는 오디오 데이터의 전체 구간에서 최대값(peak)을 획득할 수 있다. 전자 장치(100)는 6초를 기준으로 오디오 데이터를 분할 수 있다.
도 30의 실시 예(3020)는 분할된 오디오 데이터를 나타낸다. 전자 장치(100)는 0초-8초의 오디오 데이터를 분할하여 0초-6초 구간의 제1 분할 데이터(3021)와 6초-8초 구간의 제2 분할 데이터(3022)를 획득할 수 있다.
도 30의 실시 예(3030)는 분할된 오디오 데이터에서 추출된 중복 영역을 나타낸다. 전자 장치(100)는 제1 분할 데이터에서 중복 영역(3031)을 획득하고 제2 분할 데이터에서 중복 영역(3032)을 획득할 수 있다.
전자 장치(100)는 중복 영역(3031)에 포함된 오디오 신호의 평균값(aver1)을 획득할 수 있다. 전자 장치(100)는 중복 영역(3032)에 포함된 오디오 신호의 평균값(aver2)을 획득할 수 있다. 그리고, 전자 장치(100)는 실시 예(3010)에서 획득한 최고값(peak)과 평균값들(aver1, aver2)을 비교할 수 있다. 구체적으로, 최고값(peak)과 평균값(aver1)의 차이값이 임계값 이상이면, 전자 장치(100)는 중복 영역(3031)이 무음인 것으로 판단할 수 있다. 최고값(peak)과 평균값(aver2)의 차이값이 임계값 이상이면, 전자 장치(100)는 중복 영역(3032)이 무음인 것으로 판단할 수 있다.
도 29 및 도 30에서 기재한 최고값과 평균값의 차이값을 이용하는 방법은 분산 계산, 표준 편차 계산, 평균 제곱 오차 계산 등을 의미할 수 있다.
도 31은 유사도를 획득하는 동작을 설명하기 위한 도면이다.
도 31의 실시 예(3110)는 분할된 오디오 블록을 나타낸다. 전자 장치(100)는 제1 오디오 블록(3111) 및 제2 오디오 블록(3112)를 획득할 수 있다.
도 31의 실시 예(3120)는 추출된 중복 영역을 나타낸다. 전자 장치(100)는 제1 오디오 블록(3111)에서 중복 영역(3121)을 획득하고, 제2 오디오 블록(3112)에서 중복 영역(3122)을 획득할 수 있다.
도 31의 실시 예(3130)는 정규화된 중복 영역을 나타낸다. 전자 장치(100)는 동일한 스케일에의 비교 및 정확하고 빠른 계산을 위해 정규화 동작을 수행할 수 있다. 전자 장치(100)는 중복 영역(3121)을 정규화하여 제1 정규화 데이터(3131)를 획득할 수 있다. 전자 장치(100)는 중복 영역(3122)을 정규화하여 제2 정규화 데이터(3132)를 획득할 수 있다. 전자 장치(100)는 제1 정규화 데이터(3131) 및 제2 정규화 데이터(3132) 사이의 유사도를 획득할 수 있다. 이론적으로는 중복 영역에 대한 데이터의 비교 동작이므로 제1 정규화 데이터(3131) 및 제2 정규화 데이터(3132)는 동일해야 한다. 하지만, 실제 계산 과정에서 노이즈 및 오차 등이 발생할 수 있다는 점에서, 전자 장치(100)는 유사도가 임계값 이상인지 여부를 판단한다. 전자 장치(100)는 정규화 데이터간 유사도가 임계값 이상이면, 제1 오디오 블록(3111)과 제2 오디오 블록(3112)을 결합할 수 있다.
도 32는 다양한 실시 예에 따라, 오디오 추출 동작과 관련된 UI(User Interface)를 설명하기 위한 도면이다.
도 32을 참조하면, 전자 장치(100)는 오디오 추출과 관련된 UI를 사용자에게 제공할 수 있다. 전자 장치(100)가 오디오 추출 어플리케이션을 실행하였다고 가정한다. 또한, 전자 장치(100)가 오디오를 포함하는 컨텐츠에 대하여 오디오 추출 동작을 수행하였음을 가정한다.
다양한 실시 예에 따라, 오디오를 포함하는 컨텐츠는 오디오만을 포함하는 오디오 데이터일 수 있다. 다양한 실시 예에 따라, 오디오를 포함하는 컨텐츠는 오디오 및 이미지를 모두 포함하는 컨텐츠일 수 있다.
사용자가 특정 컨텐츠에 대하여 오디오 신호를 추출하기 위한 명령을 전자 장치(100)에 입력하였다고 가정한다. 전자 장치(100)는 오디오 신호와 관련된 어플리케이션을 이용하여 사용자가 선택한 특정 컨텐츠에 대한 오디오 신호 추출 동작을 수행할 수 있다.
전자 장치(100)는 오디오 신호 추출과 관련된 화면(3210)을 제공(또는 표시)할 수 있다. 화면(3210)은 오디오 추출 동작이 수행됨을 나타내는 텍스트 정보(3211)를 포함하는 UI(3211), 오디오 추출 동작의 대상이 되는 컨텐츠의 이미지를 포함하는 UI(3212), 오디오 추출 구간을 선택하기 위한 UI(3213), 오디오 추출 동작의 결과 정보를 포함하는 UI(3214), 다른 컨텐츠에 대한 오디오 추출 동작을 수행하기 위한 UI(3215), 오디오 추출 동작의 결과 정보 전체를 임시 저장하기 위한 UI(3216) 중 적어도 하나를 포함할 수 있다.
한편, UI(3214)는 특정 컨텐츠에서 추출되는 적어도 하나의 오디오 신호에 대한 정보를 포함할 수 있다. 정보는 추출된(또는 분리된) 오디오 소스를 나타내는 식별 정보(예를 들어, 제1 화자), 오디오 소스를 대표하는 특징 정보(예를 들어, 남자, 나이(15)) 중 적어도 하나를 포함할 수 있다. 또한, 정보는 추출된(또는 분리된) 오디오 소스의 신호 파형을 포함할 수 있다. UI(3214)는 추출된(또는 분리된) 오디오 소스 각각을 별도로 저장(또는 공유)하기 위한 UI를 포함할 수 있다.
한편, 화면(3210)은 오디오 추출 동작을 실행하기 위한 사용자 입력을 위한 UI를 추가로 포함할 수 있다. 실행 UI는 UI(3211) 또는 UI(3213) 중 하나에 포함될 수 있다.
한편, 전자 장치(100)는UI(3214)를 통해 수신되는 사용자 입력에 따라 분리된 오디오 신호 각각을 별도로 저장(또는 공유)할 수 있다.
도 33은 분리된 오디오 데이터의 음량을 변경하기 위한 UI를 특정 오브젝트에 대응되는 위치에 표시하는 동작을 설명하기 위한 도면이다.
도 33의 실시 예(3310)를 참조하면, 전자 장치(100)는 이미지 데이터 및 오디오 데이터를 포함하는 컨텐츠를 수신할 수 있다. 수신된 컨텐츠의 이미지 데이터는 제1 화자(10) 및 제2 화자(20)를 포함할 수 있다. 수신된 컨텐츠의 오디오 데이터는 제1 화자(10)의 음성 및 제2 화자(20)의 음성을 포함할 수 있다.
수신된 컨텐츠의 오디오 데이터는 제1 화자(10)의 음성 및 제2 화자(20)의 음성을 함께 포함하는 오디오 신호일 수 있다. 전자 장치(100)는 제1 화자(10)의 음성과 제2 화자(20)의 음성을 분리(또는 구분)할 수 있다.
실시 예(3320)를 참조하면, 전자 장치(100)는 수신된 컨텐츠로부터 오디오 데이터를 획득할 수 있다. 여기서, 오디오 데이터는 원본 음원일 수 있다. 따라서, 컨텐츠에 포함된 오디오 데이터를 원본 오디오 데이터로 기재할 수 있다. 전자 장치(100)는 원본 오디오 데이터로부터 오디오 소스에 따라 분리된 제1 오디오 데이터(3321)와 제2 오디오 데이터(3322)를 구분할 수 있다.
전자 장치(100)는 오디오 소스 별로 원본 오디오 데이터를 분할할 수 있다. 전자 장치(100)는 오디오 특징에 따라 수신된 컨텐츠의 원본 오디오 데이터에 복수의 오디오 소스가 있는지 여부를 식별할 수 있다. 원본 오디오 데이터에 복수의 오디오 소스가 있는 경우, 전자 장치(100)는 원본 오디오 데이터로부터 복수의 오디오 소스 각각에 대응되는 오디오 데이터를 추출할 수 있다. 전자 장치(100)는 오디오 특징에 기초하여 오디오 소스를 특정할 수 있다. 예를 들어, 오디오 소스는 대표 특징 정보(성별, 나이 등)에 기초하여 특정될 수 있다.
실시 예(3330)를 참조하면, 전자 장치(100)는 수신된 컨텐츠의 이미지 데이터로부터 기 설정된 오브젝트를 식별할 수 있다. 기 설정된 오브젝트는 오디오 소스 가능성이 있는 오브젝트를 의미할 수 있다. 오브젝트는 오디오를 출력할 가능성이 있는 사람 오브젝트, 동물 오브젝트, 스피커 오브젝트 등을 의미할 수 있다. 전자 장치(100)는 이미지 데이터에 기초하여 기 설정된 오브젝트를 식별할 수 있다.
전자 장치(100)는 식별된 오브젝트와 추출된 오디오 데이터를 맵핑(또는 매칭)할 수 있다. 식별된 오브젝트와 추출된 오디오 데이터를 맵핑하는 기준이 필요할 수 있다. 전자 장치(100)는 대표 특징 정보에 기초하여 식별된 오브젝트와 추출된 오디오 데이터를 맵핑할 수 있다.
전자 장치(100)는 추출된 오디오 데이터에 기초하여 오디오 소스의 대표 특징 정보를 획득할 수 있다. 즉, 전자 장치(100)는 오디오 데이터를 분석하여 오디오 데이터에 대응되는 대표 특징 정보를 획득할 수 있으며, 획득된 대표 특징 정보에 기초하여 오디오 데이터(또는 오디오 소스)를 특정할 수 있다.
전자 장치(100)는 식별된 오브젝트에 기초하여 오브젝트의 대표 특징 정보를 획득할 수 있다. 식별된 오브젝트가 오디오 소스일 가능성이 있는 오브젝트라는 점에서 오브젝트의 대표 특징 정보는 오디오 소스의 대표 특징 정보로 기재될 수 있다. 즉, 전자 장치(100)는 이미지 데이터를 분석하여 식별된 오브젝트의 대표 특징 정보를 획득할 수 있으며, 획득된 대표 특정 정보에 기초하여 오브젝트(또는 오디오 소스)를 특정할 수 있다.
전자 장치(100)는 오디오 데이터에 기초하여 획득된 대표 특징 정보 및 이미지 데이터에 기초하여 획득된 대표 특징 정보를 비교할 수 있다. 전자 장치(100)는 비교 결과에 기초하여 맵핑 동작을 수행할 수 있다. 구체적으로, 전자 장치(100)는 대표 특징 정보의 일치 여부에 기초하여 오디오 데이터 및 오브젝트를 맵핑할 수 있다. 제1 오디오 데이터의 대표 특징 정보가 제1 오브젝트의 대표 특징 정보와 일치하면, 전자 장치(100)는 제1 오디오 데이터 및 제1 오브젝트를 맵핑할 수 있다.
다양한 실시 예에 따라, 일치 정도는 유사도를 기준으로 판단될 수 있다. 전자 장치(100)는 제1 오디오 데이터의 대표 특징 정보가 제1 오브젝트의 대표 특징 정보의 유사도가 임계값 이상이면, 전자 장치(100)는 제1 오디오 데이터 및 제1 오브젝트를 맵핑할 수 있다.
예를 들어, 전자 장치(100)는 실시 예(3320)에서 획득한 제1 오디오 데이터(3321)의 대표 특징 정보(남자, 30-39세)를 획득하고 제2 오디오 데이터(3322)의 대표 특징 정보(남자, 0-9세)를 획득할 수 있다.
예를 들어, 전자 장치(100)는 실시 예(3310)에 기재된 이미지로부터 제1 화자(10)에 대응되는 제1 오브젝트(3331) 및 제2 화자(20)에 대응되는 제2 오브젝트(3332)를 식별할 수 있다. 전자 장치(100)는 제1 오브젝트(3331)의 대표 특징 정보(남자, 30-39세)를 획득하고, 제2 오브젝트(3332)의 대표 특징 정보(남자, 0-9세)를 획득할 수 있다.
예를 들어, 제1 오디오 데이터(3321)의 대표 특징 정보(남자, 30-39세)가 제1 오브젝트(3331)의 대표 특징 정보(남자, 30-39세)와 일치하므로, 전자 장치(100)는 제1 오디오 데이터(3321) 및 제1 오브젝트(3331)를 맵핑할 수 있다. 또한, 제2 오디오 데이터(3322)의 대표 특징 정보(남자, 0-9세)가 제2 오브젝트(3332)의 대표 특징 정보(남자, 0-9세)와 일치하므로, 전자 장치(100)는 제2 오디오 데이터(3322) 및 제2 오브젝트(3332)를 맵핑할 수 있다.
실시 예(3340)를 참조하면, 전자 장치(100)는 맵핑 결과에 기초하여 오디오 데이터의 음량을 변경하기 위한 UI를 표시할 수 있다. 구체적으로, 전자 장치(100)는 오디오 데이터의 음량을 변경하기 위한 UI를 맵핑된 오브젝트에 대응되는 위치에 표시할 수 있다.
예를 들어, 제1 오디오 데이터(3321) 및 제1 오브젝트(3331)가 맵핑되어 있다고 가정한다. 또한, 제2 오디오 데이터(3322) 및 제2 오브젝트(3332)가 맵핑되어 있다고 가정한다. 전자 장치(100)는 제1 오디오 데이터(3321)의 음량을 변경하기 위한 UI(3341)를 제1 오브젝트(3331)에 대응되는 위치에 표시할 수 있다. 또한, 전자 장치(100)는 제2 오디오 데이터(3322)의 음량을 변경하기 위한 UI(3342)를 제2 오브젝트(3332)에 대응되는 위치에 표시할 수 있다.
UI(3341, 3342)를 통해 음량을 변경하기 위한 사용자 입력이 수신되면, 전자 장치(100)는 사용자 입력이 수신된 위치에 대응되는 오디오 데이터의 음량을 변경할 수 있다.
예를 들어, UI(3341)를 통해 사용자 입력이 수신되면, 전자 장치(100)는 사용자 입력에 기초하여 제1 오디오 데이터(3321)의 음량을 변경할 수 있다. 또한, UI(3342)를 통해 사용자 입력이 수신되면, 전자 장치(100)는 사용자 입력에 기초하여 제2 오디오 데이터(3322)의 음량을 변경할 수 있다.
사용자 입력은 터치 입력 또는 드래그 입력 중 하나일 수 있다.
사용자 입력이 터치 입력인 경우를 가정한다. 좌측 또는 하측을 터치하는 사용자 입력이 수신되면, 전자 장치(100)는 사용자 입력이 수신된 위치에 대응되는 오디오 데이터의 음량을 현재 설정된 값보다 낮게 변경할 수 있다. 또한, 우측 또는 상측을 터치하는 사용자 입력이 수신되면, 전자 장치(100)는 사용자 입력이 수신된 위치에 대응되는 오디오 데이터의 음량을 현재 설정된 값보다 크게 변경할 수 있다.
사용자 입력이 드래그 입력인 경우를 가정한다. 좌측 또는 하측으로 드래그하는 사용자 입력이 수신되면, 전자 장치(100)는 사용자 입력이 수신된 위치에 대응되는 오디오 데이터의 음량을 현재 설정된 값보다 낮게 변경할 수 있다. 또한, 우측 또는 상측으로 드래그하는 사용자 입력이 수신되면, 전자 장치(100)는 사용자 입력이 수신된 위치에 대응되는 오디오 데이터의 음량을 현재 설정된 값보다 크게 변경할 수 있다.
한편, 도 33에서는 제1 화자(10) 및 제2 화자(20)로 기재하였으나, 제1 화자(10) 및 제2 화자(20)는 제1 오디오 소스 및 제2 오디오 소스로 기재될 수 있다. 즉, 도 33에서 적용되는 동작이 반드시 사람의 음성에만 적용되는 것은 아닐 수 있으며, 오디오 소스 각각에 대하여 음량 조절 기능이 적용될 수 있다.
도 34는 분리된 오디오 데이터의 음량을 변경하기 위한 UI를 특정 오브젝트에 대응되는 위치에 표시하는 동작을 설명하기 위한 흐름도이다.
도 34를 참조하면, 전자 장치(100)는 이미지 데이터 및 오디오 데이터를 포함하는 컨텐츠를 수신할 수 있다 (S3405). 전자 장치(100)는 컨텐츠에서 오디오 소스를 식별할 수 있다. 또한, 전자 장치(100)는 컨텐츠에서 식별되는 오디오 소스의 개수를 식별할 수 있다.
전자 장치(100)는 오디오 소스가 복수개인지 판단할 수 있다 (S3410). 오디오 소스가 복수개가 아니라면 (S3410-N), 전자 장치(100)는 오디오 소스가 복수개로 식별될 때까지 S3410 단계를 반복할 수 있다. 전자 장치(100)가 최종 분석한 오디오 소스가 2개라고 가정한다.
오디오 소스가 복수개이면 (S3410-Y), 전자 장치(100)는 오디오 데이터를 분할(또는 분리)하여 제1 오디오 데이터 및 제2 오디오 데이터를 획득할 수 있다 (S3415). 제1 오디오 데이터는 제1 오디오 소스에 대응되는 오디오 신호를 포함하며, 제2 오디오 데이터는 제2 오디오 소스에 대응되는 오디오 신호를 포함할 수 있다.
한편, 전자 장치(100)는 이미지 데이터로부터 제1 오디오 데이터에 대응되는 제1 오브젝트 및 제2 오디오 데이터에 대응되는 제2 오브젝트를 식별할 수 있다 (S3420).
제1 오디오 데이터에 대응되는 제1 오브젝트 및 제2 오디오 데이터에 대응되는 제2 오브젝트를 식별하기 위해, 전자 장치(100)는 대표 특징 정보를 이용할 수 있다.
다양한 실시 예에 따라, 전자 장치(100)는 오디오 데이터의 대표 특징 정보 및 오브젝트의 대표 특징 정보를 비교하여 오디오 데이터에 대응되는 오브젝트를 식별할 수 있다.
예를 들어, 전자 장치(100)는 제1 오디오 데이터의 대표 특징 정보(남성, 30-39세)를 획득하고, 이미지 데이터에 포함된 복수의 오브젝트 각각의 대표 특징 정보를 획득할 수 있다. 복수의 오브젝트 중 제1 오브젝트의 대표 특징 정보(남성, 30-39세)라고 가정한다. 제1 오디오 데이터의 대표 특징 정보(남성, 30-39세)가 제1 오브젝트의 대표 특징 정보(남성, 30-39세)와 일치하므로, 전자 장치(100)는 제1 오브젝트가 제1 오디오 데이터에 대응되는 오브젝트 인 것으로 식별할 수 있다.
또한, 전자 장치(100)는 이미지 데이터에 포함된 복수의 오브젝트 중 기 설정된 오브젝트에 대해서만 대표 특징 정보를 획득할 수 있다. 이와 관련된 설명은 도 33에서 기재하였다.
한편, 다양한 실시 예에 따라, 전자 장치(100)는 오디오 데이터의 대표 특징 정보에 기초하여 이미지 데이터로부터 오디오 데이터에 대응되는 오브젝트를 식별할 수 있다.
예를 들어, 전자 장치(100)는 제1 오디오 데이터의 대표 특징 정보(남성, 30-39세)에 기초하여, 이미지 데이터에 포함된 복수의 오브젝트 중 대표 특징 정보(남성, 30-39세)를 나타내는 오브젝트를 제1 오브젝트로써 식별할 수 있다.
오디오 데이터 각각에 대응되는 오브젝트가 식별된 후, 전자 장치(100)는 제1 오브젝트에 대응되는 제1 위치에 제1 오디오 데이터의 음량을 변경하기 위한 제1 UI를 표시하고 제2 오브젝트에 대응되는 제2 위치에 제2 오디오 데이터의 음량을 변경하기 위한 제2 UI를 표시할 수 있다 (S3425).
전자 장치(100)는 제1 UI 또는 제2 UI를 통해 사용자 입력이 수신되는지 여부를 판단할 수 있다 (S3430). 제1 UI 또는 제2 UI를 통해 사용자 입력이 수신되지 않으면 (S3430-N), 전자 장치(100)는 S3430 단계를 반복할 수 있다.
제1 UI 또는 제2 UI를 통해 사용자 입력이 수신되면 (S3430-Y), 전자 장치(100)는 사용자 입력에 기초하여 음량을 변경할 수 있다 (S3435). 예를 들어, 제1 UI를 통해 사용자 입력이 수신되면, 전자 장치(100)는 제1 오디오 데이터의 음량을 변경할 수 있다. 또한, 제2 UI를 통해 사용자 입력이 수신되면, 전자 장치(100)는 제2 오디오 데이터의 음량을 변경할 수 있다.
도 35는 다양한 실시 예에 따라 전자 장치(100)의 제어 방법을 설명하기 위한 흐름도이다.
도 35를 참조하면, 전자 장치(100)의 제어 방법은 오디오 데이터를 중복 영역이 포함되도록 복수의 구간으로 분할하는 단계 (S3505), 분할된 복수의 구간 각각으로부터 오디오 특징을 획득하는 단계 (S3510), 오디오 특징에 기초하여 분할된 복수의 구간 각각에서 제1 오디오 소스 및 제2 오디오 소스를 식별하는 단계 (S3515) 및 오디오 데이터로부터 제1 오디오 소스에 대응되는 제1 오디오 데이터 및 제2 오디오 소스에 대응되는 제2 오디오 데이터를 획득하는 단계 (S3520)를 포함할 수 있다.
한편, 분할하는 단계 (S3505)는 오디오 데이터를 분할하여 제1 구간의 제1 분할 데이터 및 제1 구간과 상이한 제2 구간의 제2 분할 데이터를 획득하고, 제1 분할 데이터 및 제2 분할 데이터는 중복 영역을 포함할 수 있다.
한편, 제어 방법은 분할된 복수의 구간 각각에서 오디오 소스에 기초하여 구분되는 복수의 오디오 블록을 식별하는 단계를 더 포함하고, 제1 오디오 데이터 및 제2 오디오 데이터를 획득하는 단계 (S3520)는 제1 오디오 소스에 대응되는 오디오 블록들을 결합하여 제1 오디오 데이터를 획득하고, 제2 오디오 소스에 대응되는 오디오 블록들을 결합하여 제2 오디오 데이터를 획득할 수 있다.
한편, 제1 오디오 데이터 및 제2 오디오 데이터를 획득하는 단계 (S3520)는 복수의 오디오 블록에 포함된 중복 영역들을 식별하고, 식별된 중복 영역들을 비교하여 제1 오디오 데이터 및 제2 오디오 데이터를 획득할 수 있다.
한편, 복수의 오디오 블록에 포함된 중복 영역들 사이의 유사도를 획득하는 단계를 더 포함하고, 제1 오디오 데이터 및 제2 오디오 데이터를 획득하는 단계 (S3520)는 유사도가 제1 임계값 이상인 오디오 블록들을 결합하여 제1 오디오 데이터 및 제2 오디오 데이터를 획득할 수 있다.
한편, 제어 방법은 유사도가 제1 임계값 미만이고 제2 임계값 이상이면, 중복 영역을 확장하는 단계 및 확장된 중복 영역에 기초하여 오디오 데이터를 분할하는 단계를 더 포함할 수 있다.
한편, 제어 방법은 오디오 블록들 중 제1 오디오 블록에 포함된 오디오 신호의 최고값을 획득하는 단계, 제1 오디오 블록의 중복 영역에 포함된 오디오 신호의 평균값을 획득하는 단계 및 최고값 및 평균값의 차이값에 기초하여 중복 영역이 무음인지 여부를 식별하는 단계를 더 포함할 수 있다.
한편, 분할하는 단계 (S3505)는 오디오 데이터에 포함된 오디오 소스의 개수를 식별하고, 식별된 오디오 소스의 개수가 임계 개수 미만이면, 오디오 데이터를 분할할 수 있다.
한편, 분할하는 단계 (S3505)는 오디오 데이터의 시간이 임계 시간 이상이면, 오디오 데이터를 분할할 수 있다.
한편, 분할하는 단계 (S3505)는 제1 인공 지능 모델에 기초하여 오디오 데이터에 포함된 오디오 소스의 개수를 식별하고, 제1 오디오 데이터 및 제2 오디오 데이터를 획득하는 단계 (S3520)는 제1 인공 지능 모델과 상이한 제2 인공 지능 모델에 기초하여 제1 오디오 데이터 및 제2 오디오 데이터를 획득할 수 있다.
한편, 도 35과 같은 전자 장치의 제어 방법은 도 1 또는 도 2의 구성을 가지는 전자 장치 상에서 실행될 수 있으며, 그 밖의 구성을 가지는 전자 장치 상에서도 실행될 수 있다.
한편, 상술한 본 개시의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치에 설치 가능한 어플리케이션 형태로 구현될 수 있다.
또한, 상술한 본 개시의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치에 대한 소프트웨어 업그레이드, 또는 하드웨어 업그레이드 만으로도 구현될 수 있다.
또한, 상술한 본 개시의 다양한 실시 예들은 전자 장치에 구비된 임베디드 서버, 또는 전자 장치 및 디스플레이 장치 중 적어도 하나의 외부 서버를 통해 수행되는 것도 가능하다.
한편, 본 개시의 일시 예에 따르면, 이상에서 설명된 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media)에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 전자 장치를 포함할 수 있다. 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 프로세서의 제어 하에 다른 구성요소들을 이용하여 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장 매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장 매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장 매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.
또한, 본 개시의 일 실시 예에 따르면, 이상에서 설명된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
또한, 상술한 다양한 실시 예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시 예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시 예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.
이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
100: 전자 장치
110: 메모리
120: 적어도 하나의 프로세서

Claims (20)

  1. 전자 장치에 있어서,
    적어도 하나의 인트럭션을 저장하는 메모리; 및
    오디오 데이터를 중복 영역이 포함되도록 복수의 구간으로 분할하고,
    상기 분할된 복수의 구간 각각으로부터 오디오 특징을 획득하고,
    상기 오디오 특징에 기초하여 상기 분할된 복수의 구간 각각에서 제1 오디오 소스 및 제2 오디오 소스를 식별하고,
    상기 오디오 데이터로부터 상기 제1 오디오 소스에 대응되는 제1 오디오 데이터 및 상기 제2 오디오 소스에 대응되는 제2 오디오 데이터를 획득하는, 적어도 하나의 프로세서;를 포함하는, 전자 장치.
  2. 제1항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 오디오 데이터를 분할하여 제1 구간의 제1 분할 데이터 및 상기 제1 구간과 상이한 제2 구간의 제2 분할 데이터를 획득하고,
    상기 제1 분할 데이터 및 상기 제2 분할 데이터는 상기 중복 영역을 포함하는, 전자 장치.
  3. 제1항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 분할된 복수의 구간 각각에서 오디오 소스에 기초하여 구분되는 복수의 오디오 블록을 식별하고,
    상기 제1 오디오 소스에 대응되는 오디오 블록들을 결합하여 상기 제1 오디오 데이터를 획득하고,
    상기 제2 오디오 소스에 대응되는 오디오 블록들을 결합하여 상기 제2 오디오 데이터를 획득하는, 전자 장치.
  4. 제3항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 복수의 오디오 블록에 포함된 중복 영역들을 식별하고,
    상기 식별된 중복 영역들을 비교하여 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 획득하는, 전자 장치.
  5. 제3항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 복수의 오디오 블록에 포함된 상기 중복 영역들 사이의 유사도를 획득하고,
    유사도가 제1 임계값 이상인 오디오 블록들을 결합하여 상기 제1 오디오 데이터 및 제2 오디오 데이터를 획득하는, 전자 장치.
  6. 제5항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 유사도가 제1 임계값 미만이고 상기 제2 임계값 이상이면, 상기 중복 영역을 확장하고,
    상기 확장된 중복 영역에 기초하여 상기 오디오 데이터를 분할하는, 전자 장치.
  7. 제3항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 오디오 블록들 중 제1 오디오 블록에 포함된 오디오 신호의 최고값을 획득하고,
    상기 제1 오디오 블록의 중복 영역에 포함된 오디오 신호의 평균값을 획득하고,
    상기 최고값 및 상기 평균값의 차이값에 기초하여 상기 중복 영역이 무음인지 여부를 식별하는, 전자 장치.
  8. 제1항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 오디오 데이터에 포함된 오디오 소스의 개수를 식별하고,
    상기 식별된 오디오 소스의 개수가 임계 개수 미만이면, 상기 오디오 데이터를 분할하는, 전자 장치.
  9. 제8항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 오디오 데이터의 시간이 임계 시간 이상이면, 상기 오디오 데이터를 분할하는, 전자 장치.
  10. 제8항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 메모리에 저장된 제1 인공 지능 모델에 기초하여 상기 오디오 데이터에 포함된 오디오 소스의 개수를 식별하고,
    상기 메모리에 저장된 상기 제1 인공 지능 모델과 상이한 제2 인공 지능 모델에 기초하여 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 획득하는, 전자 장치.
  11. 전자 장치의 제어 방법에 있어서,
    오디오 데이터를 중복 영역이 포함되도록 복수의 구간으로 분할하는 단계;
    상기 분할된 복수의 구간 각각으로부터 오디오 특징을 획득하는 단계;
    상기 오디오 특징에 기초하여 상기 분할된 복수의 구간 각각에서 제1 오디오 소스 및 제2 오디오 소스를 식별하는 단계; 및
    상기 오디오 데이터로부터 상기 제1 오디오 소스에 대응되는 제1 오디오 데이터 및 상기 제2 오디오 소스에 대응되는 제2 오디오 데이터를 획득하는 단계;를 포함하는, 제어 방법.
  12. 제11항에 있어서,
    상기 분할하는 단계는,
    상기 오디오 데이터를 분할하여 제1 구간의 제1 분할 데이터 및 상기 제1 구간과 상이한 제2 구간의 제2 분할 데이터를 획득하고,
    상기 제1 분할 데이터 및 상기 제2 분할 데이터는 상기 중복 영역을 포함하는, 제어 방법.
  13. 제11항에 있어서,
    상기 분할된 복수의 구간 각각에서 오디오 소스에 기초하여 구분되는 복수의 오디오 블록을 식별하는 단계;를 더 포함하고,
    상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 획득하는 단계는,
    상기 제1 오디오 소스에 대응되는 오디오 블록들을 결합하여 상기 제1 오디오 데이터를 획득하고,
    상기 제2 오디오 소스에 대응되는 오디오 블록들을 결합하여 상기 제2 오디오 데이터를 획득하는, 제어 방법.
  14. 제13항에 있어서,
    상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 획득하는 단계는,
    상기 복수의 오디오 블록에 포함된 중복 영역들을 식별하고,
    상기 식별된 중복 영역들을 비교하여 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 획득하는, 제어 방법.
  15. 제13항에 있어서,
    상기 복수의 오디오 블록에 포함된 상기 중복 영역들 사이의 유사도를 획득하는 단계;를 더 포함하고,
    상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 획득하는 단계는,
    유사도가 제1 임계값 이상인 오디오 블록들을 결합하여 상기 제1 오디오 데이터 및 제2 오디오 데이터를 획득하는, 제어 방법.
  16. 제15항에 있어서,
    상기 유사도가 제1 임계값 미만이고 상기 제2 임계값 이상이면, 상기 중복 영역을 확장하는 단계; 및
    상기 확장된 중복 영역에 기초하여 상기 오디오 데이터를 분할하는 단계;를 더 포함하는, 제어 방법.
  17. 제13항에 있어서,
    상기 오디오 블록들 중 제1 오디오 블록에 포함된 오디오 신호의 최고값을 획득하는 단계;
    상기 제1 오디오 블록의 중복 영역에 포함된 오디오 신호의 평균값을 획득하는 단계; 및
    상기 최고값 및 상기 평균값의 차이값에 기초하여 상기 중복 영역이 무음인지 여부를 식별하는 단계;를 더 포함하는, 제어 방법.
  18. 제11항에 있어서,
    상기 분할하는 단계는,
    상기 오디오 데이터에 포함된 오디오 소스의 개수를 식별하고,
    상기 식별된 오디오 소스의 개수가 임계 개수 미만이면, 상기 오디오 데이터를 분할하는, 제어 방법.
  19. 제18항에 있어서,
    상기 분할하는 단계는,
    상기 오디오 데이터의 시간이 임계 시간 이상이면, 상기 오디오 데이터를 분할하는, 제어 방법.
  20. 제18항에 있어서,
    상기 분할하는 단계는,
    제1 인공 지능 모델에 기초하여 상기 오디오 데이터에 포함된 오디오 소스의 개수를 식별하고,
    상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 획득하는 단계는,
    상기 제1 인공 지능 모델과 상이한 제2 인공 지능 모델에 기초하여 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 획득하는, 제어 방법.

KR1020220160910A 2022-05-23 2022-11-25 전자 장치 및 그 제어 방법 KR20230163278A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/KR2023/003317 WO2023229166A1 (ko) 2022-05-23 2023-03-10 전자 장치 및 그 제어 방법
US18/204,190 US20230410831A1 (en) 2022-05-23 2023-05-31 Electronic apparatus and controlling method thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20220062959 2022-05-23
KR1020220062959 2022-05-23

Publications (1)

Publication Number Publication Date
KR20230163278A true KR20230163278A (ko) 2023-11-30

Family

ID=88968554

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220160910A KR20230163278A (ko) 2022-05-23 2022-11-25 전자 장치 및 그 제어 방법

Country Status (1)

Country Link
KR (1) KR20230163278A (ko)

Similar Documents

Publication Publication Date Title
CN105976814B (zh) 头戴设备的控制方法和装置
US20210312930A1 (en) Computer system, speech recognition method, and program
US20220130392A1 (en) Electronic device and control method thereof
CN104380375A (zh) 用于从对话中提取信息的设备
US11417327B2 (en) Electronic device and control method thereof
EP3678132B1 (en) Electronic device and server for processing user utterances
KR102669100B1 (ko) 전자 장치 및 그 제어 방법
CN111246264B (zh) 显示设备及其控制方法
US11412341B2 (en) Electronic apparatus and controlling method thereof
US20200075008A1 (en) Voice data processing method and electronic device for supporting same
US20200327893A1 (en) Information processing device and information processing method
US20140350936A1 (en) Electronic device
US12089030B2 (en) Electronic apparatus and controlling method thereof
CN113261055B (zh) 电子装置及其控制方法
KR20230163278A (ko) 전자 장치 및 그 제어 방법
GB2564241A (en) Provide output associated with a dialect
US11455997B2 (en) Device for processing user voice input
EP3648466A1 (en) Electronic apparatus, control method thereof and electronic system
KR20200055897A (ko) 축약 컨텐츠명 인식을 위한 전자장치 및 이의 제어방법
US20230410831A1 (en) Electronic apparatus and controlling method thereof
KR20200042627A (ko) 전자 장치 및 그 제어 방법
CN113923477A (zh) 视频处理方法、装置、电子设备以及存储介质
KR102622350B1 (ko) 전자 장치 및 그 제어 방법
US20230048573A1 (en) Electronic apparatus and controlling method thereof
US20180350371A1 (en) Adjust output settings based on an identified user