KR20040053409A - 오디오 모드 자동 변환 방법 - Google Patents

오디오 모드 자동 변환 방법 Download PDF

Info

Publication number
KR20040053409A
KR20040053409A KR1020020079960A KR20020079960A KR20040053409A KR 20040053409 A KR20040053409 A KR 20040053409A KR 1020020079960 A KR1020020079960 A KR 1020020079960A KR 20020079960 A KR20020079960 A KR 20020079960A KR 20040053409 A KR20040053409 A KR 20040053409A
Authority
KR
South Korea
Prior art keywords
audio
type
listening
sample
audio data
Prior art date
Application number
KR1020020079960A
Other languages
English (en)
Inventor
김소명
안준한
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020020079960A priority Critical patent/KR20040053409A/ko
Priority to US10/733,383 priority patent/US20040122663A1/en
Publication of KR20040053409A publication Critical patent/KR20040053409A/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 입력 오디오의 종류를 자동 인식하여 오디오 모드를 자동으로 변환하여 출력하는 오디오 모드 자동 변환 방법에 관한 것으로서, 특히 미리 샘플 오디오 데이터를 수집한 후 샘플 오디오 데이터의 특징을 분석하여 각 오디오 종류별 특징을 추출하고, 청취를 위한 오디오가 입력되면 상기 청취 오디오의 특징과 상기 오디오 종류별 특징들을 패턴 매칭하여 상기 청취 오디오의 종류를 결정하고 결정된 오디오의 종류로 음색을 자동 변환함으로써, 청취자는 자신이 직접 음색(audio mode)을 변환하지 않아도 최상의 음향 효과를 누리며 오디오를 청취할 수 있다.

Description

오디오 모드 자동 변환 방법{Method for auto conversing of audio mode}
본 발명은 입력 오디오의 종류를 자동 인식하여 오디오 모드를 자동으로 변환하여 출력하는 방법에 관한 것이다.
디지털 TV, 라디오, CDP, MP3 등 최근 오디오와 관련된 장치들의 개발과 중요성이 과거 어느 때 보다도 커지고 있다.
그러나, 각각의 장치들은 오디오의 종류(예를 들면, 뮤직, 드라마,스포츠,.. n)와는 독립적인 음색(audio mode)으로 재현되거나, 청취하려는 오디오 종류별로 오디오 모드(예를 들면, 뮤직, 드라마, 스포츠,.. n)를 청취자가 알아서 수동으로 조작해야 하는 방법을 사용하고 있다.
이러한 방법은 오디오의 종류에 따라 해당 음색으로 청취하려는 사용자의 다양한 욕구를 충족하지 못하거나, 또는 청취자가 알아서 오디오 모드를 수동 조작하는 경우 청취자에게 불편함을 주게 된다.
본 발명의 목적은 재현되는 오디오의 종류를 자동으로 인식하여 오디오 모드를 자동으로 변경함으로써, 오디오에 민감한 청취자의 편의를 극대화하는 오디오 모드 자동 변환 방법을 제공함에 있다.
도 1은 본 발명에 따른 오디오 모드 자동 변환 방법을 수행하기 위한 블록도
도 2는 도 1에서 각 오디오 종류별 특징과 패턴 매칭의 예를 보인 도면
도면의 주요부분에 대한 부호의 설명
100 : 전처리부 101 : 샘플 오디오 데이터베이스
102 : 특징 추출부 103 : 오디오 분류부
200 : 오디오 모드 결정부 201 : 청취 오디오 특징 추출부
202 : 패턴 매칭부 203 : 오디오 분류 결정부
204 : 오디오 모드 변환부
상기와 같은 목적을 달성하기 위한 본 발명에 따른 오디오 모드 자동 변환 방법은, (a) 미리 샘플 오디오 데이터를 수집한 후 샘플 오디오 데이터의 특징을 분석하여 각 오디오 종류별 특징을 추출하는 단계; 그리고 (b) 청취를 위한 오디오가 입력되면 상기 청취 오디오의 특징을 추출하고, 상기 추출된 청취 오디오의 특징과 상기 (a) 단계의 각 오디오 종류별 특징들을 패턴 매칭을 통해 비교하여 상기 청취 오디오의 종류를 결정하고 결정된 오디오의 종류로 음색을 자동 변환하는 단계를 포함하여 이루어지는 것을 특징으로 한다.
상기 (a) 단계는 미리 수집하여 저장한 샘플 오디오 데이터들의 특징을 추출하는 단계와, 상기 단계에서 추출된 샘플 오디오 특징을 기 설정된 오디오 종류별로 분류하는 단계로 이루어지는 것을 특징으로 한다.
상기 (b) 단계는 청취 오디오가 입력되면 특징을 추출하는 단계와, 상기 추출된 청취 오디오 특징과 상기 (a) 단계에서 분류된 각 오디오 종류별 특징들을 패턴 매칭하는 단계와, 상기 단계의 패턴 매칭의 결과로부터 상기 청취 오디오의 특징과 가장 유사한 특징을 갖는 오디오 종류를 결정하는 단계와, 상기 단계에서 결정된 오디오 종류의 음색으로 현재의 청취 오디오를 자동 변환하는 단계로 이루어지는 것을 특징으로 한다.
본 발명의 다른 목적, 특징 및 잇점들은 첨부한 도면을 참조한 실시예들의 상세한 설명을 통해 명백해질 것이다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예의 구성과 그 작용을 설명하며, 도면에 도시되고 또 이것에 의해서 설명되는 본 발명의 구성과 작용은 적어도 하나의 실시예로서 설명되는 것이며, 이것에 의해서 상기한 본 발명의 기술적 사상과 그 핵심 구성 및 작용이 제한되지는 않는다.
도 1은 본 발명에 따른 오디오 모드 자동 변환 방법을 수행하기 위한 구성도로서, 미리 샘플 오디오 데이터를 수집하여 샘플 오디오 데이터의 패턴을 분석한 후 각 오디오 종류별 특징을 추출하고 샘플 오디오 데이터의 특징을 기 설정한 오디오 종류별로 분류하는 전처리부(100), 입력되는 청취 오디오로부터 특징을 추출하고 상기 전처리부(100)의 각 오디오 종류별 특징과 비교하여 청취 오디오의 모드를 결정하고, 결정된 오디오 모드로 자동 변환하는 오디오 모드 결정부(200)로 구성된다.
여기서, 상기 전처리부(100)는 샘플 오디오 데이터들을 수집하여 저장하고 있는 샘플 오디오 데이터베이스(101), 상기 샘플 오디오 데이터베이스(101)에 저장된 샘플 오디오 데이터들의 특징을 추출하는 특징 추출부(102), 및 상기 특징 추출부(102)의 결과로부터 학습 모델, 통계 모델들을 통해 샘플 오디오 데이터의 특징을 오디오 종류별로 분류하는 오디오 분류부(103)로 구성된다.
상기 오디오 모드 결정부(200)는 입력되는 청취 오디오의 특징을 추출하는 특징 추출부(201), 청취 오디오가 어떤 오디오 종류의 샘플 오디오와 가장 유사한지 판단하기 위해 상기 특징 추출부(201)에서 추출된 오디오 특징과 상기 전처리부(100)에서 분류된 각 오디오 종류별 특징들을 패턴 매칭시키는 패턴 매칭부(202), 상기 패턴 매칭부(202)의 결과로부터 입력 오디오의 특징과 가장 유사한 오디오 종류를 결정하는 모드 결정부(203), 및 현재의 청취 오디오 모드를 상기 결정된 오디오 종류의 음색, 즉 오디오 모드로 자동 변경하는 모드 변환부(204)로 구성된다.
이와 같이 구성되는 본 발명에서 전처리부(100)는 샘플 데이터를 모아서 미리 수행되고, 오디오 모드 결정부(200)는 청취하고자 하는 오디오가 입력될 때마다 수행된다.
즉, 상기 전처리부(100)의 샘플 오디오 데이터베이스(101)에는 오디오 종류를 대표할만한 샘플 오디오 데이터의 집합으로, 미리 수집하여 저장시켜 놓는다.
그리고, 특징 추출부(102)에서는 상기 샘플 오디오 데이터베이스(101)에 저장된 샘플 오디오 데이터로부터 오디오 종류별 특징을 추출한다. 즉, 상기 특징 추출부(102)는 무수히 많은 샘플 오디오 데이터들로부터 오디오 종류별로 대표모델을 생성하기 위해 각 샘플 오디오 데이터의 특징을 추출한다. 이러한 특징 추출은 여러 변수들의 관계성이나 패턴을 파악하고 각 샘플들이 가지고 있는 변수들의 정보를 대표할 수 있는 값으로 추출되는데 다음과 같은 통계기법들을 주로 사용한다. 즉, 특징 추출부(102)는 샘플 오디오 데이터의 특징을 추출할 수 있는 방법은 어느 것이나 가능하며, 예를 들어 ICA(Independent Component Analysis), PCA(Principle Component Analysis), 군집 분석(Clustering), 벡터 양자화 방법 등이 있다. 상기 특징 추출부(102)는 공지 기술로서 보다 넓고 다양하게 응용될 수 있으므로 상기 예로 제시한 것에 제한되지 않을 것이다.
이때, 상기 ICA, PCA 방법은 인자(Factor) 수를 최소한으로 산출하고 변수들이 지닌 정보를 극대화하고자 할 때 사용하며, 군집 분석은 주어진 관찰치 중에서 유사한 것들을 몇몇의 집단으로 그룹화하여 각 집단의 성격을 파악함으로써 데이터 전체의 구조에 대한 이해를 돕고자 하는 분석방법으로 대표적으로 K-means 알고리즘이 있다. 또한, 벡터 양자화는 음성 스펙트럼을 벡터들로 나누고 각 코드표에서 일치하는 패턴의 인덱스값을 저장한다. 만일 코드표에서 실재값과 일치하는 패턴이 없으면 가장 유사한 패턴의 인덱스 값과 차이값을 전송한다
그리고, 오디오 종류 분류부(103)는 학습 모델, 통계 모델등을 이용하여 샘플 오디오 데이터의 특징을 기 설정된 오디오 종류별로 분류한다. 즉, 수백에서 수천개의 샘플 오디오 데이터로부터 특징을 추출하여 몇 개의 오디오 종류로 샘플 오디오 데이터의 특징을 분류한다. 예를 들어, 오디오 종류는 스포츠, 드라마, 뮤직등으로 나눌 수 있다.
한편, 청취 오디오가 입력되면 오디오 모드 결정부(200)의 특징 추출부(201)는 청취 오디오의 특징을 추출하여 패턴 매칭부(202)로 출력한다. 여기서, 특징 추출부(201)는 상기된 전처리부(102)의 특징 추출부와 동일한 알고리즘을 사용할 수도 있고, 다른 알고리즘을 사용할 수도 있다.
상기 패턴 매칭부(202)는 청취 오디오의 특징이 전처리부(100)에서 분류된 오디오 종류 중 어느 오디오 종류의 특징과 가장 유사한지를 판단하기 위해 상기 특징 추출부(201)에서 추출된 오디오 특징과 상기 전처리부(100)에서 분류된 각 오디오 종류별 특징을 매칭시켜 오디오 분류 결정부(203)로 출력한다. 도 2는 입력 청취 오디오와 전처리부(100)의 오디오 종류 분류부(103)에서 분류된 오디오 종류의 특징들의 예를 보인 것으로서, 청취 오디오의 특징과 가장 유사한 특징을 오디오 종류의 특징들 중에서 찾는다.
이때, 상기 패턴 매칭부(202)는 동적 계획법(Dynamic Programming), HMM(Hidden Markov Model)법, Neural Network법 등과 같은 공지 기술을 이용하여 청취 오디오 특징과 오디오 종류별 특징을 매칭시킨다.
여기서, 동적 계획법은 음성모드를 대표하는 샘플 음성과 입력된 음성의 시간축에 신축적으로 대처하면서 2개의 패턴의 유사도(거리)를 계산하는 방법이고, HMM은 음의 상태가 현 상태에서 다음 상태로 바뀌는 것을 천이 확률로 표현하는 방법인데 오디오의 시간적인 특징을 잘 반영하여 음성 인식에도 많이 사용되고 있다.
상기 오디오 종류 결정부(203)는 상기 패턴 매칭의 결과로부터 청취 오디오특징과 가장 유사한 오디오 종류를 결정하여 오디오 모드 변환부(204)로 출력한다. 상기 오디오 모드 변환부(204)는 결정된 오디오 종류에 해당하는 오디오 모드 즉, 음색으로 현재의 청취 오디오 모드를 자동 변환한다.
이상에서와 같이 본 발명에 따른 오디오 모드 자동 변환 방법에 의하면, 청취 오디오의 종류(music, sport, drama, n)를 자동으로 인식하여 각각의 오디오의 종류에 맞는 최적의 음색(audio mode)으로 자동 변환해줌으로써, 청취자는 자신이 직접 음색(audio mode)을 변환하지 않아도 최상의 음향 효과를 누리며 오디오를 청취할 수 있다.
이상 설명한 내용을 통해 당업자라면 본 발명의 기술 사상을 일탈하지 아니하는 범위에서 다양한 변경 및 수정이 가능함을 알 수 있을 것이다.
따라서, 본 발명의 기술적 범위는 실시예에 기재된 내용으로 한정되는 것이 아니라 특허 청구의 범위에 의하여 정해져야 한다.

Claims (3)

  1. (a) 미리 샘플 오디오 데이터를 수집한 후 샘플 오디오 데이터의 특징을 분석하여 각 오디오 종류별 특징을 추출하는 단계; 그리고
    (b) 청취를 위한 오디오가 입력되면 상기 청취 오디오의 특징과 상기 (a) 단계의 오디오 종류별 특징들을 패턴 매칭하여 상기 청취 오디오의 종류를 결정하고 결정된 오디오 종류로 음색을 자동 변환하는 단계를 포함하여 이루어지는 것을 특징으로 하는 오디오 모드 자동 변환 방법.
  2. 제 1 항에 있어서, 상기 (a) 단계는
    미리 수집하여 저장한 샘플 오디오 데이터들의 특징을 추출하는 단계와,
    상기 단계에서 추출된 샘플 오디오 특징을 기 설정된 오디오 종류별로 분류하는 단계로 이루어지는 것을 특징으로 하는 오디오 모드 자동 변환 방법.
  3. 제 1 항에 있어서, 상기 (b) 단계는
    청취 오디오가 입력되면 특징을 추출하는 단계와,
    상기 추출된 청취 오디오 특징과 상기 (a) 단계에서 분류된 각 오디오 종류별 특징들을 패턴 매칭하는 단계와,
    상기 단계의 패턴 매칭의 결과로부터 상기 청취 오디오의 특징과 가장 유사한 특징을 갖는 오디오 종류를 결정하는 단계와,
    상기 단계에서 결정된 오디오 종류의 음색으로 현재의 청취 오디오를 자동 변환하는 단계로 이루어지는 것을 특징으로 하는 오디오 모드 자동 변환 방법.
KR1020020079960A 2002-12-14 2002-12-14 오디오 모드 자동 변환 방법 KR20040053409A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020020079960A KR20040053409A (ko) 2002-12-14 2002-12-14 오디오 모드 자동 변환 방법
US10/733,383 US20040122663A1 (en) 2002-12-14 2003-12-12 Apparatus and method for switching audio mode automatically

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020020079960A KR20040053409A (ko) 2002-12-14 2002-12-14 오디오 모드 자동 변환 방법

Publications (1)

Publication Number Publication Date
KR20040053409A true KR20040053409A (ko) 2004-06-24

Family

ID=32588796

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020020079960A KR20040053409A (ko) 2002-12-14 2002-12-14 오디오 모드 자동 변환 방법

Country Status (2)

Country Link
US (1) US20040122663A1 (ko)
KR (1) KR20040053409A (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5130809B2 (ja) * 2007-07-13 2013-01-30 ヤマハ株式会社 楽曲を制作するための装置およびプログラム
US9263060B2 (en) 2012-08-21 2016-02-16 Marian Mason Publishing Company, Llc Artificial neural network based system for classification of the emotional content of digital music

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1138412C (zh) * 1996-06-06 2004-02-11 松下电器产业株式会社 记录装置、重放装置及变换装置
US6862359B2 (en) * 2001-12-18 2005-03-01 Gn Resound A/S Hearing prosthesis with automatic classification of the listening environment
US7082394B2 (en) * 2002-06-25 2006-07-25 Microsoft Corporation Noise-robust feature extraction using multi-layer principal component analysis

Also Published As

Publication number Publication date
US20040122663A1 (en) 2004-06-24

Similar Documents

Publication Publication Date Title
CN103700370B (zh) 一种广播电视语音识别系统方法及系统
Dhanalakshmi et al. Classification of audio signals using AANN and GMM
Dhanalakshmi et al. Classification of audio signals using SVM and RBFNN
US5657424A (en) Isolated word recognition using decision tree classifiers and time-indexed feature vectors
US7337115B2 (en) Systems and methods for providing acoustic classification
CN109344231B (zh) 一种补全语义残缺的语料的方法及系统
JP2005530214A (ja) メガ話者識別(id)システム及びその目的に相当する方法
CN112735383A (zh) 语音信号的处理方法、装置、设备及存储介质
KR20170033152A (ko) 음성 인식 서버 및 그 제어 방법
CN111462758A (zh) 智能会议角色分类的方法、装置、设备及存储介质
Battaglino et al. Acoustic context recognition using local binary pattern codebooks
CN111859011A (zh) 音频处理方法、装置、存储介质及电子设备
Deshmukh et al. North Indian classical music's singer identification by timbre recognition using MIR toolbox
GB2471811A (en) Speech recognition dictionary creating support device, processing program, and processing method
CN111354350B (zh) 语音处理方法及装置、语音处理设备、电子设备
Konangi et al. Emotion recognition through speech: A review
KR20040053409A (ko) 오디오 모드 자동 변환 방법
Velayatipour et al. A review on speech-music discrimination methods
EP0177854B1 (en) Keyword recognition system using template-concatenation model
KR20060113093A (ko) 음악구조를 이용한 엠피쓰리 형식의 가요 음향에 대한 요약장치, 방법 및 이를 구현하기 위한 프로그램이 저장된기록매체
JP2002062892A (ja) 音響分類装置
Yang Towards real-time music auto-tagging using sparse features
Harb et al. A general audio classifier based on human perception motivated model
Gutkin et al. Structural representation of speech for phonetic classification
Abu et al. Voice-based malay commands recognition by using audio fingerprint method for smart house applications

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid