KR100643309B1 - 클러스터링을 이용하여 오디오 파일을 제공하는 장치 및 그방법 - Google Patents

클러스터링을 이용하여 오디오 파일을 제공하는 장치 및 그방법 Download PDF

Info

Publication number
KR100643309B1
KR100643309B1 KR1020050076335A KR20050076335A KR100643309B1 KR 100643309 B1 KR100643309 B1 KR 100643309B1 KR 1020050076335 A KR1020050076335 A KR 1020050076335A KR 20050076335 A KR20050076335 A KR 20050076335A KR 100643309 B1 KR100643309 B1 KR 100643309B1
Authority
KR
South Korea
Prior art keywords
audio file
clustering
user
cluster
audio
Prior art date
Application number
KR1020050076335A
Other languages
English (en)
Inventor
강인호
김정수
조정미
이재원
김정은
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020050076335A priority Critical patent/KR100643309B1/ko
Priority to US11/489,463 priority patent/US7593937B2/en
Application granted granted Critical
Publication of KR100643309B1 publication Critical patent/KR100643309B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 클러스터링을 이용하여 오디오 파일을 제공하는 장치 및 그 방법에 관한 것으로서, 더욱 상세하게는 사용자로부터 질의어가 입력되면, 입력된 질의어와 유사한 정보를 갖는 오디오 파일을 추출하고, 추출된 오디오 파일들을 클러스터링 하여 클러스터링된 오디오 파일을 제공하는 클러스터링을 이용하여 오디오 파일을 제공하는 장치 및 그 방법에 관한 것이다.
본 발명의 다른 실시예에 따른 클러스터링을 이용하여 오디오 파일을 제공하는 방법은, 사용자로부터 입력된 질의어와 소정 오디오 파일의 유사도를 계산하는 단계와, 상기 계산 결과를 기초로 사용자로부터 입력된 질의어와 소정의 유사도를 갖는 오디오 파일들을 검출하여 동적 클러스터링을 수행하는 단계와, 상기 계산 결과를 기초로 사용자로부터 입력된 질의어와 소정의 유사도를 갖는 오디오 파일들을 검출하여 정적 클러스터링을 수행하는 단계와, 상기 동적 클러스터 및 정적 클러스터를 화면에 디스플레이 하는 단계를 포함한다.
오디오 파일, 색인어 웨이트, 동적 클러스터링, 정적 클러스터링

Description

클러스터링을 이용하여 오디오 파일을 제공하는 장치 및 그 방법{Apparatus and method for providing audio file using clustering}
도 1은 본 발명의 일 실시예에 따른 클러스터링을 이용하여 오디오 파일을 제공하는 장치의 내부 블록도를 나타낸 도면.
도 2는 본 발명의 일 실시예에 따른 클러스터링을 이용하여 오디오 파일을 제공하는 장치에서 메모리에 저장된 특정 오디오 파일에 대한 정보 테이블을 나타낸 도면.
도 3은 본 발명의 일 실시예에 따른 클러스터링을 이용하여 오디오 파일을 제공하는 장치에서 정보 추출부가 오디오 파일의 핵심 색인어를 추출하는 과정을 나타낸 도면.
도 4는 본 발명의 일 실시예에 따른 클러스터링을 이용하여 오디오 파일을 제공하는 방법을 나타낸 순서도.
도 5는 본 발명의 일 실시예에 따른 클러스터링을 이용하여 오디오 파일을 제공하는 방법 중 핵심 색인어의 웨이트를 계산하는 과정을 나타낸 순서도.
도 6은 본 발명의 일 실시예에 따른 클러스터링을 이용하여 오디오 파일을 제공하는 방법 중 동적 클러스터링을 수행하는 과정을 나타낸 순서도.
도 7은 본 발명의 일 실시예에 따른 클러스터링을 이용하여 오디오 파일을 제공하는 방법 중 정적 클러스터링을 수행하는 과정을 나타낸 순서도.
도 8은 본 발명의 일 실시예에 따른 클러스터링을 이용하여 오디오 파일을 제공하는 방법을 기초로 사용자로부터 발성된 질의어에 따라 클러스터링된 결과를 나타내는 도면.
<도면의 주요 부분에 관한 부호의 설명>
10 : 오디오 파일 재생 장치
110 : 음성 입력부 120 : 음성 인식부
130 : 메모리 140 : 정보 추출부
150 : 계산부 160 : 동적 클러스터링 수행부
170 : 정적 클러스터링 수행부 180 : 클러스터 오버랩부
190 : 디스플레이부 200 : 오디오 파일 출력부
210 : 제어부
본 발명은 클러스터링을 이용하여 오디오 파일을 제공하는 장치 및 그 방법에 관한 것으로서, 더욱 상세하게는 사용자로부터 질의어가 입력되면, 입력된 질의어와 유사한 정보를 갖는 오디오 파일을 추출하고, 추출된 오디오 파일들을 클러스터링(clustering) 하여 클러스터링된 오디오 파일을 제공하는 클러스터링을 이용하여 오디오 파일을 제공하는 장치 및 그 방법에 관한 것이다.
최근 디지털 방식으로 인코딩된 오디오 파일을 재생할 수 있는 휴대용 오디오 파일 플레이어의 사용은 흔한 일이 되었다. 즉, 반도체 메모리 장치 상에 저장된 디지털 방식으로 인코딩된 오디오 파일을 처리할 수 있는 비교적 소형의 핸드 헬드 장치가 인기를 얻게 되었다.
또한, 휴대용 오디오 파일 플레이어에서 더 높은 데이터 저장용량에 대한 수요가 증가함에 따라, 소형화된 고용량 하드 드라이브를 포함하는 차세대 플레이어들이 개발되어 인기를 얻어가고 있다.
오디오 파일 플레이어에서 디지털 오디오 파일은 먼저 그 데이터를 오디오 CD, 인터넷, 또는 다른 디지털 오디오 장치로부터 PC로 다운로드 함으로써 데이터 저장 장치로 로딩된다. 그 다음, 이 데이터는 보통은 선택된 인코딩 포맷에 따라 압축되어 그 오디오 파일 플레이어와 관련된 데이터 저장 장치로 로딩된다.
또한, 오디오 파일은 재생 동안 선택된 인코딩 포맷에 따라 오디오 파일 플레이어에 의해 압축 해제/디코딩 된다. 오디오 파일의 압축 및 압축 해제를 위한 각종의 인코딩 포맷이 이용가능 하다. 이러한 인코딩 포맷에는 MP3 및 MP3 Pro가 있지만, 이에 한정되는 것은 아니다.
MP3 인코딩된 오디오 파일 파일의 경우, 데이터 파일에는 ID3 태그라고 하는 특별한 프레임 세트가 선두에 부가되거나 또는 후단에 부가된다. 여기서, ID3 태그는 설명 텍스트와 오디오 파일과 관련된 다른 데이터를 포함한다. 예를 들어, 태그는 음악제목(Title), 아티스트(Artist), 앨범이름(Album), 작곡 연도(Year), 음악 장르(Genre), 및 코멘트(Comment) 등의 정보를 포함할 수 있다. ID3 태그 정보는 ID3 태그에 포함된 정보에 기초하여 특정의 오디오 파일 파일을 검색, 분류 및 선택하는 데 유용하며, 또한 ID3 태그 정보가 종종 텍스트 문자로서 저장되어 있기 때문에 이 정보는 오디오 파일 플레이어의 디스플레이 화면에 표시될 수 있다.
그러나, 기술의 발전과 함께 여러 독립된 기기들이 하나로 통합되어 가는 추세에 있고, 그 크기는 오히려 소형화되는 추세에 있다. 이에 따라, 오디오 파일 플레이어의 크기도 점차 소형화되어 표시창의 크기가 작아지게 됨으로써 표시창을 보면서 작고 조밀하게 배열되어 있는 버튼을 조작하여 곡목을 선택하는 것은 사용자에게 상당한 번거로움을 유발시키게 되는 문제점이 있다.
또한, 오디오 파일 플레이어에 저장된 오디오 파일의 수가 많아지게 되면서 사용자가 듣고자 하는 오디오 파일을 찾기는 많은 시간이 소요되는 문제점이 있다.
이에, 사용자가 검색하고자 하는 오디오 파일을 효율적으로 검색하기 위해 곡명, 가수 명 전체 혹은 선두 문자에 대한 음성 인식을 통해 오디오 파일을 제공하는 방법, 허밍(Humming)과 같은 음악의 멜로디를 이용한 검색 방법, 및 오디오 파일의 특성을 표현하는 finger print를 작성하여 현재 음악과 유사한 특징(가수/앨범/멜로디)을 가지는 음악 파일을 제공하는 방법이 이용되고 있다.
그러나, 상기와 같은 방법들을 사용자가 소유하고 있는 오디오 파일들의 분류 및 특징에 의존하여 검색을 수행하며, 사용자가 검색하고자 하는 파일에 대해 완전한 형태의 정보를 기억하고 있어야 하고, 부분 일치 검색 및 연상 검색 기능을 제공하지 않는다는 문제점이 있다.
또한, 검색되는 오디오 파일의 개수에 따라 탐색하는 시간이 증가하고, 검색 된 많은 오디오 파일을 한 화면에 제공할 수 없으며, 이에 사용자가 검색된 결과를 확인하는 소정 시간이 소요된다는 문제점이 있다.
본 발명은 사용자로부터 입력된 질의어와 유사한 정보를 갖는 오디오 파일을 추출하고, 추출된 오디오 파일을 클러스터링하여 제공하는데 그 목적이 있다.
본 발명의 다른 목적은 오디오 파일을 클러스터링한 후, 생성된 클러스터들을 한 화면에 디스플레이함으로써, 사용자가 화면의 이동 없이 원하는 오디오 파일을 선택할 수 있도록 하는 것이다.
본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해되어질 수 있을 것이다.
상기 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 클러스터링을 이용하여 오디오 파일을 제공하는 장치는, 오디오 파일에서 메타 데이터를 추출하고, 상기 추출된 메타 데이터를 기초로 핵심 색인어를 추출하는 정보 추출부와, 상기 추출된 색인어의 웨이트를 계산하고, 상기 웨이트 값이 계산된 오디오 파일과 사용자로부터 입력된 질의어를 비교하여 유사도를 계산하는 계산부와, 상기 사용자로부터 입력된 질의어와 소정의 유사도를 갖는 오디오 파일들을 검출하고, 상기 검출된 오디오 파일들 간의 유사도를 계산하여 비슷한 성향을 갖는 오디오 파일들을 클러스터링 하는 동적 클러스터링 수행부와, 상기 사용자로부터 입력된 질의어와 유사 도를 갖는 오디오 파일들을 검출하고, 상기 검출된 오디오 파일의 색인어에 대한 웨이트 값을 기초로 오디오 파일들을 클러스터링하는 정적 클러스터링 수행부와, 상기 동적 클러스터 또는 정적 클러스터를 화면에 제공하는 디스플레이부를 포함한다.
또한, 본 발명의 다른 실시예에 따른 클러스터링을 이용하여 오디오 파일을 제공하는 방법은, 사용자로부터 입력된 질의어와 소정 오디오 파일의 유사도를 계산하는 단계와, 상기 계산 결과를 기초로 사용자로부터 입력된 질의어와 소정의 유사도를 갖는 오디오 파일들을 검출하여 동적 클러스터링을 수행하는 단계와, 상기 계산 결과를 기초로 사용자로부터 입력된 질의어와 소정의 유사도를 갖는 오디오 파일들을 검출하여 정적 클러스터링을 수행하는 단계와, 상기 동적 클러스터 및 정적 클러스터를 화면에 디스플레이 하는 단계를 포함한다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
이하, 본 발명의 실시예들에 의하여 클러스터링을 이용하여 오디오 파일을 제공하는 장치 및 그 방법을 설명하기 위한 블록도 또는 처리 흐름도에 대한 도면들을 참고하여 본 발명에 대해 설명하도록 한다. 이 때, 처리 흐름도 도면들의 각 블록과 흐름도 도면들의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수 있음을 이해할 수 있을 것이다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 흐름도 블록(들)에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 흐름도 블록(들)에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 흐름도 블록(들)에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실행예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
도 1은 본 발명의 일 실시예에 따른 클러스터링을 이용하여 오디오 파일을 제공하는 장치의 내부 블록도를 나타낸 도면이다.
도시된 바와 같이, 오디오 파일 재생 장치(10)는 음성 입력 부(110), 음성 인식부(120), 메모리(130), 정보 추출부(140), 계산부(150), 동적 클러스터링 수행부(160), 정적 클러스터링 수행부(170), 클러스터 오버랩부(180), 디스플레이부(190), 오디오 파일 출력부(200), 및 제어부(210)를 포함하여 구성된다.
이 때, 본 실시예에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성 요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.
입력부(110)는 사용자로부터 발성된 질의어를 입력받으며, 사용자의 질의어 입력 시 주위 소음과 사용자의 운동 상태를 감지한다.
예를 들어, 사용자가 소정의 질의어를 발성하면 발성된 음성 데이터를 입력받고, 사용자의 음성 발성 시 주위 소음과 사용자의 운동 상태를 함께 입력(감지)받아 현재 사용자가 오디오 파일을 이용하는 환경을 체크한다. 여기서, 체크된 환경 정보는 해당 오디오 데이터의 메타 데이터와 함께 저장되며, 정적 클러스터링을 수행할 때 이용된다.
음성 인식부(120)는 입력부(110)를 통해 입력된 사용자의 음성(질의어)을 인식하는 것으로, 사용자가 발성한 질의어를 파악하여 사용자가 이용하고자 하는 오디오 파일이 무엇인지 분석한다.
메모리(130)는 오디오 파일, 오디오 파일의 메타 데이터, 핵심 색인어, 및 해당 오디오 파일에 대한 주변 정보를 저장한다.
예를 들어, 사용자가 A라는 질의어를 발성한 경우 음성 입력부(110)가 사용자의 질의어 및 주변의 조용함과 사용자의 정적인 상태를 감지하여 주변 정보를 전송하면, 메모리(130)는 질의어에 해당하는 오디오 파일의 주변 환경 정보에 '조용한 환경'이라는 정보를 추가하고, 이 후 정적 클러스터링 수행시 해당 정보를 제공 한다.
또한, 도 2를 참조하여 메모리(130)에 저장된 정보 테이블을 설명하면, 예를 들어 메모리(130)는 특정 오디오 파일의 ID와, 정보 추출부(140)가 추출한 오디오 파일의 핵심 색인어, 계산부(150)가 계산한 tf(term frequency), 및 df(document frequency) 등을 테이블 형태로 저장한다. 여기서, tf, 및 df는 오디오 파일이 업데이트 될 때마다 변경될 수 있으며, 사용자의 질의어 입력 시 유사한 오디오 파일을 검색할 때 상기 저장된 정보가 이용된다.
정보 추출부(140)는 오디오 파일에서 메타 데이터를 추출하고, 추출된 메타 데이터를 기초로 핵심 색인어를 추출한다.
즉, 정보 추출부(140)는 메타 데이터 정보(예를 들어, 음악제목, 가수이름, 작곡자, 앨범이름, 음악 장르, 가사 및 리뷰 정보 등)를 품사에 따라 태깅(tagging)하고, 품사별로 태깅된 단어를 인식한다.
그 다음, 인식된 단어들 중 핵심 색인어를 추출한다. 여기서, 핵심 색인어는 일반적으로 많이 사용되는 단어를 말하는 것으로, 즉 정보 추출부(140)는 소정 오디오 파일에서 메타 데이터의 정보를 기초로 핵심 단어를 추출할 때 메모리(130)에 저장된 핵심 색인어를 참조하여 추출한다.
도 3을 참조하여 정보 추출부(140)의 핵심 색인어를 추출하는 과정을 설명한다.
예를 들어, 오디오 파일의 파일명이 정보가 "(슬픈연가 OST) 송승헌-십년이 지나도.mp3"인 경우, 정보 추출부(140)는 먼저 파일명에 대해 품사 태깅을 수행한 다(S10).
그 다음, 품사별로 태깅된 개체(단어)들을 인식하고(S20), 인식된 단어들 중 핵심 색인어를 추출한다(S30). 여기서, 핵심 색인어는 인식된 단어 중 많이 나타나는 단어, 및 메모리(130)에 저장된 핵심 색인어 테이블을 참조하여 핵심 색인어를 추출한다.
그 다음, 추출된 핵심 색인어에 대한 감정(예를 들어, 기쁨, 슬픔, 및 공포 등) 정보를 설정한다(S40).
이에, 추출된 핵심 색인어, 및 감정 정보는 메모리(130)에 각각 오디오 파일 별로 테이블 형태로 저장된다.
계산부(150)는 정보 추출부(140)를 통해 추출된 색인어 정보를 이용하여 해당 오디오 파일의 핵심 색인어에 대한 웨이트(weight)를 계산하고, 계산된 웨이트 값과 사용자로부터 입력된 질의어를 비교하여 유사도를 계산한다.
특정 오디오 파일의 핵심 색인어에 대한 웨이트를 계산하는 식은 하기 [수학식1]과 같다.
Figure 112005045764599-pat00001
여기서, doc length는 현재 오디오 파일에 나타난 핵심 색인어들의 개수이고, avg. doc length는 오디오 파일들의 평균 doc length이다. 또한, tf(term frequency)는 해당 오디오 파일에 현재 핵심 색인어가 나타난 빈도이고, df(document frequency)는 현재 핵심 색인어를 포함하는 오디오 파일의 수이고, N은 메모리(130)에 저장된 오디오 파일의 전체 개수를 말한다.
사용자로부터 입력된 질의어와 특정 오디오 파일의 유사도(score)를 계산하는 식은 하기 [수학식2]와 같다. 여기서, 계산된 유사도 값이 0이 아닌 경우, 소정의 오디오 파일과 사용자의 질의어가 계산값에 따른 유사도를 갖는다고 이해할 수 있다.
Figure 112005045764599-pat00002
여기서,
Figure 112005045764599-pat00003
는 핵심 색인어
Figure 112005045764599-pat00004
가 오디오 파일 d에서 가지는 웨이트를 말한다. 또한,
Figure 112005045764599-pat00005
는 핵심 색인어
Figure 112005045764599-pat00006
의 웨이트를 말한다.
예를 들어, 오디오 파일이 3개(A, B, 및 C)가 있다고 가정하고, 이때 A 오디오 파일에는 핵심 색인어 a, d, a, b가, B 오디오 파일에는 핵심 색인어 c, d, d, a가, C 오디오 파일에는 핵심 색인어 e, f, g가 존재한다고 가정한다.
먼저, A 오디오 파일의 doc length는 4, B 오디오 파일의 doc length는 4, C 오디오 파일의 doc length는 3이며, 이에 avg. doc length는 3.67 이다.
그 다음, A 오디오 파일의 핵심 색인어 a의 tf는 2, df는 2이고, 핵심 색인어 d의 tf는 1, df는 3이고, 핵심 색인어 b의 tf는 1, df는 1임을 구할 수 있다. 또한, B 오디오 파일의 핵심 색인어 c의 tf는 1, df는 1이고, 핵심 색인어 d의 tf는 2, df는 3이고, 핵심 색인어 a의 tf는 1, df는 2임을 구할 수 있다. 또한, C 오 디오 파일의 핵심 색인어 e의 tf는 1, df는 1이고, 핵심 색인어 f의 tf는 1, df는 1이고, 핵심 색인어 g의 tf는 1, df는 1임을 구할 수 있다.
그 다음, 오디오 파일(A, B, 및 C)에 존재하는 핵심 색인어 a, b, c, d, e, f, 및 g에 고유 ID(unique ID)를 할당한다.
예를 들어, a=>1, b=>2, c=>3, d=>4, e=>5, f=>6, g=>7의 고유 ID를 할당한다.
그 다음, 수학식1을 통해 각각의 오디오 파일의 핵심 색인어에 대한 웨이트를 계산하면 하기 [표1]과 같다.
Figure 112005045764599-pat00007
그 다음, 사용자가 d, f, 및 f 라는 질의어를 발성한 경우, [수학식2]를 통해 사용자로부터 입력된 질의어(d, f, 및 f)와 특정 오디오 파일과의 유사도를 계산하면 다음과 같다.
먼저,
Figure 112005045764599-pat00008
를 구한다. 여기서,
Figure 112005045764599-pat00009
는 d, 및 f이다. 즉, weight(d)는 1/3이고, weight(f)는 2/3이다.
그 다음, [표1]을 참조하여
Figure 112005045764599-pat00010
를 구한다.
즉, A 오디오 파일의 핵심 색인어 d와 사용자의 질의어(d)와의 유사도 값(즉,
Figure 112005045764599-pat00011
)은 '-0.04'이고, A 오디오 파일의 핵심 색인어 f와 사용자의 질의어(d)와의 유사도 값(즉,
Figure 112005045764599-pat00012
)은 '0'이다. 따라서, A 오디오 파일과 사용자의 질의어에 대한 유사도는 -0.04이다.
또한, B 오디오 파일의 핵심 색인어 d와 사용자의 질의어(d)와의 유사도 값은 '-0.04'이고, B 오디오 파일의 핵심 색인어 f와 사용자의 질의어(f)와의 유사도 값은 '0'이다. 따라서, B 오디오 파일과 사용자의 질의어에 대한 유사도는 -0.04이다.
또한, C 오디오 파일의 핵심 색인어 d와 사용자의 질의어(d)와의 유사도 값은 '0'이고, C 오디오 파일의 핵심 색인어 f와 사용자의 질의어(f)와의 유사도 값은 '0.05'이다. 따라서, C 오디오 파일과 사용자의 질의어에 대한 유사도는 0.05이다.
동적 클러스터링 수행부(160)는 사용자로부터 입력된 질의어와 소정의 유사도를 갖는 오디오 파일들을 검출하고, 검출된 오디오 파일들 중 비슷한 성향을 갖는 오디오 파일들을 계산(오디오 파일들 간의 유사도 계산)하여 그룹핑하는 것이다. 여기서, 오디오 파일을 그룹핑하기 위해서 오디오 파일들간의 유사도를 구해야 한다.
오디오 파일들 간의 유사도를 계산하는 식은 하기 [수학식3]과 같다.
Figure 112005045764599-pat00013
예를 들어, 오디오 파일이 4개(A, B, C, 및 D)가 있다고 가정하고, 2개의 클러스터로 나누고자 할 경우를 예를 들어 설명한다.
먼저, 제1 클러스터에서는 A 오디오 파일을 중심점으로 정하고, 제2 클러스터에서는 B 오디오 파일을 중심점으로 정한다. 그 다음, 동적 클러스터링 수행부(160)는 제1 클러스터에 대해 클러스터링을 수행하여 A 오디오 파일과 유사한 오디오 파일(예를 들어, D 오디오 파일)을 수집하고, 제2 클러스터에 대해 클러스터링을 수행하여 B 오디오 파일과 유사한 오디오 파일(예를 들어, C 오디오 파일)을 수집한다.
그 다음, 제1 클러스터 및 제2 클러스터 각각의 중심점을 계산하면, 제1 클러스터의 중심점은 (A+D)/2가 되고, 제2 클러스터의 중심점은 (B+C)/2 가 된다.
그 다음, 제1 클러스터에서 다시 클러스터링을 수행하여 C 오디오 파일이 수집되고, 제2 클러스터에서 다시 클러스터링을 수행하여 A 오디오 파일이 수집된다. 이에 제1 클러스터의 중심점은 (D+C)/2가 되고, 제2 클러스터의 중심점은 (A+B)/2 가 된다.
그 다음, 제1 클러스터에서 또 다시 클러스터링을 수행한 후, 중심점을 구한 결과 (D+C)/2가 되고, 제2 클러스터에서 또 다시 클러스터링을 수행한 후, 중심점을 구한 결과 (A+B)/2 가 된다.
따라서, 제1 클러스터 및 제2 클러스터의 중심점이 더 이상 변화되지 않을 경우, 제1 클러스터 및 제2 클러스터에 대한 동적 클러스터링의 수행을 종료한다.
그 다음, 제1 클러스터 및 제2 클러스터를 대표하는 색인어를 계산하는데, 여기서 동적 클러스터링이 수행된 제1 클러스터 및 제2 클러스터의 대표 색인어를 계산하는 식은 하기 [수학식4]와 같다.
Figure 112005045764599-pat00014
여기서 cluster length는 현재 클러스터에 속한 오디오 파일들이 가지고 있는 핵심 색인어들의 개수이고, avg. cluster length는 클러스터의 평균 cluster length이다. 또한, tfc(term frequency of cluster)는 해당 동적 클러스터에 핵심 색인어가 나타난 빈도이고, dfc(document frequency of cluster)는 현재 핵심 색인어를 포함하는 동적 클러스터의 빈도이고, CN은 동적 클러스터의 전체 개수를 말한다.
따라서, 하나 또는 두 개의 웨이트 값이 높은 핵심 색인어가 해당 동적 클러스터의 대표 색인어가 된다.
정적 클러스터링 수행부(170)는 사용자로부터 입력된 질의어와 소정의 유사도를 갖는 오디오 파일들을 검출하고, 검출된 오디오 파일의 핵심 색인어의 웨이트 값을 기초로 정적 클러스터링을 수행한다. 동적 클러스터링이 검출된 오디오 파일들을 한 화면에 보기 좋게 요약해서 보여주기 위함이라면 정적 클러스터링은 사용 자가 관심있어 할지도 모를 오디오 파일들의 클러스터를 사용자에게 제안해준다.
예를 들어, 먼저 사용자가 발성한 질의어와 소정의 유사도를 갖는 오디오 파일들에 대한 핵심 색인어들의 웨이트 값을 기준으로 핵심 색인어들을 정렬시킨다.
그 다음, 정렬된 핵심 색인어의 웨이트 값이 제1 임계치(
Figure 112005045764599-pat00015
)보다 큰가에 대한 여부를 판단하고, 또한 해당 핵심 색인어의 df가 제2 임계치(
Figure 112005045764599-pat00016
)보다 큰가에 대한 여부를 판단한다.
판단 결과 핵심 색인어의 웨이트 값이 제1 임계치 보다 크고, 핵심 색인어의 df가 제2 임계치보다 큰 경우, 소정의 정적 클러스터를 생성한다. 이러한 핵심 색인어를 포함하는 오디오 파일들이 하나의 클러스터가 되면서 해당 핵심 색인어가 클러스터의 대표어가 된다. 여기서, 정적 클러스터링을 수행하는 과정은 하기 도 7에서 자세히 설명한다.
클러스터 오버랩부(180)는 동적 클러스터링 수행부(160)와 정적 클러스터링 수행부(170)를 통해 생성된 동적 클러스터와 정적 클러스터를 오버랩(overlap)하여 사용자가 입력한 질의어에 적합한 클러스터를 제공한다.
즉, 클러스터들의 대표 색인어를 기준으로 전체 클러스터들을 정렬시킨다. 여기서, 해당 클러스터의 대표 색인어들에 대한 웨이트의 평균을 계산하고, 계산된 웨이트 값을 기초로 정렬시킨다.
그 다음, 제1 클러스터와 제2 클러스터에 대한 오버랩을 계산하고, 계산된 오버랩 값이 제3 임계치(
Figure 112005045764599-pat00017
)를 넘지 않을 경우, 해당 클러스터를 화면에 디스플레 이 한다.
예를 들어, 클러스터들의 대표 색인어를 기초로 클러스터들을 차례로 정렬시킨다. 여기서, 정렬 순서가 1번인 클러스터는 화면에 디스플레이되는 클러스터이다.
그 다음, 정렬 순서가 1번인 A 클러스터와 정렬 순서가 2번인 B 클러스터를 오버랩시킨다. 여기서, A 클러스터에 속하는 오디오 파일의 개수가 10개, B 클러스터에 속하는 오디오 파일의 개수가 5개이고, A 클러스터와 B 클러스터의 교집합 원소가 2개라고 가정하면, 2/(10+5)= 0.13 따라서, 오버랩 값은 0.13이다.
그 다음, 오버랩 값(즉, 0.13)이 제3 임계치(예를 들어, 0.2)를 넘지 않을 경우, B 클러스터는 화면에 디스플레이된다.
디스플레이부(190)는 클러스터 오버랩부(180)를 통해 디스플레이가 결정된 클러스터들을 화면에 제공한다. 여기서, 클러스터는 대표 핵심어로 선택된 소정 문자 또는 아이콘으로 표시될 수 있다.
또한, 디스플레이부(190)는 오디오 파일에 대한 문자나 그래픽 등을 디스플레이한다. 여기서, 디스플레이부(190)는 아이콘 표시창과 128*32 그래픽 도트 표시창을 가진 액정 표시창(LCD)과 LCD드라이버로 구성된다. 여기서, 아이콘 표시창에는 배터리 잔량 표시, 키홀드 표시, 플레이 모드 표시, 장르(Genre) 표시, 볼륨 표시, 및 메모리 잔량 표시 등의 아이콘을 나타낸다. 또한, 128*32 그래픽 도트 표시창에는 곡 정보, 전화번호 정보, 및 메모 정보 등이 표시된다. 이들 정보에 관한 데이터는 상기에 설명한 바와 같이 비트맵 데이터 형식으로 메모리(130)에 저장되 어 있으므로 특별한 신호처리과정을 거치지 않고서도 곧바로 표시창에 비트맵 이미지로 디스플레이된다. 또한, 비트맵 이미지로 표시되므로 컴퓨터의 윈도우 상에서 표현되는 모든 종류의 언어를 표시창에 그대로 표현하는 것이 가능하다.
오디오 파일 출력부(200)는 사용자로부터 선택된 소정의 오디오 파일을 스피커 또는 이어폰을 통해 출력시킨다.
제어부(210)는 오디오 파일 재생 장치(10)에 포함된 각 부들(110 내지 200)의 전반적인 동작을 제어하는 것으로, 음성 입력부(110)로부터 사용자의 질의어가 입력되면, 음성 인식부(120)를 제어하여 입력된 질의어를 분석하도록 한다.
또한, 제어부(210)는 분석된 질의어와 유사한 오디오 파일을 검출하기 위해 계산부(150)를 통하여 각 오디오 파일들의 핵심 색인어의 웨이트를 계산하고, 계산된 웨이트를 이용하여 사용자의 질의어와의 유사도를 계산하도록 제어한다.
또한, 제어부(210)는 정적 클러스트링 수행부(160) 및 정적 클러스터링 수행부(170)를 제어하여 소정의 유사도를 갖는 오디오 파일에 대하여 클러스터링을 수행하도록 하고, 클러스터 오버랩부(180)를 제어하여 생성된 정적 클러스터 및 정적 클러스터를 오버랩하여, 사용자가 입력한 질의어에 가장 적합한 클러스터를 제공하도록 한다.
또한, 제어부(210)는 사용자가 선택한 소정의 오디오 파일이 출력되도록 오디오 파일 출력부(200)를 제어한다.
도 4는 본 발명의 일 실시예에 따른 클러스터링을 이용하여 오디오 파일을 제공하는 방법을 나타낸 순서도이다.
먼저, 정보 추출부(140)는 메모리(130)에 저장된 오디오 파일에서 메타 데이터를 추출하고, 추출된 메타 데이터를 기초로 해당 오디오 파일의 핵심 색인어를 추출한다(S100). 여기서, 핵심 색인어를 추출하는 과정을 설명하면, 먼저 정보 추출부(140)는 메타 데이터 정보(예를 들어, 음악제목, 가수이름, 작곡자, 앨범이름, 및 음악 장르 등)를 품사에 따라 태깅(tagging)하고, 품사별로 태깅된 개체(즉, 단어)를 인식한다.
그 다음, 인식된 단어들 중 핵심 색인어를 추출하는데, 여기서 핵심 색인어는 일반적으로 많이 사용되는 단어를 말하는 것으로, 정보 추출부(140)는 메모리(130)에 저장된 핵심 색인어 테이블을 참조하여 해당 오디오 파일의 핵심 색인어를 추출할 수도 있고, 해당 오디오 파일에서 많이 검색되는 단어를 핵심 색인어로 추출할 수도 있다.
그 다음, 계산부(150)는 상기 [수학식1]을 이용하여 정보 추출부(140)가 추출한 핵심 색인어에 대한 웨이트(weight)를 계산한다(S110). 여기서, 핵심 색인어에 대한 웨이트를 계산하는 것은 사용자로부터 발성된 질의어와 유사한 오디오 파일을 검색하기 위해 수행하는 것이다. 핵심 색인어에 대한 웨이트를 계산하는 자세한 과정은 이하 도 5를 참조하여 후술하도록 한다.
그 다음, 계산된 각 핵심 색인어의 웨이트는 메모리(130)에 저장된다(S120).
그 다음, 사용자로부터 소정의 질의어가 발성되면 음성 입력부(110)는 사용자의 음성을 입력받고(S130), 입력된 음성(즉, 질의어)은 음성 인식부(120)를 통해 분석된다.
그 다음, 분석된 사용자의 질의어와 유사한 오디오 파일을 검색하기 위해 계산부(150)는 메모리(130)에 저장된 각 오디오 파일의 핵심 색인어에 대한 웨이트 값을 기초로 [수학식2]를 이용하여 질의어와의 유사도를 계산한다(S140). 여기서, 계산된 유사도 값이 0이 아닌 경우, 소정의 오디오 파일과 사용자가 발성한 질의어가 계산값에 따른 유사도를 갖는다고 이해할 수 있다.
그 다음, 동적 클러스터링 수행부(160)는 계산된 유사도를 기초로 하여 동적 클러스터링을 수행한다(S150). 여기서, 동적 클러스터링은 사용자로부터 발성된 질의어와 유사도를 갖는 오디오 파일들을 검출하고, 검출된 오디오 파일들을 소정 기준에 따라 비슷한 성향을 갖는 오디오 파일들을 수집하여 그룹핑하는 것이다. 이 후, 동적 클러스터링을 수행하는 자세한 과정은 도 6을 참조하여 후술하도록 한다.
그 다음, 정적 클러스터링 수행부(170)는 계산된 유사도를 기초로 하여 정적 클러스터링을 수행한다(S160). 여기서, 정적 클러스터링은 사용자의 질의어와 소정의 유사도를 갖는 오디오 파일을 기초로 사용자가 관심가질 오디오 파일을 검색한 후, 검색된 오디오 파일들을 클러스터링하여 제공하는 것으로, 즉 사용자의 질의어와 유사도를 갖는 오디오 파일들에 대한 색인어의 웨이트를 기준으로 하여 정적 클러스터를 생성한다. 이 후, 정적 클러스터링을 수행하는 자세한 과정은 도 7을 참조하여 후술하도록 한다.
그 다음, 클러스터 오버랩부(180)는 동적 클러스터링 수행부(160)와 정적 클러스터링 수행부(170)를 통해 생성된 동적/정적 클러스트를 오버랩하고(S170), 오버랩을 통해 선택된 클러스터는 디스플레이부(190)를 통해 오디오 파일 재생 장치 (10)의 화면에 디스플레이 된다(S180). 여기서, 클러스터 오버랩은 사용자의 질의어에 적합한 클러스터를 다시 한번 선별하기 위해서 수행하는 것이다.
이에, 사용자는 디스플레이된 클러스터를 선택하여 이용을 원하는 다양한 오디오 파일을 청취할 수 있다.
도 5는 본 발명의 일 실시예에 따른 클러스터링을 이용하여 오디오 파일을 제공하는 방법 중 핵심 색인어의 웨이트를 계산하는 과정을 나타낸 순서도이다.
도시된 바와 같이, 정보 추출부(140)가 메모리(130)에 저장된 소정 오디오 파일의 메타 데이터에서 핵심 색인어를 추출하면, 계산부(150)는 추출된 핵심 색인어를 기초로 해당 오디오 파일에 현재 핵심 색인어가 나타나는 빈도인 tf를 구한 후(S111), 현재 핵심 색인어를 포함하는 오디오 파일의 수인 df(document frequency)를 구한다(S112).
그 다음, 계산부(150)는 현재 오디오 파일에 나타난 핵심 색인어들의 개수인 doc length를 구하고(S113), 모든 오디오 파일들의 평균 doc length인 avg. doc length를 구한다(S114).
그 다음, 계산부(150)는 구해진 tf, df, doc length, 및 avg. doc length를 이용하여 특정 오디오 파일에서 검출된 핵심 색인어에 대한 웨이트를 계산한다(S115).
따라서, 상기와 같은 과정(S111 내지 S115)을 통해 메모리(130)에 저장된 모든 오디오 파일의 핵심 색인어에 대한 웨이트를 계산할 수 있다.
도 6은 본 발명의 일 실시예에 따른 클러스터링을 이용하여 오디오 파일을 제공하는 방법 중 동적 클러스터링을 수행하는 과정을 나타낸 순서도 이다.
도시된 바와 같이, 사용자로부터 발성된 질의어와 유사도를 갖는 오디오 파일들을 추출한다(S151). 여기서, 사용자의 질의어와 유사도를 갖는 오디오 파일을 A, B, C, 및 D 오디오 파일이라고 가정한다. 또한, 사용자 또는 제어부(210)는 디스플레이될 클러스터의 개수를 미리 설정해 놓을 수 있으며, 예를 들어 설정된 클러스터 개수는 2개라고 가정한다.
그 다음, 동적 클러스터링 수행부(160)는 추출된 오디오 파일들 중 소정의 오디오 파일(예를 들어, A, 및 B 오디오 파일)을 각 클러스터의 대표로 설정한다(S152). 여기서, A 오디오 파일이 포함된 클러스터를 제1 클러스터, B 오디오 파일이 포함된 클러스터를 제2 클러스터라 한다. 여기서, 제1 클러스터는 A 오디오 파일이 중심점 되고, 제2 클러스터는 B 오디오 파일이 중심점이 된다.
그 다음, A 오디오 파일과 유사한 소정 오디오 파일(예를 들어, C 오디오 파일)을 제1 클러스터로 수집하고, B 오디오 파일과 유사한 소정 오디오 파일(예를 들어, D 오디오 파일)을 제2 클러스터로 수집한다(S153).
그 다음, 각각의 클러스터는 두개의 오디오 파일에 대한 유사도(즉, 중심점)를 계산한다(S154). 여기서, 유사도를 계산하는 식은 상기 [수학식3]을 이용하며, [수학식3]을 통해 계산된 유사도는 각 클러스트의 중심점이 된다.
그 다음, 해당 클라스터의 처음 중심점의 값과 다음에 계산한 중심점의 값이 동일한지를 체크하고(S155), 체크 결과 중심점의 값이 동일하면 유사한 오디오 파일들이 하나의 클러스터로 그룹핑된 것으로 판단한다.
한편, 체크 결과 중심점이 동일하지 않으면 상기 단계 S151 내지 단계 S156 과정을 계속 수행하여 동일한 중심점을 얻도록 한다.
그 다음, 클러스터가 생성되면(S156), 해당 클러스터의 대표 색인어를 선정한다(S157). 여기서, 클러스터의 대표 색인어는 상기 [수학식4]를 이용하여 선정할 수 있다. 즉, 해당 클러스터에서 웨이트 값이 가장 큰 색인어를 대표 색인어로 선정한다.
도 7은 본 발명의 일 실시예에 따른 클러스터링을 이용하여 오디오 파일을 제공하는 방법 중 정적 클러스터링을 수행하는 과정을 나타낸 순서도 이다.
도시된 바와 같이, 사용자로부터 발성된 질의어와 유사도를 갖는 오디오 파일들을 추출하고(S161), 추출된 오디오 파일들의 핵심 색인어를 수집한 후, 상기 핵심 색인어의 웨이트를 기준으로 하여 정렬 시킨다(S162).
그 다음, 정렬 순서가 가장 높은 핵심 색인어(예를 들어, 제1 핵심 색인어)를 추출하고(S163), 추출된 핵심 색인어의 웨이트가 제1 임계값(
Figure 112005045764599-pat00018
)보다 큰가에 대한 여부를 판단한다(S164). 여기서, 제1 임계값은 사용자 또는 제어부(210)가 임의로 설정할 수 있다.
판단 결과 제1 핵심 색인어의 웨이트가 임계값 보다 큰 경우, 해당 제1 핵심 색인어의 df가 제2 임계값(
Figure 112005045764599-pat00019
)보다 큰가에 대한 여부를 판단한다(S165). 여기서, 제2 임계값은 사용자 또는 제어부(210)가 임의로 설정할 수 있다.
판단 결과 핵심 색인어의 df가 제2 임계값 보다 큰 경우, 제1 핵심 색인어를 클러스터 후보로 선정한다(S166).
한편, 판단 결과 핵심 색인어의 웨이트가 제1 임계값 보다 작은 경우, 남은 핵심 색인어가 존재하는지 체크하고(S167), 남은 핵심 색인어가 존재할 경우 정렬 순서가 다음으로 높은 핵심 색인어(예를 들어, 제2 핵심 색인어)를 추출한다.
그 다음, 추출된 제2 핵심 색인어의 웨이트와 제1 임계값을 비교하고, 비교 결과 제2 핵심 색인어의 웨이트가 제1 임계값 보다 크면 단계 S165 과정을 다시 수행하고, 비교 결과 제2 핵심 색인어의 웨이트가 제1 임계값 보다 작으면 단계 S167 과정을 다시 수행한다.
또한, 상기와 같이 단계 S164 내지 단계 S168 과정을 남은 핵심 색인어가 존재할 때까지 계속 수행한다. 여기서, 단계 S161 내지 단계 S168 과정을 수행 시 단계 S164 및 단계 S165를 만족하는 핵심 색인어는 정적 클러스터 후부로 선정된다.
도 8은 본 발명의 일 실시예에 따른 클러스터링을 이용하여 오디오 파일을 제공하는 방법을 기초로 사용자로부터 발성된 질의어에 따라 클러스터링된 결과를 나타내는 도면이다.
도시된 바와 같이, 사용자가 '이별'이라는 질의어를 발성하면 음성 입력 부(110)는 사용자의 질의어를 입력받고, 입력된 질의어를 음성 인식부(120)가 분석한다.
그 다음, 정보 추출부(140)는 분석된 질의어를 포함하는 오디오 파일을 검색하고, 계산부(150)는 검색된 오디오 파일들과 질의어와의 유사도를 계산한다.
그 다음, 유사도 값이 0이 아닌 값을 갖는 오디오 파일들을 동적 클러스터링 및 정적 클러스터링을 수행하여 사용자가 발성한 질의어와 유사한 오디 파일들을 갖는 클러스터들을 생성한다.
그 다음, 생성된 클러스터들을 오버랩하여 사용자의 질의어에 적합한 클러스터들을 다시 한번 선별하고, 선별된 클러스터들을 디스플레이부(190)를 통해 화면에 제공한다.
예를 들어, 사용자로부터 발성된 '이별'이라는 질의어와 유사한 오디오 파일은 '90년대 여성가수', '김진표', '거미1집', '취침 애용곡', 조용한 곡' 및 '일본 남자가수' 등으로 클러스터 되어 화면에 제공된다. 여기서, 각각의 클러스터에는 클러스터의 대표 색인어에 부합하는 다수의 오디오 파일이 존재한다. 즉, '조용한 곡'의 클러스터에는 메모리(130)에 저장된 '조용한 곡'이라는 메타 정보(또는 색인어 정보)를 갖는 모든 노래들이 포함되어 있다.
이에, 사용자는 화면에 제공된 클러스터들 중 소정의 클러스터를 선택하여 선택된 클러스터 내에 위치된 다양한 오디오 파일을 오디오 파일 출력부(200)를 통해 제공받을 수 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다
상기한 바와 같은 본 발명의 클러스터링을 이용하여 오디오 파일을 제공하는 장치 및 그 방법에 따르면 다음과 같은 효과가 하나 혹은 그 이상 있다.
사용자로부터 입력된 질의어와 유사한 정보를 갖는 오디오 파일을 추출하고, 추출된 오디오 파일을 클러스터링하여 제공함으로써, 하나의 화면에 소정의 클러스터가 제공되어, 사용자가 화면의 이동 없이 원하는 오디오 파일을 선택할 수 있도록 하는 장점이 있다.
또한, 사용자로부터 입력된 질의어를 기초로 유사한 오디오 파일에 대해 동적 클러스터링, 및 정적 클러스터링을 수행함으로써, 사용자가 이용을 원하는 오디오 파일을 보다 정확하게 검색하여 제공할 수 있는 장점이 있다.

Claims (10)

  1. 오디오 파일에서 메타 데이터를 추출하고, 상기 추출된 메타 데이터를 기초로 핵심 색인어를 추출하는 정보 추출부;
    상기 추출된 색인어의 웨이트를 계산하고, 상기 웨이트 값이 계산된 오디오 파일과 사용자로부터 입력된 질의어를 비교하여 유사도를 계산하는 계산부;
    상기 사용자로부터 입력된 질의어와 소정의 유사도를 갖는 오디오 파일들을 검출하고, 상기 검출된 오디오 파일들 간의 유사도를 계산하여 비슷한 성향을 갖는 오디오 파일들을 클러스터링 하는 동적 클러스터링 수행부;
    상기 사용자로부터 입력된 질의어와 유사도를 갖는 오디오 파일들을 검출하고, 상기 검출된 오디오 파일의 핵심 색인어에 대한 웨이트 값을 기초로 오디오 파일들을 클러스터링하는 정적 클러스터링 수행부; 및
    상기 동적 클러스터 또는 정적 클러스터를 화면에 제공하는 디스플레이부를 포함하는 클러스터링을 이용하여 오디오 파일을 제공하는 장치.
  2. 제 1항에 있어서,
    상기 계산부가 오디오 파일의 핵심 색인어에 대한 웨이트를 계산하는 식은,
    Figure 112005045764599-pat00020
    이며,
    여기서, doc length는 현재 오디오 파일에 나타난 핵심 색인어들의 개수이 고, avg. doc length는 오디오 파일들의 평균 doc length이고, tf는 해당 오디오 파일에 현재 핵심 색인어가 나타난 빈도이고, df는 현재 핵심 색인어를 포함하는 오디오 파일의 수의 역이고, N은 오디오 파일의 전체 개수인 클러스터링을 이용하여 오디오 파일을 제공하는 장치.
  3. 제 1항에 있어서,
    상기 계산부가 오디오 파일과 사용자로부터 입력된 질의어의 유사도를 계산하는 식은,
    Figure 112005045764599-pat00021
    이며
    여기서,
    Figure 112005045764599-pat00022
    는 핵심 색인어
    Figure 112005045764599-pat00023
    가 오디오 파일 d에서 가지는 웨이트를 말하며,
    Figure 112005045764599-pat00024
    는 핵심 색인어
    Figure 112005045764599-pat00025
    의 웨이트인 클러스터링을 이용하여 오디오 파일을 제공하는 장치.
  4. 제 1항에 있어서,
    상기 동적 클러스터링 수행부가 오디오 파일들간의 유사도를 계산하는 식은,
    Figure 112005045764599-pat00026
    인 클러스터링을 이용하여 오디오 파일을 제공하는 장치.
  5. 제 1항에 있어서,
    상기 클러스터링된 동적 클러스터와 상기 정적 클러스터를 오버랩하여 사용자의 질의어와 유사한 오디오 파일을 갖는 클러스터를 산출하는 클러스터 오버랩부; 및
    상기 사용자로부터 입력된 질의어를 분석하여 상기 입력된 질의어를 인식하는 음성 인식부를 더 포함하는 클러스터링을 이용하여 오디오 파일을 제공하는 장치.
  6. 사용자로부터 입력된 질의어와 소정 오디오 파일의 유사도를 계산하는 단계;
    상기 계산 결과를 기초로 사용자로부터 입력된 질의어와 소정의 유사도를 갖는 오디오 파일들을 검출하여 동적 클러스터링을 수행하는 단계;
    상기 계산 결과를 기초로 사용자로부터 입력된 질의어와 소정의 유사도를 갖는 오디오 파일들을 검출하여 정적 클러스터링을 수행하는 단계; 및
    상기 동적 클러스터 또는 정적 클러스터를 화면에 디스플레이하는 단계를 포함하는 클러스터링을 이용하여 오디오 파일을 제공하는 방법.
  7. 제 6항에 있어서,
    상기 오디오 파일들에 대한 핵심 색인어를 검출하는 단계; 및
    상기 검출된 색인어에 대한 웨이트를 계산하는 단계를 더 포함하는 클러스터링을 이용하여 오디오 파일을 제공하는 방법.
  8. 제 7항에 있어서,
    상기 검출된 핵심 색인어에 대한 웨이트를 계산하는 식은,
    Figure 112005045764599-pat00027
    이며,
    여기서, doc length는 현재 오디오 파일에 나타난 핵심 색인어들의 개수이고, avg. doc length는 오디오 파일들의 평균 doc length이고, tf는 해당 오디오 파일에 현재 핵심 색인어가 나타난 빈도이고, df는 현재 핵심 색인어를 포함하는 오디오 파일의 수의 역이고, N은 오디오 파일의 전체 개수인 클러스터링을 이용하여 오디오 파일을 제공하는 방법.
  9. 제 6항에 있어서,
    상기 사용자로부터 입력된 질의어와 소정 오디오 파일의 유사도를 계산하는 식은,
    Figure 112005045764599-pat00028
    이며
    여기서,
    Figure 112005045764599-pat00029
    는 핵심 색인어
    Figure 112005045764599-pat00030
    가 오디오 파일 d에서 가지는 웨이트를 말하며,
    Figure 112005045764599-pat00031
    는 핵심 색인어
    Figure 112005045764599-pat00032
    의 웨이트인 클러스터링을 이용하여 오디오 파일을 제공하는 방법.
  10. 제 6항에 있어서,
    상기 동적 클러스터링을 수행하는 식은,
    Figure 112005045764599-pat00033
    인 클러스터링을 이용하여 오디오 파일을 제공하는 방법.
KR1020050076335A 2005-08-19 2005-08-19 클러스터링을 이용하여 오디오 파일을 제공하는 장치 및 그방법 KR100643309B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020050076335A KR100643309B1 (ko) 2005-08-19 2005-08-19 클러스터링을 이용하여 오디오 파일을 제공하는 장치 및 그방법
US11/489,463 US7593937B2 (en) 2005-08-19 2006-07-20 Apparatus, medium, and method clustering audio files

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050076335A KR100643309B1 (ko) 2005-08-19 2005-08-19 클러스터링을 이용하여 오디오 파일을 제공하는 장치 및 그방법

Publications (1)

Publication Number Publication Date
KR100643309B1 true KR100643309B1 (ko) 2006-11-10

Family

ID=37653882

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050076335A KR100643309B1 (ko) 2005-08-19 2005-08-19 클러스터링을 이용하여 오디오 파일을 제공하는 장치 및 그방법

Country Status (2)

Country Link
US (1) US7593937B2 (ko)
KR (1) KR100643309B1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100850774B1 (ko) * 2006-11-13 2008-08-06 삼성전자주식회사 컨텐츠 분류 방법 및 그 방법을 수행할 수 있는 컨텐츠재생 장치
US8073854B2 (en) * 2007-04-10 2011-12-06 The Echo Nest Corporation Determining the similarity of music using cultural and acoustic information
US7949649B2 (en) * 2007-04-10 2011-05-24 The Echo Nest Corporation Automatically acquiring acoustic and cultural information about music
KR101138396B1 (ko) * 2007-09-11 2012-04-26 삼성전자주식회사 Iptv 단말기에서 컨텐츠 재생 방법 및 장치
CN102314293A (zh) * 2010-07-07 2012-01-11 富泰华工业(深圳)有限公司 电子装置及其多媒体资料浏览方法
DE102011087843B4 (de) * 2011-12-06 2013-07-11 Continental Automotive Gmbh Verfahren und System zur Auswahl mindestens eines Datensatzes aus einer relationalen Datenbank
US9934785B1 (en) 2016-11-30 2018-04-03 Spotify Ab Identification of taste attributes from an audio signal
US10885109B2 (en) * 2017-03-31 2021-01-05 Gracenote, Inc. Multiple stage indexing of audio content
US11232783B2 (en) 2018-09-12 2022-01-25 Samsung Electronics Co., Ltd. System and method for dynamic cluster personalization
CN113257236B (zh) * 2020-04-30 2022-03-29 浙江大学 一种基于核心帧筛选的模型得分优化方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6339767B1 (en) * 1997-06-02 2002-01-15 Aurigin Systems, Inc. Using hyperbolic trees to visualize data generated by patent-centric and group-oriented data processing
US6801906B1 (en) * 2000-01-11 2004-10-05 International Business Machines Corporation Method and apparatus for finding information on the internet
US20030217052A1 (en) * 2000-08-24 2003-11-20 Celebros Ltd. Search engine method and apparatus
US6961723B2 (en) * 2001-05-04 2005-11-01 Sun Microsystems, Inc. System and method for determining relevancy of query responses in a distributed network search mechanism
US6877001B2 (en) * 2002-04-25 2005-04-05 Mitsubishi Electric Research Laboratories, Inc. Method and system for retrieving documents with spoken queries
US8086619B2 (en) * 2003-09-05 2011-12-27 Google Inc. System and method for providing search query refinements

Also Published As

Publication number Publication date
US7593937B2 (en) 2009-09-22
US20070043768A1 (en) 2007-02-22

Similar Documents

Publication Publication Date Title
KR100643309B1 (ko) 클러스터링을 이용하여 오디오 파일을 제공하는 장치 및 그방법
CN109657213B (zh) 文本相似度检测方法、装置和电子设备
Hu et al. Improving mood classification in music digital libraries by combining lyrics and audio
Jamdar et al. Emotion analysis of songs based on lyrical and audio features
US7522967B2 (en) Audio summary based audio processing
Yang et al. Toward multi-modal music emotion classification
US20160267177A1 (en) Music steering with automatically detected musical attributes
JP5226240B2 (ja) メタデータを利用したメディアコンテンツの探索装置および方法
US20060282789A1 (en) Browsing method and apparatus using metadata
KR20070080481A (ko) 노래 가사를 이용하여 하이라이트 구간을 검색하는 장치 및그 방법
Mayer et al. Combination of audio and lyrics features for genre classification in digital audio collections
JP2009508156A (ja) 音楽分析
KR20160004914A (ko) 멀티미디어 재생 방법 및 그 디바이스
CN111090771A (zh) 歌曲搜索方法、装置及计算机存储介质
KR20170136200A (ko) 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템
US20090132508A1 (en) System and method for associating a category label of one user with a category label defined by another user
US20080005673A1 (en) Rapid file selection interface
Gupta et al. Songs recommendation using context-based semantic similarity between lyrics
CN109635841B (zh) 歌词评价方法、装置及存储介质、计算机设备
KR20070048484A (ko) 음악파일 자동 분류를 위한 특징 데이터베이스 생성 장치및 그 방법과, 그를 이용한 재생 목록 자동 생성 장치 및그 방법
Weck et al. Wikimute: A web-sourced dataset of semantic descriptions for music audio
Shenhuang et al. Query by humming via multiscale transportation distance in random query occurrence context
JP2008165572A (ja) データ分類装置、データ分類プログラム
KR102307410B1 (ko) 리메이크곡 검색 방법, 시스템 및 컴퓨터 프로그램
KR101520572B1 (ko) 음악에 대한 복합 의미 인식 방법 및 그 장치

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120927

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20130927

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140929

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20150925

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee