KR20050094416A - 오디오 신호를 메타데이터로 표시하기 위한 방법 및 시스템 - Google Patents

오디오 신호를 메타데이터로 표시하기 위한 방법 및 시스템 Download PDF

Info

Publication number
KR20050094416A
KR20050094416A KR1020057012070A KR20057012070A KR20050094416A KR 20050094416 A KR20050094416 A KR 20050094416A KR 1020057012070 A KR1020057012070 A KR 1020057012070A KR 20057012070 A KR20057012070 A KR 20057012070A KR 20050094416 A KR20050094416 A KR 20050094416A
Authority
KR
South Korea
Prior art keywords
audio signal
metadata
markup language
features
instruction set
Prior art date
Application number
KR1020057012070A
Other languages
English (en)
Inventor
데이비드 에이. 에비스
리차드 에스. 코울
크리스토퍼 토른
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB0230097.8A external-priority patent/GB0230097D0/en
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20050094416A publication Critical patent/KR20050094416A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Abstract

오디오 신호를 처리하는 방법은, 오디오 신호를 수신하는 단계, 상기 오디오 신호로부터 특징들을 추출하는 단계, 및 상기 추출된 특징들을 메타데이터로 변환하는 단계를 포함한다. 상기 메타데이터는 마크업 언어의 명령 세트를 포함한다. 상기 오디오 신호를 처리하기 위한 시스템은 또한 상기 오디오 신호를 수신하는 입력 디바이스 및 상기 오디오 신호로부터 특징들을 추출하고 상기 추출된 특징들을 상기 메타데이터로 변환하는 프로세서를 포함하는 것으로 개시된다.

Description

오디오 신호를 메타데이터로 표시하기 위한 방법 및 시스템{Method and system to mark an audio signal with metadata}
본 발명은 오디오 신호의 추출된 특징들에 따라 오디오 신호를 처리하는 방법 및 시스템에 관한 것이다. 본 발명은, 배타적인 것은 아니지만, 템포(tempo) 및 키(kety)와 같은 오디오 신호의 음악적 특징들을 결정하고 추출하는 시스템들을 갖는 특정 어플리케이션들을 갖는다. 추출된 특징들은 메타데이터로 변환된다.
환경을 제어하는 주위 환경 시스템(ambient environment system)은 예를 들어, 디바이스들의 세트를 포함하는 실세계 표현 시스템(real-world representation system)을 개시하는 미국 특허 출원 공보 제 US 2002/0169817호로부터 알려져 있고, 각각의 디바이스는 하나 이상의 실세계 파라미터들, 예를 들어 오디오 및 시각적 특징들을 제공하도록 구성되어있다. 디바이스들 중 적어도 하나는 마크업 언어(markup language)의 명령 세트의 형태인 실세계 디스크립션을 수신하도록 구성되었고, 디바이스들은 상기 디스크립션에 따라 동작한다. 언어로 표현된 일반적 용어들은 디바이스들이 실세계 경험을 사용자에게 렌더링(render)하도록 동작하는 로컬 서버 또는 배포된 브라우저 중 어느 하나에 의해 해석될 수 있다.
미국 특허 출원 공보 제 US 2002/0169012는 컴퓨터 프로그램으로부터 신호, 예를 들어 게임 월드 모델의 적어도 일부를 수신하는 것을 포함하는 디바이스들의 세트를 동작하는 방법을 개시한다. 신호는 실세계 디스크립션을 마크업 언어의 명령 세트의 형태로 생성하기 위해 분석되고, 디바이스들의 세트는 상기 디스크립션에 따라 동작한다.
오디오 신호로부터 마크업 언어의 명령 세트를 자동적으로 발생하는 방법을 제공하는 것이 바람직하다.
도 1은 오디오 신호를 처리하는 시스템의 개략적 표현을 도시하는 도면.
도 2는 오디오 신호 처리 방법의 흐름도.
도 3은 관련 시간 데이터와 함께 메타데이터의 저장을 개략적으로 도시하는 도면.
본 발명의 제 1 양상에 따라, 오디오 신호를 수신하는 단계, 오디오 신호로부터 특징을 추출하는 단계, 및 추출된 특징들을 마크업 언어의 명령 세트를 포함하는 메타데이터로 변환하는 단계를 포함하는 오디오 신호 처리 방법이 제공된다.
본 발명의 제 2 양상에 따라, 오디오 신호를 수신하는 입력 디바이스 및 상기 오디오 신호로부터 특징들을 추출하고, 추출된 특징들을 마크업 언어의 명령 세트를 포함하는 메타데이터로 변환하는 프로세서를 포함하는 오디오 신호 처리 시스템이 제공된다.
본 발명으로 인해, 오디오 신호의 컨텐트에 기초하고 주위 환경 시스템을 제어하기 위해 사용될 수 있는 메타데이터를 오디오 신호로부터 자동적으로 발생하는 것이 가능하다.
상기 방법은 바람직하게 메타데이터를 저장하는 단계를 더 포함한다. 이는, 예를 들어, 오디오 신호로부터의 특징 추출을 수행하기 위한 처리 능력을 갖지 않는 위치에 메타데이터를 전송함으로써 사용자로 하여금 출력된 메타데이터의 재사용을 선택할 수 있게 한다. 바람직하게, 저장 단계는, 수신된 오디오 신호와 관련하여, 상기 명령 세트내의 마크업 언어 용어의 각각의 시작 시간 및 지속기간을 규정하는 관련 시간 데이터와 함께 메타데이터를 저장하는 단계를 포함한다. 원 오디오 신호(original audio signal)와 동기화된 메타데이터와 함께 시간 데이터를 저장함으로써, 오디오 신호가 재사용될 때 메타데이터는 시간 의존적이며 원 오디오 신호와 일치하는 익스피리언스(experience)를 규정한다.
바람직하게, 상기 방법은 명령 세트를 브라우저에 전송하는 단계를 더 포함하고, 마크업 언어 어셋들(mark up language assets)을 수신하는 단계를 또한 더 포함한다. 바람직하게 상기 방법은 또한 수신된 오디오 신호와 동기하여 마크업 언어 어셋들을 렌더링하는 단계를 더 포함한다. 이러한 방식으로, 메타데이터는 주위 환경을 제공하기 위해 직접적으로 사용된다. 브라우저는 명령 세트 및 마크업 언어 어셋들을 수신하고, 명령 세트에 의해 직접적으로, 출력된 오디오와 동기하여 어셋들을 렌더링한다.
바람직한 실시예에서, 오디오 신호로부터 추출된 특징들은 템포, 키 및 볼륨 중 하나 이상을 포함한다. 이러한 특징들은 넓은 의미로 오디오 신호의 양상들을 규정한다. 이는 오디오 신호를 증대시키기 위해 주위 환경을 결정하는 메타데이터를 규정하기 위해 사용될 수 있는 것들을 나타낸다.
본 발명은 첨부 도면들을 참조하여 단지 예시적 방법으로 설명된다.
도 1은 오디오 신호의 처리를 위한 시스템(100)의 개략적 표현을 도시한다. 시스템(100)은 범용 데이터-버스(108)를 통해 메모리(ROM)(104) 및 메모리(RAM)(106)에 접속되는 프로세서(CPU)(102)로 구성되어 있다. 캐리어(112)상의 컴퓨터 코드 또는 소프트웨어(110)는 RAM(106)에 로드(또는 대안적으로 ROM(104)에 제공)될 수 있고, 코드는 프로세서(102)로 하여금 처리 방법을 실시하는 명령들을 수행하도록 한다. 부가하여, 프로세서(102)는 스토어(114), 출력 디바이스들(116, 118), 및 입력 디바이스(122)에 접속되어 있다. 사용자 인터페이스(UI)(120)가 또한 제공된다.
시스템(100)은 컴퓨터 모니터 또는 디스플레이의 형태를 취하는 출력 디바이스(116)를 갖는 종래 가정용 개인 컴퓨터(PC)로서 구현될 수 있다. 스토어(114)는 네트워크 접속을 통해 이용가능한 원격 데이터베이스일 수 있다. 대안적으로, 시스템(100)이 홈 네트워크로 구현되는 경우, 출력 디바이스들(116, 118)은 집 둘레에 배포될 수 있고, 예를 들어, 벽면에 설치된 평면 패널 디스플레이, 컴퓨터 제어 홈 광 유닛들, 및/또는 오디오 스피커들을 포함할 수 있다. 프로세서(102)와 출력 디바이스들(116, 118) 사이의 접속들은 무선(예를 들어, 무선 표준들 WiFi 또는 블루투스를 통한 통신들) 및/또는 유선(예를 들어, 유선 표준들 이더넷, USB를 통한 통신들)일 수 있다.
시스템(100)은 추출된 음악적 특징들로부터 (CD로부터의 음악 트랙과 같은) 오디오 신호의 입력을 수신한다. 본 실시예에서, 오디오 신호는 CD/DVD 또는 하드 디스크 드라이브와 같은 PC의 인터넷 입력 디바이스(122)를 통해 제공된다. 대안적으로, 오디오 신호는 네트워킹된 홈 엔터테인먼트 시스템(Hi-Fi, 홈 시네마 등)에 대한 접속을 통해 수신될 수 있다. 당업자들은 정확한 하드웨어/소프트웨어 구성 및 오디오 신호의 준비 메커니즘이 중요하지 않고, 오히려 상기 신호들이 시스템(100)에 대해 이용가능해지는 것이 중요함을 이해할 것이다.
오디오 신호로부터의 음악적 특징들의 추출은 1999년 11월, 매트 웰시 등(Matt Welsh et al)의 UC 버클리 기술 보고서 UCB/CSD-00-1096, "유사성에 대한 큰 음악 집합들의 질의(Querying large collections of music for similarity)" 문서에 개시되어있다. 상기 문서는 평균 템포, 볼륨, 노이즈, 및 음색 변화들과 같은 특징들이 입력 오디오 신호 분석으로부터 결정될 수 있는 방법을 개시하고 있다. 오디오 신호의 음악적 키를 결정하는 방법은 미국특허 제 US 5038658에 개시되어 있다.
입력 디바이스(122)는 오디오 신호의 수신을 위한 것이고, 프로세서(102)는 오디오 신호로부터 특징들을 추출하고 추출된 특징들을 메타데이터로 변환하기 위한 것이며, 메타데이터는 마크업 언어의 명령 세트를 포함한다. 프로세서(102)는 오디오 신호를 수신하고, 상기 참조에서 설명한 바와 같이 볼륨, 템포, 및 키와 같은 음악적 특징들을 추출한다. 일단 프로세서(102)가 오디오 신호로부터 음악적 특징들을 추출하면, 프로세서(102)는 이러한 음악적 특징들을 메타데이터로 변환한다. 상기 메타데이터는 <여름> 또는 <꿈꾸는 연못>과 같은 매우 광범위한 표현들의 형태가 될 것이다. 프로세서(102)내의 변환 엔진은 메타데이터를 발생하기 위한 규정된 일련의 알고리즘들 또는 추출된 특징들로부터 메타데이터를 생성하도록 구성된 "신경 네트워크(neural network)"의 형태로 동작한다. 결과적 메타데이터는 마크업 언어의 명령 세트 형태가 된다.
시스템(100)은 디바이스들의 세트 사이에 배포되는 브라우저(124)(도 2에 개괄적으로 도시됨)를 더 포함하고, 브라우저(124)는 마크업 언어의 명령 세트를 수신하고 마크업 언어 어셋들을 수신하며 그에 따라 디바이스들의 세트를 제어하도록 구성된다. 브라우저(124)에 의해 제어되는 디바이스들의 세트는 출력 디바이스들(116 및 118) 및/또는 시스템으로부터의 다른 원격 디바이스들을 포함할 수 있다. 이러한 디바이스들은 주위 환경 시스템을 함께 구성하고, 다양한 출력 디바이스들(116, 118)은 실세계 경험들을 전달하도록 설계된 명령 세트 및 마크업 언어에 부합한다.
상기 언어의 예는 상기 참조한 출원인의 동시-계류중인 출원에서 기술된 물리적 마크업 언어(PML)이다. PML은 최종 사용자가 실제 물리적 공간내에서 특정 레벨의 집중(immersion)을 경험하도록 최종 사용자에 대한 경험들을 제작(author), 통신 및 렌더링하는 수단을 포함한다. 예를 들어, 오디오 시스템 및 조명 시스템과 같은 소비자 디바이스들에 인에이블된 PML은 호스트 네트워크 디바이스로부터 명령들(예를 들어 DVD 비디오 스트림 내에 임베딩될 수 있는 명령들)을 수신할 수 있고, 이는 디바이스들로부터의 조명들 또는 사운드 출력이 변경되도록한다. 그에 따라, 영화에서의 어두운 장면은 소비자 집의 조명들이 적절히 어두워지도록 한다.
일반적으로 PML은 실세계 이벤트들 예를 들어 <숲>과 연관된 디스크립터들(descriptors)을 갖는 XML로 실현될 수 있는 고레벨의 설명적 마크업 언어이다. 그에 따라, PML은 표준화된 방식으로 집 둘레의 디바이스들이 소비자의 경험을 증대시키도록한다.
그러므로, 브라우저(124)는 예를 들어, <여름> 및 <저녁>을 포함할 수 있는 명령 세트를 수신한다. 브라우저는 또한 명령 세트의 각각의 구성요소(member)에 대한 적어도 하나의 어셋일 수 있는 마크업 언어 어셋들(126)을 수신한다. 그러므로 <여름>에 대해, 정지 영상(still image)을 포함하는 비디오 파일 및 색상 정의를 포함하는 파일이 존재할 수 있다. <저녁>에 대해, 색상, 정지 영상 및/또는 동영상에 대한 데이터를 포함하는 유사한 파일들이 존재할 수 있다. 원 음악(original music)이 플레이(또는 재생)됨에 따라, 브라우저(124)는 관련 마크업 언어 어셋들(126)을 렌더링하여, 상기 세트 내의 각각의 디바이스의 성능에 따라 색상들 및 영상들이 각각의 디바이스에 의해 렌더링되도록 한다.
도 2는 오디오 신호를 수신하는 단계(200), 오디오 신호로부터 특징들을 추출하는 단계(202), 및 추출된 특징들을 마크업 언어의 명령 세트를 포함하는 메타데이터로 변환하는 단계(204)를 포함하는 오디오 신호 처리 방법을 요약한다. 오디오 신호는 도 1의 입력 디바이스(122)를 통해 CD로부터 수신된다. 오디오 신호의 음악적 특징들을 추출하는 단계(202) 및 특징들을 적절한 메타데이터로 변환하는 단계(204)는 도 1의 시스템의 프로세서(102) 내에서 수행된다. 특징 추출(202)의 출력은 수신된 오디오 신호의 메타-디스크립션(meta-description)이다. 메타-디스크립션의 구조는 프로세서(102)에 의해 사용되는 추출 시스템의 특징에 따른다. 상대적으로 간단한 추출 시스템은 키(A 단조(minor)), 중간 볼륨(8/10), 볼륨의 표준 편향(+/-2)과 같은 디스크립션을 반환(return)한다. 더욱 복잡한 시스템은 처리되고 있는 음악의 일부에서의 시간에 따른 특징들의 변화들을 포함하는 오디오 신호에 대한 매우 상세한 정보를 반환할 수 있다.
이러한 방법은 메타데이터를 저장하는 단계(206)를 더 포함할 수 있다. 이는 도 3에 도시된다. 저장 단계는 관련 시간 데이터(304)와 함께 메타데이터(302)를 저장하는 단계를 포함할 수 있다. 시간 의존적 데이터를 반환하는 개선된 특징 추출 시스템이 단계(202)에서 사용되는 상황에서, 변환기로부터 출력된 메타데이터 또한 시간 의존적일 수 있다.
예를 들어, 오디오 신호를 구성하는 음악의 일부에서의 분위기의 규정된 변화가 존재할 수 있다. 변환기는 <여름>이 음악을 끝내고 <가을>이 시작하는 규정된 포인트와 함께, 이를 용어 <여름> 및 <가을>로 표현할 수 있다. 저장된 시간 데이터(146)는 수신된 오디오 신호에 대해, 명령 세트 각각의 마크업 언어 용어의 시작 시간 및 지속기간을 규정할 수 있다. 도 3에서 사용된 예에서, 용어<여름>은 음악의 일부의 시작 후의 수초의 시간을 나타내는 0의 시작 시간(S) 및 120 초의 기간(D)을 도시한다. 도시된 다른 두 용어들은 변환기에 의해 규정된 다른 시작 및 기간 시간을 갖는다. 도 3에서, 화살표(306)는 변환기로부터의 출력을 나타낸다.
방법은 명령 세트를 브라우저(124)에 전송하는 단계(208)를 더 포함할 수 있다. 도 1의 시스템과 관련하여 기술한 바와 같이, 브라우저(124)는 또한 마크업 언어 어셋들(126)을 수신한다(단계 210). 브라우저(124)는 수신된 오디오 신호와 동기하여 마크업 언어 어셋들(126)을 렌더링하도록 구성된다(단계 212).

Claims (12)

  1. 오디오 신호를 처리하는 방법에 있어서,
    상기 오디오 신호를 수신하는 단계(200),
    상기 오디오 신호로부터 특징들을 추출하는 단계(202), 및
    상기 추출된 특징들을 메타데이터(metadata)로 변환하는 단계(204)를 포함하며,
    상기 메타데이터(302)는 마크업 언어(markup language)의 명령 세트를 포함하는, 오디오 신호 처리 방법.
  2. 제 1 항에 있어서, 상기 메타데이터(302)를 저장하는 단계(206)을 더 포함하는, 오디오 신호 처리 방법.
  3. 제 2 항에 있어서, 상기 저장 단계(206)는 관련 시간 데이터(304)와 함께 상기 메타데이터(302)를 저장하는 단계(206)를 포함하는, 오디오 신호 처리 방법.
  4. 제 3 항에 있어서, 상기 시간 데이터(304)는 수신된 오디오 신호와 관련하여 상기 명령 세트내의 마크업 언어 용어(302)의 각각의 시작 시간 및 지속기간을 규정하는, 오디오 신호 처리 방법.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서, 상기 명령 세트를 브라우저(124)에 전송하는 단계(208)를 더 포함하는, 오디오 신호 처리 방법.
  6. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서, 마크업 언어 어셋들(markup language assets; 126)을 수신하는 단계(210)를 더 포함하는, 오디오 신호 처리 방법.
  7. 제 5 항 또는 제 6 항에 있어서, 상기 수신된 오디오 신호와 동기하여 상기 마크업 언어 어셋들(126)을 렌더링(rendering)하는 단계(212)를 더 포함하는, 오디오 신호 처리 방법.
  8. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서, 상기 오디오 신호로부터 추출된 상기 특징들은 템포, 키 및 볼륨 중 하나 이상을 포함하는, 오디오 신호 처리 방법.
  9. 오디오 신호 처리 시스템에 있어서,
    오디오 신호를 수신하는 입력 디바이스(122), 및
    상기 오디오 신호로부터 특징들을 추출하고 상기 추출된 특징들을 메타데이터(302)로 변환하는 프로세서(102)를 포함하며,
    상기 메타데이터(302)는 마크업 언어의 명령 세트를 포함하는, 오디오 신호 처리 시스템.
  10. 제 9 항에 있어서, 상기 메타데이터를 저장하는 저장 디바이스(114)를 더 포함하는, 오디오 신호 처리 시스템.
  11. 제 9 항 또는 제 10 항에 있어서, 상기 수신된 오디오 신호를 출력하는 출력 디바이스(116, 118)를 더 포함하는, 오디오 신호 처리 시스템.
  12. 제 9 항, 제 10 항 또는 제 11 항 중 어느 한 항에 있어서, 디바이스들의 세트 사이에 배포된 브라우저(124)를 더 포함하며, 상기 브라우저(124)는 상기 마크업 언어의 명령 세트를 수신하고 마크업 언어 어셋들(126)을 수신하며 그에 따라 상기 디바이스들의 세트를 제어하도록 구성된, 오디오 신호 처리 시스템.
KR1020057012070A 2002-12-24 2003-12-10 오디오 신호를 메타데이터로 표시하기 위한 방법 및 시스템 KR20050094416A (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
GBGB0230097.8A GB0230097D0 (en) 2002-12-24 2002-12-24 Method and system for augmenting an audio signal
GB0230097.8 2002-12-24
GB0320578.8 2003-09-03
GBGB0320578.8A GB0320578D0 (en) 2002-12-24 2003-09-03 Processing an audio signal

Publications (1)

Publication Number Publication Date
KR20050094416A true KR20050094416A (ko) 2005-09-27

Family

ID=32683992

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057012070A KR20050094416A (ko) 2002-12-24 2003-12-10 오디오 신호를 메타데이터로 표시하기 위한 방법 및 시스템

Country Status (7)

Country Link
US (1) US7689422B2 (ko)
EP (1) EP1579422B1 (ko)
KR (1) KR20050094416A (ko)
AT (1) ATE341381T1 (ko)
AU (1) AU2003303419A1 (ko)
DE (1) DE60308904T2 (ko)
WO (1) WO2004059615A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100838208B1 (ko) * 2006-11-30 2008-06-19 건국대학교 산학협력단 메타데이터를 제공하기 위한 방법 및 멀티미디어 콘텐츠제공 서버와, 이를 이용하여 파일을 관리하는 방법 및웹하드 서버

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040073690A1 (en) 2002-09-30 2004-04-15 Neil Hepworth Voice over IP endpoint call admission
US7359979B2 (en) 2002-09-30 2008-04-15 Avaya Technology Corp. Packet prioritization and associated bandwidth and buffer management techniques for audio over IP
US7978827B1 (en) 2004-06-30 2011-07-12 Avaya Inc. Automatic configuration of call handling based on end-user needs and characteristics
KR100744512B1 (ko) * 2005-03-14 2007-08-01 엘지전자 주식회사 디지털 오디오 기기에서 디지털 오디오 인터페이스를이용한 볼륨 조정 방법 및 장치
CA2552062C (en) 2005-07-22 2016-06-28 4121856 Canada Inc. System and methods for enhancing the experience of spectators attending a live sporting event
JP2009518729A (ja) * 2005-12-08 2009-05-07 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 発話に基づく文書履歴追跡のための方法およびシステム
US20080003551A1 (en) * 2006-05-16 2008-01-03 University Of Southern California Teaching Language Through Interactive Translation
US8706471B2 (en) * 2006-05-18 2014-04-22 University Of Southern California Communication system using mixed translating while in multilingual communication
JP2009538020A (ja) * 2006-05-19 2009-10-29 エーエムビーエックス ユーケー リミテッド 周囲体験の命令の生成
US8032355B2 (en) * 2006-05-22 2011-10-04 University Of Southern California Socially cognizant translation by detecting and transforming elements of politeness and respect
US8032356B2 (en) * 2006-05-25 2011-10-04 University Of Southern California Spoken translation system using meta information strings
KR101138396B1 (ko) 2007-09-11 2012-04-26 삼성전자주식회사 Iptv 단말기에서 컨텐츠 재생 방법 및 장치
US8218751B2 (en) 2008-09-29 2012-07-10 Avaya Inc. Method and apparatus for identifying and eliminating the source of background noise in multi-party teleconferences
US9263060B2 (en) 2012-08-21 2016-02-16 Marian Mason Publishing Company, Llc Artificial neural network based system for classification of the emotional content of digital music
US9411882B2 (en) 2013-07-22 2016-08-09 Dolby Laboratories Licensing Corporation Interactive audio content generation, delivery, playback and sharing

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5038658A (en) * 1988-02-29 1991-08-13 Nec Home Electronics Ltd. Method for automatically transcribing music and apparatus therefore
US6505160B1 (en) * 1995-07-27 2003-01-07 Digimarc Corporation Connected audio and other media objects
US5960447A (en) * 1995-11-13 1999-09-28 Holt; Douglas Word tagging and editing system for speech recognition
US20010044719A1 (en) 1999-07-02 2001-11-22 Mitsubishi Electric Research Laboratories, Inc. Method and system for recognizing, indexing, and searching acoustic signals
JP4438144B2 (ja) 1999-11-11 2010-03-24 ソニー株式会社 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
AU2001229402A1 (en) * 2000-01-13 2001-07-24 Digimarc Corporation Authenticating metadata and embedding metadata in watermarks of media signals
GB2361096A (en) 2000-04-05 2001-10-10 Sony Uk Ltd Metadata generation in audio or video apparatus
US6308154B1 (en) * 2000-04-13 2001-10-23 Rockwell Electronic Commerce Corp. Method of natural language communication using a mark-up language
EP1170967B1 (de) * 2000-07-04 2003-10-22 Siemens Aktiengesellschaft System und Verfahren zum Betrieb eines interaktiven Servers in einem zellularen Kommunikationsnetz
AU2001283004A1 (en) * 2000-07-24 2002-02-05 Vivcom, Inc. System and method for indexing, searching, identifying, and editing portions of electronic multimedia files
US7548565B2 (en) * 2000-07-24 2009-06-16 Vmark, Inc. Method and apparatus for fast metadata generation, delivery and access for live broadcast program
EP1346559A4 (en) * 2000-11-16 2006-02-01 Mydtv Inc SYSTEM AND METHOD FOR DETERMINING THE POPULARITY OF VIDEO PROGRAM EVENTS
JP4601255B2 (ja) * 2001-05-11 2010-12-22 エーエムビーエックス ユーケー リミテッド 一群のデバイス集合の操作
US20020198994A1 (en) * 2001-05-15 2002-12-26 Charles Patton Method and system for enabling and controlling communication topology, access to resources, and document flow in a distributed networking environment

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100838208B1 (ko) * 2006-11-30 2008-06-19 건국대학교 산학협력단 메타데이터를 제공하기 위한 방법 및 멀티미디어 콘텐츠제공 서버와, 이를 이용하여 파일을 관리하는 방법 및웹하드 서버

Also Published As

Publication number Publication date
DE60308904T2 (de) 2007-06-06
ATE341381T1 (de) 2006-10-15
US7689422B2 (en) 2010-03-30
US20060100882A1 (en) 2006-05-11
EP1579422B1 (en) 2006-10-04
WO2004059615A1 (en) 2004-07-15
DE60308904D1 (de) 2006-11-16
AU2003303419A1 (en) 2004-07-22
EP1579422A1 (en) 2005-09-28

Similar Documents

Publication Publication Date Title
JP4871592B2 (ja) オーディオ信号にメタデータでマーキングする方法及びシステム
KR20050094416A (ko) 오디오 신호를 메타데이터로 표시하기 위한 방법 및 시스템
Steinmetz et al. Multimedia: computing, communications and applications
US6175820B1 (en) Capture and application of sender voice dynamics to enhance communication in a speech-to-text environment
US9318100B2 (en) Supplementing audio recorded in a media file
JP2002304419A5 (ko)
KR102523135B1 (ko) 전자 장치 및 전자 장치에 의한 자막 표현 방법
CN104978973B (zh) 一种音频处理方法及装置
WO2022184055A1 (zh) 文章的语音播放方法、装置、设备、存储介质及程序产品
CN111462741B (zh) 语音数据处理方法、装置及存储介质
KR100613859B1 (ko) 개인 휴대 단말기를 위한 멀티미디어 데이터 편집, 제공장치 및 방법
KR20190005103A (ko) 전자기기의 웨이크업 방법, 장치, 디바이스 및 컴퓨터 가독 기억매체
CN113516961B (zh) 一种音符生成方法、相关设备、存储介质及程序产品
CN111105776A (zh) 有声播放装置及其播放方法
CN109460548B (zh) 一种面向智能机器人的故事数据处理方法及系统
JP5034599B2 (ja) 楽曲紹介文生成装置、ナレーション付加装置およびプログラム
CN114783408A (zh) 一种音频数据处理方法、装置、计算机设备以及介质
Zhang et al. Study on application of audio visualization in new media art
KR101468411B1 (ko) 사용자 지향적 미디 음악 재생편집 장치 및 방법
JP7385289B2 (ja) プログラム及び情報処理装置
JP4563418B2 (ja) 音声処理装置、音声処理方法、ならびに、プログラム
WO2024001462A1 (zh) 歌曲播放方法、装置、计算机设备和计算机可读存储介质
KR102544612B1 (ko) 영상 콘텐츠 연동형 서비스 제공 방법 및 장치
WO2015040743A1 (ja) アノテーション共有方法、アノテーション共有装置及びアノテーション共有プログラム
KR20210143105A (ko) 비디오 컨텐츠로부터 음악 데이터를 검출하는 장치 및 그의 제어방법

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid