KR20030070179A - 오디오 스트림 구분화 방법 - Google Patents

오디오 스트림 구분화 방법 Download PDF

Info

Publication number
KR20030070179A
KR20030070179A KR1020020009209A KR20020009209A KR20030070179A KR 20030070179 A KR20030070179 A KR 20030070179A KR 1020020009209 A KR1020020009209 A KR 1020020009209A KR 20020009209 A KR20020009209 A KR 20020009209A KR 20030070179 A KR20030070179 A KR 20030070179A
Authority
KR
South Korea
Prior art keywords
audio stream
segmentation
audio
module
calculating
Prior art date
Application number
KR1020020009209A
Other languages
English (en)
Inventor
빅토로프안드레이비
레드코프빅토르브이
마이보로다알렉산드르엘
티코츠키아나톨리아이
살미카엘에이
그람니츠키세르게이엔
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020020009209A priority Critical patent/KR20030070179A/ko
Priority to US10/370,065 priority patent/US7346516B2/en
Publication of KR20030070179A publication Critical patent/KR20030070179A/ko

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams

Abstract

본 발명에 따른 오디오 스트림 구분화 방법은, 오디오 스트림 구분화 방법에 있어서, 구분화는 별개의 동종 신호들을 포함하는 세그먼트들의 형태로 오디오 스트림을 분할한다. 여기서, 오디오 스트림은 소정의 미디어를 이용하여 방송되거나 혹은 기록되는 일련의 디지털 표본들로 구성된다.
또한, 오디오 스트림 구분화는 제 1급 특성을 계산하는 단계와, 제 2급 특성을 계산하는 단계 및 판정 메이킹 분석 단계를 구비한다.
또한, 제 1급 특성을 계산하는 단계는, 오디오 스트림을 오디오 특징 벡터가 계산되는 프레임의 형태로 분할하여 수행된다. 여기서 오디오 특징 벡터는, 5개의 포르만트 주파수와, 제 1 및 제 2 반사 계수와, 예측 에러 계수의 에너지와, 프리엠퍼사이즈된 에너지비 계수로 이루어진다.
또한, 제 2급 특성을 계산하는 단계는, 미리 정해진 비중첩 윈도우의 시퀀스로 수행되고, 이들 각각의 윈도우는 제한된 개수의 프레임으로 이루어지며, 제 1급 특성 계산 단계에서 계산된 오디오 특징 벡터들을 갖는다. 또한, 제 2급 특성을 계산하는 단계는, 각각의 윈도우에 대한 통계적 특징 벡터의 계산으로 이루어진다.
또한, 판정 메이킹 분석 단계는, 초기 구분화 서브 단계, 정확 구분화 서브 단계, 및 내부 마커 정의 단계를 구비한다.

Description

오디오 스트림 구분화 방법{Method of the audio stream segmantation}
본 발명은 소정의 미디어를 이용하여 방송되거나 혹은 기록되는 오디오 데이터 스트림의 구분화(segmentation)에 관한 것으로, 이 오디오 데이터 스트림은 일련의 디지털 표본(samples)들이거나 혹은 일련의 디지털 표본들로 변형될 수도 있다. 이러한 구분화의 목적은 오디오 신호의 여러 상이한 물리적 신호원들에 대응하는 세그먼트들의 형태로 오디오 데이터 스트림을 분할하는 데 있다. 일부 신호원(들)과 일부 배경 신호원(들)이 오디오 신호를 발사하는 경우에 있어, 배경 신호원(들)의 파라미터들은 한 세그먼트의 프레임워크에서는 본질적으로는 변화하지 않는다.
기록 기기(recording equipment)에 대한 고객의 수준 향상과 더불어 오디오 및 비디오 기록은 일반적인 것이 되고 있다. 불행히도, 오디오 및 비디오 스트림 모두 원하는 기록부를 액세스하는데 도움이 될만한 실마리는 거의 제공하고 있지 못하다. 서적의 경우에는, 독자들이 작자별로 내용을 띄엄띄엄 읽을 수 있고, 작자를 참조할 수 있도록 앞부분에 내용에 대한 목록을 두고 뒷부분에 색인을 둠으로써 색인화가 제공된다. 유사한 색인화 방식이 오디오 스트림에 유용할 수 있으며, 예를 들어 특정 연설가가 이야기하고 있는 부분들(sections)의 위치(location)를 찾는데에 도움이 될 수 있다. 대부분의 오디오 레코드들과 연관된 제한적인 데이터량은 원하는 주요 포인트로의 확실하면서도 용이한 액세스에 요구되는 정보를 충분히 제공하지 못하고 있다. 따라서, 사용자는 원하는 정보의 검색을 위해서는 순서대로 레코드의 내용을 읽어야만 한다.
이러한 문제의 해결책으로서, 오디오 데이터 스트림 내의 오디오 이벤트들에 대한 자동 색인화 시스템을 이용하는 것이 가능하다. 색인화 처리(indexation process)는 2개의 순차적 부분 즉, 구분화 및 등급화 처리(segmentation and classification)로 이루어진다. 구분화 처리는 오디오 스트림을 (어떤 의미에서의) 동종의 세그먼트들로 분할하는 것을 포함하고 있다. 등급화 처리는 적절한 주석 (notes)을 이용하여 이들 세그먼트들에 속성을 부여하는 것을 포함하고 있다. 따라서, 구분화 처리는 색인화 처리에 있어 가장 중요한 단계이다. 이러한 문제에 대해, 공지 발명에서의 기본적인 통지(notice)가 제공된다.
오디오 스트림내의 기본적 오디오 이벤트들로는 음성, 음악, 잡음(즉, 비음성 및 비음악)을 고려하는 것이 수용된다. 세상에서의 기본적인 통지는 방송 뉴스 등과 같은 오디오 스트림의 분류화, 및 색인화 처리와 음성의 검출로 주어지고 있다.
방송 뉴스 데이터는 결국 우리에게는 여러 스피커를 통한 음성과, 배경 및 채널을 포함하고 있지만, 많은 비음성 정보도 포함하고 있는 길고 세그먼트화되지 않은 음성 스트림의 형태로 다가오고 있는 것이다. 따라서, 긴 스트림을 보다 작은 세그먼트들로 자를 필요가 있다. 비음성 정보는 무시될 수 있고, 동일하거나 유사한 신호원으로부터의 세그먼트들은 스피커의 정상화 혹은 조정을 위해 클러스터화 될 수 있으므로, 이들 세그먼트들을 동종의 것끼리 보다 작게 자르는 것또한 중요하다(각각의 세그먼트는 하나의 신호원으로부터의 데이터만 포함함).
1998년 버지니아, 랜즈다운에서 개최된 Proceedings of the Broadcast Newstranscription and Understanding Workshop 에서 발표된 Zhan 등의 논문 "Dragon Systems' 1997 Mandarin Broadcast News Systems"에는 거친 인식 통과(coarse recognition pass)시에 충분히 긴 묵음 영역을 찾기 위한 세그먼트 생성에 관한 기술이 개시되고 있다. 이 방법은 현저한 멀티스피커 세그먼트들을 발생시키고 있지만, 스피커의 어떠한 변화 정보도 구분화에 사용되지는 않고 있다.
1999년 3월 아리조나주, 포닉스에서 개최된 Proceedings of ICASSP'99에서 발표된 Wegmann 등의 연속적인 연구 논문 "Progress in Broadcast News Transcription at Dragon System"은 구분화 통과시에 스피커의 변화를 탐지하는 것을 이용하는 기술을 개시되고 있다. 다음은 자동 구분화 절차이다.
·진폭 기반 검출기는 입력이 20 내지 30초 길이의 덩어리로되는 것을 탐지하는데 사용된다.
·이들 덩어리는 2 내지 30초 길이로 잘라지며 고속의 워드 인식기로부터 발생된 장면들에 기초하고 있다.
·이들 세그먼트들은 스피커 변화 검출기를 이용하여 더 변경된다(refine).
Balasubramanian 등의 미국특허 제05606643호에는 대화자(speaker)에 따라 레코딩에 대한 오디오 스트림의 색인화를 토대로 검색을 가능하도록 하는 것이 개시되어 있다. 특히, 오디오 스트림은 대화자의 이벤트들로 세그먼트화될 수도 있고, 각각의 세그먼트는 이벤트의 유형 혹은 대화자의 동일 여부에 따라 분류될 수도 있다. 예를 들어 대화중인 여러 개인으로부터의 음성이 섞이는 경우, 오디어 스트림은 대화자의 차이에 따른 이벤트들로 분리될 수도 있으며, 확인된 혹은 마크된동일한 대화자에 의해 생성되는 세그먼트들을 갖는다.
실시간으로 혹은 후처리에서 오디오 스트림의 색인을 생성하는 것은 사용자로 하여금 오디오 데이터의 특정 세그먼트들의 위치를 알아낼 수 있도록 해준다. 예를 들어, 색인의 생성은 특정 대화자에 대응하는 오디오 세그먼트들을 선택하기 위한 레코딩을 사용자가 검색할 수 있도록 하거나 혹은 다음 대화자로의 레코딩을 통한 "고속 전송"을 가능하게 해준다. 더욱이, 여러 대화자에 대한 순서를 알면 대화에 대해 혹은 그 대화의 내용에 대한 실마리를 제공할 수도 있다.
구분화의 최종 목표는 구체적인 특성을 갖는 일련의 이산 세그먼트들인 잉여 상수(remaining constant)를 각각의 세그먼트내에서 발생시키는 것이다. 선택의 특성은 색인화 시스템의 전체적인 구조에 좌우된다.
1996년 Proc. ICASSP에서 발표된 Saunders의 논문 "Real-Time Discrimination of Broadcast Speech/Music" 993-996쪽에는 제로 크로싱(zero-crossing)에 기초한 음성/음악 식별기가 개시되고 있다. 그 응용은 라디오 방송에서의 광고와 프로그램간의 식별을 위한 것이다. 식별기는 고객의 라디오에 내장하기 위한 것이기 때문에 저렴하면서도 간단하다. 식별기는 제한된 대역폭, 교호적인 유성화부 및 무성화부, 제한된 피치 범위, 모음들로된 음절 구간, 고저 레벨간의 에너지 변화량 등으로 기술되고 있는 음성의 특성을 주로 검출하도록 설계된 것이다. 제로 크로싱은 파형의 주요 주파수에 대한 추정치를 제공하므로, 검출 처리를 수행하기 위해서 식별기는 파형의 진폭과, 피치 그리고 주기성에 대한 추정치를 간접적으로 이용하고 있는 것이다.
1996년 Proc. ICSP에서 발표된 Zue와 Spina의 논문 "Automatic Transription of General Audio Data: Preliminary Analyses" 594-597쪽에는 일련의 프레임에 걸쳐 켑스트럴 계수(cepstral coefficients)들의 평균을 이용하는 것이 개시되어 있다. 여기에는 음성이 4kHz로 대역이 제한되고 음악이 16kHz로 대역이 제한되는 경우에는 음성과 음악을 식별하는 작업이 용이하지만 이들 2 신호들이 16kHz 대역폭을 차지하게 되면 식별이 그다지 용이하지 않음을 보여주고 있다.
1997년 Proc. ICASSP에서 발표된 Scheier와 Slaney의 논문 "Construction and Evaluation of a Robust Multifeature Speech/Music Discriminator" 1331-1334쪽에는 다양한 특징을 이용하는 것이 개시되어 있다. 이들 특징은 4개의 헤르츠 변조 에너지, 저에너지, 스펙트럼의 롤오프, 스펙트럼의 롤오프에 대한 변화, 스펙트럼의 중심, 이 스펙트럼 중심의 변화, 스펙트럴 플럭스(spectral flux), 스펙트럴 플럭스의 변화, 제로-크로싱률, 이 제로-크로싱률의 변화, 잔여 켑스트럴 계수, 이 잔여 켑스트럴 계수의 변화, 미터법에 따른 펄스(pulse metric) 등이다. 처음 2개의 특징은 진폭과 관련되어 있다. 다음 6개의 특징은 입력 신호의 미세한 스펙트럼으로부터 유도되므로 상기 참조 문헌에서 설명되고 있는 기술들과 관련되어 있다.
1999년 Proc. IEEE에서 발표된 Carey 등의 논문 "A Comparison of Features for Speech Music Discrimination" 149-152쪽에는 다양한 특징을 이용하는 것이 개시되어 있다. 여기에는 켑스트럴 계수, 델타 켑스트럴 계수, 진폭, 델타 진폭, 피치, 델타 피치, 제로-크로싱율, 델타 제로-크로싱율 등이 있다. 피치와 켑스트럴 계수는 미세하면서도 광범위한 스펙트럴 특징을 각각 망라하고 있다. 제로-크로싱파라미터들과 진폭은 다른 특징들에 대해 계산적으로는 비용이 많이 들지 않는 대안으로서 조사할만한 가치가 있는 것으로 믿어지고 있다.
본 발명은 상기와 같은 여건을 감안하여 창출된 것으로서, 입력 오디오 스트림을 동질의 음향적 특성을 갖는 세그먼트들의 형태가 될 수 있도록 하는 구분화 처리를 할 수 있는 오디오 스트림 구분화 방법을 제공함에 그 목적이 있다. 이러한 오디오 스트림은 어떤 미디어를 이용하여 방송되거나 혹은 녹음되는 일련의 디지털 표본(samples)들이다.
또한, 본 발명은 비교적 수적인 복잡성이 낮으면서도 고속인 구분화 처리를 제공할 수 있는 오디오 스트림 구분화 방법을 제공함에 다른 목적이 있다.
또한, 본 발명은 다양한 응용 분야에 적용될 수 있고, 비교적 간단한 집적 회로의 개발에 기초하여 구분화 처리가 산업적 규모로 행해질 수 있는 오디오 스트림 구분화 방법을 제공함에 또 다른 목적이 있다.
도 1은 본 발명에 따른 오디오 스트림 구분화 방법의 구현을 위한 시스템의 구성을 개략적으로 나타낸 도면.
도 2는 본 발명에 따른 오디오 스트림 구분화 방법에 있어서, 오디오 스트림 구분화 처리에 대한 전체적인 흐름도를 나타낸 도면.
도 3은 본 발명에 따른 오디오 스트림 구분화 방법에 있어서, 오디오 스트림 구분화 처리에 대한 상세 흐름도를 나타낸 도면.
도 4는 본 발명에 따른 오디오 스트림 구분화 방법에 있어서, 초기 구분화에 대한 서브 단계의 흐름을 예시하는 도면.
도 5는 본 발명에 따른 오디오 스트림 구분화 방법에 있어서, 정확한 구분화에 대한 서브 단계의 흐름을 예시하는 도면.
도 6은 본 발명에 따른 오디오 스트림 구분화 방법에 있어서, 분할 마커의 위치 개선을 나타내는 도면.
도 7은 본 발명에 따른 오디오 스트림 구분화 방법에 있어서, 세그먼트내를 동일한 간격으로 한정하고 있는 것을 나타내는 도면.
상기의 목적을 달성하기 위하여 본 발명에 따른 오디오 스트림 구분화 방법은, 오디오 스트림 구분화 방법에 있어서, 상기 구분화는 별개의 동종 신호 (homogeneous signals)들을 포함하는 세그먼트들의 형태로 상기 오디오 스트림을 분할하는 점에 그 특징이 있다.
여기서, 상기 오디오 스트림은 소정의 미디어를 이용하여 방송되거나 혹은 기록되는 일련의 디지털 표본들인 점에 그 특징이 있다.
또한, 상기 오디오 스트림 구분화는 제 1급 특성을 계산하는 단계와, 제 2급 특성을 계산하는 단계 및 판정 메이킹 분석 단계를 구비하는 점에 그 특징이 있다.
또한, 상기 제 1급 특성을 계산하는 단계는, 상기 오디오 스트림을 오디오 특징 벡터(audio feature vector)가 계산되는 프레임의 형태로 분할하여 수행되는 점에 그 특징이 있다.
또한 상기 오디오 특징 벡터는, 5개의 포르만트 주파수(formant frequency)와, 제 1 및 제 2 반사 계수와, 예측 에러 계수의 에너지와, 프리엠퍼사이즈된 (preemphasized) 에너지비 계수로 이루어지는 점에 그 특징이 있다.
또한, 상기 제 2급 특성을 계산하는 단계는, 미리 정해진 비중첩 윈도우의 시퀀스로 수행되고, 이들 각각의 윈도우는 제한된 개수의 프레임으로 이루어지며, 상기 제 1급 특성 계산 단계에서 계산된 상기 오디오 특징 벡터들을 갖는 점에 그 특징이 있다.
또한, 상기 제 2급 특성을 계산하는 단계는, 상기 각각의 윈도우에 대한 통계적 특징 벡터(statistical feature vector)의 계산으로 이루어지는 점에 그 특징이 있다.
또한, 상기 통계적 특징 벡터는, 상기 포르만트 주파수의 평균값과, 상기 포르만트 주파수의 분산으로 이루어지는 제 1 서브 벡터; 및 상기 제 2 반사 계수의 평균값으로 승산된 상기 제 2 반사 계수의 최대 및 최소값 간의 차이와, 상기 예측 에러 계수의 분산과 평균값의 곱, 상기 예측 에러 계수의 에너지의 모듈의 합으로 나눈 상기 이웃하는 프레임들에 대한 예측 에러 계수의 에너지들 간의 차이에 대한모듈의 합, 상기 프리엠퍼사이즈된 에너지비 계수의 최대값 및 최소값 간의 차이, 및 상기 제 1 반사 계수가 소정의 임계값보다 수적으로 우세한 상기 윈도우내 프레임들의 수로 이루어지는 제 2 서브 벡터; 를 구비하는 점에 그 특징이 있다.
또한, 상기 판정 메이킹 분석 단계는, 초기 구분화 서브 단계, 정확 구분화 서브 단계, 및 내부 마커 정의 단계를 구비하는 점에 그 특징이 있다.
또한, 상기 초기 구분화 서브 단계는, 4개의 순차적 통계 특징 벡터의 분석에 기초하여 수행되어 분할 마커가 배치될 곳을 규정하는 점에 그 특징이 있다.
또한, 상기 4개의 순차적 통계 특징 벡터의 분석은, 상기 분할 마커의 설치에 대해 신호할 수도 있는 제 1 단계 - 이 경우 다른 단계는 수행되지 않음 -와, 상기 분할 마커의 부재에 대해 신호할 수도 있는 제 2 단계 - 이 경우 제 3 단계는 수행되지 않음 - 와, 상기 분할 마커의 부재 혹은 설치에 대해 신호하는 제 3 단계로 수행되는 점에 그 특징이 있다.
또한, 상기 제 1 단계는, 상기 통계 특징 벡터들 중 제 1 서브 벡터의 2개의 순차 좌표간의 차이에 대한 모듈의 계산 단계, 소정의 임계값과 계산된 값의 비교 단계, 및 적어도 하나의 상기 모듈이 대응하는 임계값보다 크면 상기 분할 마커를 설치하는 단계를 구비하는 점에 그 특징이 있다.
또한, 상기 제 2 단계는, 상기 통계적 특징 벡터 중 제 2 서브 벡터의 2개의 순차적 좌표들의 합과 상기 통계적 특징 벡터 중 제 2 서브 벡터의 다음 2개의 순차적 좌표들의 합간의 차이에 대한 모듈의 계산 단계, 소정의 임계값과 계산된 값의 비교 단계, 및 상기 모듈들 전체가 대응하는 임계값보다 작은 경우에는 분할 마커의 부재에 대해 신호하는 단계를 구비하는 점에 그 특징이 있다.
또한, 상기 제 3 단계는, 상기 통계적 특징 벡터 중 제 2 서브 벡터의 2개의 순차적 좌표들간의 차이에 대한 모듈의 계산 단계, 소정의 임계값과 계산된 값의 비교 단계, 상기 적어도 하나의 모듈이 대응하는 임계값보다 큰 경우 상기 분할 마커를 설치하는 단계 및 상반되는 경우에는 분할 마커의 부재를 신호하는 단계를 포함하는 점에 그 특징이 있다.
또한, 상기 정확 구분화 서브 단계는, 상기 초기 구분화에 대한 결과 및 상기 분할 마커에 인접한 프레임에 대해 계산된 상기 포르만트 주파수의 순차적 분석에 기초하여 수행되는 점에 그 특징이 있다.
또한, 상기 포르만트 주파수의 순차적 분석은, 상기 포르만트 주파수의 평균치의 합간의 차이에 대한 모듈 값세트의 계산에 기초하여 행해지며, 각각의 모듈은 상기 분할 마커에 근접한 2개의 구간(인터벌) 동안 계산되는 점에 그 특징이 있다.
또한, 상기 인터벌들은 순차적 비중첩 인터벌이며, 이들 각각은 하나의 고정된 경계를 가지며, 상기 인터벌간의 경계는 상기 모듈 값세트의 계산이 수행될 때 변화되는 점에 그 특징이 있다.
또한, 상기 정확한 구분화에 대한 결과가 상기 분할 마커의 새로운 위치이고, 이 위치가 상기 포르만트 주파수 값의 평균치의 합간의 차이에 대한 모듈값의 최대값에 상당하는 점에 그 특징이 있다.
또한, 상기 내부 마커들의 정의에 대한 서브단은 2개의 내부 마커를 정의하며, 이들 내부 마커는 정확한 구분화에 대한 상기 서브단에서 수신된 각각의 세그먼트내의 가장 유사한 구간(인터벌)을 결정하는 점에 그 특징이 있다.
또한, 상기 2개의 내부 마커는, 상기 세그먼트의 좌측 및 우측 절반에 대응하며, 상기 세그먼트의 각각의 절반에 대한 상기 포르만트 주파수의 평균치의 합간의 차이에 대한 모듈값 세트의 계산을 이용하여 별도로 계산되는 점에 그 특징이 있다.
또한, 상기 포르만트 주파수의 평균치의 합간의 차이에 대한 모듈값은, 2개의 비중첩 인터벌 동안 계산되고, 이들 각각은 상기 세그먼트의 절반에 해당하며, 이들 2개의 인터벌간의 경계는 상기 모듈값 세트의 계산이 수행되는 경우 변화되는 점에 그 특징이 있다.
또한, 상기 내부 마커 각각은, 상기 포르만트 주파수의 평균치의 합간의 차이에 대한 모듈값의 최대값에 대응하는 점에 그 특징이 있다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 실시 예를 상세히 설명한다.
도 1은 본 발명이 구현될 수 있는 오디오 처리 시스템의 전체적인 블록도이다. 일반적으로, 오디오 스트림은 오디오 트랙이 수반되는 녹화 방송에 의해 제공될 수도 있는 오디오 데이터의 신호원(2)인 녹화 비디오 혹은 다른 오디오 신호원으로부터 제공된다. 오디오 데이터는 범용의 컴퓨터 등과 같이 이미 알려져 있는 장치일 수도 있으며, 본 발명에 따라 구성되는 오디오 프로세서(3)로 전송된다. 이 오디오 프로세서는 오디오 데이터의 세그먼트들(4)을 출력한다.
도 2는 오디오 구분화 처리에 대한 전체적인 흐름도이다. 단계 10은 오디오 스트림 입력 예컨대, 입력된 방송 뉴스를 나타낸다. 그리고 단계 20은 오디오 스트림으로부터 오디오 특징 벡터들을 계산하기 위한 것이다. 이들 특징 벡터들은 오디오 스트림의 특성에 대한 특징(characteristic features)을 정의하고 있다. 다음 단계 30에서는 오디오 특징 벡터들로부터 일련의 통계적 특징 벡터들을 형성한다. 통계적 특징 벡터들은 오디오 특징 벡터들의 통계적 특성을 정의한다. 단계 40에서는 통계적 특징 벡터들의 변화가 분석되며, 이러한 분석에 기초하여 세그먼트 경계들에 대한 정의가 수행된다. 따라서, 제안되고 있는 구분화 처리는 오디오 신호의 통계적 특징 변화의 분석에 기초한 것이다. 오디오 스트림의 결과적인 색인 구분화에 대한 출력은 단계 50에서 수행된다.
도 3은 오디오 구분화 처리에 대한 상세한 흐름도이다. 오디오 스트림 데이터(10)의 입력 후, 디지털 표본들의 입력 시퀀스는 짧은(예를 들어, 10-20ms) 비중첩 프레임 형태로 분할된다(단계 21). 단계 25에서 특징 벡터들은 각각의 프레임에 대해 계산된다. 이러한 계산은 상기 프레임들을 포함하고 있으며 가능하게 중첩되는 윈도우들 내의 표본들에 대한 10차 LPC(Linear Predictive Coding)를 이용하여 수행된다.
LPC 분석의 토대가 되는 선형 자동 회귀 모델(autoregressive linear model)의 파라미터들은 신뢰성이 있으며 비교적 복잡하지 않은 계산을 이용하여 정의될 수도 있다. 다음의 파라미터들은 오디오 특징 벡터의 좌표를 형성한다.
Ai,i = 1.5 - 포르만트 주파수;
K1, K2- 제1 및 제2 반사 계수;
E0- 예측 에러 계수의 에너지;
E1- 프리엠퍼시스된 에너지비 계수.
파라미터 K1, K2, E0는 뉴저지주, Englewood Cliffs에 소재하는 Prentice-Hall, Inc사의 Marple, Jr의 1987년 논문 "Digital Spectral Analysis"에 따른 LPC 분석에 따라 동시에 계산된다. LPC 분석 이후, 10개의 계수인 LSP(Line Spectral Pairs)가 미국특허 제04393272호 혹은 1995년 6월 8일 발표된 ITU-T, Study Group 15 Contribution-Q. 12/15, Draft Recommendation G.729, 버전 5.0에 따라 계산된다. Ai,i = 1.5인 포르만트 주파수는 대응하는 LSP 계수들합의 반 정도로 계산된다. E1은 일본의 동경에서 개최된 86 Proceeding ICASSP에서 발표된 Campbel 등의 논문 "Voiced/Unvoiced Classification of Speech with Applications to the U.S. Government LPC-10E Algotothm" 의 473-476쪽에 따라 규칙적 오디오 신호에 대해 6-dB 프리엠퍼시스된 제1차 차이 오디오 신호에서의 에너지의 비이다.
그 결과, 여기에는 오디오 특징 벡터(전부 9개의 특성)가 존재한다. 이들 벡터들은 한정된 물리적 의미와 오디오 스트림을 정확히 구분하기에 충분한 동적 범위를 갖고 있다. 구분화 처리의 추가 작업은 얻어진 데이터에 대한 통계적 분석이다. 통계적 특성에 대한 계산은 중첩되지 않은 제 2급 윈도우들 안에서 수행되며, 이들 각각의 윈도우는 몇몇 소정의 프레임으로 이루어진다(예를 들어, 하나의 윈도우내에 20-100개의 프레임). 따라서, 제 1차 특성에 대한 몇 개의 벡터들로 이러한하나의 윈도우를 설명한다. 오디오 특징 벡터들의 입력 시퀀스의 분할은 단계 31에서 수행된다. 단계 35에서는 특징 벡터들의 시퀀스가 통계적 특징 벡터들로 변환된다.
통계적 특징 벡터는 2개의 서브 벡터들로 이루어지며, 서브 벡터 중 첫 번째는
으로 이루어지고,
서브 벡터 중 두 번째는
으로 이루어지며, M은 한 윈도우 내의 프레임의 수이다.
그 결과, 통계적 특징 벡터들(전부해서 15개의 특성)이 존재한다.
이하 판정 메이킹(40)의 서브 단계들을 상세히 설명한다. 도 3은 본 발명에의해 개시되는 방법에 대한 개요를 보여주고 있다.
초기 구분화(100)의 서브 단계는 세그먼트들의 경계에 대응하는 분할 마커들이 하나의 제 2급 윈도우에 상응하는 정확도로 판정되는 방식으로 수행된다. 이전의 단계에 의해 수행되는 구분화 정밀도의 개선(단계 200)에 대한 서브 단계는 하나의 프레임에 상응하면서도 허위 세그먼트들을 배제하는 정확도로 각각의 분할 마커의 위치를 보정하는 것을 포함하고 있다. 내부 마커 정의(300)의 서브 단계는 각각의 세그먼트내 정지 구간(stationary interval)을 판정하는 것을 포함하고 있다. 시간적 경계를 갖는 비교차(not intersected) 오디오 세그먼트의 결과적 시퀀스가 단계 50에서 출력된다.
<초기 구분화의 서브단>
도 4는 도 3의 초기 구분화에 대한 서브단의 흐름을 예시하고 있다. 이 서브단에서 통계적 특징 벡터들, k=1...,k가 분석된다. 각각의 단계에서 이 서브단의 알고리즘은 4개의 순차적 입력 벡터로 분해된다. 분석 결과는 정보이며, 이 경우 분할 마커가 배치된다.
순차적 통계 특징 벡터들의 세트로부터 취해진 4개의 순차적 통계 특징 벡터을 살펴 본다(단계 136).
차이 Ai j= |Vi[k+j]-Vi[k+j+1]|, j=0,1,2, i=1,...,10이 통계적 특징 벡터의 제1 서브 벡터를 위해 계산된다(단계 137). 이들 값 중 적어도 하나가 대응하는 소정의 임계값보다 크면(단계 138), 분할 마커가 제 2 범위의 윈도우들 사이에 설치된다(단계 139). 이러한 경우에는 서브 단의 또 다른 단계는 수행되지 않으며, 그 첫번째 벡터가 설치된 분할 마커 이후의 제 1 벡터가 되는 다음 4개의 벡터 가 순차적 통계 특징 벡터들의 세트로부터 해석을 위해 취해진다(단계 148). 이와 달리 차이들 Ai = |(Vi[k]+Vi[k+1]) - (Vi[k+2]+Vi[k+3])|, i=11...15가 통계적 특징 벡터들의 제 2 서브 벡터들을 위해 계산된다(단계 140). 이들 값은 소정의 임계값과 매칭된다(단계 141).
이들 값 전부가 대응하는 임계값보다 작은 경우는 분할 마커의 부재에 해당한다(단계 142). 이 경우, 이 서브단의 최종 단계들은 수행되지 않으며, 그 첫 번째가 벡터 V[k+1]이 되는 다음 4개의 벡터가 해석을 위해 순차적 통계 특징 벡터들의 세트로부터 취해지게 된다(단계 143). 이와 달리 차이들 Ai j= |(Vi[k+j]-Vi[k+j+1]), i=11...15, j=0,1,2가 통계적 특징 벡터들의 제2 서브 벡터들을 위해 계산된다(단계 143). 이들 값 중 적어도 하나가 대응하는 소정의 임계값 보다 크면(단계 144), 제 2 범위의 윈도우들 사이에는 분할 마커가 설치된다(단계 145). 이러한 경우 이 서브단의 또다른 단계는 수행되지 않으며, 그 첫번째 벡터가 설치된 분할 마커 이후의 제 1 벡터가 되는 다음 4개의 벡터들은 순차적 통계 특징 벡터의 세트로부터 취해지게 된다(단계 148). 이와 달리 그 첫 번째 벡터가 벡터 V[k+1]이 되는 다음 4개의 벡터들은 해석을 위해 순차적 통계 특징 벡터들의 세트로부터 취해지게 된다(단계 148). 만일 분할 마커가 판단 단계 147에서 취해지게 된다면, 초기 구분화의 서브단은 종료되며 초기 구분화 마커는 정확한 구분화의 서브단으로 진행하게 된다.
<정확한 구분화의 서브단>
도 5는 도 3의 정확한 구분화의 서브단에 대한 흐름도(200)를 예시하고 있다. 이 제공된 단의 동작의 의미는 분할 마커 위치의 개선으로 이루어진다. 이는 각각의 분할 마커에 가까운 LSP 계수 Ai, i=1,...,5(도 5 참조)의 시퀀스에 대한 정확한 통계적 분석의 결과로 달성된다. n개의 프레임으로 이루어지며, 포르만트 주파수 계수에 가까운 약간의 이웃하는 것들이 있는 임의의 분할 마커 μ를 고려해보기로 한다. 단계 210에서 그 차이가 평가된다:
최대값 Sj에 대응하는 인수(argument)는 단계 220에서 계산된다.
단계 230에서 새로운 분할 마커는 도 6에 음영으로 표시된 사각형들 사이의 J에 대응하는 위치내에 배치된다. 도 4의 단계 148에서, 벡터의 시프트는 새로운 마커의 위치로부터 수행된다.
<내부 마커들의 정의에 대한 서브단>
최종 구분화의 내부 마커들의 정의에 대한 서브단은 세그먼트내 가장 유사한 구간을 정의하는 2개의 내부 마커들(μint, ηint)의 정의를 위한 목적으로 각각의 세그먼트를 해석한다. 이러한 해석은 다음의 목적으로 행해진다: 놓여진 분할 마커들은 상이한 성질의 2개의 오디오 이벤트들을 분리함. 이들 이벤트들은 규칙적으로 서로 원할하게 통과하게 되며 거친 경계(drastic border)를 갖지는 않는다. 따라서, 2개의 이벤트들에 대한 정보를 포함하는 시간적 구간(interval)이 존재한다. 이는 이벤트들의 정확한 분류를 방해할 수도 있다.
이전의 서브단에서처럼 이러한 태스크는 각각의 분할 마커에 가까운 포르만트 주파수 계수 Ai, i=1,...,5의 시퀀스에 대한 정확한 통계적 분석을 이용하여 해결된다. 마커 μ와 η로 국한되며(따라서, η- μ= n+1 프레임), 포르만트 주파수 계수로 구성되는 임의의 세그먼트를 고려해보기로 한다(도 7 참조).
먼저 2개의 차이가 평가된다:
2번째로 최대값 S1j와 S2j에 해당하는 인수가 계산된다:
다음에 도 7에 음영으로 표시된 사각형들 사이의 J1, J2에 대응하는 위치에 새로운 마커 μint와 ηint가 배치된다.
이에 따라 구분화 처리가 종료된다. 그 결과, 시간적 경계를 갖는 비교차 오디오 간격의 시퀀스가 얻어진다.
이상에서 살펴본 바와 같이, 본 발명에 따른 구분화 처리는 3단계로 이루어지며, 이들 단계는 제 1급 특성 계산, 제 2급 특성 계산, 및 메이킹 결정(decision making) 단계이다. 제 1급 특성 계산 단계는 입력 오디오 스트림으로부터의 오디오 특징 벡터들을 계산하기 위한 것이다. 이들 특징 벡터들은 오디오 신호들의 특성을 정의하고 있다. 제 2급 특성 계산 단계에서는 오디오 특징 벡터들의 시퀀스로부터 통계적 특징 벡터들에 대한 시퀀스를 형성하게 된다. 이 통계적 특징 벡터들은 제 1급 특징 중의 통계적 특징들을 정의한다. 메이킹 결정 단계에서는 제 2급 특징의 변화를 분석하고 이 분석에 기초하여 세그먼트들의 경계를 한정하는 과정을 수행한다.
이상의 설명에서와 같이 본 발명에 따른 오디오 스트림 구분화 방법에 의하면, 구체적인 특성을 갖는 일련의 이산 세그먼트들인 잉여 상수를 각각의 세그먼트에서 발생시킴으로써 동질의 음향 특성을 검출할 수 있는 장점이 있다.

Claims (22)

  1. 오디오 스트림 구분화 방법에 있어서,
    상기 구분화는 별개의 동종 신호(homogeneous signals)들을 포함하는 세그먼트들의 형태로 상기 오디오 스트림을 분할하는 것을 특징으로 하는 오디오 스트림 구분화 방법.
  2. 제 1항에 있어서,
    상기 오디오 스트림은 소정의 미디어를 이용하여 방송되거나 혹은 기록되는 일련의 디지털 표본들인 것을 특징으로 오디오 스트림 구분화 방법.
  3. 제 1항에 있어서,
    상기 오디오 스트림 구분화는 제 1급 특성을 계산하는 단계와, 제 2급 특성을 계산하는 단계 및 판정 메이킹 분석 단계를 구비하는 것을 특징으로 하는 오디오 스트림 구분화 방법.
  4. 제 3항에 있어서,
    상기 제 1급 특성을 계산하는 단계는, 상기 오디오 스트림을 오디오 특징 벡터(audio feature vector)가 계산되는 프레임의 형태로 분할하여 수행되는 것을 특징으로 오디오 스트림 구분화 방법.
  5. 제 4항에 있어서,
    상기 오디오 특징 벡터는, 5개의 포르만트 주파수(formant frequency)와, 제 1 및 제 2 반사 계수와, 예측 에러 계수의 에너지와, 프리엠퍼사이즈된 (preemphasized) 에너지비 계수로 이루어지는 것을 특징으로 하는 오디오 스트림 구분화 방법.
  6. 제 3항에 있어서,
    상기 제 2급 특성을 계산하는 단계는, 미리 정해진 비중첩 윈도우의 시퀀스로 수행되고, 이들 각각의 윈도우는 제한된 개수의 프레임으로 이루어지며, 상기 제 1급 특성 계산 단계에서 계산된 상기 오디오 특징 벡터들을 갖는 것을 특징으로 하는 오디오 스트림 구분화 방법.
  7. 제 3항 또는 제 6항에 있어서,
    상기 제 2급 특성을 계산하는 단계는 상기 각각의 윈도우에 대한 통계적 특징 벡터(statistical feature vector)의 계산으로 이루어지는 것을 특징으로 하는 오디오 스트림 구분화 방법.
  8. 제 7항에 있어서, 상기 통계적 특징 벡터는,
    상기 포르만트 주파수의 평균값과, 상기 포르만트 주파수의 분산으로 이루어지는 제 1 서브 벡터; 및
    상기 제 2 반사 계수의 평균값으로 승산된 상기 제 2 반사 계수의 최대 및 최소값 간의 차이와, 상기 예측 에러 계수의 분산과 평균값의 곱, 상기 예측 에러 계수의 에너지의 모듈의 합으로 나눈 상기 이웃하는 프레임들에 대한 예측 에러 계수의 에너지들 간의 차이에 대한 모듈의 합, 상기 프리엠퍼사이즈된 에너지비 계수의 최대값 및 최소값 간의 차이, 및 상기 제 1 반사 계수가 소정의 임계값보다 수적으로 우세한 상기 윈도우내 프레임들의 수로 이루어지는 제 2 서브 벡터; 를 구비하는 것을 특징으로 하는 오디오 스트림 구분화 방법.
  9. 제 3항에 있어서, 상기 판정 메이킹 분석 단계는,
    초기 구분화 서브 단계, 정확 구분화 서브 단계, 및 내부 마커 정의 단계를 구비하는 것을 특징으로 하는 오디오 스트림 구분화 방법.
  10. 제 9항에 있어서,
    상기 초기 구분화 서브 단계는, 4개의 순차적 통계 특징 벡터의 분석에 기초하여 수행되어 분할 마커가 배치될 곳을 규정하는 것을 특징으로 하는 오디오 스트림 구분화 방법.
  11. 제 10항에 있어서,
    상기 4개의 순차적 통계 특징 벡터의 분석은, 상기 분할 마커의 설치에 대해신호할 수도 있는 제 1 단계 - 이 경우 다른 단계는 수행되지 않음 -와, 상기 분할 마커의 부재에 대해 신호할 수도 있는 제 2 단계 - 이 경우 제 3 단계는 수행되지 않음 - 와, 상기 분할 마커의 부재 혹은 설치에 대해 신호하는 제 3 단계로 수행되는 것을 특징으로 하는 오디오 스트림 구분화 방법.
  12. 제 11항에 있어서, 상기 제 1 단계는,
    상기 통계 특징 벡터들 중 제 1 서브 벡터의 2개의 순차 좌표간의 차이에 대한 모듈의 계산 단계, 소정의 임계값과 계산된 값의 비교 단계, 및 적어도 하나의 상기 모듈이 대응하는 임계값보다 크면 상기 분할 마커를 설치하는 단계를 구비하는 것을 특징으로 하는 오디오 스트림 구분화 방법.
  13. 제 11항에 있어서, 상기 제 2 단계는,
    상기 통계적 특징 벡터 중 제 2 서브 벡터의 2개의 순차적 좌표들의 합과 상기 통계적 특징 벡터 중 제 2 서브 벡터의 다음 2개의 순차적 좌표들의 합간의 차이에 대한 모듈의 계산 단계, 소정의 임계값과 계산된 값의 비교 단계, 및 상기 모듈들 전체가 대응하는 임계값보다 작은 경우에는 분할 마커의 부재에 대해 신호하는 단계를 구비하는 것을 특징으로 하는 오디오 스트림 구분화 방법.
  14. 제 11항에 있어서, 상기 제 3 단계는,
    상기 통계적 특징 벡터 중 제 2 서브 벡터의 2개의 순차적 좌표들간의 차이에 대한 모듈의 계산 단계, 소정의 임계값과 계산된 값의 비교 단계, 상기 적어도 하나의 모듈이 대응하는 임계값보다 큰 경우 상기 분할 마커를 설치하는 단계 및 상반되는 경우에는 분할 마커의 부재를 신호하는 단계를 포함하는 것을 특징으로 하는 오디오 스트림 구분화 방법.
  15. 제 9항에 있어서, 상기 정확 구분화 서브 단계는,
    상기 초기 구분화에 대한 결과 및 상기 분할 마커에 인접한 프레임에 대해 계산된 상기 포르만트 주파수의 순차적 분석에 기초하여 수행되는 것을 특징으로 하는 오디오 스트림 구분화 방법.
  16. 제 15항에 있어서,
    상기 포르만트 주파수의 순차적 분석은, 상기 포르만트 주파수의 평균치의 합간의 차이에 대한 모듈 값세트의 계산에 기초하여 행해지며, 각각의 모듈은 상기 분할 마커에 근접한 2개의 구간(인터벌) 동안 계산되는 것을 특징으로 하는 오디오 스트림 구분화 방법.
  17. 제 16항에 있어서,
    상기 인터벌들은 순차적 비중첩 인터벌이며, 이들 각각은 하나의 고정된 경계를 가지며, 상기 인터벌간의 경계는 상기 모듈 값세트의 계산이 수행될 때 변화되는 것을 특징으로 하는 오디오 스트림 구분화 방법.
  18. 제 15항 또는 제 16항에 있어서,
    상기 정확한 구분화에 대한 결과가 상기 분할 마커의 새로운 위치이고, 이 위치가 상기 포르만트 주파수 값의 평균치의 합간의 차이에 대한 모듈값의 최대값에 상당하는 것을 특징으로 하는 오디오 스트림 구분화 방법.
  19. 제 9항에 있어서,
    상기 내부 마커들의 정의에 대한 서브단은 2개의 내부 마커를 정의하며, 이들 내부 마커는 정확한 구분화에 대한 상기 서브단에서 수신된 각각의 세그먼트내의 가장 유사한 구간(인터벌)을 결정하는 것을 특징으로 하는 오디오 스트림 구분화 방법.
  20. 제 19항에 있어서,
    상기 2개의 내부 마커는, 상기 세그먼트의 좌측 및 우측 절반에 대응하며, 상기 세그먼트의 각각의 절반에 대한 상기 포르만트 주파수의 평균치의 합간의 차이에 대한 모듈값 세트의 계산을 이용하여 별도로 계산되는 것을 특징으로 하는 오디오 스트림 구분화 방법.
  21. 제 20항에 있어서,
    상기 포르만트 주파수의 평균치의 합간의 차이에 대한 모듈값은, 2개의 비중첩 인터벌 동안 계산되고, 이들 각각은 상기 세그먼트의 절반에 해당하며, 이들 2개의 인터벌간의 경계는 상기 모듈값 세트의 계산이 수행되는 경우 변화되는 것을 특징으로 하는 오디오 스트림 구분화 방법.
  22. 제 19항 내지 제 21항 중 어느 한 항에 있어서,
    상기 내부 마커 각각은, 상기 포르만트 주파수의 평균치의 합간의 차이에 대한 모듈값의 최대값에 대응하는 것을 특징으로 하는 오디오 스트림 구분화 방법.
KR1020020009209A 2002-02-21 2002-02-21 오디오 스트림 구분화 방법 KR20030070179A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020020009209A KR20030070179A (ko) 2002-02-21 2002-02-21 오디오 스트림 구분화 방법
US10/370,065 US7346516B2 (en) 2002-02-21 2003-02-21 Method of segmenting an audio stream

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020020009209A KR20030070179A (ko) 2002-02-21 2002-02-21 오디오 스트림 구분화 방법

Publications (1)

Publication Number Publication Date
KR20030070179A true KR20030070179A (ko) 2003-08-29

Family

ID=29546250

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020020009209A KR20030070179A (ko) 2002-02-21 2002-02-21 오디오 스트림 구분화 방법

Country Status (2)

Country Link
US (1) US7346516B2 (ko)
KR (1) KR20030070179A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR200449646Y1 (ko) * 2007-12-17 2010-07-28 비엔지 주식회사 간이구조물용 조립식 기둥

Families Citing this family (129)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7179980B2 (en) * 2003-12-12 2007-02-20 Nokia Corporation Automatic extraction of musical portions of an audio stream
WO2005122141A1 (en) * 2004-06-09 2005-12-22 Canon Kabushiki Kaisha Effective audio segmentation and classification
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
CA2536976A1 (en) * 2006-02-20 2007-08-20 Diaphonics, Inc. Method and apparatus for detecting speaker change in a voice transaction
JP4665836B2 (ja) * 2006-05-31 2011-04-06 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
US7680657B2 (en) * 2006-08-15 2010-03-16 Microsoft Corporation Auto segmentation based partitioning and clustering approach to robust endpointing
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP2008241850A (ja) * 2007-03-26 2008-10-09 Sanyo Electric Co Ltd 録音または再生装置
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
CN102044244B (zh) * 2009-10-15 2011-11-16 华为技术有限公司 信号分类方法和装置
US8560309B2 (en) * 2009-12-29 2013-10-15 Apple Inc. Remote conferencing center
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US20140207456A1 (en) * 2010-09-23 2014-07-24 Waveform Communications, Llc Waveform analysis of speech
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
GB2489489B (en) * 2011-03-30 2013-08-21 Toshiba Res Europ Ltd A speech processing system and method
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US9535450B2 (en) 2011-07-17 2017-01-03 International Business Machines Corporation Synchronization of data streams with associated metadata streams using smallest sum of absolute differences between time indices of data events and metadata events
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8879761B2 (en) 2011-11-22 2014-11-04 Apple Inc. Orientation-based audio
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US8798996B2 (en) * 2012-03-05 2014-08-05 Coupons.Com Incorporated Splitting term lists recognized from speech
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP4138075A1 (en) 2013-02-07 2023-02-22 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
US10320413B2 (en) * 2013-11-07 2019-06-11 Telefonaktiebolaget Lm Ericsson (Publ) Methods and devices for vector segmentation for coding
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
CN105632503B (zh) * 2014-10-28 2019-09-03 南宁富桂精密工业有限公司 信息隐藏方法及系统
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07287591A (ja) * 1994-04-12 1995-10-31 Xerox Corp オーディオデータのセグメンテーション方法
KR19990035846U (ko) * 1998-02-10 1999-09-15 구자홍 비디오카세트 레코더용 오디오/콘트롤헤드의 위치 및 자세 조정장치
KR20000076488A (ko) * 1999-01-19 2000-12-26 포만 제프리 엘 오디오 신호를 분석하기 위한 컴퓨터 구현 방법 및컴퓨터와 그 컴퓨터 프로그램 제품
US20020010575A1 (en) * 2000-04-08 2002-01-24 International Business Machines Corporation Method and system for the automatic segmentation of an audio stream into semantic or syntactic units

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5853352B2 (ja) 1979-10-03 1983-11-29 日本電信電話株式会社 音声合成器
US5606643A (en) 1994-04-12 1997-02-25 Xerox Corporation Real-time audio recording system for automatic speaker indexing
US6567775B1 (en) * 2000-04-26 2003-05-20 International Business Machines Corporation Fusion of audio and video based speaker identification for multimedia information access
US6931373B1 (en) * 2001-02-13 2005-08-16 Hughes Electronics Corporation Prototype waveform phase modeling for a frequency domain interpolative speech codec system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07287591A (ja) * 1994-04-12 1995-10-31 Xerox Corp オーディオデータのセグメンテーション方法
KR19990035846U (ko) * 1998-02-10 1999-09-15 구자홍 비디오카세트 레코더용 오디오/콘트롤헤드의 위치 및 자세 조정장치
KR20000076488A (ko) * 1999-01-19 2000-12-26 포만 제프리 엘 오디오 신호를 분석하기 위한 컴퓨터 구현 방법 및컴퓨터와 그 컴퓨터 프로그램 제품
US20020010575A1 (en) * 2000-04-08 2002-01-24 International Business Machines Corporation Method and system for the automatic segmentation of an audio stream into semantic or syntactic units

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR200449646Y1 (ko) * 2007-12-17 2010-07-28 비엔지 주식회사 간이구조물용 조립식 기둥

Also Published As

Publication number Publication date
US7346516B2 (en) 2008-03-18
US20030171936A1 (en) 2003-09-11

Similar Documents

Publication Publication Date Title
KR20030070179A (ko) 오디오 스트림 구분화 방법
Lu et al. Content analysis for audio classification and segmentation
Lu et al. A robust audio classification and segmentation method
EP1531458B1 (en) Apparatus and method for automatic extraction of important events in audio signals
Zhang et al. Audio content analysis for online audiovisual data segmentation and classification
Zhang et al. Heuristic approach for generic audio data segmentation and annotation
Kos et al. Acoustic classification and segmentation using modified spectral roll-off and variance-based features
Zhou et al. Efficient audio stream segmentation via the combined T/sup 2/statistic and Bayesian information criterion
Yella et al. Overlapping speech detection using long-term conversational features for speaker diarization in meeting room conversations
US8193436B2 (en) Segmenting a humming signal into musical notes
Pinquier et al. Robust speech/music classification in audio documents
CN108831506B (zh) 基于gmm-bic的数字音频篡改点检测方法及系统
Rossignol et al. Feature extraction and temporal segmentation of acoustic signals
CN108538312B (zh) 基于贝叶斯信息准则的数字音频篡改点自动定位的方法
Zewoudie et al. The use of long-term features for GMM-and i-vector-based speaker diarization systems
CN107480152A (zh) 一种音频分析及检索方法和系统
Istrate et al. NIST RT’05S evaluation: pre-processing techniques and speaker diarization on multiple microphone meetings
Delacourt et al. Speaker-based segmentation for audio data indexing
US7680654B2 (en) Apparatus and method for segmentation of audio data into meta patterns
US20110166857A1 (en) Human Voice Distinguishing Method and Device
EP1542206A1 (en) Apparatus and method for automatic classification of audio signals
Huijbregts et al. Filtering the unknown: Speech activity detection in heterogeneous video collections
Amaral et al. A prototype system for selective dissemination of broadcast news in European Portuguese
Every Discriminating between pitched sources in music audio
AU612737B2 (en) A phoneme recognition system

Legal Events

Date Code Title Description
N231 Notification of change of applicant
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E601 Decision to refuse application