KR20070088469A - 음성 엔드-포인터 - Google Patents

음성 엔드-포인터 Download PDF

Info

Publication number
KR20070088469A
KR20070088469A KR1020077002573A KR20077002573A KR20070088469A KR 20070088469 A KR20070088469 A KR 20070088469A KR 1020077002573 A KR1020077002573 A KR 1020077002573A KR 20077002573 A KR20077002573 A KR 20077002573A KR 20070088469 A KR20070088469 A KR 20070088469A
Authority
KR
South Korea
Prior art keywords
pointer
audio stream
audio
energy
rule
Prior art date
Application number
KR1020077002573A
Other languages
English (en)
Inventor
필 헤더링톤
알렉스 에스코트
Original Assignee
큐엔엑스 소프트웨어 시스템즈 (웨이브마커스) 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 큐엔엑스 소프트웨어 시스템즈 (웨이브마커스) 인코포레이티드 filed Critical 큐엔엑스 소프트웨어 시스템즈 (웨이브마커스) 인코포레이티드
Publication of KR20070088469A publication Critical patent/KR20070088469A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

룰 기반형 엔드-포인터는 오디오 스트림에 포함된 구두 발성을 배경 잡음 및 비음성 천이로부터 분리한다. 상기 룰 기반형 엔드-포인터는 여러 음성 특성에 기초하여 구두 발성의 시작 및/또는 끝을 결정하는 복수 개의 룰을 포함한다. 상기 룰은 이벤트, 이벤트들의 조합, 이벤트의 지속 기간, 또는 이벤트에 관한 지속 시간에 기초하여, 오디오 스트림 또는 오디오 스트림의 부분을 분석할 수 있다. 상기 룰은 오디오 스트림 그 자체의 특성, 오디오 스트림에 포함된 예상된 응답 또는 환경적 조건을 포함하는 여러 요소들에 따라 수동으로 또는 동적으로 주문 제작될 수 있다.

Description

음성 엔드-포인터{SPEECH END-POINTER}
본 발명은 자동 음성 인식 기술에 관한 것으로서, 보다 구체적으로는 구두 발성(spoken utterance)을 배경 잡음 및 비음성 천이(non-speech transients)로부터 분리하는 시스템에 관한 것이다.
차량 환경 내부에서, 탑승자에게 보이스 입력에 기초한 내비게이션 지시를 제공하기 위해 자동 음성 인식(ASR; Automatic Speech Recognition) 시스템이 이용될 수 있다. 이러한 기능은 화면에 정보를 수동으로 키이 입력하거나 화면으로부터 정보를 읽으려고 시도하는 동안에 운전자의 주의가 도로에서 벗어나지 않는다는 점에서 안전에 대한 우려를 증가시킨다. 또한, ASR 시스템은 오디오 시스템, 기후 제어 또는 다른 차량 기능을 제어하는 데에 이용될 수 있다.
ASR 시스템은 사용자가 마이크로폰에 음성을 입력할 수 있도록 해주고 신호를 컴퓨터가 인식하는 명령어로 전환시켜 준다. 상기 명령을 인식하면, 컴퓨터는 소정의 애플리케이션을 실행할 수 있다. ASR 시스템에서 실행할 때에 한 가지 요소는 구두 발성을 정확히 인식하는 것이다. 이는 그 발성의 시작 및/또는 끝의 위치를 결정하는 것("엔드-포인팅")을 필요로 한다.
일부 시스템은 오디오 프레임 내의 에너지를 검색한다. 그 에너지를 검출하 면, 상기 시스템은, (구두 발성의 시작 시간을 결정하기 위하여) 상기 에너지가 검출되는 포인트에서 소정의 시간 주기를 빼고, (구두 발성의 종료 시간을 결정하기 위하여) 상기 에너지가 검출되는 포인트에서 소정의 시간을 추가함으로써, 구두 발성의 엔드-포인트를 예측한다. 다음에, 이러한 선택된 오디오 스트림 부분은 구두 발성을 결정하기 위한 시도시 ASR로 보내진다.
음향 신호 내의 에너지는 많은 소스로부터 오는 것일 수 있다. 예컨대, 차랑 환경 내부에서, 음향 신호 에너지는 도로의 융기부에 부딪히는 소리(road bumps), 문을 쾅 닫는 소리(door slams), 탁 하는 소리(thumps), 깨지는 소리(cracks), 엔진 잡음, 공기 이동 등과 같은 과도 잡음(transient noise)으로부터 유래할 수 있다. 에너지의 존재에 집중하는 상기 시스템은 이러한 과도 잡음을 구두 발성인 것으로 잘못 해석할 수 있고, 상기 신호의 주변 부분을 ASR 시스템에 전송하여 처리할 수도 있다. 따라서, ASR 시스템은 과도 잡음을 음성 명령인 것으로 인식하기 위해 불필요한 시도를 할 수가 있어, 폴스-포지티브(false positives)를 발생시키고 실제 명령에 대한 응답을 지연시킨다.
따라서, 과도 잡음 조건에서 구두 발성을 식별할 수 있는 지능형 엔드-포인터 시스템에 대한 요구가 있다.
룰 기반형 엔드-포인터(rule-based end-pointer)는 오디도 스트림 중의 오디오 음성 세그먼트의 시작, 끝 또는 시작 및 끝을 결정하는 하나 이상의 룰을 포함한다. 상기 룰은 이벤트의 발생 또는 이벤트의 조합, 또는 음성 특성의 존재/부존재 지속 기간과 같은 여러 가지 요소에 기초할 수 있다. 또한, 상기 룰은 침묵 기간, 유성음 오디오 이벤트(voiced auido event), 무성음 오디오 이벤트 또는 이러한 이벤트의 임의의 조합; 이벤트의 지속 기간; 또는 이벤트에 관한 지속 시간을 분석하는 것을 포함할 수 있다. 적용되는 룰 또는 분석되는 오디오 스트림의 콘텐츠에 따라, 상기 룰 기반형 엔드-포인터가 전송하는 오디오 스트림의 양은 변할 수 있다.
동적 엔드-포인터는 오디오 스트림과 관련된 하나 이상의 동적 양태(dynamic aspects)를 분석할 수 있고, 그 분석된 동적 양태에 기초하여, 오디오 음성 세그먼트의 시작, 끝 또는 시작과 끝을 결정할 수 있다. 분석될 수 있는 동적 양태는 (1) 음성을 말하는 화자의 페이스, 화자의 피치(pitch) 등과 같은 오디오 스트림 그 자체, (2) 발성자에게 부과되는 질문에 대한 예상된 응답(예를 들면, "YES" 또는 "NO")과 같은, 오디오 스트림 중의 예상된 응답, 또는 (3) 배경 잡음 레벨, 에코 등과 같은 환경적 조건 등을 포함하는데, 이들에 제한되는 것은 아니다. 오디오 음성 세그먼트를 엔드-포인팅하기 위하여, 상기 룰은 상기 하나 이상의 동적 양태를 이용할 수 있다.
본 발명의 다른 시스템, 방법, 특징 및 이점은 이하의 도면 및 상세한 설명의 검토를 통해 당업자에게 명백하거나 명백해질 것이다. 이러한 모든 추가의 시스템, 방법, 특징 및 이점은 본 설명 내에 포함되고, 본 발명의 범위 내이며, 후술하는 청구범위에 의해 보호되도록 하기 위한 것이다.
본 발명은 이하의 도면 및 설명을 참고하여 더 잘 이해될 수 있다. 도면의 요소는 반드시 비례하여 나타낸 것은 아니며, 대신 본 발명의 원리를 설명할 때 강조하여 표시하였다. 또한, 도면에서, 동일한 도면 부호는 상이한 도면 전체에 걸쳐 대응 부분을 나타낸다.
도 1은 음성 엔드-포인팅 시스템의 블록도이다.
도 2는 차량에 합체되는 음성 엔드-포인팅 시스템의 일부를 보여주는 도면이다.
도 3은 음성 엔드-포인터의 흐름도이다.
도 4는 도 3의 일부에 대한 보다 상세한 흐름도이다.
도 5는 시뮬레이션한 음성 사운드의 엔드-포인팅을 나타낸다.
도 6은 도 5의 시뮬레이션한 음성 사운드의 일부에 대한 상세한 엔드-포인팅을 나타낸다.
도 7은 도 5의 시뮬레이션한 음성 사운드의 일부에 대한 제2의 상세한 엔드-포인팅을 나타낸다.
도 8은 도 5의 시뮬레이션한 음성 사운드의 일부에 대한 제3의 상세한 엔드-포인팅을 나타낸다.
도 9는 도 5의 시뮬레이션한 음성 사운드의 일부에 대한 제4의 상세한 엔드-포인팅을 나타낸다.
도 10은 음성에 기초한 동적 음성 엔드-포인팅 시스템의 부분 흐름도이다.
룰 기반형 엔드-포인터는 트리거링 특성(triggering characteristic)에 대해 오디오 스트림의 하나 이상의 특성을 검사할 수 있다. 트리거링 특성은 유성음 또는 무성음을 포함할 수 있다. 발성 코드(vocal cord)가 진동할 때 발생되는 유성음 세그먼트(예컨대, 모음)는 거의 주기적인 시간-도메인 신호를 발산한다. (영어에서 "f"를 말할 때와 같이) 발성 코드가 진동하지 않을 때 발생되는 무성음 사운드는 주기성이 부족하고, 잡음형 구조와 비슷한 시간-도메인 신호를 갖고 있다. 오디오 스트림 중의 트리거링 특성을 식별하고 음성 사운드의 자연적인 특성에 대해 작용하는 룰 셋트를 채용함으로써, 상기 엔드-포인터는 음성 발성의 시작 및/또는 끝을 결정하는 것을 개선할 수 있다.
별법으로서, 엔드-포인터는 오디오 스트림의 적어도 하나의 동적 양태를 분석할 수 있다. 분석될 수 있는 오디오 스트림의 동적 양태는 (1) 음성을 말하는 화자의 페이스, 화자의 피치 등과 같은 오디오 스트림 그 자체, (2) 상기 화자에 부여되는 질문에 대한 예상된 응답(예컨대,"YES" 또는 "NO")과 같은 오디오 스트림 중의 예상된 응답, 또는 (3) 배경 잡음 수준, 에코 등과 같은 환경적 조건을 포함하지만, 이들에 제한되는 것은 아니다. 상기 동적 엔드-포인터는 룰 기반형일 수 있다. 엔드-포인터의 동적 특성은 음성 세그먼트의 시작 및/또는 끝을 결정하는 것을 개선해 준다.
도 1은 보이스에 기초하여 음성 엔드-포인트를 수행하기 위한 장치(100)의 블록도이다. 엔드-포인팅 장치(100)는 하나 이상의 운영 시스템과 연계하여 하나 이상의 프로세서 상에서 구동될 수 있는 소프트웨어 또는 하드웨어를 포함할 수 있 다. 엔드-포인팅 장치(100)는 컴퓨터와 같은 처리 환경(102)을 포함할 수 있다. 처리 환경(102)은 처리 유닛(104) 및 메모리(106)를 포함할 수 있다. 처리 유닛(104)은 양방향 버스를 통해 시스템 메모리(106)에 액세스함으로써 연산 동작, 로직 동작 및/또는 제어 동작을 수행할 수 있다. 메모리(106)는 입력 오디오 스트림을 저장할 수 있다. 메모리(106)는 오디오 음성 세그먼트의 시작 및/또는 끝을 검출하는 데에 사용되는 룰 모듈(108)을 포함할 수 있다. 메모리(106)는 또한 오디오 세그먼트 중의 트리거링 특성을 검출하는 데에 사용되는 보이스 분석 모듈(116) 및/또는 오디오 입력을 인식하는 데에 사용될 수 있는 ASR 유닛(118)을 포함할 수 있다. 또한, 메모리 유닛(106)은 엔드-포인터의 동작 중에 얻어지는 버퍼링된 오디오 데이터를 저장할 수 있다. 처리 유닛(104)은 입출력(I/O) 유닛(110)과 통신한다. I/O 유닛(110)은, 음파(sound waves)를 전기적 신호(114)로 변환하는 장치로부터 입력 오디오 스트림을 수신하고, 전기적 신호를 오디오 사운드(112)로 변환하는 장치로 출력 신호를 전송한다. I/O 유닛(110)은 처리 유닛(104), 전기적 신호를 오디오 사운드(112)로 변환하는 장치, 음파를 전기적 신호(114)로 변환하는 장치 사이에서 인터페이스로서 작용할 수 있다. I/O 유닛(112)은 음파를 전기적 신호(114)로 변환하는 장치를 통해 수신한 입력 오디오 스트림을 음향 파형에서 컴퓨터가 이해 가능한 포맷으로 변환한다. 유사하게, I/O 유닛(110)은 처리 환경(102)으로부터 전송된 신호를, 전기적 신호를 오디오 사운드(112)로 변환하는 장치를 통해 출력하기 위한 전기적 신호로 변환할 수 있다. 처리 유닛(104)은 도 3 및 도 4의 흐름도를 실행하도록 적절히 프로그램될 수 있다.
도 2는 차량(200)에 합체된 엔드-포인터 장치(100)를 나타낸다. 차량(200)은 운전자 좌석(202), 탑승자 좌석(204) 및 뒷좌석(206)을 포함할 수 있다. 또한, 차량(200)은 엔드-포인터 장치(100)를 포함할 수 있다. 처리 환경(102)은 전자 제어 유닛, 전자 제어 모듈, 바디 제어 모듈과 같은 차량(200)의 온-보드 컴퓨터에 합체될 수 있으며, 또는 하나 이상의 허용 가능한 프로토콜을 이용하여 차량(200)의 기존 회로와 통신할 수 있는 별도의 후공장 유닛(after-factory unit)일 수 있다. 일부 프로토콜은 J1850VPW, J1850PWM, ISO, ISO9141-2, ISO14230, CAN, High Speed CAN, MOST, LIN, IDB-1394, IDB-C, D2B, Bluetooth, TTCAN, TTP 또는 FlexRay라는 상표명으로 판매되는 프로토콜을 포함할 수 있다. 전기적 신호를 오디오 사운드(112)로 변환하는 하나 이상의 장치는 전방의 탑승자 공간과 같이,차량(200)의 탑승자 공간에 배치될 수 있다. 이러한 구성에 제한되는 것은 아니지만, 음파를 전기적 신호(114)로 변환하는 장치는 입력 오디오 스트림을 수신하는 I/O 유닛(110)에 연결될 수 있다. 별법으로서, 또는 추가적으로, 전기적 신호를 오디오 사운드(212)로 변환하는 추가의 장치 및 음파를 전기적 신호(214)로 변환하는 장치는 뒷좌석의 탑승자로부터 오디오 스트림을 수신하여 그 탑승자에 정보를 출력하기 위하여 차량(200)의 뒷좌석 공간에 배치될 수 있다.
도 3은 음성 엔드-포인터 시스템의 흐름도이다. 상기 시스템은 입력 오디오 스트림을 프레임과 같은 여러 이산 구역(discrete sections)으로 분할하여, 그 입력 오디오 스트림이 프레임-바이-프레임(frame-by-frame)에 기초하여 분석될 수 있도록 동작할 수 있다. 각 프레임은 전체 입력 오디오 스트림의 약 10 ms 내지 약 100 ms 범위의 임의의 곳을 포함할 수 있다. 상기 시스템은 입력 오디오 데이터를 처리하기 시작하기 전에, 입력 오디오 데이터의 약 350 ms 내지 약 500 ms와 같이 미리 정해진 크기의 데이터를 버퍼링할 수 있다. 블록(302)으로 나타낸 바와 같이, 에너지 검출기는 잡음과는 별개로 에너지가 존재하는지 여부를 결정하는 데에 이용될 수 있다. 상기 에너지 검출기는 존재하는 에너지의 크기와 관련하여, 프레임과 같은 오디오 스트림의 일부를 검사하고, 그 크기를 잡음 에너지의 추정치와 비교한다. 잡음 에너지의 추정치는 일정하거나 동적으로 결정될 수 있다. 그 차이(dB) 또는 파워의 비는 순간적인 신호 대 잡음비(SNR)일 수 있다. 분석 전에, 프레임은 비음성인 것으로 추정될 수 있어, 상기 에너지 검출기가 프레임 내에 에너지가 존재하는 것으로 결정하면, 그 프레임은 블록(304)으로 나타낸 것과 같이, 비음성인 것으로 표시된다. 에너지가 검출된 후에, 프레임n으로서 나타낸 현재 프레임의 보이스 분석은 블록(306)으로 표시한 것과 같이 일어날 수 있다. 보이스 분석은 2005년 5월 17일에 출원된 미국 출원 번호 제11/131,150호에 설명된 것과 같이 일어날 수 있으며, 그 명세서 내용은 본 명세서에 참고로 합체된다. 상기 보이스 분석은 프레임n 내에 존재할 수 있는 임의의 트리거링 특성을 체크할 수 있다. 상기 보이스 분석은 오디오 "S" 또는 "X"가 프레임n 내에 존재하는지 여부를 체크할 수 있다. 별법으로서, 상기 보이스 분석은 모음의 존재를 체크할 수 있다. 제한하려는 것이 아닌 설명의 목적을 위해, 도 3의 나머지는 보이스 분석의 트리거링 특성으로서 모음을 사용하는 것으로서 설명한다.
프레임 내의 모음의 존재를 식별할 수 있는 다양한 방식의 보이스 분석이 있다. 한 가지 방식은 피치 추정기(pitch estimator)를 사용하는 것이다. 피치 추정기는 모음이 존재할 수 있다는 것을 나타내는 프레임 내의 주기적 신호를 검색할 수 있다. 또는, 피치 추정기는 모음의 존재를 나타낼 수 있는 미리 정해진 수준의 특정 주파수에 대하여 프레임을 검색할 수 있다.
상기 보이스 분석에 의해 프레임n에 모음이 존재하는 것으로 결정되면, 프레임n은 블록(310)으로 나타낸 것과 같이, 음성으로서 표시된다. 다음에, 상기 시스템은 하나 이상의 이전의 프레임을 검사할 수 있다. 상기 시스템은 블록(312)으로서 나타낸 바와 같이, 바로 직전의 프레임(프레임n-1)을 검사할 수 있다. 상기 시스템은 이전의 프레임이, 블록(314)으로 나타낸 바와 같이, 음성을 포함하고 있는 것으로 이전에 표시되었는지를 결정할 수 있다. 이전의 프레임이 이미 음성으로서 표시되었다면(즉, 블록(314)에 대한 대답이 "YES"), 상기 시스템은 음성이 프레임 내에 포함되어 있다고 이미 결정하였고, 블록(304)으로 표시한 것과 같이, 새로운 오디오 프레임을 분석하기 위하여 이동한다. 이전의 프레임이 음성으로서 표시되어 있지 않다면(즉, 블록(314)에 대한 대답이 "NO"), 상기 시스템은 그 프레임이 음성으로 표시되어야 하는지를 결정하기 위하여 하나 이상의 룰을 이용할 수 있다.
도 3에 나타낸 바와 같이, 결정 블록 "엔드포인트 외부"로서 표시한 블록(316)은 상기 프레임이 음성으로 표시되어야 하는지를 결정하기 위하여 하나 이상의 룰을 이용하는 루틴(routine)을 이용할 수 있다. 하나 이상의 룰은, 프레임 또는 프레임 그룹과 같이, 오디오 스트림의 임의의 부분에 적용될 수 있다. 상기 룰은 검사 하의 현재 프레임이 음성을 담고 있는지 여부를 결정할 수 있다. 상기 룰은 음성이 프레임 또는 프레임 그룹에 존재하거나 존재하지 않는지를 나타낼 수 있다. 음성이 존재한다면, 그 프레임은 엔드-포인트 내부에 있는 것으로서 표시될 수 있다.
음성이 존재하지 않는다고 상기 룰이 나타내면, 그 프레임은 엔드-포인트 외부에 있는 것으로서 표시될 수 있다. 결정 블록(316)이 프레임n-1이 엔드-포인트 외부에 있다고 나타내면(즉, 어떠한 음성도 존재하지 않는다), 새로운 오디오 프레임, 즉 프레임n+1이 시스템에 입력되고, 블록(304)에서 나타낸 것과 같이, 비음성으로서 표시된다. 결정 블록(316)이 프레임n-1이 엔드-포인트 내부에 있다고 나타내면(즉, 음성이 존재한다), 프레임n-1은 블록(318)에서 나타낸 것과 같이, 음성으로서 표시된다. 이전의 오디오 스트림은, 블록(320)에서 표시한 바와 같이, 메모리 내의 마지막 프레임이 분석될 때까지, 프레임-바이-프레임 방식으로 분석될 수 있다.
도 4는 도 3에 나타낸 블록(316)에 대한 보다 상세한 흐름도이다. 상기한 바와 같이, 블록(316)은 하나 이상의 룰을 포함할 수 있다. 그 룰은 음성의 존재 및/또는 부존재와 관련한 임의의 양태와 관련 있을 수 있다. 이러한 방식으로, 상기 룰은 구두 발성의 시작 및/또는 끝을 결정하는 데에 이용될 수 있다.
상기 룰은 이벤트(에컨대, 유성음 에너지, 무성음 에너지, 침묵의 부존재/존 재 등) 또는 이벤트들의 임의의 조합(예컨대, 무성음 에너지에 침북이 후속하고, 이 침묵에 유성음 에너지가 후속하는 경우, 유성음 에너지에 침묵이 후속하고, 이 침묵에 무성음 에너지가 후속하는 경우, 침묵에 무성음 에너지가 후속하고, 이 무성음 에너지에 침묵이 후속하는 경우 등)을 분석하는 것에 기초할 수 있다. 구체적으로, 상기 룰은 침묵 주기로부터 에너지 이벤트로의 천이 또는 침묵 주기로부터 에너지 이벤트로의 천이를 검사할 수 있다. 어떤 룰은, 음성이 무성음 이벤트 또는 모음 앞의 침묵으로부터의 단지 하나의 천이만을 포함할 수 있다는 룰을 이용하여, 모음 앞의 천이의 수를 분석할 수 있다. 또는, 어떤 룰은, 음성이 무성음 이벤트 또는 모음 후의 침묵으로부터의 단지 2개의 천이만을 포함할 수 있다는 룰을 이용하여 모음 후의 천이의 수를 분석할 수 있다.
하나 이상의 룰은 여러 가지 지속 기간 주기를 검사할 수 있다. 구체적으로, 상기 룰은 어떤 이벤트(예컨대, 유성음 에너지, 무성음 에너지, 침묵의 부존재/존재 등)에 대한 지속 시간을 검사할 수 있다. 어떤 룰은, 음성이 약 300 ms 내지 400 ms 범위 내의 모음 앞의 지속 시간을 포함할 수 있고 약 350 ms일 수 있다는 룰을 이용하여, 모음 앞의 지속 시간을 분석할 수 있다. 또는, 어떤 룰은 음성이 약 400 ms 내지 약 800 ms의 범위 내의 모음 후의 지속 시간을 포함할 수 있고 약 600 ms일 수 있다는 룰을 이용하여 모음 후의 지속 시간을 분석할 수 있다.
하나 이상의 룰은 이벤트의 지속 시간을 검사할 수 있다. 구체적으로, 상기 룰은 소정 타입의 에너지 지속 시간 또는 에너지 부족을 검사할 수 있다. 무성음 에너지는 분석될 수 있는 에너지의 한 가지 종류이다. 어떤 룰은, 음성이 약 150 ms 내지 약 300 ms 범위 내의 연속한 무성음 에너지의 지속 시간을 포함할 수 있고 약 200 ms일 수 있다는 룰을 이용하여, 연속한 무성음 에너지의 지속 시간을 분석할 수 있다. 별법으로서, 연속한 침묵은 에너지의 부족으로서 분석될 수 있다. 어떤 룰은, 음성이 약 50 ms 내지 약 80 ms 범위 내의 모음 앞의 연속한 침묵의 지속 시간을 포함할 수 있고, 약 70 ms일 수 있다는 룰을 이용하여 모음 앞의 연속한 침묵의 지속 시간을 분석할 수 있다. 또는, 어떤 룰은, 음성이 약 200 ms 내지 약 300 ms 범위 내의 모음 후의 연속 침묵의 지속 시간을 포함할 수 있고 약 250 ms일 수 있다는 룰을 이용하여, 모음 후의 연속한 침묵의 지속 시간을 분석할 수 있다.
블록(402)에서, 분석되는 프레임 또는 프레임 그룹이 배경 잡음 레벨보다 높은 에너지를 갖고 있는지 여부를 결정하기 위한 체크가 수행된다. 배경 잡음 레벨보다 높은 에너지를 갖고 있는 프레임 또는 프레임 그룹은 소정 타입의 에너지의 지속 기간 또는 이벤트에 관한 지속 기간에 기초하여 추가로 분석될 수 있다. 분석되는 프레임 또는 프레임 그룹이 배경 잡은 레벨보다 높은 에너지를 갖고 있지 않다면, 그 프레임 또는 프레임 그룹은 연속한 침묵의 지속 기간, 침묵 주기로부터 에너지 이벤트로의 천이, 또는 침묵 주기로부터 에너지 이벤트로의 천이에 기초하여 추가로 분석될 수 있다.
분석되는 프레임 또는 프레임 그룹에 에너지가 존재한다면, "에너지" 카운터는 블록(404)에서 증가된다. "에너지" 카운터는 시간의 양을 카운트한다. 그 카운터는 프레임 길이만큼 증가한다. 프레임 크기가 약 32 ms라면, 블록(404)은 "에너지" 카운터를 약 32 ms만큼 증가시킨다. 결정 블록(406)에서, 상기 "에너지" 카 운터의 값이 시간 문턱값(time threshold)을 초과하는지 여부를 확인하기 위하여 체크가 수행된다. 결정 블록(406)에서 평가된 문턱값은 음성의 존재 및/또는 부존재를 결정하는 데에 사용될 수 있는 연속한 무성음 에너지 룰에 대응한다. 결정 블록(406)에서, 연속한 무성음 에너지의 최대 지속 기간에 대한 문턱값은 평가될 수 있다. 결정 블록(406)이 "에너지" 카운터의 값이 문턱값 설정치를 초과한다고 결정하면, 분석되는 프레임 또는 프레임 그룹은 블록(408)에서 엔드-포인트 외부에 있는 것으로 지정된다(즉, 어떠한 음성도 존재하지 않는다). 그 결과, 도 3을 다시 참조하면, 상기 시스템은, 새로운 프레임, 즉 프레임n+1이 시스템에 입력되어 비음성으로서 표시되는 블록(304)으로 점핑한다. 별법으로서, 블록(406)에서 복수의 문턱값이 평가될 수 있다.
블록(406)에서 "에너지" 카운터의 값이 어떠한 시간 문턱값도 초과하지 않는다면, "노에너지(noEnergy)" 카운터가 분리 문턱값(isolation threshold)을 초과하는지 여부를 결정하기 위하여 결정 블록(410)에서 체크가 수행된다. "에너지" 카운터(404)와 유사하게, "노에너지" 카운터(418)는 시간을 카운트하고, 분석되는 프레임 또는 프레임 그룹이 잡음 레벨보다 높은 에너지를 갖고 있을 때 프레임 길이만큼 증가된다. 상기 분리 문턱값은 2개의 파열음 이벤트(plosive event) 사이의 시간의 양을 규정하는 시간 문턱값이다. 파열음은 축어적으로, 화자의 입으로부터 폭발하는 자음(consonant)이다. 공기가 잠시 차단되어 압력을 증가시켜 파열음을 방출한다. 파열음은 "P", "T", "B", "D" 및 "K" 사운드를 포함할 수 있다. 이 문 턱값은 약 10 ms 내지 약 50 ms의 범위 내에 있을 수 있고, 약 25 ms일 수 있다. 분리된 무성음 에너지 이벤트가 상기 분리 문턱값을 초과한다면, 침묵에 의해 둘러싸인 파열음(에컨대, STOP의 P)은 식별되었고, "분리된이벤트(isolatedEvent)" 카운터(412)가 증가된다. "분리된이벤트" 카운터(412)는 정수값으로 증가된다. "분리된이벤트" 카운터(412)를 증가시킨 후에, "노에너지" 카운터(418)는 블록(414)에서 리셋된다. 이 카운터는 리셋되는데, 왜냐하면 분석되는 프레임 또는 프레임 그룹 내에서 에너지가 발견되었기 때문이다. "노에너지" 카운터(418)가 상기 분리 문턱값을 초과하지 않는다면, "노에너지" 카운터(418)는 "분리된이벤트" 카운터(412)를 증가시키는 일이 없이 블록(414)에서 리셋된다. 다시, "노에너지" 카운터(418)가 리셋되는데, 왜냐하면 분석되는 프레임 또는 프레임 그룹 내에서 에너지가 발견되었기 때문이다. "노에너지" 카운터(418)를 리셋한 후에, 외부 엔드-포인트 분석은 블록(416)에서 "NO" 값을 반송함으로써, 분석되는 프레임 또는 프레임 그룹이 엔드-포인트 내부에 있는 것으로서 지정한다(예컨대, 음성이 존재한다). 그 결과, 다시 도 3을 참조하면, 상기 시스템은 318 또는 322에서 상기 분석된 프레임을 음성으로서 표시한다.
별법으로서, 결정 블록(402)이 잡음 레벨 보다 높은 에너지가 없다고 결정하면, 분석되는 프레임 또는 프레임 그룹은 침묵 또는 배경 잡음을 포함하고 있다. 이러한 경우에, "노에너지" 카운터(418)는 증가된다. 결정 블록(420)에서, "노에너지" 카운터의 값이 시간 문턱값을 초과하는지 여부를 확인하기 위한 체크가 수행된다. 결정 블록(420)에서 평가된 문턱값은 음성의 존재 및/또는 부존재를 결정하 는 데 이용될 수 있는 연속한 무성음 에너지 룰 문턱값에 대응한다. 결정 블록(420)에서, 연속한 침묵의 지속 시간에 대한 문턱값이 평가될 수 있다. 결정 블록(420)이 "노에너지" 카운터의 값이 문턱값 설정치를 초과한다고 결정하면, 분석되는 프레임 또는 프레임 그룹은 블록(408)에서 엔드-포인트 외부에 있는 것으로서 지정된다(예컨대, 어떠한 음성도 존재하지 않는다). 그 결과, 다시 도 3을 참조하면, 상기 시스템은 새로운 프레임, 즉 프레임n+1이 시스템에 입력되어 비음성으로서 표시되는 블록(304)으로 점핑한다. 별법으로서, 블록(406)에서 복수의 문턱값이 평가될 수 있다.
"노에너지" 카운터(418)의 값이 어떠한 시간 문턱값도 초과하지 않는다면, 최대 수의 허용된 분리된 이벤트가 일어났는지 여부를 결정하기 위하여, 결정 블록(422)에서 체크가 수행된다. "분리된이벤트" 카운터는 이 체크에 대답하기 위하여 필요한 정보를 제공한다. 허용된 분리된 이벤트의 최대 수는 구성 가능한 패러미터이다. 소정의 문법이 예상된다면(예컨대, "YES" 또는 "NO" 대답), 허용된 분리된 이벤트의 최대 수는 엔드-포인터의 결과를 "엄밀하게(tighten)" 하도록 설정될 수 있다. 허용된 분리된 이벤트의 최대 수가 초과되었다면, 분석되는 프레임은 블록(408)에서 엔드-포인트의 외부에 있는 것으로서 지정될 수 있다(예컨대, 어떠한 음성도 존재하지 않는다). 그 결과, 다시 도 3을 참조하면, 상기 시스템은 새로운 프레임, 즉 프레임n+1이 시스템에 입력되어 비음성으로서 표시되는 블록(304)으로 점핑한다.
허용된 분리된 이벤트의 최대 수가 도달되지 않았다면, "에너지" 카운터(404)는 블록(424)에서 리셋된다. "에너지" 카운터(404)는 에너지가 없는 프레임이 식별되었을 때 리셋될 수 있다. "에너지" 카운터(404)를 리셋한 후에, 외부엔드-포인트 분석은, 블록(416)에서 "NO" 값을 반송함으로써, 분석되는 프레임이 엔드-포인트 내부에 있는 것으로서 지정한다(예컨대, 음성이 존재한다). 그 결과, 다시 도 3을 참조하면, 상기 시스템은 318 또는 322에서 상기 분석된 프레임을 음성으로서 표시한다.
도 5 내지 도 9는 시뮬레이션한 오디오 스트림의 일부 미가공 시계열(raw time series), 이들 신호의 여러 특성 플롯, 대응하는 미가공 신호의 분광 사진(spectrograph)을 보여준다. 도 5에서, 블록(502)은 시뮬레이션한 오디오 스트림의 미가공 시계열을 나타낸다. 상기 시뮬레이션한 오디오 스트림은 구두 발성 "NO"(504), "YES"(506), "NO"(504), "YES"(506), "NO"(504), "YESSSSS"(508), "NO"(504), 수 많은 "클리킹(clicking)" 사운드(510)를 포함한다. 이들 클리킹 사운드는 차량의 회전 신호가 관여될 때 발생되는 사운드를 나타낼 수 있다. 블록(512)은 상기 미가공 시계열 오디오 스트림에 대한 여러 특성 플롯을 나타낸다. 블록(512)은 x-축을 따라 샘플의 수를 표시한다. 플롯(514)은 엔드-포인터의 분석의 한 가지 대표도이다. 플롯(514)이 제로 레벨에 있을 경우, 엔드-포인터는 구두 발성의 존재를 결정하지 않는다. 플롯(514)이 비-제로 레벨에 있을 경우, 엔드-포인터는 구두 발성의 시작 및/또는 끝의 경계를 정한다. 플롯(516)은 배경 에너지 레벨보다 높은 에너지를 나타낸다. 플롯(518)은 시간-도메인 내의 구두 발성을 나 타낸다. 블록(520)은 블록(502)에서 식별된 대응 오디오 스트림의 스펙트럼 대표도이다.
블록(512)은 엔드-포인터가 입력 오디오 스트림에 어떻게 응답하는지를 나타낸다. 도 5에 도시한 바와 같이, 엔드-포인터 플롯(514)은 "NO" 신호(504) 및 "YES"(506) 신호를 정확하게 캡처한다. "YESSSSS"(508)이 분석되는 경우, 엔드-포인터 플롯(514)은 잠시 후미의 "S"를 캡처하지만, 모음 후의 최대 기간 또는 연속한 무성음 에너지의 최대 지속 기간이 초과되었다는 것을 발견하면, 엔드-포인터는 컷오프된다. 상기 룰 기반형 엔드-포인터는 엔드-포인터 플롯(514)에 의해 정해진 오디오 스트림 부분을 ASR에 전송한다. 블록(512) 및 도 6 내지 도 9에서 도시한 바와 같이, ASR에 전송된 오디오 스트림 부분은 어느 룰이 적용되는지에 따라서 변한다. "클릭"(510)은 에너지를 갖고 있는 것으로서 검출되었다. 이는 블록(512)의 가장 우측부에서 배경 에너지 플롯(516)으로 나타내어진다. 그러나, "클릭"(510)에서 어떠한 모음도 검출되지 않았기 때문에, 엔드-포인터는 이러한 오디오 사운드를 배제한다.
도 6은 엔드-포인팅된 "NO"(504)의 상세도이다. 구두 발성 플롯(518)은 시간 스미어링(time smearing)으로 인해 하나의 프레임 또는 두 개만큼 지체된다. 상기 플롯(518)은, 상기 에너지 플롯(516)으로 나타내어지는, 에너지가 검출되는 기간 전체에 걸쳐 연속된다. 구두 발성 플롯(518)이 상승된 후에, 그 플롯은 평평하게 되고 배경 에너지 플롯(516)을 따라간다. 엔드-포인터 플롯(514)은 음성 에너지가 검출될 때 시작한다. 플롯(518)에 의해 나타내어지는 기간 동안, 엔드-포 인터 룰 중 어느 것도 위반되지 않으며, 오디오 스트림은 구두 발성인 것으로 인식된다. 엔드-포인터는 모음 룰 후 연속 침묵의 최대 지속 기간 또는 모음 룰 후 최대 시간이 위반되었을 경우에 최우측에서 컷오프된다. 도시한 바와 같이, ASR로 보내지는 오디오 스트림 부분은 대략 3150 샘플들을 포함한다.
도 7은 엔드-포인팅된 "YES"(506)의 상세도이다. 구두 발성 플롯(518)은 다시, 시간 스미어링으로 인해 하나의 프레임 또는 두 개만큼 지체된다. 엔드-포인터 플롯(514)은 에너지가 검출될 때 시작한다. 엔드-포인터 플롯(514)은 에너지가 잡음으로 떨어질 때, 즉 모음 룰 후 최대 시간 또는 연속한 무성음 에너지 룰의 최대 지속 시간이 위반되었을 때까지 계속된다. 나타낸 바와 같이, ASR로 보내지는 오디오 스트림 부분은 대략 5550 샘플들을 포함한다. 도 6 및 도 7에서 ASR로 보내진 오디오 스트림의 양의 차이는 상이한 룰을 적용하는 엔드-포인터에서 비롯되는 결과이다.
도 8은 엔드-포인트된 "YESSSSS"(508)의 상세도이다. 엔드-포인터는 합리적인 시간 크기 동안만, 가능한 자음으로서 모음후 에너지(post-vowel energy)를 받아들인다. 합리적인 시간 기간 후에, 어느 모음 룰 후 최대 시간 또는 연속한 무성음 에너지 룰의 최대 지속 기간이 위반되었을 수도 있고, 엔드-포인터는 떨어져 ASR로 건네지는 데이터를 제한한다. 나타낸 바와 같이, ASR로 보내지는 오디오 스트림 부분은 대략 5750 샘플들을 포함한다. 구두 발성이 추가의 약 6500 샘플들에 대해서 계속되지만, 엔드-포인터는 합리적인 시간 후에 컷오프되므로, ASR로 보내진 오디오 스트림의 양은 도 6 및 도 7에서 보내진 것과는 상이하게 된다.
도 9는 몇몇 "클릭"(510)이 후속하는 엔드-포인트된 "NO"(504)의 상세도이다. 도 6 내지 도 8에서와 같이, 발성 구두 플롯(518)은 시간 스미어링 때문에 하나의 프레임 또는 두 개만큼 지체된다. 엔드-포인터(514)는 에너지가 검출될 때 시작한다. 제1 클릭음은 엔드-포인트 플롯(514)에 포함되어 있는데, 왜냐하면 배경 잡음 에너지 레벨보다 높은 에너지가 있고 이 에너지는 자음, 즉 후미의 "T"일 수 있기 때문이다. 그러나, 제1 클릭음과 다음 클릭음 사이에 약 300 ms의 침묵이 있다. 이 예에서 사용되는 문턱값에 따르면, 이 침묵 기간은 모음 룰 후 연속한 침묵의 엔드-포인터의 최대 지속 기간을 위반한다. 따라서, 엔드-포인터는 그 제1 클릭음 후의 에너지를 배제하였다.
엔드-포인터는 오디오 스트림의 적어도 하나의 동적 양태를 분석함으로써 오디오 음성 세그먼트의 시작 및/또는 끝을 결정하도록 구성될 수도 있다. 도 10은 오디오 스트림의 적어도 하나의 동적 양태를 분석하는 엔드-포인터 시스템의 부분 흐름도이다. 글로벌 양태의 초기화는 단계(1002)에서 수행될 수 있다. 글로벌 양태는 오디오 스트림 자체의 특성을 포함할 수 있다. 제한하기 위한 것이 아닌 설명의 목적을 위해, 이들 글로벌 양태는 음성을 말하는 화자의 페이스 또는 화자의 피치를 포함할 수 있다. 단계(1004)에서, 로컬 양태의 초기화가 수행될 수 있다. 제한하기 위한 것이 아닌 설명의 목적을 위해, 이들 로컬 양태는 예상된 화자의 응답(예컨대, "YES" 또는 "NO" 응답), 환경적 조건(예를 들면, 시스템 내의 에코 또는 피드백의 존재에 영향을 미치는 개방 또는 폐쇄된 환경) 또는 배경 잡음의 추정을 포함할 수 있다.
상기 글로벌 및 로컬 초기화는 시스템의 동작 중 전체에 걸쳐 여러 시간에서 일어날 수 있다. 배경 잡음의 추정(로컬 양태 초기화)은 시스템에 먼저 전력이 공급될 때마다, 및/또는 소정의 시간 후에 실행될 수 있다. 음성을 말하는 화자의 페이스 또는 피치의 결정(글로벌 초기화)은 더 작은 비율로 분석되고 초기화된다. 유사하게, 어떤 응답이 예상되는 로컬 양태는 더 작은 비율로 초기화될 수 있다. 이 초기화는 ASR이 어던 응답이 예상되는 엔드 포인터와 통신할 때 일어날 수 있다. 환경 조건에 대한 로컬 양태는 파워 사이클 당 단 한번 초기화하도록 구성될 수 있다.
초기화 기간(1002, 1004) 동안, 엔드-포인터는 도 3 및 도 4와 관련하여 상기한 바와 같이, 그 디폴트 문턱값 설정치에서 동작할 수 있다. 임의의 초기화에 문턱값 설정치 또는 타이머의 변화가 요구된다면, 상기 시스템은 적절한 문턱값을 동적으로 변경할 수 있다. 별법으로서, 초기화 값에 기초하여, 상기 시스템은 시스템의 메모리에 미리 저장되어 있는 특정 또는 일반적인 사용자 프로화일을 재호출(recall)할 수 있다. 이 프로화일은 모든 또는 특정의 문턱값 설정치 및 타이머를 변경할 수 있다. 초기화 프로세스 동안 상기 시스템이, 사용자가 빠른 페이스로 말을 한다고 결정하면, 특정 룰의 최대 지속 기간은 상기 프로화일에 저장된 레벨로 감소될 수 있다. 또한, 나중에 사용할 사용자 프로화일을 생성 및 저장하기 위하여, 상기 시스템이 상기 초기화를 실행하도록 상기 시스템을 트레이닝 모드에서 동작시킬 수 있다. 나중에 사용할 목적으로 하나 이상의 프로화일이 시스템의 메모리 내에 저장될 수 있다.
도 1에서 설명한 엔드-포인터와 유사한 동적 엔드-포인터를 구성할 수 있다. 또한, 동적 엔드-포인터는 처리 환경과 ASR 사이에 양방향 버스를 포함할 수 있다. 상기 양방향 버스는 처리 환경과 ASR 사이에서 데이터 및 제어 정보를 전송할 수 있다. ASR로부터 처리 환경으로 보내진 정보는, 화자에게 부여되는 질문에 응답하여 소정의 응답이 예상된다는 것을 나타내는 데이터를 포함할 수 있다. ASR로부터 처리 환경으로 보내진 정보는 오디오 스트림의 양태를 동적으로 분석하는 데에 사용될 수 있다.
동적 엔드-포인터의 동작은, "엔드포인트 외부" 루틴, 즉 블록(316)의 하나 이상의 룰 중 하나 이상의 문턱값이 동적으로 구성될 수 있다는 것을 제외하고는 도 3 및 도 4를 참조하여 설명한 엔드-포인터와 유사하다. 다량의 배경 잡음이 있다면, 결정 블록(402)에서 잡음보다 큰 에너지에 대한 문턱값은 이러한 조건을 책임지기 위하여 동적으로 상승될 수 있다. 이러한 재구성을 수행하면, 상기 동적 엔드-포인터는 더 많은 천이 사운드 및 비음성 사운드를 거절할 수 있어, 폴스 포지티브의 수를 감소시킬 수 있다. 동적으로 구성 가능한 문턱값은 배경 잡음 레벨에 한정되지 않는다. 동적 엔드-포인터에 의해 이용되는 임의의 문턱값은 동적으로 구성될 수 있다.
도 3, 도 4 및 도 10에 나타낸 방법은 신호 담지 매체, 컴퓨터 판독 가능한 매체(예컨대, 메모리)에 인코딩되거나, 하나 이상의 집적 회로와 같은 소자 내부에 프로그램되거나 또는 컨트롤러 또는 컴퓨터에 의해 처리될 수 있다. 상기 방법이 소프트웨어에 의해 수행된다면, 그 소프트웨어는, 룰 모듈(10)에 상주하거나 그 모 듈과 인터페이스를 이루는 메모리 또는 임의의 통신 인터페이스에 상주할 수 있다. 상기 메모리는 논리 함수(logical function)를 실행하기 위한 실행 가능한 명령어들의 순서 리스트를 포함할 수 있다. 논리 함수는 디지털 회로, 소스 코드, 아날로그 회로, 또는 전기적, 오디오 또는 비디오 신호를 통하는 것과 같은 아날로그 소스를 통해 실행될 수 있다. 상기 소프트웨어는 명령 실행 가능한 시스템, 장치 또는 디바이스에 의해 또는 이들과 연계하여 사용하기 위하여, 임의의 컴퓨터 판독 가능한 매체 또는 신호 담지 매체에 내장될 수 있다. 이러한 시스템은 컴퓨터 기반 시스템, 프로세서 포함 시스템, 또는 명령 실행 가능한 시스템, 장치, 또는 명령을 실행할 수 있는 디바이스로부터 명령을 선택적으로 페치할 수 있는 다른 시스템을 포함할 수 있다.
"컴퓨터 판독 가능한 매체", "기계 판독 가능한 매체", "전파 신호(propagated-signal)" 매체 및/또는 "신호 담지 매체"는 명령 실행 가능한 시스템, 장치 또는 디바이스에 의해 또는 그 시스템, 장치 또는 디바이스와 연계하여 사용하기 위한 소프트웨어를 포함하고, 저장하고, 통신하며, 전파 또는 운송하는 임의의 수단을 포함할 수 있다. 기계 판독 가능한 매체는 선택적으로, 전자, 자기, 광, 전자기, 적외선 또는 반도체 시스템, 장치, 디바이스 또는 전파 매체일 수 있지만, 이들에 제한되는 것은 아니다. 기계 판독 가능한 매체의 비제한적인 예로서 다음과 같은 것이 있다. 즉, 하나 이상의 와이어를 구비하는 전기적 접속 "전자 장치", 휴대형 자기 또는 광 디스크, "RAM"(전자 장치)과 같은 휘발성 메모리, "ROM"(전자 장치), 소거 가능하고 프로그램 가능한 ROM(EPROM 또는 플래시 메모 리)(전자 장치), 또는 광 섬유(광). 기계 판독 가능한 매체는 또한 유형 매체를 포함할 수 있는데, 이 매체에는, 소프트웨어가 전자적으로 이미지 또는 다른 포맷으로 저장됨에 따라(에컨대, 광 스캔을 통해), 소프트웨어가 프린트되어지고 그 후 컴파일링되고 및/또는 해석되거나 그렇지 않으면 처리된다. 다음에, 상기 처리된 매체는 컴퓨터 및/또는 기계 메모리에 저장될 수 있다.
본 발명의 다양한 실시예를 설명하였지만, 당업자는 다른 많은 실시예 및 변형이 본 발명의 범위 내에서 가능하다는 것을 이해할 것이다. 따라서 본 발명의 범위는 오직 첨부된 청구범위와 그 등가물에 의해서만 제한된다.

Claims (39)

  1. 오디오 음성 세그먼트의 시작과 끝 중 적어도 하나를 결정하는 엔드-포인터로서,
    음성 이벤트를 포함하는 오디오 스트림의 부분을 식별하는 보이스 트리거링 모듈; 및
    상기 보이스 트리거링 모듈과 통신하고, 상기 오디오 스트림의 적어도 일부를 분석하여 상기 음성 이벤트에 관한 오디오 음성 세그먼트가 오디오 엔드포인트 내에 있는지 여부를 결정하는 복수의 시간 지속 기간 룰을 포함하는 룰 모듈
    을 포함하는 엔드-포인터.
  2. 제 1항에 있어서, 상기 보이스 트리거링 모듈은 모음을 식별하는 것인 엔드-포인터.
  3. 제 1항에 있어서 상기 보이스 트리거링 모듈은 S 또는 X 사운드를 식별하는 것인 엔드-포인터.
  4. 제 1항에 있어서, 상기 오디오 스트림의 부분은 프레임을 포함하는 것인 엔드-포인터.
  5. 제 1항에 있어서, 상기 룰 모듈은 상기 오디오 스트림의 부분에서 에너지의 부족을 분석하는 것인 엔드-포인터.
  6. 제 1항에 있어서, 상기 룰 모듈은 상기 오디오 스트림의 부분에서 에너지를 분석하는 것인 엔드-포인터.
  7. 제 1항에 있어서, 상기 룰 모듈은 상기 오디오 스트림의 부분에서 경과된 시간을 분석하는 것인 엔드-포인터.
  8. 제 1항에 있어서, 상기 룰 모듈은 상기 오디오 스트림의 부분에서 미리 정해진 수의 파열음을 분석하는 것인 엔드-포인터.
  9. 제 1항에 있어서, 상기 룰 모듈은 상기 오디오 음성 세그먼트의 상기 시작 및 끝을 검출하는 것인 엔드-포인터.
  10. 제 1항에 있어서, 에너지 검출기 모듈을 더 포함하는 엔드-포인터.
  11. 제 1항에 있어서, 마이크로폰 입력부, 처리 유닛 및 메모리와 통신하는 처리 환경을 더 포함하고, 상기 룰 모듈은 상기 메모리 내부에 상주하는 것을 특징으로 하는 엔드-포인터.
  12. 복수의 결정 룰을 갖는 엔드-포인터를 이용하여 오디오 음성 세그먼트의 시작과 끝 중 적어도 하나를 결정하는 방법으로서,
    오디오 스트림의 부분을 수신하는 단계와;
    상기 오디오 스트림의 상기 부분이 트리거링 특성을 포함하는 지를 결정하는 단계와;
    적어도 하나의 시간 지속 기간 결정 룰을 상기 트리거링 특성에 관한 상기 오디오 스트림의 부분에 적용하여 상기 오디오 스트림의 상기 부분이 오디오 엔드포인트 내에 있는지를 결정하는 단계
    를 포함하는 방법.
  13. 제 12항에 있어서, 상기 결정 룰은 상기 트리거링 특성을 포함하는 상기 오디오 스트림의 상기 부분에 적용되는 것인 방법.
  14. 제 12항에 있어서, 상기 결정 룰은 상기 트리거링 특성을 포함하는 상기 부분보다는 상기 오디오 스트림의 다른 부분에 적용되는 것인 방법.
  15. 제 12항에 있어서, 상기 트리거링 특성은 모음인 것인 방법.
  16. 제 12항에 있어서, 상기 트리거링 특성은 S 또는 X 사운드인 것인 방법.
  17. 제 12항에 있어서, 상기 오디오 스트림의 부분은 프레임인 방법.
  18. 제 12항에 있어서, 상기 룰 모듈은 상기 오디오 스트림의 부분에서 에너지의 부족을 분석하는 것인 방법.
  19. 제 12항에 있어서, 상기 룰 모듈은 상기 오디오 스트림의 부분에서 에너지를 분석하는 것인 방법.
  20. 제 12항에 있어서, 상기 룰 모듈은 상기 오디오 스트림의 부분에서 경과된 시간을 분석하는 것인 방법.
  21. 제 12항에 있어서, 상기 룰 모듈은 상기 오디오 스트림의 부분에서 미리 정해진 수의 파열음을 분석하는 것인 방법.
  22. 제 12항에 있어서, 상기 룰 모듈은 상기 잠재적 음성 세그먼트의 시작 및 끝을 검출하는 것인 방법.
  23. 오디오 스트림 중 오디오 음성 세그먼트의 시작과 끝 중 적어도 하나를 결정하는 엔드-포인터로서,
    상기 오디오 스트림의 적어도 하나의 동적 양태를 분석하여 상기 오디오 음성 세그먼트가 오디오 엔드포인트 내에 있는지 여부를 결정하는 복수의 시간 지속 기간 룰을 포함하는 엔드-포인터 모듈; 및
    상기 엔드-포인터 모듈과 통신하고, 상기 복수의 룰 중 하나 이상의 시간 지속 기간을 변경하는 프로화일 정보를 저장하도록 구성된 메모리
    를 포함하는 엔드-포인터.
  24. 제 23항에 있어서, 상기 오디오 스트림의 동적 양태는 화자의 적어도 하나의 특성을 포함하는 것인 엔드-포인터.
  25. 제 24항에 있어서, 상기 화자의 특성은 상기 화자의 말하는 페이스를 포함하는 것인 엔드-포인터.
  26. 제 23항에 있어서, 상기 오디오 스트림의 동적 양태는 상기 오디오 스트림 중의 배경 잡음을 포함하는 것인 엔드-포인터.
  27. 제 23항에 있어서, 상기 오디오 스트림의 동적 양태는 상기 오디오 스트림 중의 예상된 사운드를 포함하는 것인 엔드-포인터.
  28. 제 27항에 있어서, 상기 예상된 사운드는 화자에게 부여되는 질문에 대한 적 어도 하나의 예상된 대답을 포함하는 것인 엔드-포인터.
  29. 제 23항에 있어서, 마이크로폰 입력부, 처리 유닛 및 메모리와 통신하는 처리 환경을 더 포함하고, 상기 엔드-포인터 모듈은 상기 메모리 내부에 상주하는 것인 엔드-포인터.
  30. 오디오 스트림 중의 오디오 음성 세그먼트의 시작과 끝 중 적어도 하나를 결정하는 엔드-포인터로서,
    주기적인 오디오 신호를 포함하는 오디오 스트림의 부분을 식별하는 보이스 트리거링 모듈; 및
    복수의 룰에 기초하여, 인식 장치에 입력되는 상기 오디오 스트림의 양을 변경하는 엔드-포인트 모듈
    을 포함하고,
    상기 복수의 룰은 상기 주기적인 오디오 신호에 관한 오디오 스트림의 부분이 오디오 엔드포인트 내에 있는지를 결정하는 시간 지속 기간 룰을 포함하는 것인 엔드-포인터.
  31. 제 30항에 있어서, 상기 인식 장치는 자동 음성 인식 장치인 엔드-포인터.
  32. 오디오 음성 세그먼트의 시작 및 끝 중 적어도 하나를 결정하는 명령어 세트 를 담고 있는 컴퓨터 판독 가능한 저장 매체로서,
    음파를 전기적 신호로 변환하고;
    상기 전기적 신호의 주기성을 식별하며;
    상기 식별된 주기성에 관한 상기 전기적 신호의 가변적인 부분을 분석하여 상기 전기적 신호가 오디오 엔드포인트 내에 있는지를 결정하는 것
    를 포함하는 컴퓨터 판독 가능 저장 매체.
  33. 제 32항에 있어서, 상기 전기적 신호의 가변 부분을 분석하는 것은 유성음 사운드 전의 시간 지속 기간을 분석하는 것을 포함하는 것인 컴퓨터 판독 가능한 저장 매체.
  34. 제 32항에 있어서, 상기 전기적 신호의 가변 부분을 분석하는 것은 유성음 사운드 후의 시간 지속 기간을 분석하는 것을 포함하는 것인 컴퓨터 판독 가능한 저장 매체.
  35. 제 32항에 있어서, 상기 전기적 신호의 가변 부분을 분석하는 것은 유성음 사운드 전 또는 후의 천이의 수를 분석하는 것을 포함하는 것인 컴퓨터 판독 가능한 저장 매체.
  36. 제 32항에 있어서, 상기 전기적 신호의 가변 부분을 분석하는 것은 유성음 사운드 전의 연속된 침묵 지속 기간을 분석하는 것을 포함하는 컴퓨터 판독 가능한 저장 매체.
  37. 제 32항에 있어서, 상기 전기적 신호의 가변 부분을 분석하는 것은 유성음 사운드 후의 연속된 침묵 지속 기간을 분석하는 것을 포함하는 컴퓨터 판독 가능한 저장 매체.
  38. 제 32항에 있어서, 상기 컴퓨터 판독 가능한 저장 매체는 차량 온-보드 컴퓨터에 장착되는 것인 컴퓨터 판독 가능한 저장 매체.
  39. 제 32항에 있어서, 상기 컴퓨터 판독 가능한 저장 매체는 오디오 시스템과 통신하는 것인 컴퓨터 판독 가능한 저장 매체.
KR1020077002573A 2005-06-15 2006-04-03 음성 엔드-포인터 KR20070088469A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/152,922 2005-06-15
US11/152,922 US8170875B2 (en) 2005-06-15 2005-06-15 Speech end-pointer

Publications (1)

Publication Number Publication Date
KR20070088469A true KR20070088469A (ko) 2007-08-29

Family

ID=37531906

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077002573A KR20070088469A (ko) 2005-06-15 2006-04-03 음성 엔드-포인터

Country Status (7)

Country Link
US (3) US8170875B2 (ko)
EP (1) EP1771840A4 (ko)
JP (2) JP2008508564A (ko)
KR (1) KR20070088469A (ko)
CN (1) CN101031958B (ko)
CA (1) CA2575632C (ko)
WO (1) WO2006133537A1 (ko)

Families Citing this family (128)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7117149B1 (en) 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
US7725315B2 (en) 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US8073689B2 (en) 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
US7949522B2 (en) * 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US8271279B2 (en) 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
US8326621B2 (en) 2003-02-21 2012-12-04 Qnx Software Systems Limited Repetitive transient noise removal
US7895036B2 (en) 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US7885420B2 (en) 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US8306821B2 (en) 2004-10-26 2012-11-06 Qnx Software Systems Limited Sub-band periodic signal enhancement system
US7716046B2 (en) 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
US8543390B2 (en) 2004-10-26 2013-09-24 Qnx Software Systems Limited Multi-channel periodic signal enhancement system
US7949520B2 (en) 2004-10-26 2011-05-24 QNX Software Sytems Co. Adaptive filter pitch extraction
US8170879B2 (en) 2004-10-26 2012-05-01 Qnx Software Systems Limited Periodic signal enhancement system
US7680652B2 (en) 2004-10-26 2010-03-16 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US8284947B2 (en) * 2004-12-01 2012-10-09 Qnx Software Systems Limited Reverberation estimation and suppression system
FR2881867A1 (fr) * 2005-02-04 2006-08-11 France Telecom Procede de transmission de marques de fin de parole dans un systeme de reconnaissance de la parole
US8027833B2 (en) 2005-05-09 2011-09-27 Qnx Software Systems Co. System for suppressing passing tire hiss
US8170875B2 (en) * 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US8311819B2 (en) 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8701005B2 (en) * 2006-04-26 2014-04-15 At&T Intellectual Property I, Lp Methods, systems, and computer program products for managing video information
US7844453B2 (en) 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP4282704B2 (ja) * 2006-09-27 2009-06-24 株式会社東芝 音声区間検出装置およびプログラム
US8326620B2 (en) 2008-04-30 2012-12-04 Qnx Software Systems Limited Robust downlink speech and noise detector
US8335685B2 (en) * 2006-12-22 2012-12-18 Qnx Software Systems Limited Ambient noise compensation system robust to high excitation noise
JP4827721B2 (ja) * 2006-12-26 2011-11-30 ニュアンス コミュニケーションズ,インコーポレイテッド 発話分割方法、装置およびプログラム
US8850154B2 (en) 2007-09-11 2014-09-30 2236008 Ontario Inc. Processing system having memory partitioning
US8904400B2 (en) 2007-09-11 2014-12-02 2236008 Ontario Inc. Processing system having a partitioning component for resource partitioning
US8694310B2 (en) 2007-09-17 2014-04-08 Qnx Software Systems Limited Remote control server protocol system
KR101437830B1 (ko) * 2007-11-13 2014-11-03 삼성전자주식회사 음성 구간 검출 방법 및 장치
US8209514B2 (en) 2008-02-04 2012-06-26 Qnx Software Systems Limited Media processing system having resource partitioning
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8442831B2 (en) * 2008-10-31 2013-05-14 International Business Machines Corporation Sound envelope deconstruction to identify words in continuous speech
US8413108B2 (en) * 2009-05-12 2013-04-02 Microsoft Corporation Architectural data metrics overlay
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
CN101996628A (zh) * 2009-08-21 2011-03-30 索尼株式会社 提取语音信号的韵律特征的方法和装置
CN102044242B (zh) 2009-10-15 2012-01-25 华为技术有限公司 语音激活检测方法、装置和电子设备
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8473289B2 (en) * 2010-08-06 2013-06-25 Google Inc. Disambiguating input based on context
KR101417975B1 (ko) * 2010-10-29 2014-07-09 안후이 유에스티씨 아이플라이텍 캄파니 리미티드 오디오 레코드의 엔드포인트를 자동 감지하는 방법 및 시스템
CN102456343A (zh) * 2010-10-29 2012-05-16 安徽科大讯飞信息科技股份有限公司 录音结束点检测方法及系统
CN102629470B (zh) * 2011-02-02 2015-05-20 Jvc建伍株式会社 辅音区间检测装置及辅音区间检测方法
US8543061B2 (en) 2011-05-03 2013-09-24 Suhami Associates Ltd Cellphone managed hearing eyeglasses
KR101247652B1 (ko) * 2011-08-30 2013-04-01 광주과학기술원 잡음 제거 장치 및 방법
US20130173254A1 (en) * 2011-12-31 2013-07-04 Farrokh Alemi Sentiment Analyzer
KR20130101943A (ko) 2012-03-06 2013-09-16 삼성전자주식회사 음원 끝점 검출 장치 및 그 방법
JP6045175B2 (ja) * 2012-04-05 2016-12-14 任天堂株式会社 情報処理プログラム、情報処理装置、情報処理方法及び情報処理システム
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9520141B2 (en) * 2013-02-28 2016-12-13 Google Inc. Keyboard typing detection and suppression
US9076459B2 (en) * 2013-03-12 2015-07-07 Intermec Ip, Corp. Apparatus and method to classify sound to detect speech
US20140288939A1 (en) * 2013-03-20 2014-09-25 Navteq B.V. Method and apparatus for optimizing timing of audio commands based on recognized audio patterns
US20140358552A1 (en) * 2013-05-31 2014-12-04 Cirrus Logic, Inc. Low-power voice gate for device wake-up
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US8775191B1 (en) 2013-11-13 2014-07-08 Google Inc. Efficient utterance-specific endpointer triggering for always-on hotwording
US8719032B1 (en) * 2013-12-11 2014-05-06 Jefferson Audio Video Systems, Inc. Methods for presenting speech blocks from a plurality of audio input data streams to a user in an interface
US8843369B1 (en) 2013-12-27 2014-09-23 Google Inc. Speech endpointing based on voice profile
US9607613B2 (en) 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10272838B1 (en) * 2014-08-20 2019-04-30 Ambarella, Inc. Reducing lane departure warning false alarms
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10575103B2 (en) * 2015-04-10 2020-02-25 Starkey Laboratories, Inc. Neural network-driven frequency translation
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
JP6604113B2 (ja) * 2015-09-24 2019-11-13 富士通株式会社 飲食行動検出装置、飲食行動検出方法及び飲食行動検出用コンピュータプログラム
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10269341B2 (en) 2015-10-19 2019-04-23 Google Llc Speech endpointing
KR101942521B1 (ko) * 2015-10-19 2019-01-28 구글 엘엘씨 음성 엔드포인팅
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11010601B2 (en) 2017-02-14 2021-05-18 Microsoft Technology Licensing, Llc Intelligent assistant device communicating non-verbal cues
US10467510B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Intelligent assistant
US11100384B2 (en) 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
CN107103916B (zh) * 2017-04-20 2020-05-19 深圳市蓝海华腾技术股份有限公司 一种应用于音乐喷泉的音乐开始和结束检测方法及系统
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
WO2018226779A1 (en) 2017-06-06 2018-12-13 Google Llc End of query detection
US10929754B2 (en) 2017-06-06 2021-02-23 Google Llc Unified endpointer using multitask and multidomain learning
CN107180627B (zh) * 2017-06-22 2020-10-09 潍坊歌尔微电子有限公司 去除噪声的方法和装置
CN109859749A (zh) * 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置
KR102629385B1 (ko) 2018-01-25 2024-01-25 삼성전자주식회사 바지-인 관련 직접 경로를 지원하는 저전력 보이스 트리거 시스템을 포함하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법
CN108962283B (zh) * 2018-01-29 2020-11-06 北京猎户星空科技有限公司 一种发问结束静音时间的确定方法、装置及电子设备
TWI672690B (zh) * 2018-03-21 2019-09-21 塞席爾商元鼎音訊股份有限公司 人工智慧語音互動之方法、電腦程式產品及其近端電子裝置
US11996119B2 (en) * 2018-08-15 2024-05-28 Nippon Telegraph And Telephone Corporation End-of-talk prediction device, end-of-talk prediction method, and non-transitory computer readable recording medium
CN110070884B (zh) * 2019-02-28 2022-03-15 北京字节跳动网络技术有限公司 音频起始点检测方法和装置
CN111223497B (zh) * 2020-01-06 2022-04-19 思必驰科技股份有限公司 一种终端的就近唤醒方法、装置、计算设备及存储介质
US11049502B1 (en) * 2020-03-18 2021-06-29 Sas Institute Inc. Speech audio pre-processing segmentation
WO2022198474A1 (en) 2021-03-24 2022-09-29 Sas Institute Inc. Speech-to-analytics framework with support for large n-gram corpora
US11615239B2 (en) * 2020-03-31 2023-03-28 Adobe Inc. Accuracy of natural language input classification utilizing response delay
WO2024005226A1 (ko) * 2022-06-29 2024-01-04 엘지전자 주식회사 디스플레이 장치

Family Cites Families (133)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US55201A (en) * 1866-05-29 Improvement in machinery for printing railroad-tickets
US4435617A (en) * 1981-08-13 1984-03-06 Griggs David T Speech-controlled phonetic typewriter or display device using two-tier approach
US4454609A (en) 1981-10-05 1984-06-12 Signatron, Inc. Speech intelligibility enhancement
US4531228A (en) * 1981-10-20 1985-07-23 Nissan Motor Company, Limited Speech recognition system for an automotive vehicle
JPS5870292A (ja) * 1981-10-22 1983-04-26 日産自動車株式会社 車両用音声認識装置
US4486900A (en) * 1982-03-30 1984-12-04 At&T Bell Laboratories Real time pitch detection by stream processing
US4701955A (en) * 1982-10-21 1987-10-20 Nec Corporation Variable frame length vocoder
US4989248A (en) * 1983-01-28 1991-01-29 Texas Instruments Incorporated Speaker-dependent connected speech word recognition method
US4817159A (en) * 1983-06-02 1989-03-28 Matsushita Electric Industrial Co., Ltd. Method and apparatus for speech recognition
JPS6146999A (ja) * 1984-08-10 1986-03-07 ブラザー工業株式会社 音声始端決定装置
US5146539A (en) * 1984-11-30 1992-09-08 Texas Instruments Incorporated Method for utilizing formant frequencies in speech recognition
US4630305A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
GB8613327D0 (en) 1986-06-02 1986-07-09 British Telecomm Speech processor
US4856067A (en) * 1986-08-21 1989-08-08 Oki Electric Industry Co., Ltd. Speech recognition system wherein the consonantal characteristics of input utterances are extracted
JPS63220199A (ja) * 1987-03-09 1988-09-13 株式会社東芝 音声認識装置
US4843562A (en) * 1987-06-24 1989-06-27 Broadcast Data Systems Limited Partnership Broadcast information classification system and method
US4811404A (en) * 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
DE3739681A1 (de) * 1987-11-24 1989-06-08 Philips Patentverwaltung Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens
JPH01169499A (ja) * 1987-12-24 1989-07-04 Fujitsu Ltd 単語音声区間切出し方式
US5027410A (en) * 1988-11-10 1991-06-25 Wisconsin Alumni Research Foundation Adaptive, programmable signal processing and filtering for hearing aids
CN1013525B (zh) 1988-11-16 1991-08-14 中国科学院声学研究所 认人与不认人实时语音识别的方法和装置
US5201028A (en) * 1990-09-21 1993-04-06 Theis Peter F System for distinguishing or counting spoken itemized expressions
JP2974423B2 (ja) * 1991-02-13 1999-11-10 シャープ株式会社 ロンバード音声認識方法
US5152007A (en) * 1991-04-23 1992-09-29 Motorola, Inc. Method and apparatus for detecting speech
US5680508A (en) * 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
US5293452A (en) * 1991-07-01 1994-03-08 Texas Instruments Incorporated Voice log-in using spoken name input
US5408583A (en) * 1991-07-26 1995-04-18 Casio Computer Co., Ltd. Sound outputting devices using digital displacement data for a PWM sound signal
EP0543329B1 (en) 1991-11-18 2002-02-06 Kabushiki Kaisha Toshiba Speech dialogue system for facilitating human-computer interaction
US5305422A (en) * 1992-02-28 1994-04-19 Panasonic Technologies, Inc. Method for determining boundaries of isolated words within a speech signal
US5617508A (en) * 1992-10-05 1997-04-01 Panasonic Technologies Inc. Speech detection device for the detection of speech end points based on variance of frequency band limited energy
FR2697101B1 (fr) * 1992-10-21 1994-11-25 Sextant Avionique Procédé de détection de la parole.
DE4243831A1 (de) 1992-12-23 1994-06-30 Daimler Benz Ag Verfahren zur Laufzeitschätzung an gestörten Sprachkanälen
US5400409A (en) * 1992-12-23 1995-03-21 Daimler-Benz Ag Noise-reduction method for noise-affected voice channels
US5596680A (en) * 1992-12-31 1997-01-21 Apple Computer, Inc. Method and apparatus for detecting speech activity using cepstrum vectors
US5692104A (en) * 1992-12-31 1997-11-25 Apple Computer, Inc. Method and apparatus for detecting end points of speech activity
JP3186892B2 (ja) 1993-03-16 2001-07-11 ソニー株式会社 風雑音低減装置
US5583961A (en) 1993-03-25 1996-12-10 British Telecommunications Public Limited Company Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands
AU682177B2 (en) 1993-03-31 1997-09-25 British Telecommunications Public Limited Company Speech processing
KR100312920B1 (ko) 1993-03-31 2001-12-28 내쉬 로저 윌리엄 연결된음성인식의방법및장치
US5526466A (en) * 1993-04-14 1996-06-11 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus
JP3071063B2 (ja) 1993-05-07 2000-07-31 三洋電機株式会社 収音装置を備えたビデオカメラ
NO941999L (no) 1993-06-15 1994-12-16 Ontario Hydro Automatisert intelligent overvåkingssystem
US5495415A (en) * 1993-11-18 1996-02-27 Regents Of The University Of Michigan Method and system for detecting a misfire of a reciprocating internal combustion engine
JP3235925B2 (ja) * 1993-11-19 2001-12-04 松下電器産業株式会社 ハウリング抑制装置
US5568559A (en) * 1993-12-17 1996-10-22 Canon Kabushiki Kaisha Sound processing apparatus
DE4422545A1 (de) * 1994-06-28 1996-01-04 Sel Alcatel Ag Start-/Endpunkt-Detektion zur Worterkennung
ATE190167T1 (de) * 1994-09-20 2000-03-15 Philips Corp Intellectual Pty System zum ermitteln von wörtern aus einem sprachsignal
US5790754A (en) * 1994-10-21 1998-08-04 Sensory Circuits, Inc. Speech recognition apparatus for consumer electronic applications
US5502688A (en) * 1994-11-23 1996-03-26 At&T Corp. Feedforward neural network system for the detection and characterization of sonar signals with characteristic spectrogram textures
US5933801A (en) * 1994-11-25 1999-08-03 Fink; Flemming K. Method for transforming a speech signal using a pitch manipulator
US5701344A (en) 1995-08-23 1997-12-23 Canon Kabushiki Kaisha Audio processing apparatus
US5584295A (en) 1995-09-01 1996-12-17 Analogic Corporation System for measuring the period of a quasi-periodic signal
US5949888A (en) * 1995-09-15 1999-09-07 Hughes Electronics Corporaton Comfort noise generator for echo cancelers
JPH0990974A (ja) * 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 信号処理方法
FI99062C (fi) * 1995-10-05 1997-09-25 Nokia Mobile Phones Ltd Puhesignaalin taajuuskorjaus matkapuhelimessa
US6434246B1 (en) * 1995-10-10 2002-08-13 Gn Resound As Apparatus and methods for combining audio compression and feedback cancellation in a hearing aid
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
DE19629132A1 (de) * 1996-07-19 1998-01-22 Daimler Benz Ag Verfahren zur Verringerung von Störungen eines Sprachsignals
JP3611223B2 (ja) * 1996-08-20 2005-01-19 株式会社リコー 音声認識装置及び方法
US6167375A (en) 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
FI113903B (fi) * 1997-05-07 2004-06-30 Nokia Corp Puheen koodaus
US20020071573A1 (en) * 1997-09-11 2002-06-13 Finn Brian M. DVE system with customized equalization
WO1999016051A1 (en) * 1997-09-24 1999-04-01 Lernout & Hauspie Speech Products N.V Apparatus and method for distinguishing similar-sounding utterances in speech recognition
US6173074B1 (en) * 1997-09-30 2001-01-09 Lucent Technologies, Inc. Acoustic signature recognition and identification
US6216103B1 (en) * 1997-10-20 2001-04-10 Sony Corporation Method for implementing a speech recognition system to determine speech endpoints during conditions with background noise
DE19747885B4 (de) * 1997-10-30 2009-04-23 Harman Becker Automotive Systems Gmbh Verfahren zur Reduktion von Störungen akustischer Signale mittels der adaptiven Filter-Methode der spektralen Subtraktion
US6098040A (en) * 1997-11-07 2000-08-01 Nortel Networks Corporation Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking
US6192134B1 (en) * 1997-11-20 2001-02-20 Conexant Systems, Inc. System and method for a monolithic directional microphone array
US6163608A (en) 1998-01-09 2000-12-19 Ericsson Inc. Methods and apparatus for providing comfort noise in communications systems
US6240381B1 (en) * 1998-02-17 2001-05-29 Fonix Corporation Apparatus and methods for detecting onset of a signal
US6480823B1 (en) 1998-03-24 2002-11-12 Matsushita Electric Industrial Co., Ltd. Speech detection for noisy conditions
US6175602B1 (en) * 1998-05-27 2001-01-16 Telefonaktiebolaget Lm Ericsson (Publ) Signal noise reduction by spectral subtraction using linear convolution and casual filtering
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6507814B1 (en) * 1998-08-24 2003-01-14 Conexant Systems, Inc. Pitch determination using speech classification and prior pitch estimation
US6711540B1 (en) * 1998-09-25 2004-03-23 Legerity, Inc. Tone detector with noise detection and dynamic thresholding for robust performance
DK1141948T3 (da) 1999-01-07 2007-08-13 Tellabs Operations Inc Fremgangsmåde og apparat til adaptiv undertrykkelse af stöj
US6574601B1 (en) * 1999-01-13 2003-06-03 Lucent Technologies Inc. Acoustic speech recognizer system and method
US6453291B1 (en) * 1999-02-04 2002-09-17 Motorola, Inc. Apparatus and method for voice activity detection in a communication system
US6324509B1 (en) * 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
JP3789246B2 (ja) 1999-02-25 2006-06-21 株式会社リコー 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体
JP2000267690A (ja) * 1999-03-19 2000-09-29 Toshiba Corp 音声検知装置及び音声制御システム
JP2000310993A (ja) * 1999-04-28 2000-11-07 Pioneer Electronic Corp 音声検出装置
US6611707B1 (en) * 1999-06-04 2003-08-26 Georgia Tech Research Corporation Microneedle drug delivery device
US6910011B1 (en) 1999-08-16 2005-06-21 Haman Becker Automotive Systems - Wavemakers, Inc. Noisy acoustic signal enhancement
US7117149B1 (en) * 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
US6405168B1 (en) * 1999-09-30 2002-06-11 Conexant Systems, Inc. Speaker dependent speech recognition training using simplified hidden markov modeling and robust end-point detection
US6356868B1 (en) * 1999-10-25 2002-03-12 Comverse Network Systems, Inc. Voiceprint identification system
US7421317B2 (en) * 1999-11-25 2008-09-02 S-Rain Control A/S Two-wire controlling and monitoring system for the irrigation of localized areas of soil
US20030123644A1 (en) 2000-01-26 2003-07-03 Harrow Scott E. Method and apparatus for removing audio artifacts
KR20010091093A (ko) 2000-03-13 2001-10-23 구자홍 음성 인식 및 끝점 검출방법
US6535851B1 (en) * 2000-03-24 2003-03-18 Speechworks, International, Inc. Segmentation approach for speech recognition systems
US6766292B1 (en) 2000-03-28 2004-07-20 Tellabs Operations, Inc. Relative noise ratio weighting techniques for adaptive noise cancellation
US6304844B1 (en) * 2000-03-30 2001-10-16 Verbaltek, Inc. Spelling speech recognition apparatus and method for communications
DE10017646A1 (de) * 2000-04-08 2001-10-11 Alcatel Sa Geräuschunterdrückung im Zeitbereich
US6996252B2 (en) * 2000-04-19 2006-02-07 Digimarc Corporation Low visibility watermark using time decay fluorescence
AU2001257333A1 (en) * 2000-04-26 2001-11-07 Sybersay Communications Corporation Adaptive speech filter
US6873953B1 (en) * 2000-05-22 2005-03-29 Nuance Communications Prosody based endpoint detection
US6587816B1 (en) * 2000-07-14 2003-07-01 International Business Machines Corporation Fast frequency-domain pitch estimation
US6850882B1 (en) * 2000-10-23 2005-02-01 Martin Rothenberg System for measuring velar function during speech
US6721706B1 (en) * 2000-10-30 2004-04-13 Koninklijke Philips Electronics N.V. Environment-responsive user interface/entertainment device that simulates personal interaction
US7617099B2 (en) * 2001-02-12 2009-11-10 FortMedia Inc. Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile
JP2002258882A (ja) * 2001-03-05 2002-09-11 Hitachi Ltd 音声認識システム及び情報記録媒体
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
DE10118653C2 (de) * 2001-04-14 2003-03-27 Daimler Chrysler Ag Verfahren zur Geräuschreduktion
US6782363B2 (en) * 2001-05-04 2004-08-24 Lucent Technologies Inc. Method and apparatus for performing real-time endpoint detection in automatic speech recognition
US6859420B1 (en) * 2001-06-26 2005-02-22 Bbnt Solutions Llc Systems and methods for adaptive wind noise rejection
US7146314B2 (en) * 2001-12-20 2006-12-05 Renesas Technology Corporation Dynamic adjustment of noise separation in data handling, particularly voice activation
US20030216907A1 (en) * 2002-05-14 2003-11-20 Acoustic Technologies, Inc. Enhancing the aural perception of speech
US6560837B1 (en) 2002-07-31 2003-05-13 The Gates Corporation Assembly device for shaft damper
US7146316B2 (en) * 2002-10-17 2006-12-05 Clarity Technologies, Inc. Noise reduction in subbanded speech signals
JP4352790B2 (ja) * 2002-10-31 2009-10-28 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
US8073689B2 (en) 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
US7725315B2 (en) * 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US7949522B2 (en) 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US7885420B2 (en) 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US7895036B2 (en) 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US7146319B2 (en) 2003-03-31 2006-12-05 Novauris Technologies Ltd. Phonetically based speech recognition system and method
US7567900B2 (en) * 2003-06-11 2009-07-28 Panasonic Corporation Harmonic structure based acoustic speech interval detection method and device
US7014630B2 (en) * 2003-06-18 2006-03-21 Oxyband Technologies, Inc. Tissue dressing having gas reservoir
US20050076801A1 (en) * 2003-10-08 2005-04-14 Miller Gary Roger Developer system
EP1676261A1 (en) * 2003-10-16 2006-07-05 Koninklijke Philips Electronics N.V. Voice activity detection with adaptive noise floor tracking
US20050096900A1 (en) * 2003-10-31 2005-05-05 Bossemeyer Robert W. Locating and confirming glottal events within human speech signals
US7492889B2 (en) * 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
US7433463B2 (en) * 2004-08-10 2008-10-07 Clarity Technologies, Inc. Echo cancellation and noise reduction method
US7383179B2 (en) * 2004-09-28 2008-06-03 Clarity Technologies, Inc. Method of cascading noise reduction algorithms to avoid speech distortion
GB2422279A (en) * 2004-09-29 2006-07-19 Fluency Voice Technology Ltd Determining Pattern End-Point in an Input Signal
US7716046B2 (en) * 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
US8284947B2 (en) * 2004-12-01 2012-10-09 Qnx Software Systems Limited Reverberation estimation and suppression system
EP1681670A1 (en) 2005-01-14 2006-07-19 Dialog Semiconductor GmbH Voice activation
KR100714721B1 (ko) * 2005-02-04 2007-05-04 삼성전자주식회사 음성 구간 검출 방법 및 장치
US8027833B2 (en) * 2005-05-09 2011-09-27 Qnx Software Systems Co. System for suppressing passing tire hiss
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US7890325B2 (en) * 2006-03-16 2011-02-15 Microsoft Corporation Subword unit posterior probability for measuring confidence

Also Published As

Publication number Publication date
CN101031958A (zh) 2007-09-05
EP1771840A1 (en) 2007-04-11
WO2006133537A1 (en) 2006-12-21
CA2575632A1 (en) 2006-12-21
US8554564B2 (en) 2013-10-08
JP2008508564A (ja) 2008-03-21
US8165880B2 (en) 2012-04-24
JP2011107715A (ja) 2011-06-02
CA2575632C (en) 2013-01-08
US8170875B2 (en) 2012-05-01
US20120265530A1 (en) 2012-10-18
US20070288238A1 (en) 2007-12-13
US20060287859A1 (en) 2006-12-21
EP1771840A4 (en) 2007-10-03
CN101031958B (zh) 2012-05-16
JP5331784B2 (ja) 2013-10-30

Similar Documents

Publication Publication Date Title
KR20070088469A (ko) 음성 엔드-포인터
JP4568371B2 (ja) 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
RU2507609C2 (ru) Способ и дискриминатор для классификации различных сегментов сигнала
KR100834679B1 (ko) 음성 인식 오류 통보 장치 및 방법
US9940926B2 (en) Rapid speech recognition adaptation using acoustic input
US11676625B2 (en) Unified endpointer using multitask and multidomain learning
JP5647455B2 (ja) 音声に含まれる吸気音を検出する装置、方法、及びプログラム
JP2007017620A (ja) 発話区間検出装置、そのためのコンピュータプログラム及び記録媒体
US20240265908A1 (en) Methods for real-time accent conversion and systems thereof
KR20050049207A (ko) 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점검출방법
JPH0950288A (ja) 音声認識装置及び音声認識方法
KR20080061901A (ko) 로봇의 입출력 장치에 의한 효율적인 음성인식 방법 및시스템
KR100334238B1 (ko) 음성 파형의 포락선 정보를 이용한 음성/비음성 판별 장치및 그 방법
CN112447176A (zh) 信息处理装置、关键词检测装置以及信息处理方法
KR100322203B1 (ko) 차량의 음성인식장치 및 그 방법
KR20060075533A (ko) 안티워드 모델을 이용한 음성인식 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E601 Decision to refuse application