KR101046147B1 - 디지털 오디오 신호의 고품질 신장 및 압축을 제공하기위한 시스템 및 방법 - Google Patents
디지털 오디오 신호의 고품질 신장 및 압축을 제공하기위한 시스템 및 방법 Download PDFInfo
- Publication number
- KR101046147B1 KR101046147B1 KR1020040072045A KR20040072045A KR101046147B1 KR 101046147 B1 KR101046147 B1 KR 101046147B1 KR 1020040072045 A KR1020040072045 A KR 1020040072045A KR 20040072045 A KR20040072045 A KR 20040072045A KR 101046147 B1 KR101046147 B1 KR 101046147B1
- Authority
- KR
- South Korea
- Prior art keywords
- segment
- segments
- frame
- signal
- delete delete
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 162
- 238000007906 compression Methods 0.000 title claims abstract description 125
- 230000006835 compression Effects 0.000 title claims abstract description 119
- 230000005236 sound signal Effects 0.000 title claims abstract description 55
- 230000002123 temporal effect Effects 0.000 claims abstract description 55
- 230000008569 process Effects 0.000 claims description 60
- 230000008859 change Effects 0.000 claims description 25
- 230000004048 modification Effects 0.000 claims description 9
- 238000012986 modification Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims 1
- 230000003044 adaptive effect Effects 0.000 abstract description 5
- 230000001419 dependent effect Effects 0.000 abstract 1
- 238000004513 sizing Methods 0.000 abstract 1
- 239000002131 composite material Substances 0.000 description 27
- 230000007704 transition Effects 0.000 description 25
- 230000006837 decompression Effects 0.000 description 22
- 230000006870 function Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 13
- 238000002156 mixing Methods 0.000 description 13
- 238000003860 storage Methods 0.000 description 13
- 230000000737 periodic effect Effects 0.000 description 11
- 238000001228 spectrum Methods 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000002596 correlated effect Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 230000003111 delayed effect Effects 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 230000001934 delay Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000001149 cognitive effect Effects 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000004904 shortening Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 230000005055 memory storage Effects 0.000 description 3
- CDFKCKUONRRKJD-UHFFFAOYSA-N 1-(3-chlorophenoxy)-3-[2-[[3-(3-chlorophenoxy)-2-hydroxypropyl]amino]ethylamino]propan-2-ol;methanesulfonic acid Chemical compound CS(O)(=O)=O.CS(O)(=O)=O.C=1C=CC(Cl)=CC=1OCC(O)CNCCNCC(O)COC1=CC=CC(Cl)=C1 CDFKCKUONRRKJD-UHFFFAOYSA-N 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 241000293001 Oxytropis besseyi Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01L—MEASURING FORCE, STRESS, TORQUE, WORK, MECHANICAL POWER, MECHANICAL EFFICIENCY, OR FLUID PRESSURE
- G01L19/00—Details of, or accessories for, apparatus for measuring steady or quasi-steady pressure of a fluent medium insofar as such details or accessories are not special to particular types of pressure gauges
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
- G10L2025/935—Mixed voiced class; Transitions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Abstract
Description
Claims (36)
- 음성(speech)을 포함하는 오디오 신호의 세그먼트들의 시간 변경을 위한 시스템으로서,수신된 오디오 신호로부터 데이터 프레임들을 연속적으로(sequentially) 추출하기 위한 프레임 추출 모듈;상기 연속적으로 추출된 데이터 프레임들 중 현재 프레임의 각 세그먼트의 콘텐츠 타입을 판단하기 위한 세그먼트 타입 검출 모듈 - 상기 콘텐츠 타입은 음성(voiced) 세그먼트들, 무음(unvoiced) 세그먼트들 및 혼합 세그먼트들을 포함함; 및상기 현재 프레임의 적어도 하나의 세그먼트에 대해, 음성 세그먼트 시간 변경 프로세스(voiced segment temporal modification process), 무음 세그먼트 시간 변경 프로세스(unvoiced segment temporal modification process) 및 혼합 세그먼트 시간 변경 프로세스(mixed segment temporal modification process) 중 대응되는 시간 변경 프로세스를 자동으로 선택 및 적용함으로써, 상기 현재 프레임의 적어도 하나의 세그먼트를 시간적으로(temporally) 변경하기 위한 수단을 포함하고, 상기 혼합 세그먼트 시간 변경 프로세스의 적용은 상기 음성 세그먼트 시간 변경 프로세스 및 상기 무음 시간 변경 프로세스 양자 모두를 적용하는 것을 포함하는, 시스템.
- 제1항에 있어서,상기 현재 프레임의 각 세그먼트의 콘텐츠 타입을 판정하는 것은 상기 세그먼트의 상기 콘텐츠를 검사하여 사전 수립된 기준에 따라 상기 세그먼트의 상기 콘텐츠 타입을 분류(classifying)하는 것을 포함하는, 시스템.
- 제2항에 있어서,상기 분류는 오직 상기 현재 프레임에만 기초하여 이루어지는, 시스템.
- 제2항에 있어서,상기 분류는 하나 이상의 이웃 프레임으로부터 추출된 정보에 적어도 부분적으로 기초하여 이루어지는, 시스템.
- 제2항 내지 제4항 중 어느 한 항에 있어서,상기 분류는 상기 세그먼트의 주기성(periodicity)에 적어도 부분적으로 기초하여 이루어지는, 시스템.
- 음성을 포함하는 오디오 신호 세그먼트들의 시간 변경을 위한 방법으로서,수신된 오디오 신호로부터 데이터 프레임들을 연속적으로 추출하는 단계;상기 연속적으로 추출된 데이터 프레임들 중 현재 프레임의 각 세그먼트의 콘텐츠 타입을 판단하는 단계 - 상기 콘텐츠 타입들은 음성 세그먼트들, 무음 세그먼트들 및 혼합 세그먼트들을 포함함 - ; 및상기 현재 프레임의 적어도 하나의 세그먼트에 대해, 음성 세그먼트 시간 변경 프로세스, 무음 세그먼트 시간 변경 프로세스 및 혼합 세그먼트 시간 변경 프로세스 중 대응되는 시간 변경 프로세스를 자동으로 선택 및 적용함으로써, 상기 현재 프레임의 적어도 하나의 세그먼트를 시간적으로 변경하는 단계를 포함하고, 상기 혼합 세그먼트 시간 변경 프로세스의 적용은 상기 음성 세그먼트 시간 변경 프로세스 및 상기 무음 시간 변경 프로세스 양자 모두를 적용하는 것을 포함하는, 방법.
- 제6항에 있어서,각각의 프레임에 대한 평균 피치 주기(average pitch period)를 평가하는 단계를 더 포함하고,상기 프레임들 각각은, 길이가 1 피치 주기인 적어도 하나의 세그먼트를 포함하는, 방법.
- 제6항에 있어서,상기 현재 프레임의 각 세그먼트의 콘텐츠 타입을 판단하는 상기 단계는, 각 프레임에 대한 정규화 상호 상관(normalized cross correlation)을 계산하는 단계 및 각 세그먼트의 콘텐츠 타입을 판단하기 위해 소정의 임계값들과 각 정규화 상호 상관의 최대 피크값을 비교하는 단계를 포함하는, 방법.
- 제6항 내지 제8항 중 어느 한 항에 있어서,적어도 하나의 세그먼트의 콘텐츠 타입은 음성 세그먼트이고,적어도 하나의 세그먼트를 시간적으로 변경하는 상기 단계는 상기 현재 프레임의 길이를 늘이기 위해 상기 음성 세그먼트를 신장시키는(stretching) 단계를 포함하는, 방법.
- 제6항 내지 제8항 중 어느 한 항에 있어서,시간적으로 변경된 세그먼트들의 평균 압축 비율(average compression ratio)이 전체 목표 압축 비율(overall target compression ratio)에 대응되는지를 판단하는 단계를 더 포함하고,상기 전체 목표 압축 비율이 유지되는 것을 보장하기 위해 적어도 하나의 다음 현재 프레임(next current frame)에 대한 다음 목표 압축 비율이 자동적으로 조정되는, 방법.
- 제6항 내지 제8항 중 어느 한 항에 있어서,적어도 하나의 세그먼트의 콘텐츠 타입은 무음성 세그먼트이고,적어도 하나의 세그먼트를 시간적으로 변경하는 상기 단계는 상기 현재 프레임의 길이를 증가시키기 위해 적어도 하나의 합성 세그먼트(synthetic segment)를 자동적으로 생성하여 상기 현재 프레임에 삽입하는 단계를 포함하는, 방법.
- 디지털 오디오 신호의 세그먼트들의 동적인 시간 변경(dynamic temporal modification)을 제공하기 위한 컴퓨터 판독 가능 명령어들을 기록한 컴퓨터 판독 가능 기록 매체로서, 상기 컴퓨터 판독 가능 명령어들은 컴퓨팅 장치에서 실행될 경우 상기 컴퓨팅 장치로 하여금,디지털 오디오 신호의 하나 이상의 연속 프레임을 수신하는 동작,수신된 바에 따라 상기 디지털 오디오 신호의 각 프레임을 디코딩하는 동작,음성 세그먼트 콘텐츠 타입, 무음 세그먼트 콘텐츠 타입 및 혼합 세그먼트 콘텐츠 타입을 포함하는 소정의 세그먼트 콘텐트 타입들의 그룹으로부터 상기 디코딩된 프레임들의 세그먼트들의 콘텐츠 타입을 판단하는 동작 - 각각의 세그먼트 콘텐츠 타입은 연관된 타입에 특정한 시간 변경 프로세스(type-specific temporal modification process)를 가지고, 상기 타입에 특정한 시간 변경 프로세스는 음성 세그먼트 시간 변경 프로세스, 무음 세그먼트 시간 변경 프로세스 및 혼합 세그먼트 시간 변경 프로세스를 포함함 -, 및각각의 세그먼트 콘텐츠 타입에 특정된, 상기 연관된 타입에 특정한 시간 변경 프로세스를 사용하여, 상기 세그먼트들의 하나 이상의 시간 스케일을 변경하는 동작을 수행하도록 하며, 상기 혼합 세그먼트 시간 변경 프로세스를 이용하는 것은 상기 음성 세그먼트 시간 변경 프로세스 및 상기 무음 세그먼트 시간 변경 프로세스 모두를 이용하는 것을 포함하는, 컴퓨터 판독 가능 기록 매체.
- 제12항에 있어서,상기 혼합 타입의 세그먼트들은 음성 콘텐츠 및 무음 콘텐츠의 혼합을 나타내는, 컴퓨터 판독 가능 기록 매체.
- 제12항 또는 제13항에 있어서,하나 이상의 세그먼트의 시간 스케일을 변경하는 상기 동작은, 목표 시간 변경 비율을 달성하기 위하여 상기 하나 이상의 세그먼트를 시간적으로 신장시키는 동작 및 시간적으로 압축시키는 동작 중 어느 하나를 포함하는, 컴퓨터 판독 가능 기록 매체.
- 제12항 또는 제13항에 있어서,세그먼트들의 콘텐츠 타입을 판단하는 상기 동작은 각 세그먼트의 서브 세그먼트들에 대한 정규화 상호 상관을 계산하는 동작 및 각 세그먼트의 콘텐츠 타입을 판단하기 위해 소정의 임계값과 각각의 정규화 상호 상관의 최대 피크를 비교하는 동작을 포함하는, 컴퓨터 판독 가능 기록 매체.
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/660,325 US7337108B2 (en) | 2003-09-10 | 2003-09-10 | System and method for providing high-quality stretching and compression of a digital audio signal |
US10/660,325 | 2003-09-10 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20050026884A KR20050026884A (ko) | 2005-03-16 |
KR101046147B1 true KR101046147B1 (ko) | 2011-07-01 |
Family
ID=34136772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020040072045A KR101046147B1 (ko) | 2003-09-10 | 2004-09-09 | 디지털 오디오 신호의 고품질 신장 및 압축을 제공하기위한 시스템 및 방법 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7337108B2 (ko) |
EP (1) | EP1515310B1 (ko) |
JP (1) | JP5096660B2 (ko) |
KR (1) | KR101046147B1 (ko) |
CN (1) | CN100533989C (ko) |
AT (1) | ATE361525T1 (ko) |
DE (1) | DE602004006206T2 (ko) |
Families Citing this family (123)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7412376B2 (en) * | 2003-09-10 | 2008-08-12 | Microsoft Corporation | System and method for real-time detection and preservation of speech onset in a signal |
US7596488B2 (en) * | 2003-09-15 | 2009-09-29 | Microsoft Corporation | System and method for real-time jitter control and packet-loss concealment in an audio signal |
KR100547445B1 (ko) * | 2003-11-11 | 2006-01-31 | 주식회사 코스모탄 | 디지털 오디오신호 및 오디오/비디오신호의 변속처리방법및 이를 이용한 디지털 방송신호의 변속재생방법 |
WO2005076258A1 (ja) * | 2004-02-03 | 2005-08-18 | Matsushita Electric Industrial Co., Ltd. | ユーザ適応型装置およびその制御方法 |
US20050227657A1 (en) * | 2004-04-07 | 2005-10-13 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and apparatus for increasing perceived interactivity in communications systems |
US20050283795A1 (en) * | 2004-05-14 | 2005-12-22 | Ryan Steelberg | Broadcast monitoring system and method |
US7710982B2 (en) | 2004-05-26 | 2010-05-04 | Nippon Telegraph And Telephone Corporation | Sound packet reproducing method, sound packet reproducing apparatus, sound packet reproducing program, and recording medium |
JP4096915B2 (ja) * | 2004-06-01 | 2008-06-04 | 株式会社日立製作所 | デジタル情報再生装置及び方法 |
US7783482B2 (en) * | 2004-09-24 | 2010-08-24 | Alcatel-Lucent Usa Inc. | Method and apparatus for enhancing voice intelligibility in voice-over-IP network applications with late arriving packets |
DE102004047032A1 (de) * | 2004-09-28 | 2006-04-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Bezeichnen von verschiedenen Segmentklassen |
DE102004047069A1 (de) * | 2004-09-28 | 2006-04-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks |
WO2006106466A1 (en) * | 2005-04-07 | 2006-10-12 | Koninklijke Philips Electronics N.V. | Method and signal processor for modification of audio signals |
JP4675692B2 (ja) * | 2005-06-22 | 2011-04-27 | 富士通株式会社 | 話速変換装置 |
JP4736632B2 (ja) * | 2005-08-31 | 2011-07-27 | 株式会社国際電気通信基礎技術研究所 | ボーカル・フライ検出装置及びコンピュータプログラム |
US8155972B2 (en) * | 2005-10-05 | 2012-04-10 | Texas Instruments Incorporated | Seamless audio speed change based on time scale modification |
US20070178865A1 (en) * | 2005-12-15 | 2007-08-02 | Steelberg Ryan S | Content Depot |
US20070186146A1 (en) * | 2006-02-07 | 2007-08-09 | Nokia Corporation | Time-scaling an audio signal |
CA2650419A1 (en) * | 2006-04-27 | 2007-11-08 | Technologies Humanware Canada Inc. | Method for the time scaling of an audio signal |
US8364492B2 (en) * | 2006-07-13 | 2013-01-29 | Nec Corporation | Apparatus, method and program for giving warning in connection with inputting of unvoiced speech |
KR100883652B1 (ko) * | 2006-08-03 | 2009-02-18 | 삼성전자주식회사 | 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템 |
US8731913B2 (en) * | 2006-08-03 | 2014-05-20 | Broadcom Corporation | Scaled window overlap add for mixed signals |
US7647229B2 (en) * | 2006-10-18 | 2010-01-12 | Nokia Corporation | Time scaling of multi-channel audio signals |
JP4940888B2 (ja) * | 2006-10-23 | 2012-05-30 | ソニー株式会社 | オーディオ信号伸張圧縮装置及び方法 |
US8214517B2 (en) * | 2006-12-01 | 2012-07-03 | Nec Laboratories America, Inc. | Methods and systems for quick and efficient data management and/or processing |
US8005671B2 (en) | 2006-12-04 | 2011-08-23 | Qualcomm Incorporated | Systems and methods for dynamic normalization to reduce loss in precision for low-level signals |
US7873064B1 (en) * | 2007-02-12 | 2011-01-18 | Marvell International Ltd. | Adaptive jitter buffer-packet loss concealment |
CN101325631B (zh) * | 2007-06-14 | 2010-10-20 | 华为技术有限公司 | 一种估计基音周期的方法和装置 |
US8401865B2 (en) * | 2007-07-18 | 2013-03-19 | Nokia Corporation | Flexible parameter update in audio/speech coded signals |
CN100524462C (zh) * | 2007-09-15 | 2009-08-05 | 华为技术有限公司 | 对高带信号进行帧错误隐藏的方法及装置 |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
JP2010009206A (ja) * | 2008-06-25 | 2010-01-14 | Nikon Corp | 記録制御装置 |
KR101381513B1 (ko) * | 2008-07-14 | 2014-04-07 | 광운대학교 산학협력단 | 음성/음악 통합 신호의 부호화/복호화 장치 |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
JP5245962B2 (ja) * | 2009-03-19 | 2013-07-24 | 日本電気株式会社 | 音声合成装置、音声合成方法、プログラム及び記録媒体 |
US9269366B2 (en) * | 2009-08-03 | 2016-02-23 | Broadcom Corporation | Hybrid instantaneous/differential pitch period coding |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
AU2011226212B2 (en) | 2010-03-09 | 2014-03-27 | Dolby International Ab | Apparatus and method for processing an input audio signal using cascaded filterbanks |
RU2591012C2 (ru) * | 2010-03-09 | 2016-07-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Устройство и способ обработки переходных процессов для аудио сигналов с изменением скорости воспроизведения или высоты тона |
BR112012022745B1 (pt) | 2010-03-09 | 2020-11-10 | Fraunhofer - Gesellschaft Zur Föerderung Der Angewandten Forschung E.V. | dispositivo e método para resposta de magnitude aperfeiçoada e alinhamento temporal em um vocoder de fase com base no método de extenção da largura de banda para sinais de áudio |
US8620660B2 (en) * | 2010-10-29 | 2013-12-31 | The United States Of America, As Represented By The Secretary Of The Navy | Very low bit rate signal coder and decoder |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
KR102038171B1 (ko) * | 2012-03-29 | 2019-10-29 | 스뮬, 인코포레이티드 | 타겟 운율 또는 리듬이 있는 노래, 랩 또는 다른 가청 표현으로의 스피치 자동 변환 |
JP5465276B2 (ja) * | 2012-06-04 | 2014-04-09 | 株式会社Nttドコモ | 音声パケット通信方法および音声パケット通信装置 |
CN103871414B (zh) * | 2012-12-11 | 2016-06-29 | 华为技术有限公司 | 一种多声道语音信号的时标调制方法和装置 |
JP6098149B2 (ja) | 2012-12-12 | 2017-03-22 | 富士通株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
ES2597829T3 (es) * | 2013-02-05 | 2017-01-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Ocultación de pérdida de trama de audio |
KR101467684B1 (ko) * | 2013-05-20 | 2014-12-01 | 김정훈 | 이진데이터 압축 및 압축해제 장치와 방법 |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
BR112015031825B1 (pt) | 2013-06-21 | 2021-12-28 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Controle jitter buffer, descodificador de áudio e método para controlar um fornecimento de um conteúdo de áudio descodificado |
EP3321934B1 (en) * | 2013-06-21 | 2024-04-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Time scaler, audio decoder, method and a computer program using a quality control |
EP2881944B1 (en) * | 2013-12-05 | 2016-04-13 | Nxp B.V. | Audio signal processing apparatus |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US10255903B2 (en) * | 2014-05-28 | 2019-04-09 | Interactive Intelligence Group, Inc. | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system |
US10014007B2 (en) * | 2014-05-28 | 2018-07-03 | Interactive Intelligence, Inc. | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
WO2016036163A2 (ko) * | 2014-09-03 | 2016-03-10 | 삼성전자 주식회사 | 오디오 신호를 학습하고 인식하는 방법 및 장치 |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
GB2537924B (en) * | 2015-04-30 | 2018-12-05 | Toshiba Res Europe Limited | A Speech Processing System and Method |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
KR102422794B1 (ko) * | 2015-09-04 | 2022-07-20 | 삼성전자주식회사 | 재생지연 조절 방법 및 장치와 시간축 변형방법 및 장치 |
CN105706167B (zh) | 2015-11-19 | 2017-05-31 | 瑞典爱立信有限公司 | 有语音的话音检测方法和装置 |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
CN105741857B (zh) * | 2016-04-14 | 2019-06-14 | 北京工业大学 | 一种音调序列的鲁棒阶跃规整方法 |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
EP3327723A1 (en) * | 2016-11-24 | 2018-05-30 | Listen Up Technologies Ltd | Method for slowing down a speech in an input media content |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US10791404B1 (en) * | 2018-08-13 | 2020-09-29 | Michael B. Lasky | Assisted hearing aid with synthetic substitution |
WO2020069594A1 (en) * | 2018-10-03 | 2020-04-09 | Videolocalize Inc. | Piecewise hybrid video and audio synchronization |
US10878835B1 (en) * | 2018-11-16 | 2020-12-29 | Amazon Technologies, Inc | System for shortening audio playback times |
CN109920406B (zh) * | 2019-03-28 | 2021-12-03 | 国家计算机网络与信息安全管理中心 | 一种基于可变起始位置的动态语音识别方法及系统 |
US11227579B2 (en) * | 2019-08-08 | 2022-01-18 | International Business Machines Corporation | Data augmentation by frame insertion for speech data |
CN110690902B (zh) * | 2019-09-25 | 2022-05-17 | 电子科技大学 | 一种基于随机截断的时间交织adc失配优化方法 |
EP4091332A1 (en) * | 2020-01-15 | 2022-11-23 | Dolby International AB | Adaptive streaming of media content with bitrate switching |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030033140A1 (en) | 2001-04-05 | 2003-02-13 | Rakesh Taori | Time-scale modification of signals |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4435831A (en) * | 1981-12-28 | 1984-03-06 | Mozer Forrest Shrago | Method and apparatus for time domain compression and synthesis of unvoiced audible signals |
JP2867744B2 (ja) * | 1991-06-17 | 1999-03-10 | 松下電器産業株式会社 | 音声再生装置 |
US5765127A (en) * | 1992-03-18 | 1998-06-09 | Sony Corp | High efficiency encoding method |
US5717823A (en) * | 1994-04-14 | 1998-02-10 | Lucent Technologies Inc. | Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders |
CN1079180C (zh) * | 1995-02-28 | 2002-02-13 | 摩托罗拉公司 | 通信系统中的语音压缩方法及设备 |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
US5893062A (en) * | 1996-12-05 | 1999-04-06 | Interval Research Corporation | Variable rate video playback with synchronized audio |
JPH10214098A (ja) * | 1997-01-31 | 1998-08-11 | Sanyo Electric Co Ltd | 音声変換玩具 |
US6754265B1 (en) * | 1999-02-05 | 2004-06-22 | Honeywell International Inc. | VOCODER capable modulator/demodulator |
JP3432443B2 (ja) * | 1999-02-22 | 2003-08-04 | 日本電信電話株式会社 | 音声速度変換装置、音声速度変換方法および音声速度変換方法を実行するプログラムを記録した記録媒体 |
US6138089A (en) * | 1999-03-10 | 2000-10-24 | Infolio, Inc. | Apparatus system and method for speech compression and decompression |
JP2001154684A (ja) * | 1999-11-24 | 2001-06-08 | Anritsu Corp | 話速変換装置 |
US6718309B1 (en) * | 2000-07-26 | 2004-04-06 | Ssi Corporation | Continuously variable time scale modification of digital audio signals |
US6477502B1 (en) * | 2000-08-22 | 2002-11-05 | Qualcomm Incorporated | Method and apparatus for using non-symmetric speech coders to produce non-symmetric links in a wireless communication system |
US6985857B2 (en) * | 2001-09-27 | 2006-01-10 | Motorola, Inc. | Method and apparatus for speech coding using training and quantizing |
JP2003216200A (ja) * | 2002-01-28 | 2003-07-30 | Telecommunication Advancement Organization Of Japan | 字幕用書き起こしテキストの作成支援システム及び半自動型字幕番組制作システム |
US7412376B2 (en) * | 2003-09-10 | 2008-08-12 | Microsoft Corporation | System and method for real-time detection and preservation of speech onset in a signal |
US7596488B2 (en) * | 2003-09-15 | 2009-09-29 | Microsoft Corporation | System and method for real-time jitter control and packet-loss concealment in an audio signal |
US7627467B2 (en) * | 2005-03-01 | 2009-12-01 | Microsoft Corporation | Packet loss concealment for overlapped transform codecs |
US7526351B2 (en) * | 2005-06-01 | 2009-04-28 | Microsoft Corporation | Variable speed playback of digital audio |
-
2003
- 2003-09-10 US US10/660,325 patent/US7337108B2/en not_active Expired - Fee Related
-
2004
- 2004-07-22 DE DE602004006206T patent/DE602004006206T2/de active Active
- 2004-07-22 AT AT04103503T patent/ATE361525T1/de not_active IP Right Cessation
- 2004-07-22 EP EP04103503A patent/EP1515310B1/en not_active Not-in-force
- 2004-09-07 JP JP2004260263A patent/JP5096660B2/ja not_active Expired - Fee Related
- 2004-09-09 KR KR1020040072045A patent/KR101046147B1/ko active IP Right Grant
- 2004-09-10 CN CNB2004100901930A patent/CN100533989C/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030033140A1 (en) | 2001-04-05 | 2003-02-13 | Rakesh Taori | Time-scale modification of signals |
Also Published As
Publication number | Publication date |
---|---|
DE602004006206T2 (de) | 2007-08-30 |
US20050055204A1 (en) | 2005-03-10 |
CN1601912A (zh) | 2005-03-30 |
CN100533989C (zh) | 2009-08-26 |
JP5096660B2 (ja) | 2012-12-12 |
JP2005084692A (ja) | 2005-03-31 |
EP1515310A1 (en) | 2005-03-16 |
KR20050026884A (ko) | 2005-03-16 |
ATE361525T1 (de) | 2007-05-15 |
EP1515310B1 (en) | 2007-05-02 |
US7337108B2 (en) | 2008-02-26 |
DE602004006206D1 (de) | 2007-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101046147B1 (ko) | 디지털 오디오 신호의 고품질 신장 및 압축을 제공하기위한 시스템 및 방법 | |
US7412379B2 (en) | Time-scale modification of signals | |
JP4137634B2 (ja) | 紛失フレームを取扱うための音声通信システムおよび方法 | |
TWI553628B (zh) | 訊框錯誤隱藏方法 | |
TWI585748B (zh) | 訊框錯誤隱藏方法以及音訊解碼方法 | |
RU2257556C2 (ru) | Квантование коэффициентов усиления для речевого кодера линейного прогнозирования с кодовым возбуждением | |
US8862463B2 (en) | Adaptive time/frequency-based audio encoding and decoding apparatuses and methods | |
US9653088B2 (en) | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding | |
US8670990B2 (en) | Dynamic time scale modification for reduced bit rate audio coding | |
US8744841B2 (en) | Adaptive time and/or frequency-based encoding mode determination apparatus and method of determining encoding mode of the apparatus | |
US8229738B2 (en) | Method for differentiated digital voice and music processing, noise filtering, creation of special effects and device for carrying out said method | |
US7792672B2 (en) | Method and system for the quick conversion of a voice signal | |
US20070106513A1 (en) | Method for facilitating text to speech synthesis using a differential vocoder | |
US20040083110A1 (en) | Packet loss recovery based on music signal classification and mixing | |
EP1271471A2 (en) | Signal modification based on continuous time warping for low bitrate celp coding | |
EP1312075B1 (en) | Method for noise robust classification in speech coding | |
Ebner et al. | Audio inpainting with generative adversarial network | |
TWI281657B (en) | Method and system for speech coding | |
JP2006521576A (ja) | 基本周波数情報を分析する方法、ならびに、この分析方法を実装した音声変換方法及びシステム | |
KR20220045260A (ko) | 음성 정보를 갖는 개선된 프레임 손실 보정 | |
Vlaj et al. | Voice activity detection algorithm using nonlinear spectral weights, hangover and hangbefore criteria | |
JP2931059B2 (ja) | 音声合成方式およびこれに用いる装置 | |
Wong et al. | An intelligibility evaluation of several linear prediction vocoder modifications | |
KR20050085744A (ko) | 오디오 인코딩에서의 사인곡선 선택 | |
Hasan et al. | An approach to voice conversion using feature statistical mapping |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20140516 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20150515 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20160527 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20170601 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20180529 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20190530 Year of fee payment: 9 |