KR100974054B1 - 무선장치내 커스텀 오디오 프로파일 제공 - Google Patents
무선장치내 커스텀 오디오 프로파일 제공 Download PDFInfo
- Publication number
- KR100974054B1 KR100974054B1 KR1020047008064A KR20047008064A KR100974054B1 KR 100974054 B1 KR100974054 B1 KR 100974054B1 KR 1020047008064 A KR1020047008064 A KR 1020047008064A KR 20047008064 A KR20047008064 A KR 20047008064A KR 100974054 B1 KR100974054 B1 KR 100974054B1
- Authority
- KR
- South Korea
- Prior art keywords
- delete delete
- audio signal
- wireless device
- user
- criterion
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 117
- 238000000034 method Methods 0.000 claims abstract description 23
- 230000008859 change Effects 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 description 15
- 241000272525 Anas platyrhynchos Species 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 238000007917 intracranial administration Methods 0.000 description 3
- 238000003825 pressing Methods 0.000 description 3
- 230000008451 emotion Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/60—Substation equipment, e.g. for use by subscribers including speech amplifiers
- H04M1/6016—Substation equipment, e.g. for use by subscribers including speech amplifiers in the receiver circuit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/38—Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
- H04B1/40—Circuits
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Computer Networks & Wireless Communication (AREA)
- Telephone Function (AREA)
- Circuits Of Receivers In General (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
본 발명은 무선 장치내 커스텀 프로파일을 제공하는 장치 및 무선 장치내 오디오 프로파일을 변경하는 방법에 관한 것이다. 이러한 장치는 사용자에 의해 적어도 하나의 기준이 입력되는 메모리, 오디오 신호를 수신하는 수신기, 수신기로부터 오디오 신호를 수신하며, 메모리로부터의 적어도 하나의 기준중 적어도 제 1 기준을 수신하며, 오디오 신호를 제 1 기준과 비교하는 비교기, 및 비교기로부터의 결과에 기초하여 오디오 신호를 조정하는 조정기를 포함한다. 본 발명의 방법은 무선 장치의 사용자에 의해 제 1 기준을 입력하는 단계, 무선 장치에 의해 수신된 오디오 신호를 제 1 기준과 비교하는 단계, 비교 단계의 출력에 기초하여 오디오 신호를 조정하는 단계, 및 조정된 오디오 신호를 사용자에게 플레이하거나 조정된 오디오 신호를 원격 발신자에게 동보하는 단계를 포함한다.
Description
본 발명은 무선장치에서 사용하기 위한 방법 및 장치 특히, 무선장치내 커스텀 오디오 프로파일을 제공하는 방법 및 장치에 관한 것이다.
사람들은 그 또는 그녀가 외부로 표출한다고 느끼는 아이덴티티(identity) 및 외모로부터의 자신의 이미지의 엘리먼트들을 획득한다. 개인이 제공하는 아이덴티티 및 외모중 중요한 요인은 그 사람의 음성이다. 두개내(intracranial) 공명과 다른 요인들로 인해, 사람들은 실제로 그 또는 그녀가 낸다고 생각하는 소리와 좀처럼 동일하게 소리내지 않는다. 따라서, 사람들은 그들이 자신들의 것이라고 판단하는 동일한 아이덴티티 및 외모를 외부로 표출하지 않고 있으며, 만일 그러한 사실에 주의한다면, 사람들은 자신들의 개별 자신-이미지에 대한 손상을 겪을 수 있다.
자기-이미지에 대한 이러한 손상의 많은 부분은 사람들이 전화상에서 자신들을 표출하는 방식으로 인한 것이다. 사람들이 그 또는 그녀의 표현 혹은 신체언어(body language)로 전화상에서 감정을 전달할 수 없다는 것으로 인해, 사람들은 그 사람이 소리내고자 하는 방식대로 소리내기 보다는 전화상에서는 수동적이고(passive), 약하거나(meek) 또는 냉담하게(indifferent)하게 소리내게 된다.
그러므로, 사람들로 하여금 자신이 소리내고자 하는 방식으로 발성할 수 있으며, 자신이 전달하고자 하는 이미지와 감정을 전달할 수 있도록 하면서도, 원한다면 특정 레벨의 인식성(recognizability), 이해도(understandability) 또는 명료도(clarity)를 유지할 수 있도록 함으로써 자신의 이미지를 지지할 수 있는 전화에 대한 필요성이 존재한다.
본 발명은 무선장치내 커스텀 프로파일을 제공하기 위한 장치에 관한 것이다. 장치는 사용자에 의해 적어도 하나의 기준이 입력되는 메모리, 오디오 신호를 수신하는 수신기, 수신기로부터 오디오 신호를 수신하며 메모리로부터 적어도 하나의 기준중 적어도 제 1 기준을 수신하여 오디오 신호를 제 1 기준과 비교하는 비교기 및 비교기로부터의 결과에 기초하여 오디오 신호를 조정하는 조정기를 포함한다.
본 발명은 무선장치내 오디오 프로파일을 변경하는 방법을 포함한다. 본 발명은 무선장치의 사용자에 의해 제 1 기준을 입력하는 단계, 무선장치에 의해 수신된 오디오 신호를 제 1 기준과 비교하는 단계, 비교 단계의 출력에 기초하여 오디오 신호를 조정하는 단계 및 사용자에게 조정된 오디오 신호를 재생하거나 또는 조정된 오디오 신호를 원격 발신자에게 동보하는 단계를 포함한다.
본 발명은 사람들이 발성하고자 하는 방식으로 발성할 수 있도록 함으로써 사용자의 자신의 이미지를 지원할 수 있으며, 사용자가 전화상으로 특정 감정을 전달할 수 있도록 하면서도, 사용자가 원한다면 특정 레벨의 인식성, 이해도 또는 명료도를 유지할 수 있도록 하기 때문에, 종래기술의 문제점을 개선한다. 본 발명의 이러한 및 다른 장점들과 이점들이 이하에서 본 발명의 상세한 설명으로부터 명확해질 것이다.
본 발명이 명확히 이해되고 쉽게 구현될 수 있도록 하기 위해, 본 발명은 이하의 도면들과 관련하여 설명될 것이다.
도 1은 무선장치의 커스텀 프로파일을 제공하는 장치를 도시하는 개략도.
도 1A는 무선 전화의 커스텀 프로파일을 제공하기 위한 장치를 도시하는 개략도.
도 2는 무선장치내 오디오 프로파일을 변경하기 위한 방법을 도시하는 흐름도.
도 3은 도 2의 방법의 특정 일 실시예를 도시하는 흐름도.
본 발명의 도면 및 설명은 본 발명의 명확한 이해와 관련된 엘리먼트들을 간략히 설명하지만, 간략함을 위해 전형적인 무선장치내의 많은 다른 엘리먼트들은 제외되었음을 알 수 있을 것이다. 당업자라면 본 발명을 구현하기 위해 다른 엘리먼트들이 요구 및/또는 필요하다는 것을 알 수 있을 것이다. 하지만, 이러한 엘리먼트들은 당업자에게 공지되어 있으며, 이들이 본 발명에 대한 좀 더 나은 이해를 용이하게 하지 않기 때문에, 이러한 엘리먼트에 대한 논의가 여기서는 제시되지 않는다.
도 1 및 도 1A는 무선장치(12)내 커스텀 프로파일을 제공하기 위한 장치(10)를 도시하는 개략도이다. 장치(10)는 메모리(14), 수신기(16), 오디오 신호(20)를 제 1 기준(22)과 비교하는 비교기(18) 및 오디오 신호(20)를 조정하는 조정기(24)를 포함한다.
메모리(14)는 무선장치(12)내에 포함된다. 메모리 장치(14)는 기준을 저장할 수 있으며 저장 이후 메모리로부터 판독되는 기준을 가질 수 있는 임의의 공지된 기술의 장치일 수 있다. 예를 들어, 일 실시예에서, 메모리(14)는 RAM이다. 예를 들어, 무선장치(12)의 사용자(30)는 적어도 하나의 기준(22)을 무선장치(12)의 메모리(14)에 입력한다. 또한 선택적인 실시예에서 적어도 하나의 기준(22)은 무선장치(12)의 제조업자, 무선장치(12)의 프로그래머, 무선장치(12)의 서비스 제공자 또는 무선장치로의 원격 발신자(32)에 의해 무선장치(12)에 입력될 것이다. 사용자(30)가 적어도 하나의 기준(22)을 입력할 때, 적어도 하나의 기준(22)은 오디오 필터를 선택하기 위한 키를 사용자(30)가 누름으로써 입력된다. 예를 들어, 스피치 템플릿(speech template)(40)이 이용가능하며, 하나의 스피치 템플릿(40)은 무선장치(12)의 키패드 상의 숫자 1 내지 9 각각에 대응한다. 선택적으로, 적어도 하나의 기준(22)은 이전에 조정된 오디오 신호 구성(configuration)을 사용자(30)가 선택함으로써 입력된다.
적어도 하나의 기준(22)은 오디오 신호(20)의 특징들을 액세스하기 위해 오디오 신호(20)가 비교되는 값이다. 적어도 하나의 기준(22)은 오디오 신호(20)의 이해도 또는 오디오 신호(20)의 명료도 또는 오디오 신호(20)의 주파수 성분들과 같은 성분들의 명료도일 수 있다. 적어도 하나의 기준(22)은 오디오 신호(20) 또는 오디오 신호(20)의 성분의 미리결정된 값으로부터의 편차일 수 있거나 또는 오디오 신호(20)의 인식성일 수 있다. 예를 들어, 오디오 신호(20)는 사용자(30) 또는 원격 발신자(32)에 의해 발성된 워드(word)일 수 있다. 오디오 신호(20)의 인식성은 청취자가 발음된 단어를 이해할 수 있는 능력에 기여하는 요인 또는 요인들이다.
이해도의 하나의 요소는 예를 들면 모음들과 같은 특정 음들의 발음에 대한 주파수 피크들의 크기 및 분포일 수 있다. 예를 들어, 자음들이 모음들에 비해 더 높은 주파수의 피크들을 가진다. 높은 주파수에서의 이득을 부스트(boost)하는 것은 더 큰 이해도를 가져오는데, 이는 정상적인 청각을 가진 사람이라도 자신들이 낮은 주파수들을 듣는 것과 마찬가지로 높은 주파수를 들을 수 없기 때문이다. 청각-손상된 사람들은 종종 고주파수의 소리의 상당량을 듣지 못하기도 한다.
오디오 신호(20)의 명료도는 청취자가 오디오 신호(20)를 이해할 수 있는 것을 용이하게 하는 즉, 청취자가 자음의 발음에 대응하는 주파수를 들을 수 있는 것을 용이하게 하는 것과 같은 요인 또는 요인들일 수 있다. 오디오 신호(20)의 편차는 이러한 오디오 신호(20)의 정상값(normal value)으로부터 오디오 신호(20)의 차이에 기여하는 요인 또는 요인들일 수 있다. 미리결정된 정상값은 예를 들면, 특정 스피커에 대한 정상 오디오 신호(20) 또는 사람, 동물 등에 대한 오디오 신호(20)의 정상 범위일 수 있다. 이러한 예에서, 사용자(30)는 직감을 사용자 음성에 부가하는 것과 같이 정상 신호(20)로부터 변화하고자 원하지만, 그러한 사용자(30)로서 더이상 인식할 수 있는 포인트에 도달하지 않는다. 선택적으로, 적어도 하나의 기준(22)은 사용자(30)의 청력 부족(hearing deficiency)을 보상하는 것과 같은, 여러 사용자들(30) 각각에 대해 또는 한 사용자(30)에 특정한 값일 수 있거나 또는 원격 발신자의 청력 부족을 보상하는 것과 같은 여러 원격 발신자들(32) 각각에 특정한 또는 하나의 원격 발신자(32)에 특정한 값일 수 있다.
다른 바람직한 실시예에서, 제 1 기준(22)은 음성 프로파일 템플릿(voice provile template)(40)이다. 음성 템플릿(40)은 사용자(30)의 것이거나 또는 무선 장치(12)에 대한 원격 발신자의 것이다. 음성 프로파일(40)은 사용자(30)가 오디오 신호(30)가 갖기를 원하는 특성들을 가진 음성 템플릿일 수 있다. 두개내 에코우 및 간섭으로 인해, 사용자의 음성은 종종 사용자(30)가 원하는 대로 소리내어지지 않는다. 차라리, 사용자(30)는 사용자(30) 또는 원격 발신자(32)가 장모 또는 허구의 캐릭터와 같은 제 3자와 같이 소리내어지길 바랄 수 있다. 예를 들어, 음성 프로파일 템플릿(40)은 존 웨인 또는 벅스 버니일 수 있다. 추가로, 사용자(30)가 건방지지 않거나 또는 권위적으로 소리내고자 하는 것과 같이 여러 주관적인 기준이 제공되며, 이들 주관적 기준 또는 임의의 추가의 기준은 제조자에 의해 제공되어 무선 장치(12)내에 저장될 수 있거나 또는 이하에서 설명될 바와 같은 여러 플레이백 및 조정들을 통해 사용자(30)에 의해 반복적으로 제공될 수 있다.
수신기(16)는 오디오 신호(20)를 수신한다. 오디오 신호(20)는 입력 또는 출력될 수 있고, 이에 따라 수신기(16)는 여기서 무선 장치(12)로의 또는 무선 장치로부터의 입력 또는 출력 오디오 신호들(20)을 수신하는 임의의 장치로서 정의된다. 따라서, 예를 들어, 수신기(16)는 표준 전화 마우스피스일 수 있으며, 사용자(30)로부터 오디오 신호들(30)을 전송하기 위한 이에 대응하는 하드웨어 또는 원격 발신자(32)로부터 전송된 오디오 신호들(30)을 수신하기 위한 무선 장치(12)의 안테나일 수 있다. 만일 신호가 인입(incoming) 중이면, 복수의 제 1 음성 프로파일 템플릿들(아이덴티티 템플릿들)은 발화자(speaker)의 아이덴티티를 결정하기 위해 신호에 대해 비교될 수 있다. 발화자가 식별되면, 제 2 복수의 템플릿들이 발화자의 아이덴티티 또는 임의의 다른 원하는 요인 또는 요인들의 아이덴티티에 따라 음성을 변경하는데 사용될 수 있다.
비교기(18)는 수신기(16)로부터 오디오 신호(20)를 수신하고, 메모리(14)로부터 적어도 하나의 기준(22)을 수신한다. 비교기(18)는 오디오 신호(20)를 제 1 기준(22)에 비교하고, 비교로부터 적어도 하나의 결과(50)를 출력한다. 비교기(18)는 두 양들을 비교하여 비교의 결과를 출력하는 임의의 공지된 장치일 수 있다. 일 실시예에서, 비교기(18)는 DSP와 같은 신호 처리기이다. 출력 디스플레이(42)는 바람직하게는 무선 장치(12)내에 제공되며, 출력 디스플레이(42)는 비교기(18)로부터의 적어도 하나의 결과(50)의 사용자(30)에 대한 피드백(44)을 제공한다.
조정기(24)는 비교기(18)의 결과(50)에 기초하여 오디오 신호(20)를 조정한다. 바람직한 실시예에서, 조정기(24)는 자동화된다. 선택적인 실시예에서, 무선 장치(12)의 사용자(30)는 조정기(24)를 제어한다. 조정기(24)는 비교기(18)의 출력에 대응하는 공지된 임의의 장치이며, 신호 처리기와 같은 비교기(18)의 결과(50)에 기초하여 동보용 오디오 신호(20)를 조정한다. 조정기(24)는 사용자(30)의 또는 원격 발신자(32)의 음성 특성을 적어도 하나의 기준(22)에 정합하도록 조정하는 필터링 조합(60) 또는 필터링 시스템을 포함한다. 공지된 바와 같이 하나의 필터가 각각의 오디오 신호(20)에 대해 제공되거나 또는 여러 필터들이 제공되며, 단일 필터는 오디오 신호(20)의 주파수 성분과 같은 오로지 하나의 성분에만 대응한다.
동작시, 사용자는 적어도 하나의 저장된 인식 템플릿(recognition template)(40)인 제 1 기준(22)을 입력한다. 저장된 인식 템플릿(40)은 미리결정된 음성 특성들의 세트이다. 오디오 신호(20)는 저장된 인식 템플릿에 비교되고, 비교기(18)로부터의 결과는 조정기(24)가 오디오 신호(20)를 자유-형의 음성 변조 필터링(60)을 통과하도록 하여 적어도 하나의 저장된 인식 템플릿(40)으로부터의 이해도를 증진하며 편차를 감소시키도록 한다.
다른 바람직한 실시예에서, 저장된 인식 템플릿(40)은 사용자 희망 스피치 프로파일(user desired speech profile), 즉 사용자(30)가 그와 같이 들리기를 희망하는 것, 또는 상기 사용자(30)가 상기 원격 발신자(32)에게 그와 같이 들리기를 희망하는 것일 수 있다 즉, 사용자(30)가 어떻게 소리내고자 하는지 또는 사용자(30)가 원격 발신자(30)가 어떻게 소리내기를 원하는지에 관한 프로파일일 수 있다. 각각의 저장된 인식 템플릿(40)은 무선 장치(12)의 사용자(30)에 의한 키 누름에 대응한다. 비교기(18)의 결과(50)는 저장된 인식 템플릿(40)으로부터 오디오 신호(20)의 퍼센트 편차이다. 이러한 퍼센트 편차는 오디오 신호(20)로서 사용자(30)에 의해 발성된 하나의 워드에 기초하여, 또는 무선 장치에서 원격 발신자(32)로부터 수신된 하나의 단어에 워드하여 단일 워드 레이팅(single word rating)을 할당 받는다. 대안적으로, 여러 워드들 또는 구들이 오디오 신호(20)로서 수신되어, 비교기(18)가 복수의 오디오 신호(20)에 대한 복수의 퍼센트 편차들을 생성한다. 이러한 복수의 퍼센트 편차들은 다중-워드 레이팅을 형성하고, 이러한 다중-워드 레이팅은 복수의 퍼센트 편차들 각각에 대응하는 단일 워드 레이팅들의 누적 레이팅(cumulative rating) 또는 평균 레이팅일 수 있다. 퍼센트 편차 측정은 오디오 신호(20)내 음성 특성들 및 제 1 기준(22)의 통계적 비교일 수 있다. 비교된 음성 특징들은 오디오 신호(20)의 주파수 성분 및 오디오 신호(20)의 주파수 위치일 수 있지만 이에 국한되지는 않는다.
무선 장치(12)내 커스텀 프로파일을 제공하기 위한 장치(10)는 바람직하게는 오디오 신호(20)가 수신된 이후 그리고 다시 오디오 신호(20)가 조정된 이후 오디오 신호(20)를 플레이 백하는 오디오 플레이어(70)를 포함한다. 오디오 플레이어(70)는 오디오 신호(20)가 조정된 이후 원격 발신자(32)로부터 사용자(30)로 오디오 신호를 플레이하거나 또는 오디오 신호(20) 조정 이후 사용자(30)로부터 오디오 신호(20)를 플레이 백한다.
도 2는 본 발명의 무선 장치내 오디오 프로파일을 변경하는 방법(100)을 도시하는 흐름도이다. 이러한 방법은 무선 장치 사용자에 의한 제 1 기준의 입력 단계(102), 무선 장치에 의해 수신된 오디오 신호를 제 1 기준과 비교하는 단계(104), 비교에 따라 오디오 신호를 조정하는 단계(106) 및 사용자에게 조정된 오디오 신호를 플레이하는 단계(108) 또는 원격 발신자에게 조정된 오디오 신호를 동보하는 단계(110)를 포함한다.
무선 장치의 사용자는 제 1 기준을 입력하는 단계(102)를 수행한다. 제 1 기준은 예를 들면, 도 1과 관련하여 여기서 설명된 이해도, 명료도, 미리결정된 정상 값과의 편차, 인식성일 수 있다. 입력 단계(102)는 예를 들면, 제 1 기준으로서 미리저장된 비교 템플릿들을 선택하기 위해 사용자가 키를 누름으로써 수행된다.
무선 장치에 의해 수신된 오디오 신호를 제 1 기준과 비교하는 단계(104)는 예를 들면, 신호 처리기에 의해 수행된다. 비교 단계(104)는 비교의 적어도 하나의 결과를 생성한다. 비교 단계(104)는 예를 들면, 적어도 하나의 저장된 인식 템플릿에 대해 오디오 신호를 평가하는 단계를 포함한다. 저장된 인식 템플릿은 사용자 희망 발성 프로파일일 수 있다. 여러 저장된 인식 템플릿들은 무선 장치상에 저장되고, 각각의 저장된 인식 템플릿은 예를 들면, 무선 장치의 키패드상의 키에 대응한다. 다음으로 사용자는 비교 단계(104) 이전에 원하는 템플릿을 선택한다.
평가는 이해도을 증진시키며 적어도 하나의 저장된 인식 템플릿으로부터의 편차를 감소시키기 위해 오디오 신호를 자유-형의 음성 변조 필터링을 통과시키는 것이다. 예를 들어, 사용자는 그 또는 그녀의 상사의 음성이 오리와 같기를 바랄 것이다. 비교 단계(104)는 어떠한 필터링이 상사의 실제 음성 오디오 신호와 오리 사이의 편차를 가장 감소시키는지를 평가하기 위해, 상사의 음성의 인입 오디오 신호를 음성 변경기(modifier)를 통해 통과시킨다. 따라서, 이러한 예에서, 비교 단계(104)의 평가는 오리의 저장된 인식 템플릿과 통계적으로 비교하고, 오리의 저장된 인식 템플릿으로부터의 오디오 신호의 퍼센트 편차를 할당하는 단계를 포함한다. 퍼센트 편차는 바람직하게는 단일 워드 레이팅을 할당 받는다.
이러한 평가는 복수의 오디오 신호들에 대해 반복된다. 평가가 여러 오디오 신호들에 대해 반복되는 실시예에서, 복수의 퍼센트 편차들이 생성되어 다중-워드 레이팅을 야기한다. 이러한 단일-워드 레이팅은 통계적으로 비교되는 모든 단어들에 대한 누적 레이팅이거나 또는 복수의 퍼센트 편차들 각각에 대응하는 단일 워드 레이팅들의 평균 레이팅일 수 있다. 더욱이, 퍼센트 편차는 주파수 성분 및 주파수 위치와 같은 음성 특성들을 통계적으로 비교함으로써 계산된다.
오디오 신호를 조정하는 단계(106)는 비교 단계(104)의 결과에 기초하여 수행된다. 상기한 예에서, 조정 단계(106)는 오디오 신호를 오리의 신호로 형성하기 위해 필터링을 통한 오디오 신호의 조정을 포함한다. 조정 단계(106)의 필터링은 오디오 신호의 특정 주파수를 부스팅(boosting)하는 단계를 포함한다. 조정 단계(106)는 바람직하게는 무선 장치에 의해 자동적으로 수행되지만, 무선 장치의 사용으로부터의 입력에 응답하며, 사용자로부터의 입력은 비교 단계의 적어도 하나의 결과에 기초한다. 적어도 하나의 결과는 예를 들면, 무선 장치의 디스플레이 스크린상의 아이콘으로서 디스플레이되는 피드백으로서 사용자에게 제공된다. 조정 단계(106)는 적어도 하나의 자음, 모음 또는 다른 발음의 명료도를 개선하기 위해 또는 사용자 또는 원격 발신자의 청력 부족을 보상하기 위해 특정 주파수를 부스팅하는 것과 같은 조정을 포함한다.
마지막으로, 오디오 신호의 조정이후 조정된 오디오 신호를 사용자에게 플레이하는 단계(108) 또는 조정된 오디오 신호를 원격 발신자에게 동보하는 단계(110)가 수행된다. 바람직한 실시예에서, 사용자에 대한 플레이백은 예를 들면, 두개내 간섭과 같은 간섭 및 음성간 상호작용을 방지하기 위해 사용자 발화의 형태로 사용자로부터 오디오 신호의 수신에 이어지는 지연 이후 수행된다. 또한, 바람직한 실시예에서, 지연은 원격 발신자로부터 오디오 신호의 수신과 사용자로의 플레이 백 사이에서 최소화되고, 이에 따라 무선 장치상에서의 실시간 대화가 가능하게 된다.
도 3은 도 2의 방법(100)의 특히 하나의 실시예를 도시하는 흐름도이다. 방법(100)은 오디오 신호를 기록하는 단계(202), 무선 장치의 사용자에게 오디오 신호를 플레이 백하는 단계(204), 플레이 백된 오디오 신호에 대한 필터링을 선택적으로 적용하기 위해 사용자를 폴링(poll)하는 단계(206), 사용자의 폴링 단계에 따라 오디오 신호를 필터링하는 단계(208), 사용자에게 필터링된 오디오 신호를 플레이 백하는 단계, 폴링시 사용자가 선택할 때까지 현재의 필터링 구성을 유지하기 위해 폴링, 필터링, 플레이 백하는 단계를 반복하는 단계(이러한 현재의 필터링 구성이 오디오 프로파일이 됨), 및 다음 오디오 신호에 상기 오디오 프로파일을 적용하는 단계를 포함한다.
폴링 단계(206) 동안, 사용자는 무선 장치상에서 숫자 키를 누름으로써 필터링을 선택적으로 적용할 것을 선택한다. 숫자 키는 바람직하게는 미리저장된 스피치 템플릿에 대응한다. 필터링 단계(208)는 폴링 단계 동안 사용자에 의해 선택된 필터링을 포함한다.
도 3의 오디오 신호는 원격 발신자로부터의 무선 장치로 인입되는 오디오 신호 또는 무선 장치로부터 원격 사용자로 인출되는 오디오 신호일 수 있다. 후속하는 오디오 신호는 무선 장치로부터 원격 발신자로 인출되는 오디오 신호 또는 원격 발신자로부터 무선 장치로 인입되는 오디오 신호일 수 있다.
당업자라면 본 발명의 많은 변경 및 변화들이 가능하다는 것을 알 수 있을 것이다. 이상의 설명 및 이하의 청구항들은 모든 이러한 변경 및 변화를 포함하기 위한 것이다.
Claims (73)
- 무선 장치내 커스텀 프로파일(custom profile)을 제공하는 장치로서:상기 무선 장치의 사용자에 의해 적어도 하나의 기준이 입력되는 메모리;오디오 신호를 수신하는 수신기;상기 수신기로부터 상기 오디오 신호를 수신하고, 상기 메모리로부터 상기 적어도 하나의 기준중 적어도 제 1 기준을 수신하는 비교기 ― 상기 비교기는 상기 오디오 신호를 상기 제 1 기준과 비교하고, 그리고 상기 비교기는 상기 비교의 적어도 하나의 결과를 출력함 ― ; 및상기 비교기의 결과에 기초하여 상기 오디오 신호를 조정하는 조정기를 포함하고, 상기 제 1 기준은 적어도 하나의 저장된 인식 템플릿(recognition template)이며, 상기 결과는 상기 저장된 인식 템플릿으로부터의 상기 오디오 신호의 퍼센트 편차인, 커스텀 프로파일 제공 장치.
- 제 1 항에 있어서,상기 퍼센트 편차는 단일 워드 레이팅(single word rating)을 할당받는, 커스텀 프로파일 제공 장치.
- 제 1 항에 있어서,상기 비교기는 복수의 오디오 신호들에 대한 복수의 퍼센트 편차들을 발생시키며, 상기 복수의 퍼센트 편차들은 다중-워드 레이팅(multi-word rating)을 형성하는, 커스텀 프로파일 제공 장치.
- 제 3 항에 있어서,상기 다중-워드 레이팅은 누적 레이팅(cumulative rating)인, 커스텀 프로파일 제공 장치.
- 제 3 항에 있어서,상기 다중-워드 레이팅은 상기 복수의 퍼센트 편차들 각각에 대응하는 단일 워드 레이팅들의 평균 레이팅인, 커스텀 프로파일 제공 장치.
- 제 1 항에 있어서,상기 퍼센트 편차는 상기 오디오 신호 내의 음성 특성들과 상기 제 1 기준의 통계적 비교인, 커스텀 프로파일 제공 장치.
- 제 6 항에 있어서,상기 음성 특성들은 주파수 성분 및 주파수 위치로 구성된 그룹으로부터 선택된 적어도 하나인, 커스텀 프로파일 제공 장치.
- 제 1 항에 있어서,각각의 저장된 인식 템플릿은 상기 무선 장치의 키패드상의 키에 대응하는, 커스텀 프로파일 제공 장치.
- 무선 장치내 오디오 프로파일을 변경하는 방법으로서:상기 무선 장치의 사용자에 의해 제 1 기준을 입력하는 단계;상기 무선 장치에 의해 수신된 오디오 신호를 상기 제 1 기준과 비교하는 단계;상기 비교에 기초하여 상기 오디오 신호를 조정하는 단계: 및상기 조정된 오디오 신호를 상기 사용자에게 플레이하거나 또는 상기 조정된 오디오 신호를 원격 발신자에게 동보하는 단계를 포함하며, 상기 조정 단계는 상기 무선 장치의 사용자로부터의 입력에 응답하고, 상기 사용자로부터의 입력은 상기 비교의 적어도 하나의 결과에 기초하며, 상기 비교 단계는 적어도 하나의 저장된 인식 템플릿에 대해 상기 오디오 신호를 평가하는 단계를 포함하고, 상기 평가 단계는 상기 저장된 인식 템플릿으로부터 상기 오디오 신호의 퍼센트 편차를 통계적으로 비교하고 할당하는 단계를 포함하며, 상기 퍼센트 편차는 단일 워드 레이팅을 할당받는, 오디오 프로파일 변경 방법.
- 무선 장치내 오디오 프로파일을 변경하는 방법으로서:상기 무선 장치의 사용자에 의해 제 1 기준을 입력하는 단계;상기 무선 장치에 의해 수신된 오디오 신호를 상기 제 1 기준과 비교하는 단계;상기 비교에 기초하여 상기 오디오 신호를 조정하는 단계: 및상기 조정된 오디오 신호를 상기 사용자에게 플레이하거나 또는 상기 조정된 오디오 신호를 원격 발신자에게 동보하는 단계를 포함하며, 상기 조정 단계는 상기 무선 장치의 사용자로부터의 입력에 응답하고, 상기 사용자로부터의 입력은 상기 비교의 적어도 하나의 결과에 기초하며, 상기 비교 단계는 적어도 하나의 저장된 인식 템플릿에 대해 상기 오디오 신호를 평가하는 단계를 포함하고, 상기 평가 단계는 상기 저장된 인식 템플릿으로부터 상기 오디오 신호의 퍼센트 편차를 통계적으로 비교하고 할당하는 단계를 포함하며, 상기 평가 단계는 복수의 오디오 신호들에 대해 반복되어, 복수의 퍼센트 편차들을 할당하고, 상기 복수의 퍼센트 편차들은 다중-워드 레이팅을 형성하는, 오디오 프로파일 변경 방법.
- 제 10 항에 있어서,상기 다중-워드 레이팅은 누적 레이팅인, 오디오 프로파일 변경 방법.
- 제 10 항에 있어서,다중-워드 레이팅은 상기 복수의 퍼센트 편차들 각각에 대응하는 단일 워드 레이팅들의 평균 레이팅인, 오디오 프로파일 변경 방법.
- 제 9 항에 있어서,상기 퍼센트 편차는 음성 특성들을 통계적으로 비교함으로써 계산되는, 오디오 프로파일 변경 방법.
- 제 13 항에 있어서,상기 음성 특성들은 주파수 성분 및 주파수 위치로 구성된 그룹으로부터 선택된 적어도 하나인, 오디오 프로파일 변경 방법.
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/996,524 US7027832B2 (en) | 2001-11-28 | 2001-11-28 | Providing custom audio profile in wireless device |
US09/996,524 | 2001-11-28 | ||
PCT/US2002/037422 WO2003046890A1 (en) | 2001-11-28 | 2002-11-20 | Providing custom audio profile in wireless device |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20040068168A KR20040068168A (ko) | 2004-07-30 |
KR100974054B1 true KR100974054B1 (ko) | 2010-08-04 |
Family
ID=25543007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020047008064A KR100974054B1 (ko) | 2001-11-28 | 2002-11-20 | 무선장치내 커스텀 오디오 프로파일 제공 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7027832B2 (ko) |
KR (1) | KR100974054B1 (ko) |
AU (1) | AU2002362012A1 (ko) |
BR (1) | BR0214458A (ko) |
IL (1) | IL161986A0 (ko) |
WO (1) | WO2003046890A1 (ko) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7515873B2 (en) * | 2003-12-04 | 2009-04-07 | International Business Machines Corporation | Responding to recipient rated wirelessly broadcast electronic works |
US7519322B2 (en) * | 2003-12-04 | 2009-04-14 | International Business Machines Corporation | Tracking locally broadcast electronic works |
US7620362B2 (en) * | 2003-12-04 | 2009-11-17 | International Business Machines Corporation | Controlling access to wirelessly broadcast electronic works during playback |
US20060167691A1 (en) * | 2005-01-25 | 2006-07-27 | Tuli Raja S | Barely audible whisper transforming and transmitting electronic device |
US7599719B2 (en) * | 2005-02-14 | 2009-10-06 | John D. Patton | Telephone and telephone accessory signal generator and methods and devices using the same |
US7778829B2 (en) * | 2006-11-01 | 2010-08-17 | Broadcom Corporation | Real time monitoring and control for audio devices |
US7835730B2 (en) * | 2007-01-18 | 2010-11-16 | International Business Machines Corporation | Using RFID and sensored zones to geographically control cellular phone audio profiles |
ATE456130T1 (de) * | 2007-10-29 | 2010-02-15 | Harman Becker Automotive Sys | Partielle sprachrekonstruktion |
US7974841B2 (en) * | 2008-02-27 | 2011-07-05 | Sony Ericsson Mobile Communications Ab | Electronic devices and methods that adapt filtering of a microphone signal responsive to recognition of a targeted speaker's voice |
US20090287489A1 (en) * | 2008-05-15 | 2009-11-19 | Palm, Inc. | Speech processing for plurality of users |
US8782267B2 (en) | 2009-05-29 | 2014-07-15 | Comcast Cable Communications, Llc | Methods, systems, devices, and computer-readable media for delivering additional content using a multicast streaming |
US20130040694A1 (en) * | 2011-08-10 | 2013-02-14 | Babak Forutanpour | Removal of user identified noise |
US9613633B2 (en) | 2012-10-30 | 2017-04-04 | Nuance Communications, Inc. | Speech enhancement |
JP6314837B2 (ja) * | 2013-01-15 | 2018-04-25 | ソニー株式会社 | 記憶制御装置、再生制御装置および記録媒体 |
US9330681B2 (en) * | 2014-07-16 | 2016-05-03 | International Business Machines Corporation | Voice signal modulation service for geographic areas |
US10013971B1 (en) | 2016-12-29 | 2018-07-03 | Google Llc | Automated speech pronunciation attribution |
US10418033B1 (en) * | 2017-06-01 | 2019-09-17 | Amazon Technologies, Inc. | Configurable output data formats |
US11531736B1 (en) | 2019-03-18 | 2022-12-20 | Amazon Technologies, Inc. | User authentication as a service |
US12039798B2 (en) * | 2021-11-01 | 2024-07-16 | Salesforce, Inc. | Processing forms using artificial intelligence models |
US11705108B1 (en) | 2021-12-10 | 2023-07-18 | Amazon Technologies, Inc. | Visual responses to user inputs |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1115498A (ja) * | 1997-06-23 | 1999-01-22 | Daiichi Kosho:Kk | 声帯模写機能付き電話装置 |
GB2343822A (en) * | 1997-07-02 | 2000-05-17 | Simoco Int Ltd | Using LSP to alter frequency characteristics of speech |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4241235A (en) * | 1979-04-04 | 1980-12-23 | Reflectone, Inc. | Voice modification system |
US5113449A (en) * | 1982-08-16 | 1992-05-12 | Texas Instruments Incorporated | Method and apparatus for altering voice characteristics of synthesized speech |
US4823380A (en) * | 1987-03-27 | 1989-04-18 | Chaim Kohen | Voice changer |
WO1993018505A1 (en) | 1992-03-02 | 1993-09-16 | The Walt Disney Company | Voice transformation system |
US5668868A (en) * | 1996-04-08 | 1997-09-16 | Nordenstrom; Tina L. | Memorandum recorder for use with a telephone |
US5822404A (en) * | 1996-09-30 | 1998-10-13 | Intervoice Limited Partnership | System and method for identifying remote communications formats |
US6510208B1 (en) * | 1997-01-20 | 2003-01-21 | Sony Corporation | Telephone apparatus with audio recording function and audio recording method telephone apparatus with audio recording function |
US6404872B1 (en) * | 1997-09-25 | 2002-06-11 | At&T Corp. | Method and apparatus for altering a speech signal during a telephone call |
US5978045A (en) | 1997-11-24 | 1999-11-02 | Sony Corporation | Effects processing system and method |
US6115465A (en) * | 1998-03-25 | 2000-09-05 | Mci Communications Corporation | System and method for modifying voice signals to avoid triggering tone detectors |
KR20010065803A (ko) | 1999-12-30 | 2001-07-11 | 윤종용 | 휴대 전화 단말 장치의 통화중 음색 변환 방법 |
-
2001
- 2001-11-28 US US09/996,524 patent/US7027832B2/en not_active Expired - Lifetime
-
2002
- 2002-11-20 KR KR1020047008064A patent/KR100974054B1/ko not_active IP Right Cessation
- 2002-11-20 AU AU2002362012A patent/AU2002362012A1/en not_active Abandoned
- 2002-11-20 IL IL16198602A patent/IL161986A0/xx unknown
- 2002-11-20 BR BR0214458-1A patent/BR0214458A/pt not_active IP Right Cessation
- 2002-11-20 WO PCT/US2002/037422 patent/WO2003046890A1/en not_active Application Discontinuation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1115498A (ja) * | 1997-06-23 | 1999-01-22 | Daiichi Kosho:Kk | 声帯模写機能付き電話装置 |
GB2343822A (en) * | 1997-07-02 | 2000-05-17 | Simoco Int Ltd | Using LSP to alter frequency characteristics of speech |
Also Published As
Publication number | Publication date |
---|---|
US20030100345A1 (en) | 2003-05-29 |
BR0214458A (pt) | 2005-02-09 |
KR20040068168A (ko) | 2004-07-30 |
AU2002362012A1 (en) | 2003-06-10 |
IL161986A0 (en) | 2005-11-20 |
US7027832B2 (en) | 2006-04-11 |
WO2003046890A1 (en) | 2003-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100974054B1 (ko) | 무선장치내 커스텀 오디오 프로파일 제공 | |
DE69426969T2 (de) | Spracherkennung mit bewerteter Entscheidung | |
CN114902688B (zh) | 内容流处理方法和装置、计算机系统和介质 | |
EP1994529B1 (en) | Communication device having speaker independent speech recognition | |
US5765134A (en) | Method to electronically alter a speaker's emotional state and improve the performance of public speaking | |
CN106464998A (zh) | 用来掩蔽干扰性噪声在耳机与源之间协作处理音频 | |
CN106463107A (zh) | 在耳机与源之间协作处理音频 | |
US8019102B2 (en) | Acoustic adjustment device and acoustic adjustment method | |
US20150149169A1 (en) | Method and apparatus for providing mobile multimodal speech hearing aid | |
US20030061049A1 (en) | Synthesized speech intelligibility enhancement through environment awareness | |
CN110520323B (zh) | 控制音频系统的方法、装置、移动用户设备和计算单元 | |
US6999920B1 (en) | Exponential echo and noise reduction in silence intervals | |
EP1768446A1 (de) | Individuell anpassbare Hörvorrichtung | |
EP2380170B1 (en) | Method and system for adapting communications | |
EP1582086B1 (en) | Method of fitting portable communication device to a hearing impaired user | |
JP2019184809A (ja) | 音声認識装置、音声認識方法 | |
WO2008009429A1 (de) | Verfahren, sprachdialogsystem und telekommunikationsendgerät zur multilingualen sprachausgabe | |
US7146317B2 (en) | Speech recognition device with reference transformation means | |
US20060088154A1 (en) | Telecommunication devices that adjust audio characteristics for elderly communicators | |
GB2394632A (en) | Adjusting audio characteristics of a mobile communications device in accordance with audiometric testing | |
US20060189357A1 (en) | Mobile communication apparatus and method for altering telephone audio functions | |
CN111696566B (zh) | 语音处理方法、装置和介质 | |
Coleman et al. | Perceptual evaluation of blind source separation in object-based audio production | |
JP3958009B2 (ja) | 音声認識装置 | |
Kumar | A review of smart volume controllers for consumer electronics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |