KR101136769B1 - 음성 및 텍스트 통신 시스템, 방법, 및 장치 - Google Patents
음성 및 텍스트 통신 시스템, 방법, 및 장치 Download PDFInfo
- Publication number
- KR101136769B1 KR101136769B1 KR1020097003859A KR20097003859A KR101136769B1 KR 101136769 B1 KR101136769 B1 KR 101136769B1 KR 1020097003859 A KR1020097003859 A KR 1020097003859A KR 20097003859 A KR20097003859 A KR 20097003859A KR 101136769 B1 KR101136769 B1 KR 101136769B1
- Authority
- KR
- South Korea
- Prior art keywords
- text
- mode
- discourse
- packets
- speech
- Prior art date
Links
- 238000004891 communication Methods 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000006243 chemical reaction Methods 0.000 claims abstract description 82
- 230000002194 synthesizing effect Effects 0.000 claims 5
- 230000008569 process Effects 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 241001422033 Thestylus Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
본 개시는 담화를 텍스트로 변환하고 텍스트를 담화로 변환하는 시스템, 방법 및 장치에 관한 것이다. 하나의 장치는 보코더, 담화 대 텍스트 변환 엔진, 텍스트 대 담화 변환 엔진, 및 사용자 인터페이스를 포함한다. 보코더는 담화 신호들을 패킷들로 변환하고, 패킷들을 담화 신호들로 변환하도록 동작가능하다. 담화 대 텍스트 변환 엔진은 담화를 텍스트로 변환하도록 동작가능하다. 텍스트 대 담화 변환 엔진은 텍스트를 담화로 변환하도록 동작가능하다. 사용자 인터페이스는 복수의 모드들 중에서 일 모드의 사용자 선택을 수신하도록 동작가능하며, 여기서, 제 1 모드는 담화 대 텍스트 변환 엔진을 인에이블시키고, 제 2 모드는 텍스트 대 담화 변환 엔진을 인에이블시키며, 제 3 모드는 담화 대 텍스트 변환 엔진 및 텍스트 대 담화 변환 엔진을 인에이블시킨다.
음성 및 텍스트 통신, 통신 시스템, 보코더, 담화 대 텍스트 변환 엔진, 텍스트 대 담화 변환 엔진
Description
기술 분야
본 개시는 통신에 관한 것이며, 더욱 상세하게는, 음성 및 텍스트 통신 시스템, 방법 및 장치에 관한 것이다.
배경
셀룰러 전화기는 마이크로폰 및/또는 담화 (speech) 합성기와 같은 오디오 캡쳐 디바이스, 및 오디오 패킷들 또는 프레임들을 발생시키기 위한 오디오 인코더를 포함할 수도 있다. 전화기는 패킷들을 무선 통신 채널을 통해 네트워크 또는 다른 통신 디바이스로 송신하기 위해 통신 프로토콜 계층들 및 모듈들을 이용할 수도 있다.
개요
일 양태는, 보코더, 담화 대 텍스트 변환 엔진, 텍스트 대 담화 변환 엔진, 및 사용자 인터페이스를 포함하는 장치에 관한 것이다. 보코더는 담화 신호들을 패킷들로 변환하고, 패킷들을 담화 신호들로 변환하도록 동작가능하다. 담화 대 텍스트 변환 엔진은 담화를 텍스트로 변환하도록 동작가능하다. 텍스트 대 담화 변환 엔진은 텍스트를 담화로 변환하도록 동작가능하다. 사용자 인터페이스는 복수의 모드들 중에서 일 모드의 사용자 선택을 수신하도록 동작가능하 고, 제 1 모드는 담화 대 텍스트 변환 엔진을 인에이블시키고, 제 2 모드는 텍스트 대 담화 변환 엔진을 인에이블시키며, 제 3 모드는 담화 대 텍스트 변환 엔진 및 텍스트 대 담화 변환 엔진을 인에이블시킨다.
또 다른 양태는, 담화 신호들을 패킷들로 변환하고, 패킷들을 담화 신호들로 변환하도록 동작가능한 보코더; 담화를 텍스트로 변환하도록 동작가능한 담화 대 텍스트 변환 엔진; 복수의 모드들 중에서 일 모드의 사용자 선택을 수신하도록 동작가능한 사용자 인터페이스로서, 제 1 모드는 보코더를 인에이블시키고, 제 2 모드는 담화 대 텍스트 변환 엔진을 인에이블시키는, 상기 사용자 인터페이스; 및 인코딩된 담화 패킷들 및 텍스트 패킷들을 통신 네트워크로 무선 송신하도록 동작가능한 트랜시버를 포함하는 장치에 관한 것이다.
또 다른 양태는, 패킷들을 담화 신호들로 변환하도록 동작가능한 보코더; 담화를 텍스트로 변환하도록 동작가능한 담화 대 텍스트 변환 엔진; 제 1 모드와 제 2 모드 간에 스위칭하도록 동작가능한 선택 유닛으로서, 제 1 모드는 보코더를 인에이블시키고, 제 2 모드는 보코더 및 담화 대 텍스트 변환 엔진을 인에이블시키는, 상기 선택 유닛; 및 인코딩된 담화 패킷들 및 텍스트 패킷들을 통신 네트워크로 무선 송신하도록 동작가능한 트랜시버를 포함하는 네트워크 장치에 관한 것이다.
또 다른 양태는, 인코딩된 담화 패킷들을 수신하는 단계; 그 수신된 인코딩된 담화 패킷들을 담화 신호들로 변환하는 단계; 및 복수의 모드들 중에서 일 모드의 사용자 선택을 수신하는 단계로서, 제 1 모드는 담화 대 텍스트 변환을 인에이 블시키고, 제 2 모드는 텍스트 대 담화 변환을 인에이블시키며, 제 3 모드는 담화 대 텍스트 및 텍스트 대 담화 변환을 인에이블시키는, 상기 사용자 선택을 수신하는 단계를 포함하는 방법에 관한 것이다.
하나 이상의 실시형태들의 상세한 내용들이 첨부 도면 침 이하의 설명에서 전개된다.
도면의 간단한 설명
도 1 은 제 1 통신 디바이스, 네트워크, 및 제 2 통신 디바이스를 포함하는 시스템을 도시한다.
도 2 는 도 1 의 제 2 통신 디바이스를 이용하는 방법을 도시한다.
도 3 은 도 1 의 제 1 통신 디바이스의 또 다른 구성을 도시한다.
도 4 는 도 1 의 네트워크의 또 다른 구성을 도시한다.
상세한 설명
모임, 비행기, 기차, 영화관, 레스토랑, 교회 등의 장소에서 모바일 디바이스 상에서 콜 (call) 을 수신하는 것은 다른 사람들에게 방해가 될 수도 있다. 사용자가 콜을 수신하고/하거나 콜에 응답하기 위해 모바일 디바이스 상에서 또 다른 모드를 선택할 수 있다면 훨씬 덜 방해가 될 수도 있다. 일 모드에서, 디바이스는 콜을 수신하고, 타단 상의 발신자 (caller) 가 텍스트를 입력하는 것을 요하지 않으면서 담화/음성 신호들을 텍스트로 변환한다.
도 1 은 제 1 통신 디바이스 (100), 네트워크 (110), 및 제 2 통신 디바이스 (120) 를 포함하는 시스템을 도시한다. 시스템은 다른 컴포넌트들을 포함할 수 도 있다. 시스템은, 이동 통신용 글로벌 시스템 (GSM), 코드 분할 다중 접속 (CDMA), CDMA2000, CDMA2000 1x EV-DO, 광대역 CDMA (WCDMA), 직교 주파수 분할 다중 접속 (OFDMA), 블루투스, WiFi, WiMax 등과 같은 임의의 유형의 무선 통신을 이용할 수도 있다.
제 1 통신 디바이스 (100) 는 음성 코더 (보코더) (102) 및 트랜시버 (104) 를 포함한다. 제 1 통신 디바이스 (100) 는 도 1 에 나타낸 컴포넌트들에 추가하여, 또는 그 대신에, 다른 컴포넌트들을 포함할 수도 있다. 제 1 통신 디바이스는, 지상회선 (비-무선) 전화기, 무선 통신 디바이스, PDA, 휴대용 디바이스, 랩톱 컴퓨터, 데스크톱 컴퓨터, 디지털 카메라, 디지털 레코딩 디바이스, 네트워크-인에이블된 디지털 텔레비젼, 이동 전화기, 셀룰러 전화기, 위성 전화기, 카메라 전화기, 지상-기반 무선 전화기, 다이렉트 양방향 통신 디바이스 (종종 "워키-토키" 라고도 불린다), 캠코더 등을 나태낼 수도 있고, 또는, 이들에서 구현될 수도 있다.
보코더 (102) 는 담화 신호들을 패킷들로 인코딩하는 인코더 및 패킷들을 담화 신호들로 디코딩하는 디코더를 포함할 수도 있다. 보코더 (102) 는 개선된 가변 레이트 코더 (EVRC), 적응형 다중-레이트 (AMR), 제 4 세대 보코더 (4GV) 등과 같은 임의의 타입의 보코더일 수도 있다. 코보더들은, 공동 양도되고, 본원에 참조로서 통합된, 미국 특허 제 6,397,175 호, 제 6,434,519 호, 제 6,438,518 호, 제 6,449,592 호, 제 6,456,964 호, 제 6,477,502 호, 제 6,584,438 호, 제 6,678,649 호, 제 6,691,084 호, 제 6,804,218 호, 제 6,947,888 호에 설명되어 있 다.
트랜시버 (104) 는 인코딩된 담화를 포함하는 패킷들을 무선으로 송신 및 수신할 수도 있다.
네트워크 (110) 는 하나 이상의 기지국들, 기지국 제어기 (BSC) 들, 모바일 스위칭 센터 (MSC) 들 등을 나타낼 수도 있다. 제 1 디바이스 (100) 가 지상회선 전화기인 경우, 네트워크 (110) 는 POTS 네트워크의 컴포넌트들을 포함할 수도 있다. 네트워크 (110) 는 보코더 (112) 및 트랜시버 (114) 를 포함한다. 네트워크 (110) 는 도 1 에 나타낸 컴포넌트들에 추가하여, 또는 그 대신에, 다른 컴포넌트들을 포함할 수도 있다.
제 2 통신 디바이스 (120) 는, 무선 통신 디바이스, PDA, 휴대용 디바이스, 랩톱 컴퓨터, 데스크톱 컴퓨터, 디지털 카메라, 디지털 레코딩 디바이스, 네트워크-인에이블된 디지털 텔레비젼, 이동 전화기, 셀룰러 전화기, 위성 전화기, 카메라 전화기, 지상-기반 무선 전화기, 다이렉트 양방향 통신 디바이스 (종종 "워키-토키" 라고도 불린다), 캠코더 등을 나타낼 수도 있고, 또는, 이들에서 구현될 수도 있다.
제 2 통신 디바이스 (120) 는 트랜시버 (124), 담화 및 텍스트 유닛 (140), 스피커 (142), 디스플레이 (128), 사용자 입력 인터페이스 (예를 들어, 키패드) (130), 및 마이크로폰 (146) 을 포함한다. 담화 및 텍스트 유닛 (140) 은 보코더 (122), 담화 대 텍스트 변환 엔진 (126), 제어기 (144), 텍스트 대 담화 변환 엔진 (132), 및 음성 합성기 (134) 를 포함한다. 담화 및 텍스트 유닛 (140) 은 도 1 에 나타낸 컴포넌트들에 추가하여, 또는 그 대신에, 다른 컴포넌트들을 포함할 수도 있다.
담화 및 텍스트 유닛 (140) 의 하나 이상의 컴포넌트들 또는 기능들은 단일 모듈, 유닛, 컴포넌트, 또는 소프트웨어로 통합될 수도 있다. 예를 들어, 담화 대 텍스트 변환 엔진 (126) 은 보코더 (122) 와 결합될 수도 있다. 텍스트 대 담화 변환 엔진 (132) 은 텍스트가 인코딩된 담화 패킷들로 변환되도록 보코더 (122) 와 결합될 수도 있다. 음성 합성기 (134) 는 보코더 (122) 및/또는 텍스트 대 담화 변환 엔진 (132) 과 결합될 수도 있다.
담화 대 텍스트 변환 엔진 (126) 은 음성/담화를 텍스트로 변환할 수도 있다. 텍스트 대 담화 변환 엔진 (132) 은 텍스트를 담화로 변환할 수도 있다. 제어기 (144) 는 담화 및 텍스트 유닛 (140) 에서의 하나 이상의 컴포넌트들의 파라미터들 및 동작들을 제어할 수도 있다.
디바이스 (120) 는 도 2 와 아래의 표에서 나타낸 바와 같이, 사용자가 콜들을 수신 및/또는 콜들에 응답하기 위한 몇몇 통신 모드들을 제공할 수도 있다.
모드 | 청취 | 발화 |
정규 모드 | 예 | 예 |
제 2 모드 | 예 | 아니오-텍스트 또는 합성된 담화를 송신 |
제 3 모드 | 아니오-들어오는 담화를 텍스트로 변환 | 예 |
제 4 모드 | 아니오-들어오는 담화를 텍스트로 변환 | 아니오-텍스트 또는 합성된 담화를 송신 |
정규 모드 (블록 202 및 210) 에서, 제 2 디바이스 (120) 의 사용자는 제 1 디바이스 (100) 로부터 콜을 수신하고, 스피커 (142) 로부터의 담화를 청취하고, 마이크로폰 (146) 으로 발화한다.
도 2 는 도 1 의 제 2 디바이스 (120) 를 이용하는 방법을 나타낸다. 블록 (200) 에서, 제 2 디바이스 (120) 가 제 1 디바이스 (100) 로부터 콜을 수신하는 경우, 제 2 디바이스 (120) 의 사용자는 사용자 인터페이스 (130) 를 통해 모드들 중 하나를 선택할 수 있다. 다르게는, 사용자는 제 2 디바이스 (120) 가 또 다른 디바이스로부터 콜을 수신하기 전에 블록 (200) 에서 모드들 간에 스위칭할 수도 있다. 예를 들어, 제 2 디바이스 (120) 의 사용자가 수신 콜들이 타인들에게 방해가 될 수도 있는 모임, 비행기, 기차, 영화관, 레스토랑, 교회 또는 다른 장소로 진입하는 경우, 사용자는 정규 모드에서 다른 3 가지 모드들 중 하나로 스위칭할 수도 있다.
제 2 모드 (블록 204 및 212) 에서, 제 2 디바이스 (120) 의 사용자는 이어폰, 헤드셋, 또는 헤드폰을 이용하는 등을 통해 제 1 디바이스 (100) 로부터 담화를 청취할 수도 있다 (하지만 말은 안함) . 대신, 제 2 디바이스 (120) 의 사용자는 키패드 (130) 상에서 타이핑할 수도 있고, 첨필 (writing stylus) 을 이용하여 수기 텍스트를 디스플레이 (128) 상에 입력할 수도 있다. 디스플레이 (128) 또는 텍스트 대 담화 변환 엔진 (132) 은 수기 텍스트 및 문자들을 인식하는 모듈을 가질 수도 있다. 디바이스 (120) 는 (a) 텍스트를 제 1 디바이스 (100) 로 전송할 수도 있고, 또는, (b) 텍스트 대 담화 변환 엔진 (132) 을 이용하여 텍스트를 담화로 변환할 수도 있다.
음성 합성기 (134) 는 사용자의 자연스런 음성에 실질적으로 정합하는 개성화된 담화 신호를 생성하기 위해 담화를 합성할 수도 있다. 담화 합성기 (134) 는 피치 (pitch) 와 같은, 사용자의 음성의 특성들을 저장하는 메모리를 포함할 수도 있다. 음성 합성기는 공동 양도되었으며 본원에 참조로서 통합된 미국 특허 제 6,950,799 호에 설명되어 있다. 또 다른 음성 합성기는 본원에 참조로 통합된, 공동 양도된 미국 특허출원 제 11/398,364 호에 설명된다.
보코더 (122) 는 담화를 패킷들로 인코딩한다. 짧은 지연이 존재할 수도 있고, 또는, 존재하지 않을 수도 있다. 일 구성에서, 단시간 지연 외에, 제 2 디바이스 (120) 와의 통신은 제 1 디바이스 (100) 의 사용자에게는 끊김 없는 것으로 보일 수도 있다. 제 2 디바이스 (120) 의 사용자가 모임에 있는 경우, 회화는 끊김 없는 것보다는 더욱 메시지 기반적일 수도 있다.
제 3 및 제 4 모드들 (블록 206, 208, 214, 216) 에서, 디바이스 (120) 는 콜을 수신하고, 담화 대 텍스트 변환 엔진 (126) 은 담화/음성 신호들을 디스플레이 (128) 상에 표시하기 위한 텍스트로 변환한다. 일 구성에서, 제 3 및 제 4 모드는 제 1 디바이스 (100) 의 사용자가 대화를 지속하도록 허용하고, 제 1 디바이스 (100) 의 사용자가 텍스트 입력 모드로 스위칭하도록 요구하지 않을 수도 있다. 담화 대 텍스트 변환 엔진 (126) 은 낱말 또는 소리를 인식하고 이들을 텍스트로 변환하는 음성 인식 모듈을 포함할 수도 있다.
제 3 모드에서, 디바이스 (120) 는 사용자가 마이크로폰 (146) 으로 발화하도록 허용하고, 이 마이크로폰은 담화를 패킷들로 인코딩하는 보코더 (122) 로 전달한다.
제 4 모드에서, 제 2 디바이스 (120) 의 사용자는 키패드 (130) 상에서 타이 핑할 수도 있고, 첨필을 이용하여 디스플레이 (128) 상에 수기 텍스트를 입력할 수도 있다. 디바이스 (120) 는 (a) 텍스트를 제 1 디바이스 (100) 로 전송할 수도 있고, 또는, (b) 텍스트 대 담화 변환 엔진 (132) 을 이용하여 텍스트를 담화로 변환할 수도 있다. 음성 합성기 (134) 는 사용자의 자연스런 음성에 실질적으로 정합하는 개성화된 담화 신호를 생성하기 위해 담화를 합성할 수도 있다. 보코더 (122) 는 담화를 패킷들로 인코딩한다.
제 2 모드 및 제 4 모드에서, 제 2 디바이스 (120) 가 텍스트를 담화로 변환하고 담화를 합성하도록 설정되는 경우, 제 2 디바이스 (120) 가 제 1 디바이스 (100) 로부터 콜을 수신한 때와 제 1 디바이스 (100) 가 담화 패킷들을 수신하는 때 사이에는 시간 지연이 존재할 수도 있다. 제 2 디바이스 (120) 는 제 2 디바이스 (120) 의 사용자가 모임 중에 있고, 텍스트 대 담화 변환을 이용하여 응답할 것이라는 것을 제 1 디바이스 (100) 에게 알리기 위해 사용자에 의한 사전 레코딩된 메시지를 재생하도록 구성될 수도 있다.
제 2 모드 및 제 4 모드는, 배경 잡음 없이 담화를 송신하는 것, 에코 소거의 감소된 필요 또는 불필요, 잡음 억제의 감소된 필요 또는 불필요, 더 빠른 인코딩, 더 적은 프로세싱 등과 같은 하나 이상의 이점들을 제공할 수도 있다.
도 1 은 변경들 (새로운 기능들 및/또는 요소들) 이 제 2 통신 디바이스 (120) 에서만 구현되는 일 예를 나타낸다. 통신의 새로운 모드들 (제 2, 제 3, 및 제 4 모드) 을 실현하기 위해, 제 2 통신 디바이스 (120) 는 보코더 (122), 담화 대 텍스트 변환 엔진 (126), 텍스트 대 담화 변환 엔진 (132) 등을 갖는다. 이 디바이스 (120) 를 이용하여, 시스템은 네트워크 (110) 및 종래의 전화기들 (100) (지상회선 전화기, 이동 전화기 등) 에서의 어떤 변화도 없이 새로운 모드들을 지원할 수 있다. 디바이스 (120) 는 사용자에 의해 선택된 모드에 관계 없이 음성 패킷들을 수신하고 전송할 수도 있다.
도 3 은 도 1 의 제 1 통신 디바이스 (100) 의 또 다른 구성 (100A) 을 도시한다. 도 3 에서, 제 1 통신 디바이스 (100A) 는 담화 대 텍스트 변환 엔진 (300), 인코더 (302), 트랜시버 (104), 디코더 (304), 및 사용자 인터페이스 (330) 를 포함한다. 담화 대 텍스트 변환 엔진 (300) 은 음성/담화를 트랜시버 (104) 에 의해 네트워크 (110) 로 송신될 텍스트로 변환할 수도 있다. 도 3 의 제 1 통신 디바이스 (100A) 는 제 2 디바이스 (120) 가 담화 대 텍스트 변환 엔진 (126) 없이 설계될 수 있도록 허용할 수도 있다. 도 3 의 제 1 통신 디바이스 (100A) 는 네트워크 (110) 로 담화 대신 텍스트를 전송함으로써 대역폭을 절약할 수도 있다. 사용자 인터페이스 (330) 는 복수의 모드들 중에서 일 모드의 사용자 선택을 수신하도록 동작가능할 수도 있고, 여기서, 제 1 모드는 보코더 (302, 304) 를 인에이블시키고, 제 2 모드는 담화 대 텍스트 변환 엔진 (300) 을 인에이블시킨다.
도 4 는 도 1 의 네트워크 (110) 의 또 다른 구성 (110A) 을 도시한다. 도 4 에서, 네트워크 (110A) 는 음성 코더/디코더 (400), 트랜시버 (114) 및 담화 대 텍스트 변환 엔진 (402) 을 포함한다. 또 다른 구성에서, 네트워크 (110A) 는 텍스트 대 담화 변환 엔진 (404), 음성 합성기 (434), 및 제어기 (444) 를 더 포함할 수도 있다. 보코더 (400) 는 담화 패킷들을 디코딩하여 담화 신호들을 제공한다. 담화 대 텍스트 변환 엔진 (402) 은 음성/담화를 트랜시버 (114) 에 의해 제 2 디바이스 (120) 로 송신될 텍스트로 변환할 수도 있다. 도 4 의 네트워크 (110A) 는 제 2 디바이스 (120) 가 담화 대 텍스트 변환 엔진 (126) 없이 설계될 수 있도록 허용할 수도 있고, 또는, 담화 대 텍스트 변환 엔진 (126) 이 비활성화되도록 허용할 수도 있다. 도 4 의 네트워크 (110A) 는 제 2 디바이스 (120) 로 담화 대신 텍스트를 전송함으로써 대역폭을 절약할 수도 있다.
도 4 의 네트워크 (110A) 는 수신 디바이스 (120) 의 구성, 상황, 또는 선호에 관한 지식을 획득할 수도 있다. 네트워크 (110A) 가, 수신 디바이스 (120) 는 음성 패킷들을 수신하는 것으로부터 혜택을 받지 않을 것이라는 것을 깨닫는다면 (예를 들어, 사용자 선호 또는 콜의 장소 (예를 들어, 매우 시끄러운 환경) 를 감지하고, 수신된 담화를 청취하는 것이 어려운 경우), 네트워크 (110A) 는 음성 패킷들을 텍스트 패킷들로 변환할 것이다. 수신 디바이스 (120) 가 (담화 대 텍스트 변환 엔진 (126) 을 이용하여) 음성 패킷들을 텍스트 패킷들로 변경할 능력을 갖는다 하더라도, 사용자가 텍스트 수신 모드에 있다면 (일반적으로 모임, 또는 조용한 통신), (음성으로부터 텍스트로의) 이러한 변환을 행하는 것은 대역폭 및 디바이스 전력의 낭비일 수 있다.
따라서, 도 4 의 네트워크 (110A) 는, 변화들 (새로운 특징들 및/또는 요소들) 이 네트워크 (110A) 에서만 구현되는, 즉, 통신 디바이스 또는 핸드셋에는 아무런 변화도 없는, 시스템에서 이용될 수도 있다. 네트워크 (110A) 는, 이동 핸드셋들이 담화 대 텍스트 변환 유닛들을 갖지 않는 경우에 음성 패킷들을 텍스트 로 변경하고 텍스트를 음성 패킷들로 변경하는 것을 신경을 쓸 수도 있고; 또는, 이동 핸드셋들이 담화 대 텍스트 변환 유닛들을 갖는 경우, 핸드셋들은 이러한 변환을 하기를 선호하지 않거나, 연산 자원, 배터리 전력 등의 결핍으로 인해 이러한 변환을 할 수 없다.
예를 들어, 도 1 의 제 1 디바이스 (100) 는, 제 2 디바이스 (120) 가 텍스트를 전송/수신하는 동안 (즉, 제 4 모드), 음성 패킷들을 전송/수신할 수 있다 (즉, 제 1 모드). 제 2 디바이스 (120) 는 유닛 (140) 을 가지지 않거나 (또는 보코더 (122) 만을 가진다), 또는, 비활성화된 유닛 (140) 을 가질 수도 있다. 제 2 디바이스 (120) 가 제 4 모드에서 동작하도록 허용하기 위해, 도 4 의 네트워크 (110A) 는 (담화 대 텍스트 변환 엔진 (402) 을 이용하여) 제 1 디바이스의 음성 패킷들을 텍스트 패킷들로 변경하여 제 2 디바이스 (120) 로 전송할 것이고, (텍스트 대 담화 변환 엔진 (404) 을 이용하여) 제 2 디바이스 (120) 로부터의 텍스트 패킷들을 음성 패킷들로 변경하여 제 1 디바이스 (100) 로 전송할 것이다.
제 2 디바이스 (120) 가 유닛 (140) 을 가지지 않는 경우, 제 2 디바이스 (120) 는 원하는 모드를 네트워크 (110A) 에 (예를 들어, 대역 내에서) 시그널링하여, 네트워크 (110A) 가 담화와 텍스트 간에 변환하도록, 즉, 유닛 (140) 의 기능들을 하도록 요청할 수 있다.
개성화된 담화 합성이 네트워크 (110A) 에서 행해질 수도 있다. 전술한 바처럼, 도 1 의 유닛 (140) 은 텍스트 대 담화 변환 엔진 (132) 의 출력을 개성화된 담화 (사용자의 음성) 로 변경하는 음성 합성기 (134) 를 갖는다. 도 4 의 네트워크 (110A) 를 갖는 시스템에서, 제 2 디바이스 (120) 의 사용자의 음성 기호를 반송하는 음성 패킷들을 생성하기 위해, 제 2 디바이스 (120) 는 (제 2 모드 또는 제 4 모드의 이용 시작 시에) 사용자의 스펙트럼 파라미터들 및 피치 정보를 갖는 저장된 음성 패킷들을 네트워크 (110A) 로 전송할 수도 있다. 이들 소수의 송신된 음성 패킷들 (텍스트 패킷들에 선행) 은 개성화된 음성 패킷들을 생성하기 위해 네트워크 (110A) 에 의해 이용될 수 있다.
제 2 모드 또는 제 4 모드 동안 패킷들을 제 2 디바이스 (120) 로부터 네트워크 (110A) 로 송신하는 일 예가 설명된다. 제 2 디바이스 (120) 는 네트워크 (110A) 로, 이들 "텍스트 모드들" (제 2 모드 또는 제 4 모드) 을 이용하는 초기에 사용자 사전 저장 음성 패킷들 (N 개의 패킷들) 과 동작의 모드 (1, 2, 3, 또는 4; 변환을 행하라는 요청) 를 송신한다. 그 다음, 제 2 디바이스 (120) 는 텍스트 패킷들을 전송할 수도 있다.
(도 1 및 도 4 의) 2 가지 구성들의 조합 또한 가능하다. 이들 모드들 중 하나를 이용하는 경우, 네트워크 (110A) 는, 변환을 행하거나 또는 네트워크 (110A) 또는 수신 디바이스 (100A) 로 하여금 변환을 행하도록 하는 수신 디바이스 (120) 의 성능을 감지 (예를 들어, 시그널링을 통해 요청을 수신) 한 후에 텍스트/담화 변환을 인에이블시킬 것이다.
전술한 하나 이상의 컴포넌트들 및 특징들은 푸쉬-투-토크 (PTT) 통신 디바이스 또는 푸쉬-투-리드 (push to read) 통신 디바이스에서 구현될 수도 있다. PTT 디바이스는 사용자가 디바이스 상의 버튼을 누르고 말을 하도록 허용하고, 디 바이스는 담화를 텍스트로 변환하고 텍스트 패킷들을 네트워크로 또는 바로 또 다른 통신 디바이스로 송신한다. PTT 통신은 표준 음성 콜과 같이 연속적이라기 보다는 "메시지 기반" 이다. 사용자가 디바이스 상의 PTT 버튼을 누르고 있는 기간은 메시지를 잘 프레임화하고, 이 프레임화된 메시지는 텍스트 등으로 변환된다.
디바이스 (120) 는 명령들 및 데이터를 저장하기 위한 전용 메모리, 및 전용 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 조합들을 가질 수도 있다. 소프트웨어로 구현되는 경우, 본 기술들은 랜덤 액세스 메모리 (RAM), 리드-온리 메모리 (ROM), 비휘발성 랜덤 액세스 메모리 (NVRAM), 전기적 소거가능 프로그래머블 리드-온리 메모리 (EEPROM), 플래쉬 메모리 등과 같은 컴퓨터 판독가능 매체 상에 명령들로서 포함될 수도 있다. 명령들은 하나 이상의 프로세서들로 하여금 본 명세서에 설명된 기능의 특정 양태들을 수행하도록 한다.
본 명세서에 설명된 기술들은 범용 마이크로프로세서, 디지털 신호 처리기 (DSP), 주문형 반도체 (ASIC), 필드 프로그래머블 게이트 어레이 (FPGA), 또는 다른 등가적 로직 디바이스들 내에서 구현될 수도 있다. 예를 들어, 담화 및 텍스트 유닛 (140) 및 연관된 컴포넌트들 및 모듈들은 인코딩 프로세스, 또는 코딩/디코딩 (CODEC) 프로세스, 디지털 신호 처리기 (DSP) 또는 다른 프로세싱 디바이스 상에서의 실행의 일부로서 구현될 수도 있다. 따라서, 모듈들로서 설명된 컴포넌트들은 이러한 프로세스의 프로그래머블 특징들, 또는 개별 프로세스를 형성할 수도 있다.
담화 및 텍스트 유닛 (140) 은 명령들 및 데이터를 저장하기 위한 전용 메모리, 및 전용 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 조합들을 가질 수도 있다. 소프트웨어로 구현되는 경우, 본 기술들은 하나 이상의 프로세서들에 의해 실행가능한 명령들로서 구현될 수도 있다. 이 명령들은 랜덤 액세스 메모리 (RAM), 리드-온리 메모리 (ROM), 비휘발성 랜덤 액세스 메모리 (NVRAM), 전기적 소거가능 프로그래머블 리드-온리 메모리 (EEPROM), 플래쉬 메모리 자기적 또는 광학적 데이터 저장 디바이스 등과 같은 컴퓨터 판독가능 매체 상에 저장될 수도 있다. 명령들은 하나 이상의 프로세서들로 하여금 본 명세서에 설명된 기능의 특정 양태들을 수행하도록 한다.
다양한 실시형태들이 설명되었다. 이들 및 다른 실시형태들은 첨부된 청구범위의 범위 내이다.
Claims (24)
- 음성 및 텍스트 통신 장치로서,입력 담화 (speech) 신호들을 송신되는 인코딩된 담화 패킷들로 변환하고, 수신되는 인코딩된 담화 패킷들을 출력 담화 신호들로 변환하는 보코더;담화를 텍스트로 변환하는 담화 대 텍스트 변환 엔진;텍스트를 담화로 변환하는 텍스트 대 담화 변환 엔진;복수의 모드들 중에서 일 모드의 사용자 선택을 수신하는 사용자 인터페이스로서, 제 1 모드는 상기 담화 대 텍스트 변환 엔진을 인에이블시키고, 제 2 모드는 상기 텍스트 대 담화 변환 엔진을 인에이블시키며, 제 3 모드는 상기 담화 대 텍스트 변환 엔진 및 상기 텍스트 대 담화 변환 엔진을 인에이블시키는, 상기 사용자 인터페이스; 및상기 제 2 모드 또는 제 3 모드가 선택된 때, 담화로 변환된 텍스트로부터 사용자의 음성을 합성하는 음성 합성기를 포함하고,상기 인코딩된 담화 패킷들은, 상기 장치에 의해 상기 제 1 모드, 상기 제 2 모드 및 상기 제 3 모드 각각에 대해 송신 및 수신되는, 음성 및 텍스트 통신 장치.
- 제 1 항에 있어서,상기 담화 대 텍스트 변환 엔진으로부터의 텍스트를 표시하는 디스플레이를 더 포함하는, 음성 및 텍스트 통신 장치.
- 제 1 항에 있어서,사용자로부터의 입력 텍스트를 수신하는 키패드를 더 포함하는, 음성 및 텍스트 통신 장치.
- 제 1 항에 있어서,상기 사용자 인터페이스는, 상기 장치가 또 다른 장치로부터 콜을 수신하기 전에 일 모드의 사용자 선택을 수신하는, 음성 및 텍스트 통신 장치.
- 제 1 항에 있어서,상기 사용자 인터페이스는, 상기 장치가 또 다른 장치로부터 콜을 수신한 후에 일 모드의 사용자 선택을 수신하는, 음성 및 텍스트 통신 장치.
- 삭제
- 제 1 항에 있어서,인코딩된 담화 패킷들 및 텍스트 패킷들을 통신 네트워크로 무선 송신하는 트랜시버를 더 포함하는, 음성 및 텍스트 통신 장치.
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 네트워크 장치로서,인코딩된 담화 (speech) 패킷들을 담화 신호들로 변환하는 보코더;담화를 텍스트로 변환하는 담화 대 텍스트 변환 엔진;텍스트를 담화로 변환하는 텍스트 대 담화 변환 엔진;제 1 모드와 제 2 모드 간에 스위칭하는 선택 유닛으로서, 상기 제 1 모드는 상기 보코더를 인에이블시키고, 상기 제 2 모드는 상기 보코더 및 상기 담화 대 텍스트 변환 엔진을 인에이블시키는, 상기 선택 유닛;상기 인코딩된 담화 패킷들 및 텍스트 패킷들을 통신 네트워크로 무선 송신하는 트랜시버; 및담화로 변환된 텍스트로부터 사용자의 음성을 합성하는 음성 합성기를 포함하고,상기 트랜시버는, 수신 디바이스 또는 상기 통신 네트워크 중 적어도 하나와 관련된 조건이 감지된 때, 상기 텍스트 패킷들을 송신하고,상기 인코딩된 담화 패킷들은, 상기 장치에 의해 상기 제 1 모드, 상기 제 2 모드 및 상기 제 3 모드 각각에 대해 송신 및 수신되는, 네트워크 장치.
- 제 13 항에 있어서,상기 선택 유닛은, 상기 보코더 및 상기 담화 대 텍스트 변환 엔진과 상기 텍스트 대 담화 변환 엔진 양자 모두가 인에이블되는 제 3 모드로 스위칭하도록 동작가능한, 네트워크 장치.
- 삭제
- 제 13 항에 있어서,상기 음성 합성기는, 사용자의 음성의 음성 특성들을 수신 및 저장하도록 동작가능한, 네트워크 장치.
- 제 13 항에 있어서,통신 디바이스로부터 담화를 텍스트로 변환하도록 하는 요청을 수신하는 제어기를 더 포함하는, 네트워크 장치.
- 제 13 항에 있어서,통신 디바이스로부터 텍스트를 담화로 변환하도록 하는 요청을 수신하는 제어기를 더 포함하는, 네트워크 장치.
- 통신 네트워크로부터 인코딩된 담화 (speech) 패킷들을 수신하는 단계;상기 수신된 인코딩된 담화 패킷들을 담화 신호들로 변환하는 단계;사용자로부터 텍스트 입력을 수신하는 단계;복수의 모드들 중에서 일 모드의 사용자 선택을 수신하는 단계로서, 제 1 모드는 담화 대 텍스트 변환을 인에이블시키고, 제 2 모드는 텍스트 대 담화 변환을 인에이블시키며, 제 3 모드는 담화 대 텍스트 변환 및 텍스트 대 담화 변환을 인에이블시키는, 상기 일 모드의 사용자 선택을 수신하는 단계; 및상기 제 2 모드 또는 상기 제 3 모드가 선택된 때, 상기 텍스트 입력으로부터 사용자의 음성을 합성하는 단계를 포함하고,상기 인코딩된 담화 패킷들은, 상기 제 1 모드, 상기 제 2 모드 및 상기 제 3 모드 각각에 대해 상기 통신 네트워크를 통해 통신되는, 음성 및 텍스트 통신 방법.
- 제 19 항에 있어서,들어오는 콜을 수신하기 전에 일 모드에 대한 사용자 선택을 수신하는 단계를 더 포함하는, 음성 및 텍스트 통신 방법.
- 제 19 항에 있어서,들어오는 콜을 수신한 후에 일 모드에 대한 사용자 선택을 수신하는 단계를 더 포함하는, 음성 및 텍스트 통신 방법.
- 음성 및 텍스트 통신 장치로서,입력 담화 (speech) 신호들을 송신되는 인코딩된 담화 패킷들로 변환하고, 수신되는 인코딩된 담화 패킷들을 출력 담화 신호들로 변환하는 수단;담화를 텍스트로 변환하는 수단;텍스트를 담화로 변환하는 수단;복수의 모드들 중에서 일 모드의 사용자 선택을 수신하는 수단으로서, 제 1 모드는 상기 담화 대 텍스트 변환 엔진을 인에이블시키고, 제 2 모드는 상기 텍스트 대 담화 변환 엔진을 인에이블시키며, 제 3 모드는 상기 담화 대 텍스트 변환 엔진 및 상기 텍스트 대 담화 변환 엔진을 인에이블시키는, 상기 수신 수단; 및상기 제 2 모드 또는 제 3 모드가 선택된 때, 담화로 변환된 텍스트로부터 사용자의 음성을 합성하는 수단을 포함하고,상기 인코딩된 담화 패킷들은, 상기 장치에 의해 상기 제 1 모드, 상기 제 2 모드 및 상기 제 3 모드 각각에 대해 송신 및 수신되는, 음성 및 텍스트 통신 장치.
- 실행가능한 명령을 저장하는 컴퓨터-판독가능 매체로서,상기 명령은,입력 담화 (speech) 신호들을 송신되는 인코딩된 담화 패킷들로 변환하고, 수신되는 인코딩된 담화 패킷들을 출력 담화 신호들로 변환하기 위한 코드;담화를 텍스트로 변환하기 위한 코드;텍스트를 담화로 변환하기 위한 코드;복수의 모드들 중에서 일 모드의 사용자 선택을 수신하기 위한 코드로서, 제 1 모드는 담화 대 텍스트 변환을 인에이블시키고, 제 2 모드는 텍스트 대 담화 변환을 인에이블시키며, 제 3 모드는 담화 대 텍스트 및 텍스트 대 담화 변환을 인에이블시키는, 상기 수신 코드; 및상기 제 2 모드 또는 상기 제 3 모드가 선택된 때, 담화로 변환된 텍스트로부터 사용자의 음성을 합성하기 위한 코드를 포함하고,상기 인코딩된 담화 패킷들은, 상기 컴퓨터-판독가능 매체에 의해 상기 제 1 모드, 상기 제 2 모드 및 상기 제 3 모드 각각에 대해 송신 및 수신되는, 컴퓨터-판독가능 매체.
- 제 13 항에 있어서,상기 조건은, 상기 통신 네트워크의 대역폭 조건, 상기 수신 디바이스와 관련된 사용자 선호, 상기 수신 디바이스와 관련된 환경의 잡음 레벨 및 상기 수신 디바이스의 수신 모드 중 적어도 하나를 포함하는, 네트워크 장치.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/497,011 | 2006-07-31 | ||
US11/497,011 US20100030557A1 (en) | 2006-07-31 | 2006-07-31 | Voice and text communication system, method and apparatus |
PCT/US2007/074902 WO2008016949A2 (en) | 2006-07-31 | 2007-07-31 | Voice and text communication system, method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20090036141A KR20090036141A (ko) | 2009-04-13 |
KR101136769B1 true KR101136769B1 (ko) | 2012-04-19 |
Family
ID=38871584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020097003859A KR101136769B1 (ko) | 2006-07-31 | 2007-07-31 | 음성 및 텍스트 통신 시스템, 방법, 및 장치 |
Country Status (6)
Country | Link |
---|---|
US (2) | US20100030557A1 (ko) |
EP (1) | EP2047459A2 (ko) |
JP (1) | JP5149292B2 (ko) |
KR (1) | KR101136769B1 (ko) |
CN (1) | CN101496096B (ko) |
WO (1) | WO2008016949A2 (ko) |
Families Citing this family (56)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7127271B1 (en) | 2001-10-18 | 2006-10-24 | Iwao Fujisaki | Communication device |
US7107081B1 (en) | 2001-10-18 | 2006-09-12 | Iwao Fujisaki | Communication device |
US7466992B1 (en) | 2001-10-18 | 2008-12-16 | Iwao Fujisaki | Communication device |
US8229512B1 (en) | 2003-02-08 | 2012-07-24 | Iwao Fujisaki | Communication device |
US8241128B1 (en) | 2003-04-03 | 2012-08-14 | Iwao Fujisaki | Communication device |
US8090402B1 (en) | 2003-09-26 | 2012-01-03 | Iwao Fujisaki | Communication device |
US7917167B1 (en) | 2003-11-22 | 2011-03-29 | Iwao Fujisaki | Communication device |
US8041348B1 (en) | 2004-03-23 | 2011-10-18 | Iwao Fujisaki | Communication device |
US8208954B1 (en) | 2005-04-08 | 2012-06-26 | Iwao Fujisaki | Communication device |
US20100030557A1 (en) | 2006-07-31 | 2010-02-04 | Stephen Molloy | Voice and text communication system, method and apparatus |
US8559983B1 (en) | 2007-05-03 | 2013-10-15 | Iwao Fujisaki | Communication device |
US7890089B1 (en) | 2007-05-03 | 2011-02-15 | Iwao Fujisaki | Communication device |
US8676273B1 (en) * | 2007-08-24 | 2014-03-18 | Iwao Fujisaki | Communication device |
US8639214B1 (en) | 2007-10-26 | 2014-01-28 | Iwao Fujisaki | Communication device |
US8472935B1 (en) | 2007-10-29 | 2013-06-25 | Iwao Fujisaki | Communication device |
US8744720B1 (en) | 2007-12-27 | 2014-06-03 | Iwao Fujisaki | Inter-vehicle middle point maintaining implementer |
CN101237489A (zh) * | 2008-03-05 | 2008-08-06 | 北京邮电大学 | 基于语音通信内容的处理方法和装置 |
US8856003B2 (en) * | 2008-04-30 | 2014-10-07 | Motorola Solutions, Inc. | Method for dual channel monitoring on a radio device |
US8543157B1 (en) | 2008-05-09 | 2013-09-24 | Iwao Fujisaki | Communication device which notifies its pin-point location or geographic area in accordance with user selection |
US8312660B1 (en) | 2008-05-09 | 2012-11-20 | Iwao Fujisaki | Firearm |
US8340726B1 (en) | 2008-06-30 | 2012-12-25 | Iwao Fujisaki | Communication device |
US8452307B1 (en) | 2008-07-02 | 2013-05-28 | Iwao Fujisaki | Communication device |
US20110007732A1 (en) * | 2009-07-08 | 2011-01-13 | John Ward | Unified Communication System |
US8611876B2 (en) * | 2009-10-15 | 2013-12-17 | Larry Miller | Configurable phone with interactive voice response engine |
KR20110051385A (ko) * | 2009-11-10 | 2011-05-18 | 삼성전자주식회사 | 통신 단말기 및 그의 통신 방법 |
US9106672B2 (en) | 2009-12-31 | 2015-08-11 | Nokia Technologies Oy | Method and apparatus for performing multiple forms of communications in one session |
CN102984672A (zh) * | 2011-09-07 | 2013-03-20 | 比亚迪股份有限公司 | 移动终端及其通信方法 |
US9794209B2 (en) | 2011-09-28 | 2017-10-17 | Elwha Llc | User interface for multi-modality communication |
US9699632B2 (en) | 2011-09-28 | 2017-07-04 | Elwha Llc | Multi-modality communication with interceptive conversion |
US9503550B2 (en) * | 2011-09-28 | 2016-11-22 | Elwha Llc | Multi-modality communication modification |
US9906927B2 (en) | 2011-09-28 | 2018-02-27 | Elwha Llc | Multi-modality communication initiation |
US9477943B2 (en) | 2011-09-28 | 2016-10-25 | Elwha Llc | Multi-modality communication |
US9788349B2 (en) | 2011-09-28 | 2017-10-10 | Elwha Llc | Multi-modality communication auto-activation |
US9002937B2 (en) | 2011-09-28 | 2015-04-07 | Elwha Llc | Multi-party multi-modality communication |
CN103108092A (zh) * | 2011-11-15 | 2013-05-15 | 希姆通信息技术(上海)有限公司 | 通信终端以及通信终端之间的信息传送方法 |
US8423366B1 (en) * | 2012-07-18 | 2013-04-16 | Google Inc. | Automatically training speech synthesizers |
US10129340B2 (en) | 2012-08-07 | 2018-11-13 | Nokia Technologies Oy | Method and apparatus for performing multiple forms of communications in one session |
KR101398806B1 (ko) * | 2012-11-21 | 2014-05-27 | 오준수 | 모바일 단말기 간의 p2p 통신방법 및 그 기록매체 |
CN103973542B (zh) * | 2013-02-01 | 2017-06-13 | 腾讯科技(深圳)有限公司 | 一种语音信息处理方法及装置 |
US9767802B2 (en) * | 2013-08-29 | 2017-09-19 | Vonage Business Inc. | Methods and apparatus for conducting internet protocol telephony communications |
EP3095112B1 (en) * | 2014-01-14 | 2019-10-30 | Interactive Intelligence Group, Inc. | System and method for synthesis of speech from provided text |
US20150220512A1 (en) * | 2014-02-05 | 2015-08-06 | Marco Álvarez Heinemeyer | Language interface system, method and computer readable medium |
KR102225401B1 (ko) * | 2014-05-23 | 2021-03-09 | 삼성전자주식회사 | 음성 문자 통화 서비스를 제공하는 시스템 및 방법 |
WO2015178715A1 (en) | 2014-05-23 | 2015-11-26 | Samsung Electronics Co., Ltd. | System and method of providing voice-message call service |
CN104123932B (zh) * | 2014-07-29 | 2017-11-07 | 科大讯飞股份有限公司 | 一种语音转换系统及方法 |
CN105530351B (zh) * | 2014-10-23 | 2019-09-10 | 中兴通讯股份有限公司 | 通话处理方法及装置 |
US9558747B2 (en) * | 2014-12-10 | 2017-01-31 | Honeywell International Inc. | High intelligibility voice announcement system |
EP3107090B1 (en) * | 2015-06-18 | 2023-01-11 | Airbus Operations GmbH | Announcement signalling on board an aircraft |
US9491270B1 (en) * | 2015-11-13 | 2016-11-08 | Motorola Solutions, Inc. | Method and apparatus for muting an audio output interface of a portable communications device |
US20180096334A1 (en) * | 2016-10-03 | 2018-04-05 | Paypal, Inc. | Voice activated remittances |
US11449868B2 (en) | 2016-10-03 | 2022-09-20 | Paypal, Inc. | Voice activated remittances |
WO2018117565A1 (en) | 2016-12-19 | 2018-06-28 | Samsung Electronics Co., Ltd. | Methods and apparatus for managing control data |
WO2020056684A1 (zh) | 2018-09-20 | 2020-03-26 | 华为技术有限公司 | 通过转发模式连接的多tws耳机实现自动翻译的方法及装置 |
CN109600307A (zh) * | 2019-01-29 | 2019-04-09 | 北京百度网讯科技有限公司 | 即时通讯方法、终端、设备、计算机可读介质 |
US11468896B2 (en) * | 2019-06-12 | 2022-10-11 | Nvoq Incorporated | Systems, methods, and apparatus for real-time dictation and transcription with multiple remote endpoints |
CN112967719A (zh) * | 2019-12-12 | 2021-06-15 | 上海棋语智能科技有限公司 | 一种标准电台手咪的电脑端接入设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0151128A1 (en) * | 1983-05-06 | 1985-08-14 | Velos Group | REACTIVE MONOCLONAL ANTIBODIES WITH ENDOTOXIN CORE. |
US20050058075A1 (en) * | 2003-09-12 | 2005-03-17 | Gorday Robert M. | Apparatus and method for mixed-media call formatting |
Family Cites Families (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5917405A (en) * | 1993-06-08 | 1999-06-29 | Joao; Raymond Anthony | Control apparatus and methods for vehicles |
US5881142A (en) * | 1995-07-18 | 1999-03-09 | Jetstream Communications, Inc. | Integrated communications control device for a small office configured for coupling within a scalable network |
JP3102335B2 (ja) * | 1996-01-18 | 2000-10-23 | ヤマハ株式会社 | フォルマント変換装置およびカラオケ装置 |
JP3781213B2 (ja) * | 1996-06-20 | 2006-05-31 | ソニー株式会社 | 電子メールシステム、コンピユータ装置及び着信通知方法 |
GB2323246B (en) * | 1997-03-15 | 2002-03-20 | Ibm | Internet telephony signal conversion |
US5786768A (en) * | 1997-04-16 | 1998-07-28 | Patrick Plastics Inc. | Clock radio gas detector apparatus and method for alerting residents to hazardous gas concentrations |
US6178170B1 (en) * | 1997-05-13 | 2001-01-23 | Sprint Communications Company, L. P. | System and method for transporting a call |
US5983190A (en) * | 1997-05-19 | 1999-11-09 | Microsoft Corporation | Client server animation system for managing interactive user interface characters |
US6366651B1 (en) * | 1998-01-21 | 2002-04-02 | Avaya Technology Corp. | Communication device having capability to convert between voice and text message |
US6094681A (en) * | 1998-03-31 | 2000-07-25 | Siemens Information And Communication Networks, Inc. | Apparatus and method for automated event notification |
US7009990B1 (en) * | 1998-04-23 | 2006-03-07 | Nortel Networks Limited | Methods and systems for a telephone e-mail interface |
US6173250B1 (en) * | 1998-06-03 | 2001-01-09 | At&T Corporation | Apparatus and method for speech-text-transmit communication over data networks |
JP2000023253A (ja) * | 1998-06-26 | 2000-01-21 | Nec Corp | マルチモード移動無線装置及びマルチモード無線装置、並びにマルチモード移動無線装置及びマルチモード無線装置における着信通知方法 |
WO2000021232A2 (en) | 1998-10-02 | 2000-04-13 | International Business Machines Corporation | Conversational browser and conversational systems |
JP3842913B2 (ja) * | 1998-12-18 | 2006-11-08 | 富士通株式会社 | 文字通信方法及び文字通信システム |
US6456964B2 (en) * | 1998-12-21 | 2002-09-24 | Qualcomm, Incorporated | Encoding of periodic speech using prototype waveforms |
WO2000058949A1 (en) * | 1999-03-25 | 2000-10-05 | Kent Ridge Digital Labs | Low data transmission rate and intelligible speech communication |
US6836761B1 (en) * | 1999-10-21 | 2004-12-28 | Yamaha Corporation | Voice converter for assimilation by frame synthesis with temporal alignment |
US6745024B1 (en) * | 2000-01-10 | 2004-06-01 | Qualcomm Incorporated | System and method for preparing and sending an electronic mail communication using a wireless communications device |
JP3322262B2 (ja) * | 2000-12-22 | 2002-09-09 | 日本電気株式会社 | 無線携帯端末通信システム |
US6775360B2 (en) * | 2000-12-28 | 2004-08-10 | Intel Corporation | Method and system for providing textual content along with voice messages |
US6845359B2 (en) * | 2001-03-22 | 2005-01-18 | Motorola, Inc. | FFT based sine wave synthesis method for parametric vocoders |
US7406421B2 (en) * | 2001-10-26 | 2008-07-29 | Intellisist Inc. | Systems and methods for reviewing informational content in a vehicle |
JP2002333895A (ja) * | 2001-05-10 | 2002-11-22 | Sony Corp | 情報処理装置および情報処理方法、記録媒体、並びにプログラム |
JP2002334086A (ja) * | 2001-05-10 | 2002-11-22 | Sony Corp | 情報処理装置および情報処理方法、記録媒体、並びにプログラム |
KR20020091920A (ko) * | 2001-06-01 | 2002-12-11 | 엘지전자 주식회사 | 이동통신 단말기에서의 음성 및 문자 통화 장치 |
US7251252B2 (en) * | 2001-06-13 | 2007-07-31 | Qwest Communications International Inc. | Negotiated cell delivery capability |
US7668718B2 (en) * | 2001-07-17 | 2010-02-23 | Custom Speech Usa, Inc. | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile |
US7085259B2 (en) * | 2001-07-31 | 2006-08-01 | Comverse, Inc. | Animated audio messaging |
US7233655B2 (en) * | 2001-10-03 | 2007-06-19 | Accenture Global Services Gmbh | Multi-modal callback |
JP3733322B2 (ja) * | 2001-11-21 | 2006-01-11 | キヤノン株式会社 | マルチモーダル文書受信装置及びマルチモーダル文書送信装置、マルチモーダル文書送受信システム及びそれらの制御方法、プログラム |
US7483832B2 (en) | 2001-12-10 | 2009-01-27 | At&T Intellectual Property I, L.P. | Method and system for customizing voice translation of text to speech |
US6950799B2 (en) * | 2002-02-19 | 2005-09-27 | Qualcomm Inc. | Speech converter utilizing preprogrammed voice profiles |
JP2003289380A (ja) * | 2002-03-28 | 2003-10-10 | Nec Corp | 音声符号化方式の変更方法、通信システム、通信網および通信端末 |
US7136811B2 (en) * | 2002-04-24 | 2006-11-14 | Motorola, Inc. | Low bandwidth speech communication using default and personal phoneme tables |
JP2004020613A (ja) * | 2002-06-12 | 2004-01-22 | Canon Inc | サーバ、受信端末 |
US20040098266A1 (en) | 2002-11-14 | 2004-05-20 | International Business Machines Corporation | Personal speech font |
US20050048992A1 (en) * | 2003-08-28 | 2005-03-03 | Alcatel | Multimode voice/screen simultaneous communication device |
US7227847B2 (en) * | 2004-03-11 | 2007-06-05 | Ixi Mobile (R&D) Ltd. | Power management system and method for a wireless communications device |
US20050266829A1 (en) * | 2004-04-16 | 2005-12-01 | Lg Elcectronics, Inc. | Speech-to-text messaging system and method |
WO2005109661A1 (en) * | 2004-05-10 | 2005-11-17 | Sk Telecom Co., Ltd. | Mobile communication terminal for transferring and receiving of voice message and method for transferring and receiving of voice message using the same |
KR100617826B1 (ko) * | 2004-05-11 | 2006-08-28 | 삼성전자주식회사 | 음성메시지를 문자메시지로 변환하는 이동단말기 및 방법 |
DE102004041330B3 (de) * | 2004-08-26 | 2006-03-16 | Infineon Technologies Ag | Speicherschaltung mit ein Widerstandsspeicherelement aufweisenden Speicherzellen |
US20060136226A1 (en) * | 2004-10-06 | 2006-06-22 | Ossama Emam | System and method for creating artificial TV news programs |
JP4025355B2 (ja) | 2004-10-13 | 2007-12-19 | 松下電器産業株式会社 | 音声合成装置及び音声合成方法 |
US7693719B2 (en) * | 2004-10-29 | 2010-04-06 | Microsoft Corporation | Providing personalized voice font for text-to-speech applications |
US7333014B2 (en) * | 2004-11-04 | 2008-02-19 | International Business Machines Corporation | Notifying users of device events in a networked environment |
US7296740B2 (en) * | 2004-11-04 | 2007-11-20 | International Business Machines Corporation | Routing telecommunications to a user in dependence upon location |
US7324476B2 (en) * | 2004-11-04 | 2008-01-29 | International Business Machines Corporation | Establishing user accounts for RFID-based telecommunications routing |
US20060122840A1 (en) * | 2004-12-07 | 2006-06-08 | David Anderson | Tailoring communication from interactive speech enabled and multimodal services |
EP1694044B1 (en) * | 2005-02-17 | 2008-06-04 | Sony Ericsson Mobile Communications AB | Method and communication system for transferring messages containing audio and/or voice information |
US7917178B2 (en) * | 2005-03-22 | 2011-03-29 | Sony Ericsson Mobile Communications Ab | Wireless communications device with voice-to-text conversion |
US7394405B2 (en) * | 2005-06-01 | 2008-07-01 | Gm Global Technology Operations, Inc. | Location-based notifications |
US20070036086A1 (en) * | 2005-08-09 | 2007-02-15 | Sbc Knowledge Ventures, L.P. | System and method of providing communications based on a predetermined device status |
US7792253B2 (en) * | 2005-10-27 | 2010-09-07 | International Business Machines Corporation | Communications involving devices having different communication modes |
US7830408B2 (en) * | 2005-12-21 | 2010-11-09 | Cisco Technology, Inc. | Conference captioning |
US20100030557A1 (en) | 2006-07-31 | 2010-02-04 | Stephen Molloy | Voice and text communication system, method and apparatus |
AU2008204404B2 (en) * | 2007-01-09 | 2013-05-30 | Spinvox Limited | Detection of unanswered call in order to give calling party the option to alternatively dictate a text message for delivery to the called party |
US8914290B2 (en) * | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
-
2006
- 2006-07-31 US US11/497,011 patent/US20100030557A1/en not_active Abandoned
-
2007
- 2007-07-31 CN CN2007800282788A patent/CN101496096B/zh not_active Expired - Fee Related
- 2007-07-31 EP EP07840622A patent/EP2047459A2/en not_active Withdrawn
- 2007-07-31 JP JP2009523030A patent/JP5149292B2/ja not_active Expired - Fee Related
- 2007-07-31 KR KR1020097003859A patent/KR101136769B1/ko not_active IP Right Cessation
- 2007-07-31 WO PCT/US2007/074902 patent/WO2008016949A2/en active Application Filing
-
2015
- 2015-12-28 US US14/981,298 patent/US9940923B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0151128A1 (en) * | 1983-05-06 | 1985-08-14 | Velos Group | REACTIVE MONOCLONAL ANTIBODIES WITH ENDOTOXIN CORE. |
US20050058075A1 (en) * | 2003-09-12 | 2005-03-17 | Gorday Robert M. | Apparatus and method for mixed-media call formatting |
Also Published As
Publication number | Publication date |
---|---|
WO2008016949A2 (en) | 2008-02-07 |
KR20090036141A (ko) | 2009-04-13 |
WO2008016949A3 (en) | 2008-03-20 |
US20160111082A1 (en) | 2016-04-21 |
US20100030557A1 (en) | 2010-02-04 |
JP2010505134A (ja) | 2010-02-18 |
CN101496096B (zh) | 2012-11-07 |
JP5149292B2 (ja) | 2013-02-20 |
US9940923B2 (en) | 2018-04-10 |
CN101496096A (zh) | 2009-07-29 |
EP2047459A2 (en) | 2009-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101136769B1 (ko) | 음성 및 텍스트 통신 시스템, 방법, 및 장치 | |
US8126435B2 (en) | Techniques to manage vehicle communications | |
US9565285B2 (en) | Cellular network communications wireless headset and mobile device | |
JP2015060423A (ja) | 音声翻訳装置、音声翻訳方法およびプログラム | |
JP2013519334A (ja) | 音声テキスト変換機能を備えた同時電話会議 | |
CN101510917B (zh) | 一种移动终端无声通话的方法 | |
US20040196964A1 (en) | Apparatus, system and method for providing silently selectable audible communication | |
US20220286538A1 (en) | Earphone device and communication method | |
JPH05160773A (ja) | 音声通信装置 | |
KR101367722B1 (ko) | 휴대단말기의 통화 서비스 방법 | |
US7164934B2 (en) | Mobile telephone having voice recording, playback and automatic voice dial pad | |
JP4983417B2 (ja) | 会話速度変換機能を備えた電話装置及び会話速度変換方法 | |
JP2001272998A (ja) | 通信方法とワイヤレス呼接続装置 | |
CN111385780A (zh) | 一种蓝牙音频信号传输方法和装置 | |
JP3165585U (ja) | 音声合成装置 | |
ES2263459T3 (es) | Sistetizador de conversacion basado en la codificacion de conversacion de indice variable. | |
KR100387962B1 (ko) | 엠피쓰리 휴대폰에서의 엠피쓰리 음악 재생방법 | |
JP2006295468A (ja) | 携帯通信端末装置 | |
JP3885989B2 (ja) | 音声補完方法及び音声補完装置ならびに電話端末装置 | |
KR101154948B1 (ko) | 이동통신 단말기의 음악 재생 중 문자 메세지 알림방법 | |
JP2004343566A (ja) | 移動電話端末及びプログラム | |
KR20010061331A (ko) | 배경음악 기능을 갖는 이동 단말기 | |
JP2974427B2 (ja) | 音声通信システムとその音声通信装置 | |
JP2002051116A (ja) | 移動体通信装置 | |
JP2000184018A (ja) | 携帯電話機 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E90F | Notification of reason for final refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20160330 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20170330 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20180329 Year of fee payment: 7 |
|
LAPS | Lapse due to unpaid annual fee |