KR102548618B1 - 음성인식 및 음성합성을 이용한 무선통신장치 - Google Patents

음성인식 및 음성합성을 이용한 무선통신장치 Download PDF

Info

Publication number
KR102548618B1
KR102548618B1 KR1020210010472A KR20210010472A KR102548618B1 KR 102548618 B1 KR102548618 B1 KR 102548618B1 KR 1020210010472 A KR1020210010472 A KR 1020210010472A KR 20210010472 A KR20210010472 A KR 20210010472A KR 102548618 B1 KR102548618 B1 KR 102548618B1
Authority
KR
South Korea
Prior art keywords
wireless communication
information
communication device
voice
unit
Prior art date
Application number
KR1020210010472A
Other languages
English (en)
Other versions
KR20220107631A (ko
Inventor
박상래
Original Assignee
박상래
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 박상래 filed Critical 박상래
Priority to KR1020210010472A priority Critical patent/KR102548618B1/ko
Priority to JP2023544784A priority patent/JP2024506527A/ja
Priority to US17/439,197 priority patent/US11942072B2/en
Priority to PCT/KR2021/001397 priority patent/WO2022158633A1/ko
Priority to CN202180091762.5A priority patent/CN116848581A/zh
Priority to EP21921404.6A priority patent/EP4283612A1/en
Publication of KR20220107631A publication Critical patent/KR20220107631A/ko
Application granted granted Critical
Publication of KR102548618B1 publication Critical patent/KR102548618B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C19/00Gyroscopes; Turn-sensitive devices using vibrating masses; Turn-sensitive devices without moving masses; Measuring angular rate using gyroscopic effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/3827Portable transceivers
    • H04B1/385Transceivers carried on the body, e.g. in helmets
    • H04B2001/3872Transceivers carried on the body, e.g. in helmets with extendable microphones or earphones

Abstract

본 발명에 따른 무선통신장치는, 마이크를 통해 입력되는 음성신호를 음성인식을 이용하여 음절정보의 스트림으로 변환하는 음성인식부; 상기 음절정보의 스트림을 부호화하여 디지털 송신 데이터를 생성하는 부호화부; 상기 디지털 송신 데이터를 변조하여 송신 신호를 안테나를 통해 송신하는 송신부; 상기 안테나를 통해 수신되는 수신 신호를 복조하여 디지털 수신 데이터를 출력하는 수신부; 상기 디지털 수신 데이터를 복호화하여 음절정보의 스트림으로 변환하는 복호화부; 및 상기 음절정보의 스트림을 음성합성을 이용하여 음성신호로 변환해 스피커를 통해 출력하는 음성합성부를 포함하는 것을 특징으로 한다.

Description

음성인식 및 음성합성을 이용한 무선통신장치{Wireless communication apparatus using speech recognition and speech synthesis}
본 발명은 무선통신장치에 관한 것으로, 보다 상세하게는 음성인식 및 음성합성을 이용한 무선통신장치에 관한 것이다.
음성통신을 위한 무선통신장치는 일반적으로 아날로그 신호인 음성신호를 샘플링, 양자화, 부호화 등의 과정을 거쳐 디지털 신호로 변환하여 무선통신망을 통해 송신하고, 수신되는 디지털 신호를 그 역변환 과정을 거쳐 음성신호로 변환하여 출력한다. 이러한 음성통신 방식은 음악용 고음질의 오디오 전송에 있어서는 128kbps, 192kbps, 320kbps의 비트레이트가 요구되고, 음성 통신에서 최대의 음성 압축이 이루어진 오디오 전송에 있어서는 2.4kbps, 3.2kbps 등이 요구되는 등 비트레이트를 낮추는 데에 한계가 있다.
본 발명이 이루고자 하는 기술적 과제는 기존의 음성통신 방식에 비해 비트레이트를 획기적으로 낮출 수 있는 무선통신장치를 제공하는 데 있다.
상기 기술적 과제를 해결하기 위한 본 발명에 따른 무선통신장치는, 마이크를 통해 입력되는 음성신호를 음성인식을 이용하여 음절정보의 스트림으로 변환하는 음성인식부; 상기 음절정보의 스트림을 부호화하여 디지털 송신 데이터를 생성하는 부호화부; 상기 디지털 송신 데이터를 변조하여 송신 신호를 안테나를 통해 송신하는 송신부; 상기 안테나를 통해 수신되는 수신 신호를 복조하여 디지털 수신 데이터를 출력하는 수신부; 상기 디지털 수신 데이터를 복호화하여 음절정보의 스트림으로 변환하는 복호화부; 및 상기 음절정보의 스트림을 음성합성을 이용하여 음성신호로 변환해 스피커를 통해 출력하는 음성합성부를 포함하는 것을 특징으로 한다.
상기 음절정보는, 초성, 중성, 종성의 조합을 포함할 수 있다.
상기 음절정보는 운율 정보를 더 포함할 수 있다.
상기 운율 정보는 보통음, 상승음, 하강음, 장음, 강세음을 포함할 수 있다.
상기 음절정보는 음색 정보를 더 포함할 수 있다.
상기 음색 정보는 남자, 여자, 노인, 어린이 별로 소정 개수의 레벨을 포함할 수 있다.
상기 음절정보를 구성하는 초성, 중성, 종성은 3차원 좌표계의 세 축에 각각 대응하고, 상기 음절정보는 상기 3차원 좌표계에서의 상기 초성, 중성, 종성 각각의 좌표값에 따라 디지털 데이터에 매핑될 수 있다.
상기 음절정보는 운율 정보를 더 포함하고, 상기 음절정보는 상기 3차원 좌표계에서의 상기 초성, 중성, 종성 각각의 좌표값 및 상기 운율 정보에 따라 상기 디지털 데이터에 매핑될 수 있다.
상기 무선통신장치는 인공위성을 통한 음성통화를 위한 무선통신장치이고, 상기 송신부 및 상기 수신부는 상기 송신 신호 및 상기 수신 신호를 인공위성과 송수신할 수 있도록 변조 및 복조할 수 있다.
상기 무선통신장치는 자이로 센서; 상기 안테나에 연결된 3축 기어; 및 상기 자이로 센서의 센싱 값에 따라 상기 안테나가 상방을 향하도록 상기 3축 기어를 제어하는 안테나 자세 제어부를 더 포함할 수 있다.
상기 무선통신장치는 상기 부호화부에서 출력되는 상기 디지털 송신 데이터 및 상기 수신부에서 출력되는 상기 디지털 수신 데이터를 저장하는 녹음부를 더 구비할 수 있다.
본 발명에 의하면, 음성인식과 음성합성을 이용하여 기존의 음성통신 방식에 비해 비트레이트를 획기적으로 낮출 수 있는 무선통신장치를 제공할 수 있다.
또한 본 발명은 음절 구성이 중성 단독, 초성과 중성, 중성과 종성, 초성, 중성, 종성으로 구성되는 영어, 라틴어 등 모든 언어에 적용될 수 있다.
또한 본 발명은 음절정보 스트림을 3차원 좌표계를 이용하여 디지털데이터화 하고, 이를 부호화부에서 디지털 송신 데이터로 만든 후 녹음부(미도시)에 저장함으로써 기존의 음성통신방식 및 음성압축파일을 저장하는 방식에 비해서 녹음에 필요한 메모리를 최소화 시킬 수 있으며, 동일하게 수신부에서 출력되는 디지털 수신 데이터를 녹음부에 저장함으로써 기존의 음성통신방식 및 음성압축파일을 저장하는 방식에 비해서 녹음에 필요한 메모리를 최소화 시킬 수 있는 장점이 있다.
아울러, 본 발명의 무선통신장치는 상기 녹음부에서 녹음 내용을 검색할 경우, 연속된 음절들을 녹음부에서 디지털 데이터 상태로 직접 매칭하여 검색할 수 있으므로 기존의 음성압축파일을 저장하고 녹음 데이터를 검색하는 방식에 비해서 특정 단어 등의 녹음 내용을 획기적으로 빠르게 검색할 수 있는 장점이 있다.
마이크를 통해 입력된 음성을 문장으로 변환하는 STT(Speech to Text) 방식의 기존의 음성인식 방법은, 입력된 음성이 전혀 다른 의미의 문장으로 변환되는 등 오류가 많으며, 원하는 문장으로 정확하게 변환되는 데에는 한계가 있다. 따라서, 이러한 문제를 해결하기 위해서는 방대한 양의 음성인식 DB와 음성인식 데이터를 처리할 고도의 학습프로그램이 필요하게 된다.
반대로, 입력된 문장을 음성으로 변환하는 TTS(Text to Speech) 방식의 기존의 음성합성 방법은 자연스럽지 못하거나 청취하기에 거북한 면이 있는 것이 아직 현실이며, 이러한 한계점을 극복하기 위해서는 거대한 시스템과 프로그램이 필요하게 된다.
본 발명은 마이크를 통해 입력된 발화자의 음성을 음성인식부에서 음절과 운율로 구성된 음절정보 스트림을 만들어 부호화부에서 숫자 코드인 디지털 송신 데이터를 바로 생성하므로 정확한 음성을 전달할 수 있고, 수신부 출력의 디지털 수신 데이터는 해당되는 정확한 음절정보 스트림을 복호화부에서 구성하여 바로 음성합성부 및 스피커를 통해 음성이 플레이될 수 있게 한다. 따라서, 본 발명은 기존의 STT방식의 음성인식과 TTS방식의 음성합성에 비해 획기적으로 간단한 시스템 및 프로그램으로 구성이 가능한 장점이 있다.
도 1은 본 발명의 일 실시예에 따른 무선통신장치의 구성을 나타낸다.
도 2는 음절정보의 코드 구성을 나타낸다.
도 3은 음절을 구성하는 초성, 중성, 종성이 3차원 좌표계의 세 축에 각각 대응하는 개념을 나타낸다.
도 4는 음절을 구성하는 초성, 중성, 종성에 대응하는 3차원 좌표계의 구체적인 예를 나타낸다.
도 5는 본 발명의 일 실시예에 따른 무선통신장치의 추가적인 구성을 나타낸다.
도 6은 본 발명의 실시예에 따라 무선통신장치의 안테나가 상방을 향하도록 제어되는 모습을 나타낸다.
이하에서는 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 이하 설명 및 첨부된 도면들에서 실질적으로 동일한 구성요소들은 각각 동일한 부호들로 나타냄으로써 중복 설명을 생략하기로 한다. 또한 본 발명을 설명함에 있어 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략하기로 한다.
도 1은 본 발명의 일 실시예에 따른 무선통신장치의 구성을 나타낸다.
본 실시예에 따른 무선통신장치(100)는, 마이크(111), 음성인식부(112), 부호화부(113), 송신부(114), 수신부(121), 복호화부(122), 음성합성부(123), 스피커(124), 안테나(130)를 포함한다.
무선통신장치(100)는 다른 무선통신장치(200)와 음성통신을 할 수 있다. 다른 무선통신장치(200) 역시 무선통신장치(100)와 동일하게, 마이크(211), 음성인식부(212), 부호화부(213), 송신부(214), 수신부(221), 복호화부(222), 음성합성부(223), 스피커(224), 안테나(230)를 포함한다.
무선통신장치(100)와 무선통신장치(200)는 직접통신을 하는 장치이거나(예컨대 무전기와 유사하게), 기지국을 통해 서로 통신하는 장치이거나(예컨대 셀룰러 폰과 유사하게), 인공위성을 통해 서로 통신하는 장치일 수 있다.
음성인식부(112, 212)는 마이크(111, 211)를 통해 입력되는 음성신호를 음성인식을 이용하여 음절정보의 스트림으로 변환한다. 부호화부(113, 213)는 상기 음절정보의 스트림을 부호화하여 디지털 송신 데이터를 생성한다. 송신부(114, 214)는 상기 디지털 송신 데이터를 변조하여 송신 신호를 안테나(130, 230)를 통해 송신한다.
수신부(121, 221)는 안테나(130, 230)를 통해 수신되는 수신 신호를 복조하여 디지털 수신 데이터를 출력한다. 복호화부(122, 222)는 상기 디지털 수신 데이터를 복호화하여 음절정보의 스트림으로 변환한다. 음성합성부(123, 223)는 상기 음절정보의 스트림을 음성합성을 이용하여 음성신호로 변환해 스피커(124, 224)를 통해 출력한다.
무선통신장치(100)와 무선통신장치(200)가 인공위성을 통해 서로 통신하는 장치인 경우, 송신부(114, 214) 및 수신부(121, 221)는 상기 송신 신호 및 상기 수신 신호를 인공위성과 송수신할 수 있도록 변조 및 복조한다.
본 발명의 실시예에서, 상기 음절정보는 초성, 중성, 종성의 조합을 포함할 수 있고, 초성, 중성, 종성은 로마자 발음기호로 표현될 수 있다.
예컨대 초성은 다음과 같이 무음가, 유성 자음, 무성 자음, 반자음을 포함하는 26가지로 구성될 수 있다.
초성 : 없음(x), [b], [d], [h], [g], [l], [m], [n], [r], [v], [z], [
Figure 112021009878403-pat00001
], [
Figure 112021009878403-pat00002
], [dz], [ð], [f], [k], [p], [s], [t], [
Figure 112021009878403-pat00003
], [
Figure 112021009878403-pat00004
], [ts], [
Figure 112021009878403-pat00005
], [j], [w]
예컨대 중성은 다음과 같이 10가지의 모음으로 구성될 수 있다.
중성 : [a], [e], [i], [o], [u], [
Figure 112021009878403-pat00006
], [
Figure 112021009878403-pat00007
], [
Figure 112021009878403-pat00008
], [
Figure 112021009878403-pat00009
], [
Figure 112021009878403-pat00010
]
예컨대 종성은 다음과 같이 무음가, 유성 자음, 무성 자음을 포함하는 12가지로 구성될 수 있다.
종성 : 없음(x), [b], [d], [g], [l], [m], [n], [r], [
Figure 112021009878403-pat00011
],[k], [p], [t]
또한, 음절정보는 일정 길이의 쉼 구간을 나타내는 쉼표를 포함할 수 있다.
물론 표현하고자 하는 음절에 따라 필요시 초성, 중성, 종성에 위와 같은 음절 구성 요소 외에도 다른 음절 구성 요소가 추가될 수 있다.
상기 음절정보는 운율 정보를 더 포함할 수 있다. 상기 운율 정보는 보통음, 상승음(↗), 하강음(↘), 장음(:), 강세음(′)의 총 5가지 운율을 포함할 수 있다.
또한, 상기 음절정보는 음색 정보를 더 포함할 수 있다. 예컨대 음색 정보는, 남자, 여자, 노인, 어린이 별로 소정 개수(예컨대 100레벨)로 설정되어, 총 400개의 음색을 표현할 수 있다. 음색 정보로, 디폴트로 특정 음색이 설정되거나, 사용자 음성의 주파수 또는 파형을 분석하여 특정 음색을 설정하거나, 사용자가 선택한 특정 음색이 설정될 수 있다. 음색 정보는 통화 중에 사용자가 변경 가능하도록 할 수도 있다. 음색의 종류 및 레벨 역시 확대 또는 추가될 수 있다. 수신 측의 음성합성부(223)는 음성합성 시에 음절정보에 포함된 음색 정보를 반영하여 음성신호를 생성할 수 있다.
하나의 음절을 나타내기 위한 코드 수를 살펴보면 다음과 같다. 우선, 초성 26개, 중성 10개, 종성 12개의 조합은 26×10×12=3,120가 되고, 각 조합마다 5가지의 운율이 있으므로 3,120×5=15,600가 되며, 여기에 쉼표를 더하면 15,601이 된다. 그리고 음색 정보 400을 더하면 15,601+400=16,001이 된다. 즉, 16,001가지의 코드로 하나의 유효 음절을 표현할 수 있다.
예컨대 하나의 음절을 2Byte로 표현할 경우, 2Byte는 16비트이므로 0000~FFFF, 즉 216=65,536 가지로 표현 가능하다. 그리고 0000은 쉼표로 사용하므로, 0001~FFFF, 즉 65,535-16,001=49,534가 남으므로, 이 부분은 다른 부가 정보를 전달할 수 있는 예비 코드로 활용할 수 있다. 즉, 0000H로 쉼표를 표현하고, 0001H(1)~3CF1H(15,601)로 음절 및 운율을 표현하고, ~3E81H(16,001)으로 음색을 표현하고, ~FFFFH(65,535)를 예비 코드로 사용할 수 있다. 도 2는 이에 따른 음절정보의 코드 구성을 나타낸다.
본 발명의 실시예에서, 음절을 구성하는 초성, 중성, 종성은 도 3에 도시된 바와 같이 3차원 좌표계의 세 축에 각각 대응시킬 수 있다. 예컨대 초성을 x축에, 중성을 y축에, 종성을 z축에 대응시킬 수 있다. 그리고 3차원 좌표계에서의 초성, 중성, 종성 각각의 좌표값에 따라 해당 음절이 디지털 데이터에 매핑될 수 있다. 이때 운율을 포함하는 음절 정보는 3차원 좌표계에서의 초성, 중성, 종성 각각의 좌표값과 더불어 운율 정보에 따라 디지털 데이터에 매핑될 수 있다.
도 4는 음절을 구성하는 초성, 중성, 종성에 대응하는 3차원 좌표계의 구체적인 예를 나타낸다.
하나의 음절은 좌표 (x, y, z)로 표현될 수 있다. 이를테면, [a]는 (1, 1, 1)로, [mod]는 (7, 4, 3)으로, [vig]는 (10, 3, 4)로, [
Figure 112021009878403-pat00012
]는 (26, 10, 12)로 표현된다. 쉼표는 도시하지 않았으나 (0, 0, 0)으로 표현된다.
운율 값을 n이라 하면, 예컨대 보통음의 경우 n=1, 상승음의 경우 n=2, 하강음의 경우 n=3, 장음의 경우 n=4, 강세음의 경우 n=5로 나타낼 수 있다.
음절 (x, y, z)와 운율 n에 대응하는 코드는 다음 수학식에 따라 계산될 수 있다.
f(x, y, z, n)=(Xm*Ym*Zm)*(n-1)+(Xm*Ym)*(z-1)+Xm*(y-1)+x
여기서, Xm, Ym, Zm은 각각 x, y, z의 최대값, 즉 Xm=26, Ym=10, Zm=12이고, x,y,z≠0이다.
예컨대 보통음 [a]를 디지털 값으로 나타내면, f(1, 1, 1, 1)=0001H가 된다.
예컨대 상승음 [a](↗)를 디지털 값으로 나타내면, f(1, 1, 1, 2)=3121=0C31H가 된다.
예컨대 문장 [Are you my father?]를 부호화하면 다음과 같다. 이하에서 쉼표는 '/'로 표현하기로 한다. [Are you my father?]를 음절정보의 스트림으로 나타내면, [[ar](:) [ju](:) (/) [ma] [i] (/) [fa](:) [
Figure 112021009878403-pat00013
](↗) (/)]가 된다. 이를 (x, y, z, n)으로 나타내면, [(1,1,8,4) (25,5,8,4) (0,0,0) (7,1,1,1) (1,3,1,1) (0,0,0) (16,1,1,4) (15,6,8,2) (0,0,0)]이 된다. 이를 상기 수학식에 따라 코드로 나타내면, [(11,181=2BADH) (11,292=2C1CH) (0000H) (7=0007H) (21=0015H) (0000H) (9,361=24A0H) (5,085=13DDH) (0000H)]가 된다.
무선통신장치(100)의 마이크(111)를 통해 사용자의 음성 [Are you my father?]가 입력된 경우의 동작을 도 1을 참조하여 설명하면 다음과 같다. 음성인식부(112)는 음성 [Are you my father?]를 음절정보의 스트림 [[ar](:) [ju](:) (/) [ma] [i] (/) [fa](:) [
Figure 112021009878403-pat00014
](↗) (/)]로 변환한다. 부호화부(113)는 이를 부호화하여 디지털 송신 데이터 [(11,181=2BADH) (11,292=2C1CH) (0000H) (7=0007H) (21=0015H) (0000H) (9,361=24A0H) (5,085=13DDH) (0000H)]를 생성한다. 송신부(114)는 이 디지털 송신 데이터를 변조하여 송신 신호를 안테나(130)를 통해 무선통신장치(200)로 송신한다. 무선통신장치(200)의 수신부(221)는 수신 신호를 복조하여 디지털 수신 데이터 [(11,181=2BADH) (11,292=2C1CH) (0000H) (7=0007H) (21=0015H) (0000H) (9,361=24A0H) (5,085=13DDH) (0000H)]를 출력한다. 복호화부(222)는 이 디지털 수신 데이터를 복호화하여 음절정보의 스트림 [[ar](:) [ju](:) (/) [ma] [i] (/) [fa](:) [
Figure 112021009878403-pat00015
](↗) (/)]로 변환한다. 음성합성부(223)는 이를 음성합성을 이용하여 음성신호 [Are you my father?]로 변환해 스피커(224)를 통해 출력한다.
이하에서는 본 발명의 실시예가 보여주는 비트레이트 향상을 설명한다. 예를 들어, 입력되는 음성이 [Are you my father? Yes, I'm your father. Then, Are you my son? No.]라 하면, 발화에 약 10.5초가 소요되고, 음절 스트림은 [[aːr] [juː] (/) [ma] [i] (/) [faː] [
Figure 112021009878403-pat00016
] (/) (/) (/) [je] [s] (/) (/) [a] [im] (/) [ju] [
Figure 112021009878403-pat00017
] (/) [faː] [
Figure 112021009878403-pat00018
] (/) (/) (/) [ðen] (/) (/) [aːr] [juː] (/) [ma] [i] (/) [
Figure 112021009878403-pat00019
] (/) (/) (/) [no] [u] (/)]로서, 42음절(쉼표 포함)로 이루어진다. 따라서 초당 약 4음절(42/10.5)이 전송되어야 하므로, 본 발명의 실시예에 의하면 비트레이트는 4Х16bit/s=64bps이다.
64bps는 고음질 오디오 전송용 비트레이트인 320kbps의 무려 약 1/5000에 불과한 값이다. 따라서 본 발명에 의하면, 기존의 전송 방식보다 약 5000배의 전송 채널을 확보할 수 있고, 최대 압축시의 음성 통신용 비트레이트인 2.4kbps와 비교하더라도 약 37.5배나 높은 전송 효율을 가진다.
본 발명의 실시예에서 음절을 구성하는 초성, 중성, 종성을 로마자 발음기호로 표현하였으나, 본 발명은 로마자 발음기호에 국한되는 것이 아니라, 한글(Korean Alphabet) 발음기호, 일어(히라가나) 발음기호, 국제표준 발음기호 등 초성, 중성, 종성을 표현할 수 있는 발음기호라면 어떤 문자에 기초한 것이든 사용될 수 있다.
또한, 무선통신장치(100)는 부호화부(113, 213)에서 출력되는 상기 디지털 송신 데이터 수신부(121, 221)에서 출력되는 상기 디지털 수신 데이터를 저장하는 녹음부(미도시)를 더 구비할 수 있다.
부호화부(113, 213)에서 출력되는 디지털 송신 데이터나 수신부(121, 221)에서 출력되는 디지털 수신 데이터는 음절정보 스트림을 3차원 좌표계를 이용하여 디지털데이터화 하고 디지털 데이터로 만든 것이기 때문에, 녹음부(미도시)를 구성하는 메모리는 기존의 음성통신방식이나 음성압축파일을 저장하는 방식에 비해서 메모리 용량을 최소화 시킬 수 있다.
또한, 녹음부(미도시)에서 특정 단어나 음절을 검색할 경우 해당하는 단어나 음절들을 녹음부에서 디지털 데이터 상태로 직접 매칭하여 검색할 수 있으므로 기존의 음성압축파일을 저장하고 녹음 데이터를 검색하는 방식에 비해서 특정 단어 등의 녹음 내용을 빠르게 검색할 수 있다.
음절이나 단어를 검색하기 위해서 디지털 데이터를 매칭하는 방법은 다양할 수 있으며, 당업자가 그 방법을 용이하게 이해할 수 있으므로 상세한 설명은 생략한다.
무선통신장치(100)가 인공위성을 통한 통신을 위한 무선통신장치인 경우, 안테나(130)는 인공위성을 향한 방향, 즉 상방을 향하도록 지향 제어되는 것이 바람직하다. 도 5는 이를 위한 본 발명의 일 실시예에 따른 무선통신장치의 추가적인 구성을 나타낸다.
도 5를 참조하면, 무선통신장치(100)는 안테나(130)에 연결된 3축 기어(131), 자세제어부(132), 자이로 센서(133)를 더 포함할 수 있다. 자세제어부(132)는 자이로 센서(133)의 센싱 값에 따라 3축 기어(131)를 제어하여 무선통신장치(100)가 기울어지더라도 안테나(130)가 상방을 향하도록 한다.
도 6은 본 발명의 실시예에 따라 무선통신장치(100)의 안테나(130)가 상방을 향하도록 제어되는 모습을 나타낸다. 도시된 바와 같이, 무선통신장치(100)가 기울어지더라도 안테나(130)는 상방을 향하므로 인공위성과의 통신이 원활하게 이루어진다.
본 발명의 실시예들은 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들은 특정 기능들을 실행하는 다양한 개수의 하드웨어 또는/및 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 실시예는 하나 이상의 마이크로프로세서들의 제어 또는 다른 제어 장치들에 의해서 다양한 기능들을 실행할 수 있는, 메모리, 프로세싱, 로직(logic), 룩 업 테이블(look-up table) 등과 같은 집적 회로 구성들을 채용할 수 있다. 본 발명에의 구성 요소들이 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있는 것과 유사하게, 실시예는 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 실시예는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. “매커니즘”, “요소”, “수단”, “구성”과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다. 상기 용어는 프로세서 등과 연계하여 소프트웨어의 일련의 처리들(routines)의 의미를 포함할 수 있다.
실시예에서 설명하는 특정 실행들은 일 실시예들로서, 어떠한 방법으로도 실시 예의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. 또한, “필수적인”, “중요하게” 등과 같이 구체적인 언급이 없다면 본 발명의 적용을 위하여 반드시 필요한 구성 요소가 아닐 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
송신부 114, 214 부호화부 113, 213
음성신식부 112, 212 마이크 111, 211
수신부 121, 221 복호화부 122, 222
음성합성부 123, 223 스피커 124, 224

Claims (11)

  1. 입력된 음성을 문장으로 변환하는 STT(speech to text) 방식의 기존 음성인식 방법과 다르게, 마이크를 통해 입력되는 발화자의 음성신호에 포함된 음성 자체, 쉼 구간 및 상기 음성의 운율을 인식하여 발음기호, 쉼표 및 운율 정보가 포함된 음절정보의 스트림으로 변환하는 음성인식부;
    상기 발음기호, 상기 쉼표 및 상기 운율 정보가 포함된 상기 음절정보의 스트림을 부호화하여 숫자 코드인 디지털 송신 데이터를 생성하는 부호화부;
    숫자 코드인 상기 디지털 송신 데이터를 변조하여 송신 신호를 안테나를 통해 송신하는 송신부;
    상기 안테나를 통해 수신되는 수신 신호를 복조하여 숫자 코드인 디지털 수신 데이터를 출력하는 수신부;
    상기 디지털 수신 데이터를 복호화하여 상기 발음기호, 상기 쉼표 및 상기 운율 정보가 포함된 음절정보의 스트림으로 변환하는 복호화부;
    상기 발음기호, 상기 쉼표 및 상기 운율 정보가 포함된 상기 음절정보의 스트림을 음성신호로 변환해 스피커를 통해 출력하는 음성합성부; 및
    상기 부호화부에서 출력되는 숫자 코드인 상기 디지털 송신 데이터 및 상기 수신부에서 출력되는 숫자 코드인 상기 디지털 수신 데이터를 저장하는 녹음부를 포함하고,
    상기 녹음부는 상기 디지털 송신 데이터 및 디지털 수신 데이터를 이용하여, 기존의 음성압축파일을 저장하고 녹음데이터를 검색하는 방식에 비해서, 적은 용량의 메모리를 사용하여 숫자 코드인 디지털 데이터 상태에서 직접 매칭을 통해 특정 단어나 음절을 빠르게 검색하고,
    상기 음절정보를 구성하는 초성, 중성, 종성의 상기 발음기호는 3차원 좌표계의 좌표값에 대응하고, 상기 음절정보는 상기 좌표값 및 상기 좌표값의 최대값을 이용하여 표시되는 상기 숫자 코드인 상기 디지털 데이터에 매핑되도록 구성되는 것을 특징으로 하는 무선통신장치.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 운율 정보는 보통음, 상승음, 하강음, 장음, 강세음을 포함하는 것을 특징으로 하는 무선통신장치.
  5. 제1항에 있어서,
    상기 음절정보는 음색 정보를 더 포함하는 것을 특징으로 하는 무선통신장치.
  6. 제5항에 있어서,
    상기 음색 정보는 남자, 여자, 노인, 어린이 별로 소정 개수의 레벨을 포함하는 것을 특징으로 하는 무선통신장치.
  7. 삭제
  8. 제1항에 있어서,
    상기 음절정보는 운율 정보를 더 포함하고,
    상기 음절정보는 상기 3차원 좌표계에서의 상기 초성, 중성, 종성 각각의 좌표값 및 상기 운율 정보에 따라 상기 디지털 데이터에 매핑되는 것을 특징으로 하는 무선통신장치.
  9. 제1항에 있어서,
    상기 무선통신장치는 인공위성을 통한 음성통화를 위한 무선통신장치이고,
    상기 송신부 및 상기 수신부는 상기 송신 신호 및 상기 수신 신호를 인공위성과 송수신할 수 있도록 변조 및 복조하는 것을 특징으로 하는 무선통신장치.
  10. 제9항에 있어서,
    무선통신장치의 지향성을 감지하는 자이로 센서;
    상기 안테나에 연결된 3축 기어; 및
    상기 자이로 센서의 센싱 값에 따라 상기 안테나가 인공위성을 향하는 방향인 상방을 향하도록 상기 3축 기어를 제어하는 안테나 자세 제어부를 더 포함하는 것을 특징으로 하는 무선통신장치.
  11. 제1항에 있어서,
    상기 디지털 데이터는,
    상기 음성의 음절과 운율을 나타내는 코드, 음색을 나타내는 코드 및 부가 정보를 나타내는 예비 코드를 포함하도록 구성되는,
    무선통신장치.
KR1020210010472A 2021-01-25 2021-01-25 음성인식 및 음성합성을 이용한 무선통신장치 KR102548618B1 (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
KR1020210010472A KR102548618B1 (ko) 2021-01-25 2021-01-25 음성인식 및 음성합성을 이용한 무선통신장치
JP2023544784A JP2024506527A (ja) 2021-01-25 2021-02-03 音声認識及び音声合成を利用した無線通信装置
US17/439,197 US11942072B2 (en) 2021-01-25 2021-02-03 Wireless communication device using voice recognition and voice synthesis
PCT/KR2021/001397 WO2022158633A1 (ko) 2021-01-25 2021-02-03 음성인식 및 음성합성을 이용한 무선통신장치
CN202180091762.5A CN116848581A (zh) 2021-01-25 2021-02-03 使用语音识别和语音合成的无线通信设备
EP21921404.6A EP4283612A1 (en) 2021-01-25 2021-02-03 Wireless communication device using voice recognition and voice synthesis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210010472A KR102548618B1 (ko) 2021-01-25 2021-01-25 음성인식 및 음성합성을 이용한 무선통신장치

Publications (2)

Publication Number Publication Date
KR20220107631A KR20220107631A (ko) 2022-08-02
KR102548618B1 true KR102548618B1 (ko) 2023-06-27

Family

ID=82549119

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210010472A KR102548618B1 (ko) 2021-01-25 2021-01-25 음성인식 및 음성합성을 이용한 무선통신장치

Country Status (6)

Country Link
US (1) US11942072B2 (ko)
EP (1) EP4283612A1 (ko)
JP (1) JP2024506527A (ko)
KR (1) KR102548618B1 (ko)
CN (1) CN116848581A (ko)
WO (1) WO2022158633A1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100270237B1 (ko) * 1997-10-15 2000-10-16 윌리암 손 무선네트워크상에서음성대화식인터넷접속휴대통신장치및방법
KR101102520B1 (ko) * 2011-02-22 2012-01-03 이윤재 한글 자모의 메트릭스 결합 관계를 기반으로 하는 시청각 한글학습 시스템 및 그 운영 방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10260692A (ja) * 1997-03-18 1998-09-29 Toshiba Corp 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
KR100717349B1 (ko) * 2005-05-30 2007-05-10 충남대학교산학협력단 3축 위성 안테나
KR100819928B1 (ko) * 2007-04-26 2008-04-08 (주)부성큐 휴대 단말기의 음성 인식장치 및 그 방법
US9666204B2 (en) * 2014-04-30 2017-05-30 Qualcomm Incorporated Voice profile management and speech signal generation
KR102604319B1 (ko) * 2016-11-01 2023-11-24 한국전자통신연구원 화자 인증 시스템 및 그 방법
KR20190024148A (ko) * 2017-08-31 2019-03-08 경북대학교 산학협력단 음성 인식 장치 및 음성 인식 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100270237B1 (ko) * 1997-10-15 2000-10-16 윌리암 손 무선네트워크상에서음성대화식인터넷접속휴대통신장치및방법
KR101102520B1 (ko) * 2011-02-22 2012-01-03 이윤재 한글 자모의 메트릭스 결합 관계를 기반으로 하는 시청각 한글학습 시스템 및 그 운영 방법

Also Published As

Publication number Publication date
WO2022158633A1 (ko) 2022-07-28
US20230090052A1 (en) 2023-03-23
US11942072B2 (en) 2024-03-26
KR20220107631A (ko) 2022-08-02
CN116848581A (zh) 2023-10-03
EP4283612A1 (en) 2023-11-29
JP2024506527A (ja) 2024-02-14

Similar Documents

Publication Publication Date Title
US7395078B2 (en) Voice over short message service
US4707858A (en) Utilizing word-to-digital conversion
US6681208B2 (en) Text-to-speech native coding in a communication system
US6219641B1 (en) System and method of transmitting speech at low line rates
JP3446764B2 (ja) 音声合成システム及び音声合成サーバ
EP1559095A2 (en) Apparatus, methods and programming for speech synthesis via bit manipulations of compressed data base
JPH10260692A (ja) 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
KR100351484B1 (ko) 음성 부호화 장치, 음성 복호화 장치, 음성 부호화 방법 및 기록 매체
KR100291155B1 (ko) 오류데이타를음성합성데이타로교체시키는음성송수신시스템
JP3473204B2 (ja) 翻訳装置及び携帯端末装置
KR102548618B1 (ko) 음성인식 및 음성합성을 이용한 무선통신장치
WO1997007498A1 (fr) Unite de traitement des signaux vocaux
JP3914612B2 (ja) 通信システム
EP1298647B1 (en) A communication device and a method for transmitting and receiving of natural speech, comprising a speech recognition module coupled to an encoder
JP2002536693A (ja) 可変率音声符号化に基づいた音声合成装置
US6134519A (en) Voice encoder for generating natural background noise
JP2005309164A (ja) 読み上げ用データ符号化装置および読み上げ用データ符号化プログラム
JPH04258037A (ja) 音声符号化装置
JPS6073699A (ja) 音声伝送装置
Sarathy et al. Text to speech synthesis system for mobile applications
JPH04312000A (ja) ベクトル量子化方法
JP2003202884A (ja) 音声合成システム
JPH03160500A (ja) 音声合成装置
Lopes et al. A 40 bps speech coding scheme
JPH10161690A (ja) 音声通信システム及び音声合成装置及びデータ送信装置

Legal Events

Date Code Title Description
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant