KR102423977B1 - 인공신경망 기반의 음성 신호 송수신 방법 및 장치 - Google Patents

인공신경망 기반의 음성 신호 송수신 방법 및 장치 Download PDF

Info

Publication number
KR102423977B1
KR102423977B1 KR1020190176561A KR20190176561A KR102423977B1 KR 102423977 B1 KR102423977 B1 KR 102423977B1 KR 1020190176561 A KR1020190176561 A KR 1020190176561A KR 20190176561 A KR20190176561 A KR 20190176561A KR 102423977 B1 KR102423977 B1 KR 102423977B1
Authority
KR
South Korea
Prior art keywords
neural network
terminal
transmitting
signal
transmitting terminal
Prior art date
Application number
KR1020190176561A
Other languages
English (en)
Other versions
KR20210083855A (ko
Inventor
우지환
이학주
정경훈
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to KR1020190176561A priority Critical patent/KR102423977B1/ko
Priority to PCT/KR2020/015721 priority patent/WO2021132877A1/ko
Priority to EP20905098.8A priority patent/EP4064283B1/en
Priority to US17/757,919 priority patent/US20230036087A1/en
Publication of KR20210083855A publication Critical patent/KR20210083855A/ko
Application granted granted Critical
Publication of KR102423977B1 publication Critical patent/KR102423977B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/06Optimizing the usage of the radio link, e.g. header compression, information sizing, discarding information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Feedback Control In General (AREA)
  • Image Analysis (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 개시는 4G 시스템 이후 보다 높은 데이터 전송률을 지원하기 위한 5G 통신 시스템을 IoT 기술과 융합하는 통신 기법 및 그 시스템에 관한 것이다. 본 개시는 5G 통신 기술 및 IoT 관련 기술을 기반으로 지능형 서비스 (예를 들어, 스마트 홈, 스마트 빌딩, 스마트 시티, 스마트 카 혹은 커넥티드 카, 헬스 케어, 디지털 교육, 소매업, 보안 및 안전 관련 서비스 등)에 적용될 수 있다.
인공신경망 기반의 음성 신호 송수신 방법 및 장치가 개시된다. 일 실시 예에 따른 음성 신호를 송신하는 송신 단말의 방법은, 상기 송신 단말과 관련한 신경망 구조 정보를 수신 단말로 송신하는 단계; 입력되는 음성을 기반으로 광대역 신호를 생성하는 단계; 상기 광대역 신호를 다운 샘플링하여 협대역 신호를 생성하는 단계; 및 상기 협대역 신호를 상기 수신 단말로 송신하는 단계를 포함할 수 있다.

Description

인공신경망 기반의 음성 신호 송수신 방법 및 장치{METHOD AND APPARATUS FOR TRANSCEIVING VOICE SIGNAL BASED ON NEURAL NETWORK}
본 개시는 인공신경망 구조 시그널링을 통한 음성 신호의 대역폭 확장 방법 및 이를 지원하는 장치에 관한 것이다.
4G 통신 시스템 상용화 이후 증가 추세에 있는 무선 데이터 트래픽 수요를 충족시키기 위해, 개선된 5G 통신 시스템 또는 pre-5G 통신 시스템을 개발하기 위한 노력이 이루어지고 있다. 이러한 이유로, 5G 통신 시스템 또는 pre-5G 통신 시스템은 4G 네트워크 이후 (Beyond 4G Network) 통신 시스템 또는 LTE 시스템 이후 (Post LTE) 시스템이라 불리어지고 있다. 높은 데이터 전송률을 달성하기 위해, 5G 통신 시스템은 초고주파(mmWave) 대역 (예를 들어, 60기가(60GHz) 대역과 같은)에서의 구현이 고려되고 있다. 초고주파 대역에서의 전파의 경로손실 완화 및 전파의 전달 거리를 증가시키기 위해, 5G 통신 시스템에서는 빔포밍(beamforming), 거대 배열 다중 입출력(massive MIMO), 전차원 다중입출력(Full Dimensional MIMO: FD-MIMO), 어레이 안테나(array antenna), 아날로그 빔형성(analog beam-forming), 및 대규모 안테나 (large scale antenna) 기술들이 논의되고 있다. 또한 시스템의 네트워크 개선을 위해, 5G 통신 시스템에서는 진화된 소형 셀, 개선된 소형 셀 (advanced small cell), 클라우드 무선 액세스 네트워크 (cloud radio access network: cloud RAN), 초고밀도 네트워크 (ultra-dense network), 기기 간 통신 (Device to Device communication: D2D), 무선 백홀 (wireless backhaul), 이동 네트워크 (moving network), 협력 통신 (cooperative communication), CoMP (Coordinated Multi-Points), 및 수신 간섭제거 (interference cancellation) 등의 기술 개발이 이루어지고 있다. 이 밖에도, 5G 시스템에서는 진보된 코딩 변조(Advanced Coding Modulation: ACM) 방식인 FQAM (Hybrid FSK and QAM Modulation) 및 SWSC (Sliding Window Superposition Coding)과, 진보된 접속 기술인 FBMC(Filter Bank Multi Carrier), NOMA(non orthogonal multiple access), 및SCMA(sparse code multiple access) 등이 개발되고 있다.
한편, 인터넷은 인간이 정보를 생성하고 소비하는 인간 중심의 연결 망에서, 사물 등 분산된 구성 요소들 간에 정보를 주고 받아 처리하는 IoT(Internet of Things, 사물인터넷) 망으로 진화하고 있다. 클라우드 서버 등과의 연결을 통한 빅데이터(Big data) 처리 기술 등이 IoT 기술에 결합된 IoE (Internet of Everything) 기술도 대두되고 있다. IoT를 구현하기 위해서, 센싱 기술, 유무선 통신 및 네트워크 인프라, 서비스 인터페이스 기술, 및 보안 기술과 같은 기술 요소 들이 요구되어, 최근에는 사물간의 연결을 위한 센서 네트워크(sensor network), 사물 통신(Machine to Machine, M2M), MTC(Machine Type Communication)등의 기술이 연구되고 있다. IoT 환경에서는 연결된 사물들에서 생성된 데이터를 수집, 분석하여 인간의 삶에 새로운 가치를 창출하는 지능형 IT(Internet Technology) 서비스가 제공될 수 있다. IoT는 기존의 IT(information technology)기술과 다양한 산업 간의 융합 및 복합을 통하여 스마트홈, 스마트 빌딩, 스마트 시티, 스마트 카 혹은 커넥티드 카, 스마트 그리드, 헬스 케어, 스마트 가전, 첨단의료서비스 등의 분야에 응용될 수 있다.
이에, 5G 통신 시스템을 IoT 망에 적용하기 위한 다양한 시도들이 이루어지고 있다. 예를 들어, 센서 네트워크(sensor network), 사물 통신(Machine to Machine, M2M), MTC(Machine Type Communication)등의 기술이 5G 통신 기술이 빔 포밍, MIMO, 및 어레이 안테나 등의 기법에 의해 구현되고 있는 것이다. 앞서 설명한 빅데이터 처리 기술로써 클라우드 무선 액세스 네트워크(cloud RAN)가 적용되는 것도 5G 기술과 IoT 기술 융합의 일 예라고 할 수 있을 것이다.
한편, 무선 통신 시스템에서 음성 통화와 같이 단말 간 음성 신호를 송수신하는 경우, 송신 단말에 입력되는 음성은 송신 단말 내에서 전기적인 형태의 광대역 신호(wide band signal)로 변환되며, 송신 대역폭의 제한으로 인해 이를 협대역 신호(narrow band signal)으로 변환하여 수신 단말로 신호를 송신한다. 이를 위해, 송신 단말은 광대역 신호를 다운 샘플링 처리를 통해 협대역 신호로 변환하여 수신 단말로 송신하며, 이를 수신한 수신 단말은 상기 협대역 신호를 업 샘플링(대역폭 확장) 처리를 통해 광대역 신호로 복원하여 복원된 광대역 신호를 기반으로 음성을 출력한다.
전술한 음성 신호 송수신 기술의 경우, 수신 단말의 입장에서는 송신 단말에 의해 생성된 광대역 신호를 알지 못하는 상태에서 샘플링 된 일부 데이터를 기반으로 상기 원래의 파형을 복원해야하므로 불완전한 복원이 이루어질 수 밖에 없으며, 이는 곧 음성 품질의 열화로 귀결된다. 따라서, 효율적인 대역폭 확장 기술이 요구된다.
본 개시에서는, 광대역 신호 및 이를 다운 샘플링한 협대역 신호를 기반으로 학습된 인공 신경망을 이용하여 수신 단말이 송신 단말로부터 수신한 협대역 신호를 본래의 광대역 신호로 효과적으로 복원하기 위한 기술을 제안한다.
전술한 기술적 과제를 달성하기 위한 본 개시의 일 실시 예에 따른 음성 신호를 송신하는 송신 단말의 방법은, 상기 송신 단말과 관련한 신경망 구조 정보를 수신 단말로 송신하는 단계; 입력되는 음성을 기반으로 광대역 신호를 생성하는 단계; 상기 광대역 신호를 다운 샘플링하여 협대역 신호를 생성하는 단계; 및 상기 협대역 신호를 상기 수신 단말로 송신하는 단계를 포함할 수 있다.
또한, 본 개시의 일 실시 예에 따른 음성 신호룰 수신하는 수신 단말의 방법은, 서버로부터 신경망 계수 정보를 수신하는 단계; 송신 단말로부터 협대역 신호 및 신경망 구조 정보를 수신하는 단계; 상기 신경망 계수 정보 및 신경망 구조 정보를 기반으로 인공 신경망을 복원하는 단계; 및 상기 복원된 인공 신경망을 기반으로 상기 협대역 신호를 광대역 신호로 변환하는 단계를 포함할 수 있다.
또한, 본 개시의 일 실시 예에 따른 음성 신호를 송수신하는 단말과 통신하는 서버의 방법은, 송신 단말로부터, 광대역 신호 및 협대역 신호 중 하나 이상을 수신하는 단계; 상기 광대역 신호 및 협대역 신호를 기반으로 인공 신경망 학습을 수행하는 단계; 상기 학습된 인공 신경망과 관련한 신경망 계수 정보를 생성하는 단계; 및 상기 신경망 계수 정보를 수신 단말로 송신하는 단계를 포함할 수 있다.
인공 신경망을 기반으로 협대역 신호를 광대역 신호로 효과적으로 복원할 수 있도록 하는 인공 신경망 기반의 대역폭 확장 방법이 개시된다.
도 1은 통신 시스템 내 단말 간 음성 신호 송수신 과정을 나타낸 도면이다.
도 2는 광대역 음성 신호를 협대역 음성 신호로 변환하는 다운 샘플링 처리의 일 예시를 나타낸 도면이다.
도 3은 본 개시의 일 실시 예에 따른 인공 신경망을 기반으로 한 대역폭 확장 방법을 나타낸 도면이다.
도 4는 본 개시의 일 실시 예에 따른 인공 신경망의 구조의 일 예시를 나타낸 도면이다.
도 5는 본 개시의 일 실시 예에 따른 인공 신경망 레이어 내 데이터 필터링을 나타낸 도면이다.
도 6은 본 개시의 다른 일 실시 예에 따른 인공 신경망 레이어 내 데이터 필터링을 나타낸 도면이다.
도 7은 본 개시의 또 다른 일 실시 예에 따른 인공 신경망 레이어 내 데이터 필터링을 나타낸 도면이다.
도 8은 본 개시의 일 실시 예에 따른 신경망 구조 정보 및 그와 대응되는 신경망 구조를 나타낸 도면이다.
도 9는 본 개시의 일 실시 예에 따른 개인의 특성이 반영된 인공 신경망 기반의 음성 신호 송수신 방법을 설명하기 위한 도면이다.
도 10은 본 개시의 일 실시 예에 따른 송신 단말의 음성 신호 송신 방법을 나타낸 도면이다.
도 11은 본 개시의 일 실시 예에 따른 수신 단말의 음성 신호 수신 방법을 나타낸 도면이다.
도 12는 본 개시의 일 실시 예에 따른 서버의 방법을 나타낸 도면이다.
도 13는 본 개시의 일 실시 예에 따른 송신 단말의 구성을 나타낸 도면이다.
도 14은 본 개시의 일 실시 예에 따른 수신 단말의 구성을 나타낸 도면이다.
도 15는 본 개시의 일 실시 예에 따른 서버의 구성을 나타낸 도면이다.
이하 본 개시의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. 실시예를 설명함에 있어서 본 개시가 속하는 기술 분야에 익히 알려져 있고 본 개시와 직접적으로 관련이 없는 기술 내용에 대해서는 설명을 생략한다. 이는 불필요한 설명을 생략함으로써 본 개시의 요지를 흐리지 않고 더욱 명확히 전달하기 위함이다.
마찬가지 이유로 첨부된 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 개략적으로 도시되었다. 또한, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다. 각 도면에서 동일한 또는 대응하는 구성 요소에는 동일한 참조 번호를 부여하였다.
본 개시의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시는 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 개시의 개시가 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 개시는 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
이때, 처리 흐름도 도면들의 각 블록과 흐름도 도면들의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수 있음을 이해할 수 있을 것이다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 흐름도 블록(들)에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 흐름도 블록(들)에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 흐름도 블록(들)에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실행 예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
이때, 본 실시예에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다. 또한 실시예에서 '~부'는 하나 이상의 프로세서를 포함할 수 있다.
이하 설명에서 사용되는 신호를 지칭하는 용어, 채널을 지칭하는 용어, 제어 정보를 지칭하는 용어, 네트워크 객체(network entity)들을 지칭하는 용어, 장치의 구성 요소를 지칭하는 용어, 접속 노드(node)를 식별하기 위한 용어, 메시지들을 지칭하는 용어, 망 객체들 간 인터페이스를 지칭하는 용어, 다양한 식별 정보들을 지칭하는 용어 등은 설명의 편의를 위해 예시된 것이다. 따라서, 본 개시가 후술되는 용어들에 한정되는 것은 아니며, 동등한 기술적 의미를 가지는 대상을 지칭하는 다른 용어가 사용될 수 있다.
도 1은 본 개시의 일 실시 예에 따른 단말 간 음성 신호 송수신 과정의 일 예시를 나타낸 도면이다.
도 1은 본 개시의 일 실시 예에 따른 음성 신호를 송신하는 단말(이하, 송신 단말 또는 제1 단말)(102) 및 음성 신호를 수신하는 단말(이하, 수신 단말 또는 제2 단말)(104) 간 음성 신호 송수신의 일 예시를 나타낸다.
도 1을 참조하면, 송신 단말(102)에 입력된 음성은 송신 단말(102) 내에서 전기적인 음성 신호로 변환되며, 아날로그 신호 또는 디지털 신호로 수신 단말(104)에게 전달될 수 있다. 이 때, 송신 단말(102)에 입력되는 음성은 송신 단말(102) 내에서 넓은 대역폭을 가진 광대역 신호(wide band signal)로 변환되나, 송신 대역폭의 제한으로 인해 수신 단말(104)로 송신되는 신호는 협대역 신호(narrow band signal)의 형태로 변환되어 송신될 수 있다. 이를 위해, 송신 단말(102)은 입력된 음성을 기반으로 생성된 상기 광대역 신호를 다운 샘플링 처리를 통해 협대역 신호로 변환하여 수신 단말(104)로 송신할 수 있으며, 이를 수신한 수신 단말(104)은 상기 협대역 신호를 업 샘플링(대역폭 확장) 처리를 통해 광대역 신호로 복원하여 복원된 광대역 신호를 기반으로 음성을 출력할 수 있다.
도 2는 음성 신호의 다운 샘플링 및 업 샘플링 처리의 일 예시를 나타낸 도면이다.
도 2를 참조하면, 송신 단말(104)은 입력된 음성을 기반으로 전기적인 음성 신호를 생성하며, 이 때 송신 단말(104)에 의해 생성된 음성 신호의 오리지널 파형(orignial wavefrom)은 많은 데이터 양를 포함하는 광대역 신호로서 생성될 수 있다. 송신 단말(104)은 상기 오리지널 파형(orginal waveform) 중 일부 데이터를 샘플링하는 다운 샘플링(down sampling) 처리를 통해 협대역 신호로 변환하며, 변환된 협대역 신호를 수신 단말(104)로 전송할 수 있다. 수신 단말(104)은 상기 수신한 협대역 신호를 선형(Linear) 또는 곡선형(Cubic) 보간법(spline interporation)을 통해 광대역 신호(original waveform)을 복원할 수 있다. 이 경우, 수신 단말(104)의 입장에서는 송신 단말(102)에 의해 생성된 광대역 신호(original waveform)를 알지 못하는 상태에서, 샘플링 된 일부 데이터를 기반으로 상기 오리지널 파형을 복원해야하므로 불완전한 복원이 이루어지며, 이는 곧 음성 품질의 열화로 귀결된다.
본 개시에서는, 상기 광대역 신호 및 협대역 신호를 기반으로 학습된 인공 신경망을 기반으로 한 음성 신호의 대역폭 확장 방법을 개시한다.
이하, 도면을 참조하여 본 개시의 일 실시 예에 따른 인공신경망 구조 시그널링을 통한 수신 단말에서의 음성 신호 대역폭 확장 방법에 대하여 설명한다.
도 3은 본 개시의 일 실시 예에 따른 인공 신경망을 기반으로 한 대역폭 확장 방법을 나타낸 도면이다.
도 3을 참조하면. 본 개시의 일 실시 예에 따른 인공 신경망 기반의 대역폭 확장 방법은 음성 신호를 송신하는 송신 단말(302), 음성 신호를 수신하는 수신 단말(304) 및 서버(306)를 포함하는 시스템에 의해 실시될 수 있다. 이하 본 명세서에서 설명의 편의를 위해 인공 신경망 학습 과정이 별개의 서버(306)에 의해 실시되는 것으로 설명할 것이나, 이는 본 개시의 범위를 제한하는 것은 아니며, 후술할 서버(306)에 의해 실시되는 각 단계들을 실시 가능한 임의의 장치, 예를 들면 단말에 의해서 실시될 수도 있다.
일 실시 예에 따르면, 서버(306)는 광대역 신호(wide band signal) 및 상기 광대역 신호를 다운 샘플링하여 생성되는 협대역 신호(narrow band signal)을 학습 데이터로 이용하여 인공 신경망(Nerual Network)의 학습을 수행할 수 있다. 상기 학습을 위한 학습 데이터는 송신 단말(302)로부터 서버(306)로 송신될 수 있다. 일 실시 예에 따르면, 송신 단말(302)은 광대역 신호 및 이를 다운 샘플링 하여 생성한 협대역 신호를 서버(306)로 송신하고, 서버(306)는 수신한 광대역 신호 및 협대역 신호를 기반으로 인공 신경망의 학습을 수행할 수 있다. 또는, 송신 단말(302)은 광대역 신호만을 서버(306)로 송신하고, 서버(306)는 수신한 광대역 신호를 다운 샘플링하여 협대역 신호를 생성하고, 수신한 광대역 신호 및 생성한 협대역 신호를 기반으로 인공 신경망의 학습을 수행할 수 있다. 즉, 서버(306)는 다운 샘플링된 협대역 신호로부터 상기 협대역 신호의 오리지널 파형에 해당하는 광대역 신호를 복원하여 출력하도록 상기 인공 신경망 내 포함된 계수들을 업데이트함으로써 인공 신경망의 학습을 수행할 수 있다. 일 실시 예에 따르면, 서버(306)는 협대역 신호 및 광대역 신호의 시간에 대한 파형의 변화뿐만 아니라 협대역 신호 및 광대역 신호의 주파수 성분(진폭, 위상)을 학습 데이터로 이용하여 인공 신경망에 대한 학습을 수행할 수 있다. 이 경우, 이용되는 학습 데이터는 예를 들면 (시간에 따른 협대역 신호의 파형, 협대역 신호의 주파수 성분, 시간에 따른 광대역 신호의 파형, 광대역 신호의 주파수 성분)의 형태로 구성되거나, 또는 협대역 신호 및 광대역 신호의 시간에 따른 주파수 변화(x축: 시간, y축 :주파수 변화량)를 기반으로 한 2D 데이터의 형태로 구성될 수 있다.
일 실시 예에 따르면, 서버(306)는 송신 단말(302)과 관련한 신경망 구조 정보를 기반으로 광대역 신호 및 협대역 신호를 학습 데이터로 이용하여 인공 신경망에 대한 학습을 수행할 수 있다. 상기 송신 단말(302)과 관련한 신경망 구조 정보는, 서버(306)가 송신 단말(302)로부터 수신하거나, 혹은 송신 단말(302)과 대응되어 서버(306)에 기 저장되어 있을 수 있다. 일 실시 예에 따른 신경망 구조 정보는, 인공 신경망을 구성하는 레이어(layer)의 수, 각 레이어 별 필터(filter)의 수, 각 레이어 별 필터의 크기, 활성화 함수(activation function), 스트라이드(stride) 및 패딩(padding) 중 적어도 하나를 포함할 수 있으며, 상기 신경망 구조 정보에 포함된 각 파라미터들의 구체적인 정의는 아래에서 상술하도록 한다.
일 실시 예에 따르면, 서버(306)는 학습된 인공 신경망과 관련한 신경망 계수 정보를 생성할 수 있다. 신경망 계수 정보는 상기 학습된 인공 신경망을 구성하는 계수(coefficient)들의 집합으로, 예를 들면 후술할 인공 신경망의 각 레이어 내 필터의 가중치(weight)를 구성하는 값을 포함하는 집합일 수 있다. 서버(306)는 상기 생성한 신경망 계수 정보를 수신 단말(304)에 송신하며, 수신 단말(304)은 수신한 상기 신경망 계수 정보를 수신 단말(304)의 저장 장치(예를 들면, 메모리)에 저장할 수 있다.
일 실시 예에 따르면, 서버(306)로부터 수신 단말(304)로의 신경망 계수 정보의 송신 및 그에 따른 수신 단말(304)에서의 신경망 계수 정보의 저장은, 송신 단말(302) 및 수신 단말(304) 간 세션 교섭이 수행되기 이전에 수행될 수 있다. 즉, 학습된 인공 신경망을 구성하는 계수들에 대한 정보는 그 용량이 방대할 뿐만 아니라, 보안의 필요성이 있기 때문에 송신 단말(302) 및 수신 단말(304) 간 세션 교섭 전 수신 단말(304)에 미리 전달되어 저장될 수 있다.
이 후, 세션 교섭 및 음성 신호 송수신 단계에서 송신 단말(302)은 상기 학습된 인공 신경망의 구조(structure)와 관련된 파라미터를 포함하는 신경망 구조 정보, 그리고 송신 단말(302)에 입력된 음성을 기반으로 생성된 광대역 신호를 다운 샘플링한 협대역 신호를 수신 단말(304)에 송신할 수 있다.
본 개시의 일 실시 예에 따른 신경망 구조 정보는, 인공 신경망을 구성하는 레이어(layer)의 수, 각 레이어 별 필터(filter)의 수, 각 레이어 별 필터의 크기, 활성화 함수(activation function), 스트라이드(stride) 및 패딩(padding) 중 적어도 하나를 포함할 수 있다. 레이어의 수(L)는 인공 신경망을 구성하는 전체 레이어(layer)의 개수를 지시할 수 있다. 레이어 별 필터의 수(N_filters) 및 필터의 크기(N_filtersizes)는 상기 인공 신경망을 구성하는 각 레이어에 포함되는 필터의 개수 및 상기 각 레이어에 포함되는 필터의 크기를 지시할 수 있다. 활성화 함수(activation function)은 인공 신경망 내 각 레이어에 대응되는 활성화 함수의 타입을 지시하며, 시그모이드(sigmoid) 함수, Relu 함수 및 LeakyRelu 함수 중 어느 하나를 포함할 수 있다. 스트라이드(stride)는 각 레이어 내에서 입력 데이터에 대한 필터링을 적용하는 샘플링 간격을 지시하며, 패딩(padding)은 각 레이어에 입력되는 데이터에 패딩을 적용할지 여부를 나타내는 지시자를 의미할 수 있다.
수신 단말(304)은 송신 단말(302)로부터 수신한 신경망 구조 정보 및 미리 저장된 신경망 계수 정보를 기반으로 서버(306)에 의해 학습된 인공 신경망을 복원할 수 있다. 즉, 수신 단말(304)은 송신 단말(302)로부터 수신한 신경망 구조 정보에 대응되는 인공 신경망 구조에, 미리 저장된 신경망 계수 정보에 포함된 계수들을 설정하여 전체 인공 신경망을 복원할 수 있다. 전술한 바와 같이 상기 인공 신경망은 다운 샘플링 된 협대역 신호로부터의 상기 협대역 신호의 오리지널 파형인 광대역 신호를 복원하도록 학습된 것이며, 따라서 수신 단말(304)은 상기 인공 신경망을 이용해 송신 단말(302)로부터 수신한 협대역 신호를 광대역 신호로 복원할 수 있다.
이하 도 4 내지 도 7을 참조하여 본 개시의 일 실시 예에 따른 인공 신경망의 구조 및 학습 과정과 함께 신경망 구조 정보에 포함된 파라미터들의 정의에 대하여 설명한다.
이하 도면을 참조하여서는 설명을 위해 합성곱 신경망(Convolutional Neural Network)을 인공 신경망(Nerual Network)의 일 예시로서 사용해 설명할 것이나, 이는 본 개시의 권리 범위를 제한하지 않으며 본 개시의 기술적 사상을 바탕으로 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에 의해 실시 가능한 임의의 형태의 인공 신경망(Neural Network)을 이용한 대역폭 확장 방법이 실시될 수 있다. 또한, 이하 도면에서는 설명을 위해 인공 신경망을 이용한 2 차원 데이터의 학습 과정을 일 예시로서 설명할 것이나, 이는 본 개시의 권리범위를 제한하지 않으며 학습이 필요한 데이터의 형태에 따라 1 차원, 3 차원 데이터를 포함하여 본 개시의 기술적 사상을 바탕으로 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에 의해 실시 가능한 임의의 형태의 데이터를 이용한 인공 신경망 학습이 실시될 수 있다.
도 4는 본 개시의 일 실시 예에 따른 인공 신경망의 구조의 일 예시를 나타낸 도면이다.
도 4를 참조하면, 본 개시의 일 실시 예에 따른 인공 신경망은 복수 개의 레이어(layer)로 구성되며, 각 레이어는 입력 데이터를 기반으로 가중치(weight)가 학습되는 합성곱 레이어(convolutional layer)(412, 422) 및 활성화 함수(activation function)(414, 424)를 포함할 수 있다. 도 4에 도시된 바와 같이, Layer 1(410)에 입력된 데이터(input)은 합성곱 레이어(412)에서 소정의 가중치가 할당된 필터(filter)를 통해 필터링 처리 되고, 이를 활성화 함수(activation function)을 통과시켜 합성곱 레이어에서 출력된 데이터를 비선형 데이터로 변환한 다음 Layer 2(420)로 전달할 수 있다. Layer 2는 상기 Layer 1으로부터 전달받은 데이터를 기반으로 Layer 1에서와 동일한 방법으로 데이터를 처리하며, 출력되는 데이터를 다음 레이어(Layer 3)로 전달하고, 이를 반복하여 마지막 레이어(Layer_N)는 최종 결과 값을 출력할 수 있다. 일 실시 예에 따르면, 인공 신경망 학습 단계에서는, 상기와 같은 구조를 가진 인공 신경망이 소정의 입력 데이터에 대응하여 적절한(원하는) 출력 값을 출력할 수 있도록 각 레이어 내 필터들의 가중치(weight)를 업데이트 할 수 있다. 본 개시의 일 실시 예에 따르면, 상기 인공 신경망은 다운 샘플링 된 협대역 신호로부터의 상기 협대역 신호의 오리지널 파형인 광대역 신호를 출력하도록 협대역 신호 및 광대역 신호를 학습 데이터로 이용하여 학습을 수행할 수 있다.
일 실시 예에 따르면, 각 레이어 내 포함되는 활성화 함수(activation function)는 예를 들면 시그모이드(sigmoid) 함수, Relu 함수 및 LeakyRelu 함수 또는 임의의 비선형 함수를 포함할 수 있다.
- 시그모이드(sigmoid) 함수:
Figure 112019134858531-pat00001
- Relu 함수: max (0, x)
- LeakyRelu 함수: max(ax, x) where a<<1
일 실시 예에 따르면, 도 4에 도시된 인공 신경망 내 전체 레이어의 수는 신경망 구조 정보에 포함된 레이어의 수(L)로 지시되며, 각 레이어에 대응되는 활성화 함수 타입은 신경망 구조 정보에 포함된 활성화 함수(Activation function)로 지시될 수 있다.
도 5 내지 도 7은 본 개시의 다양한 실시 예에 따른 인공 신경망 레이어 내 데이터 필터링을 나타내며, 이하 이를 참조하여 신경망 구조 정보에 포함된 나머지 파라미터들을 설명한다.
도 5는 본 개시의 일 실시 예에 따른 인공 신경망 레이어 내 데이터 필터링을 나타낸 도면이다.
도 5에서는 설명의 편의를 위해 입력 데이터 및 필터의 일 예시로서 4 by 4 크기의 입력 데이터와 2 by 2 크기의 필터를 이용하여 설명한다. 도 5를 참조하면, 합성곱 레이어(convonlutional layer) 내 연산은 입력 데이터 내에서 필터를 일정 간격으로 이동시켜가면서 입력 데이터와 필터 간 서로 대응되는 원소들을 곱한 후 총합을 산출하여 출력 데이터의 원소로서 출력 할 수 있다. 이 때 필터를 이동시키는 일정 간격은 스트라이드(stride)로 설정되며, 도 5의 경우 stride = 1인 경우를 나타낸다.
예를 들어, 출력 데이터의 (1,1) 원소는 2 by 2 크기의 필터와 대응되는 입력 데이터 내 (1,1), (1,2), (2,1), (2,2)에 위치하는 원소와 필터의 (1,1), (1,2), (2,1), (2,2)에 위치하는 원소들을 각각 대응되는 원소끼리 곱한 후 총합을 구함으로써 산출될 수 있다. 이에 따르면, 출력 데이터의 (1,1) 원소는 0*0 + 1*1 + 1*1 + 2*2 = 6으로 산출될 수 있다.
위와 동일한 방법으로, 출력 데이터의 (1,2)의 원소는 필터를 x축 방향(도면 내 우측 방향)으로 1(=stride)만큼 이동시킨 후, 필터와 대응되는 입력 데이터의 (1,2), (1,3), (2,2), (2,3)에 위치하는 원소와 필터의 (1,1), (1,2), (2,1), (2,2)에 위치하는 원소들을 각각 대응되는 원소끼리 곱한 후 총합을 구함으로써 산출될 수 있다. 이에 따르면, 출력 데이터의 (1,2) 원소는 1*0 + 2*1 + 2*1 + 3*2 = 10으로 산출될 수 있고, 출력 데이터의 (3,3) 원소는 1*0 + 0*1 + 0*1 + 3*2 = 6으로 산출될 수 있다.
도 6은 본 개시의 다른 일 실시 예에 따른 인공 신경망 레이어 내 데이터 필터링을 나타낸 도면이다.
도 6은 도 5와 동일한 입력 데이터 및 필터로 구성되되, 스트라이드(stride)가 도 5 와 다르게 설정되는 경우에 따른 데이터 필터링을 나타낸다. 앞서 살펴본 도 5는 stride = 1인 경우의 예시를 나타내고, 도 6은 stirde = 2인 경우의 예시를 나타낸다.
도 6을 참조하면, 출력 데이터의 (1,1) 원소는 상기 도 5와 동일한 방법에 따라 산출되며, 0*0 + 1*1 + 1*2 + 2*2 = 6으로 산출될 수 있다. 출력 데이터의 (1,2) 원소는 필터를 x축 방향(도면 내 우측 방향)으로 2(=stride) 만큼 이동시킨 후, 필터와 대응되는 입력 데이터의 (1,3), (1,4), (2,3), (2,4)에 위치하는 원소와 필터의 (1,1), (1,2), (2,1), (2,2)에 위치하는 원소들을 각각 대응되는 원소끼리 곱한 후 총합을 구함으로써 산출될 수 있다. 이에 따르면, 도 6과 같이 stride = 2로 지시되는 경우 출력 데이터의 (1,2) 원소는 2*0 + 3*1 + 3*1 + 0*2 = 6으로 산출될 수 있다.
도 7은 본 개시의 또 다른 일 실시 예에 따른 인공 신경망 레이어 내 데이터 필터링을 나타낸 도면이다.
도 7은 도 5와 동일합 입력 데이터 및 필터로 구성되고 동일한 스트라이드(stride=1)이 설정되되, 패딩(padding)이 적용되는 경우에 대한 데이터 필터링을 나타낸다.
도 5에 도시된 방법에 따라 입력 데이터를 필터를 이용하여 출력할 경우, 출력 데이터의 크기는 입력 데이터의 크기에 비해 반드시 감소하며, 이에 따라 레이어 내에서 수행 가능한 필터링의 수 또는 전체 레이어의 개수가 제한될 수 있다. 또한, 입력 데이터의 내부에 위치한 데이터의 경우 출력 데이터의 각 요소를 산출하는 과정에서 반복적으로 반영이 되는 반면(예를 들어, 도 5에서 입력 데이터 (2,2)에 위치한 데이터의 경우 출력 데이터 내 (1,1), (1,2), (2,1), (2,2)의 요소를 산출하는 과정에서 이용된다) 입력 데이터의 가장자리에 위치한 데이터일수록 필터링 과정에서 반영되는 회수가 줄어들 수 있다(예를 들어, 도 5에서 입력 데이터 (1,1)에 위치한 데이터의 경우 출력 데이터 내 (1,1)의 요소를 산출하는 과정에서만 반영된다). 따라서, 출력 데이터의 크기를 조절하고, 입력 데이터의 가장 자리에 위치한 데이터를 적절히 필터링 하기 위하여 입력 데이터 가장자리 주변을 특정 값으로 채워 늘린 후에 필터링을 수행할 수 있으며, 이를 패딩(padding)이라 한다. 도 7은 도 5에서 설명한 4 by 4의 입력 데이터의 주변을 0으로 채워 늘린 제로-패딩(zero-padding)을 나타낸다. 도 7을 참조하면, 패딩이 적용되는 경우 본래의 입력 데이터의 가장자리 주변을 특정 값으로 채워넣은 데이터를 입력 데이터로 이용하여 도 5 내지 도 6과 동일한 방법으로 필터링을 수행하고 출력 데이터를 산출할 수 있다.
도 5 내지 도 7을 참조하여 설명한 필터 내 포함된 요소의 값 각각(0, 1, 1, 2)은 인공 신경망의 가중치(weight)에 해당하며, 본 개시에 있어서 인공 신경망을 학습한다고 함은 입력 데이터에 대응하여 적절한 출력 데이터를 출력하도록 필터 내에 포함된 가중치들의 값을 업데이트하는 것을 의미할 수 있다. 각 필터는 인공 신경망을 구성하는 복수 개의 레이어 각각에 설정될 수 있으며, 동일한 레이어 내에서 복수 개의 필터가 설정될 수 있다.
본 개시의 일 실시 예에 따르면, 서버(306)는 광대역 신호(wide band signal) 및 상기 광대역 신호를 다운 샘플링하여 생성되는 협대역 신호(narrow band signal)을 학습 데이터로 이용하여 인공 신경망의 학습을 수행할 수 있다. 즉, 서버(306)는 다운 샘플링된 협대역 신호로부터 상기 협대역 신호의 오리지널 파형인 광대역 신호를 출력하도록 상기 인공 신경망 내 포함된 필터 또는 가중치를 업데이트함으로써 인공 신경망의 학습을 수행할 수 있다. 상기 학습된 인공 신경망의 필터 및 가중치는 신경망 계수 정보로서 수신 단말(304)에 송신될 수 있다.
도 8은 본 개시의 일 실시 예에 따른 신경망 구조 정보 및 그와 대응되는 신경망 구조를 나타낸 도면이다.
도 3을 참조하며 설명한 바와 같이, 본 개시의 일 실시 예에 따른 송신 단말은 수신 단말에 학습된 인공 신경망과 관련된 신경망 구조 정보를 송신할 수 있으며, 상기 신경망 구조 정보는 레이어의 수(L), 레이어 별 필터의 수(N_filters), 필터의 크기(N_filtersizes), 활성화 함수(activation function), 스트라이드(stride) 및 패딩(padding) 중 적어도 하나를 포함할 수 있다.
도 8에 도시된 신경망 구조와 대응되는 상기 파라미터들의 구체적인 값은 아래와 같다.
- L = 7
- N_filters = [128, 516, 512, 512, 512, 512 ,512]
- N_filtersizes = [65, 33, 17, 9, 9, 9, 9]
- activation function = 2 (0: sigmoid, 1: Relu, 2: Leakyrelu)
- Stride = 2
- padding = 1 (0: zero padding, 1: same)
도 8에 도시된 바와 같이, 상기 파라미터로 지시되는 인공 신경망은 Layer 1 - Layer 7의 7개의 layer를 가지며, 7개의 layer는 각각 65 크기의 필터 128개, 33 크기의 필터 256개, 17 크기의 필터 512개, 9 크기의 필터 512개, …, 9 크기의 필터 512개의를 가질 수 있다. 또한, 활성화 함수(activation function)는 Leakyrelu이고, 샘플링 간격(stride)은 2, 패딩은 대응되는 가장자리 값과 동일한 값으로서 적용될 수 있다. 전술한 파라미터를 지시하기 위한 값은 모두 예시를 위한 것이며, 수신 단말이 인지할 수 있는 임의의 형태의 정보로서 전달될 수 있음은 물론이다.
한편, 도 3 내지 도 7을 참조하여 설명한 인공 신경망의 학습 과정은 각 송신 단말에 대응되는 개인의 특성이 반영된 음성 정보를 기반으로 수행될 수 있다.
도 9는 본 개시의 일 실시 예에 따른 개인의 특성이 반영된 인공 신경망 기반의 음성 신호 송수신 방법을 설명하기 위한 도면이다.
일 실시 예에 따르면, 서버(906)은 제1 송신 단말(902-1)로부터 수신한 광대역 신호 및 이에 대응되는 협대역 신호를 학습 데이터로 이용하여 제1 인공 신경망을 학습할 수 있다. 또한, 서버(906)는 제2 송신 단말(미도시)로부터 수신한 광대역 신호 및 이에 대응되는 협대역 신호를 학습 데이터로 이용하여 제2 인공 신경망을 학습할 수 있다. 도 3에서도 서술한 바와 같이, 서버(906)는 제1 송신 단말(902-1) 및 제2 송신 단말로부터 광대역 신호 및 그에 대응되는 협대역 신호를 수신하고 이를 학습 데이터로 이용하여 각 인공 신경망을 학습하거나, 또는 제1 송신 단말(902-1) 및 제2 송신 단말로부터 광대역 신호를 수신하고, 이를 서버(906)가 협대역 신호로 다운 샘플링하여 각 인공 신경망을 학습하기 위한 학습 데이터로 이용할 수 있다.
일 실시 예에 따르면, 서버(906)는 제1 송신 단말(902-1) 및 제2 송신 단말과 관련한 제1 신경망 구조 정보 및 제2 신경망 구조 정보를 기반으로 제1 인공 신경망 및 제2 인공 신경망에 대한 학습을 수행할 수 있다. 상기 제1 송신 단말(902-1) 및 제2 송신 단말과 관련한 제1 신경망 구조 정보 및 제2 신경망 구조 정보는 서버(906)가 제1 송신 단말(902-1) 또는 제2 송신 단말로부터 수신하거나, 혹은 제1 송신 단말(902-1) 또는 제2 송신 단말 각각과 대응되어 서버(906)에 기 저장되어 있을 수 있다. 본 개시의 일 실시 예에 따른 신경망 구조 정보는, 인공 신경망을 구성하는 레이어(layer)의 수, 각 레이어 별 필터(filter)의 수, 각 레이어 별 필터의 크기, 활성화 함수(activation function), 스트라이드(stride) 및 패딩(padding) 중 적어도 하나를 포함할 수 있다.
일 실시 예에 따르면, 서버(906)는 상기 학습된 제1 인공 신경망과 관련된 제1 신경망 계수 정보 및 제2 인공 신경망과 관련된 제2 신경망 계수 정보를 생성할 수 있다. 신경망 계수 정보는 상기 학습된 각각의 인공 신경망을 구성하는 계수(coefficient)들의 집합으로, 예를 들면 각 인공 신경망을 구성하는 레이어 내 필터의 가중치(weight)를 구성하는 값을 포함하는 집합일 수 있다. 서버(906)는 상기 생성한 제1 신경망 계수 정보 및 제2 신경망 계수 정보를 수신 단말(904)에 송신하며, 수신 단말(904)은 수신한 상기 제1, 2 신경망 계수 정보를 수신 단말(904)의 저장 장치(예를 들면, 메모리)에 저장할 수 있다. 일 실시 예에 따르면, 수신 단말(904)는 수신한 제1 신경망 계수 정보 및 제2 신경망 계수 정보를 수신 단말(904)에 저장된 제1 송신 단말(902-1) 및 제2 송신 단말의 정보와 대응시켜 저장할 수 있다. 예를 들면, 수신 단말의 주소록에 저장되는 각 송신 단말의 정보에 대응되어 저장될 수 있다.
일 실시 예에 따르면, 서버(906)로부터 수신 단말(904)로의 제1, 2 신경망 계수 정보의 송신 및 그에 따른 수신 단말(904)에서의 제1, 2신경망 계수 정보의 저장은, 제1, 2 송신 단말 및 수신 단말(304) 간 세션 교섭이 수행되기 이전에 수행될 수 있다.
이 후, 세션 교섭을 시도하는 제1 송신 단말(902-1)은 상기 학습된 제1 인공 신경망의 구조(structure)와 관련된 파라미터를 포함하는 제1 신경망 구조 정보 및 제1 송신 단말(902-1)에 입력된 음성을 기반으로 생성된 광대역 신호를 다운 샘플링한 협대역 신호를 수신 단말(304)에 송신할 수 있다. 도 9는 제1 송신 단말(902-1)이 수신 단말(904)과 세션 교섭 및 통화를 개시하는 것으로 도시하였으나, 이는 예시를 위한 것일 뿐 제2 송신 단말이 세션 교섭을 시도하는 경우에도 동일한 기술적 사상이 적용될 수 있음은 물론이다.
수신 단말(904)은 제1 송신 단말(902-1)로부터 수신한 제1 신경망 구조 정보 및 상기 제1 송신 단말(902-1)에 대한 정보와 대응되어 미리 저장된 제1 신경망 계수 정보를 기반으로 서버(906)에 의해 학습된 제1 인공 신경망을 복원할 수 있다. 즉, 수신 단말(904)은 송신 단말(902-1)로부터 수신한 제1 신경망 구조 정보에 대응되는 인공 신경망 구조에 미리 저장된 제1 신경망 계수 정보에 포함된 계수들을 설정하여 제1 인공 신경망을 복원할 수 있다. 상기 제1 인공 신경망은 제1 송신 단말(902-1)에 입력되는 음성의 특성(예를 들면, 제1 송신 단말(902-1) 사용자의 음성 특성)을 반영하여 협대역 신호로부터의 상기 협대역 신호의 오리지널 파형인 광대역 신호를 복원하도록 학습된 것이며, 따라서 수신 단말(904)은 상기 제1 인공 신경망을 이용해 송신 단말(902-1)로부터 수신한 협대역 신호를 광대역 신호로 복원할 수 있다.
도 10은 본 개시의 일 실시 예에 따른 송신 단말의 음성 신호 송신 방법을 나타낸 도면이다.
도 10을 참조하면, 본 개시의 일 실시 예에 따른 송신 단말은 우선 세션 교섭의 대상이 되는 수신 단말이, 상기 송신 단말과 관련된 신경망 계수 정보를 저장하고 있는지 여부를 확인할 수 있다(1002). 만약 수신 단말이 송신 단말과 관련된 신경망 계수 정보를 저장하고 있지 않은 경우에는, 종래와 같이 입력된 음성을 기반으로 광대역 신호를 생성하고, 이를 다운 샘플링하여 협대역 신호를 생성하며, 생성된 협대역 신호를 수신 단말로 송신할 수 있다(1006). 이 경우, 수신 단말은 종래와 같은 방법으로 수신한 협대역 신호를 보간법 등을 이용해 업 샘플링하여 광대역 신호를 복원할 수 있다. 만약 수신 단말이 송신 단말과 관련된 신경망 계수 정보를 저장하고 있는 경우, 송신 단말은 수신 단말이 학습된 인공 신경망을 복원할 수 있도록, 상기 송신 단말과 관련한 신경망 구조 정보를 수신 단말로 송신할 수 있다(1004). 이 후 송신 단말은 입력된 음성을 기반으로 광대역 신호를 생성하고, 이를 다운 샘플링하여 협대역 신호를 생성하며, 생성된 협대역 신호를 수신 단말로 송신할 수 있다(1006). 이 경우 수신 단말은 송신 단말로부터 수신한 신경망 구조 정보 및 미리 저장된 신경망 계수 정보를 기반으로 인공 신경망을 복원하고, 이를 이용하여 송신 단말로부터 수신한 협대역 신호를 광대역 신호로 복원할 수 있다. 일 실시 예에 따른 신경망 계수 정보는 서버에서 학습된 인공 신경망을 구성하는 계수(coefficient)들의 집합일 수 있고, 신경망 구조 정보는 인공 신경망을 구성하는 레이어(layer)의 수, 각 레이어 별 필터(filter)의 수, 각 레이어 별 필터의 크기, 활성화 함수(activation function), 스트라이드(stride) 및 패딩(padding) 중 적어도 하나를 포함할 수 있으며, 이와 관련하여는 앞서 도면을 참조하여 설명하였으므로 상세한 설명은 생략하도록 한다.
도 11은 본 개시의 일 실시 예에 따른 수신 단말의 음성 신호 수신 방법을 나타낸 도면이다.
도 11을 참조하면, 본 개시의 일 실시 예에 따른 수신 단말은 세션 교섭의 대상이 되는 송신 단말과 관련된 신경망 계수 정보를 상기 수신 단말이 저장하고 있는지 여부를 확인할 수 있다(1102). 만약 송신 단말과 관련된 신경망 계수 정보를 저장하고 있지 않은 경우에는, 종래와 같은 방법으로 송신 단말로부터 수신한 협대역 신호를 보간법 등을 이용해 업 샘플링하여 광대역 신호를 복원할 수 있다(1110). 만약 수신 단말이 송신 단말과 관련된 신경망 계수 정보를 저장하고 있는 경우, 수신 단말은 송신 단말로부터 인공 신경망을 복원하기 위한 신경망 구조 정보를 수신할 수 있다(1104). 이 경우, 수신 단말은 송신 단말로부터 수신한 신경망 구조 정보 및 미리 저장된 신경망 계수 정보를 기반으로 인공 신경망을 복원하고(1106), 이를 이용하여 송신 단말로부터 수신한 협대역 신호를 광대역 신호로 복원할 수 있다(1108). 일 실시 예에 따른 신경망 계수 정보는 서버에서 학습된 인공 신경망을 구성하는 계수(coefficient)들의 집합일 수 있고, 신경망 구조 정보는 인공 신경망을 구성하는 레이어(layer)의 수, 각 레이어 별 필터(filter)의 수, 각 레이어 별 필터의 크기, 활성화 함수(activation function), 스트라이드(stride) 및 패딩(padding) 중 적어도 하나를 포함할 수 있으며, 이와 관련하여는 앞서 도면을 참조하여 설명하였으므로 상세한 설명은 생략하도록 한다.
도 12는 본 개시의 일 실시 예에 따른 서버의 방법을 나타낸 도면이다.
도 12를 참조하면, 본 개시의 일 실시 예에 따른 서버는 광대역 신호 및 협대역 신호를 기반으로 인공 신경망의 학습을 수행할 수 있다(1202). 일 실시 예에 따르면, 서버는 송신 단말로부터 인공 신경망의 학습 데이터로 이용하기 위한 광대역 신호 또는 협대역 신호를 수신할 수 있다. 서버는 송신 단말로부터 광대역 신호 및 그에 대응되는 협대역 신호를 모두 수신하거나, 혹은 송신 단말로부터 광대역 신호를 수신하고 이를 다운 샘플링하여 협대역 신호를 생성할 수 있다. 서버는 상기 광대역 신호 및 협대역 신호를 학습 데이터로 이용하여 다운 샘플링된 협대역 신호로부터 상기 협대역 신호의 오리지널 파형에 해당하는 광대역 신호를 복원하여 출력하도록 인공 신경망의 학습을 수행할 수 있다. 이 후, 서버는 학습된 인공 신경망과 관련한 신경망 계수 정보를 생성하고(1204), 이를 수신 단말로 송신할 수 있다(1206).
일 실시 예에 따르면, 서버는 송신 단말과 관련한 신경망 구조 정보를 기반으로 광대역 신호 및 협대역 신호를 학습 데이터로 이용하여 인공 신경망에 대한 학습을 수행할 수 있다. 상기 송신 단말과 관련한 신경망 구조 정보는, 서버가 송신 단말로부터 수신하거나, 혹은 송신 단말과 대응되어 서버에 기 저장되어 있을 수 있다. 또한, 본 개시의 일 실시 예에 따른 신경망 계수 정보는 서버에서 학습된 인공 신경망을 구성하는 계수(coefficient)들의 집합일 수 있고, 신경망 구조 정보는 인공 신경망을 구성하는 레이어(layer)의 수, 각 레이어 별 필터(filter)의 수, 각 레이어 별 필터의 크기, 활성화 함수(activation function), 스트라이드(stride) 및 패딩(padding) 중 적어도 하나를 포함할 수 있으며, 이와 관련하여는 앞서 도면을 참조하여 설명하였으므로 상세한 설명은 생략하도록 한다. 일 실시 예에 따르면, 서버로부터 수신 단말로의 신경망 계수 정보의 송신 및 그에 따른 수신 단말에서의 신경망 계수 정보의 저장은, 송신 단말 및 수신 단말 간 세션 교섭이 수행되기 이전에 수행될 수 있다.
전술한 바와 같이, 본 명세서에서는 설명의 편의를 위해 인공 신경망 학습 과정이 별개의 서버에 의해 실시되는 것으로 설명하였으나, 이는 본 개시의 범위를 제한하는 것은 아니며, 상술한 서버에 의해 실시되는 각 단계들을 실시 가능한 임의의 장치, 예를 들면 단말에 의해서 실시될 수도 있다.
도 13은 본 개시의 일 실시 예에 따른 송신 단말(1300)의 구성을 나타낸 도면이다.
도 13을 참조하면, 송신 단말(1300)은 제어부(1302), 송수신부(1304) 및 메모리(1306)를 포함할 수 있다. 다만, 송신 단말(1300)의 구성 요소가 전술한 예에 한정되는 것은 아니다. 예를 들면, 송신 단말(1300)은 전술한 구성 요소보다 더 많은 구성 요소를 포함하거나 더 적은 구성 요소를 포함할 수 있다. 뿐만 아니라, 제어부(1302), 송수신부(1304) 및 메모리(1306)가 하나의 칩(Chip) 형태로 구현될 수도 있다.
본 개시의 일 실시 예에 따르면, 제어부(1302)는 상술한 본 개시의 실시 예들에 따라 송신 단말(1300)이 동작할 수 있는 일련의 과정을 제어할 수 있다. 예를 들면, 본 개시의 일 실시 예에 따른 제어부(1302)는 입력된 음성을 기반으로 광대역 신호를 생성하고, 상기 음성 신호를 다운 샘플링하여 협대역 신호를 생성하며, 상기 생성된 광대역 신호 및 협대역 신호를 학습 데이터로 이용하여 인공 신경망에 대한 학습을 수행하고, 학습된 인공 신경망을 기반으로 신경망 계수 정보 및 신경망 구조 정보를 생성하고, 이를 수신 단말(1400)로 전달 또는 송신하도록 송신 단말(1300)을 제어할 수 있다. 또한, 본 개시의 일 실시 예에 따른 제어부(1302)은 송수신부(1304) 및 메모리(1306)가 상술한 본 개시의 실시 예들에 따른 동작을 수행하기 위해 필요한 동작을 수행하도록 송수신부(1304) 및 메모리(1306)를 제어할 수 있다.
본 개시의 일 실시예에 따르면, 송수신부(1304)는 수신 단말(1400) 또는 서버(1500)와 신호를 송수신할 수 있다. 상술된 신호는 음성 신호 및 데이터를 포함할 수 있다.
본 개시의 일 실시예에 따르면, 메모리(1306)는 단말의 동작에 필요한 프로그램 및 데이터를 저장할 수 있다. 또한, 메모리(1306)는 단말이 송수신하는 신호에 포함된 제어 정보 또는 데이터를 저장할 수 있다. 메모리(1306)는 롬(ROM), 램(RAM), 하드디스크, CD-ROM 및 DVD 등과 같은 저장 매체 또는 저장 매체들의 조합으로 구성될 수 있다. 또한, 메모리(1306)는 복수 개의 메모리로 구성될 수도 있다.
도 14는 본 개시의 일 실시 예에 따른 수신 단말(1400)의 구성을 나타낸 도면이다.
도 14를 참조하면, 수신 단말(1400)은 제어부(1402), 송수신부(1404) 및 메모리(1406)를 포함할 수 있다. 다만, 수신 단말(1400)의 구성 요소가 전술한 예에 한정되는 것은 아니다. 예를 들면, 수신 단말(1400)은 전술한 구성 요소보다 더 많은 구성 요소를 포함하거나 더 적은 구성 요소를 포함할 수 있다. 뿐만 아니라, 제어부(1402), 송수신부(1404) 및 메모리(1406)가 하나의 칩(Chip) 형태로 구현될 수도 있다.
본 개시의 일 실시 예에 따르면, 제어부(1402)는 상술한 본 개시의 실시 예들에 따라 수신 단말(1400)이 동작할 수 있는 일련의 과정을 제어할 수 있다. 예를 들면, 본 개시의 일 실시 예에 따른 제어부(1402)는 송신 단말(1300)로부터 협대역 신호를 수신하고, 신경망 계수 정보 및 신경망 구성 정보를 수신하고, 수신한 신경망 계수 정보 및 신경망 구성 정보를 기반으로 인공 신경망을 복원하며, 복원된 인공 신경망을 이용해 송신 단말(1300)로부터 수신한 협대역 신호를 광대역 신호로 변환하도록 수신 단말(1400)을 제어할 수 있다. 또한, 본 개시의 일 실시 예에 따른 제어부(1402)은 송수신부(1404) 및 메모리(1406)가 상술한 본 개시의 실시 예들에 따른 동작을 수행하기 위해 필요한 동작을 수행하도록 송수신부(1404) 및 메모리(1406)를 제어할 수 있다.
본 개시의 일 실시예에 따르면, 송수신부(1404)는 송신 단말(1300) 또는 서버(1500)와 신호를 송수신할 수 있다. 상술된 신호는 음성 신호 및 데이터를 포함할 수 있다.
본 개시의 일 실시예에 따르면, 메모리(1406)는 단말의 동작에 필요한 프로그램 및 데이터를 저장할 수 있다. 또한, 메모리(1406)는 단말이 송수신하는 신호에 포함된 제어 정보 또는 데이터를 저장할 수 있다. 메모리(1406)는 롬(ROM), 램(RAM), 하드디스크, CD-ROM 및 DVD 등과 같은 저장 매체 또는 저장 매체들의 조합으로 구성될 수 있다. 또한, 메모리(1406)는 복수 개의 메모리로 구성될 수도 있다.
도 15는 본 개시의 일 실시 예에 따른 서버(1500)의 구성을 나타낸 도면이다.
도 15를 참조하면, 서버(1500)는 제어부(1502), 연결부(1504) 및 메모리(1506)를 포함할 수 있다. 다만, 서버의 구성 요소가 전술한 예에 한정되는 것은 아니다. 예를 들면, 서버는 전술한 구성 요소보다 더 많은 구성 요소를 포함하거나 더 적은 구성 요소를 포함할 수 있다. 뿐만 아니라, 제어부(1502), 연결부(1504) 및 메모리(1506)가 하나의 칩(Chip) 형태로 구현될 수도 있다.
본 개시의 일 실시 예에 따르면, 제어부(1502)는 상술한 본 개시의 실시 예들에 따라 서버(1500)가 동작할 수 있는 일련의 과정을 제어할 수 있다. 예를 들면, 본 개시의 일 실시 예에 따른 제어부(1502)는 송신 단말(1300)로부터 신호를 수신하고, 인공 신경망에 대한 학습을 수행하고, 신경망 계수 정보를 생성하고, 신경망 계수 정보를 수신 단말(1400)로 송신하도록 서버(1500)를 제어할 수 있다. 또한, 본 개시의 일 실시 예에 따른 제어부(1502)은 연결부(1504) 및 메모리(1506)가 상술한 본 개시의 실시 예들에 따른 동작을 수행하기 위해 필요한 동작을 수행하도록 연결부(1504) 및 메모리(1506)를 제어할 수 있다.
본 개시의 일 실시예에 따르면, 연결부(1504)는 송신 단말(1300) 또는 수신 단말(1400)과 신호를 송수신하는 네트워크 엔티티와 연결될 수 있다. 상술된 신호는 음성 신호 및 데이터를 포함할 수 있다.
본 개시의 일 실시예에 따르면, 메모리(1506)는 단말의 동작에 필요한 프로그램 및 데이터를 저장할 수 있다. 또한, 메모리(1506)는 단말이 송수신하는 신호에 포함된 제어 정보 또는 데이터를 저장할 수 있다. 메모리(1506)는 롬(ROM), 램(RAM), 하드디스크, CD-ROM 및 DVD 등과 같은 저장 매체 또는 저장 매체들의 조합으로 구성될 수 있다. 또한, 메모리(1506)는 복수 개의 메모리로 구성될 수도 있다.
본 개시의 청구항 또는 명세서에 기재된 실시예들에 따른 방법들은 하드웨어, 소프트웨어, 또는 하드웨어와 소프트웨어의 조합의 형태로 구현될(implemented) 수 있다.
소프트웨어로 구현하는 경우, 하나 이상의 프로그램(소프트웨어 모듈)을 저장하는 컴퓨터 판독 가능 저장 매체 또는 컴퓨터 프로그램 제품이 제공될 수 있다. 컴퓨터 판독 가능 저장 매체 또는 컴퓨터 프로그램 제품에 저장되는 하나 이상의 프로그램은, 전자 장치(device) 내의 하나 이상의 프로세서에 의해 실행 가능하도록 구성된다(configured for execution). 하나 이상의 프로그램은, 전자 장치로 하여금 본 개시의 청구항 또는 명세서에 기재된 실시예들에 따른 방법들을 실행하게 하는 명령어(instructions)를 포함한다.
이러한 프로그램(소프트웨어 모듈, 소프트웨어)은 랜덤 액세스 메모리 (random access memory), 플래시(flash) 메모리를 포함하는 불휘발성(non-volatile) 메모리, 롬(ROM: Read Only Memory), 전기적 삭제가능 프로그램가능 롬(EEPROM: Electrically Erasable Programmable Read Only Memory), 자기 디스크 저장 장치(magnetic disc storage device), 컴팩트 디스크 롬(CD-ROM: Compact Disc-ROM), 디지털 다목적 디스크(DVDs: Digital Versatile Discs) 또는 다른 형태의 광학 저장 장치, 마그네틱 카세트(magnetic cassette)에 저장될 수 있다. 또는, 이들의 일부 또는 전부의 조합으로 구성된 메모리에 저장될 수 있다. 또한, 각각의 구성 메모리는 복수 개 포함될 수도 있다.
또한, 프로그램은 인터넷(Internet), 인트라넷(Intranet), LAN(Local Area Network), WLAN(Wide LAN), 또는 SAN(Storage Area Network)과 같은 통신 네트워크, 또는 이들의 조합으로 구성된 통신 네트워크를 통하여 접근(access)할 수 있는 부착 가능한(attachable) 저장 장치(storage device)에 저장될 수 있다. 이러한 저장 장치는 외부 포트를 통하여 본 개시의 실시예를 수행하는 장치에 접속할 수 있다. 또한, 통신 네트워크 상의 별도의 저장 장치가 본 개시의 실시예를 수행하는 장치에 접속할 수도 있다.
상술한 본 개시의 구체적인 실시예들에서, 본 개시에 포함되는 구성 요소는 제시된 구체적인 실시예에 따라 단수 또는 복수로 표현되었다. 그러나, 단수 또는 복수의 표현은 설명의 편의를 위해 제시한 상황에 적합하게 선택된 것으로서, 본 개시가 단수 또는 복수의 구성 요소에 제한되는 것은 아니며, 복수로 표현된 구성 요소라 하더라도 단수로 구성되거나, 단수로 표현된 구성 요소라 하더라도 복수로 구성될 수 있다.
한편, 본 명세서와 도면에 개시된 본 개시의 실시예들은 본 개시의 기술 내용을 쉽게 설명하고 본 개시의 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 개시의 범위를 한정하고자 하는 것은 아니다. 즉 본 개시의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 개시의 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다. 또한 상기 각각의 실시예는 필요에 따라 서로 조합되어 운용할 수 있다. 예를 들면, 본 개시의 일 실시예와 다른 일 실시예의 일부분들이 서로 조합되어 기지국과 단말이 운용될 수 있다. 또한, 본 개시의 실시예들은 다른 통신 시스템에서도 적용 가능하며, 실시예의 기술적 사상에 바탕을 둔 다른 변형예들 또한 실시 가능할 것이다. 예를 들면, 실시예들은 LTE 시스템, 5G 또는 NR 시스템 등에도 적용될 수 있다.

Claims (20)

  1. 음성 신호를 송신하는 송신 단말의 방법에 있어서,
    수신 단말에 상기 송신 단말과 관련한 신경망 계수 정보가 저장되어 있는지 여부를 확인하는 단계;
    상기 확인에 기초하여 상기 송신 단말과 관련한 신경망 구조 정보를 상기 수신 단말로 송신하는 단계;
    입력되는 음성을 기반으로 광대역 신호를 생성하는 단계;
    상기 광대역 신호를 다운 샘플링하여 협대역 신호를 생성하는 단계; 및
    상기 협대역 신호를 상기 수신 단말로 송신하는 단계를 포함하고,
    상기 신경망 계수 정보는, 상기 송신 단말과 상기 수신 단말의 세션 교섭 이전에 상기 수신 단말에 저장되는 것을 특징으로 하는, 방법.
  2. 제1항에 있어서,
    상기 신경망 구조 정보는, 레이어(layer)의 수, 각 레이어에 포함되는 필터(filter)의 수, 상기 각 레이어에 포함되는 필터의 크기, 활성화 함수(activation function), 스트라이드(stride) 및 패딩(padding) 중 적어도 하나를 포함하는 것을 특징으로 하는, 방법.
  3. 제1항에 있어서,
    상기 신경망 구조 정보를 수신 단말로 송신하는 단계는,
    상기 수신 단말에 상기 송신 단말과 관련한 신경망 계수 정보가 저장되어 있는 것으로 확인되는 경우 상기 송신 단말과 관련한 신경망 구조 정보를 수신 단말로 송신하는 것을 특징으로 하는, 방법.
  4. 음성 신호룰 수신하는 수신 단말의 방법에 있어서,
    서버로부터 신경망 계수 정보를 수신하는 단계;
    송신 단말로부터 협대역 신호 및 신경망 구조 정보를 수신하는 단계;
    상기 신경망 계수 정보 및 신경망 구조 정보를 기반으로 인공 신경망을 복원하는 단계; 및
    상기 복원된 인공 신경망을 기반으로 상기 협대역 신호를 광대역 신호로 변환하는 단계를 포함하고,
    상기 서버로부터 신경망 계수 정보를 수신하는 단계는, 상기 송신 단말과의 세션 교섭 이전에 수행되는 것을 특징으로 하는, 방법.
  5. 제4항에 있어서,
    상기 신경망 구조 정보는, 레이어(layer)의 수, 각 레이어에 포함되는 필터(filter)의 수, 상기 각 레이어에 포함되는 필터의 크기, 활성화 함수(activation function), 스트라이드(stride) 및 패딩(padding) 중 적어도 하나를 포함하는 것을 특징으로 하는, 방법.
  6. 제4항에 있어서,
    상기 신경망 계수 정보는, 학습된 인공 신경망을 구성하는 계수(coefficient)들의 집합을 포함하는 특징으로 하는, 방법.
  7. 삭제
  8. 음성 신호를 송수신하는 단말과 통신하는 서버의 방법에 있어서,
    송신 단말로부터, 광대역 신호 및 협대역 신호를 수신하는 단계;
    상기 광대역 신호 및 협대역 신호를 기반으로 인공 신경망 학습을 수행하는 단계;
    상기 학습된 인공 신경망과 관련한 신경망 계수 정보를 생성하는 단계; 및
    상기 신경망 계수 정보를 수신 단말로 송신하는 단계를 포함하고,
    상기 신경망 계수 정보를 상기 수신 단말로 송신하는 단계는,
    상기 송신 단말과 상기 수신 단말의 세션 교섭 이전에 수행되는 것을 특징으로 하는, 방법.
  9. 제8항에 있어서
    상기 인공 신경망 학습을 수행하는 단계는,
    상기 송신 단말과 관련한 신경망 구조 정보를 기반으로 인공 신경망 학습을 수행하되,
    상기 신경망 구조 정보는 레이어(layer)의 수, 각 레이어에 포함되는 필터(filter)의 수, 상기 각 레이어에 포함되는 필터의 크기, 활성화 함수(activation function), 스트라이드(stride) 및 패딩(padding) 중 적어도 하나를 포함하는 것을 특징으로 하는, 방법.
  10. 삭제
  11. 음성 신호를 송신하는 송신 단말에 있어서,
    수신 단말 또는 서버와 신호를 송수신하는 송수신부; 및
    수신 단말에 상기 송신 단말과 관련한 신경망 계수 정보가 저장되어 있는지 여부를 확인하고, 상기 확인에 기초하여 상기 송신 단말과 관련한 신경망 구조 정보를 상기 수신 단말로 송신하고, 입력되는 음성을 기반으로 광대역 신호를 생성하고, 상기 광대역 신호를 다운 샘플링하여 협대역 신호를 생성하고, 상기 협대역 신호를 상기 수신 단말로 송신하도록 구성되는 제어부를 포함하고,
    상기 신경망 계수 정보는, 상기 송신 단말과 상기 수신 단말의 세션 교섭 이전에 상기 수신 단말에 저장되는 것을 특징으로 하는 송신 단말.
  12. 제11항에 있어서,
    상기 신경망 구조 정보는, 레이어(layer)의 수, 각 레이어에 포함되는 필터(filter)의 수, 상기 각 레이어에 포함되는 필터의 크기, 활성화 함수(activation function), 스트라이드(stride) 및 패딩(padding) 중 적어도 하나를 포함하는 것을 특징으로 하는, 송신 단말.
  13. 제11항에 있어서,
    상기 제어부는, 상기 수신 단말에 상기 송신 단말과 관련한 신경망 계수 정보가 저장되어 있는 것으로 확인되는 경우 상기 송신 단말과 관련한 신경망 구조 정보를 수신 단말로 송신하도록 더 구성되는 것을 특징으로 하는, 송신 단말.
  14. 음성 신호룰 수신하는 수신 단말에 있어서,
    송신 단말 또는 서버와 신호를 송수신하는 송수신부; 및
    상기 서버로부터 신경망 계수 정보를 수신하고, 상기 송신 단말로부터 협대역 신호 및 신경망 구조 정보를 수신하고, 상기 신경망 계수 정보 및 신경망 구조 정보를 기반으로 인공 신경망을 복원하고, 상기 복원된 인공 신경망을 기반으로 상기 협대역 신호를 광대역 신호로 변환하도록 구성되는 제어부를 포함하고,
    상기 신경망 계수 정보는 상기 송신 단말과의 세션 교섭 이전에 상기 서버로부터 수신되는 것을 특징으로 하는, 수신 단말.
  15. 제14항에 있어서,
    상기 신경망 구조 정보는, 레이어(layer)의 수, 각 레이어에 포함되는 필터(filter)의 수, 상기 각 레이어에 포함되는 필터의 크기, 활성화 함수(activation function), 스트라이드(stride) 및 패딩(padding) 중 적어도 하나를 포함하는 것을 특징으로 하는, 수신 단말.
  16. 제14항에 있어서,
    상기 신경망 계수 정보는, 학습된 인공 신경망을 구성하는 계수(coefficient)들의 집합을 포함하는 특징으로 하는, 수신 단말.
  17. 삭제
  18. 음성 신호를 송수신하는 단말과 통신하는 서버에 있어서,
    연결부; 및
    송신 단말로부터, 광대역 신호 및 협대역 신호를 수신하고, 상기 광대역 신호 및 협대역 신호를 기반으로 인공 신경망 학습을 수행하고, 상기 학습된 인공 신경망과 관련한 신경망 계수 정보를 생성하고, 상기 신경망 계수 정보를 수신 단말로 송신하도록 구성되는 제어부를 포함하고,
    상기 신경망 계수 정보는 상기 송신 단말과 상기 수신 단말의 세션 교섭 이전에 상기 수신 단말로 송신되는 것을 특징으로 하는, 서버.
  19. 제18항에 있어서
    상기 제어부는, 상기 송신 단말과 관련한 신경망 구조 정보를 기반으로 인공 신경망 학습을 수행하도록 더 구성되며,
    상기 신경망 구조 정보는 레이어(layer)의 수, 각 레이어에 포함되는 필터(filter)의 수, 상기 각 레이어에 포함되는 필터의 크기, 활성화 함수(activation function), 스트라이드(stride) 및 패딩(padding) 중 적어도 하나를 포함하는 것을 특징으로 하는, 서버.
  20. 삭제
KR1020190176561A 2019-12-27 2019-12-27 인공신경망 기반의 음성 신호 송수신 방법 및 장치 KR102423977B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020190176561A KR102423977B1 (ko) 2019-12-27 2019-12-27 인공신경망 기반의 음성 신호 송수신 방법 및 장치
PCT/KR2020/015721 WO2021132877A1 (ko) 2019-12-27 2020-11-11 인공신경망 기반의 음성 신호 송수신 방법 및 장치
EP20905098.8A EP4064283B1 (en) 2019-12-27 2020-11-11 Method and apparatus for transmitting/receiving voice signal on basis of artificial neural network
US17/757,919 US20230036087A1 (en) 2019-12-27 2020-11-11 Method and apparatus for transmitting/receiving voice signal on basis of artificial neural network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190176561A KR102423977B1 (ko) 2019-12-27 2019-12-27 인공신경망 기반의 음성 신호 송수신 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20210083855A KR20210083855A (ko) 2021-07-07
KR102423977B1 true KR102423977B1 (ko) 2022-07-22

Family

ID=76574851

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190176561A KR102423977B1 (ko) 2019-12-27 2019-12-27 인공신경망 기반의 음성 신호 송수신 방법 및 장치

Country Status (4)

Country Link
US (1) US20230036087A1 (ko)
EP (1) EP4064283B1 (ko)
KR (1) KR102423977B1 (ko)
WO (1) WO2021132877A1 (ko)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050267739A1 (en) * 2004-05-25 2005-12-01 Nokia Corporation Neuroevolution based artificial bandwidth expansion of telephone band speech
KR101412255B1 (ko) * 2006-12-13 2014-08-14 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 부호화 장치, 복호 장치 및 이들의 방법
JP2010276780A (ja) * 2009-05-27 2010-12-09 Panasonic Corp 通信装置および信号処理方法
KR102257910B1 (ko) * 2014-05-02 2021-05-27 삼성전자주식회사 음성 인식 장치 및 방법, 잡음-음성 인식 모델 생성 장치 및 방법
KR101748039B1 (ko) * 2015-11-03 2017-06-15 라인 가부시키가이샤 효율적인 음성 통화를 위한 샘플링 레이트 변환 방법 및 시스템
CN105869653B (zh) * 2016-05-31 2019-07-12 华为技术有限公司 话音信号处理方法和相关装置和系统
EP3583777A4 (en) * 2017-02-16 2020-12-23 Nokia Technologies Oy VIDEO PROCESSING PROCESS AND TECHNICAL EQUIPMENT
US20180358003A1 (en) * 2017-06-09 2018-12-13 Qualcomm Incorporated Methods and apparatus for improving speech communication and speech interface quality using neural networks
KR101998950B1 (ko) * 2017-06-27 2019-07-10 한양대학교 산학협력단 인공 잡음에 강인한 음성 대역폭 확장을 위한 심화 신경망 앙상블
KR102078350B1 (ko) * 2017-08-18 2020-02-17 국방과학연구소 음성 신호 대역폭 확장 장치 및 방법

Also Published As

Publication number Publication date
EP4064283B1 (en) 2024-09-18
EP4064283A4 (en) 2022-12-28
US20230036087A1 (en) 2023-02-02
WO2021132877A1 (ko) 2021-07-01
EP4064283A1 (en) 2022-09-28
KR20210083855A (ko) 2021-07-07

Similar Documents

Publication Publication Date Title
US9425876B2 (en) Apparatus and method for channel feedback in multiple input multiple output system
KR20160144792A (ko) 위치 정보 송수신을 위한 방법 및 장치
Guo et al. Deep learning for joint channel estimation and feedback in massive MIMO systems
KR102038302B1 (ko) 비직교 다중 접속을 위한 빔포밍 장치 및 방법
US20190253821A1 (en) System and method for handling digital content
KR20190140366A (ko) 비직교 다중 접속 시스템에서 코드북 결정 방법 및 이를 위한 장치
KR20210046494A (ko) 자기 간섭 신호 제거를 위한 방법 및 장치
EP3529803B1 (en) Decoding and encoding apparatus and corresponding methods
JP2018517318A (ja) データ送信方法、受信方法及び装置
KR102423977B1 (ko) 인공신경망 기반의 음성 신호 송수신 방법 및 장치
KR20180060882A (ko) 무선 통신 시스템에서의 빔포밍을 이용한 신호 전송 방법 및 장치
CN105450343B (zh) 一种预编码的方法、装置及系统
WO2023011472A1 (zh) 信道状态信息的反馈方法及接收方法、终端、基站、计算机可读存储介质
CN106911369A (zh) 下行信道重构方法以及装置
US11477786B2 (en) Method and an apparatus for determining a local frequency in wireless communication system
EP3678312B1 (en) Method of transceiving signal by using polar code and device for performing the method
CN115694722A (zh) 一种通信方法及装置
CN116982300A (zh) 信号处理的方法及接收机
CN104518821B (zh) 一种宽带波束成形算法、网元以及系统
EP4351030A1 (en) Method and apparatus for transmitting channel state information
WO2023115254A1 (zh) 处理数据的方法及装置
KR102501647B1 (ko) 출력단에서 발생하는 로컬 주파수 신호를 감소시키기 위한 믹서
CN117856846A (zh) 无线通信装置的方法和基站的方法
CN112838908B (zh) 基于深度学习的通信方法、装置及系统
WO2023193169A1 (en) Method and apparatus for distributed inference

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant