KR20230078376A - 인공지능 모델을 이용하여 오디오 신호를 처리하는 방법 및 장치 - Google Patents

인공지능 모델을 이용하여 오디오 신호를 처리하는 방법 및 장치 Download PDF

Info

Publication number
KR20230078376A
KR20230078376A KR1020210166102A KR20210166102A KR20230078376A KR 20230078376 A KR20230078376 A KR 20230078376A KR 1020210166102 A KR1020210166102 A KR 1020210166102A KR 20210166102 A KR20210166102 A KR 20210166102A KR 20230078376 A KR20230078376 A KR 20230078376A
Authority
KR
South Korea
Prior art keywords
audio signal
artificial intelligence
intelligence model
electronic device
information
Prior art date
Application number
KR1020210166102A
Other languages
English (en)
Inventor
파웰 다닐루크
야곱 트카츄크
마테츠 마투셰브스키
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020210166102A priority Critical patent/KR20230078376A/ko
Priority to PCT/KR2022/018124 priority patent/WO2023096259A1/ko
Priority to US17/993,666 priority patent/US20230171543A1/en
Publication of KR20230078376A publication Critical patent/KR20230078376A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

개시되는 오디오 신호를 처리하기 위한 방법은, 제1 전자 장치에서, 오디오 신호를 획득하는 단계; 상기 획득된 오디오 신호를 상기 제1 전자 장치로부터 제2 전자 장치로 전송하는 단계; 상기 제2 전자 장치에서, 상기 획득된 오디오 신호를 제1 인공지능 모델에 입력하여, 저지연으로 오디오 신호를 처리하기 위한 제2 인공지능 모델을 조정하기 위한 제1 정보를 획득하는 단계; 상기 제2 전자 장치에서, 상기 획득된 제1 정보 및 상기 획득된 오디오 신호를 상기 제2 인공지능 모델에 입력하여, 실시간으로 오디오 신호를 처리하기 위한 제3 인공지능 모델을 조정하기 위한 제2 정보를 획득하는 단계; 상기 획득된 제2 정보를 상기 제2 전자 장치로부터 상기 제1 전자 장치로 전송하는 단계; 상기 제1 전자 장치에서, 상기 획득된 제2 정보 및 상기 획득된 오디오 신호를 상기 제3 인공지능 모델에 입력하여, 상기 제3 인공지능 모델을 조정하는 단계; 상기 제1 전자 장치에서, 상기 조정된 제3 인공지능 모델에 상기 획득된 오디오 신호를 입력하여, 처리된 오디오 신호를 획득하는 단계; 및 상기 제1 전자 장치에서, 상기 처리된 오디오 신호를 재생하는 단계;를 포함한다.

Description

인공지능 모델을 이용하여 오디오 신호를 처리하는 방법 및 장치 {METHOD AND DEVICE FOR PROCESSING AUDIO SIGNAL USING AI MODEL}
본 개시는 오디오 신호를 처리하기 위한 방법 및 장치에 관한 것이다. 보다 상세하게는, 인공지능 모델을 이용하여 오디오 신호를 처리하기 위한 방법 및 장치에 관한 것이다.
최근 디지털 기술의 발달과 함께 이동통신 단말기, 스마트 폰(smart phone), 태블릿(tablet) PC(personal computer), PDA(personal digital assistant), 전자수첩, 노트북(notebook), 웨어러블 기기(wearable device), IoT(internet of things) 기기, 또는 청각 장치(audible device) 등과 같은 다양한 유형의 전자 장치가 널리 사용되고 있다.
전자 장치는 다양한 종류의 오디오 재생 장치 (예: 유선 스피커, 유선 헤드폰, 유선 이어폰, 무선 스피커, 무선 헤드폰 또는 무선 이어폰 등)와 연결할 수 있다. 전자 장치는 재생하는 오디오 데이터(예: 음원)를 연결된 오디오 재생 장치를 통해 출력할 수 있고, 사용자는 오디오 재생 장치를 통해 전자 장치의 오디오 데이터를 청취할 수 있다. 전자 장치와 오디오 재생 장치는 유선 인터페이스(예: 커넥터 연결) 또는 무선 인터페이스(예: 블루투스 연결)를 통해 연결될 수 있다.
최근에는 자체적으로 노이즈 제거 등의 오디오 신호 처리 기능을 갖춘 지능형 오디오 재생 장치에 대한 수요가 증가하고 있다. 다만 오디오 재생 장치의 가용 전력 및 연산 능력이 높지 않기 때문에, 복잡한 오디오 신호 처리 기술을 실행하는 데에는 한계가 있다. 오디오 재생 장치와 페어링(pairing)되는 전자 장치, 예를 들어 스마트폰 등에서 오디오 신호를 처리한 후 오디오 재생 장치로 전송하는 방법도 사용되나, 이 경우 긴 지연 시간이 문제된다.
본 발명이 해결하고자 하는 기술적 과제는, 오디오 재생 장치 및 전자 장치에서 인공지능 모델을 이용하여 오디오 신호를 처리하는 보다 개선된 방법을 제공하는 데 있다.
또한 본 발명이 해결하고자 하는 기술적 과제는, 낮은 지연 시간 및 전력 사용량을 유지하면서도, 보다 개선된 품질의 처리된 오디오 신호를 획득하기 위한 방법 및 장치를 제공하는 데 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서 개시된 오디오 신호를 처리하기 위한 방법은, 제1 전자 장치에서, 오디오 신호를 획득하는 단계; 상기 획득된 오디오 신호를 상기 제1 전자 장치로부터 제2 전자 장치로 전송하는 단계; 상기 제2 전자 장치에서, 상기 획득된 오디오 신호를 제1 인공지능 모델에 입력하여, 저지연으로 오디오 신호를 처리하기 위한 제2 인공지능 모델을 조정하기 위한 제1 정보를 획득하는 단계; 상기 제2 전자 장치에서, 상기 획득된 제1 정보 및 상기 획득된 오디오 신호를 상기 제2 인공지능 모델에 입력하여, 실시간으로 오디오 신호를 처리하기 위한 제3 인공지능 모델을 조정하기 위한 제2 정보를 획득하는 단계; 상기 획득된 제2 정보를 상기 제2 전자 장치로부터 상기 제1 전자 장치로 전송하는 단계; 상기 제1 전자 장치에서, 상기 획득된 제2 정보 및 상기 획득된 오디오 신호를 상기 제3 인공지능 모델에 입력하여, 상기 제3 인공지능 모델을 조정하는 단계; 상기 제1 전자 장치에서, 상기 조정된 제3 인공지능 모델에 상기 획득된 오디오 신호를 입력하여, 처리된 오디오 신호를 획득하는 단계; 및 상기 제1 전자 장치에서, 상기 처리된 오디오 신호를 재생하는 단계;를 포함할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서 개시된 오디오 신호를 처리하기 위한 방법은, 오디오 신호를 획득하는 단계; 상기 획득된 오디오 신호를 외부 전자 장치로 전송하는 단계; 상기 외부 전자 장치로부터, 실시간으로 오디오 신호를 처리하기 위한 제3 인공지능 모델을 조정하기 위한 제2 정보를 수신하는 단계; 상기 획득된 제2 정보 및 상기 획득된 오디오 신호를 상기 제3 인공지능 모델에 입력하여, 상기 제3 인공지능 모델을 조정하는 단계; 상기 조정된 제3 인공지능 모델에 상기 획득된 오디오 신호를 입력하여, 처리된 오디오 신호를 획득하는 단계; 및 상기 처리된 오디오 신호를 재생하는 단계; 를 포함할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서 개시된 오디오 신호를 처리하기 위한 방법은, 오디오 신호 재생 장치로부터, 상기 오디오 신호 재생 장치에서 획득한 오디오 신호를 수신하는 단계; 상기 획득된 오디오 신호를 제1 인공지능 모델에 입력하여, 저지연으로 오디오 신호를 처리하기 위한 제2 인공지능 모델을 조정하기 위한 제1 정보를 획득 하는 단계; 상기 획득된 제1 정보 및 상기 획득된 오디오 신호를 상기 제2 인공지능 모델에 입력하여, 실시간으로 오디오 신호를 처리하기 위한 제3 인공지능 모델을 조정하기 위한 제2 정보를 획득하는 단계; 및 상기 제3 인공지능 모델을 조정하기 위하여, 상기 획득된 제2 정보를 상기 오디오 신호 재생 장치로 전송하는 단계;를 포함할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서 개시된 오디오 신호를 처리하기 위한 시스템은, 오디오 신호를 재생하기 위한 제1 전자 장치; 및 제2 전자 장치;를 포함할 수 있다. 상기 제1 전자 장치는, 마이크로폰을 통해, 오디오 신호를 획득하고, 상기 획득된 오디오 신호를, 통신부를 통해, 상기 제2 전자 장치로 전송하도록 설정될 수 있다. 상기 제2 전자 장치는, 상기 제1 전자 장치로부터 전송된 오디오 신호를 제1 인공지능 모델에 입력하여, 저지연으로 오디오 신호를 처리하기 위한 제2 인공지능 모델을 조정하기 위한 제1 정보를 획득하고, 상기 획득된 제1 정보 및 상기 획득된 오디오 신호를 상기 제2 인공지능 모델에 입력하여, 실시간으로 오디오 신호를 처리하기 위한 제3 인공지능 모델을 조정하기 위한 제2 정보를 획득하고, 상기 획득된 제2 정보를, 통신부를 통해, 상기 제1 전자 장치로 전송하도록 설정될 수 있다. 상기 제1 전자 장치는, 상기 획득된 제2 정보 및 상기 획득된 오디오 신호를 상기 제3 인공지능 모델에 입력하여, 상기 제3 인공지능 모델을 조정하고, 상기 조정된 제3 인공지능 모델에 상기 획득된 오디오 신호를 입력하여, 처리된 오디오 신호를 획득하고, 스피커를 통해, 상기 처리된 오디오 신호를 재생하도록 더 설정될 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서 개시된 오디오 신호를 재생하기 위한 전자 장치는, 마이크로폰; 스피커; 외부 전자 장치와 통신하도록 설정되는 통신부; 인스트럭션들을 저장하는 메모리; 및 상기 마이크로폰, 상기 스피커, 상기 통신부, 및 상기 메모리와 기능적으로 결합되는 적어도 하나의 프로세서를 포함할 수 있다. 상기 적어도 하나의 프로세서는 상기 인스트럭션들을 실행하여, 상기 마이크로폰을 통해, 오디오 신호를 획득하고, 상기 획득된 오디오 신호를, 상기 통신부를 통해, 상기 외부 전자 장치로 전송하고, 상기 외부 전자 장치로부터, 상기 통신부를 통해, 실시간으로 오디오 신호를 처리하기 위한 제3 인공지능 모델을 조정하기 위한 제2 정보를 수신하고, 상기 획득된 제2 정보 및 상기 획득된 오디오 신호를 상기 제3 인공지능 모델에 입력하여, 상기 제3 인공지능 모델을 조정하고, 상기 조정된 제3 인공지능 모델에 상기 획득된 오디오 신호를 입력하여, 처리된 오디오 신호를 획득하고, 상기 스피커를 통해, 상기 처리된 오디오 신호를 재생하도록 설정될 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서 개시된 오디오 신호를 처리하기 위한 전자 장치는, 오디오 신호 재생 장치와 통신하도록 설정되는 통신부; 인스트럭션들을 저장하는 메모리; 및 상기 통신부 및 상기 메모리와 기능적으로 결합되는 적어도 하나의 프로세서를 포함할 수 있다. 상기 적어도 하나의 프로세서는 상기 인스트럭션들을 실행하여, 상기 통신부를 통해, 상기 오디오 신호 재생 장치에서 획득된 오디오 신호를 수신하고, 상기 획득된 오디오 신호를 제1 인공지능 모델에 입력하여, 저지연으로 오디오 신호를 처리하기 위한 제2 인공지능 모델을 조정하기 위한 제1 정보를 획득하고, 상기 획득된 제1 정보 및 상기 획득된 오디오 신호를 상기 제2 인공지능 모델에 입력하여, 실시간으로 오디오 신호를 처리하기 위한 제3 인공지능 모델을 조정하기 위한 제2 정보를 획득하고, 상기 획득된 제2 정보를, 상기 통신부를 통해, 상기 오디오 신호 재생 장치로 전송하도록 설정될 수 있다.
다양한 실시예들에 따른 오디오 신호 처리 방법에 따르면, 낮은 지연 시간 및 전력 사용량을 유지하면서, 고성능 인공지능 모델로부터 얻은 결과를 이용하여 오디오 신호를 처리할 수 있다.
다양한 실시예들에 따른 오디오 신호 처리 방법에 따르면, 사용자의 설정 및 현재의 음향 환경에 맞게 오디오 신호를 처리하여 사용자의 편의를 향상시킬 수 있다.
도 1은 일 실시예에 따른, 오디오 신호를 처리하기 위한 시스템의 개요도이다.
도 2는 오디오 신호를 처리하기 위한 인공지능 모델들의 다양한 실시예들을 설명하기 위한 도면이다.
도 3은 일 실시예에 따른, 오디오 신호를 처리하기 위한 시스템의 동작을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른, 오디오 신호를 처리하기 위한 시스템의 동작을 설명하기 위한 도면이다.
도 5는 일 실시예에 따른, 오디오 신호를 처리하기 위한 시스템의 동작을 설명하기 위한 도면이다.
도 6는 일 실시예에 따른, 오디오 신호를 처리하기 위한 시스템의 동작을 설명하기 위한 도면이다.
도 7은 일 실시예에 따른, 오디오 신호를 처리하기 위한 인공지능 모델들의 다층 구조를 설명하기 위한 도면이다.
도 8은 일 실시예에 따른, 오디오 신호를 처리하기 위한 방법을 나타내는 흐름도이다.
도 9는 본 개시의 오디오 신호를 처리하기 위한 방법이 사용되는 일 실시예를 나타내는 도면이다.
도 10은 다양한 실시예들에 따른 오디오 신호를 재생하기 위한 전자 장치의 블록도이다.
도 11은 다양한 실시예들에 따른 오디오 신호를 처리하기 위한 전자 장치의 블록도이다.
이하, 본 문서의 다양한 실시예들이 첨부된 도면을 참조하여 기재된다.
본 문서에서 사용된 용어들은 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 다른 실시 예의 범위를 한정하려는 의도가 아닐 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 문서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 본 문서에 사용된 용어들 중 일반적인 사전에 정의된 용어들은, 관련 기술의 문맥상 가지는 의미와 동일 또는 유사한 의미로 해석될 수 있으며, 본 문서에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 문서에서 정의된 용어일지라도 본 문서의 실시 예들을 배제하도록 해석될 수 없다.
본 문서의 다양한 실시 예들에 따른 전자 장치는, 예를 들면, 스마트폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 영상 전화기, 전자책 리더기(e-book reader), 데스크탑 PC(desktop personal computer), 랩탑 PC(laptop personal computer), 넷북 컴퓨터(netbook computer), 워크스테이션(workstation), 서버, PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어, 모바일 의료기기, 카메라(camera), 또는 웨어러블 장치(wearable device) 중 적어도 하나를 포함할 수 있다. 다양한 실시 예들에 따르면, 웨어러블 장치는 액세서리형(예: 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 이어폰, 헤드폰, 또는 머리 착용형 장치(head-mounted-device(HMD) 등), 직물 또는 의류 일체형(예: 전자 의복), 신체 부착형(예: 스킨 패드(skin pad) 또는 문신), 또는 생체 이식형(예: implantable circuit) 중 적어도 하나를 포함할 수 있다.
어떤 실시 예들에서, 전자 장치는 가전 제품(home appliance)일 수 있다. 가전 제품은, 예를 들면, 텔레비전, DVD(digital video disk) 플레이어, 오디오, 냉장고, 에어컨, 청소기, 오븐, 전자레인지, 세탁기, 공기 청정기, 셋톱 박스(set-top box), 홈 오토매이션 컨트롤 패널(home automation control panel), 보안 컨트롤 패널(security control panel), TV 박스(예: 삼성 HomeSyncTM, 애플TVTM, 또는 구글 TVTM), 게임 콘솔(예: XboxTM, PlayStationTM), 전자 사전, 전자 키, 캠코더(camcorder), 또는 전자 액자 중 적어도 하나를 포함할 수 있다.
다른 실시 예에서, 전자 장치는, 각종 의료기기(예: 각종 휴대용 의료측정기기(혈당 측정기, 심박 측정기, 혈압 측정기, 또는 체온 측정기 등), MRA(magnetic resonance angiography), MRI(magnetic resonance imaging), CT(computed tomography), 촬영기, 또는 초음파기 등), 네비게이션(navigation) 장치, 위성 항법 시스템(GNSS, global navigation satellite system), EDR(event data recorder), FDR(flight data recorder), 자동차 인포테인먼트(infotainment) 장치, 선박용 전자 장비(예: 선박용 항법 장치, 자이로 콤파스 등), 항공 전자기기(avionics), 보안 기기, 차량용 헤드 유닛(head unit), 산업용 또는 가정용 로봇, 금융 기관의 ATM(automatic teller's machine), 상점의 POS(point of sales), 또는 사물 인터넷 장치(internet of things)(예: 전구, 각종 센서, 전기 또는 가스 미터기, 스프링클러 장치, 화재경보기, 온도조절기(thermostat), 가로등, 토스터(toaster), 운동기구, 온수탱크, 히터, 보일러 등) 중 적어도 하나를 포함할 수 있다.
어떤 실시 예에 따르면, 전자 장치는 가구(furniture) 또는 건물/구조물의 일부, 전자 보드(electronic board), 전자 사인 수신 장치(electronic signature receiving device), 프로젝터(projector), 또는 각종 계측 기기(예: 수도, 전기, 가스, 또는 전파 계측 기기 등) 중 적어도 하나를 포함할 수 있다.
다양한 실시 예들에서 전자 장치는 전술한 다양한 장치들 중 하나 또는 그 이상의 조합일 수 있다. 어떤 실시 예에 따른 전자 장치는 플렉서블 전자 장치일 수 있다. 또한, 본 문서의 실시 예에 따른 전자 장치는 전술한 기기들에 한정되지 않으며, 기술 발전에 따른 새로운 장치를 포함할 수 있다.
인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.
인공지능 기술은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘을 이용하는 기계학습(딥러닝) 기술 및 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 요소 기술들로 구성된다.
기계학습은 입력 데이터의 특징을 스스로 분류/학습하는 알고리즘 기술이다. 요소 기술들은, 예로, 인간의 언어/문자를 인식하는 언어적 이해 기술, 사물을 인간의 시각처럼 인식하는 시각적 이해 기술, 정보를 판단하여 논리적으로 추론하고 예측하는 추론/예측 기술, 인간의 경험 정보를 지식데이터로 처리하는 지식 표현 기술 및 차량의 자율 주행, 로봇의 움직임을 제어하는 동작 제어 기술 중 적어도 하나를 포함할 수 있다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계번역, 대화 시스템, 질의 응답, 음성 인식/합성 등을 포함한다.
본 개시에 따른 인공지능과 관련된 기능은 프로세서와 메모리를 통해 동작될 수 있다. 프로세서는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 메모리에 저장된 기 정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어할 수 있다. 또는, 하나 또는 복수의 프로세서가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는, 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.
기 정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어질 수 있다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버 및/또는 시스템을 통해 이루어 질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.
인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행할 수 있다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다. 인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.
도 1은 일 실시예에 따른, 오디오 신호를 처리하기 위한 시스템의 개요도이다.
도 1을 참조하면, 상기 오디오 신호를 처리하기 위한 시스템은 제1 전자 장치(100) 및 제2 전자 장치(200)를 포함할 수 있다.
제1 전자 장치(100)는 오디오를 재생하기 위한 장치일 수 있다. 다양한 실시예들에서, 제1 전자 장치(100)는 사용자가 휴대 가능한 모바일 장치일 수 있다. 다양한 실시예들에서, 제1 전자 장치(100)는 사용자의 신체에 착용 가능한 웨어러블 장치일 수 있다. 다양한 실시예들에서, 제1 전자 장치(100)는 자체적인 오디오 처리 기능을 가지는 스마트 장치(smart device)일 수 있다. 예를 들어, 제1 전자 장치(100)는 TWS(true wireless) 장치, 히어러블 장치(Hearable Device), 지능형 이어폰(Intelligent Earbuds), 지능형 헤드폰, 또는 인공지능 스피커(AI speaker)일 수 있다. 물론, 상기 예시에 한정되지 않는다.
다양한 실시예들에서, 제1 전자 장치(100)는 제1 전자 장치(100)의 일부로서 구성된 마이크를 통하여 제1 전자 장치(100)의 외부로부터 획득한 소리에 대응하는 오디오 신호를 수신할 수 있다. 일 실시예에서, 제1 전자 장치(100)는 제2 전자 장치(200)와 연결 단자를 통해 직접, 또는 무선 통신 모듈을 통하여 무선으로(예: Bluetooth 통신) 연결되어, 제1 전자 장치(100)에서 획득한 오디오 신호를 송신하거나, 또는 제2 전자 장치(200)로부터 오디오 신호를 수신할 수 있다. 일 실시예에 따르면, 제1 전자 장치(100)는 제2 전자 장치(200)로부터 획득되는 오디오 신호와 관련된 제어 신호(예: 입력 버튼을 통해 수신된 볼륨 조정 신호)를 수신할 수 있다. 일 실시예에 따르면, 제1 전자 장치(100)는 제2 전자 장치(200)로부터 오디오 신호의 처리와 관련된 정보를 수신할 수 있다.
다양한 실시예들에서, 제1 전자 장치(100)는 수신된 오디오 신호에 대하여 다양한 처리를 수행할 수 있다. 예를 들어, 제1 전자 장치(100)는 하나 이상의 오디오 신호들에 대해 샘플링 비율 변경, 하나 이상의 필터 적용, 보간(interpolation) 처리, 전체 또는 일부 주파수 대역의 증폭 또는 감쇄, 노이즈 처리(예: 노이즈 또는 에코 감쇄), 채널 변경(예: 모노 및 스테레오간 전환), 합성(mixing), 또는 지정된 신호 추출을 수행할 수 있다.
일 실시예에 따르면, 제1 전자 장치(100)의 하나 이상의 오디오 신호 처리 기능들은 DSP(Digital Signal Processor)에 의하여 구현될 수 있다. 일 실시예에 따르면, 제1 전자 장치(100)의 하나 이상의 오디오 신호 처리 기능들은 전용 NPU(Neural Processing Unit)에 의하여 구현될 수 있다.
다양한 실시예들에서, 제1 전자 장치(100)는 오디오 신호를 스피커를 통해 제1 전자 장치(100)의 외부로 출력할 수 있다. 스피커는, 예를 들어, dynamic driver 또는 balanced armature driver를 포함할 수 있다. 일 실시예에 따르면, 제1 전자 장치(100)는 복수의 스피커들을 포함할 수 있다. 이런 경우, 제1 전자 장치(100)는 상기 복수의 스피커들 중 적어도 일부 스피커들을 통하여 서로 다른 복수의 채널들(예: 스테레오, 또는 5.1채널)을 갖는 오디오 신호를 출력할 수 있다.
제2 전자 장치(200)는 오디오를 처리하기 위한 장치일 수 있다. 다양한 실시예들에서, 제2 전자 장치(200)는 제1 전자 장치(100)를 제어할 수 있는 장치일 수 있다. 다양한 실시예들에서, 제2 전자 장치(200)는 사용자가 휴대 가능한 모바일 장치일 수 있다. 예를 들어, 제2 전자 장치(200)는 스마트폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 전자책 리더기(e-book reader), 랩탑 PC(laptop personal computer), 넷북 컴퓨터(netbook computer), PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어 중 적어도 하나를 포함할 수 있다. 물론, 상기 예시에 한정되지 않는다.
다양한 실시예들에서, 제2 전자 장치(200)는 제1 전자 장치(100)와 연결 단자를 통해 직접, 또는 무선 통신 모듈을 통하여 무선으로(예: Bluetooth 통신) 연결되어, 제1 전자 장치(100)로부터 오디오 신호를 수신하거나, 또는 제1 전자 장치(100)로 오디오 신호를 송신할 수 있다. 일 실시예에 따르면, 제2 전자 장치(200)는 제1 전자 장치(100)에 전송되는 오디오 신호와 관련된 제어 신호(예: 입력 버튼을 통해 수신된 볼륨 조정 신호)를 송신할 수 있다. 일 실시예에 따르면, 제2 전자 장치(200)는 제1 전자 장치(100)에 오디오 신호의 처리와 관련된 정보를 전송할 수 있다.
다양한 실시예들에서, 제2 전자 장치(200)는 오디오 신호에 대하여 다양한 처리를 수행할 수 있다. 예를 들어, 제2 전자 장치(200)는 하나 이상의 오디오 신호들에 대해 샘플링 비율 변경, 하나 이상의 필터 적용, 보간(interpolation) 처리, 전체 또는 일부 주파수 대역의 증폭 또는 감쇄, 노이즈 처리(예: 노이즈 또는 에코 감쇄), 채널 변경(예: 모노 및 스테레오간 전환), 합성(mixing), 또는 지정된 신호 추출을 수행할 수 있다.
본 개시의 다양한 실시예들에 따른 오디오 신호 처리 시스템은, 다양한 목적을 위한 오디오 신호 처리를 수행할 수 있다. 일 실시예에서, 오디오 신호 처리 시스템은, 어떤 오디오 신호 처리를 수행할지 결정하기 위하여, 전자 장치가 사용되고 있는 환경, 컨텍스트, 또는 조건을 분석할 수 있다. 예를 들어, 오디오 신호 처리 시스템은, 오디오 신호를 처리하여, 사운드 분리(Sound Separation), 사운드 향상(Sound Enhancement), 선택적 청음(Selective Listening), 능동적 노이즈 제거(Active Noise Cancelation), 음향 에코 제거(Acoustic Echo Cancelation), 환경음 통과(Ambient Pass-Though), 빔포밍(Beamforming), 및 선택적 필터링(Selective Filtering) 중 적어도 하나를 수행할 수 있다. 예를 들어, 본 개시의 오디오 신호 처리 시스템은, 오디오 신호를 분석하여, 음성 식별(Voice Fingerprinting), 호출 감지(Wake-Up Spotters) 및 긴급 사운드 감지(Emergency Sound Dectection) 등의 사운드 이벤트 감지(Sound Event Detection), 음향 장면 분석(Acoustic Scene Analysis), 청음 목표 선택(Listening Target Selection), 중 적어도 하나를 수행할 수 있다.
본 개시의 다양한 실시예에 따르면, 제1 전자 장치(100)와 제2 전자 장치(200)는 오디오 신호의 처리에 있어서 기능적으로 결합하여 동작할 수 있다. 다양한 실시예들에서, 제1 전자 장치(100)와 제2 전자 장치(200)는 오디오 신호의 처리를 위한 동작들을 나누어 수행할 수 있다. 다양한 실시예들에서, 제1 전자 장치(100)와 제2 전자 장치(200)는 각각 다른 종류의 오디오 신호 처리를 수행할 수 있다. 예를 들어, 제1 전자 장치(100)는 적은 연산 자원을 필요로 하는 처리를 수행하고, 제2 전자 장치(200)는 많은 연산 자원을 필요로 하는 처리를 수행할 수 있다. 예를 들어, 제1 전자 장치(100)는 실시간 신호 처리, 또는 적은 지연 시간(latency)을 요구하는 신호 처리를 수행하고, 제2 전자 장치(200)는 비교적 긴 주기로 동작하거나, 또는 지연 시간에 대한 요구가 크지 않은 신호 처리를 수행할 수 있다.
본 개시의 다양한 실시예에 따르면, 제1 전자 장치(100)와 제2 전자 장치(200)는 각각 오디오 신호를 처리하기 위하여 인공지능 모델을 이용할 수 있다. 인공지능 모델을 사용하여 오디오 신호를 처리하는 방법의 예시들이 이하 도 2 내지 도 7을 참조하여 보다 상세히 설명된다.
도 2는 오디오 신호를 처리하기 위한 인공지능 모델들의 다양한 실시예들을 설명하기 위한 도면이다.
오디오 신호를 처리하기 위한 인공지능 모델들은 그 목적에 따라 다른 시간 스케일에서 동작할 수 있다. 인공지능 모델의 표현형 및 예견 시간에 따라, 인공지능 모델이 데이터를 수집하는 데 걸리는 데이터 지연 시간이 결정될 수 있다. 인공지능 모델의 복잡도가 높을수록, 인공지능 모델이 데이터를 처리하는 데 걸리는 모델 지연 시간이 결정될 수 있다. 입출력 데이터의 크기가 클 수록, 예견 시간이 길 수록, 복잡도가 높을수록, 인공지능 모델을 보다 일반적인 상황에 적용할 수 있지만, 대신 지연 시간이 길어질 수 있다. 반대로 입출력 데이터가 작고, 예견 시간이 짧으며, 복잡도가 낮은 인공지능 모델의 경우, 특정 작업에 대해서만 학습되어야 하지만, 짧은 지연 시간으로 인해 실시간 처리에 이용될 수 있다.
도 2를 참조하면, 오프라인 처리를 위한 제1 인공지능 모델(210), 온라인에서의 프레임별 처리를 위한 제2 인공지능 모델(220), 및 온라인에서의 샘플별 처리를 위한 제3 인공지능 모델(230)이 도시된다.
제1 인공지능 모델(210)은 전체 오디오 신호를 입력받아 처리하는 인공지능 모델이다. 제1 인공지능 모델(210)은 높은 복잡도(complexity) 및 지연 시간(latency)을 가지는 인공지능 모델일 수 있다. 일 실시예에서, 제1 인공지능 모델(210)은 임의의 음향 환경에 적용할 수 있는 범용(versatile) 모델일 수 있다.
일 실시예에서, 제1 인공지능 모델(210)에 입출력할 수 있는 데이터는 임의의 크기로 지정될 수 있다. 즉, 제1 인공지능 모델(210)은 임의의 시간 동안 수집한 오디오 데이터를 처리할 수 있다. 예를 들어, 제1 인공지능 모델은 하나 이상의 오디오 클립(clip)을 입력받아, 하나 이상의 처리된 오디오 클립을 출력할 수 있다. 따라서, 제1 인공지능 모델(210)은 임의의 데이터 지연 시간을 가질 수 있다. 일 실시예에서, 제1 인공지능 모델(210)에 의한 오디오 신호 처리는 데이터 수집보다 더 오랜 시간이 걸릴 수 있다. 이 경우 제1 인공지능 모델(210)에 입력되는 데이터는 입력되기 전에 미리 기록되어야 할 수 있다. 따라서, 제1 인공지능 모델(210)은 임의의 모델 지연 시간을 가지며, 지연 시간이 중요하지 않은 신호 처리에 이용될 수 있다.
일 실시예에서, 제1 인공지능 모델은 과거의 신호 및 미래의 신호 모두에 의존하는 모델(예를 들어, 양방향 LSTM(Bidirectional Long Short-Term Memory))을 포함할 수 있다. 일 실시예에서, 제1 인공지능 모델(210)은 높은 복잡도로 인해, 학습에 큰 데이터세트가 요구될 수 있다. 따라서, 제1 인공지능 모델(210)은 미리 학습된 후, 사용될 전자 장치에 설치될 수 있다.
제1 인공지능 모델(210)은, 예를 들어, 음성 식별(voice fingerprinting), 음향 장면 구분(Acoustic Scenes Classification), 사운드 이벤트 감지(Sound Event Detection), 청음 목표 선택(listening target selection), 사운드 분리(Sound Separation), 사운드 향상(Sound Enhancement), 및 음성 임베딩(Speech embedding) 중 적어도 하나를 수행하기 위하여 학습된 인공지능 모델일 수 있다.
제2 인공지능 모델(220)은 프레임 단위의 오디오 데이터를 입력받아 처리하는 인공지능 모델이다. 여기에서 프레임은 소정의 시간 윈도우에 대한 FFT(fast Fourier transform)의 결과로 획득되는 스펙트럼을 의미한다. 제2 인공지능 모델(220)은 중간 정도의 복잡도 및 낮은 지연 시간을 가지는 인공지능 모델일 수 있다. 제2 인공지능 모델(220)은 특정 사용자 또는 현재의 음향 환경을 위해 적응된 또는 학습된 모델일 수 있다.
일 실시예에서, 제2 인공지능 모델(220)은 하나 이상의 프레임의 오디오 데이터를 입력받을 수 있다. 예를 들어, 제2 인공지능 모델(220)은 오디오 신호의 스펙토그램(spectrogram)을 입력받아, 단일 프레임의 STFT(Short-time Fourier transform) 오디오 데이터를 출력할 수 있다. 따라서, 제2 인공지능 모델(220)은 적어도 프레임 길이(예를 들어, 25ms)만큼의 데이터 지연 시간을 가질 수 있다. 일 실시예에서, 제2 인공지능 모델(220)은 데이터를 수집하는 속도만큼 오디오 신호를 처리할 수 있을 수 있다. 예를 들어, 제2 인공지능 모델(220)은 10-40ms의 모델 지연 시간을 가질 수 있다. 따라서, 제2 인공지능 모델(220)은 온라인(실시간) 신호 처리에 이용될 수 있으나, 출력 신호는 입력 신호에 대해 적어도 단일 프레임 길이만큼 지연될 수 있다.
일 실시예에서, 제2 인공지능 모델(220)은 전자 장치의 사용자 데이터에 의해 학습될 수 있다. 예를 들어, 제2 인공지능 모델(220)은 사용자의 음성 샘플, 장치 보정 등에 의해 학습될 수 있다. 따라서, 제2 인공지능 모델(220)은 미리 학습된 후에 전자 장치에 설치될 수도 있지만, 전자 장치의 사용 과정에서 계속 학습되어 업데이트될 수도 있다.
제2 인공지능 모델(220)은, 예를 들어, 선택적 청음(selective listening), 음성 식별(voice fingerprinting), 호출 감지(wake-up spotters), 및 긴급 사운드 감지(emergency sound dectection) 중 적어도 하나를 수행하기 위하여 학습된 인공지능 모델일 수 있다.
제3 인공지능 모델(230)은 샘플 단위의 오디오 데이터를 입력받아 처리하는 인공지능 모델이다. 여기에서 샘플은 시간 영역 신호의 단일 값을 의미한다. 제3 인공지능 모델(230)은 낮은 복잡도 및 짧은 지연 시간을 가지는 인공지는 모델일 수 있다. 제3 인공지능 모델(230)은 특정 음향 환경에서의 특정한 기능을 수행하기 위해 학습된 인공지능 모델일 수 있다. 일 실시예에서, 제3 인공지능 모델(230)은 적응적 필터(adaptive filter)를 포함할 수 있다.
일 실시예에서, 제3 인공지능 모델(230)은 하나 이상의 샘플의 오디오 데이터를 입력받을 수 있다. 예를 들어, 제3 인공지능 모델(230)은 수 개의 샘플들을 입력받아, 하나의 샘플의 오디오 데이터를 출력할 수 있다. 따라서, 제3 인공지능 모델(230)은 데이터 지연 시간이 없거나 또는 단일 샘플 길이만큼 짧을 수 있다. 일 실시예에서, 제3 인공지능 모델(230)은 데이터를 수집하는 속도만큼 오디오 신호를 처리할 수 있을 수 있다. 예를 들어, 제3 인공지능 모델(230)은 1ms 이하의 모델 지연 시간을 가질 수 있다. 따라서, 제3 인공지능 모델(230)은 실시간 신호 처리에 이용될 수 있다.
일 실시예에서, 제3 인공지능 모델(230)은 전자 장치의 사용자 데이터에 의해 학습될 수 있다. 따라서, 제3 인공지능 모델(230)은 미리 학습된 후에 전자 장치에 설치될 수도 있지만, 전자 장치의 사용 과정에서 계속 학습되어 업데이트될 수도 있다.
제3 인공지능 모델(230)은, 예를 들어, 선택적 청음(Selective Listening), 능동적 노이즈 제거(Active Noise Cancellation), 음향 에코 제거(Acoustic Echo Cancellation), 환경음 통과(Ambient Pass-Though), 빔포밍(Beamformers), 및 적응적 필터링(Adaptive Filters) 중 적어도 하나를 수행하기 위하여 학습된 인공지능 모델일 수 있다.
일 실시예에서, 큰 인공지능 모델, 예를 들어 제1 인공지능 모델(210) 또는 제2 인공지능 모델(220)은, 연산 자원 필요에 의해 오디오 재생 장치가 아닌 외부 전자 장치에 설치되어 동작할 수 있다. 예를 들어, 외부 전자 장치는 인공지능 모델을 이용하여 오디오 신호를 처리하고, 오디오 신호의 처리와 관련된 정보, 또는 처리된 오디오 신호를 오디오 재생 장치로 전송할 수 있다. 일 실시예에서, 작은 인공지능 모델, 예를 들어 제2 인공지능 모델(220) 또는 제3 인공지능 모델(230)은, 오디오 재생 장치에 탑재되어 실시간 처리를 위해 이용될 수 있다. 예를 들어, 오디오 재생 장치는 인공지능 모델을 이용하여 수신된 오디오 신호를 실시간으로 처리하고, 처리된 오디오 신호를 재생할 수 있다.
도 3은 일 실시예에 따른, 오디오 신호를 처리하기 위한 시스템의 동작을 설명하기 위한 도면이다. 도 3에 도시된 제1 전자 장치(100) 및 제2 전자 장치(200)는 각각 도 1에 도시된 제1 전자 장치(100) 및 제2 전자 장치(200)에 대응될 수 있다.
도 3을 참조하면, 동작 301에서, 제1 전자 장치(100)는 오디오 신호를 수집할 수 있다. 일 실시예에서, 제1 전자 장치(100)는 제1 전자 장치(100)의 일부로서 구성된 마이크를 통하여 제1 전자 장치(100)의 외부의 소리를 캡처할 수 있다. 일 실시예에서, 제1 전자 장치(100)는 제2 전자 장치(200) 또는 외부의 다른 전자 장치로부터 오디오 신호를 수신할 수 있다. 일 실시예에서, 제1 전자 장치(100)는 복수의 오디오 신호들을 적어도 하나의 오디오 신호로 합성할 수 있다.
동작 302에서, 제1 전자 장치(100)는 수집한 오디오 신호를 실시간 처리할지 여부를 결정할 수 있다. 일 실시예에서, 오디오 신호를 실시간 처리할지 여부는 목표하는 오디오 신호 처리의 기능이 무엇인지에 따라 결정될 수 있다. 예를 들어, 선택적 청음, 능동적 노이즈 제거, 음향 에코 제거, 환경음 통과, 또는 적응적 필터링 등의 신호 처리 기능이 수행되어야 하는 경우, 제1 전자 장치(100)는 수집한 오디오 신호를 실시간 처리하기로 결정할 수 있다. 물론 상기 예시에 제한되지 않는다. 일 실시예에서, 오디오 신호를 실시간 처리할지 여부는 사용자 입력에 기초하여 결정될 수 있다. 예를 들어, 사용자가 제1 전자 장치(100)의 선택적 청음, 능동적 노이즈 제거, 음향 에코 제거, 환경음 통과, 또는 적응적 필터링 등의 신호 처리 기능을 활성화한 경우, 제1 전자 장치(100)는 수집한 오디오 신호를 실시간 처리하기로 결정할 수 있다.
수집한 오디오 신호를 실시간 처리하기로 결정한 경우, 동작 303에서, 제1 전자 장치(100)는 실시간 처리를 위한 신호 필터를 조정할 수 있다. 일 실시예에서, 제1 전자 장치(100)는 목표하는 오디오 신호 처리의 기능에 따라, 필터 계수를 조정할 수 있다. 일 실시예에서, 필터 계수는 목표하는 기능을 수행하기 위해, 즉 주어진 오디오 신호의 입력으로부터 원하는 출력을 얻도록 조정될 수 있다. 예를 들어, 빔포밍 기능을 수행하고자 하는 경우, 입력된 신호에 적절한 지연(delay)을 적용하여 오디오 신호들이 분리되는 효과를 얻게끔 필터 계수가 조정될 수 있다. 다른 예를 들어, 선택적 청음 기능을 수행하고자 하는 경우, 주파수 영역에서 특정 주파수를 필터링함으로써 원하는 음성을 분리하도록 필터 계수가 조정될 수 있다. 일 실시예에서, 제1 전자 장치(100)는 수집한 오디오 신호의 특성에 따라 필터 계수를 조정할 수 있다.
수집한 오디오 신호를 실시간 처리하기로 결정한 경우, 동작 304에서, 제1 전자 장치(100)는 수집된 오디오 신호에 필터를 적용하여 처리된 오디오 신호를 획득할 수 있다.
일 실시예에서, 동작 304에서 적용되는 필터는 실시간 처리가 가능한 인공지능 모델(예를 들어, 도 2에 도시된 제3 인공지능 모델(230))일 수 있다. 이 경우, 동작 303의 필터 조정이란, 수집된 오디오 신호를 이용하여 인공지능 모델을 학습시키는 것을 의미할 수 있다. 일 실시예에서, 동작 303 및 304에서 인공지능 모델의 학습 및 적용은 실시간으로 수행될 수 있다.
수집한 오디오 신호를 실시간 처리하지 않기로 결정한 경우, 제1 전자 장치(100)는 제2 전자 장치(200)로 수집된 오디오 신호를 전송할 수 있다. 동작 305에서, 제2 전자 장치(200)는 제1 전자 장치(100)로부터 수신된 오디오 신호의 샘플을 이후의 처리를 위해 저장할 수 있다. 일 실시예에서, 상기 저장은 짧은 데이터 지연 시간을 갖는 온라인 모델(예를 들어, 도 2에 도시된 제2 인공지능 모델(220))에서의 처리를 위한 단기(short-time) 저장일 수 있다. 다른 실시예에서, 상기 저장은 긴 데이터 지연 시간을 갖는 오프라인 모델(예를 들어, 도 2에 도시된 제1 인공지능 모델(210))에서의 처리를 위한 장기(long-time) 저장일 수 있다.
동작 306에서, 제2 전자 장치(200)는 상기 저장된 오디오 신호의 샘플을 사운드 향상 인공지능 모델에 입력하여, 처리된 오디오 신호를 얻을 수 있다. 일 실시예에서, 사운드 향상 인공지능 모델은 오프라인으로 오디오 신호를 처리하기 위한 인공지능 모델(예를 들어, 도 2에 도시된 제1 인공지능 모델(210))을 포함할 수 있다. 일 실시예에서, 사운드 향상 인공지능 모델은 저지연(low-latency)으로 오디오 신호를 처리하기 위한 인공지능 모델(예를 들어, 도 2에 도시된 제2 인공지능 모델(220))을 포함할 수 있다. 일 실시예에서, 사운드 향상 인공지능 모델은 미리 학습되어 제2 전자 장치(200)에 설치되어 있을 수 있다.
동작 307에서, 제2 전자 장치(200)는 상기 처리된 오디오 신호의 샘플을 이후의 재생을 위해 저장할 수 있다. 일 실시예에서, 상기 저장은 온라인 처리가 불가능한 모델(예를 들어, 도 2에 도시된 제1 인공지능 모델(210))을 위한 저장일 수 있다.
동작 308에서, 제2 전자 장치(200)는 처리된 오디오 신호를 재생할 수 있다. 일 실시예에서, 제2 전자 장치(200)는 처리된 오디오 신호를 제1 전자 장치(100)로 전송할 수 있다.
동작 309에서, 제1 전자 장치(100)는 처리된 오디오 신호를 스피커를 통해 재생할 수 있다. 상기 처리된 오디오 신호는, 수집한 오디오 신호를 실시간 처리하기로 결정하였던 경우, 제1 전자 장치(100)에서 실시간 처리된 오디오 신호이며, 수집한 오디오 신호를 실시간 처리하지 않기로 결정한 경우, 제2 전자 장치(200)에서 처리된 후 전송된 오디오 신호일 수 있다.
도 4는 일 실시예에 따른, 오디오 신호를 처리하기 위한 시스템의 동작을 설명하기 위한 도면이다. 도 4에 도시된 제1 전자 장치(100) 및 제2 전자 장치(200)는 각각 도 1에 도시된 제1 전자 장치(100) 및 제2 전자 장치(200)에 대응될 수 있다.
도 4를 참조하면, 도 3에 도시된 오디오 신호를 처리하기 위한 시스템의 동작들이 보다 간략하게 도시된다. 제1 전자 장치(100)에서는, 수집한 오디오 신호가 필터(304)에 의해 실시간으로 처리되고, 처리된 오디오 신호가 재생될 수 있다. 제2 전자 장치(200)에서는, 저장된 오디오 신호가 사운드 향상 인공지능 모델(306)에 의하여 오프라인으로 또는 저지연으로 처리되고, 처리된 오디오 신호는 다시 이후의 재생을 위해 저장될 수 있다. 일 실시예에 따르면, 제1 전자 장치(100)에서 수집된 오디오 신호는 제2 전자 장치(200)로 전송되어 처리를 위해 저장될 수 있고, 제2 전자 장치(200)에서 처리된 오디오 신호는 제1 전자 장치(100)로 전송되어 재생될 수 있다.
그러나, 상술한 실시예에 따르면, 제1 전자 장치(100)의 필터(304)에서는 제2 전자 장치(200)의 사운드 향상 인공지능 모델(306)에서 수행된 신호 처리의 결과를 이용할 수 없다. 또한, 제1 전자 장치(100)의 필터(304)에서는 복잡한 기능 수행이 가능하지 않기 때문에, 오직 간단한 기능만이 수행될 수 있다. 한편, 제2 전자 장치(200)의 사운드 향상 인공지능 모델(306)은 보다 복잡한 고급 신호 처리 기능을 수행할 수 있으나, 실시간 신호 처리가 불가능하다. 제1 전자 장치(100)와 제2 전자 장치(200)간의 통신 지연 시간과 모델 지연 시간에 의해, 제1 전자 장치(100)는 제2 전자 장치(200)에서 처리된 오디오 신호를 실시간으로 재생할 수 없다.
상기한 문제점을 해결하기 위하여, 본 개시의 다양한 실시예들에서는, 큰 범용 모델에서 획득한 정보를 작고 특화된 모델에서 이용할 수 있게 하여, 보다 높은 품질의 오디오 데이터를 효율적으로 얻기 위한 방법을 제안한다.
도 5는 일 실시예에 따른, 오디오 신호를 처리하기 위한 시스템의 동작을 설명하기 위한 도면이다. 도 5에 도시된 제1 전자 장치(100) 및 제2 전자 장치(200)는 각각 도 1에 도시된 제1 전자 장치(100) 및 제2 전자 장치(200)에 대응될 수 있다.
도 5를 참조하면, 제1 전자 장치(100)는 실시간으로 오디오 신호를 처리하기 위한 제3 인공지능 모델을 포함할 수 있다. 일 실시예에서, 상기 제3 인공지능 모델은 도 2에 도시된 제3 인공지능 모델(230)에 상응할 수 있다. 일 실시예에서, 제3 인공지능 모델은 미리 학습되어 제1 전자 장치(100)에 설치되어 있을 수 있다. 제2 전자 장치(100)는 오프라인으로 오디오 신호를 처리하기 위한 제1 인공지능 모델과, 저지연으로 오디오 신호를 처리하기 위한 제2 인공지능 모델을 포함하는, 다층 모델을 포함할 수 있다. 일 실시예에서, 상기 제1 인공지능 모델 및 제2 인공지능 모델은 각각 도 2에 도시된 제1 인공지능 모델(210) 및 제2 인공지능 모델(220)에 상응할 수 있다. 일 실시예에서, 제1 인공지능 모델 및 제2 인공지능 모델은 미리 학습되어 제2 전자 장치(200)에 설치되어 있을 수 있다.
동작 501에서, 제1 전자 장치(100)는 오디오 신호를 획득할 수 있다. 일 실시예에서, 제1 전자 장치(100)는 제1 전자 장치(100)의 일부로서 구성된 마이크를 통하여 제1 전자 장치(100)의 외부의 소리를 캡처할 수 있다. 일 실시예에서, 제1 전자 장치(100)는 제2 전자 장치(200) 또는 외부의 다른 전자 장치로부터 오디오 신호를 수신할 수 있다. 일 실시예에서, 제1 전자 장치(100)는 복수의 오디오 신호들을 적어도 하나의 오디오 신호로 합성할 수 있다.
제1 전자 장치(100)는 상기 획득된 오디오 신호를 제2 전자 장치(200)로 전송할 수 있다. 동작 502에서, 제2 전자 장치(200)는 제1 전자 장치(100)로부터 수신된 오디오 신호의 샘플을 이후의 처리를 위해 저지연 버퍼에 저장할 수 있다. 일 실시예에서, 상기 저장은 저지연으로 오디오 신호를 처리하기 위한 제2 인공지능 모델에서의 처리를 위한 단기(short-time) 저장일 수 있다. 예를 들어, 상기 저지연 버퍼는 제2 인공지능 모델에 입력될 스펙트럼의 계산을 위한 오디오 샘플, 즉 소정의 시간 윈도우에 대응되는 오디오 샘플을 저장할 수 있다.
동작 503에서, 제2 전자 장치(200)는 제1 전자 장치(100)로부터 수신된 오디오 신호의 샘플을 이후의 처리를 위해 버퍼에 저장할 수 있다. 상기 저장은 오프라인으로 오디오 신호를 처리하기 위한 제1 인공지능 모델에서의 처리를 위한 장기(long-time) 저장일 수 있다. 예를 들어, 상기 버퍼는 제1 인공지능 모델에 입력될 오디오 클립에 대응되는 오디오 샘플을 저장할 수 있다. 예를 들어, 상기 버퍼는 소정의 시간 동안의 오디오 샘플을 저장할 수 있다.
동작 504에서, 제2 전자 장치(200)는 상기 버퍼에 저장된 오디오 신호를 제1 인공지능 모델에 입력하여, 제2 인공지능 모델을 조정하기 위한 제1 정보를 획득할 수 있다. 일 실시예에서, 상기 제1 정보는, 제1 인공지능 모델을 통하여 처리된 오디오 신호를 포함할 수 있다. 일 실시예에서, 상기 제1 정보는, 제2 인공지능 모델에서 수행할 작업에 관한 정보를 포함할 수 있다. 일 실시예에서, 상기 제1 정보는, 제2 인공지능 모델에서 목표하는 기능을 달성하기 위해 제2 인공지능 모델에서 출력되어야 할 목표 신호를 포함할 수 있다. 일 실시예에서, 상기 제1 정보는, 음향 환경을 나타내는 정보를 포함할 수 있다.
동작 505에서, 제2 전자 장치(200)는 상기 제1 정보를 이용하여 제2 인공지능 모델을 조정할 수 있다. 일 실시예에서, 제2 전자 장치(200)는 상기 제1 정보를 이용하여 제2 인공지능 모델을 학습 또는 적응시킬 수 있다. 일 실시예에서, 제2 인공지능 모델은 입력된 오디오 신호를 처리하여, 상기 제1 정보로서 제공된 목표 신호를 출력하도록 학습될 수 있다. 일 실시예에서, 제2 전자 장치(200)는 상기 제1 정보를 이용하여 제2 인공지능 모델에 환경 조건을 제공할 수 있다.
일 실시예에서, 제2 전자 장치(200)는 상기 버퍼가 가득 참에 기초하여, 상기 제1 정보를 획득하고, 상기 제1 정보를 이용하여 제2 인공지능 모델을 조정할 수 있다. 일 실시예에서, 제2 전자 장치(200)는 음향 환경의 변화가 감지됨에 기초하여, 상기 제1 정보를 획득하고, 상기 제1 정보를 이용하여 제2 인공지능 모델을 조정할 수 있다. 일 실시예에서, 제2 전자 장치(200)는 주기적으로 (예를 들어, 1~5초마다) 상기 제1 정보를 획득하고, 상기 제1 정보를 이용하여 제2 인공지능 모델을 조정할 수 있다. 일 실시예에서, 상기 제 1 정보의 획득은 지속적으로 수행되고, 상기 제1 정보를 이용한 제2 인공지능 모델의 조정은 소정의 조건을 만족함에 기초하여 또는 주기적으로 수행될 수 있다.
동작 506에서, 제2 전자 장치(200)는 상기 획득된 제1 정보 및 상기 저지연 버퍼에 저장된 오디오 신호를 제2 인공지능 모델에 입력하여, 제1 전자 장치(100)의 신호 필터, 즉 제3 인공지능 모델을 조정하기 위한 제2 정보를 획득할 수 있다.
일 실시예에서, 상기 제2 정보는, 제2 인공지능 모델을 통하여 처리된 오디오 신호를 포함할 수 있다. 일 실시예에서, 상기 제2 정보는, 신호 필터에서 수행할 작업에 관한 정보를 포함할 수 있다. 일 실시예에서, 상기 제2 정보는, 신호 필터에서 목표하는 기능을 달성하기 위해 신호 필터에서 출력되어야 할 목표 신호를 포함할 수 있다. 일 실시예에서, 상기 제2 정보는, 음향 환경을 나타내는 정보를 포함할 수 있다.
제2 전자 장치(200)는 상기 획득된 제2 정보를 제1 전자 장치(100)로 전송할 수 있다. 제1 전자 장치(100)는 상기 획득된 제2 정보 및 수집된 오디오 신호를 이용하여, 상기 신호 필터를 조정할 수 있다.
일 실시예에서, 제1 전자 장치(100)는 상기 제2 정보를 이용하여 신호 필터, 즉 제3 인공지능 모델을 학습시킬 수 있다. 제3 인공지능 모델은 입력된 오디오 신호를 처리하여, 상기 제2 정보로서 제공된 목표 신호를 출력하도록 학습될 수 있다. 일 실시예에서, 제1 전자 장치(100)는 상기 제2 정보를 이용하여 제3 인공지능 모델에 환경 조건을 제공할 수 있다. 일 실시예에서, 상기 제2 정보는 제3 인공지능 모델의 시작 가중치, 필터 길이, 필터 계수, 필터 아키텍처의 기타 측면, 또는 적응 방법과 그 하이퍼 매개변수 중 적어도 하나를 선택하기 위해 이용될 수 있다.
일 실시예에서, 제2 전자 장치(200)는 상기 저지연 버퍼가 가득 참에 기초하여 상기 제2 정보를 획득하여 제1 전자 장치(100)로 전송할 수 있다. 일 실시예에서, 제2 전자 장치(200)는 주기적으로 (예를 들어, 100~500ms마다) 상기 제2 정보를 획득하여 제1 전자 장치(100)로 전송할 수 있다.. 일 실시예에서, 제2 전자 장치(200)는 지속적으로 상기 제2 정보를 획득하여 제1 전자 장치(100)로 전송할 수 있다.. 일 실시예에서, 상기 제2 정보를 이용한 신호 필터의 조정은 상기 제2 정보를 수신함에 기초하여, 또는 지속적으로 수행될 수 있다. 일 실시예에서, 상기 제2 정보를 이용한 신호 필터의 조정은 실시간으로 수행될 수 있다.
동작 508에서, 제1 전자 장치(100)는 상기 조정된 신호 필터에 상기 획득된 오디오 신호를 입력하여, 처리된 오디오 신호를 획득할 수 있다. 동작 509에서, 제1 전자 장치(100)는 상기 신호 필터에서 처리된 오디오 신호를 스피커를 통해 재생할 수 있다.
도 6는 일 실시예에 따른, 오디오 신호를 처리하기 위한 시스템의 동작을 설명하기 위한 도면이다. 도 6에 도시된 제1 전자 장치(100) 및 제2 전자 장치(200)는 각각 도 1에 도시된 제1 전자 장치(100) 및 제2 전자 장치(200)에 대응될 수 있다.
도 6을 참조하면, 도 5에 도시된 오디오 신호를 처리하기 위한 시스템의 동작들이 보다 간략하게 도시된다. 제1 전자 장치(100)에서 수집된 오디오 신호는 제2 전자 장치(200)로 전송되어, 제2 전자 장치(200)의 다층 모델로부터 실시간 필터의 조정을 위한 정보를 획득하는 데에 사용될 수 있다. 제2 전자 장치(200)의 다층 모델은 오프라인 처리를 위한 제1 인공지능 모델(504) 및 저지연 처리를 위한 제2 인공지능 모델(506)로 구성될 수 있다. 제1 인공지능 모델(504)의 출력은 제2 인공지능 모델(506)의 학습 및 적응을 위해 사용될 수 있고, 제2 인공지능 모델(506)의 출력은 제1 전자 장치(100)로 전송되어 제1 전자 장치(100)의 실시간 필터(508)를 조정(509)하는 데에 사용될 수 있다.
상술한 실시예에 따르면, 복잡하고 느린 상위 레벨의 인공지능 모델에서 획득한 정보 또는 지식은, 단순하고 빠른 하위 레벨의 인공지능 모델에 전달되어, 학습 및 적응을 위해 사용될 수 있다. 따라서, 본 개시의 실시예들에 따른 오디오 신호를 처리하기 위한 시스템은, 낮은 지연 시간을 유지하면서도, 고성능 인공지능 모델로부터 얻은 결과를 이용하여 고품질의 처리된 오디오 신호를 획득할 수 있다. 또한 상위 레벨의 인공지능 모델은 연산 능력이 높은 제2 전자 장치(200)에서 실행되므로, 제1 전자 장치(100)의 전력 사용량은 낮게 유지될 수 있다.
도 7은 일 실시예에 따른, 오디오 신호를 처리하기 위한 인공지능 모델들의 다층 구조를 설명하기 위한 도면이다.
제1 인공지능 모델(701)은 높은 복잡도 및 지연 시간을 가지는 인공지능 모델일 수 있다. 일 실시예에서, 제1 인공지능 모델(701)은 임의의 음향 환경에 적용할 수 있는 범용 모델일 수 있다. 일 실시예에서, 제1 인공지능 모델(701)은 높은 성능을 갖는 최고 수준의(state-of-the-art, SoTA) 모델일 수 있다. 일 실시예에서, 제1 인공지능 모델(701)은 별도의 인공지능 모델 학습 장치에서, 대량의 학습 데이터에 의해 학습된 인공지능 모델일 수 있다. 일 실시예에서, 제1 인공지능 모델(701)은 미리 학습되어 오디오 신호를 처리하기 위한 전자 장치에 설치될 수 있다.
일 실시예에서, 제1 인공지능 모델(701)은 수집된 오디오 신호를 입력받아 제2 인공지능 모델을 학습 또는 적응시키기 위한 정보를 출력할 수 있다. 일 실시예에서, 제1 인공지능 모델(701)은 느리고 많은 연산 자원을 요구하기 때문에, 상시 실행되는 것이 아니라, 주기적으로, 또는 음향 환경이 바뀔 때 한 번씩 사용될 수 있다. 예를 들어, 제1 인공지능 모델(701)은 1~5초마다 실행될 수 있다. 물론 상기 실시예에 제한되지 않는다. 일 실시예에서, 상기 제1 인공지능 모델(701)에 의해 획득된 정보는, 제2 인공지능 모델을 업데이트하기 위해 전달될 수 있다.
제2 인공지능 모델(702)은 보다 낮은 복잡도 및 지연 시간을 가지는 인공지능 모델일 수 있다. 일 실시예에서, 제2 인공지능 모델(702)은 특정 사용자 또는 현재의 음향 환경을 위해 적응된 또는 학습된 모델일 수 있다. 일 실시예에서, 제2 인공지능 모델(702)은 스마트폰 등의 제어 장치에 탑재되는 온-디바이스(on-device) 모델일 수 있다.
일 실시예에서, 제2 인공지능 모델(702)은 제1 인공지능 모델(701)에서 전달된 정보를 이용하여, 현재의 음향 환경 또는 사용자 데이터에 적합하도록 업데이트될 수 있다. 일 실시예에서, 제2 인공지능 모델(702)은 주기적으로 또는 지속적으로 실행될 수 있다. 예를 들어, 제2 인공지능 모델(702)은 100~500ms 마다 출력을 제공할 수 있다. 물론 상기 실시예에 제한되지 않는다. 일 실시예에서, 제2 인공지능 모델(702)에 의해 획득된 정보는, 제3 인공지능 모델(703)을 조정하기 위해 전달될 수 있다. 예를 들어, 제2 인공지능 모델(702)은 수집된 오디오 신호 및 상기 제1 인공지능 모델(701)에서 전달된 정보에 기초하여, 제3 인공지능 모델(703)의 참값(ground truth) 신호를 제공할 수 있다.
제3 인공지능 모델(703)은 낮은 복잡도 및 실시간에 가까운 짧은 지연 시간을 가지는 인공지능 모델일 수 있다. 일 실시예에서, 제3 인공지능 모델(703)은 특정 음향 환경에서의 특정한 기능을 수행하기 위해 학습된 인공지능 모델일 수 있다. 일 실시예에서, 제3 인공지능 모델(703)은 지능형 이어폰 등의 오디오 재생 장치에 탑재되는 온-버즈(on-buds) 모델일 수 있다. 예를 들어, 제3 인공지능 모델(703)은 DSP(Digital Signal Processor)에 의하여 구현될 수 있다.
일 실시예에서, 제3 인공지능 모델은 제2 인공지능 모델에서 전달된 정보를 이용하여, 짧은 시간 간격 내에서 유효하도록 업데이트될 수 있다. 일 실시예에서, 업데이트된 제3 인공지능 모델은 수집된 오디오 신호를 입력받아, 실시간에 가까운 저지연으로 처리된 오디오 신호를 출력할 수 있다. 예를 들어, 제3 인공지능 모델은 20~30μs 이내의 모델 지연 시간을 가질 수 있다.
도 8은 일 실시예에 따른, 오디오 신호를 처리하기 위한 방법을 나타내는 흐름도이다. 이러한 동작은 도 1, 도 3 내지 도 6에 도시된 제1 전자 장치(100) 및 제2 전자 장치(200), 또는 도 10에 도시된 전자 장치(100) 또는 전자 장치(100)의 프로세서(1050) 및 도 11에 도시된 전자 장치(200) 또는 전자 장치(200)의 프로세서(2300)에 의해 수행될 수 있다.
동작 S810에서, 제1 전자 장치(100)는 오디오 신호를 획득할 수 있다. 일 실시예에서, 제1 전자 장치(100)는 제1 전자 장치(100)의 일부로서 구성된 마이크를 통하여 제1 전자 장치(100)의 외부의 소리를 캡처할 수 있다. 일 실시예에서, 제1 전자 장치(100)는 제2 전자 장치(200) 또는 외부의 다른 전자 장치로부터 오디오 신호를 수신할 수 있다. 일 실시예에서, 제1 전자 장치(100)는 복수의 오디오 신호들을 적어도 하나의 오디오 신호로 합성할 수 있다.
동작 S820에서, 제1 전자 장치(100)는 상기 획득된 오디오 신호를 제2 전자 장치(200)로 전송할 수 있다.
동작 S830에서, 제2 전자 장치(200)는 상기 획득된 오디오 신호를 제1 인공지능 모델에 입력하여, 제2 인공지능 모델을 조정하기 위한 제1 정보를 획득할 수 있다. 일 실시예에서, 제2 전자 장치(200)는 상기 획득된 제1 정보를 제2 인공지능 모델에 입력하여, 상기 제2 인공지능 모델을 조정할 수 있다.
일 실시예에서, 제1 인공지능 모델은 오프라인으로 오디오 신호를 처리하기 위한 인공지능 모델일 수 있다. 일 실시예에서, 상기 제1 인공지능 모델은, 임의의 길이의 오디오 신호를 처리하기 위한 인공지능 모델일 수 있다. 일 실시예에서, 상기 제1 인공지능 모델은, 음성 식별(voice fingerprinting), 사운드 이벤트 감지(sound event detection), 사운드 분리(sound separation), 사운드 향상(sound enhancement), 음향 장면 분석(acoustic scene analysis), 또는 청음 목표 선택(listening target selection) 중 적어도 하나를 수행하기 위한 인공지능 모델일 수 있다. 일 실시예에서, 제1인공지능 모델은 미리 학습되어 제2 전자 장치(200)에 설치되어 있을 수 있다.
일 실시예에서, 제2 인공지능 모델은 저지연으로 오디오 신호를 처리하기 위한 인공지능 모델일 수 있다. 일 실시예에서, 상기 제2 인공지능 모델은, 소정의 개수의 프레임들로 구성된 오디오 신호를 처리하기 위한 인공지능 모델일 수 있다. 일 실시예에서, 상기 제2 인공지능 모델은, 선택적 청음(selective listening), 개인화된 사운드 이벤트 감지(localized sound event detection), 긴급 사운드 감지(emergency sound dectection) 중 적어도 하나를 수행하기 위한 인공지능 모델일 수 있다. 일 실시예에서, 제2 인공지능 모델은 미리 학습되어 제2 전자 장치(200)에 설치되어 있을 수 있다.
일 실시예에서, 상기 제1 정보는, 상기 제2 인공지능 모델의 학습 적응(learning adaptation) 또는 환경 임베딩(environment embedding)을 위한 정보를 포함할 수 있다. 일 실시예에서, 상기 제1 정보는, 제1 인공지능 모델을 통하여 처리된 오디오 신호를 포함할 수 있다. 일 실시예에서, 상기 제1 정보는, 제2 인공지능 모델에서 수행할 작업에 관한 정보를 포함할 수 있다. 일 실시예에서, 상기 제1 정보는, 제2 인공지능 모델에서 목표하는 기능을 달성하기 위해 제2 인공지능 모델에서 출력되어야 할 목표 신호를 포함할 수 있다. 일 실시예에서, 상기 제1 정보는, 음향 환경을 나타내는 정보를 포함할 수 있다.
일 실시예에서, 제2 전자 장치(200)는 제1 전자 장치(100)로부터 수신된 오디오 신호를 제1 크기의 제1 버퍼에 저장할 수 있다. 예를 들어, 상기 제1 버퍼는 제1 인공지능 모델에 입력될 오디오 클립에 대응되는 오디오 샘플을 저장할 수 있다. 예를 들어, 상기 제1 버퍼는 소정의 시간 동안의 오디오 샘플을 저장할 수 있다. 일 실시예에서, 제2 전자 장치(200)는 상기 제1 버퍼에 저장된 제1 크기의 오디오 신호를 제1 인공지능 모델에 입력하여, 상기 제1 정보를 획득할 수 있다. 일 실시예에서, 제2 전자 장치(200)는 제1 버퍼가 가득 참에 기초하여 상기 제1 정보를 획득할 수 있다. 일 실시예에서, 제2 전자 장치(200)는 음향 환경의 변화가 감지됨에 기초하여 상기 제1 정보를 획득할 수 있다.
동작 S840에서, 제2 전자 장치(200)는 상기 획득된 제1 정보 및 상기 획득된 오디오 신호를 상기 제2 인공지능 모델에 입력하여, 제3 인공지능 모델을 조정하기 위한 제2 정보를 획득할 수 있다.
일 실시예에서, 상기 제2 정보는, 제2 인공지능 모델을 통하여 처리된 오디오 신호를 포함할 수 있다. 일 실시예에서, 상기 제2 정보는, 제3 인공지능 모델에서 수행할 작업에 관한 정보를 포함할 수 있다. 일 실시예에서, 상기 제2 정보는, 제3 인공지능 모델에서 목표하는 기능을 달성하기 위해 제3 인공지능 모델에서 출력되어야 할 목표 신호를 포함할 수 있다. 일 실시예에서, 상기 제2 정보는, 음향 환경을 나타내는 정보를 포함할 수 있다.
일 실시예에서, 제2 전자 장치(200)는 제1 전자 장치(100)로부터 수신된 오디오 신호를 상기 제1 크기보다 작은 제2 크기의 제2 버퍼에 저장할 수 있다. 예를 들어, 제2 버퍼는 제2 인공지능 모델에 입력될 스펙트럼의 계산을 위한 오디오 샘플, 즉 소정의 시간 윈도우에 대응되는 오디오 샘플을 저장할 수 있다. 일 실시예에서, 제2 전자 장치(200)는 제2 버퍼에 저장된 제2 크기의 오디오 신호를 제2 인공지능 모델에 입력하여, 상기 제2 정보를 획득할 수 있다. 일 실시예에서, 제2 전자 장치(200)는 제2 버퍼가 가득 참에 기초하여 상기 제2 정보를 획득할 수 있다. 일 실시예에서, 제2 전자 장치(200)는 지속적으로 상기 제2 정보를 획득할 수 있다.
동작 S850에서, 제2 전자 장치(200)는 상기 획득된 제2 정보를 제1 전자 장치(100)로 전송할 수 있다.
동작 S860에서, 제1 전자 장치(100)는 상기 획득된 제2 정보 및 상기 획득된 오디오 신호를 상기 제3 인공지능 모델에 입력하여, 상기 제3 인공지능 모델을 조정할 수 있다.
일 실시예에서, 제3 인공지능 모델은 실시간으로 오디오 신호를 처리하기 위한 인공지능 모델일 수 있다. 일 실시예에서, 제3 인공지능 모델은, 능동적 노이즈 제거(active noise cancelation), 음향 에코 제거(acoustic echo cancelation), 환경음 통과(ambient pass-though), 빔포밍(beamforming), 선택적 필터링(selective filtering) 중 적어도 하나를 수행하기 위한 인공지능 모델일 수 있다. 일 실시예에서, 제3 인공지능 모델은 미리 학습되어 제1 전자 장치(100)에 설치되어 있을 수 있다.
일 실시예에서, 제1 전자 장치(100)는 상기 제2 정보를 이용하여 제3 인공지능 모델을 학습시킬 수 있다. 일 실시예에서, 제3 인공지능 모델은 입력된 오디오 신호를 처리하여, 상기 제2 정보로서 제공된 목표 신호를 출력하도록 학습될 수 있다. 일 실시예에서, 제1 전자 장치(100)는 상기 제2 정보를 이용하여 제3 인공지능 모델에 환경 조건을 제공할 수 있다.
일 실시예에서, 제3 인공지능 모델은 오디오 신호를 필터링하는 인공지능 모델일 수 있다. 일 실시예에서, 제1 전자 장치(100)는 상기 제2 정보 및 상기 획득된 오디오 신호를 제3 인공지능 모델에 입력하여, 상기 획득된 오디오 신호를 필터링하는 필터를 조정할 수 있다. 일 실시예에서, 제1 전자 장치(100)는 상기 제2 정보에 기초하여, 상기 필터의 길이 또는 상기 필터의 계수 중 적어도 하나를 선택하거나, 또는 상기 필터의 조정 방법을 결정할 수 있다.
동작 S870에서, 제1 전자 장치(100)는 상기 조정된 제3 인공지능 모델에 상기 획득된 오디오 신호를 입력하여, 처리된 오디오 신호를 획득할 수 있다. 동작 S880에서, 제1 전자 장치(100)는 상기 처리된 오디오 신호를 재생할 수 있다.
도 9는 본 개시의 오디오 신호를 처리하기 위한 방법이 사용되는 일 실시예를 나타내는 도면이다.
오디오 신호를 재생하기 위한 제1 전자 장치(100)의 사용자는, 제1 전자 장치(100)에서 재생되는 소리 외에도 다양한 소리에 노출되어 있을 수 있다. 예를 들어, 바람 소리나 새 소리 등의 환경음, 공사장이나 교통수단 등에서 발생되는 소음, 음성 등과 같은 소리들이 제1 전자 장치(100)에서 재생되는 소리와 함께 섞여 들릴 수 있다. 사용자는 상기와 같은 다양한 소리들 중 일부만을 선택하여 보다 명료하게 듣고, 나머지는 제거하기를 원할 수 있다. 예를 들어, 사용자는 제1 전자 장치(100)에서 재생되는 음악을 명료하게 듣기 위해, 제1 전자 장치(100) 외부에서 발생되는 환경음 및 소음은 제거되기를 바랄 수 있다. 다만 사용자는 사람들의 음성이나, 경적음과 같은 경고음은 명확히 듣기를 원할 수 있다. 다른 예를 들어, 사용자는 많은 사람들이 있는 시끄러운 환경에서 특정 화자의 음성만을 명료하게 듣기를 원할 수 있다. 이러한 선택적 청음을 가능하게 하기 위하여, 본 개시의 다양한 실시예들에 따른 오디오 처리 시스템은 제1 전자 장치(100)로부터 수집된 오디오 신호를 처리할 수 있다.
일 실시예에서, 사용자는 오디오 처리 시스템에서 자신이 듣고 싶은 소리, 듣고 싶지 않은 소리의 범주를 설정할 수 있다. 오디오 처리 시스템은 본 개시의 다양한 실시예들에 따라, 인공지능 모델들을 사용자의 설정 및 현재의 음향 환경에 맞게 업데이트할 수 있다. 오디오 처리 시스템은 업데이트된 인공지능 모델들을 이용하여 제1 전자 장치(100)에서 수집되는 오디오 신호들을 실시간으로 처리할 수 있다.
도 10은 다양한 실시예들에 따른 오디오 신호를 재생하기 위한 전자 장치의 블록도이다. 도 10에 도시된 전자 장치(100)는 도 1 및 도 3 내지 도 7에 도시된 제1 전자 장치(100)에 대응될 수 있다.
도 10에 도시된 바와 같이, 일 실시예에 따른 전자 장치(100)는, 통신부(1010), 입력부(1020), 스피커(1030), 메모리(1040), 프로세서(1050), 및 마이크(1060)를 포함할 수 있다. 그러나, 도 10에 도시된 구성 요소 모두가 전자 장치(100)의 필수 구성 요소인 것은 아니며, 도 10에 도시된 구성 요소보다 많거나 또는 적은 구성 요소에 의해 전자 장치(100)가 구현될 수도 있다. 일 실시예에서, 도 10의 전자 장치(100)는 도 11의 전자 장치(200)의 일부로 구현될 수 있다.
통신부(1010)는, 외부 장치와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부(1010)는, 근거리 통신부, 이동 통신부, 및 방송 수신부를 포함할 수 있다.
입력부(1020)는, 사용자가 프로세서(1050)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 입력부(1020)에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다.
스피커(1030)는 통신부(1010)로부터 수신되거나 메모리(1040)에 저장된 오디오 신호를 전자 장치(100)의 외부로 출력할 수 있다. 스피커(1030)는 본 개시의 다양한 실시예들에 따라, 처리된 오디오 신호를 재생할 수 있다. 일 실시예에 따르면, 전자 장치(100)는 복수의 스피커(1030)들을 포함할 수 있다. 이런 경우, 상기 복수의 스피커들 중 적어도 일부 스피커들을 통하여 서로 다른 복수의 채널들(예: 스테레오, 또는 5.1채널)을 갖는 오디오 신호가 출력될 수 있다.
메모리(1040)는, 프로세서(1050)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 전자 장치(100)로 입력되거나 전자 장치(100)로부터 출력되는 데이터를 저장할 수 있다.
다양한 실시예들에서, 메모리(1040)는 본 개시의 다양한 실시예들에 따른 오디오 신호 처리 방법을 수행하기 위한 하나 이상의 프로그램 모듈을 포함할 수 있다. 다양한 실시예들에서, 메모리(1040)는 하나 이상의 인스트럭션을 저장하고, 상기 하나 이상의 인스트럭션들은 프로세서(1050)에 의해 실행되었을 때, 프로세서(1050)로 하여금 본 개시의 다양한 실시예들에 따른 오디오 신호 처리 방법을 수행하도록 설정될 수 있다.
다양한 실시예들에서, 메모리(1040)는 오디오 신호를 처리하기 위한 적어도 하나의 인공지능 모델을 저장할 수 있다. 예를 들어, 메모리(1040)는 실시간으로 오디오 신호를 처리하기 위한 제3 인공지능 모델을 저장할 수 있다. 상기 적어도 하나의 인공지능 모델은 도 11의 전자 장치(200), 서버, 또는 그 밖의 외부 장치로부터 통신부(1010)를 통해 수신된 것일 수 있다.
프로세서(1050)는, 통상적으로 전자 장치(100)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(1050)는, 메모리(1040)에 저장된 프로그램들을 실행함으로써, 통신부(1010), 입력부(1020), 스피커(1030), 메모리(1040), 프로세서(1050), 및 마이크(1060) 등을 전반적으로 제어할 수 있다. 통신부(1010), 입력부(1020), 스피커(1030), 메모리(1040), 프로세서(1050), 및 마이크(1060) 등을 제어함으로써, 본 개시에서의 전자 장치(100)의 동작을 제어할 수 있다.
구체적으로, 프로세서(1050)는, 마이크(1060)를 통해, 오디오 신호를 획득하고, 상기 획득된 오디오 신호를, 통신부(1010)를 통해, 전자 장치(200)로 전송하고, 전자 장치(200)로부터, 통신부(1010)를 통해, 실시간으로 오디오 신호를 처리하기 위한 제3 인공지능 모델을 조정하기 위한 제2 정보를 수신하고, 상기 획득된 제2 정보 및 상기 획득된 오디오 신호를 상기 제3 인공지능 모델에 입력하여, 상기 제3 인공지능 모델을 조정하고, 상기 조정된 제3 인공지능 모델에 상기 획득된 오디오 신호를 입력하여, 처리된 오디오 신호를 획득하고, 스피커(1030)를 통해, 상기 처리된 오디오 신호를 재생하도록 설정될 수 있다.
마이크(1060)는, 외부의 오디오 신호를 입력 받아 전기적인 오디오 데이터로 처리한다. 예를 들어, 마이크(1060)는 외부 디바이스 또는 화자로부터 오디오 신호를 수신할 수 있다.
도 11은 다양한 실시예들에 따른 오디오 신호를 처리하기 위한 전자 장치의 블록도이다. 도 11에 도시된 전자 장치(200)는 도 1 및 도 3 내지 도 6에 도시된 제2 전자 장치(200)에 대응될 수 있다.
도 11에 도시된 바와 같이, 일부 실시예들에 따른 전자 장치(200)는, 사용자 입력부(2100), 출력부(2200), 프로세서(2300), 센싱부(2400), 통신부(2500), A/V 입력부(2600), 및 메모리(2700)를 포함할 수 있다. 그러나, 도 11에 도시된 구성 요소 모두가 전자 장치(200)의 필수 구성 요소인 것은 아니다. 도 11에 도시된 구성 요소보다 많은 구성 요소에 의해 전자 장치(200)가 구현될 수도 있고, 도 11에 도시된 구성 요소보다 적은 구성 요소에 의해 전자 장치(200)가 구현될 수도 있다.
사용자 입력부(2100)는, 사용자가 전자 장치(200)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력부(2100)에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다.
출력부(2200)는, 오디오 신호 또는 비디오 신호 또는 진동 신호를 출력할 수 있으며, 출력부(2200)는 디스플레이부(2210), 음향 출력부(2220), 및 진동 모터(2230)를 포함할 수 있다.
디스플레이부(2210)는 전자 장치(200)에서 처리되는 정보를 표시 출력한다. 한편, 디스플레이부(2210)와 터치패드가 레이어 구조를 이루어 터치 스크린으로 구성되는 경우, 디스플레이부(2210)는 출력 장치 이외에 입력 장치로도 사용될 수 있다.
음향 출력부(2220)는 통신부(2500)로부터 수신되거나 메모리(2700)에 저장된 오디오 데이터를 출력한다. 또한, 음향 출력부(2220)는 전자 장치(200)에서 수행되는 기능(예를 들어, 호신호 수신음, 메시지 수신음, 알림음)과 관련된 음향 신호를 출력한다. 이러한 음향 출력부(2220)에는 스피커(speaker), 버저(Buzzer) 등이 포함될 수 있다.
진동 모터(2230)는 진동 신호를 출력할 수 있다. 예를 들어, 진동 모터(2230)는 오디오 데이터 또는 비디오 데이터(예컨대, 호신호 수신음, 메시지 수신음 등)의 출력에 대응하는 진동 신호를 출력할 수 있다. 또한, 진동 모터(2230)는 터치스크린에 터치가 입력되는 경우 진동 신호를 출력할 수도 있다.
프로세서(2300)는, 통상적으로 전자 장치(200)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(2300)는, 메모리(2700)에 저장된 프로그램들을 실행함으로써, 사용자 입력부(2100), 출력부(2200), 센싱부(2400), 통신부(2500), A/V 입력부(2600) 등을 전반적으로 제어할 수 있다. 프로세서(2300)는, 사용자 입력부(2100), 출력부(2200), 센싱부(2400), 통신부(2500), A/V 입력부(2600) 등을 제어함으로써, 본 명세서에서의 전자 장치(200)의 동작을 제어할 수 있다.
구체적으로, 프로세서(2300)는, 통신부(2500)를 통해, 오디오 신호 재생 장치에서 획득된 오디오 신호를 수신하고, 상기 획득된 오디오 신호를 제1 인공지능 모델에 입력하여, 저지연으로 오디오 신호를 처리하기 위한 제2 인공지능 모델을 조정하기 위한 제1 정보를 획득하고, 상기 획득된 제1 정보 및 상기 획득된 오디오 신호를 상기 제2 인공지능 모델에 입력하여, 실시간으로 오디오 신호를 처리하기 위한 제3 인공지능 모델을 조정하기 위한 제2 정보를 획득하고, 상기 획득된 제2 정보를, 통신부(2500)를 통해, 상기 오디오 신호 재생 장치로 전송하도록 설정할 수 있다.
센싱부(2400)는, 전자 장치(200)의 상태 또는 전자 장치(200) 주변의 상태를 감지하고, 감지된 정보를 프로세서(2300)로 전달할 수 있다.
센싱부(2400)는, 지자기 센서(Magnetic sensor)(2410), 가속도 센서(Acceleration sensor)(2420), 온/습도 센서(2430), 적외선 센서(2440), 자이로스코프 센서(2450), 위치 센서(예컨대, GPS)(2460), 기압 센서(2470), 근접 센서(2480), 및 RGB 센서(illuminance sensor)(2490) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. 각 센서들의 기능은 그 명칭으로부터 당업자가 직관적으로 추론할 수 있으므로, 구체적인 설명은 생략하기로 한다.
통신부(2500)는, 외부 장치와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부(2500)는, 근거리 통신부(2510), 이동 통신부(2520), 방송 수신부(2530)를 포함할 수 있다.
근거리 통신부(short-range wireless communication unit)(2510)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
이동 통신부(2520)는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.
방송 수신부(2530)는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 구현 예에 따라서 전자 장치(200)가 방송 수신부(2530)를 포함하지 않을 수도 있다.
다양한 실시예들에서, 통신부(2500)는 오디오 신호 재생을 위한 전자 장치(100)와 오디오 신호 처리를 위한 데이터를 주고받을 수 있다. 일 실시예에서, 통신부(2500)는 오디오 신호 재생을 위한 전자 장치(100)에서 획득된 오디오 신호를 수신할 수 있다. 일 실시예에서, 통신부(2500)는 오디오 신호 재생을 위한 전자 장치(100)로, 제3 인공지능 모델을 조정하기 위한 제2 정보를 송신할 수 있다.
A/V(Audio/Video) 입력부(2600)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라(2610)와 마이크로폰(2620) 등이 포함될 수 있다. 카메라(2610)는 화상 통화모드 또는 촬영 모드에서 이미지 센서를 통해 정지영상 또는 동영상 등의 화상 프레임을 얻을 수 있다. 이미지 센서를 통해 캡쳐된 이미지는 프로세서(2300) 또는 별도의 이미지 처리부(미도시)를 통해 처리될 수 있다.
카메라(2610)에서 처리된 화상 프레임은 메모리(2700)에 저장되거나 통신부(2500)를 통하여 외부로 전송될 수 있다. 카메라(2610)는 단말기의 구성 태양에 따라 2개 이상이 구비될 수도 있다.
마이크로폰(2620)은, 외부의 음향 신호를 입력 받아 전기적인 음성 데이터로 처리한다. 예를 들어, 마이크로폰(2620)은 외부 디바이스 또는 화자로부터 음향 신호를 수신할 수 있다. 마이크로폰(2620)은 외부의 음향 신호를 입력 받는 과정에서 발생 되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘을 이용할 수 있다.
메모리(2700)는, 프로세서(2300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 전자 장치(200)로 입력되거나 전자 장치(200)로부터 출력되는 데이터를 저장할 수도 있다.
메모리(2700)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
메모리(2700)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, UI 모듈(2710), 터치 스크린 모듈(2720), 알림 모듈(2730) 등으로 분류될 수 있다.
UI 모듈(2710)은, 애플리케이션 별로 전자 장치(200)와 연동되는 특화된 UI, GUI 등을 제공할 수 있다. 터치 스크린 모듈(2720)은 사용자의 터치 스크린 상의 터치 제스처를 감지하고, 터치 제스처에 관한 정보를 프로세서(2300)로 전달할 수 있다. 일부 실시예들에 따른 터치 스크린 모듈(2720)은 터치 코드를 인식하고 분석할 수 있다. 터치 스크린 모듈(2720)은 컨트롤러를 포함하는 별도의 하드웨어로 구성될 수도 있다.
알림 모듈(2730)은 전자 장치(200)의 이벤트 발생을 알리기 위한 신호를 발생할 수 있다. 알림 모듈(2730)은 디스플레이부(2210)를 통해 비디오 신호 형태로 알림 신호를 출력할 수도 있고, 음향 출력부(2220)를 통해 오디오 신호 형태로 알림 신호를 출력할 수도 있고, 진동 모터(2230)를 통해 진동 신호 형태로 알림 신호를 출력할 수도 있다.
다양한 실시예들에서, 메모리(2700)는 본 개시의 다양한 실시예들에 따른 오디오 신호 처리 방법을 수행하기 위한 하나 이상의 프로그램 모듈을 포함할 수 있다. 다양한 실시예들에서, 메모리(2700)는 하나 이상의 인스트럭션을 저장하고, 상기 하나 이상의 인스트럭션은 프로세서(2300)에 의해 실행되었을 때, 프로세서(2300)로 하여금 본 개시의 다양한 실시예들에 따른 오디오 신호 처리 방법을 수행하도록 설정될 수 있다.
다양한 실시예들에서, 메모리(2700)는 오디오 신호를 처리하기 위한 적어도 하나의 인공지능 모델을 저장할 수 있다. 예를 들어, 메모리(2700)는 오프라인으로 오디오 신호를 처리하기 위한 제1 인공지능 모델 및 저지연으로 오디오 신호를 처리하기 위한 제2 인공지능 모델을 저장할 수 있다. 상기 적어도 하나의 인공지능 모델은 서버, 또는 그 밖의 외부 장치로부터 통신부(2500)를 통해 수신된 것일 수 있다.
다양한 실시예들에서, 메모리(2700)는 획득한 오디오 신호를 저장할 수 있다. 일 실시예에서, 메모리(2700)는 획득한 오디오 신호를 제1 크기의 제1 버퍼 및 상기 제1 크기보다 작은 제2 크기의 제2 버퍼에 각각 저장할 수 있다.
본 문서에 개시된 다양한 실시예들에 따른 전자 장치는 다양한 형태의 장치가 될 수 있다. 전자 장치는, 예를 들면, 휴대용 통신 장치(예: 스마트폰), 컴퓨터 장치, 휴대용 멀티미디어 장치, 휴대용 의료 기기, 카메라, 웨어러블 장치, 또는 가전 장치를 포함할 수 있다. 본 문서의 실시예에 따른 전자 장치는 전술한 기기들에 한정되지 않는다.
본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술적 특징들을 특정한 실시예들로 한정하려는 것이 아니며, 해당 실시예의 다양한 변경, 균등물, 또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 또는 관련된 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 아이템에 대응하는 명사의 단수 형은 관련된 문맥상 명백하게 다르게 지시하지 않는 한, 상기 아이템 한 개 또는 복수 개를 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및 B 중 적어도 하나", "A 또는 B 중 적어도 하나", "A, B 또는 C", "A, B 및 C 중 적어도 하나", 및 "A, B, 또는 C 중 적어도 하나"와 같은 문구들 각각은 그 문구들 중 해당하는 문구에 함께 나열된 항목들 중 어느 하나, 또는 그들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", 또는 "첫째" 또는 "둘째"와 같은 용어들은 단순히 해당 구성요소를 다른 해당 구성요소와 구분하기 위해 사용될 수 있으며, 해당 구성요소들을 다른 측면(예: 중요성 또는 순서)에서 한정하지 않는다. 어떤(예: 제 1) 구성요소가 다른(예: 제 2) 구성요소에, "기능적으로" 또는 "통신적으로"라는 용어와 함께 또는 이런 용어 없이, "커플드" 또는 "커넥티드"라고 언급된 경우, 그것은 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로(예: 유선으로), 무선으로, 또는 제 3 구성요소를 통하여 연결될 수 있다는 것을 의미한다.
본 문서의 다양한 실시예들에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구현된 유닛을 포함할 수 있으며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로와 같은 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는, 상기 부품의 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 일실시예에 따르면, 모듈은 ASIC(application-specific integrated circuit)의 형태로 구현될 수 있다.
본 문서의 다양한 실시예들은 기기(machine)(예: 전자 장치(#01)) 의해 읽을 수 있는 저장 매체(storage medium)(예: 내장 메모리(#36) 또는 외장 메모리(#38))에 저장된 하나 이상의 명령어들을 포함하는 소프트웨어(예: 프로그램(#40))로서 구현될 수 있다. 예를 들면, 기기(예: 전자 장치(#01))의 프로세서(예: 프로세서(#20))는, 저장 매체로부터 저장된 하나 이상의 명령어들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 기기가 상기 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 상기 하나 이상의 명령어들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장 매체의 형태로 제공될 수 있다. 여기서, ‘비일시적’은 저장 매체가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장 매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.
일실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory(CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두 개의 사용자 장치들(예: 스마트 폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
다양한 실시예들에 따르면, 상기 기술한 구성요소들의 각각의 구성요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있으며, 복수의 개체 중 일부는 다른 구성요소에 분리 배치될 수도 있다. 다양한 실시예들에 따르면, 전술한 해당 구성요소들 중 하나 이상의 구성요소들 또는 동작들이 생략되거나, 또는 하나 이상의 다른 구성요소들 또는 동작들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성요소들(예: 모듈 또는 프로그램)은 하나의 구성요소로 통합될 수 있다. 이런 경우, 통합된 구성요소는 상기 복수의 구성요소들 각각의 구성요소의 하나 이상의 기능들을 상기 통합 이전에 상기 복수의 구성요소들 중 해당 구성요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성요소에 의해 수행되는 동작들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 상기 동작들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 동작들이 추가될 수 있다.

Claims (25)

  1. 오디오 신호를 처리하기 위한 방법에 있어서,
    제1 전자 장치에서, 오디오 신호를 획득하는 단계;
    상기 획득된 오디오 신호를 상기 제1 전자 장치로부터 제2 전자 장치로 전송하는 단계;
    상기 제2 전자 장치에서, 상기 획득된 오디오 신호를 제1 인공지능 모델에 입력하여, 저지연으로 오디오 신호를 처리하기 위한 제2 인공지능 모델을 조정하기 위한 제1 정보를 획득하는 단계;
    상기 제2 전자 장치에서, 상기 획득된 제1 정보 및 상기 획득된 오디오 신호를 상기 제2 인공지능 모델에 입력하여, 실시간으로 오디오 신호를 처리하기 위한 제3 인공지능 모델을 조정하기 위한 제2 정보를 획득하는 단계;
    상기 획득된 제2 정보를 상기 제2 전자 장치로부터 상기 제1 전자 장치로 전송하는 단계;
    상기 제1 전자 장치에서, 상기 획득된 제2 정보 및 상기 획득된 오디오 신호를 상기 제3 인공지능 모델에 입력하여, 상기 제3 인공지능 모델을 조정하는 단계;
    상기 제1 전자 장치에서, 상기 조정된 제3 인공지능 모델에 상기 획득된 오디오 신호를 입력하여, 처리된 오디오 신호를 획득하는 단계; 및
    상기 제1 전자 장치에서, 상기 처리된 오디오 신호를 재생하는 단계;
    를 포함하는, 방법.
  2. 제1항에 있어서,
    상기 제1 전자 장치는 히어러블 장치(hearable device)이고, 상기 제2 전자 장치는 모바일 장치(mobile device)이며,
    상기 제1 전자 장치와 상기 제2 전자 장치는 무선 통신을 통하여 연결되는, 방법.
  3. 제1항에 있어서,
    상기 제1 정보를 획득하는 단계는,
    상기 획득된 오디오 신호를 제1 크기의 제1 버퍼에 저장하는 단계; 및
    상기 제1 버퍼에 저장된 상기 제1 크기의 오디오 신호를 상기 제1 인공지능 모델에 입력하여, 상기 제1 정보를 획득하는 단계를 포함하고,
    상기 제2 정보를 획득하는 단계는,
    상기 획득된 오디오 신호를 상기 제1 크기보다 작은 제2 크기의 제2 버퍼에 저장하는 단계;
    상기 획득된 제1 정보를 상기 제2 인공지능 모델에 입력하여, 상기 제2 인공지능 모델을 조정하는 단계; 및
    상기 제2 버퍼에 저장된 상기 제2 크기의 오디오 신호를 상기 조정된 제2 인공지능 모델에 입력하여, 상기 제2 정보를 획득하는 단계;
    를 포함하는, 방법.
  4. 제3항에 있어서,
    상기 제1 인공지능 모델은, 임의의 길이의 오디오 신호를 처리하기 위한 미리 학습된 인공지능 모델인, 방법.
  5. 제3항에 있어서,
    상기 제2 인공지능 모델은, 소정의 개수의 프레임들로 구성된 오디오 신호를 처리하기 위한 인공지능 모델인, 방법.
  6. 제3항에 있어서,
    상기 제1 정보를 획득하는 단계는, 상기 제1 버퍼가 가득 참에 기초하여 수행되고,
    상기 제2 정보를 획득하는 단계는, 상기 제2 버퍼가 가득 참에 기초하여 수행되는,
    방법.
  7. 제3항에 있어서,
    상기 제1 정보를 획득하는 단계는, 음향 환경의 변화가 감지됨에 기초하여 수행되고,
    상기 제2 정보를 획득하는 단계는, 지속적으로 수행되는,
    방법.
  8. 제1항에 있어서,
    상기 제3 인공지능 모델은 오디오 신호를 필터링하는 것을 특징으로 하고,
    상기 제3 인공지능 모델을 조정하는 단계는, 상기 획득된 제2 정보 및 상기 획득된 오디오 신호를 상기 제3 인공지능 모델에 입력하여, 상기 획득된 오디오 신호를 필터링하는 필터를 조정하는 단계를 포함하는,
    방법.
  9. 제8항에 있어서,
    상기 필터를 조정하는 단계는,
    상기 제2 정보에 기초하여, 상기 필터의 길이 또는 상기 필터의 계수 중 적어도 하나를 선택하는 단계; 또는
    상기 필터의 조정 방법을 결정하는 단계;
    를 포함하는, 방법.
  10. 제1항에 있어서,
    상기 제1 정보는 상기 제2 인공지능 모델의 학습 적응(learning adaptation) 또는 환경 임베딩(environment embedding)을 위한 정보인, 방법.
  11. 제1항에 있어서,
    상기 제2 정보는 상기 제3 인공지능 모델을 학습시키기 위한 목표 신호(target signal), 음향 환경에 관한 정보, 및 상기 제3 인공지능 모델에서 수행되어야 하는 작업에 관한 정보 중 적어도 하나를 포함하는, 방법.
  12. 제1항에 있어서,
    상기 제1 인공지능 모델은, 음성 식별(voice fingerprinting), 음향 장면 구분(Acoustic Scenes Classification), 사운드 이벤트 감지(Sound Event Detection), 청음 목표 선택(listening target selection), 사운드 분리(Sound Separation), 사운드 향상(Sound Enhancement), 및 음성 임베딩(Speech embedding) 중 적어도 하나를 수행하기 위한 인공지능 모델인, 방법.
  13. 제1항에 있어서,
    상기 제2 인공지능 모델은, 선택적 청음(selective listening), 음성 식별(voice fingerprinting), 호출 감지(wake-up spotters), 및 긴급 사운드 감지(emergency sound dectection) 중 적어도 하나를 수행하기 위한 인공지능 모델인, 방법.
  14. 제1항에 있어서,
    상기 제3 인공지능 모델은, 선택적 청음(Selective Listening), 능동적 노이즈 제거(Active Noise Cancellation), 음향 에코 제거(Acoustic Echo Cancellation), 환경음 통과(Ambient Pass-Though), 빔포밍(Beamformers), 및 적응적 필터링(Adaptive Filters) 중 적어도 하나를 수행하기 위한 인공지능 모델인, 방법.
  15. 오디오 신호를 처리하기 위한 방법에 있어서,
    오디오 신호를 획득하는 단계;
    상기 획득된 오디오 신호를 외부 전자 장치로 전송하는 단계;
    상기 외부 전자 장치로부터, 실시간으로 오디오 신호를 처리하기 위한 제3 인공지능 모델을 조정하기 위한 제2 정보를 수신하는 단계;
    상기 획득된 제2 정보 및 상기 획득된 오디오 신호를 상기 제3 인공지능 모델에 입력하여, 상기 제3 인공지능 모델을 조정하는 단계;
    상기 조정된 제3 인공지능 모델에 상기 획득된 오디오 신호를 입력하여, 처리된 오디오 신호를 획득하는 단계; 및
    상기 처리된 오디오 신호를 재생하는 단계;
    를 포함하는, 방법.
  16. 제15항에 있어서,
    상기 제3 인공지능 모델은 오디오 신호를 필터링하는 것을 특징으로 하고,
    상기 제3 인공지능 모델을 조정하는 단계는, 상기 획득된 제2 정보 및 상기 획득된 오디오 신호를 상기 제3 인공지능 모델에 입력하여, 상기 획득된 오디오 신호를 필터링하는 필터를 조정하는 단계를 포함하는, 방법.
  17. 오디오 신호를 처리하기 위한 방법에 있어서,
    오디오 신호 재생 장치로부터, 상기 오디오 신호 재생 장치에서 획득한 오디오 신호를 수신하는 단계;
    상기 획득된 오디오 신호를 제1 인공지능 모델에 입력하여, 저지연으로 오디오 신호를 처리하기 위한 제2 인공지능 모델을 조정하기 위한 제1 정보를 획득 하는 단계;
    상기 획득된 제1 정보 및 상기 획득된 오디오 신호를 상기 제2 인공지능 모델에 입력하여, 실시간으로 오디오 신호를 처리하기 위한 제3 인공지능 모델을 조정하기 위한 제2 정보를 획득하는 단계; 및
    상기 제3 인공지능 모델을 조정하기 위하여, 상기 획득된 제2 정보를 상기 오디오 신호 재생 장치로 전송하는 단계;
    를 포함하는, 방법.
  18. 제17항에 있어서,
    상기 제1 정보를 획득하는 단계는,
    상기 획득된 오디오 신호를 제1 크기의 제1 버퍼에 저장하는 단계; 및
    상기 제1 버퍼에 저장된 상기 제1 크기의 오디오 신호를 상기 제1 인공지능 모델에 입력하여, 상기 제1 정보를 획득하는 단계를 포함하고,
    상기 제2 정보를 획득하는 단계는,
    상기 획득된 오디오 신호를 상기 제1 크기보다 작은 제2 크기의 제2 버퍼에 저장하는 단계;
    상기 획득된 제1 정보를 상기 제2 인공지능 모델에 입력하여, 상기 제2 인공지능 모델을 조정하는 단계; 및
    상기 제2 버퍼에 저장된 상기 제2 크기의 오디오 신호를 상기 조정된 제2 인공지능 모델에 입력하여, 상기 제2 정보를 획득하는 단계;
    를 포함하는, 방법.
  19. 제18항에 있어서,
    상기 제1 인공지능 모델은, 임의의 길이의 오디오 신호를 처리하기 위한 미리 학습된 인공지능 모델인, 방법.
  20. 제18항에 있어서,
    상기 제2 인공지능 모델은, 소정의 개수의 프레임들로 구성된 오디오 신호를 처리하기 위한 인공지능 모델인, 방법.
  21. 제18항에 있어서,
    상기 제1 정보를 획득하는 단계는, 상기 제1 버퍼가 가득 참에 기초하여 수행되고,
    상기 제2 정보를 획득하는 단계는, 상기 제2 버퍼가 가득 참에 기초하여 수행되는,
    방법.
  22. 제18항에 있어서,
    상기 제1 정보를 획득하는 단계는, 음향 환경의 변화가 감지됨에 기초하여 수행되고,
    상기 제2 정보를 획득하는 단계는, 지속적으로 수행되는,
    방법.
  23. 오디오 신호를 처리하기 위한 시스템에 있어서, 상기 시스템은,
    오디오 신호를 재생하기 위한 제1 전자 장치; 및
    제2 전자 장치;를 포함하고,
    상기 제1 전자 장치는,
    마이크로폰을 통해, 오디오 신호를 획득하고,
    상기 획득된 오디오 신호를, 통신부를 통해, 상기 제2 전자 장치로 전송하도록 설정되고,
    상기 제2 전자 장치는,
    상기 제1 전자 장치로부터 전송된 오디오 신호를 제1 인공지능 모델에 입력하여, 저지연으로 오디오 신호를 처리하기 위한 제2 인공지능 모델을 조정하기 위한 제1 정보를 획득하고,
    상기 획득된 제1 정보 및 상기 획득된 오디오 신호를 상기 제2 인공지능 모델에 입력하여, 실시간으로 오디오 신호를 처리하기 위한 제3 인공지능 모델을 조정하기 위한 제2 정보를 획득하고,
    상기 획득된 제2 정보를, 통신부를 통해, 상기 제1 전자 장치로 전송하도록 설정되고,
    상기 제1 전자 장치는,
    상기 획득된 제2 정보 및 상기 획득된 오디오 신호를 상기 제3 인공지능 모델에 입력하여, 상기 제3 인공지능 모델을 조정하고,
    상기 조정된 제3 인공지능 모델에 상기 획득된 오디오 신호를 입력하여, 처리된 오디오 신호를 획득하고,
    스피커를 통해, 상기 처리된 오디오 신호를 재생하도록 더 설정되는,
    시스템.
  24. 오디오 신호를 재생하기 위한 전자 장치에 있어서,
    상기 전자 장치는,
    마이크로폰;
    스피커;
    외부 전자 장치와 통신하도록 설정되는 통신부;
    인스트럭션들을 저장하는 메모리; 및
    상기 마이크로폰, 상기 스피커, 상기 통신부, 및 상기 메모리와 기능적으로 결합되는 적어도 하나의 프로세서를 포함하고,
    상기 적어도 하나의 프로세서는 상기 인스트럭션들을 실행하여,
    상기 마이크로폰을 통해, 오디오 신호를 획득하고,
    상기 획득된 오디오 신호를, 상기 통신부를 통해, 상기 외부 전자 장치로 전송하고,
    상기 외부 전자 장치로부터, 상기 통신부를 통해, 실시간으로 오디오 신호를 처리하기 위한 제3 인공지능 모델을 조정하기 위한 제2 정보를 수신하고,
    상기 획득된 제2 정보 및 상기 획득된 오디오 신호를 상기 제3 인공지능 모델에 입력하여, 상기 제3 인공지능 모델을 조정하고,
    상기 조정된 제3 인공지능 모델에 상기 획득된 오디오 신호를 입력하여, 처리된 오디오 신호를 획득하고,
    상기 스피커를 통해, 상기 처리된 오디오 신호를 재생하도록 설정되는,
    전자 장치.
  25. 오디오 신호를 처리하기 위한 전자 장치에 있어서,
    상기 전자 장치는,
    오디오 신호 재생 장치와 통신하도록 설정되는 통신부;
    인스트럭션들을 저장하는 메모리; 및
    상기 통신부 및 상기 메모리와 기능적으로 결합되는 적어도 하나의 프로세서를 포함하고,
    상기 적어도 하나의 프로세서는 상기 인스트럭션들을 실행하여,
    상기 통신부를 통해, 상기 오디오 신호 재생 장치에서 획득된 오디오 신호를 수신하고,
    상기 획득된 오디오 신호를 제1 인공지능 모델에 입력하여, 저지연으로 오디오 신호를 처리하기 위한 제2 인공지능 모델을 조정하기 위한 제1 정보를 획득하고,
    상기 획득된 제1 정보 및 상기 획득된 오디오 신호를 상기 제2 인공지능 모델에 입력하여, 실시간으로 오디오 신호를 처리하기 위한 제3 인공지능 모델을 조정하기 위한 제2 정보를 획득하고,
    상기 획득된 제2 정보를, 상기 통신부를 통해, 상기 오디오 신호 재생 장치로 전송하도록 설정되는,
    전자 장치.
KR1020210166102A 2021-11-26 2021-11-26 인공지능 모델을 이용하여 오디오 신호를 처리하는 방법 및 장치 KR20230078376A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020210166102A KR20230078376A (ko) 2021-11-26 2021-11-26 인공지능 모델을 이용하여 오디오 신호를 처리하는 방법 및 장치
PCT/KR2022/018124 WO2023096259A1 (ko) 2021-11-26 2022-11-16 인공지능 모델을 이용하여 오디오 신호를 처리하는 방법 및 장치
US17/993,666 US20230171543A1 (en) 2021-11-26 2022-11-23 Method and device for processing audio signal by using artificial intelligence model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210166102A KR20230078376A (ko) 2021-11-26 2021-11-26 인공지능 모델을 이용하여 오디오 신호를 처리하는 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20230078376A true KR20230078376A (ko) 2023-06-02

Family

ID=86539945

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210166102A KR20230078376A (ko) 2021-11-26 2021-11-26 인공지능 모델을 이용하여 오디오 신호를 처리하는 방법 및 장치

Country Status (2)

Country Link
KR (1) KR20230078376A (ko)
WO (1) WO2023096259A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102660883B1 (ko) * 2023-12-01 2024-04-25 주식회사 테스트웍스 임베디드 장치의 미디어 프로세싱 테스트 방법 및 이를 수행하는 컴퓨팅 장치

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10269343B2 (en) * 2014-08-28 2019-04-23 Analog Devices, Inc. Audio processing using an intelligent microphone

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102660883B1 (ko) * 2023-12-01 2024-04-25 주식회사 테스트웍스 임베디드 장치의 미디어 프로세싱 테스트 방법 및 이를 수행하는 컴퓨팅 장치

Also Published As

Publication number Publication date
WO2023096259A1 (ko) 2023-06-01

Similar Documents

Publication Publication Date Title
EP3583497B1 (en) Multi-user intelligent assistance
US20220165288A1 (en) Audio signal processing method and apparatus, electronic device, and storage medium
CN110808063A (zh) 一种语音处理方法、装置和用于处理语音的装置
US11908465B2 (en) Electronic device and controlling method thereof
US11380326B2 (en) Method and apparatus for performing speech recognition with wake on voice (WoV)
KR20190111278A (ko) 인공지능 모델을 이용하여 사용자 음성을 변조하기 위한 전자 장치 및 이의 제어 방법
CN112352441B (zh) 增强型环境意识系统
EP3523709B1 (en) Electronic device and controlling method thereof
KR102391298B1 (ko) 음성 인식 서비스를 제공하는 전자 장치 및 그 방법
US11602287B2 (en) Automatically aiding individuals with developing auditory attention abilities
US11812225B2 (en) Method, apparatus and system for neural network hearing aid
US11877125B2 (en) Method, apparatus and system for neural network enabled hearing aid
US11832061B2 (en) Method, apparatus and system for neural network hearing aid
US20230232170A1 (en) Method, Apparatus and System for Neural Network Hearing Aid
WO2020212404A1 (en) Hearing test system
WO2022066393A1 (en) Hearing augmentation and wearable system with localized feedback
KR20220061467A (ko) 전자 장치 및 이의 오디오 신호 처리 방법
KR20230078376A (ko) 인공지능 모델을 이용하여 오디오 신호를 처리하는 방법 및 장치
CN112384974A (zh) 电子装置和用于提供或获得用于训练电子装置的数据的方法
US20230171543A1 (en) Method and device for processing audio signal by using artificial intelligence model
WO2023136835A1 (en) Method, apparatus and system for neural network hearing aid
US11997445B2 (en) Systems and methods for live conversation using hearing devices
KR20230071633A (ko) 영상에서 인지적 노이즈를 제거하는 영상 처리 방법 및 장치
CN116848537A (zh) 用于动态声学环境中的数据增强和语音处理的系统和方法