KR102645589B1 - 음향 제어 시스템, 장치 및 방법 - Google Patents

음향 제어 시스템, 장치 및 방법 Download PDF

Info

Publication number
KR102645589B1
KR102645589B1 KR1020190107470A KR20190107470A KR102645589B1 KR 102645589 B1 KR102645589 B1 KR 102645589B1 KR 1020190107470 A KR1020190107470 A KR 1020190107470A KR 20190107470 A KR20190107470 A KR 20190107470A KR 102645589 B1 KR102645589 B1 KR 102645589B1
Authority
KR
South Korea
Prior art keywords
vehicle
sound
voice
acoustic
noise
Prior art date
Application number
KR1020190107470A
Other languages
English (en)
Other versions
KR20190106916A (ko
Inventor
최현식
서재필
이근상
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020190107470A priority Critical patent/KR102645589B1/ko
Publication of KR20190106916A publication Critical patent/KR20190106916A/ko
Priority to US16/601,979 priority patent/US11003414B2/en
Application granted granted Critical
Publication of KR102645589B1 publication Critical patent/KR102645589B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/165Equalizers; Volume or gain control in limited frequency bands
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/001Monitoring arrangements; Testing arrangements for loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G2201/00Indexing scheme relating to subclass H03G
    • H03G2201/10Gain control characterised by the type of controlled element
    • H03G2201/103Gain control characterised by the type of controlled element being an amplifying element
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Otolaryngology (AREA)
  • Quality & Reliability (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

사물 인터넷을 위해 연결된 5G 환경에서 인공지능(artificial intelligence, AI) 알고리즘 및/또는 기계학습(machine learning) 알고리즘을 실행하여 음향 제어 시스템 및 장치를 동작시키는 음향 제어 방법이 개시된다. 본 발명의 일 실시 예에 따른 음향 제어 방법은, 차량 내에 구비된 하나 이상의 마이크를 통하여 차량 내 음향신호를 수집하는 단계와, 차량 내 음향신호를 분석하는 단계와, 분석된 차량 내 음향신호에 대응하여 차량 내에 구비된 스피커를 통해 출력되는 음향 서비스의 볼륨 및 이퀄라이저의 설정을 조정하는 단계를 포함할 수 있다.

Description

음향 제어 시스템, 장치 및 방법{ACOUSTIC CONTROL SYSTEM, APPARATUS AND METHOD}
본 발명은 음향 제어 시스템, 장치 및 방법에 관한 것으로, 더욱 상세하게는 차량 내 잡음의 크기를 추정하여 차량에서 출력되는 음향의 적응형 볼륨 및 이퀄라이저(Equalizer) 조정이 가능하도록 하는 음향 제어 시스템, 장치 및 방법에 관한 것이다.
최근 자율 주행 차량 발전에 영향을 받아 차량에 음성 비서 등 에이전트 서비스가 늘어나고 있으며, 차량 내 음질 개선에 관한 많은 연구가 진행되고 있다. 이에, 차량 내 스피커는 예를 들어, 다양한 음장 효과를 위하여 좌석별로 볼륨조절이나 이퀄라이저(Equalizer) 컨트롤 시스템을 포함하고 있다.
선행기술 1은 차량 내에 2명 이상의 탑승자가 서로 대화하는 것으로 감지되면 자동으로 오디오 장치의 볼륨을 낮춤으로써, 탑승자들이 오디오 장치의 출력으로부터 방해 받지 않고 대화하도록 할 수 있는 방법에 대한 기술을 개시하고 있다.
선행기술 2는 광통신 기반 네트워크 시스템에 연결된 차량정보 수집 장치로부터 획득한 차량 내부/외부에 대한 정보를 바탕으로 차량의 상태에 따라 최적의 음향을 지원할 수 있도록 하는 방법에 대한 기술을 개시하고 있다.
즉, 선행기술 1 및 선행기술 2는 차량에서 발생하는 이벤트에 따라 볼륨을 조정하거나, 스피커의 위치별로 음향을 다르게 조절할 수 있도록 하는 것은 가능하다. 그러나 선행기술 1 및 선행기술 2는 좌석(스피커)별로 볼륨이나 이퀄라이저를 다르게 조절하더라도 단일 설정값으로 유지하기 때문에 차량에서 발생하는 이벤트의 변화에 따라 사용자가 체감하는 음질 향상의 효과가 현저하게 떨어지는 문제가 있다. 또한 선행기술 1 및 선행기술 2는 고속주행이나 창문 개방 등 주행환경이 달라짐에 따라 달라지는 잡음에 의해 음성비서의 피드백에 대한 청취의 어려움이 발생하거나, 음악감상이나 통화 시 명료한 청감을 얻을 수 없는 문제가 있다.
전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.
국내 공개특허공보 제10-2016-0050135호(2016.05.11. 공개) 국내 등록특허공보 제10-1437432호(2014.08.28. 등록)
본 개시의 일 과제는, 차량 내 발생하는 잡음의 크기 및 파형을 추정하여 차량에서 출력되는 소리의 적응형 볼륨 및 이퀄라이저(Equalizer) 설정 조정이 가능하도록 하는데 있다.
본 개시의 일 과제는, 잡음 발생 시 잡음의 크기에 대응해 스피커에서 출력되는 음향 서비스의 볼륨 및 이퀄라이저 설정을 조정하여 주변 잡음의 크기와 상관없이 사용자가 설정한 볼륨의 크기로 들을 수 있도록 조정하는데 있다.
본 개시의 일 과제는, 차량 내 음성 에이전트 서비스 이용 시, 마이크를 통해 수집되는 음향신호 중 음성 인식 결과에 대응하는 응답 발화 음성 신호를 제거하고, 노이즈의 크기 및 파형에 대응하여 스피커로 출력되는 응답 발화 음성 신호의 볼륨 및 이퀄라이즈 설정을 조정해 음성 인식 성능을 향상시키는데 있다.
본 개시의 일 과제는, 사용자가 차량 내에서 다른 탑승자와 대화하는 경우 스피커에서 출력되는 음향 서비스의 볼륨 및 이퀄라이저 설정을 조정하여 원활한 대화가 가능하도록 하는데 있다.
본 개시의 일 과제는, 음향신호에 대한 이벤트 패턴을 분석하여 사용자가 자주 사용하는 음향 서비스 또는 자주 발생하는 이벤트에 가중치를 부여해 음향 이벤트 검출 성능을 향상시키는데 있다.
본 개시의 일 과제는, 사용자 또는 이벤트별로 다양하게 스피커 출력 음향 서비스의 볼륨 및 이퀄라이저 설정을 조정하여 사용자의 만족도를 향상시키는데 있다.
본 개시의 일 과제는, 차량 주행 모드에 따라 볼륨 및 이퀄라이저 설정을 조정하여 어떠한 상황에서도 사용자 체감상 명료한 음질의 음향 서비스를 제공하는데 있다.
본 개시의 일 과제는, 미리 훈련된 심층 신경망 모델을 이용해 음향신호를 분석하고, 음향신호의 분석 결과에 따라 차량에서 출력되는 음향 서비스의 적응형 볼륨 및 이퀄라이저 설정 조정이 가능하도록 하여, 음향 제어 시스템의 성능 및 신뢰도를 향상시키는데 있다.
본 개시의 실시예의 목적은 이상에서 언급한 과제에 한정되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시 예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 알 수 있을 것이다.
본 개시의 일 실시 예에 따른 음향 제어 방법은, 차량 내 마이크를 통해 수집되는 노이즈의 크기 및 파형을 추정하여 차량에서 출력되는 음향 서비스의 볼륨 및 이퀄라이저(Equalizer) 설정을 적응적으로 조정하는 단계를 포함할 수 있다.
구체적으로 본 개시의 일 실시 예에 따른 음향 제어 방법은, 차량 내에 구비된 하나 이상의 마이크를 통하여 차량 내 음향신호를 수집하는 단계와, 차량 내 음향신호를 분석하는 단계와, 분석된 차량 내 음향신호에 대응하여 차량 내에 구비된 스피커를 통해 출력되는 음향 서비스의 볼륨 및 이퀄라이저의 설정을 조정하는 단계를 포함할 수 있다.
본 개시의 일 실시 예에 따른 음향 제어 방법을 통하여, 잡음 발생 시 잡음의 크기에 대응해 스피커에서 출력되는 음향 서비스의 볼륨 및 이퀄라이저 설정을 조정함으로써, 주변 잡음의 크기와 상관없이 사용자가 설정한 볼륨의 크기로 음향 서비스를 들을 수 있도록 할 수 있다.
또한, 차량 내 음향신호를 수집하는 단계는, 마이크를 통하여 수집한 차량 내 음향신호 중에서 스피커를 통해 출력되도록 스피커로 입력되는 출력 음향신호를 제거하는 단계를 포함할 수 있다.
본 개시의 일 실시 예에 따른 차량 내 음향신호를 수집하는 단계를 통하여, 차량 내 음성 에이전트 서비스 이용 시, 마이크를 통해 수집되는 음향신호 중 음성 인식 결과에 대응하는 응답 발화 음성 신호를 제거하고, 노이즈의 크기 및 파형에 대응하여 스피커로 출력되는 응답 발화 음성 신호의 볼륨 및 이퀄라이저 설정을 조정함으로써, 음성 인식 성능을 향상시킬 수 있고, 음성 인식 결과에 대응하는 응답 발화 음성 신호를 명확하게 들을 수 있도록 할 수 있다.
또한, 차량 내 음향신호를 분석하는 단계는, 음향신호의 특징을 분석하여 음향신호가 차량 내에서 발생하는 정상적인 노이즈인지 또는 비정상적인 노이즈인지 판단하도록 미리 훈련된 제 1 심층 신경망 모델을 이용하여, 차량 내 음향신호가 정상적인 노이즈인지 또는 비정상적인 노이즈인지 판단하는 단계를 포함하고, 제 1 심층 신경망 모델은 차량 내에서 통상적으로 발생하는 음향의 빅데이터를 정상적인 노이즈로 레이블링한 훈련 데이터를 통해 훈련된 것일 수 있다.
본 개시의 일 실시 예에 따른 음향 제어 방법은, 차량 내에 구비된 하나 이상의 마이크를 통하여 차량 내 음향신호를 수집하는 단계 이전에, 마이크를 통하여 차량의 사용자의 발화 음성을 등록하는 단계와, 음성 판별용 심층 신경망 모델을 사용자의 발화 음성으로 훈련시켜 사용자의 발화 음성을 분별할 수 있는 제 2 심층 신경망 모델을 생성하는 단계를 더 포함할 수 있다.
본 개시의 일 실시 예에 따른 음향 제어 방법을 통하여, 미리 훈련된 심층 신경망 모델을 이용해 음향신호를 분석하고, 음향신호의 분석 결과에 따라 차량에서 출력되는 음향 서비스의 적응형 볼륨 및 이퀄라이저 설정 조정이 가능하도록 함으로써, 음향 제어 시스템의 성능 및 신뢰도를 향상시킬 수 있다.
또한, 조정하는 단계는, 제 1 및 제 2 심층 신경망 모델을 이용하여 차량 내 음향신호를 분석한 결과, 차량 내 음향신호가 사용자의 발화 음성을 포함하는 정상적인 노이즈인 경우, 제 1 음향 이벤트 신호를 발생하는 단계와, 제 1 음향 이벤트 신호에 대응하여 음성 인식 서비스를 활성화 하는 단계와, 차량 내 음향신호 중 사용자의 발화 음성을 제외한 음향신호를 노이즈로 검출하는 단계와, 노이즈의 크기 및 파형에 대응하여 사용자의 발화 음성에 대응하는 응답 발화 음성 신호의 볼륨 및 이퀄라이저의 설정을 조정하는 단계를 포함할 수 있다.
또한, 조정하는 단계는, 제 1 및 제 2 심층 신경망 모델을 이용하여 차량 내 음향신호를 분석한 결과, 차량 내 음향신호가 사용자의 발화 음성 및 다른 탑승자의 발화 음성을 포함하는 정상적인 노이즈인 경우, 제 2 음향 이벤트 신호를 발생하는 단계와, 제 2 음향 이벤트 신호에 대응하여 음성 인식 서비스를 비활성화 하는 단계와, 음향신호 중 사용자의 발화 음성 및 다른 탑승자의 발화 음성의 소리를 노이즈로 검출하는 단계와, 노이즈의 크기 및 파형에 대응하여 음향 서비스의 볼륨 및 이퀄라이저의 설정을 조정하는 단계를 포함할 수 있다.
또한, 조정하는 단계는, 제 1 및 제 2 심층 신경망 모델을 이용하여 차량 내 음향신호를 분석한 결과, 사용자를 제외한 다른 탑승자의 발화 음성을 포함하는 정상적인 노이즈인 경우, 제 3 음향 이벤트 신호를 발생하는 단계와, 제 3 음향 이벤트 신호에 대응하여 음성 인식 서비스를 비활성화 하는 단계와, 음향신호 중 다른 탑승자의 발화 음성을 노이즈로 검출하는 단계와, 노이즈의 크기 및 파형에 대응하여 음향 서비스의 볼륨 및 이퀄라이저의 설정을 조정하는 단계를 포함할 수 있다.
또한, 조정하는 단계는, 제 1 심층 신경망 모델을 이용하여 차량 내 음향신호를 분석한 결과, 음향 서비스를 포함하는 정상적인 노이즈인 경우, 제 4 음향 이벤트 신호를 발생하는 단계와, 제 4 음향 이벤트 신호에 대응하여 음성 인식 서비스를 비활성화 하는 단계와, 차량 내 음향신호 중 음향 서비스를 제외한 음향신호를 노이즈로 검출하는 단계와, 노이즈의 크기 및 파형에 대응하여 음향 서비스의 볼륨 및 이퀄라이저의 설정을 조정하는 단계를 포함할 수 있다.
또한, 조정하는 단계는, 제 1 심층 신경망 모델을 이용하여 차량 내 음향신호를 분석한 결과, 차량에서 발생하는 외부 환경 노이즈를 포함하는 비정상적인 노이즈인 경우, 제 5 음향 이벤트 신호를 발생하는 단계와, 제 5 음향 이벤트 신호에 대응하여, 사용자 설정 상태를 기준으로 일정 범위 이내에서 비정상적인 노이즈의 크기 및 파형에 대응하여 음향 서비스의 볼륨 및 이퀄라이저의 설정을 조정하는 단계를 포함할 수 있다.
본 개시의 일 실시 예에 따른 조정하는 단계를 통하여, 노이즈의 크기 및 파형에 대응하여 스피커에서 출력되는 음향 서비스의 볼륨 및 이퀄라이저 설정을 조정함으로써, 사용자가 차량 내에서 다른 탑승자와 대화하는 경우 원활한 대화가 가능하도록 하고, 사용자가 차량 내에서 음성 에이전트 서비스 및 음향 서비스(음악, 내비게이션 안내 음성 등)를 이용하는 경우 사용자 체감상 일정하고 명확한 음질의 음향 서비스가 출력되도록 할 수 있다.
또한, 본 개시의 일 실시 예에 따른 음향 제어 방법은, 차량의 주행 모드를 감지하는 단계를 더 포함할 수 있고, 조정하는 단계는, 차량의 주행 모드에 대응하여 상기 음향 서비스의 볼륨 및 이퀄라이저의 설정을 조정하는 단계를 포함할 수 있다.
본 개시의 일 실시 예에 따른 음향 제어 방법을 통하여, 차량 주행 모드를 반영하여 음향 이벤트를 판단하고 판단한 음향 이벤트에 따라 음향 서비스의 볼륨 및 이퀄라이저 설정을 조정함으로써, 사용자 또는 이벤트별로 다양하게 볼륨 및 이퀄라이저 설정을 조정하여 사용자의 만족도를 향상시킬 수 있다.
또한, 본 개시의 일 실시 예에 따른 음향 제어 장치는, 차량 내에 구비된 하나 이상의 마이크를 통하여 차량 내 음향신호를 수집하는 수집부와, 차량 내 음향신호를 분석하는 판단부와, 분석한 차량 내 음향신호에 대응하여 차량 내에 구비된 스피커를 통해 출력되는 음향 서비스의 볼륨 및 이퀄라이저의 설정을 조정하는 조정부를 포함할 수 있다.
본 개시의 일 실시 예에 따른 음향 제어 장치를 통하여, 차량 내 발생하는 노이즈의 크기 및 파형을 추정하여 차량에서 출력되는 음향 서비스의 적응형 볼륨 및 이퀄라이저(Equalizer) 설정 조정이 가능하도록 함으로써, 어떠한 상황에서도 사용자 체감상 명료한 음질의 음향 서비스를 들을 수 있도록 하고, 차량 내 커뮤니케이션이 원활하도록 하여 음향 제어 장치에 대한 사용자 만족도를 향상시킬 수 있다.
또한, 수집부는, 마이크를 통하여 수집한 차량 내 음향신호 중에서 스피커를 통해 출력되도록 스피커로 입력되는 출력 음향신호를 제거하도록 구성될 수 있다.
본 개시의 일 실시 예에 따른 수집부를 통하여, 차량 내 음성 에이전트 서비스 이용 시, 마이크를 통해 수집되는 음향신호 중 음성 인식 결과에 대응하는 응답 발화 음성 신호를 제거하고, 노이즈의 크기 및 파형에 대응하여 스피커로 출력되는 응답 발화 음성 신호의 볼륨 및 이퀄라이저 설정을 조정함으로써, 음향 제어 장치의 음성 인식 성능을 향상시킬 수 있다.
또한, 판단부는, 음향신호의 특징을 분석하여 음향신호가 차량 내에서 발생하는 정상적인 노이즈인지 또는 비정상적인 노이즈인지 판단하도록 미리 훈련된 제 1 심층 신경망 모델을 이용하여, 차량 내 음향신호가 정상적인 노이즈인지 또는 비정상적인 노이즈인지 판단하도록 구성되고, 제 1 심층 신경망 모델은 차량 내에서 통상적으로 발생하는 음향의 빅데이터를 정상적인 노이즈로 레이블링한 훈련 데이터를 통해 훈련된 것일 수 있다.
또한, 음향 제어 장치는, 차량 내에 구비된 하나 이상의 마이크를 통하여 차량 내 음향신호를 수집하기 전에, 마이크를 통하여 차량의 사용자의 발화 음성을 등록하고, 음성 판별용 심층 신경망 모델을 사용자의 발화 음성으로 훈련시켜 사용자의 발화 음성을 분별할 수 있는 제 2 심층 신경망 모델을 생성하도록 구성될 수 있다.
본 개시의 일 실시 예에 따른 음향 제어 장치를 통하여, 음향신호에 대한 이벤트 패턴을 분석하여 사용자가 자주 사용하는 음향 서비스 또는 자주 발생하는 이벤트에 가중치를 부여함으로써, 음향 제어 장치의 음향 이벤트 검출 성능을 향상시킬 수 있다.
또한, 조정부는, 제 1 및 제 2 심층 신경망 모델을 이용하여 차량 내 음향신호를 분석한 결과, 차량 내 음향신호가 사용자의 발화 음성을 포함하는 정상적인 노이즈인 경우, 제 1 음향 이벤트 신호를 발생하고, 제 1 음향 이벤트 신호에 대응하여 음성 인식 서비스를 활성화 하며, 차량 내 음향신호 중 사용자의 발화 음성을 제외한 음향신호를 노이즈로 검출하고, 노이즈의 크기 및 파형에 대응하여 사용자의 발화 음성에 대응하는 응답 발화 음성 신호의 볼륨 및 이퀄라이저의 설정을 조정하도록 구성될 수 있다.
또한, 조정부는, 제 1 및 제 2 심층 신경망 모델을 이용하여 차량 내 음향신호를 분석한 결과, 차량 내 음향신호가 사용자의 발화 음성 및 다른 탑승자의 발화 음성을 포함하는 정상적인 노이즈인 경우, 제 2 음향 이벤트 신호를 발생하고, 제 2 음향 이벤트 신호에 대응하여 음성 인식 서비스를 비활성화 하며, 음향신호 중 사용자의 발화 음성 및 다른 탑승자의 발화 음성의 소리를 노이즈로 검출하고, 노이즈의 크기 및 파형에 대응하여 음향 서비스의 볼륨 및 이퀄라이저의 설정을 조정하도록 구성될 수 있다.
또한, 조정부는, 제 1 및 제 2 심층 신경망 모델을 이용하여 차량 내 음향신호를 분석한 결과, 사용자를 제외한 다른 탑승자의 발화 음성을 포함하는 정상적인 노이즈인 경우, 제 3 음향 이벤트 신호를 발생하고, 제 3 음향 이벤트 신호에 대응하여 음성 인식 서비스를 비활성화 하며, 음향신호 중 다른 탑승자의 발화 음성을 노이즈로 검출하고, 노이즈의 크기 및 파형에 대응하여 음향 서비스의 볼륨 및 이퀄라이저의 설정을 조정하도록 구성될 수 있다.
또한, 조정부는, 제 1 심층 신경망 모델을 이용하여 차량 내 음향신호를 분석한 결과, 음향 서비스를 포함하는 정상적인 노이즈인 경우, 제 4 음향 이벤트 신호를 발생하고, 제 4 음향 이벤트 신호에 대응하여 음성 인식 서비스를 비활성화 하며, 차량 내 음향신호 중 음향 서비스를 제외한 음향신호를 노이즈로 검출하고, 노이즈의 크기 및 파형에 대응하여 음향 서비스의 볼륨 및 이퀄라이저의 설정을 조정하도록 구성될 수 있다.
본 개시의 일 실시 예에 따른 조정부를 통하여, 사용자 또는 이벤트별로 다양하게 음향 서비스의 볼륨 및 이퀄라이저 설정을 조정함으로써, 사용자의 니즈를 충족시킬 수 있도록 하여 사용자의 만족도를 향상시킬 수 있다.
또한, 조정부는, 제 1 심층 신경망 모델을 이용하여 차량 내 음향신호를 분석한 결과, 차량에서 발생하는 외부 환경 노이즈를 포함하는 비정상적인 노이즈인 경우, 제 5 음향 이벤트 신호를 발생하고, 제 5 음향 이벤트 신호에 대응하여, 사용자 설정 상태를 기준으로 일정 범위 이내에서 비정상적인 노이즈의 크기 및 파형에 대응하여 음향 서비스의 볼륨 및 이퀄라이저의 설정을 조정하도록 구성될 수 있다.
본 개시의 일 실시 예에 따른 조정부를 통하여, 단발성 잡음의 경우 스피커를 통해 출력되는 음향 서비스의 볼륨 및 이퀄라이저의 설정을 사용자 설정 상태를 기준으로 일정 범위 이내에서만 조정함으로써, 사용자가 음향에 대한 변화를 느낄 수 없도록 하여 음향 제어 장치의 성능을 향상시킬 수 있다.
본 개시의 일 실시 예에 따른 음향 제어 시스템은, 차량 내에 발생하는 차량 내 음향신호를 수집하는 하나 이상의 마이크와, 차량 내에 음향 서비스를 출력하기 위한 스피커와, 마이크로부터 수집된 차량 내 음향신호를 분석하고, 차량 내 음향신호를 분석한 결과에 대응하여 음향 서비스의 볼륨 및 이퀄라이저의 설정을 조정하는 음향 처리부를 포함하며, 음향 처리부는, 음향신호의 특징을 분석하여 음향신호가 차량 내에서 발생하는 정상적인 노이즈인지 또는 비정상적인 노이즈인지 판단하도록 미리 훈련된 제 1 심층 신경망 모델을 이용하여, 차량 내 음향신호가 정상적인 노이즈인지 또는 비정상적인 노이즈인지 판단하도록 구성되고, 제 1 심층 신경망 모델은, 차량 내에서 통상적으로 발생하는 음향의 빅데이터를 정상적인 노이즈로 레이블링한 훈련 데이터를 통해 훈련된 것일 수 있다.
본 개시의 일 실시 예에 따른 음향 제어 시스템을 통하여, 노이즈의 크기 및 파형에 대응하여 스피커에서 출력되는 음향 서비스의 볼륨 및 이퀄라이저 설정을 조정함으로써, 사용자가 차량 내에서 다른 탑승자와 대화하는 경우 원활한 대화가 가능하도록 하고, 사용자가 차량 내에서 음성 에이전트 서비스 및 음향 서비스(음악, 내비게이션 안내 음성 등)를 이용하는 경우 사용자 체감상 일정하고 명확한 음질의 음향신호가 출력되도록 할 수 있다.
또한, 본 개시의 일 실시 예에 따른 음향 제어 시스템을 통하여, 미리 훈련된 심층 신경망 모델을 이용해 음향신호를 분석하고, 음향신호의 분석 결과에 따라 차량에서 출력되는 음향 서비스의 적응형 볼륨 및 이퀄라이저 설정 조정이 가능하도록 함으로써, 음향 제어 시스템의 성능 및 신뢰도를 향상시킬 수 있다.
이 외에도, 본 발명의 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램이 저장된 컴퓨터로 판독 가능한 기록매체가 더 제공될 수 있다.
전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다.
본 개시의 실시 예에 의하면, 차량 내 마이크를 통해 수집되는 노이즈의 크기 및 파형을 추정하여 차량 내에서 출력되는 음향 서비스의 볼륨 및 이퀄라이저(Equalizer) 설정을 적응적으로 조정함으로써, 주변 잡음의 크기와 상관없이 사용자가 설정한 볼륨의 크기로 음향 서비스를 들을 수 있도록 할 수 있다.
또한, 차량 내 음성 에이전트 서비스 이용 시, 마이크를 통해 수집되는 음향신호 중 음성 인식 결과에 대응하는 응답 발화 음성 신호를 제거하고, 노이즈의 크기 및 파형에 대응하여 스피커로 출력되는 응답 발화 음성 신호의 크기를 조정함으로써, 음성 인식 성능을 향상시킬 수 있고, 음성 인식 결과에 대응하는 응답 발화 음성 신호를 명확하게 들을 수 있도록 할 수 있다.
또한, 미리 훈련된 심층 신경망 모델을 이용해 음향신호를 분석하고, 음향신호를 분석한 결과에 따라 차량에서 출력되는 음향 서비스의 적응형 볼륨 및 이퀄라이저 설정 조정이 가능하도록 함으로써, 음향 제어 시스템의 성능 및 신뢰도를 향상시킬 수 있다.
또한, 노이즈의 크기 및 파형에 대응하여 스피커에서 출력되는 음향 서비스의 볼륨 및 이퀄라이저 설정을 조정함으로써, 사용자가 차량 내에서 다른 사용자와 대화하는 경우 원활한 대화가 가능하도록 하고, 사용자가 차량 내에서 음성 에이전트 서비스 및 음향 서비스(음악, 내비게이션 안내 음성 등)를 이용하는 경우 사용자 체감상 일정하고 명확한 음질의 출력 음향신호가 출력되도록 할 수 있다.
또한, 차량 주행 모드를 반영하여 음향신호를 분석하고 분석한 결과에 따라 음성 에이전트 서비스 및 음향 서비스의 볼륨 및 이퀄라이저 설정을 조정함으로써, 사용자 또는 이벤트별로 볼륨 및 이퀄라이저 설정을 다르게 조정하여 사용자의 만족도를 향상시킬 수 있다.
또한, 차량 내 발생하는 노이즈의 크기 및 파형을 추정하여 차량에서 출력되는 음향 서비스의 적응형 볼륨 및 이퀄라이저(Equalizer) 설정 조정이 가능하도록 함으로써, 어떠한 상황에서도 사용자 체감상 명료한 음향 서비스를 들을 수 있도록 하고, 차량 내 커뮤니케이션이 원활하도록 하여 음향 제어 장치에 대한 사용자 만족도를 향상시킬 수 있다.
또한, 차량 내 음향신호에 대한 이벤트 패턴을 분석하여 사용자가 자주 사용하는 음향 서비스 또는 자주 발생하는 이벤트에 가중치를 부여함으로써, 음향 제어 장치의 음향 이벤트 검출 성능을 향상시킬 수 있다.
또한, 사용자 또는 이벤트별로 다양하게 볼륨 및 이퀄라이저 설정을 조정함으로써, 사용자의 니즈를 충족시킬 수 있도록 하여 사용자의 만족도를 향상시킬 수 있다.
또한, 단발성 잡음의 경우 스피커를 통해 출력되는 음향 서비스의 볼륨 및 이퀄라이저의 설정을 사용자 설정 상태를 기준으로 일정 범위 이내에서만 조정함으로써, 사용자가 음향에 대한 설정 변화를 느낄 수 없도록 하여 음향 제어 장치의 성능을 향상시킬 수 있다.
또한, 5G 네트워크 기반 통신을 통해 음향 제어를 수행함으로써, 신속한 데이터 처리가 가능하므로 음향 제어 시스템의 성능을 보다 향상시킬 수 있다.
또한, 음향 제어 장치 자체는 대량 생산된 획일적인 제품이지만, 사용자는 음향 제어 장치를 개인화된 장치로 인식하므로 사용자 맞춤형 제품의 효과를 낼 수 있다.
본 발명의 효과는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시 예에 따른 AI 서버, 자율 주행 차량, 로봇, XR 장치, 사용자 단말기 또는 가전과, 이들 중에서 적어도 하나 이상을 서로 연결하는 클라우드 네트워크를 포함하는 AI 시스템 기반 음향 제어 시스템 환경의 예시도이다.
도 2는 본 발명의 일 실시 예에 따른 음향 제어 시스템의 통신 환경을 개략적으로 설명하기 위하여 도시한 도면이다.
도 3은 본 발명의 일 실시 예에 따른 음향 제어 시스템의 개략적인 블록도이다.
도 4는 5G 통신 시스템에서 자율 주행 차량과 5G 네트워크의 기본동작의 일 예를 나타낸다.
도 5는 5G 통신 시스템에서 자율 주행 차량과 5G 네트워크의 응용 동작의 일 예를 나타낸다.
도 6 내지 도 9는 5G 통신을 이용한 자율 주행 차량의 동작의 일 예를 나타낸다.
도 10은 본 발명의 일 실시 예에 따른 음향 제어 시스템의 에코제거기를 설명하기 위하여 도시한 개략적인 블록도이다.
도 11은 본 발명의 일 실시 예에 따른 음향 제어 시스템의 음향 처리부의 개략적인 블록도이다.
도 12는 본 발명의 일 실시 예에 따른 음향 제어 시스템의 판단부의 개략적인 블록도이다.
도 13은 본 발명의 일 실시 예에 따른 음향 제어 방법 도시한 흐름도이다.
도 14는 본 발명의 일 실시 예에 따른 음향 제어 시스템의 조정 방법을 설명하기 위하여 도시한 흐름도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 설명되는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 아래에서 제시되는 실시 예들로 한정되는 것이 아니라, 서로 다른 다양한 형태로 구현될 수 있고, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 아래에 제시되는 실시 예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, 포함하다 또는 가지다 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 명세서에서 기술되는 차량은, 자동차, 오토바이를 포함하는 개념일 수 있다. 이하에서는, 차량에 대해 자동차를 위주로 기술한다.
본 명세서에서 기술되는 차량은, 동력원으로서 엔진을 구비하는 내연기관 차량, 동력원으로서 엔진과 전기 모터를 구비하는 하이브리드 차량, 동력원으로서 전기 모터를 구비하는 전기 차량 등을 모두 포함하는 개념일 수 있다.
이하, 본 발명에 따른 실시 예들을 첨부된 도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 본 발명의 일 실시 예에 따른 AI 서버, 자율 주행 차량, 로봇, XR 장치, 사용자 단말기 또는 가전과, 이들 중에서 적어도 하나 이상을 서로 연결하는 클라우드 네트워크를 포함하는 AI 시스템 기반 음향 제어 시스템 환경의 예시도이다.
도 1을 참조하면, AI 시스템 기반 음향 제어 시스템 환경은 AI 서버(20), 로봇(30a), 자율 주행 차량(30b), XR 장치(30c), 사용자 단말기(30d) 또는 가전(30e) 및 클라우드 네트워크(10)를 포함할 수 있다. 이때, AI 시스템 기반 음향 제어 시스템 환경에서는, AI 서버(20), 로봇(30a), 자율 주행 차량(30b), XR 장치(30c), 사용자 단말기(30d) 또는 가전(30e) 중에서 적어도 하나 이상이 클라우드 네트워크(10)와 연결될 수 있다. 여기서, AI 기술이 적용된 로봇(30a), 자율 주행 차량(30b), XR 장치(30c), 사용자 단말기(30d) 또는 가전(30e) 등을 AI 장치(30a 내지 30e)라 칭할 수 있다.
이때, 로봇(30a)은 스스로 보유한 능력에 의해 주어진 일을 자동으로 처리하거나 작동하는 기계를 의미할 수 있다. 특히, 환경을 인식하고 스스로 판단하여 동작을 수행하는 기능을 갖는 로봇을 지능형 로봇이라 칭할 수 있다. 로봇(30a)은 사용 목적이나 분야에 따라 산업용, 의료용, 가정용, 군사용 등으로 분류할 수 있다.
자율 주행 차량(30b)은 사용자의 조작 없이 또는 사용자의 최소한의 조작으로 주행하는 차량(Vehicle)을 의미하며, Autonomous Driving Vehicle이라고도 할 수 있다. 예컨대, 자율 주행에는 주행중인 차선을 유지하는 기술, 어댑티브 크루즈 컨트롤과 같이 속도를 자동으로 조절하는 기술, 정해진 경로를 따라 자동으로 주행하는 기술, 목적지가 설정되면 자동으로 경로를 설정하여 주행하는 기술 등이 모두 포함될 수 있다. 이때, 자율 주행 차량은 자율 주행 기능을 가진 로봇으로 볼 수 있다.
XR 장치(30c)는 확장 현실(XR: eXtended Reality)을 이용하는 장치로, 확장 현실은 가상 현실(VR: Virtual Reality), 증강 현실(AR: Augmented Reality), 혼합 현실(MR: Mixed Reality)을 총칭한다. VR 기술은 현실 세계의 객체나 배경 등을 CG 영상으로만 제공하고, AR 기술은 실제 사물 영상 위에 가상으로 만들어진 CG 영상을 함께 제공하며, MR 기술은 현실 세계에 가상 객체들을 섞고 결합시켜서 제공하는 컴퓨터 그래픽 기술이다. XR 기술은 HMD(Head-Mount Display), HUD(Head-Up Display), 휴대폰, 태블릿 PC, 랩탑, 데스크탑, TV, 디지털 사이니지 등에 적용될 수 있고, XR 기술이 적용된 장치를 XR 장치(XR Device)라 칭할 수 있다.
사용자 단말기(30d)는 음향 제어 시스템 작동 어플리케이션 또는 음향 제어 시스템 작동 사이트에 접속한 후 인증 과정을 통하여 음향 제어 시스템의 작동 또는 제어를 위한 서비스를 제공받을 수 있다. 본 실시 예에서 인증 과정을 마친 사용자 단말기(30d)는 음향 제어 시스템(1)을 작동시키고, 음향 제어 장치(100)의 동작을 제어할 수 있다. 본 실시 예에서 사용자 단말기(30d)는 사용자가 조작하는 데스크 탑 컴퓨터, 스마트폰, 노트북, 태블릿 PC, 스마트 TV, 휴대폰, PDA(personal digital assistant), 랩톱, 미디어 플레이어, 마이크로 서버, GPS(global positioning system) 장치, 전자책 단말기, 디지털방송용 단말기, 네비게이션, 키오스크, MP3 플레이어, 디지털 카메라, 가전기기 및 기타 모바일 또는 비모바일 컴퓨팅 장치일 수 있으나, 이에 제한되지 않는다. 또한, 사용자 단말기(30d)는 통신 기능 및 데이터 프로세싱 기능을 구비한 시계, 안경, 헤어 밴드 및 반지 등의 웨어러블 단말기 일 수 있다. 사용자 단말기(30d)는 상술한 내용에 제한되지 아니하며, 웹 브라우징이 가능한 단말기는 제한 없이 차용될 수 있다.
가전(30e)은 가정 내 구비되는 모든 전자 디바이스 중 어느 하나를 포함할 수 있으며, 특히 음성인식, 인공지능 등이 구현 가능한 단말, 오디오 신호 및 비디오 신호 중 하나 이상을 출력하는 단말 등을 포함할 수 있다. 또한 가전(30e)은 특정 전자 디바이스에 국한되지 않고 다양한 홈 어플라이언스(예를 들어, 세탁기, 건조기, 의류 처리 장치, 에어컨, 김치 냉장고 등)를 포함할 수 있다.
클라우드 네트워크(10)는 클라우드 컴퓨팅 인프라의 일부를 구성하거나 클라우드 컴퓨팅 인프라 안에 존재하는 네트워크를 의미할 수 있다. 여기서, 클라우드 네트워크(10)는 3G 네트워크, 4G 또는 LTE(Long Term Evolution) 네트워크 또는 5G 네트워크 등을 이용하여 구성될 수 있다. 즉, AI 시스템 기반 음향 제어 시스템 환경을 구성하는 각 장치들(30a 내지 30e, 20)은 클라우드 네트워크(10)를 통해 서로 연결될 수 있다. 특히, 각 장치들(30a 내지 30e, 20)은 기지국을 통해서 서로 통신할 수도 있지만, 기지국을 통하지 않고 직접 서로 통신할 수도 있다.
이러한 클라우드 네트워크(10)는 예컨대 LANs(local area networks), WANs(Wide area networks), MANs(metropolitan area networks), ISDNs(integrated service digital networks) 등의 유선 네트워크나, 무선 LANs, CDMA, 블루투스, 위성 통신 등의 무선 네트워크를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다. 또한 클라우드 네트워크(10)는 근거리 통신 및/또는 원거리 통신을 이용하여 정보를 송수신할 수 있다. 여기서 근거리 통신은 블루투스(bluetooth), RFID(radio frequency identification), 적외선 통신(IrDA, infrared data association), UWB(ultra-wideband), ZigBee, Wi-Fi(Wireless fidelity) 기술을 포함할 수 있고, 원거리 통신은 CDMA(code division multiple access), FDMA(frequency division multiple access), TDMA(time division multiple access), OFDMA(orthogonal frequency division multiple access), SC-FDMA(single carrier frequency division multiple access) 기술을 포함할 수 있다.
또한, 클라우드 네트워크(10)는 허브, 브리지, 라우터, 스위치 및 게이트웨이와 같은 네트워크 요소들의 연결을 포함할 수 있다. 클라우드 네트워크(10)는 인터넷과 같은 공용 네트워크 및 안전한 기업 사설 네트워크와 같은 사설 네트워크를 비롯한 하나 이상의 연결된 네트워크들, 예컨대 다중 네트워크 환경을 포함할 수 있다. 클라우드 네트워크(10)에의 액세스는 하나 이상의 유선 또는 무선 액세스 네트워크들을 통해 제공될 수 있다. 더 나아가 클라우드 네트워크(10)는 사물 등 분산된 구성 요소들 간에 정보를 주고받아 처리하는 IoT(Internet of Things, 사물인터넷) 망 및/또는 5G 통신을 지원할 수 있다.
AI 서버(20)는 AI 프로세싱을 수행하는 서버와 빅 데이터에 대한 연산을 수행하는 서버를 포함할 수 있다. 또한, AI 서버(20)는 각종 인공 지능 알고리즘을 적용하는데 필요한 빅데이터와, 음향 제어 시스템(1)을 동작시키는 데이터를 제공하는 데이터베이스 서버일 수 있다. 그 밖에 AI 서버(20)는 사용자 단말기(30d)에 설치된 음향 제어 시스템 작동 어플리케이션 또는 음향 제어 시스템 작동 웹 브라우저를 이용하여 음향 제어 장치(100)의 동작을 원격에서 제어할 수 있도록 하는 웹 서버 또는 어플리케이션 서버를 포함할 수 있다.
또한, AI 서버(20)는 AI 시스템 기반 음향 제어 시스템 환경을 구성하는 AI 장치들인 로봇(30a), 자율 주행 차량(30b), XR 장치(30c), 사용자 단말기(30d) 또는 가전(30e) 중에서 적어도 하나 이상과 클라우드 네트워크(10)를 통하여 연결되고, 연결된 AI 장치들(30a 내지 30e)의 AI 프로세싱을 적어도 일부를 도울 수 있다. 이때, AI 서버(20)는 AI 장치(30a 내지 30e)를 대신하여 머신 러닝 알고리즘에 따라 인공 신경망을 학습시킬 수 있고, 학습 모델을 직접 저장하거나 AI 장치(30a 내지 30e)에 전송할 수 있다. 이때, AI 서버(20)는 AI 장치(30a 내지 30e)로부터 입력 데이터를 수신하고, 학습 모델을 이용하여 수신한 입력 데이터에 대하여 결과 값을 추론하고, 추론한 결과 값에 기초한 응답이나 제어 명령을 생성하여 AI 장치(30a 내지 30e)로 전송할 수 있다. 또는, AI 장치(30a 내지 30e)는 직접 학습 모델을 이용하여 입력 데이터에 대하여 결과 값을 추론하고, 추론한 결과 값에 기초한 응답이나 제어 명령을 생성할 수도 있다.
여기서 인공 지능(artificial intelligence, AI)은, 인간의 지능으로 할 수 있는 사고, 학습, 자기계발 등을 컴퓨터가 할 수 있도록 하는 방법을 연구하는 컴퓨터 공학 및 정보기술의 한 분야로, 컴퓨터가 인간의 지능적인 행동을 모방할 수 있도록 하는 것을 의미할 수 있다.
또한, 인공 지능은 그 자체로 존재하는 것이 아니라, 컴퓨터 과학의 다른 분야와 직간접적으로 많은 관련을 맺고 있다. 특히 현대에는 정보기술의 여러 분야에서 인공 지능적 요소를 도입하여, 그 분야의 문제 풀이에 활용하려는 시도가 매우 활발하게 이루어지고 있다.
머신 러닝(machine learning)은 인공 지능의 한 분야로, 컴퓨터에 명시적인 프로그램 없이 배울 수 있는 능력을 부여하는 연구 분야를 포함할 수 있다. 구체적으로 머신 러닝은, 경험적 데이터를 기반으로 학습을 하고 예측을 수행하고 스스로의 성능을 향상시키는 시스템과 이를 위한 알고리즘을 연구하고 구축하는 기술이라 할 수 있다. 머신 러닝의 알고리즘들은 엄격하게 정해진 정적인 프로그램 명령들을 수행하는 것이라기보다, 입력 데이터를 기반으로 예측이나 결정을 이끌어내기 위해 특정한 모델을 구축하는 방식을 취할 수 있다.
본 실시 예는, 특히 자율 주행 차량(30b)에 관한 것으로, 이하에서는, 상술한 기술이 적용되는 AI 장치 중 자율 주행 차량(30b)의 실시 예를 설명한다. 다만, 본 실시 예에서, 차량(도 2의 200)은 자율 주행 차량(30b)에 한정되는 것은 아니며, 자율 주행 차량(30b) 및 일반 차량 등 모든 차량을 의미할 수 있다. 본 실시 예에서는, 음향 제어 시스템(1)이 배치된 차량을 실시 예로 할 수 있다.
도 2는 본 발명의 일 실시 예에 따른 음향 제어 시스템의 통신 환경을 개략적으로 설명하기 위하여 도시한 도면이다. 도 1에 대한 설명과 중복되는 부분은 그 설명을 생략하기로 한다.
도 2를 참조하면, 음향 제어 시스템(1)은 음향 제어 장치(100)와, 차량(200) 및 서버(300)를 필수적으로 포함하고, 그 외 사용자 단말기, 네트워크 등의 구성요소를 더 포함할 수 있다. 이때, 음향 제어 장치(100)는 차량(200) 내에 배치될 수 있으나, 이에 한정되지는 않는다. 또한 본 실시 예에서, 사용자는 차량(200)의 운전자를 의미할 수 있으며, 다른 탑승자는 운전자 이외의 다른 탑승자를 의미할 수 있다. 또한 차량(200)의 운전자는 차량(200)에 기 등록된 운전자일 수 있으며, 1명 이상의 운전자가 기 등록될 수 있다. 그리고 핸즈프리 기능을 이용한 차량(200) 내 통화 시에는, 근단화자는 차량(200) 내에서 통화하는 사용자를 의미하고, 원단화자는 상기 근단화자와 통화하는 상대방 사용자를 의미할 수 있다. 예를 들어, 차량(200) 내에서 통화하는 사용자는 운전자일 수 있으나, 이에 한정되는 것은 아니며 차량(200) 내의 핸즈프리 기능을 통해 통화하는 차량(200) 내 다른 탑승자를 의미할 수도 있다.
본 실시 예에서 서버(300)는 상기 도 1의 AI 서버(20), MEC(Mobile Edge Computing) 서버 및 음향 제어 장치(100)의 프로세스를 위한 서버 등을 포함할 수 있으며, 이들을 통칭하는 의미일 수도 있다. 서버(300)가 본 실시 예에서 명시되지 않은 다른 서버인 경우 도 2에 도시된 연결관계 등은 달라질 수 있다.
AI 서버는 차량(200)으로부터 음향 제어를 위한 데이터를 수신하여, 차량 내에서 수집되는 차량 내 음향신호를 분석하고, 차량 내 음향신호를 분석한 결과에 대응하여 차량 내에서 출력되는 출력 음향신호(음성 인식 서비스, 음향 서비스)의 볼륨 및 이퀄라이저의 설정 조정을 위한 학습을 수행할 수 있다. 그리고 AI 서버는 음향신호 분석 및 음향신호 볼륨 및 이퀄라이저 설정 조정 등의 음향 제어를 위한 학습 결과를 차량(200)에 송신하여 차량(200)에서 음향 제어를 위한 동작, 즉 스피커로 출력되는 음향신호의 볼륨 및 이퀄라이저 설정 조정 등의 음향신호 조정을 위한 동작을 수행하도록 할 수 있다.
MEC 서버는 일반적인 서버의 역할을 수행할 수 있음은 물론, 무선 액세스 네트워크(RAN: Radio Access Network)내에서 도로 옆에 있는 기지국(BS)과 연결되어, 유연한 차량 관련 서비스를 제공하고 네트워크를 효율적으로 운용할 수 있게 해준다. 특히 MEC 서버에서 지원되는 네트워크-슬라이싱(network-slicing)과 트래픽 스케줄링 정책은 네트워크의 최적화를 도와줄 수 있다. MEC 서버는 RAN내에 통합되고, 3GPP 시스템에서 S1-User plane interface(예를 들어, 코어 네트워크(Core network)와 기지국 사이)에 위치할 수 있다. MEC 서버는 각각 독립적인 네트워크 요소로 간주될 수 있으며, 기존에 존재하는 무선 네트워크의 연결에 영향을 미치지 않는다. 독립적인 MEC 서버는 전용 통신망을 통해 기지국에 연결되며, 당해 셀(cell)에 위치한, 여러 엔드-유저(end-user)들에게 특정 서비스들을 제공할 수 있다. 이러한 MEC 서버와 클라우드 서버는 인터넷-백본(internet-backbone)을 통해 서로 연결되고 정보를 공유할 수 있다. 또한, MEC 서버는 독립적으로 운용되고, 복수개의 기지국을 제어할 수 있다. 특히 자율주행차량을 위한 서비스, 가상머신(VM: virtual machine)과 같은 어플리케이션 동작과 가상화 플랫폼을 기반으로 하는 모바일 네트워크 엣지(edge)단에서의 동작을 수행할 수 있다. 기지국(BS: Base Station)은 MEC 서버들과 코어 네트워크 모두에 연결되어, 제공되는 서비스 수행에서 요구되는 유연한 유저 트래픽 스케쥴링을 가능하게 할 수 있다. 특정 셀에서 대용량의 유저 트래픽이 발생하는 경우, MEC 서버는 인접한 기지국 사이의 인터페이스에 근거하여, 테스크 오프로딩(offloading) 및 협업 프로세싱을 수행 할 수 있다. 즉, MEC 서버는 소프트웨어를 기반으로하는 개방형 동작환경을 갖으므로, 어플리케이션 제공 업체의 새로운 서비스들이 용이하게 제공될 수 있다. 또한, MEC 서버는 엔드-유저(end-user) 가까이에서 서비스가 수행되므로, 데이터 왕복시간이 단축되며 서비스 제공 속도가 빠르기 때문에 서비스 대기 시간을 감소시킬 수 있다. 또한 MEC 어플리케이션과 가상 네트워크 기능(VNF: Virtual Network Functions)은 서비스 환경에 있어서, 유연성 및 지리적 분포성을 제공할 수 있다. 이러한 가상화 기술을 사용하여 다양한 어플리케이션과 네트워크 기능이 프로그래밍 될 수 있을 뿐 아니라 특정 사용자 그룹만이 선택되거나 이들만을 위한 컴파일(compile)이 가능할 수 있다. 그러므로, 제공되는 서비스는 사용자 요구 사항에 보다 밀접하게 적용될 수 있다. 그리고 중앙 통제 능력과 더불어 MEC 서버는 기지국간의 상호작용을 최소화할 수 있다. 이는 셀 간의 핸드오버(handover)와 같은 네트워크의 기본 기능 수행을 위한 프로세스를 간략하게 할 수 있다. 이러한 기능은 특히 이용자가 많은 자율주행시스템에서 유용할 수 있다. 또한, 자율주행시스템에서 도로의 단말들은 다량의 작은 패킷을 주기적으로 생성할 수 있다. RAN에서 MEC 서버는 특정 서비스를 수행함으로써, 코어 네트워크로 전달되어야 하는 트래픽의 양을 감소시킬 수 있으며, 이를 통해 중앙 집중식 클라우드 시스템에서 클라우드의 프로세싱 부담을 줄일 수 있고, 네트워크의 혼잡을 최소화할 수 있다. 그리고 MEC 서버는 네트워크 제어 기능과 개별적인 서비스들을 통합하며, 이를 통해 모바일 네트워크 운영자(MNOs: Mobile Network Operators)의 수익성을 높일 수 있으며, 설치 밀도 조정을 통해 신속하고 효율적인 유지관리 및 업그레이드가 가능하도록 할 수 있다.
한편, 본 실시 예에서, 차량(200)은 차량 통신 모듈, 차량 제어 모듈, 차량 사용자 인터페이스 모듈, 운전 조작 모듈, 차량 구동 모듈, 운행 모듈, 내비게이션 모듈 및 센싱 모듈 등을 포함할 수 있다. 실시 예에 따라 차량(200)은 상기 구성요소 외에 다른 구성요소를 포함하거나, 이하 설명되는 구성요소 중 일부를 포함하지 않을 수 있다.
여기서, 차량(200)은 자율 주행 차량일 수 있으며, 차량 사용자 인터페이스 모듈을 통하여 수신되는 사용자 입력에 따라 자율 주행 모드에서 매뉴얼 모드로 전환되거나 매뉴얼 모드에서 자율 주행 모드로 전환될 수 있다. 아울러, 차량(200)은 주행 상황에 따라 자율 주행 모드에서 매뉴얼 모드로 전환되거나 매뉴얼 모드에서 자율 주행 모드로 전환될 수 있다. 여기서, 주행 상황은 차량 통신 모듈에 의해 수신된 정보, 센싱 모듈에 의해 검출된 외부 오브젝트 정보 및 내비게이션 모듈에 의해 획득된 내비게이션 정보 중 적어도 어느 하나에 의해 판단될 수 있다.
한편, 본 실시 예에서 차량(200)은 제어를 위해 사용자로부터 서비스 요청(사용자 입력)을 수신할 수 있다. 차량(200)에서 사용자로부터 서비스 제공 요청을 수신하는 방법은, 사용자로부터 차량 사용자 인터페이스 모듈에 대한 터치(또는 버튼 입력) 신호를 수신하는 경우, 사용자로부터 서비스 요청에 대응하는 발화 음성을 수신하는 경우 등을 포함할 수 있다. 이때, 사용자로부터의 터치 신호 수신, 발화 음성 수신 등은 사용자 단말기(도 1의 30d)에 의해서도 가능할 수 있다. 또한 발화 음성 수신은, 별도 마이크가 구비되어 음성 인식 기능이 실행될 수 있다. 이때 마이크는 본 실시 예의 마이크(도 3의 2)일 수 있다.
차량(200)이 자율 주행 모드로 운행되는 경우, 차량(200)은 주행, 출차, 주차 동작을 제어하는 운행 모듈의 제어에 따라 운행될 수 있다. 한편, 차량(200)이 매뉴얼 모드로 운행되는 경우, 차량(200)은 운전자의 운전 조작 모듈을 통한 입력에 의해 운행될 수 있다. 차량(200)은 통신망을 통해 외부 서버에 연결되고, 자율주행 기술을 이용하여 운전자 개입 없이 미리 설정된 경로를 따라 이동 가능할 수 있다.
차량 사용자 인터페이스 모듈은 차량(200)과 차량 사용자와의 소통을 위한 것으로, 사용자의 입력 신호를 수신하고, 수신된 입력 신호를 차량 제어 모듈로 전달하며, 차량 제어 모듈의 제어에 의해 사용자에게 차량(200)이 보유하는 정보를 제공할 수 있다. 차량 사용자 인터페이스 모듈은 입력모듈, 내부 카메라, 생체 감지 모듈 및 출력 모듈을 포함할 수 있으나 이에 한정되지 않는다.
입력 모듈은, 사용자로부터 정보를 입력 받기 위한 것으로, 입력 모듈에서 수집한 데이터는, 차량 제어 모듈에 의해 분석되어, 사용자의 제어 명령으로 처리될 수 있다. 또한, 입력 모듈은 사용자로부터 차량(200)의 목적지를 입력 받아 차량 제어 모듈로 제공할 수 있다. 또한 입력 모듈은 사용자의 입력에 따라 센싱 모듈의 복수 개의 센서 모듈 중 적어도 하나의 센서 모듈을 지정하여 비활성화하는 신호를 차량 제어 모듈로 입력할 수 있다. 그리고 입력 모듈은 차량 내부에 배치될 수 있다. 예를 들면, 입력 모듈은 스티어링 휠(Steering wheel)의 일 영역, 인스투루먼트 패널(Instrument panel)의 일 영역, 시트(Seat)의 일 영역, 각 필러(Pillar)의 일 영역, 도어(Door)의 일 영역, 센타 콘솔(Center console)의 일 영역, 헤드 라이닝(Head lining)의 일 영역, 썬바이저(Sun visor)의 일 영역, 윈드 쉴드(Windshield)의 일 영역 또는 창문(Window)의 일 영역 등에 배치될 수 있다. 특히 본 실시 예에서, 입력 모듈은 차량 내 음향신호를 수집하는 하나 이상의 마이크(도 3의 2)를 포함할 수 있다.
출력 모듈은 시각, 청각 또는 촉각 등과 관련된 출력을 발생시키기 위한 것으로, 음향 또는 이미지를 출력할 수 있다. 또한 출력 모듈은 디스플레이 모듈, 음향 출력 모듈 및 햅틱 출력 모듈 중 적어도 어느 하나를 포함할 수 있다.
디스플레이 모듈은 다양한 정보에 대응되는 그래픽 객체를 표시할 수 있다. 디스플레이 모듈은 액정 디스플레이(Liquid Crystal Display, LCD), 박막 트랜지스터 액정 디스플레이(Thin Film Transistor Liquid Crystal Display, TFT LCD), 유기 발광 다이오드(Organic Light-Emitting Diode, OLED), 플렉서블 디스플레이(Flexible display), 삼차원 디스플레이(3D display), 전자잉크 디스플레이(e-ink display) 중에서 적어도 하나를 포함할 수 있다. 디스플레이 모듈은 터치 입력 모듈과 상호 레이어 구조를 이루거나 일체형으로 형성됨으로써, 터치 스크린을 구현할 수 있다. 또한 디스플레이 모듈은 HUD(Head Up Display)로 구현될 수 있다. 디스플레이 모듈이 HUD로 구현되는 경우, 디스플레이 모듈은 투사 모듈을 구비하여 윈드 쉴드 또는 창문에 투사되는 이미지를 통해 정보를 출력할 수 있다. 디스플레이 모듈은, 투명 디스플레이를 포함할 수 있다. 투명 디스플레이는 윈드 쉴드 또는 창문에 부착될 수 있다. 투명 디스플레이는 소정의 투명도를 가지면서, 소정의 화면을 표시할 수 있다. 투명 디스플레이는, 투명도를 가지기 위해, 투명 디스플레이는 투명 TFEL(Thin Film Elecroluminescent), 투명 OLED(Organic Light-Emitting Diode), 투명 LCD(Liquid Crystal Display), 투과형 투명디스플레이, 투명 LED(Light Emitting Diode) 디스플레이 중 적어도 하나를 포함할 수 있다. 투명 디스플레이의 투명도는 조절될 수 있다. 차량 사용자 인터페이스 모듈은 복수 개의 디스플레이 모듈을 포함할 수 있다. 디스플레이 모듈은, 스티어링 휠의 일 영역, 인스투루먼트 패널의 일 영역, 시트의 일 영역, 각 필러의 일 영역, 도어의 일 영역, 센타 콘솔의 일 영역, 헤드 라이닝의 일 영역, 썬 바이저의 일 영역에 배치되거나, 윈드 쉴드의 일 영역, 창문의 일 영역에 구현될 수 있다.
음향 출력 모듈은 차량 제어 모듈로부터 제공되는 전기 신호를 오디오 신호로 변환하여 출력할 수 있다. 이를 위해, 음향 출력 모듈은 하나 이상의 스피커(도 3의 3)를 포함할 수 있다. 햅틱 출력 모듈은 촉각적인 출력을 발생시킨다. 예를 들면, 햅틱 출력 모듈은 스티어링 휠, 안전 벨트, 시트를 진동시켜, 사용자가 출력을 인지할 수 있게 동작할 수 있다.
운전 조작 모듈은 운전을 위한 사용자 입력을 수신할 수 있다. 메뉴얼 모드인 경우, 차량(200)은 운전 조작 모듈에 의해 제공되는 신호에 기초하여 운행될 수 있다. 즉, 운전 조작 모듈은 매뉴얼 모드에 있어서 차량(200)의 운행을 위한 입력을 수신하고, 조향 입력 모듈, 가속 입력 모듈 및 브레이크 입력 모듈을 포함할 수 있으나 이에 한정되지 않는다.
차량 구동 모듈은 차량(200) 내 각종 장치의 구동을 전기적으로 제어하고, 파워 트레인 구동 모듈, 샤시 구동 모듈, 도어/윈도우 구동 모듈, 안전 장치 구동 모듈, 램프 구동 모듈 및 공조 구동 모듈을 포함할 수 있으나 이에 한정되지 않는다.
운행 모듈은 차량(200)의 각종 운행을 제어할 수 있으며, 특히 자율 주행 모드에서 차량(200)의 각종 운행을 제어할 수 있다. 운행 모듈은 주행 모듈, 출차 모듈 및 주차 모듈을 포함할 수 있으나, 이에 한정되지 않는다. 또한, 운행 모듈은 차량 제어 모듈의 제어를 받는 프로세서를 포함할 수 있다. 운행 모듈의 각 모듈은, 각각 개별적으로 프로세서를 포함할 수 있다. 실시 예에 따라, 운행 모듈이 소프트웨어적으로 구현되는 경우, 차량 제어 모듈의 하위 개념일 수도 있다.
이때, 주행 모듈, 출차 모듈 및 주차 모듈은 각각 차량(200)의 주행, 출차 및 주차를 수행할 수 있다. 또한 주행 모듈, 출차 모듈 및 주차 모듈은 각각 센싱 모듈로부터 오브젝트 정보를 제공받아, 차량 구동 모듈에 제어 신호를 제공하여, 차량(200)의 주행, 출차 및 주차를 수행할 수 있다. 또한, 주행 모듈, 출차 모듈 및 주차 모듈은 각각 차량 통신 모듈을 통해, 외부 디바이스로부터 신호를 제공받아, 차량 구동 모듈에 제어 신호를 제공하여, 차량(200)의 주행, 출차 및 주차를 수행할 수 있다. 그리고 주행 모듈, 출차 모듈 및 주차 모듈은 각각 내비게이션 모듈로부터 내비게이션 정보를 제공받아, 차량 구동 모듈에 제어 신호를 제공하여, 차량(200)의 주행, 출차 및 주차를 수행할 수 있다. 내비게이션 모듈은 차량 제어 모듈에 내비게이션 정보를 제공할 수 있다. 내비게이션 정보는 맵(map) 정보, 설정된 목적지 정보, 목적지 설정 따른 경로 정보, 경로 상의 다양한 오브젝트에 대한 정보, 차선 정보 및 차량의 현재 위치 정보 중 적어도 어느 하나를 포함할 수 있다. 내비게이션 모듈은, 차량(200)이 진입한 주차장의 주차장 지도를 차량 제어 모듈에 제공할 수 있다. 차량 제어 모듈은 차량(200)이 주차장에 진입한 경우, 내비게이션 모듈로부터 주차장 지도를 제공받고, 산출된 이동 경로 및 고정 식별 정보를 제공된 주차장 지도에 투영하여 지도 데이터를 생성할 수 있다. 내비게이션 모듈은, 메모리를 포함할 수 있다. 메모리는 내비게이션 정보를 저장할 수 있다. 내비게이션 정보는 차량 통신 모듈을 통해 수신된 정보에 의하여 갱신될 수 있다. 내비게이션 모듈은, 내장 프로세서에 의해 제어될 수도 있고, 외부 신호, 예를 들면, 차량 제어 모듈부터 제어 신호를 입력 받아 동작할 수 있으나 이에 한정되지 않는다.
센싱 모듈은 차량(200)에 장착된 센서를 이용하여 차량(200)의 상태를 센싱, 즉, 차량(200)의 상태에 관한 신호를 감지하고, 감지된 신호에 따라 차량(200)의 이동 경로 정보를 획득할 수 있다. 또한 센싱 모듈은 획득된 이동 경로 정보를 차량 제어 모듈에 제공할 수 있다. 또한 센싱 모듈은 차량(200)에 장착된 센서를 이용하여 차량(200) 주변의 오브젝트 등을 센싱 할 수 있다.
그리고 센싱 모듈은 차량(200) 외부에 위치하는 오브젝트를 검출하기 위한 것으로, 센싱 데이터에 기초하여 오브젝트 정보를 생성하고, 생성된 오브젝트 정보를 차량 제어 모듈로 전달할 수 있다. 이때, 오브젝트는 차량(200)의 운행과 관련된 다양한 물체, 예를 들면, 차선, 타 차량, 보행자, 이륜차, 교통 신호, 빛, 도로, 구조물, 과속 방지턱, 지형물, 동물 등을 포함할 수 있다. 센싱 모듈은 복수 개의 센서 모듈로서, 복수개의 촬상부로서의 카메라 모듈, 라이다(LIDAR: Light Imaging Detection and Ranging), 초음파 센서, 레이다(RADAR: Radio Detection and Ranging) 및 적외선 센서를 포함할 수 있다. 센싱 모듈은 복수 개의 센서 모듈을 통하여 차량(200) 주변의 환경 정보를 센싱 할 수 있다. 실시 예에 따라, 센싱 모듈은 설명되는 구성 요소 외에 다른 구성 요소를 더 포함하거나, 설명되는 구성 요소 중 일부를 포함하지 않을 수 있다. 레이다는, 전자파 송신 모듈, 수신 모듈을 포함할 수 있다. 레이다는 전파 발사 원리상 펄스 레이다(Pulse Radar) 방식 또는 연속파 레이다(Continuous Wave Radar) 방식으로 구현될 수 있다. 레이다는 연속파 레이다 방식 중에서 신호 파형에 따라 FMCW(Frequency Modulated Continuous Wave)방식 또는 FSK(Frequency Shift Keying) 방식으로 구현될 수 있다. 레이다는 전자파를 매개로, TOF(Time of Flight) 방식 또는 페이즈 쉬프트(phase-shift) 방식에 기초하여, 오브젝트를 검출하고, 검출된 오브젝트의 위치, 검출된 오브젝트와의 거리 및 상대 속도를 검출할 수 있다. 레이다는, 차량(200)의 전방, 후방 또는 측방에 위치하는 오브젝트를 감지하기 위해 차량(200)의 외부의 적절한 위치에 배치될 수 있다.
라이다는, 레이저 송신 모듈, 수신 모듈을 포함할 수 있다. 라이다는, TOF(Time of Flight) 방식 또는 페이즈 쉬프트(phase-shift) 방식으로 구현될 수 있다. 라이다는, 구동식 또는 비구동식으로 구현될 수 있다. 구동식으로 구현되는 경우, 라이다는, 모터에 의해 회전되며, 차량(200) 주변의 오브젝트를 검출할 수 있고, 비구동식으로 구현되는 경우, 라이다는, 광 스티어링에 의해, 차량(200)을 기준으로 소정 범위 내에 위치하는 오브젝트를 검출할 수 있다. 차량(200)은 복수 개의 비구동식 라이다를 포함할 수 있다. 라이다는, 레이저 광 매개로, TOF(Time of Flight) 방식 또는 페이즈 쉬프트(phase-shift) 방식에 기초하여, 오브젝트를 검출하고, 검출된 오브젝트의 위치, 검출된 오브젝트와의 거리 및 상대 속도를 검출할 수 있다. 라이다는, 차량(200)의 전방, 후방 또는 측방에 위치하는 오브젝트를 감지하기 위해 차량(200)의 외부의 적절한 위치에 배치될 수 있다.
촬상부는 차량(200) 외부 이미지를 획득하기 위해, 차량(200)의 외부의 적절한 곳, 예를 들면, 차량(200)의 전방, 후방, 우측 사이드 미러, 좌측 사이드 미러에 위치할 수 있다. 촬상부는, 모노 카메라일 수 있으나, 이에 한정되지 않으며, 스테레오 카메라, AVM(Around View Monitoring) 카메라 또는 360도 카메라일 수 있다. 촬상부는, 차량(200) 전방의 이미지를 획득하기 위해, 차량(200)의 실내에서, 프런트 윈드 쉴드에 근접하게 배치될 수 있다. 또는, 촬상부는, 프런트 범퍼 또는 라디에이터 그릴 주변에 배치될 수 있다. 촬상부는, 차량(200) 후방의 이미지를 획득하기 위해, 차량의 실내에서, 리어 글라스에 근접하게 배치될 수 있다. 또는, 촬상부는 리어 범퍼, 트렁크 또는 테일 게이트 주변에 배치될 수 있다. 촬상부는 차량(200) 측방의 이미지를 획득하기 위해, 차량(200)의 실내에서 사이드 창문 중 적어도 어느 하나에 근접하게 배치될 수 있다. 또한, 촬상부는 휀더 또는 도어 주변에 배치될 수 있다.
초음파 센서는, 초음파 송신 모듈, 수신 모듈을 포함할 수 있다. 초음파 센서는, 초음파를 기초로 오브젝트를 검출하고, 검출된 오브젝트의 위치, 검출된 오브젝트와의 거리 및 상대 속도를 검출할 수 있다. 초음파 센서는, 차량(200)의 전방, 후방 또는 측방에 위치하는 오브젝트를 감지하기 위해 차량(200)의 외부의 적절한 위치에 배치될 수 있다. 적외선 센서는, 적외선 송신 모듈, 수신 모듈을 포함할 수 있다. 적외선 센서는, 적외선 광을 기초로 오브젝트를 검출하고, 검출된 오브젝트의 위치, 검출된 오브젝트와의 거리 및 상대 속도를 검출할 수 있다. 적외선 센서는, 차량(200)의 전방, 후방 또는 측방에 위치하는 오브젝트를 감지하기 위해 차량(200)의 외부의 적절한 위치에 배치될 수 있다.
차량 제어 모듈은 센싱 모듈의 각 모듈의 전반적인 동작을 제어할 수 있다. 차량 제어 모듈은 레이다, 라이다, 초음파 센서 및 적외선 센서에 의해 센싱된 데이터와 기 저장된 데이터를 비교하여, 오브젝트를 검출하거나 분류할 수 있다. 차량 제어 모듈은 획득된 이미지에 기초하여, 오브젝트를 검출하고, 트래킹 할 수 있다. 차량 제어 모듈은 이미지 처리 알고리즘을 통해, 오브젝트와의 거리 산출, 오브젝트와의 상대 속도 산출 등의 동작을 수행할 수 있다. 예를 들면, 차량 제어 모듈은 획득된 이미지에서, 시간에 따른 오브젝트 크기의 변화를 기초로, 오브젝트와의 거리 정보 및 상대 속도 정보를 획득할 수 있다. 또한 예를 들면, 차량 제어 모듈은 핀홀(pin hole) 모델, 노면 프로파일링 등을 통해, 오브젝트와의 거리 정보 및 상대 속도 정보를 획득할 수 있다.
차량 제어 모듈은 송신된 전자파, 레이저, 초음파 및 적외선 광 중 적어도 하나 이상이 오브젝트에 반사되어 되돌아오는 반사파(또는 반사광)에 기초하여, 오브젝트를 검출하고, 트래킹 할 수 있다. 이때 차량 제어 모듈은 반사파(또는 반사광)에 기초하여, 오브젝트와의 거리 산출, 오브젝트와의 상대 속도 산출 등의 동작을 수행할 수 있다. 실시 예에 따라, 센싱 모듈은 차량 제어 모듈과 별도의 프로세서를 내부에 포함할 수 있다. 또한, 레이다, 라이다, 초음파 센서 및 적외선 센서 각각 개별적으로 프로세서를 포함할 수 있다. 센싱 모듈에 프로세서가 포함된 경우, 센싱 모듈은 차량 제어 모듈의 제어를 받는 프로세서의 제어에 따라, 동작될 수 있다.
한편, 센싱 모듈은 자세 센서(예를 들면, 요 센서(yaw sensor), 롤 센서(roll sensor), 피치 센서(pitch sensor)), 충돌 센서, 휠 센서(wheel sensor), 속도 센서, 경사 센서, 중량 감지 센서, 헤딩 센서(heading sensor), 자이로 센서(gyro sensor), 포지션 모듈(position module), 차량 전진/후진 센서, 배터리 센서, 연료 센서, 타이어 센서, 핸들 회전에 의한 스티어링 센서, 차량 내부 온도 센서, 차량 내부 습도 센서, 초음파 센서, 조도 센서, 가속 페달 포지션 센서, 브레이크 페달 포지션 센서, 등을 포함할 수 있다. 센싱 모듈은 그 외, 가속페달센서, 압력센서, 엔진 회전 속도 센서(engine speed sensor), 공기 유량 센서(AFS), 흡기 온도 센서(ATS), 수온 센서(WTS), 스로틀 위치 센서(TPS), TDC 센서, 크랭크각 센서(CAS), 등을 더 포함할 수 있다. 센싱 모듈은 센싱 데이터를 기초로, 차량 상태 정보를 생성할 수 있다. 차량 상태 정보는, 차량 내부에 구비된 각종 센서에서 감지된 데이터를 기초로 생성된 정보일 수 있다. 차량 상태 정보는, 차량의 자세 정보, 차량의 속도 정보, 차량의 기울기 정보, 차량의 중량 정보, 차량의 방향 정보, 차량의 배터리 정보, 차량의 연료 정보, 차량의 타이어 공기압 정보, 차량의 스티어링 정보, 차량 실내 온도 정보, 차량 실내 습도 정보, 페달 포지션 정보 및 차량 엔진 온도 정보 등을 포함할 수 있다.
도 3은 본 발명의 일 실시 예에 따른 음향 제어 시스템의 개략적인 블록도이다. 이하의 설명에서 도 1 및 도 2에 대한 설명과 중복되는 부분은 그 설명을 생략하기로 한다.
도 3을 참조하면, 음향 제어 시스템(1)은 마이크(2), 스피커(3)와, 음향 제어 장치(100)를 포함할 수 있다. 본 실시 예는, 차량 내 스피커(3)에서 출력 음향신호(음성 인식 서비스, 음향 서비스)가 출력되고 있는 경우, 마이크(2)를 통해 수집된 차량 내 음향신호를 분석하여 분석한 결과에 기초해 노이즈(잡음)를 검출할 수 있고, 검출한 노이즈에 대응하도록 스피커(3)에서 출력되는 출력 음향신호의 볼륨 및 이퀄라이저의 설정을 조정함으로써, 어떠한 상황에서도 사용자가 체감상 일정한 음질의 음향신호를 들을 수 있도록 하여 명료한 청감을 느낄 수 있도록 할 수 있다. 한편, 본 실시 예에서, 음향 제어 시스템(1)이 적용 가능한 상황은, 예를 들어, 핸즈프리를 이용하여 통화를 하거나, 음악 및 내비게이션 등 음향 서비스를 이용 중이거나, 사용자 포함 2명 이상이 대화 중이거나, 음성 인식 서비스를 이용 중이거나, 아기가 울고 있는 경우 등의 상황을 포함할 수 있다. 다만, 본 실시 예에서는 차량(200)을 실시 예로 하였으나, 음향 제어 시스템(1)이 스마트 스피커, 헤드폰 등에 배치되는 경우에도 잡음 환경에서 명료한 청감 효과를 느낄 수 있도록 할 수 있다.
한편, 본 실시 예에서, 차량 내 음향신호는 마이크(2)를 통해 수집되는 음향신호를 의미하고, 출력 음향신호는 차량 내 구비된 스피커(3)를 통해 출력되는 음향신호를 의미할 수 있다. 또한 출력 음향신호는 음성 인식 서비스와 음향 서비스를 포함할 수 있다. 음성 인식 서비스는 음성 에이전트 시스템을 통하여 사용자의 발화 음성에 대응하는 응답 발화 음성 신호가 출력되는 것을 의미할 수 있으며, 음향 서비스는 차량에서 스피커(3)를 통해 제공할 수 있는 모든 출력 음향신호를 의미할 수 있다. 음향 서비스는 예를 들어, 음악, 내비게이션 안내 음성, 차량 경고음 등을 포함할 수 있다. 또한 본 실시 예에서는 음성 인식 서비스와 음향 서비스를 구분하고 있으나, 음성 인식 서비스가 음향 서비스에 포함될 수도 있고 음성 인식 서비스와 음향 서비스는 동시에 각각 다른 스피커를 통해 출력될 수도 있다. 음성 인식 서비스와 음향 서비스가 동시에 출력되는 경우, 음향 제어를 위한 우선순위는 초기 단계에서 설정되거나 사용자에 의해 변경 가능할 수 있다. 즉 이하에서, 차량 내 음향신호라 함은, 차량 내의 마이크(2)를 통해 수집 가능한 모든 음향신호를 포함할 수 있으며, 출력 음향신호라 함은, 음성 인식 서비스 및 음향 서비스를 포함하는 것일 수 있다.
마이크(2)는 음향 입력 수단으로서, 주행 중인 차량 내에 발생하는 차량 내 음향신호를 수집할 수 있다. 또한 마이크(2)는 하나 이상이 구비될 수 있으며, 본 실시 예에서는 2개 이상의 마이크(2)가 구비될 수 있다.
스피커(3)는 음향 출력 수단으로서, 차량 내에 출력 가능한 출력 음향신호를 출력할 수 있다. 본 실시 예에서는 차량 내 음향신호를 분석한 결과에 대응하여 볼륨 및 이퀄라이저의 설정이 조정된 출력 음향신호를 출력할 수 있다. 이때, 스피커(3)는 2개 이상의 스피커(3)가 구비될 수 있으며, 마이크(2) 및 스피커(3)는 차량(200)에 기존에 구비된 장치들로 구현 가능할 수 있다. 또한 마이크(2) 및 스피커(3)의 위치는 한정되지 않으나, 마이크(2)는 운전석 측에 구비될 수 있고, 스피커(3)는 시트 위치에 따라 각각 구비될 수 있다.
음향 제어 장치(100)를 보다 구체적으로 살펴보면, 음향 제어 장치(100)는 통신부(110), 사용자 인터페이스부(120), 오디오 처리부(130), 음향 처리부(140), 메모리(150) 및 제어부(160)를 포함할 수 있다.
통신부(110)는 차량(200)과 외부 장치와의 통신을 수행하기 위한 차량 통신 모듈일 수 있다. 통신부(110)는 복수 개의 통신 모드에 의한 통신을 지원하고, 서버로부터 서버 신호를 수신하며, 서버로 신호를 송신할 수 있다. 또한 통신부(110)는 타 차량으로부터 신호를 수신하고, 타 차량으로 신호를 송신할 수 있으며, 사용자 단말기로부터 신호를 수신하고, 사용자 단말기로 신호를 송신할 수 있다. 즉 외부 장치는 타 차량, 사용자 단말기, 그리고 서버 시스템 등을 포함할 수 있다. 또한 통신부(110)는 차량 내에서의 통신을 위한 통신 모듈을 포함할 수 있다. 여기서, 복수 개의 통신 모드는 타 차량과의 통신을 수행하는 차량 간 통신 모드, 외부 서버와 통신을 수행하는 서버 통신 모드, 차량 내 사용자 단말기 등 사용자 단말과 통신을 수행하는 근거리 통신 모드, 차량 내 유닛들과 통신하기 위한 차량 내 통신 모드 등을 포함할 수 있다. 즉, 통신부(110)는 무선 통신 모듈, V2X 통신 모듈 및 근거리 통신 모듈 등을 포함할 수 있다. 그 외에 통신부(110)는 차량(200)의 위치 정보를 포함하는 신호를 수신하는 위치 정보 모듈을 포함할 수 있다. 위치 정보 모듈은 GPS(Global Positioning System) 모듈 또는 DGPS(Differential Global Positioning System) 모듈을 포함할 수 있다.
무선 통신 모듈은 이동 통신망을 통하여 사용자 단말기 또는 서버와 상호 신호를 송수신할 수 있다. 여기서, 이동 통신망은 사용한 시스템 자원(대역폭, 전송 파워 등)을 공유하여 다중 사용자의 통신을 지원할 수 있는 다중 접속(Multiple access) 시스템이다. 다중 접속 시스템의 예로는, CDMA(Code Division Multiple Access) 시스템, FDMA(Frequency Division Multiple Access) 시스템, TDMA(Time Division Multiple Access) 시스템, OFDMA(Orthogonal Frequency Division Multiple Access) 시스템, SC-FDMA(Single Carrier Frequency Division Multiple Access) 시스템, MC-FDMA(Multi Carrier Frequency Division Multiple Access) 시스템 등이 있다.
V2X 통신 모듈은, 무선 방식으로 V2I 통신 프로토콜을 통해 RSU와 상호 신호를 송수신하고, V2V 통신 프로토콜을 통해 타 차량, 즉 차량(200)으로부터 일정 거리 이내에 근접한 차량과 상호 신호를 송수신하며, V2P 통신 프로토콜을 통해 사용자 단말기, 즉 보행자 또는 사용자와 상호 신호를 송수신할 수 있다. 즉 V2X 통신 모듈은 인프라와의 통신(V2I), 차량간 통신(V2V), 사용자 단말기와의 통신(V2P) 프로토콜이 구현 가능한 RF 회로를 포함할 수 있다. 즉, 통신부(110)는 통신을 수행하기 위해 송신 안테나, 수신 안테나, 각종 통신 프로토콜이 구현 가능한 RF(Radio Frequency) 회로 및 RF 소자 중 적어도 어느 하나를 포함할 수 있다.
그리고 근거리 통신 모듈은, 예를 들어 운전자의 사용자 단말기와 근거리 무선 통신 모듈을 통해 연결되도록 할 수 있다. 이때 근거리 통신 모듈은 사용자 단말기와 무선 통신뿐만 아니라 유선 통신으로 연결되도록 할 수도 있다. 예를 들어 근거리 통신 모듈은 운전자의 사용자 단말기가 사전에 등록된 경우, 차량(200)으로부터 일정 거리 내(예를 들어, 차량 내)에서 등록된 사용자 단말기가 인식되면 자동으로 차량(200)과 연결되도록 할 수 있다. 즉, 통신부(110)는 근거리 통신(Short range communication), GPS 신호 수신, V2X 통신, 광통신, 방송 송수신 및 ITS(Intelligent Transport Systems) 통신 기능을 수행할 수 있다. 통신부(110)는, 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), UWB(Ultra-Wideband), ZigBee, NFC(Near Field Communication), Wi-Fi(Wireless-Fidelity), Wi-Fi Direct, Wireless USB(Wireless Universal Serial Bus) 기술 중 적어도 하나를 이용하여, 근거리 통신을 지원할 수 있다. 실시 예에 따라, 통신부(110)는 설명되는 기능 외에 다른 기능을 더 지원하거나, 설명되는 기능 중 일부를 지원하지 않을 수 있다.
또한, 실시 예에 따라, 통신부(110)의 각 모듈은 통신부(110) 내에 구비된 별도의 프로세서에 의해 전반적인 동작이 제어될 수 있다. 통신부(110)는 복수 개의 프로세서를 포함하거나, 프로세서를 포함하지 않을 수도 있다. 통신부(110)에 프로세서가 포함되지 않는 경우, 통신부(110)는, 차량(200) 내 다른 장치의 프로세서 또는 차량 제어 모듈의 제어에 따라, 동작될 수 있다. 또한 통신부(110)는 차량 사용자 인터페이스 모듈과 함께 차량용 디스플레이 장치를 구현할 수 있다. 이 경우, 차량용 디스플레이 장치는, 텔레매틱스(telematics) 장치 또는 AVN(Audio Video Navigation) 장치로 명명될 수 있다.
한편, 본 실시 예에서 통신부(110)는 음향 제어 시스템(1)이 배치된 차량(200)을 자율주행 모드로 운행하기 위해 연결된 5G 네트워크의 하향 링크 그랜트에 기초하여, 음향신호의 특징을 분석하여 상기 음향신호가 차량 내에서 발생하는 정상적인 노이즈인지 비정상적인 노이즈인지 판단하도록 미리 훈련된 심층 신경망 모델을 이용하여, 상기 차량 내 음향신호가 정상적인 노이즈인지 비정상적인 노이즈인지 판단한 결과를 수신할 수 있다. 이때 통신부(110)는 음향신호 정보 및 차량(200)의 주행 동작에 따라 차량 내부에서 발생되는 노이즈 정보를 5G 네트워크에 연결된 AI 서버로부터 수신할 수 있다.
한편, 도 4는 5G 통신 시스템에서 자율주행 차량과 5G 네트워크의 기본동작의 일 예를 나타낸 도면이다.
통신부(110)는 차량(200)이 자율주행 모드로 운행되는 경우, 특정 정보를 5G 네트워크로 전송할 수 있다(S1).
이 때, 특정 정보는 자율주행 관련 정보를 포함할 수 있다.
자율주행 관련 정보는, 차량의 주행 제어와 직접적으로 관련된 정보일 수 있다. 예를 들어, 자율주행 관련 정보는 차량 주변의 오브젝트를 지시하는 오브젝트 데이터, 맵 데이터(map data), 차량 상태 데이터, 차량 위치 데이터 및 드라이빙 플랜 데이터(driving plan data) 중 하나 이상을 포함할 수 있다.
자율주행 관련 정보는 자율주행에 필요한 서비스 정보 등을 더 포함할 수 있다. 예를 들어, 특정 정보는, 사용자 인터페이스부(도 3의 120)를 통해 입력된 목적지와 차량의 안전 등급에 관한 정보를 포함할 수 있다.
또한, 5G 네트워크는 차량의 원격 제어 여부를 결정할 수 있다(S2).
여기서, 5G 네트워크는 자율주행 관련 원격 제어를 수행하는 서버 또는 모듈을 포함할 수 있다.
또한, 5G 네트워크는 원격 제어와 관련된 정보(또는 신호)를 자율주행 차량으로 전송할 수 있다(S3).
전술한 바와 같이, 원격 제어와 관련된 정보는 자율주행 차량에 직접적으로 적용되는 신호일 수도 있고, 나아가 자율주행에 필요한 서비스 정보를 더 포함할 수 있다. 본 발명의 일 실시예에서 자율주행 차량은, 5G 네트워크에 연결된 서버를 통해 주행 경로 상에서 선택된 구간별 보험과 위험 구간 정보 등의 서비스 정보를 수신함으로써, 자율주행과 관련된 서비스를 제공할 수 있다.
이하, 도 5 내지 도 9를 참조하여 자율주행 가능 차량(200)과 5G 네트워크 간의 5G 통신을 위한 필수 과정(예를 들어, 차량과 5G 네트워크 간의 초기 접속 절차 등)을 개략적으로 설명하면 다음과 같다.
먼저, 5G 통신 시스템에서 수행되는 자율주행 가능 차량(200)과 5G 네트워크를 통한 응용 동작의 일 예는 다음과 같다.
차량(200)은 5G 네트워크와 초기 접속(Initial access) 절차를 수행한다(초기 접속 단계, S20). 이때, 초기 접속 절차는 하향 링크(Downlink, DL) 동기 획득을 위한 셀 서치(Cell search) 과정 및 시스템 정보(System information)를 획득하는 과정 등을 포함한다.
또한, 차량(200)은 5G 네트워크와 임의 접속(Random access) 절차를 수행한다(임의 접속 단계, S21). 이때, 임의 접속 절차는 상향 링크(Uplink, UL) 동기 획득 과정 또는 UL 데이터 전송을 위한 프리엠블 전송 과정, 임의 접속 응답 수신 과정 등을 포함한다.
한편, 5G 네트워크는 자율주행 가능 차량(200)으로 특정 정보의 전송을 스케쥴링 하기 위한 UL 그랜트(Uplink grant)를 전송한다(UL 그랜트 수신 단계, S22).
차량(1000)이 UL 그랜트를 수신하는 절차는 5G 네트워크로 UL 데이터의 전송을 위해 시간/주파수 자원을 배정받는 스케줄링 과정을 포함한다.
또한, 자율주행 가능 차량(200)은 UL 그랜트에 기초하여 5G 네트워크로 특정 정보를 전송할 수 있다(특정 정보 전송 단계, S23).
한편, 5G 네트워크는 차량(200)으로부터 전송된 특정 정보에 기초하여 차량(200)의 원격 제어 여부를 결정할 수 있다(차량의 원격 제어 여부 결정 단계, S24).
또한, 자율주행 가능 차량(200)은 5G 네트워크로부터 기 전송된 특정 정보에 대한 응답을 수신하기 위해 물리 하향링크 제어 채널을 통해 DL 그랜트를 수신할 수 있다(DL 그랜트 수신 단계, S25).
이후에, 5G 네트워크는 DL 그랜트에 기초하여 자율주행 가능 차량(200)으로 원격 제어와 관련된 정보(또는 신호)를 전송할 수 있다(원격 제어와 관련된 정보 전송 단계, S26).
한편, 앞서 자율주행 가능 차량(200)과 5G 네트워크의 초기 접속 과정 및/또는 임의 접속 과정 및 하향링크 그랜트 수신 과정이 결합된 절차를 예시적으로 설명하였지만, 본 발명은 이에 한정되지 않는다.
예를 들어, 초기 접속 단계, UL 그랜트 수신 단계, 특정 정보 전송 단계, 차량의 원격 제어 여부 결정 단계 및 원격 제어와 관련된 정보 전송 단계를 통해 초기 접속 과정 및/또는 임의접속 과정을 수행할 수 있다. 또한, 예를 들어 임의 접속 단계, UL 그랜트 수신 단계, 특정 정보 전송 단계, 차량의 원격 제어 여부 결정 단계, 원격 제어와 관련된 정보 전송 단계를 통해 초기접속 과정 및/또는 임의 접속 과정을 수행할 수 있다. 또한, 특정 정보 전송 단계, 차량의 원격 제어 여부 결정 단계, DL 그랜트 수신 단계, 원격 제어와 관련된 정보 전송 단계를 통해, AI 동작과 DL 그랜트 수신 과정을 결합한 방식으로 자율주행 가능 차량(200)의 제어가 이루어질 수 있다.
또한, 앞서 기술한 자율주행 가능 차량(200)의 동작은 예시적인 것이 불과하므로, 본 발명은 이에 한정되지 않는다.
예를 들어, 자율주행 가능 차량(200)의 동작은, 초기 접속 단계, 임의 접속 단계, UL 그랜트 수신 단계 또는 DL 그랜트 수신 단계가, 특정 정보 전송 단계 또는 원격 제어와 관련된 정보 전송 단계와 선택적으로 결합되어 동작할 수 있다. 아울러, 자율주행 가능 차량(200)의 동작은, 임의 접속 단계, UL 그랜트 수신 단계, 특정 정보 전송 단계 및 원격 제어와 관련된 정보 전송 단계로 구성될 수도 있다. 한편, 자율주행 가능 차량(200)의 동작은, 초기 접속 단계, 임의 접속 단계, 특정 정보 전송 단계 및 원격 제어와 관련된 정보 전송 단계로 구성될 수 있다. 또한, 자율주행 가능 차량(200)의 동작은, UL 그랜트 수신 단계, 특정 정보 전송 단계, DL 그랜트 수신 단계 및 원격 제어와 관련된 정보 전송 단계로 구성될 수 있다.
도 6에 도시된 바와 같이, 자율주행 모듈을 포함하는 차량(200)은 DL 동기 및 시스템 정보를 획득하기 위해 SSB(Synchronization Signal Block)에 기초하여 5G 네트워크와 초기 접속 절차를 수행할 수 있다(초기 접속 단계, S30).
또한, 자율주행 가능 차량(200)은 UL 동기 획득 및/또는 UL 전송을 위해 5G 네트워크와 임의 접속 절차를 수행할 수 있다(임의 접속 단계, S31).
한편, 자율주행 가능 차량(200)은 특정 정보를 전송하기 위해 5G 네트워크로부터 UL 그랜트를 수신할 수 있다(UL 그랜트 수신 단계, S32).
또한, 자율주행 가능 차량(200)은 UL 그랜트에 기초하여 특정 정보를 5G 네트워크로 전송한다(특정 정보 전송 단계, S33).
또한, 자율주행 가능 차량(200)은 특정 정보에 대한 응답을 수신하기 위한 DL 그랜트를 5G 네트워크로부터 수신한다(DL 그랜트 수신 단계, S34).
또한, 자율주행 가능 차량(200)은 원격 제어와 관련된 정보(또는 신호)를 DL 그랜트에 기초하여 5G 네트워크로부터 수신한다(원격 제어 관련 정보 수신 단계, S35).
초기 접속 단계에 빔 관리(Beam Management, BM) 과정이 추가될 수 있으며, 임의 접속 단계에 PRACH(Physical Random Access CHannel) 전송과 관련된 빔 실패 복구(Beam failure recovery) 과정이 추가될 수 있으며, UL 그랜트 수신 단계에 UL 그랜트를 포함하는 PDCCH(Physical Downlink Control CHannel)의 빔 수신 방향과 관련하여 QCL(Quasi Co-Located) 관계가 추가될 수 있으며, 특정 정보 전송 단계에 특정 정보를 포함하는 PUCCH/PUSCH(Physical Uplink Shared CHannel)의 빔 전송 방향과 관련하여 QCL 관계가 추가될 수 있다. 또한, DL 그랜트 수신 단계에 DL 그랜트를 포함하는 PDCCH의 빔 수신 방향과 관련하여 QCL 관계가 추가될 수 있다.
도 7에 도시된 바와 같이, 자율주행 가능 차량(200)은 DL 동기 및 시스템 정보를 획득하기 위해 SSB에 기초하여 5G 네트워크와 초기 접속 절차를 수행한다(초기 접속 단계, S40).
또한, 자율주행 가능 차량(200)은 UL 동기 획득 및/또는 UL 전송을 위해 5G 네트워크와 임의 접속 절차를 수행한다(임의 접속 단계, S41).
또한, 자율주행 가능 차량(200)은 설정된 그랜트(Configured grant)에 기초하여 특정 정보를 5G 네트워크로 전송한다(UL 그랜트 수신 단계, S42). 즉, 상기 5G 네트워크로부터 UL 그랜트를 수신하는 과정 대신, 설정된 그랜트를 수신할 수 있다.
또한, 자율주행 가능 차량(200)은 원격 제어와 관련된 정보(또는 신호)를 설정 그랜트에 기초하여 5G 네트워크로부터 수신한다(원격 제어 관련 정보 수신 단계, S43).
도 8에 도시된 바와 같이, 자율주행 가능 차량(200)은 DL 동기 및 시스템 정보를 획득하기 위해 SSB에 기초하여 5G 네트워크와 초기 접속 절차를 수행할 수 있다(초기 접속 단계, S50).
또한, 자율주행 가능 차량(200)은 UL 동기 획득 및/또는 UL 전송을 위해 5G 네트워크와 임의 접속 절차를 수행한다(임의 접속 단계, S51).
또한, 자율주행 가능 차량(200)은 5G 네트워크로부터 DL 선점(Downlink Preemption) IE(Information Element)를 수신한다(DL 선점 IE 수신, S52).
또한, 자율주행 가능 차량(200)은 DL 선점 IE에 기초하여 선점 지시를 포함하는 DCI(Downlink Control Information) 포맷 2_1을 5G 네트워크로부터 수신한다(DCI 포맷 2_1 수신 단계, S53).
또한, 자율주행 가능 차량(200)은 선점 지시(Pre-emption indication)에 의해 지시된 자원(PRB 및/또는 OFDM 심볼)에서 eMBB 데이터의 수신을 수행(또는 기대 또는 가정)하지 않는다(eMBB 데이터의 수신 미수행 단계, S54).
또한, 자율주행 가능 차량(200)은 특정 정보를 전송하기 위해 5G 네트워크로 UL 그랜트를 수신한다(UL 그랜트 수신 단계, S55).
또한, 자율주행 가능 차량(200)은 UL 그랜트에 기초하여 특정 정보를 5G 네트워크로 전송한다(특정 정보 전송 단계, S56).
또한, 자율주행 가능 차량(200)은 특정 정보에 대한 응답을 수신하기 위한 DL 그랜트를 5G 네트워크로부터 수신한다(DL 그랜트 수신 단계, S57).
또한, 자율주행 가능 차량(200)은 원격제어와 관련된 정보(또는 신호)를 DL 그랜트에 기초하여 5G 네트워크로부터 수신한다(원격 제어 관련 정보 수신 단계, S58).
도 9에 도시된 바에 의하면, 자율주행 가능 차량(200)은 DL 동기 및 시스템 정보를 획득하기 위해 SSB에 기초하여 5G 네트워크와 초기 접속 절차를 수행한다(초기 접속 단계, S60).
또한, 자율주행 가능 차량(200)은 UL 동기 획득 및/또는 UL 전송을 위해 5G 네트워크와 임의 접속 절차를 수행한다(임의 접속 단계, S61).
또한, 자율주행 가능 차량(200)은 특정 정보를 전송하기 위해 5G 네트워크로 UL 그랜트를 수신한다(UL 그랜트 수신 단계, S62).
UL 그랜트는 특정 정보의 전송이 반복적으로 이루어지는 경우, 그 반복 횟수에 대한 정보를 포함하고, 특정 정보는 반복 횟수에 대한 정보에 기초하여 반복하여 전송된다(특정 정보 반복 전송 단계, S63).
또한, 자율주행 가능 차량(200)은 UL 그랜트에 기초하여 특정 정보를 5G 네트워크로 전송한다.
또한, 특정 정보의 반복 전송은 주파수 호핑을 통해 수행되고, 첫 번째 특정 정보의 전송은 제 1 주파수 자원에서, 두 번째 특정 정보의 전송은 제 2 주파수 자원에서 전송될 수 있다.
특정 정보는 6RB(Resource Block) 또는 1RB(Resource Block)의 협대역(Narrowband)을 통해 전송될 수 있다.
또한, 자율주행 가능 차량(200)은 특정 정보에 대한 응답을 수신하기 위한 DL 그랜트를 5G 네트워크로부터 수신한다(DL 그랜트 수신 단계, S64).
또한, 자율주행 가능 차량(200)은 원격제어와 관련된 정보(또는 신호)를 DL 그랜트에 기초하여 5G 네트워크로부터 수신한다(원격 제어 관련 정보 수신 단계, S65).
앞서 기술한 5G 통신 기술은 도 1 내지 도 14에서 후술할 본 명세서에서 제안하는 실시예와 결합되어 적용될 수 있으며, 또는 본 명세서에서 제안하는 실시예의 기술적 특징을 구체화하거나 명확하게 하는데 보충될 수 있다.
사용자 인터페이스부(120) 중 디스플레이부(121)는 제어부(160)의 제어 하에 음향 제어 시스템(1)의 작동 상태를 디스플레이 할 수 있다. 실시 예에 따라서, 디스플레이부(121)는 터치패드와 상호 레이어 구조를 이루어 터치스크린을 구성될 수 있다. 이 경우에, 디스플레이부(121)는 사용자의 터치에 의한 정보의 입력이 가능한 조작부(122)로도 사용될 수 있다. 이를 위해 디스플레이부(121)는 터치 인식 디스플레이 제어기 또는 이외의 다양한 입출력 제어기로 구성될 수 있다. 일 예로, 터치 인식 디스플레이 제어기는 장치와 사용자 사이에 출력 인터페이스 및 입력 인터페이스를 제공할 수 있다. 터치 인식 디스플레이 제어기는 전기 신호를 제어부(160)와 송수신할 수 있다. 또한, 터치 인식 디스플레이 제어기는 사용자에게 시각적인 출력을 표시하며, 시각적 출력은 텍스트, 그래픽, 이미지, 비디오와 이들의 조합을 포함할 수 있다.
사용자 인터페이스부(120) 중 조작부(122)는 복수의 조작 버튼(미도시)을 구비하여, 입력되는 버튼에 대응하는 신호를 제어부(160)로 전송할 수 있다. 이러한 조작부(122)는 사용자의 터치 또는 누름 조작을 인식할 수 있는 센서 또는 버튼, 스위치 구조로 구성될 수 있다. 본 실시 예에서, 조작부(122)는 디스플레이부(121)에 표시되는 음향 제어 시스템(1)의 작동과 관련한 각종 정보를 확인하거나, 변경하기 위해 사용자가 조작하는 조작 신호를 제어부(160)로 전송할 수 있다.
한편, 사용자 인터페이스부(120)는 상술하는 차량 사용자 인터페이스 모듈에 포함되거나, 차량 사용자 인터페이스를 포함할 수 있고, 디스플레이부(121)는 차량 사용자 인터페이스 모듈의 출력 모듈에 포함되거나, 출력 모듈을 포함할 수 있다. 또한 조작부(122)는 차량 사용자 인터페이스 모듈의 입력 모듈에 포함되거나, 입력 모듈을 포함할 수 있다.
오디오 처리부(130) 중 오디오 입력부(131)는 주행 중인 차량 내에 발생하는 차량 내 음향신호를 수집할 수 있다. 예를 들어, 오디오 입력부(131)는 스피커(3)에서 출력되는 소리, 차량 내부에서 발생하는 소리, 차량 외부에서 발생하는 소리, 사용자 음성을 포함하는 소리, 사용자 이외의 다른 탑승자의 음성을 포함하는 소리 등의 차량 내 음향신호를 마이크(2)를 통해 수집할 수 있다. 또한 본 실시 예에서, 오디오 입력부(131)는 사용자 발화 음성을 입력 받아 제어부(160)로 전송할 수 있고, 제어부(160)는 사용자 발화 음성을 음향 처리부(140)로 전송할 수 있다. 이를 위해 오디오 입력부(131)는 하나 이상의 마이크(2)를 구비할 수 있다. 또한 사용자 발화 음성을 더 정확하게 수신하기 위해 복수의 마이크(2)를 구비할 수 있다. 여기서, 복수의 마이크 각각은 서로 다른 위치에 이격되어 배치될 수 있고, 수집한 소리들을 전기적인 신호로 처리할 수 있다.
한편, 오디오 입력부(131)는 주행 중인 차량 내에 발생하는 차량 내 음향신호를 수집하는 과정에서 발생하는 에코를 제거하기 위한 다양한 에코 제거 알고리즘을 사용할 수 있다. 또한 본 실시 예에서, 선택적 실시 예로 오디오 입력부(131)는 사용자 발화 음성을 수신하는 과정에서 발생하는 에코를 제거하기 위한 다양한 에코 제거 알고리즘을 사용할 수 있다. 즉 본 실시 예에서는, 마이크를 통하여 수집한 차량 내 음향신호 중에서 스피커를 통해 출력되도록 스피커로 입력되는 출력 음향신호를 제거할 수 있다.
도 10은 본 발명의 일 실시 예에 따른 음향 제어 시스템의 에코제거기를 설명하기 위하여 도시한 개략적인 블록도이다.
도 10을 참조하면, 에코제거기(echo canceler 또는 acoustic echo canceler)(1400)는 필터(filter)(1410) 및 에코억제기(echo suppressor)(1420)를 포함할 수 있다. 도 10을 보다 구체적으로 살펴보면, 차량의 오디오 시스템으로부터 제공되는 오디오 출력 신호(x(t))는 스피커(3)를 통해 출력되며, 사용자에게 제공될 수 있다. 또한, 마이크(2)는 오디오 입력 신호(y(t))를 수신할 수 있다. 도시하지는 않았지만, 오디오 출력 신호(x(t))는 디지털-아날로그 변환되어 스피커(3)를 통해 출력될 수 있고, 오디오 입력 신호(y(t))는 마이크(2)로부터 수신된 후에 아날로그-디지털 변환될 수 있다.
마이크(2)에 의해 수신된 오디오 입력 신호(y(t))는 근단(near-end) 신호(v(t)) 및 에코 신호(s(t))를 포함할 수 있다. 근단 신호(v(t))는 마이크(2)가 수신하기를 사용자가 의도하는 신호이며, 사용자가 원하는(desired) 신호 또는 주(primary) 신호라고 지칭될 수도 있다. 에코 신호(s(t))는 스피커(3)로부터의 출력에 의해 발생하는 에코 성분을 나타내는 신호이다. 도시하지는 않았지만, 오디오 입력 신호(y(t))는 노이즈를 더 포함할 수도 있다. 상기 에코 성분 및 상기 노이즈는 근단 신호(v(t))에 대한 간섭으로 작용하며, 이를 제거 또는 억제할 필요가 있다. 일 실시예에서, 에코 제거를 수행하기 위해 더블토크 검출(doubletalk detection), 스텝 사이즈 제어(step-size control) 등과 같은 알고리즘이 이용될 수 있다.
필터(1410)는 오디오 출력 신호(x(t)) 및 오디오 입력 신호(y(t))를 기초로 오디오 입력 신호(y(t))에 포함되는 에코 신호(s(t))를 추정하여 추정 에코 신호(s'(t))를 발생할 수 있다. 다시 말하면, 필터(1410)는 오디오 입력 신호(y(t)) 내의 상기 에코 성분 및 상기 에코 성분을 유발하는 에코 경로를 모델링하며, 상기 에코 경로가 어떻게 오디오 출력 신호(x(t))의 일부를 상기 에코 성분으로 변경하는지를 추정할 수 있다. 오디오 출력 신호(x(t))는 참조(reference) 신호로서 이용될 수 있다.
상기 에코 경로는, 스피커(3)로부터 마이크(2)까지 원단(far-end) 신호가 이동하는 음향 경로의 효과를 나타낸다. 상기 원단 신호는 스피커(3)로부터 마이크(2)까지 바로 이동할 수도 있고, 또는 외부 환경의 다양한 표면으로부터 반사될 수도 있다. 스피커(3)로부터 출력되는 상기 원단 신호가 지나가는 상기 에코 경로는, 시간에 걸쳐 변할 수 있는 주파수 및 위상 응답을 갖는 시스템으로 간주될 수도 있다.
일 실시 예에서, 상기 에코 경로는 임의의 선형 필터(예를 들면, 유한 임펄스 응답(finite impulse response; FIR) 필터 또는 무한 임펄스 응답(infinite impulse response; IIR) 필터)를 활용하여 모델링될 수 있다. 예를 들어, 상기 에코 경로의 추정치는 (N+1)(N은 자연수)개의 값을 갖는 벡터일 수 있고, 필터(1410)는 시간에서 유한한 길이를 가지는 N차 필터로 구현될 수 있다. 일 실시예에서, 상기 에코 경로의 추정치는 명시적으로 계산될 필요는 없으며, 최소 제곱 평균(Least Mean Squares; LMS), 정규 최소 제곱 평균(Normalized Least Mean Squares; NLMS), 고속 인접 투사(Fast Affine Projection; FAP) 및 순환 최소 제곱(Recursive Least Squares; RLS)과 같은 확률적 기울기 알고리즘(stochastic gradient algorithm)으로부터 획득되는 필터 계수로서 표현될 수 있다. 일 실시예에서, 상기 에코 경로의 추정치는 시간에 따라 계속적으로 업데이트될 수 있다.
에코억제기(1420)는 추정 에코 신호(s'(t)) 및 오디오 입력 신호(y(t))에 기초하여 추정 근단 신호(v'(t))를 발생할 수 있다. 예를 들어, 에코억제기(1420)는 추정 에코 신호(s'(t))를 기초로 오디오 입력 신호(y(t))에 에코 억제를 적용하여 추정 근단 신호(v'(t))를 발생할 수 있다. 상기 에코 경로가 정확하게 추정될수록, 추정 근단 신호(v'(t))는 근단 신호(v(t))에 가까워질 수 있다. 일 실시예에서, 에코억제기(1420)는 에코 감산기(subtractor)의 형태로 구현될 수 있다. 예를 들어, 상기 에코 감산기는 오디오 입력 신호(y(t))에서 추정 에코 신호(s'(t))를 감산하여 추정 근단 신호(v'(t))를 발생할 수 있다. 에코제거기(1420)의 상기 각 구성요소의 구체적인 실시예는 당업자에게 실현 가능한 범위에서 다양하게 구현될 수 있으며, 본 발명의 실시예들에 부합하는 범위 내에서 일부 구성요소는 생략/추가되거나 다른 구성요소로 대체될 수 있다.
오디오 처리부(130) 중 오디오 출력부(132)는 음향 서비스(예를 들어, 음악, 내비게이션의 안내 음성과, 제어부(160)의 제어에 따른 경고음, 동작모드, 동작상태, 에러상태 등의 알림 메시지와, 사용자의 발화정보에 대응하는 응답정보와, 사용자 발화 음성(음성 명령어)에 대응하는 처리 결과 등)을 오디오로 출력할 수 있다. 이때 오디오 출력부(132)는 제어부(160)로부터의 전기 신호를 오디오 신호로 변환하여 출력할 수 있다. 특히 본 실시 예에서, 오디오 출력부(132)는 제어부(160)로부터의 차량 내 음향신호 분석 결과에 대응하여 볼륨 및 이퀄라이저의 설정이 조정된 출력 음향신호를 스피커(3)를 통해 출력할 수 있다.
본 실시 예에서 음향 처리부(140)는 제어부(160)와 연계하여 학습을 수행하거나, 제어부(160)로부터 학습 결과를 수신할 수 있다. 본 실시 예에서 음향 처리부(140)는 도 3에 도시된 바와 같이 제어부(160) 외부에 구비될 수도 있고, 제어부(160) 내부에 구비되어 제어부(160)처럼 동작할 수도 있고, 도 2의 서버(300) 내부에 구비될 수도 있다. 이하 음향 처리부(140)의 상세한 내용은 도 11을 참조하여 설명하기로 한다.
메모리(150)는 음향 제어 시스템(1)의 동작에 필요한 각종 정보들을 저장하는 것으로, 휘발성 또는 비휘발성 기록 매체를 포함할 수 있다. 예를 들어, 메모리(150)에는 오디오 입력부(131)로부터 수집한 차량 내 음향신호를 분석하기 위한 소리의 패턴, 음향신호의 종류에 대응하는 볼륨 크기 및 이퀄라이저 설정 데이터, 사용자별 설정 데이터 등이 저장될 수 있다. 또한 메모리(150)는 오디오 입력부(131)를 통하여 수신되는 차량 내 음향신호를 분석하기 위한 이벤트 패턴 학습 모델을 포함할 수 있다. 그리고 메모리(150)는 오디오 입력부(131)를 통하여 수신되는 사용자 발화 음성을 저장할 수 있고, 음향 처리부(140)가 처리한 정보를 저장할 수 있으며, 음성 인식을 위한 사용자-성우 맵핑 학습 모델을 저장할 수 있다. 이때, 사용자-성우 맵핑 학습 모델은, 음성 판별용 심층 신경망 모델을 의미할 수 있으며, 본 실시 예에서는 차량 내 음향신호를 수집하는 단계 이전에, 마이크를 통하여 차량의 사용자의 발화 음성을 등록하고, 음성 판별용 심층 신경망 모델(사용자-성우 맵핑 학습 모델)을 사용자의 발화 음성으로 훈련시켜 사용자의 발화 음성을 분별할 수 있는 심층 신경망 모델(사용자-성우 맵핑 학습 모델)을 생성할 수 있다.
여기서, 메모리(150)는 자기 저장 매체(magnetic storage media) 또는 플래시 저장 매체(flash storage media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다. 이러한 메모리(150)는 내장 메모리 및/또는 외장 메모리를 포함할 수 있으며, DRAM, SRAM, 또는 SDRAM 등과 같은 휘발성 메모리, OTPROM(one time programmable ROM), PROM, EPROM, EEPROM, mask ROM, flash ROM, NAND 플래시 메모리, 또는 NOR 플래시 메모리 등과 같은 비휘발성 메모리, SSD. CF(compact flash) 카드, SD 카드, Micro-SD 카드, Mini-SD 카드, Xd 카드, 또는 메모리 스틱(memory stick) 등과 같은 플래시 드라이브, 또는 HDD와 같은 저장 장치를 포함할 수 있다.
제어부(160)는 마이크(2)를 통하여 수집한 차량 내 음향신호를 분석하고, 차량 내 음향신호의 분석 결과에 대응하여 스피커(3)를 통해 출력되는 출력 음향신호의 볼륨 및 이퀄라이저의 설정을 조정할 수 있다. 이때 제어부(160)는 음향신호가 정상적인 노이즈인지 비정상적인 노이즈인지 판단하도록 미리 훈련된 심층 신경망 모델 등에 기초하여 차량 내 음향신호를 분석하고 출력 음향신호의 볼륨 및 이퀄라이저의 설정을 조정할 수 있다.
또한 제어부(160)는 오디오 입력부(131)를 통하여 수신한 사용자 발화 음성을 음향 처리부(140)로 전송하고, 음향 처리부(140)로부터 음성 인식 처리 결과를 디스플레이부(121)를 통하여 시각적 정보로 제공하거나, 오디오 출력부(132)를 통하여 청각적 정보로 제공할 수 있다.
제어부(160)는 일종의 중앙처리장치로서 메모리(150)에 탑재된 제어 소프트웨어를 구동하여 음향 제어 시스템(1) 전체의 동작을 제어할 수 있다. 제어부(160)는 프로세서(processor)와 같이 데이터를 처리할 수 있는 모든 종류의 장치를 포함할 수 있다. 여기서, '프로세서(processor)'는, 예를 들어 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로써, 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), 프로세서(Processors), 제어기(Controllers), 마이크로 컨트롤러(Micro-controllers), FPGA(field programmable gate array) 등의 처리 장치를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.
본 실시 예에서 제어부(160)는 음향 제어 시스템(1)이 최적의 음향 제어를 수행하도록, 음향 제어 시스템(1)의 음향신호 종류 판단, 이벤트 패턴 분석, 음향신호 종류에 따른 볼륨 및 이퀄라이저 설정 조정, 이벤트 패턴에 따른 볼륨 및 이퀄라이저 설정 조정, 차량의 모델에 따라 차량 주행 동작 중에 차량 내부에서 발생하는 노이즈 추정, 음성 명령어 획득, 음성 명령어에 대응하는 음향 제어 시스템(1)의 동작 및 사용자 맞춤 동작 등에 대하여 딥러닝(Deep Learning) 등 머신 러닝(machine learning)을 수행할 수 있고, 메모리(150)는 머신 러닝에 사용되는 데이터, 결과 데이터 등을 저장할 수 있다.
머신 러닝의 일종인 딥러닝(deep learning) 기술은 데이터를 기반으로 다단계로 깊은 수준까지 내려가 학습할 수 있다. 딥러닝은 단계를 높여갈수록 복수의 데이터들로부터 핵심적인 데이터를 추출하는 머신 러닝 알고리즘의 집합을 나타낼 수 있다.
딥러닝 구조는 인공신경망(ANN)을 포함할 수 있으며, 예를 들어 딥러닝 구조는 CNN(convolutional neural network), RNN(recurrent neural network), DBN(deep belief network) 등 심층신경망(DNN)으로 구성될 수 있다. 본 실시 예에 따른 딥러닝 구조는 공지된 다양한 구조를 이용할 수 있다. 예를 들어, 본 발명에 따른 딥러닝 구조는 CNN, RNN, DBN 등을 포함할 수 있다. RNN은, 자연어 처리 등에 많이 이용되고 있으며, 시간의 흐름에 따라 변하는 시계열 데이터(time-series data) 처리에 효과적인 구조로 매 순간마다 레이어를 쌓아올려 인공신경망 구조를 구성할 수 있다. DBN은 딥러닝 기법인 RBM(restricted boltzman machine)을 다층으로 쌓아 구성되는 딥러닝 구조를 포함할 수 있다. RBM 학습을 반복하여, 일정 수의 레이어가 되면 해당 개수의 레이어를 가지는 DBN을 구성할 수 있다. CNN은 사람이 물체를 인식할 때 물체의 기본적인 특징들을 추출한 다음 뇌 속에서 복잡한 계산을 거쳐 그 결과를 기반으로 물체를 인식한다는 가정을 기반으로 만들어진 사람의 뇌 기능을 모사한 모델을 포함할 수 있다.
한편, 인공신경망의 학습은 주어진 입력에 대하여 원하는 출력이 나오도록 노드간 연결선의 웨이트(weight)를 조정(필요한 경우 바이어스(bias) 값도 조정)함으로써 이루어질 수 있다. 또한, 인공신경망은 학습에 의해 웨이트(weight) 값을 지속적으로 업데이트시킬 수 있다. 또한, 인공신경망의 학습에는 역전파(back propagation) 등의 방법이 사용될 수 있다.
즉 음향 제어 시스템(1)에는 인공신경망(artificial neural network)이 탑재될 수 있으며, 즉 제어부(160)는 인공신경망, 예를 들어, CNN, RNN, DBN 등 심층신경망(deep neural network: DNN)을 포함할 수 있다. 따라서 제어부(160)는 음향 제어 시스템(1)의 음향신호 종류 판단, 이벤트 패턴 분석, 음향신호 종류에 따른 볼륨 및 이퀄라이저 설정 조정, 이벤트 패턴에 따른 볼륨 및 이퀄라이저 설정 조정, 차량의 모델에 따라 차량 주행 동작 중에 차량 내부에서 발생하는 노이즈 추정, 음성 명령어 획득, 음성 명령어에 대응하는 음향 제어 시스템(1)의 동작 및 사용자 맞춤 동작 등을 위해 심층신경망을 학습할 수 있다. 이러한 인공신경망의 머신 러닝 방법으로는 자율학습(unsupervised learning)과 지도학습(supervised learning)이 모두 사용될 수 있다. 제어부(160)는 설정에 따라 학습 후 인공신경망 구조를 업데이트시키도록 제어할 수 있다.
한편, 본 실시 예에서는 미리 훈련된 심층 신경망 학습을 위한 파라미터를 수집할 수 있다. 이때, 심층 신경망 학습을 위한 파라미터는 마이크(2)로부터 수집된 차량 내 음향신호 데이터, 스피커(3)에서 출력되는 출력 음향신호 데이터, 사용자 음성 데이터, 차량 내 음향신호의 종류에 따른 출력 음향신호의 볼륨 및 이퀄라이저 설정 조정 데이터, 차량의 주행 모드 데이터, 차량 모델에 따른 노이즈 정보 데이터 등을 포함할 수 있다. 또한 심층 신경망 학습을 위한 파라미터는 음성 명령어, 음성 명령어에 대응하는 음향 제어 시스템(1)의 동작 및 사용자 맞춤 동작 데이터를 포함할 수 있다. 다만 본 실시 예에서는 심층 신경망 학습을 위한 파라미터가 이에 한정되는 것은 아니다. 이때 본 실시 예에서는, 학습 모델을 정교화하기 위해서 실제 사용자가 사용한 데이터를 수집할 수 있다. 즉 본 실시 예에서는 통신부(110) 및 사용자 인터페이스부(120) 등을 통해 사용자로부터 사용자 데이터를 입력 받을 수 있다. 사용자로부터 사용자 데이터를 입력 받는 경우, 본 실시 예에서는 학습 모델의 결과와 상관없이 입력 데이터를 서버 및/또는 메모리에 저장할 수 있다. 즉 본 실시 예에서, 음향 제어 시스템(1)은 차량 내 음향 시스템 이용 시 음향 제어를 위한 데이터를 서버에 저장하여 빅데이터를 구성하고, 서버단에서 딥러닝을 실행하여 관련 파라미터를 음향 제어 시스템(1) 내부에 업데이트하여 점차 정교해지도록 할 수 있다. 다만 본 실시 예에서는 음향 제어 시스템 또는 차량의 엣지(edge) 단에서 자체적으로 딥러닝을 실행하여 업데이트를 수행할 수도 있다. 즉 본 실시 예는, 음향 제어 시스템의 초기 설정 또는 차량의 초기 출시 시에는 실험실 조건의 딥러닝 파라미터를 내장하고, 사용자가 차량을 주행할 수록, 즉 사용자가 차량의 음향 시스템을 사용할수록 누적되는 데이터를 통해 업데이트를 수행할 수 있다. 따라서 본 실시 예에서는 수집한 데이터를 라벨링하여 지도학습을 통한 결과물을 얻을 수 있도록 하며, 이를 음향 제어 시스템 자체 메모리(150)에 저장하여 진화하는 알고리즘이 완성되도록 할 수 있다. 즉, 음향 제어 시스템은 음향 제어를 위한 데이터들을 수집하여 학습 데이터 세트를 생성하고, 학습 데이터 세트를 기계학습 알고리즘을 통해 학습시켜서 학습된 모델을 결정할 수 있다. 그리고 음향 제어 시스템은 실제 사용자가 사용한 데이터를 수집하여 서버에서 재 학습시켜서 재 학습된 모델을 생성할 수 있다. 따라서 본 실시 예는, 학습된 모델로 판단한 후에도 계속 데이터를 수집하고, 기계학습모델을 적용하여 재 학습시켜서, 재 학습된 모델로 성능을 향상시킬 수 있다.
도 11은 본 발명의 일 실시 예에 따른 음향 제어 시스템의 음향 처리부의 개략적인 블록도이다. 이하의 설명에서 도 1 내지 도 10에 대한 설명과 중복되는 부분은 그 설명을 생략하기로 한다.
도 11을 참조하면, 음향 처리부(140)는 수집부(141), 판단부(142), 조정부(143), 데이터베이스(DB, 144), 음성 인식부(145) 및 감지부(146)를 포함할 수 있다.
수집부(141)는 주행 중인 차량 내에 구비된 하나 이상의 마이크(2)를 통하여 차량 내 음향신호를 수집할 수 있다. 즉 수집부(141)는 오디오 입력부(131)를 통하여 입력되는 차량 내 음향신호를 수집할 수 있다. 이때, 차량 내 음향신호는 예를 들어, 스피커(3)에서 출력되는 소리, 차량 내부에서 발생하는 소리, 차량 외부에서 발생하는 소리, 사용자 발화 음성, 다른 탑승자 음성을 포함하는 소리 등을 포함할 수 있다.
판단부(142)는 수집부(141)에서 수집된 차량 내 음향신호를 분석할 수 있다. 이때 판단부(142)는 차량 내 음향신호의 특징을 분석하여, 차량 내 음향신호의 특징 벡터를 분석해 음향신호가 정상적인 노이즈인지 비정상적인 노이즈인지 판단할 수 있다. 또한, 판단부(142)는 음향신호의 특징을 분석하여 상기 음향신호가 차량 내에서 발생하는 정상적인 노이즈인지 비정상적인 노이즈인지 판단하도록 미리 훈련된 제 1 심층 신경망 모델을 이용하여, 차량 내 음향신호가 정상적인 노이즈인지 비정상적인 노이즈인지 판단할 수 있다. 이때, 제 1 심층 신경망 모델은 차량 내에서 통상적으로 발생하는 음향의 빅데이터를 정상적인 노이즈로 레이블링한 훈련 데이터를 통해 훈련된 것일 수 있다. 이하 도 12를 참조하여 판단부(142)에 대해 보다 구체적으로 설명하도록 한다.
도 12는 본 발명의 일 실시 예에 따른 음향 제어 시스템의 판단부의 개략적인 블록도이다.
도 12를 참조하면, 판단부(142)는 수집부(141)에서 수집되는 차량 내 음향신호의 분석을 통해 차량 내 음향신호의 종류가 정상적인 노이즈인지 비정상적인 노이즈인지 판단할 수 있다. 즉, 본 실시 예에서, 차량 내 음향신호는 정상적인 노이즈와 비정상적인 노이즈로 구분할 수 있다. 본 실시 예에서, 정상적인 노이즈는, 차량 내에서 통상적으로 발생하는 음향을 의미할 수 있다. 정상적인 노이즈는 예를 들어, 사용자 음성, 사용자와 다른 탑승자의 대화 음성, 통화 음성 등의 음성 이벤트를 의미할 수 있다. 즉, 정상적인 노이즈는 사람의 음성을 포함할 수 있다. 또한, 정상적인 노이즈는 음성 이벤트뿐만 아니라, 비단발성으로 발생하는 소리라고 판단되는, 음성 인식 서비스 및 음향 서비스를 포함할 수 있다. 예를 들어, 음향 서비스는 사용자가 직접 입력, 선택한 음악, 라디오 등의 엔터테인먼트 시스템에서의 소리와, 내비게이션, 경고음 등 차량 주행 서포트 시스템에서의 소리 등을 포함할 수 있다. 또한, 본 실시 예에서는 선택적 실시 예로, 기저장된 패턴의 소리를 정상적인 노이즈로 구분할 수 있다. 여기서 기저장된 패턴의 소리는 예를 들어, 아기 울음소리, 차량 외부의 일정 거리 이내에서 일정 시간 이상 동안 발생하는 경적소리 등을 포함할 수 있다.
비정상적인 노이즈는 사람 음성을 제외한, 차량 주행 시 통상적으로 발생하지 않는 단발성의 음향신호를 의미할 수 있다. 예를 들어, 비정상적인 노이즈는 주행 시 차량 외부에서 발생되는 주행 잡음, 공사장 소음 등의 외부 환경 노이즈를 포함할 수 있다.
본 실시 예에서, 판단부(142)는 차량에서 발생 가능한 정상적인 노이즈 및 비정상적인 노이즈를 포함하는 음향 이벤트들을 계층적으로 분류하여 인식함으로써, 효과적인 상황 인식이 가능할 수 있다. 판단부(142)는 입력되는 음향신호에서 추출되는 음향 특징을 분석하여, 음향신호의 이벤트를 계층적으로 인식 및 분류할 수 있다. 여기서 이벤트는 사람의 음성, 음악, 주행 잡음 등 음향신호의 종류를 나타낼 수 있다.
이러한 판단부(142)는 특징 추출부(142-1), 음향 모델(142-2), 특징 평가부(142-3) 및 우도비 산출부(142-4)를 포함할 수 있다.
특징 추출부(142-1)는 입력되는 음향신호로부터 음향 특징을 추출할 수 있다. 입력되는 음향신호는 예를 들어, 50ms 단위의 음향 프레임일 수 있으며, 특징 추출부(142-1)는 음향 프레임에서 음향 특징을 추출할 수 있다. 음향 특징은 MFCC(Melfrequency cepstral coefficient) 특징 및 Timbre 특징을 포함할 수 있다. 특징 추출부(142-1)는 MFCC 특징 및 Timbre 특징 추출을 차례로 또는 병렬로 수행할 수 있다. MFCC 특징은 저주파 영역에서의 변화에 상대적으로 민감한 사람의 청각 특성을 반영하여, 고주파 영역에 비해 저주파 영역에서 더 자세히 추출되는 특징 벡터로 음성 인식(speech recognition) 및 다양한 음향 정보를 이용한 인식(acoustic context awarness)에 활용될 수 있다. 특징 추출부(142-1)는 시간 영역의 음향 신호를 전처리(pre-processing)하여 고주파 에너지를 부스팅하고, 푸리에 변환(FFT)을 취하여 주파수 영역의 스펙트럼을 구한 후, 구한 스펙트럼에 대해 멜 스케일(Mel scale)에 맞춘 삼각 필터 뱅크를 대응시켜 각 밴드에서의 크기의 합을 구하고, 필터 뱅크 출력값에 로그를 취한 후, 이산 코사인 변환을 하여 MFCC 특징 벡터를 획득할 수 있다. MFCC 특징은 MFCC 특징 및 MFCC의 시간에 따른 변화량인 Delta 특징을 결합(이하, 'MFCC 특징'으로 통칭함)하여 사용할 수 있다. 이러한 상기 특징 추출 과정은 공지된 기술로서, 보다 구체적인 설명은 생략하기로 한다.
음향 모델(142-2)은 기준 음향 특징의 데이터베이스로서, 예를 들어, 기준 MFCC 특징과 기준 Timbre 특징을 포함할 수 있다. 기준 Timbre 특징은 훈련 음향 데이터베이스(Database)에서 추출된 Timbre 특징이다. 기준 MFCC 특징은, 훈련 음향 데이터베이스(Database)에서 추출된 MFCC 특징을 이용하여, 가우시안 혼합 모델(GMM, Gaussian Mixture Model)의 평균과 공분산 행렬 및 가중치를 충분히 업데이트 하여 모델링된 음향 이벤트 모델이다. 즉 음향 모델(142-2)은 차량 내에서 발생할 수 있는 음향신호에 대해 훈련한 후 GMM을 이용하여 모델링 할 수 있다.
특징 평가부(142-3)는 음향신호의 음향 특징과 기준 음향 특징 간의 유사도를 계산하여 음향 특징을 평가할 수 있다. 기준 음향 특징은 정의된 복수의 음향 이벤트에 대하여 훈련에 의해 미리 획득된 특징이다. 음향 이벤트는 복수의 음성 이벤트와 복수의 비음성 이벤트를 포함할 수 있다.
우도비 산출부(142-4)는 수집부(141)로부터 입력되는 음향신호의 특징을 추출한 후, 미리 훈련된 음향 모델(142-2)과 비교 분석 하여 음향신호의 종류(정상적인 노이즈 또는 비정상적인 노이즈)를 판단할 수 있다. 본 실시 예에서, 우도비 산출부(142-4)는 GMM에 기반한 통계 모델 방식을 이용하여 노이즈 검증을 수행할 수 있다. GMM에 기반한 통계 모델 방식을 이용하는 경우, 우도비 산출부(142-4)는 검증을 위한 음향신호가 입력되면, 정상적인 노이즈 GMM 모델과 전체배경모델(UBM: universal background model) GMM 모델 간의 우도비(likelihood ratio)를 계산하고, 우도비가 임계값(threshold)보다 크면 입력된 음향신호를 정상적인 노이즈로 승인(accept)하고, 그 외의 경우에 거부(reject)할 수 있다. 여기서 정상적인 노이즈 GMM 모델은 검증 대상이 되는 정상적인 노이즈로 분류 가능한 음향신호를 GMM으로 통계 모델화한 것이고, 전체배경모델 GMM 모델은 불특정의 다양한 음향신호를 GMM으로 통계 모델화한 것이다. 그리고 우도비는 정상적인 노이즈 GMM 모델의 확률적인 유사도와 전체배경모델 GMM 모델의 확률적인 유사도 간의 비율이다.
또한, 본 실시 예에서, 우도비 산출부(142-4)는 화자 검증(speaker verification) 알고리즘에 기초하여 수집부(141)로부터 입력되는 음향신호가 제시된 화자(claimed speaker), 즉 사용자의 음성인지 아닌지를 검증할 수 있다. 즉, 화자 검증 알고리즘은 입력 음성이 제시 화자의 목소리인지를 자동으로 검증하는 알고리즘으로, 보안이나 법의학(forensic) 등의 여러 분야에 유용하게 사용될 수 있다. 본 실시 예에서 우도비 산출부(142-4)는 GMM에 기반한 통계 모델 방식을 이용하여 화자 검증을 수행할 수 있다. GMM에 기반한 통계 모델 방식을 이용하는 경우, 우도비 산출부(142-4)는 검증을 위한 음향신호가 입력되면, 제시 화자 GMM 모델과 전체배경모델(UBM: universal background model) GMM 모델 간의 우도비(likelihood ratio)를 계산하고, 우도비가 임계값(threshold)보다 크면 입력된 음향신호를 제시화자의 음성으로 승인(accept)하고, 그 외의 경우에 거부(reject)할 수 있다. 여기서 제시 화자 GMM 모델은 검증 대상이 되는 제시 화자의 고유한 음성을 GMM으로 통계 모델화한 것이고, 전체배경모델 GMM 모델은 불특정 사람들의 다양한 음성을 GMM으로 통계 모델화한 것이다. 그리고 우도비는 제시 화자 GMM 모델의 확률적인 유사도와 전체배경모델 GMM 모델의 확률적인 유사도 간의 비율이다.
즉, 판단부(142)는 음향신호의 음향 특징과 기준 음향 특징 간의 유사도를 기초로, 음향 신호를 계층적 접근(hierarchical approch) 방식에 의해 복수의 음향 이벤트 중 하나로 분류할 수 있다. 일반적으로 발생할 수 있는 음향은 사람의 목에서 발생하는 소리인 음성(vocal)과 그 외의 소리인 비음성(nonvocal), 두 개의 대분류로 나눌 수 있다. 예를 들어, 음성은 대화(converstion), 음악(music), 울음(crying), 안내(announcement) 등의 이벤트로 분류할 수 있다. 비음성은 음성을 제외한 차량에서 발생 가능한 주행 잡음 등의 이벤트로 분류할 수 있다. 음성 및 비음성 이벤트는 전술된 종류에 한정되지 않고, 감시 영역 및 시스템 설계에 따라 다양하게 설정될 수 있음은 물론이다. 판단부(142)는 음향신호의 종류를 판단하기 위한 복수의 분류기들을 포함할 수 있다. 각 분류기는 최적화된 음향 특징을 이용하며, 시스템 설치 환경에 따라 재구성이 가능하고, 분류기의 구성에 따라 여러 장소에 적용가능하고 비음성에서도 다양한 이벤트들로 세분화할 수 있다.
즉 판단부(142)는 음향신호를 먼저 음성과 비음성으로 분류하고, 음성인 경우 정상적인 노이즈에 대한 이벤트 중 하나로 분류하고, 비음성인 경우 비정상적인 노이즈에 대한 이벤트 중 하나로 분류할 수 있다. 이때 판단부(142)는 비정상적인 노이즈로 분류된 비음성 음향신호 중에서 차량 내 스피커에서 출력되는 출력 음향신호 및 기저장된 패턴의 소리에 대해서는 정상적인 노이즈로 재분류할 수 있다.
조정부(143)는 판단부(142)에서 분석된 차량 내 음향신호에 대응하여 차량 내에 구비된 스피커(3)를 통해 출력되는 음향신호의 볼륨 및 이퀄라이저의 설정을 조정할 수 있다. 이러한 조정부(143)는 이벤트 발생부(143-1), 노이즈 검출부(143-2) 및 출력 조정부(143-3)를 포함할 수 있다. 즉 조정부(143)의 이벤트 발생부(143-1)는 음향신호의 종류에 대응하여 이벤트 신호를 발생하고, 노이즈 검출부(143-2)는 이벤트 발생부(143-1)에서 발생한 이벤트 신호에 대응하여 노이즈를 검출할 수 있다. 그리고 조정부(143)의 출력 조정부(143-3)는 검출한 노이즈를 기초로 노이즈 크기 및 파형에 대응하여 오디오 출력부(132)의 볼륨(132-1) 및 이퀄라이저(132-2)의 설정을 조정할 수 있다.
이벤트 발생부(143-1)는 차량 내 음향신호를 분석한 결과에 기초하여, 차량 내 음향신호의 분석 결과에 대응하는 음향 이벤트 신호를 발생할 수 있다. 본 실시 예에서, 이벤트 발생부(143-1)는 차량 내 음향신호를 분석한 결과, 차량 내 음향신호가 사용자의 발화 음성을 포함하는 정상적인 노이즈인 경우, 제 1 음향 이벤트 신호를 발생할 수 있다. 이때 이벤트 발생부(143-1)는 제1 심층 신경망 모델(노이즈 판별 모델) 및 제 2 심층 신경망 모델(음성 판별 모델)을 이용하여 차량 내 음향신호를 분석한 결과, 차량 내 음향신호가 사용자의 발화 음성을 포함하는 정상적인 노이즈인 경우, 제 1 음향 이벤트 신호를 발생할 수 있다. 그리고 이벤트 발생부(143-1)는 차량 내 음향신호를 분석한 결과, 차량 내 음향신호가 사용자의 발화 음성 및 다른 탑승자의 발화 음성을 포함하는 정상적인 노이즈인 경우, 제 2 음향 이벤트 신호를 발생할 수 있다. 이때 이벤트 발생부(143-1)는 제1 심층 신경망 모델 및 제 2 심층 신경망 모델을 이용하여 차량 내 음향신호를 분석한 결과, 차량 내 음향신호가 사용자의 발화 음성 및 다른 탑승자의 발화 음성을 포함하는 정상적인 노이즈인 경우, 제 2 음향 이벤트 신호를 발생할 수 있다. 또한 본 실시 예에서는 선택적 실시 예로, 이벤트 발생부(143-1)는 차량 내 음향신호를 분석한 결과, 차량 내 음향신호가 기저장된 패턴의 소리를 포함하는 정상적인 노이즈인 경우에도, 제 2 음향 이벤트 신호를 발생할 수 있다. 이때 기저장된 패턴의 소리는 예를 들어, 아기 울음소리 등을 포함할 수 있다. 또한 이벤트 발생부(143-1)는 음향신호를 분석한 결과, 사용자를 제외한 다른 탑승자의 발화 음성을 포함하는 정상적인 노이즈인 경우, 제 3 음향 이벤트 신호를 발생할 수 있다. 이때 이벤트 발생부(143-1)는 제1 심층 신경망 모델 및 제 2 심층 신경망 모델을 이용하여 차량 내 음향신호를 분석한 결과, 차량 내 음향신호가 사용자를 제와힌 다른 탑승자의 발화 음성을 포함하는 정상적인 노이즈인 경우, 제 3 음향 이벤트 신호를 발생할 수 있다. 그리고 이벤트 발생부(143-1)는 주행 중인 차량 내에서 스피커(3)를 통해 출력되는 음향 서비스를 포함하는 정상적인 노이즈인 경우에는, 제 4 음향 이벤트 신호를 발생할 수 있다. 이때 이벤트 발생부(143-1)는 제 1 심층 신경망 모델을 이용하여 차량 내 음향신호를 분석한 결과, 음향 서비스를 포함하는 정상적인 노이즈인 경우, 제 4 음향 이벤트 신호를 발생할 수 있다. 또한 이벤트 발생부(143-1)는 음향신호를 분석한 결과, 주행 중인 차량 내에서 발생하는 외부 환경 노이즈를 포함하는 비정상적인 노이즈인 경우, 제 5 음향 이벤트 신호를 발생할 수 있다. 이때 이벤트 발생부(143-1)는 제 1 심층 신경망 모델을 이용하여 차량 내 음향신호를 분석한 결과, 차량에서 발생하는 외부 환경 노이즈를 포함하는 비정상적인 노이즈인 경우, 제 5 음향 이벤트 신호를 발생할 수 있다. 이때 외부 환경 노이즈는 예를 들어 차량 외부에서 유입되는 소음 등을 포함할 수 있다.
노이즈 검출부(143-2)는 정상적인 노이즈에 대하여, 파워를 구하여 노이즈를 추정하고 주파수 응답을 분석할 수 있다. 파워를 구하여 노이즈를 추정하고 주파수 응답을 분석하는 방법은 공지기술이므로 구체적인 설명은 생략하도록 한다.
출력 조정부(143-3)는 노이즈의 크기 및 파형에 대응하여 차량 내에 구비된 스피커(3)를 통해 출력되는 출력 음향신호의 볼륨(132-1) 및 이퀄라이저(132-2)의 설정을 조정할 수 있다. 여기서, 이퀄라이저(Equalizer: EQ)는 음향기기에서 특정 주파수의 볼륨, 즉 가청 주파수 대역(20Hz-20Khz)을 선택적으로 크게 들리게 하거나 감쇄시키는 장치를 의미할 수 있다. 이퀄라이저는 용도에 따라 그래픽(Graphic) 이퀄라이저와 디지털 파라메트릭(Parametric) 이퀄라이저를 포함할 수 있다. 그래픽 이퀄라이저는 여러 대역의 주파수가 시각적으로 왼쪽에서 오른쪽으로 배열되어 있어, 볼륨 슬라이더(Slider)를 올리고 내려 주파수를 가감할 수 있다. 또한 디지털 파라메트릭 이퀄라이저는 풀(full) 디지털 증폭기에 적용되어 내부로 입력된 디지털 음원을 각 필터를 이용하여 파라미터에 따라 조절할 수 있다. 일반적으로 오디오 기기에 있어서는 음역이 낮은 16Hz에서 음역이 높은 32kHz사이에서 5개에서 12가지 정도의 주파수를 중심으로 하여 증폭도를 올려 주거나, 내려주는 기능을 갖고 있는 기기를 이퀄라이저 증폭기라고 할 수 있다. 즉, 다시 말하면, 재생되는 음질을 듣는 사람의 취향에 맞춰 음을 만들어 들을 수 있는 것을 이퀄라이저라고 할 수 있다. 따라서 본 실시 예에서는 차량의 오디오 기기에 있어서, 이퀄라이저의 출력을 조정하는 것은, 스피커(3)를 통해 출력되는 음향신호를 사용자의 취향 또는 노이즈의 종류 판단 결과에 맞춰 조정하는 것을 의미할 수 있다.
또한 선택적 실시 예로, 출력 조정부(143-3)는 노이즈의 크기 및 파형에 기초하여 롬바드 효과(Lombard Effect)를 적용하여 게인 조절을 함으로써, 주변 잡음과 상관 없이 사용자가 설정한 볼륨의 크기로 스피커(3)의 출력 음향신호를 청감 할 수 있도록 할 수 있다. 또한 출력 조정부(143-3)는 롬바드 효과를 적용하여, 소음이 있는 환경에서 출력 음향신호의 피치(주파수)를 다르게 조정해 사용자가 어떠한 환경에서도 명료한 음질의 음향신호를 들을 수 있도록 할 수 있다. 즉 출력 조정부(143-3)는 노이즈의 파형에 기초하여 이퀄라이저 설정을 조정할 수 있다.
또한 출력 조정부(143-3)는 주행 상황별 외부 환경 노이즈와 발화자의 표준 음성이 저장되고, 표준 음성에 롬바드효과가 적용되도록 주행 상황에 따라 표준 음성을 변환시키며, 외부로부터 설정된 주행상황에 대응되는 주행 노이즈와 롬바드효과가 적용된 음성(이하, '모방된 롬바드 음성'이라 약칭함)을 출력하도록 구성될 수 있다. 여기서, 롬바드 효과란 배경 잡음이 존재하는 상황에서 화자가 자신의 발성을 변경해서 발성하는 경향을 의미할 수 있다. 이러한 롬바드 효과가 적용된 실제 운전자의 음성은 표준 음성에 비해 발화 시간이 늘어나며 발화 강도 및 기본주파수가 증가되기 때문에 음성인식률에 영향을 미치게 된다. 다시 말해, 스튜디오 환경에서 별도의 잡음 없이 화자의 음성을 녹음한 표준 음성은 특정 주행 환경에서 운전자가 발화한 롬바드 음성과 서로 차이점이 존재하므로, 정확한 음성인식에 대한 평가를 위해서 표준 음성 대신 롬바드 음성과 유사한 모방된 롬바드 음성을 사용할 수 있다.
본 실시 예에서, 노이즈 검출부(143-2)는 제 1 음향 이벤트 신호 발생 시, 차량 내 음향신호 중 사용자의 발화 음성을 제외한 음향신호를 노이즈로 검출할 수 있다. 이때, 출력 조정부(143-3)는 노이즈의 크기 및 파형에 대응하여 차량 내에 구비된 스피커(3)를 통해 출력되는 음향신호 중 사용자의 발화 음성에 대응하는 응답 발화 음성 신호의 볼륨(132-1) 및 이퀄라이저(132-2)의 설정을 조정할 수 있다. 예를 들어, 본 실시 예에서, 출력 조정부(143-3)는 사용자가 차량 내에서 음성 인식 서비스를 받기 위해 발화한 경우, 사용자 발화 음성을 제외한 차량 내 음향신호를 노이즈로 간주하고, 스피커(3)를 통해 출력되는 음성 인식 서비스 응답 발화 음성을 노이즈의 크기 및 파형에 대응하여 볼륨(132-1)을 높일 수 있고, 이퀄라이저(132-2)의 설정을 음성 인식 서비스 응답 발화 음성을 명료하게 들을 수 있도록 조정할 수 있다. 이때 사용자의 음성은 제 2 심층 신경망 모델을 이용하여 검출될 수 있다.
또한 노이즈 검출부(143-2)는 제 2 음향 이벤트 신호 발생 시, 음향신호 중 사용자의 발화 음성 및 다른 탑승자의 발화 음성 또는 기저장된 패턴의 소리를 노이즈로 검출할 수 있다. 이때, 출력 조정부(143-3)는 노이즈의 크기 및 파형에 대응하여 차량 내에 구비된 스피커(3)를 통해 출력되는 음향신호의 볼륨(132-1) 및 이퀄라이저(132-2)의 설정을 조정할 수 있다. 예를 들어, 본 실시 예에서, 출력 조정부(143-3)는 사용자와 다른 탑승자가 대화를 하고 있는 경우, 대화 음성을 노이즈로 간주하고, 스피커(3)를 통해 출력되는 음향 서비스(음악이나 내비게이션 음성 안내 등)를 노이즈(대화 음성)의 크기에 대응하여 볼륨(132-1)을 낮출 수 있고, 이퀄라이저(132-2)의 설정을 원활한 대화를 할 수 있도록 조정할 수 있다. 또한 예를 들어, 본 실시 예에서, 출력 조정부(143-3)는 기저장된 패턴의 소리(아기의 울음 소리, 차량 외부의 일정 거리 이내에서 일정 시간 이상 동안 발생하는 경적 소리 등)가 마이크(2)를 통해 수집되는 경우, 기저장된 패턴의 소리를 노이즈로 간주하고, 스피커(3)를 통해 출력되는 음향 서비스(음악이나 내비게이션 음성 안내 등)를 노이즈(기저장된 패턴의 소리)의 크기에 대응하여 볼륨(132-1)을 낮출 수 있다. 이는 뒷좌석에 있는 아기가 울고 있는 경우 스피커(3)의 볼륨을 키우면 더 크게 울 수도 있고, 사용자가 아기가 울고 있는 소리를 듣지 못할 수도 있기 때문이다. 또한 차량 외부에서 사용자의 차량을 향해 경적을 울리고 있는 경우 스피커(3)의 볼륨이 너무 크면 경적 소리가 들리지 않을 수 있기 때문이다. 즉, 본 실시 예에서는, 이러한 특별한 이벤트 발생 시에는 발화 음성이나, 음성이 아니더라도 정상적인 노이즈로 판단할 수 있으며, 제 2 음향 이벤트 신호가 발생하였다고 판단할 수 있다. 이러한 특별한 이벤트는 학습의 결과 적용될 수도 있고, 초기 단계에서 입력될 수도 있다.
그리고 노이즈 검출부(143-2)는 제 3 음향 이벤트 신호 발생 시, 음향신호 중 다른 탑승자의 발화 음성을 노이즈로 검출할 수 있다. 이때, 출력 조정부(143-3)는 노이즈의 크기 및 파형에 대응하여 차량 내에 구비된 스피커(3)를 통해 출력되는 음향 서비스의 볼륨(132-1) 및 이퀄라이저(132-2)의 설정을 조정할 수 있다. 예를 들어, 본 실시 예에서, 출력 조정부(143-3)는 사용자 이외의 다른 탑승자가 말하고 있는 경우, 다른 탑승자의 발화 음성을 노이즈로 검출하고, 스피커(3)를 통해 출력되는 음향 서비스(음악이나 내비게이션 안내 음성 등)를 노이즈(다른 탑승자의 발화 음성)의 크기에 대응하여 볼륨(132-1)을 높일 수 있고, 이퀄라이저(132-2)의 설정을 음향 서비스를 명료하게 들을 수 있도록 조정할 수 있다.
또한 노이즈 검출부(143-2)는 제 4 음향 이벤트 신호 발생 시, 음향신호 중 음향 서비스를 제외한 음향신호를 노이즈로 검출할 수 있다. 이때, 출력 조정부(143-3)는 노이즈의 크기 및 파형에 대응하여 스피커(3)를 통해 출력되는 음향신호 중 음향 서비스의 볼륨(132-1) 및 이퀄라이저(132-2)의 설정을 조정할 수 있다. 예를 들어, 본 실시 예에서, 출력 조정부(143-3)는 사용자가 차량 내에서 다른 사용자와 대화를 하고 있는 상황이 아니고, 음향 서비스(음악, 내비게이션 안내 음성 등)가 스피커(3)에서 출력되고 있는 경우, 음향 서비스를 제외한 음향신호를 노이즈로 간주하고, 스피커(3)를 통해 출력되는 음향신호(음악, 내비게이션 안내 음성 등)를 노이즈(음향 서비스를 제외한 음향신호)의 크기에 대응하여 볼륨(132-1)을 높일 수 있고, 이퀄라이저(132-2)의 설정을 음향 서비스를 명료하게 들을 수 있도록 조정할 수 있다. 또한, 본 실시 예에서는, 사용자가 차량 내에 있는 다른 사용자와 대화를 하고 있는 상황이 아니고, 핸즈프리를 이용한 통화를 하고 있는 경우, 통화 상대방의 음성(사용자의 음성도 포함)을 제외한 음향신호를 노이즈로 간주하고, 스피커(3)를 통해 출력되는 음향신호(통화 상대방의 음성)를 노이즈(통화 상대방의 음성을 제외한 음향 신호)의 크기에 대응하여 볼륨(132-1)을 높일 수 있고, 이퀄라이저(132-2)의 설정을 핸즈프리 통화 시 상대방의 목소리를 명료하게 들을 수 있도록 조정할 수 있다.
한편, 노이즈 검출부(143-2)는 제 5 음향 이벤트 신호 발생 시, 제 5 음향 이벤트 신호에 대응하여, 사용자 설정 상태를 기준으로 일정 범위 이내에서 비정상적인 노이즈의 크기 및 파형에 대응하여 스피커(3)를 통해 출력되는 출력 음향신호의 볼륨(132-1) 및 이퀄라이저(132-2)의 설정을 조정할 수 있다. 예를 들어, 본 실시 예에서, 출력 조정부(143-3)는 차량 내에서 음성 대화 상황이 아니고, 외부 환경 노이즈(비정상적인 노이즈)가 출력되고 있는 경우, 비정상적인 노이즈의 크기 및 파형을 검출하고, 스피커(3)를 통해 출력되는 출력 음향신호를 노이즈(비정상적인 노이즈)의 크기 및 파형에 대응하여 볼륨(132-1)을 높일 수 있고, 이퀄라이저(132-2)의 설정을 음향신호를 명료하게 들을 수 있도록 조정할 수 있다. 다만 본 실시 예에서, 출력 조정부(143-3)는 비정상적인 노이즈에 대해서는, 사용자의 볼륨 및 이퀄라이저의 설정 상태를 기준으로 일정 범위 이내에서만 조정할 수 있다. 이는 비정상적인 노이즈와 같은 단발성 잡음의 경우, 볼륨 및 이퀄라이저의 설정의 조정을 크게 하게 되면 사용자가 체감하기에 어색하고 청감이 명료하지 않을 수 있기 때문에, 볼륨 및 이퀄라이저 설정의 조정의 범위를 작게 설정하는 것이다.
한편, 본 실시 예에서, 음향 제어 시스템(1)은, 제 1 내지 제 5 음향 이벤트 신호 발생에 대하여 자주 발생하는 패턴 또는 사용자가 자주 사용하는 패턴을 분석하고 학습할 수 있다. 이때, 음향 제어 시스템(1)은 자주 발생하거나 자주 사용하는 패턴에 가중치를 부여할 수 있다. 음향 제어 시스템(1)은 예를 들어, 사용자에 따라 내비게이션의 목적지를 추천하거나, 사용자가 자주 듣는 음악 장르에 따라 이퀄라이저의 출력을 조정하거나, 사용자가 자주 듣는 소리에 대응하여 볼륨 및 이퀄라이저의 출력을 조정하는 등 노이즈의 종류를 보다 정확하게 판단할 수 있도록 할 수 있고, 사용자 맞춤형으로 볼륨 및 이퀄라이저의 출력에 대한 설정을 제공할 수 있다.
한편, 본 실시 예에서는, 제 1 음향 이벤트 신호 발생 시, 제 1 음향 이벤트 신호에 대응하여 음성 인식 서비스를 활성화할 수 있다. 본 실시 예에서, 차량 내 음성 인식 서비스는 평상시 비활성화 상태일 수 있으며, 제 1 음향 이벤트 신호 발생 시, 별도 기동어 없이 활성화될 수 있다. 즉 제 2 음향 이벤트 신호, 제 3 음향 이벤트 신호, 제 4 음향 이벤트 신호 발생 시에는 음성 인식 서비스를 비활성화 할 수 있다. 이는 사용자 이외의 발화 음성이 존재하는 경우, 음성 명령어 오인식을 막기 위하여 음성 인식 서비스를 비활성화 하는 것이다. 다만 별도 음성 인식에 대한 설정이 있거나, 사용자의 음성을 명확하게 분석 가능한 경우에는, 사용자 이외의 발화 음성이 존재하는 경우에도 음성 인식 서비스를 제공할 수 있다. 본 실시 예는 차량 내 음향신호를 정확하게 분석하고, 차량 내 음향신호의 분석 결과에 대응하여 음성 인식을 위한 입출력 음향신호의 크기를 조정함으로써, 음성 인식의 성능을 향상시킬 수 있다. 즉 본 실시 예는, 노이즈의 크기 및 파형에 대응하여 음성 인식을 위해 수집하는 사용자의 발화 음성 크기 및 음성 인식 결과에 대응하는 응답 발화 음성 신호의 크기 및 주파수를 조정할 수 있다. 이에 이하에서는 음성 인식 과정에 대해 설명하도록 한다.
본 실시 예에서, 음성 인식부(145)는 자동 음성 인식부(ASR(auto speech recognition) unit)(145-1), 자연어 이해부(natural language understanding unit)(145-2), 자연어 생성부(natural language generation unit)(145-3) 및 텍스트 음성 변환부(TTS(text to speech) unit)(145-4)를 포함할 수 있다.
자동 음성 인식부(145-1)는 성우(사용자) 발화 음성을 텍스트로 변환한 성우 발화 텍스트를 생성할 수 있다. 본 실시 예에서 자동 음성 인식부(145-1)는 음성 텍스트 변환(STT(speech to text)을 수행할 수 있다. 자동 음성 인식부(145-1)는 오디오 입력부(131)로부터 입력된 성우 발화 음성을 성우 발화 텍스트로 변환할 수 있다. 본 실시 예에서, 자동 음성 인식부(145-1)는 발화 인식부(미도시)를 포함할 수 있다. 발화 인식부는 음향(acoustic) 모델 및 언어(language) 모델을 포함할 수 있다. 예를 들어, 음향 모델은 발성에 관련된 정보를 포함할 수 있고, 언어 모델은 단위 음소 정보 및 단위 음소 정보의 조합에 대한 정보를 포함할 수 있다. 발화 인식부는 발성에 관련된 정보 및 단위 음소 정보에 대한 정보를 이용하여 성우 발화 음성을 성우 발화 텍스트로 변환할 수 있다. 음향 모델 및 언어 모델에 대한 정보는, 예를 들어, 자동 음성 인식부(145-1) 내의 자동 음성 인식 데이터베이스(미도시)에 저장될 수 있다.
자연어 이해부(145-2)는 성우 발화 텍스트에 대하여, 문법적 분석(syntactic analyze) 또는 의미적 분석(semantic analyze)을 수행하여 성우 발화 음성에 대한 발화 의도 즉, 사용자 발화 음성에 대한 발화 의도를 분석할 수 있다. 여기서, 문법적 분석은 질의 텍스트를 문법적 단위(예: 단어, 구, 형태소 등)로 나누고, 나누어진 단위가 어떤 문법적인 요소를 갖는지 파악할 수 있다. 또한 의미적 분석은 의미(semantic) 매칭, 룰(rule) 매칭, 포뮬러(formula) 매칭 등을 이용하여 수행할 수 있다. 이에 따라, 자연어 이해부(145-2)는 성우 발화 텍스트가 어떤 의도(intent)인지 또는 이러한 의도를 표현하는데 필요한 파라미터(parameter)를 얻을 수 있다.
자연어 생성부(145-3)는 자연어 이해부(145-2)에서 분석한 발화 의도에 기초하여 지식 베이스(knowledge- base)를 이용하여 성우 발화 텍스트에 대한 응답 텍스트를 생성할 수 있다.
텍스트 음성 변환부(145-4)는 자연어 생성부(145-3)가 생성한 자연어 발화 형태의 응답 텍스트에 대한 응답 발화 음성 변환 결과로서 응답 발화 음성을 생성하고, 응답 발화 음성을 오디오 출력부(132)를 통하여 출력할 수 있다.
즉, 음성 인식부(145)는 사용자의 음성과 유사도가 가장 높은 성우의 음성으로 사용자 발화 음성에 대응하는 성우 발화 음성을 사용자-성우 맵핑 학습 모델을 이용하여 출력할 수 있다. 이때 음성 인식부(145)는 생성부(미도시)를 포함하여, 사용자-성우 맵핑 학습 모델을 생성할 수 있다. 생성부는 수신한 사용자 발화 음성을 분석하여, 사용자 발화 음성의 특징 정보를 생성할 수 있다. 여기서 사용자 발화 음성의 특징 정보는, 사용자 발화 음성의 어조, 사투리, 성별 높낮이, 속도 및 연령 중 적어도 하나를 포함할 수 있다. 그리고 생성부는 사용자 발화 음성 및/또는 수신한 사용자 발화 텍스트의 어미 및 어간 분석을 통해 어조를 포함하는 사용자 발화 음성의 특징 정보를 생성할 수 있다. 또한 생성부는 사용자 발화 음성 및/또는 수신한 사용자 발화 텍스트의 어미, 어간 및 피치(pitch) 분석을 통해 사투리를 포함하는 사용자 발화 음성의 특징 정보를 생성할 수 있다. 그리고 생성부는 사용자 발화 음성의 피치(pitch) 분석을 통해 성별 및 높낮이를 포함하는 사용자 발화 음성의 특징 정보를 생성할 수 있다. 또한 생성부는 사용자 발화 음성 및/또는 사용자 발화 텍스트에 대한 단어 수 및 단위 시간 분석을 통해 발화 속도를 포함하는 사용자 발화 음성의 특징 정보를 생성할 수 있다. 그리고 생성부는 사용자 발화 음성의 스펙트럼 분석을 통해 나이를 포함하는 사용자 발화 음성의 특징 정보를 생성할 수 있다.
본 실시 예에서 사용자-성우 맵핑 학습 모델은 생성부에 의해 생성된 후, 수신한 사용자 발화 음성의 특징 정보 생성을 완료하면 사용자-성우 맵핑 학습 모델을 실행할 수 있다. 선택적 실시 예로, 사용자-성우 맵핑 학습 모델은 데이터베이스(144) 또는 메모리(150)에 미리 저장되어 있을 수 있으며, 생성부가 사용자 발화 음성의 특징 정보 생성을 완료하면 음성 인식부(145)에서는 데이터베이스(144) 또는 메모리(150)로부터 사용자-성우 맵핑 학습 모델을 로딩하여 실행할 수 있다. 더 나아가 사용자-성우 맵핑 학습 모델은 서버(도 2의 300)에 저장되어 있을 수 있고, 생성부가 사용자 발화 음성의 특징 정보 생성을 완료하면, 음향 제어 시스템(1)이 서버에 사용자-성우 맵핑 학습 모델 실행을 요청하고, 서버로부터 사용자-성우 맵핑 학습 모델 실행 결과를 수신할 수 있다.
생성부는 사용자 발화 음성의 특징 정보와 데이터베이스(144)에 기구축된 복수의 성우 음성의 특징 정보에 대한 비교를 통하여, 사용자 발화 음성과 유사도가 가장 높은 성우 음성을 결정할 수 있다. 여기서 생성부는 사용자 발화 음성과 유사도가 가장 높은 성우 음성을 결정 시에, 사용자 발화 음성의 어조, 사투리, 성별 높낮이, 속도 및 연령 중 적어도 하나를 포함하는 특징 정보와 데이터베이스(144)에 기구축된 복수의 성우 음성의 어조, 사투리, 성별 높낮이, 속도 및 연령 중 적어도 하나를 포함하는 특징 정보에 대한 비교를 통하여, 사용자 발화 음성과 유사도가 가장 높은 성우 음성을 결정할 수 있다.
선택적 실시 예로, 생성부는 사용자 발화 음성과 유사도가 가장 높은 성우 음성을 결정 시에, 사용자 발화 음성의 특징 벡터를 추출하고, 사용자 발화 음성의 특징 벡터와 데이터베이스(144)에 기구축된 복수의 성우 음성의 특징 벡터 각각을 비교하며, 비교 결과, 사용자 발화 음성의 특징 벡터와 유사도가 가장 높은 성우 음성의 특징 벡터를 결정할 수 있다. 생성부는 사용자 발화 음성을 텍스트로 변환한 사용자 발화 텍스트를 수신하고, 수신한 사용자 발화 텍스트를, 사용자 발화 음성과 유사도가 가장 높은 성우 음성으로 합성한 성우 발화 음성을 생성할 수 있다. 생성부는 성우 발화 음성을 생성을 위해 음성 인식부(145)에 포함되는 텍스트 음성 변환부(145-4)를 이용할 수 있다. 또한 생성부는 사용자 발화 음성의 특징 정보와, 성우 발화 음성의 특징 정보를 트레이닝 데이터 세트로 사용하여 심층 신경망 모델을 훈련시킬 수 있다. 여기서 성우 발화 음성의 특징 정보는 생성부를 통하여 수신하거나 데이터베이스(144)에 기저장되어 있을 수 있다. 생성부는 심층 신경망의 훈련을 통하여 사용자 발화 음성을, 사용자의 음성과 유사도가 가장 높은 성우 음성으로 발화한 성우 발화 음성으로 출력하는 사용자-성우 맵핑 학습 모델을 생성하고 데이터베이스(144) 또는 메모리(150)에 저장할 수 있다.
한편, 본 실시 예에서는, 차량의 주행을 감지하는 감지부(146)를 포함할 수 있다. 이때, 조정부(143)는 차량의 주행 모드에 대응하여 차량 내에 구비된 스피커(3)를 통해 출력되는 음향신호의 볼륨(132-1) 및 이퀄라이저(132-2)의 설정을 조정할 수 있다. 예를 들어, 조정부(143)는 차량이 고속 주행 모드일 때, 스피커(3)를 통해 출력되는 음향신호가 기설정된 값이 되도록 볼륨(132-1) 및 이퀄라이저(132-2) 설정을 조정할 수 있다. 이는 고속 주행 모드 시 발생하는 노이즈가 거의 유사하고, 차량의 주행 모드에 따라 노이즈 발생이 달라짐에 기초한 것이다.
도 13은 본 발명의 일 실시 예에 따른 음향 제어 방법 도시한 흐름도이다. 이하의 설명에서 도 1 내지 도 12에 대한 설명과 중복되는 부분은 그 설명을 생략하기로 한다.
도 13을 참조하면, S100단계에서, 음향 제어 시스템(1)은 주행 중인 차량 내에 구비된 하나 이상의 마이크를 통하여 차량 내 음향신호를 수집한다. 즉 음향 제어 시스템(1)은 마이크를 통하여, 예를 들어, 스피커에서 출력되는 소리, 차량 내부에서 발생하는 소리, 차량 외부에서 발생하는 소리, 사용자 발화 음성 등을 수집할 수 있다. 한편, 본 실시 예에서 음향 제어 시스템(1)은 주행 중인 차량 내에 발생하는 차량 내 음향신호를 수집하는 과정에서 발생하는 에코를 제거하기 위한 다양한 에코 제거 알고리즘을 사용할 수 있다. 또한 음향 제어 시스템(1)은 사용자 발화 음성을 수신하는 과정에서 발생하는 에코를 제거하기 위한 다양한 에코 제거 알고리즘을 사용할 수 있다.
S200단계에서, 음향 제어 시스템(1)은 차량 내 음향신호를 분석한다. 즉 음향 제어 시스템(1)은 차량 내 음향신호의 특징을 분석하여, 차량 내 음향신호의 특징 벡터를 분석해 차량 내 음향신호가 정상적인 노이즈인지 비정상적인 노이즈인지 판단할 수 있다. 또한 본 실시 예에서는 음향신호의 특징을 분석하여 음향신호가 차량 내에서 발생하는 정상적인 노이즈인지 비정상적인 노이즈인지 판단하도록 미리 훈련된 제 1 심층 신경망 모델을 이용하여, 차량 내 음향신호가 정상적인 노이즈인지 비정상적인 노이즈인지 판단할 수 있다. 이때 제 1 심층 신경망 모델은 차량 내에서 통상적으로 발생하는 음향의 빅데이터를 정상적인 노이즈로 레이블링한 훈련 데이터를 통해 훈련된 것일 수 있다. 본 실시 예에서, 음향 제어 시스템(1)은 차량에서 발생 가능한 정상적인 노이즈 및 비정상적인 노이즈를 포함하는 음향 이벤트들을 계층적으로 분류하여 인식할 수 있다. 즉 음향 제어 시스템(1)은 음향신호의 음향 특징과 기준 음향 특징 간의 유사도를 계산하여 음향 특징을 평가할 수 있다. 기준 음향 특징은 정의된 복수의 음향 이벤트에 대하여 훈련에 의해 미리 획득된 특징이다. 그리고 음향 제어 시스템(1)은 입력되는 음향신호의 특징을 추출한 후, 미리 훈련된 음향 모델과 비교 분석 하여 음향신호의 종류(정상적인 노이즈 또는 비정상적인 노이즈)를 판단할 수 있다. 본 실시 예에서, 음향 제어 시스템(1)은 GMM에 기반한 통계 모델 방식을 이용하여 노이즈 검증을 수행할 수 있다. 즉 음향 제어 시스템(1)은 음향신호를 먼저 음성과 비음성으로 분류하고, 음성인 경우 정상적인 노이즈에 대한 이벤트 중 하나로 분류하고, 비음성인 경우 비정상적인 노이즈에 대한 이벤트 중 하나로 분류할 수 있다. 이때 비음성인 경우 기저장된 패턴의 소리에 대해서는 정상적인 노이즈로 분류할 수도 있다.
S300단계에서, 음향 제어 시스템(1)은 차량 내 음향신호의 분석 결과에 대응하여 차량 내에 구비된 스피커를 통해 출력되는 출력 음향신호의 볼륨 및 이퀄라이저의 설정을 조정한다. 즉 음향 제어 시스템(1)은 차량 내 음향신호의 종류에 대응하여 차량 내에 구비된 스피커(3)를 통해 출력되는 음향신호의 볼륨 및 이퀄라이저의 설정을 조정할 수 있다. 다시 말해 음향 제어 시스템(1)은 음향신호의 종류에 대응하여 이벤트 신호를 발생하고, 발생한 이벤트 신호에 대응하여 노이즈를 검출할 수 있으며, 검출한 노이즈를 기초로 노이즈 크기 및 파형에 대응하여 볼륨 및 이퀄라이저의 출력을 조정할 수 있다. 이하 도 14를 참조하여, 음향신호의 종류에 대응하여 스피커를 통해 출력되는 음향신호의 볼륨 및 이퀄라이저의 설정을 조정하는 방법에 대해 보다 구체적으로 설명하도록 한다.
도 14는 본 발명의 일 실시 예에 따른 음향 제어 시스템의 조정 방법을 설명하기 위하여 도시한 흐름도이다.
도 14를 참조하면, S301단계에서, 음향 제어 시스템(1)은 차량 내 음향신호를 분석한 결과, 정상적인 노이즈인지 확인한다.
그리고 S302단계에서, 음향 제어 시스템(1)은 상기 정상적인 노이즈가 사용자 발화 음성인지 확인한다(S301단계의 예). 즉 음향 제어 시스템(1)은 차량 내 음향신호를 분석한 결과, 차량 내 음향신호가 사용자의 발화 음성을 포함하는 정상적인 노이즈인지 판단할 수 있다. 이때, 본 실시 예에서는 제 2 심층 신경망 모델을 이용하여 사용자의 발화 음성을 판단할 수 있다. 본 실시 예에서는, 차량 내에 구비된 하나 이상의 마이크를 통하여 차량 내 음향신호를 수집하는 단계 이전에, 마이크를 통하여 차량의 사용자의 발화 음성을 등록하고, 음성 판별용 심층 신경망 모델을 사용자의 발화 음성으로 훈련시켜 사용자의 발화 음성을 분별할 수 있는 제 2 심층 신경망 모델을 생성할 수 있다.
S303단계에서, 음향 제어 시스템(1)은 사용자 포함 2명 이상의 발화가 있는지 확인한다(S302단계의 예). 즉 음향 제어 시스템(1)은 차량 내 음향신호를 분석한 결과, 차량 내 음향신호가 사용자의 발화 음성 및 다른 탑승자의 발화 음성을 포함하는 정상적인 노이즈인지 판단할 수 있다.
S304단계에서, 음향 제어 시스템(1)은 차량 내 음향신호를 분석한 결과, 사용자 발화 음성만 검출되는 경우, 제 1 음향 이벤트 신호를 발생한다(S303단계의 아니오). 즉, 본 실시 예에서는 차량 내 음향신호를 분석한 결과, 차량 내 음향신호가 사용자의 발화 음성을 포함하는 정상적인 노이즈인 경우, 제 1 음향 이벤트 신호를 발생할 수 있다.
S320단계에서, 음향 제어 시스템(1)은 제 1 음향 이벤트 신호 발생 시(S304단계), 음성 인식 서비스를 활성화 한다. 즉 본 실시 예에서는, 사용자의 발화 음성이 입력되면 별도 기동어 없이 음성 인식 서비스를 활성화시킬 수 있다. 다만, 이에 한정되는 것은 아니며, 별도 설정에 의해 변경 가능할 수 있다. 음향 제어 시스템(1)은 수집된 음향신호에 기등록된 사용자, 즉 운전자의 발화 음성만 포함되는 경우, 음성 인식 서비스를 활성화 할 수 있다.
S330단계에서, 음향 제어 시스템(1)은 제 1 음향 이벤트 신호 발생 시(S304단계), 음향신호 중 사용자의 발화 음성을 제외한 음향신호를 노이즈로 검출한다.
S340단계에서, 음향 제어 시스템(1)은 S330단계에서 검출한 노이즈의 크기 및 파형에 대응하여 차량 내에 구비된 스피커를 통해 출력되는 음향신호 중 음성 인식 서비스의 결과에 대응하는 응답 발화 음성 신호의 볼륨 및 이퀄라이저의 설정을 조정한다. 예를 들어, 본 실시 예에서, 음향 제어 시스템(1)은 사용자가 차량 내에서 음성 인식 서비스를 받기 위해 발화한 경우, 사용자 발화 음성을 제외한 음향신호를 노이즈로 간주하고, 스피커를 통해 출력되는 음성 인식 서비스 응답 발화 음성을 노이즈의 크기에 대응하여 볼륨을 높일 수 있고, 이퀄라이저의 설정을 음성 인식 서비스 응답 발화 음성을 명료하게 들을 수 있도록 조정할 수 있다.
한편, S305단계에서, 음향 제어 시스템(1)은 차량 내 음향신호를 분석한 결과 사용자 발화 음성이 포함되고, 사용자 포함 2명 이상의 발화 음성이 포함된 경우, 제 2 음향 이벤트 신호를 발생한다(S303단계의 예). 즉 음향 제어 시스템(1)은 차량 내 음향신호를 분석한 결과, 음향신호가 사용자의 발화 음성 및 다른 탑승자의 발화 음성을 포함하는 정상적인 노이즈인 경우, 제 2 음향 이벤트 신호를 발생할 수 있다. 한편, 본 실시 예에서는 차량 내 음향신호를 분석한 결과, 음향신호가 기저장된 패턴의 소리를 포함하는 정상적인 노이즈인 경우에도 제 2 음향 이벤트 신호를 발생할 수 있다.
S321단계에서, 음향 제어 시스템(1)은 제 2 음향 이벤트 신호 발생 시(S305단계), 음성 인식 서비스를 비활성화 할 수 있다. 다만 본 실시 예에서는 음성 인식 서비스가 평상시 비활성화 상태일 수 있으며, 비활성화 상태인 경우에는, 현재 상태를 유지할 수 있다.
S330단계에서, 음향 제어 시스템(1)은 제 2 음향 이벤트 신호 발생 시(S305단계), 음향신호 중 사용자의 발화 음성 및 다른 탑승자의 발화 음성 또는 기저장된 패턴의 소리를 노이즈로 검출한다.
S340단계에서, 음향 제어 시스템(1)은 S330단계에서 검출한 노이즈의 크기 및 파형에 대응하여 차량 내에 구비된 스피커를 통해 출력되는 출력 음향신호의 볼륨 및 이퀄라이저의 설정을 조정한다. 예를 들어, 본 실시 예에서, 음향 제어 시스템(1)은 사용자와 다른 사용자가 대화를 하고 있는 경우, 대화 음성을 노이즈로 간주하고, 스피커를 통해 출력되는 음향 서비스(음악이나 내비게이션 음성 안내 등)를 노이즈(대화 음성)의 크기에 대응하여 볼륨을 낮출 수 있고, 이퀄라이저의 설정을 원활한 대화를 할 수 있도록 조정할 수 있다. 또한 예를 들어, 본 실시 예에서, 음향 제어 시스템(1)은 기저장된 패턴의 소리(아기의 울음 소리, 차량 외부의 일정 거리 이내에서 일정 시간 이상 동안 발생하는 경적 소리 등)가 마이크를 통해 수집되는 경우, 기저장된 패턴의 소리를 노이즈로 간주하고, 스피커를 통해 출력되는 음향신호(음악이나 내비게이션 음성 안내 등)를 노이즈(기저장된 패턴의 소리)의 크기에 대응하여 볼륨을 낮출 수 있다. 이는 뒷좌석에 있는 아기가 울고 있는 경우 스피커의 볼륨을 키우면 더 크게 울 수도 있고, 사용자가 아기가 울고 있는 소리를 듣지 못할 수도 있기 때문이다. 또한 차량 외부에서 사용자의 차량을 향해 경적을 울리고 있는 경우 스피커의 볼륨이 너무 크면 경적 소리가 들리지 않을 수 있기 때문이다. 즉, 본 실시 예에서는, 이러한 특별한 이벤트 발생 시에는 발화 음성이나, 음성이 아니더라도 정상적인 노이즈로 판단할 수 있으며, 제 2 음향 이벤트 신호가 발생하였다고 판단할 수 있다.
한편, S306단계에서, 음향 제어 시스템(1)은 차량 내 음향신호를 분석한 결과 정상적인 노이즈이고 사용자 발화가 포함되지 않은 경우, 사용자 제외 다른 탑승자 발화가 포함되는지 확인한다(S302단계의 아니오). 즉 음향 제어 시스템(1)은 차량 내 음향신호를 분석한 결과, 사용자를 제외한 다른 탑승자의 발화 음성을 포함하는 정상적인 노이즈인지 판단할 수 있다.
S307단계에서, 음향 제어 시스템(1)은 차량 내 음향신호를 분석한 결과, 사용자를 제외한 다른 탑승자의 발화 음성을 포함하는 정상적인 노이즈인지 경우, 제 3 음향 이벤트 신호를 발생한다(S306단계의 예).
S321단계에서, 음향 제어 시스템(1)은 제 3 음향 이벤트 신호 발생 시(S307단계), 음성 인식 서비스를 비활성화 할 수 있다.
S330단계에서, 음향 제어 시스템(1)은 제 3 음향 이벤트 신호 발생 시(S307단계), 음향신호 중 다른 탑승자의 발화 음성을 노이즈로 검출한다.
S340단계에서, 음향 제어 시스템(1)은 S330단계에서 검출한 노이즈의 크기 및 파형에 대응하여 차량 내에 구비된 스피커를 통해 출력되는 음향신호의 볼륨 및 이퀄라이저의 설정을 조정한다. 예를 들어, 본 실시 예에서, 음향 제어 시스템(1)은 사용자 이외의 다른 탑승자가 말하고 있는 경우, 다른 탑승자의 발화 음성을 노이즈로 검출하고, 스피커를 통해 출력되는 음향 서비스(음악이나 내비게이션 안내 음성 등)를 노이즈(다른 사용자의 발화 음성)의 크기에 대응하여 볼륨을 높일 수 있고, 이퀄라이저의 설정을 음향신호를 명료하게 들을 수 있도록 조정할 수 있다. 즉 본 실시 예에서는, 사용자와 대화하고 있는 상황이 아닌 다른 탑승자가 통화 중이거나 또 다른 탑승자와 대화를 하고 있는 경우 등에는 이를 소음이라고 판단하여 사용자가 듣고 있는 음향신호의 볼륨을 높일 수 있다. 다만, 본 실시 예에서는, 다른 탑승자의 발화만 존재하는 경우, 사용자의 설정에 의해 노이즈에 따른 볼륨 및 이퀄라이저 설정 조정을 다르게 할 수 있다. 예를 들어, 사용자가 발화하고 있지 않고, 다른 탑승자가 사용자에게 얘기하고 있는 경우, 다른 탑승자의 소리를 잘 들을 수 있도록 음향 서비스를 노이즈로 검출하도록 설정을 변경할 수도 있다.
한편, S308단계에서, 음향 제어 시스템(1)은 음향 서비스가 출력중인지 확인한다(S306단계의 아니오). 이때, 음향 서비스는 스피커에서 출력되는 음악, 내비게이션의 안내 음성 등을 포함할 수 있으며, 본 실시 예에서는 핸즈프리 통화 시 상대방의 음성도 포함할 수 있다.
S309단계에서, 음향 제어 시스템(1)은 주행 중인 차량 내에서 스피커를 통해 출력되는 음향 서비스를 포함하는 정상적인 노이즈인 경우에는, 제 4 음향 이벤트 신호를 발생할 수 있다.
S321단계에서, 음향 제어 시스템(1)은 제 4 음향 이벤트 신호 발생 시(S309단계), 음성 인식 서비스를 비활성화 할 수 있다.
S330단계에서, 음향 제어 시스템(1)은 제 4 음향 이벤트 신호 발생 시(S309단계), 음향신호 중 음향 서비스를 제외한 음향신호를 노이즈로 검출한다.
S340단계에서, 음향 제어 시스템(1)은 S330단계에서 검출한 노이즈의 크기 및 파형에 대응하여 스피커를 통해 출력되는 음향신호 중 음향 서비스의 볼륨 및 이퀄라이저의 설정을 조정한다. 예를 들어, 본 실시 예에서, 음향 제어 시스템(1)은 사용자가 차량 내에서 다른 사용자와 대화를 하고 있는 상황이 아니고, 음향 서비스(음악, 내비게이션 안내 음성 등)가 스피커에서 출력되고 있는 경우, 음향 서비스를 제외한 음향신호를 노이즈로 간주하고, 스피커를 통해 출력되는 음향 서비스(음악, 내비게이션 안내 음성 등)를 노이즈(음향 서비스를 제외한 음향신호)의 크기에 대응하여 볼륨을 높일 수 있고, 이퀄라이저의 설정을 음향 서비스를 명료하게 들을 수 있도록 조정할 수 있다. 또한, 본 실시 예에서, 음향 제어 시스템(1)은 사용자가 차량 내에 있는 다른 사용자와 대화를 하고 있는 상황이 아니고, 핸즈프리를 이용한 통화를 하고 있는 경우, 통화 상대방의 음성(사용자의 음성도 포함)을 제외한 음향신호를 노이즈로 간주하고, 스피커를 통해 출력되는 음향신호(통화 상대방의 음성)를 노이즈(통화 상대방의 음성을 제외한 음향 신호)의 크기에 대응하여 볼륨을 높일 수 있고, 이퀄라이저의 설정을 핸즈프리 통화 시 상대방의 목소리를 명료하게 들을 수 있도록 조정할 수 있다.
S310단계에서, 음향 제어 시스템(1)은 음향신호를 분석한 결과, 주행 중인 차량에서 발생하는 외부 환경 노이즈를 포함하는 비정상적인 노이즈인 경우, 제 5 음향 이벤트 신호를 발생한다(S301단계의 아니오).
그리고 S341단계에서, 음향 제어 시스템(1)은 제 5 음향 이벤트 신호 발생 시(S310단계), 제 5 음향 이벤트 신호에 대응하여, 사용자 설정 상태를 기준으로 일정 범위 이내에서 비정상적인 노이즈의 크기에 대응하여 스피커를 통해 출력되는 출력 음향신호의 볼륨 및 이퀄라이저의 설정을 조정한다. 예를 들어, 본 실시 예에서, 음향 제어 시스템(1)은 차량 내에서 음성 대화 상황이 아니고, 외부 환경 노이즈(비정상적인 노이즈)가 출력되고 있는 경우, 비정상적인 노이즈의 크기 및 파형을 검출하고, 스피커(3)를 통해 출력되는 음향신호를 노이즈(비정상적인 노이즈)의 크기 및 파형에 대응하여 볼륨(132-1)을 높일 수 있고, 이퀄라이저의 설정을 음향신호를 명료하게 들을 수 있도록 조정할 수 있다. 다만 본 실시 예에서, 음향 제어 시스템(1)은 비정상적인 노이즈에 대해서는, 사용자의 볼륨 및 이퀄라이저의 설정 상태를 기준으로 일정 범위 이내에서만 조정할 수 있다. 이는 비정상적인 노이즈와 같은 단발성 잡음의 경우, 볼륨 및 이퀄라이저의 설정의 조정을 크게 하게 되면 사용자가 체감하기에 어색하고 청감이 명료하지 않을 수 있기 때문에, 볼륨 및 이퀄라이저 조정의 범위를 작게 설정할 수 있다.
이상 설명된 본 발명에 따른 실시 예는 컴퓨터 상에서 다양한 구성요소를 통하여 실행될 수 있는 컴퓨터 프로그램의 형태로 구현될 수 있으며, 이와 같은 컴퓨터 프로그램은 컴퓨터로 판독 가능한 매체에 기록될 수 있다. 이때, 매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다.
한편, 상기 컴퓨터 프로그램은 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 프로그램의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함될 수 있다.
본 발명의 명세서(특히 특허청구범위에서)에서 "상기"의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 본 발명에서 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 적용한 발명을 포함하는 것으로서(이에 반하는 기재가 없다면), 발명의 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다.
본 발명에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 발명이 한정되는 것은 아니다. 본 발명에서 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시 예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.
1 : AI 시스템 기반 음향 제어 시스템 환경
10 : 클라우드 네트워크(Cloud Network)
20 : AI 서버(AI Server)
30a : 로봇(Robot)
30b : 자율 주행 차량(Self-Driving Vehicle)
30c : XR 장치(XR Device)
30d : 스마트폰(Smartphone)
30e : 가전(Home Appliance )

Claims (20)

  1. 음향을 조정하는 음향 제어 방법으로서,
    차량 내에 구비된 하나 이상의 마이크를 통하여 차량 내 음향신호를 수집하는 단계;
    상기 차량 내 음향신호를 분석하는 단계; 및
    상기 분석된 차량 내 음향신호에 대응하여 상기 차량 내에 구비된 스피커를 통해 출력되는 음향 서비스의 볼륨 및 이퀄라이저의 설정을 조정하는 단계를 포함하고,
    상기 차량 내 음향신호를 분석하는 단계는,
    음향신호의 특징을 분석하여 상기 음향신호가 차량 내에서 발생하는 정상적인 노이즈인지 또는 비정상적인 노이즈인지 판단하도록 미리 훈련된 제 1 심층 신경망 모델을 이용하여, 상기 차량 내 음향신호가 정상적인 노이즈인지 또는 비정상적인 노이즈인지 판단하는 단계를 포함하는,
    음향 제어 방법.
  2. 제 1 항에 있어서,
    상기 차량 내 음향신호를 수집하는 단계는,
    상기 마이크를 통하여 수집한 상기 차량 내 음향신호 중에서 상기 스피커를 통해 출력되도록 상기 스피커로 입력되는 출력 음향신호를 제거하는 단계를 포함하는,
    음향 제어 방법.
  3. 제 1 항에 있어서,
    상기 제 1 심층 신경망 모델은 차량 내에서 통상적으로 발생하는 음향의 빅데이터를 정상적인 노이즈로 레이블링한 훈련 데이터를 통해 훈련된,
    음향 제어 방법.
  4. 제 3 항에 있어서,
    차량 내에 구비된 하나 이상의 마이크를 통하여 차량 내 음향신호를 수집하는 단계 이전에,
    상기 마이크를 통하여 상기 차량의 사용자의 발화 음성을 등록하는 단계; 및
    음성 판별용 심층 신경망 모델을 상기 사용자의 발화 음성으로 훈련시켜 상기 사용자의 발화 음성을 분별할 수 있는 제 2 심층 신경망 모델을 생성하는 단계를 더 포함하는,
    음향 제어 방법.
  5. 제 4 항에 있어서,
    상기 조정하는 단계는,
    상기 제 1 및 제 2 심층 신경망 모델을 이용하여 상기 차량 내 음향신호를 분석한 결과, 상기 차량 내 음향신호가 상기 사용자의 발화 음성을 포함하는 정상적인 노이즈인 경우, 제 1 음향 이벤트 신호를 발생하는 단계;
    상기 제 1 음향 이벤트 신호에 대응하여 음성 인식 서비스를 활성화 하는 단계;
    상기 차량 내 음향신호 중 상기 사용자의 발화 음성을 제외한 음향신호를 노이즈로 검출하는 단계; 및
    상기 노이즈의 크기 및 파형에 대응하여 상기 사용자의 발화 음성에 대응하는 응답 발화 음성 신호의 볼륨 및 이퀄라이저의 설정을 조정하는 단계를 포함하는,
    음향 제어 방법.
  6. 제 4 항에 있어서,
    상기 조정하는 단계는,
    상기 제 1 및 제 2 심층 신경망 모델을 이용하여 상기 차량 내 음향신호를 분석한 결과, 상기 차량 내 음향신호가 상기 사용자의 발화 음성 및 다른 탑승자의 발화 음성을 포함하는 정상적인 노이즈인 경우, 제 2 음향 이벤트 신호를 발생하는 단계;
    상기 제 2 음향 이벤트 신호에 대응하여 음성 인식 서비스를 비활성화 하는 단계;
    상기 음향신호 중 상기 사용자의 발화 음성 및 다른 탑승자의 발화 음성의 소리를 노이즈로 검출하는 단계; 및
    상기 노이즈의 크기 및 파형에 대응하여 상기 음향 서비스의 볼륨 및 이퀄라이저의 설정을 조정하는 단계를 포함하는,
    음향 제어 방법.
  7. 제 4 항에 있어서,
    상기 조정하는 단계는,
    상기 제 1 및 제 2 심층 신경망 모델을 이용하여 상기 차량 내 음향신호를 분석한 결과, 상기 사용자를 제외한 다른 탑승자의 발화 음성을 포함하는 정상적인 노이즈인 경우, 제 3 음향 이벤트 신호를 발생하는 단계;
    상기 제 3 음향 이벤트 신호에 대응하여 음성 인식 서비스를 비활성화 하는 단계;
    상기 음향신호 중 상기 다른 탑승자의 발화 음성을 노이즈로 검출하는 단계; 및
    상기 노이즈의 크기 및 파형에 대응하여 상기 음향 서비스의 볼륨 및 이퀄라이저의 설정을 조정하는 단계를 포함하는,
    음향 제어 방법.
  8. 제 4 항에 있어서,
    상기 조정하는 단계는,
    상기 제 1 심층 신경망 모델을 이용하여 상기 차량 내 음향신호를 분석한 결과, 상기 음향 서비스를 포함하는 정상적인 노이즈인 경우, 제 4 음향 이벤트 신호를 발생하는 단계;
    상기 제 4 음향 이벤트 신호에 대응하여 음성 인식 서비스를 비활성화 하는 단계;
    상기 차량 내 음향신호 중 상기 음향 서비스를 제외한 음향신호를 노이즈로 검출하는 단계; 및
    상기 노이즈의 크기 및 파형에 대응하여 상기 음향 서비스의 볼륨 및 이퀄라이저의 설정을 조정하는 단계를 포함하는,
    음향 제어 방법.
  9. 제 4 항에 있어서,
    상기 조정하는 단계는,
    상기 제 1 심층 신경망 모델을 이용하여 상기 차량 내 음향신호를 분석한 결과, 상기 차량에서 발생하는 외부 환경 노이즈를 포함하는 비정상적인 노이즈인 경우, 제 5 음향 이벤트 신호를 발생하는 단계; 및
    상기 제 5 음향 이벤트 신호에 대응하여, 사용자 설정 상태를 기준으로 일정 범위 이내에서 상기 비정상적인 노이즈의 크기 및 파형에 대응하여 상기 음향 서비스의 볼륨 및 이퀄라이저의 설정을 조정하는 단계를 포함하는,
    음향 제어 방법.
  10. 제 1 항에 있어서,
    상기 차량의 주행 모드를 감지하는 단계를 더 포함하고,
    상기 조정하는 단계는,
    상기 차량의 주행 모드에 대응하여 상기 음향 서비스의 볼륨 및 이퀄라이저의 설정을 조정하는 단계를 포함하는,
    음향 제어 방법.
  11. 음향을 조정하는 음향 제어 장치로서,
    차량 내에 구비된 하나 이상의 마이크를 통하여 차량 내 음향신호를 수집하는 수집부;
    상기 차량 내 음향신호를 분석하는 판단부; 및
    상기 분석한 차량 내 음향신호에 대응하여 상기 차량 내에 구비된 스피커를 통해 출력되는 음향 서비스의 볼륨 및 이퀄라이저의 설정을 조정하는 조정부를 포함하며,
    상기 판단부는,
    음향신호의 특징을 분석하여 상기 음향신호가 차량 내에서 발생하는 정상적인 노이즈인지 또는 비정상적인 노이즈인지 판단하도록 미리 훈련된 제 1 심층 신경망 모델을 이용하여, 상기 차량 내 음향신호가 정상적인 노이즈인지 또는 비정상적인 노이즈인지 판단하도록 구성되는,
    음향 제어 장치.
  12. 제 11 항에 있어서,
    상기 수집부는,
    상기 마이크를 통하여 수집한 상기 차량 내 음향신호 중에서 상기 스피커를 통해 출력되도록 상기 스피커로 입력되는 출력 음향신호를 제거하도록 구성되는,
    음향 제어 장치.
  13. 제 11 항에 있어서,
    상기 제 1 심층 신경망 모델은 차량 내에서 통상적으로 발생하는 음향의 빅데이터를 정상적인 노이즈로 레이블링한 훈련 데이터를 통해 훈련된,
    음향 제어 장치.
  14. 제 13 항에 있어서,
    상기 음향 제어 장치는,
    차량 내에 구비된 하나 이상의 마이크를 통하여 차량 내 음향신호를 수집하기 전에,
    상기 마이크를 통하여 상기 차량의 사용자의 발화 음성을 등록하고, 음성 판별용 심층 신경망 모델을 상기 사용자의 발화 음성으로 훈련시켜 상기 사용자의 발화 음성을 분별할 수 있는 제 2 심층 신경망 모델을 생성하도록 구성되는,
    음향 제어 장치.
  15. 제 14 항에 있어서,
    상기 조정부는,
    상기 제 1 및 제 2 심층 신경망 모델을 이용하여 상기 차량 내 음향신호를 분석한 결과, 상기 차량 내 음향신호가 상기 사용자의 발화 음성을 포함하는 정상적인 노이즈인 경우, 제 1 음향 이벤트 신호를 발생하고,
    상기 제 1 음향 이벤트 신호에 대응하여 음성 인식 서비스를 활성화 하며,
    상기 차량 내 음향신호 중 상기 사용자의 발화 음성을 제외한 음향신호를 노이즈로 검출하고,
    상기 노이즈의 크기 및 파형에 대응하여 상기 사용자의 발화 음성에 대응하는 응답 발화 음성 신호의 볼륨 및 이퀄라이저의 설정을 조정하도록 구성되는,
    음향 제어 장치.
  16. 제 14 항에 있어서,
    상기 조정부는,
    상기 제 1 및 제 2 심층 신경망 모델을 이용하여 상기 차량 내 음향신호를 분석한 결과, 상기 차량 내 음향신호가 상기 사용자의 발화 음성 및 다른 탑승자의 발화 음성을 포함하는 정상적인 노이즈인 경우, 제 2 음향 이벤트 신호를 발생하고,
    상기 제 2 음향 이벤트 신호에 대응하여 음성 인식 서비스를 비활성화 하며,
    상기 음향신호 중 상기 사용자의 발화 음성 및 다른 탑승자의 발화 음성의 소리를 노이즈로 검출하고,
    상기 노이즈의 크기 및 파형에 대응하여 상기 음향 서비스의 볼륨 및 이퀄라이저의 설정을 조정하도록 구성되는,
    음향 제어 장치.
  17. 제 14 항에 있어서,
    상기 조정부는,
    상기 제 1 및 제 2 심층 신경망 모델을 이용하여 상기 차량 내 음향신호를 분석한 결과, 상기 사용자를 제외한 다른 탑승자의 발화 음성을 포함하는 정상적인 노이즈인 경우, 제 3 음향 이벤트 신호를 발생하고,
    상기 제 3 음향 이벤트 신호에 대응하여 음성 인식 서비스를 비활성화 하며,
    상기 음향신호 중 상기 다른 탑승자의 발화 음성을 노이즈로 검출하고,
    상기 노이즈의 크기 및 파형에 대응하여 상기 음향 서비스의 볼륨 및 이퀄라이저의 설정을 조정하도록 구성되는,
    음향 제어 장치.
  18. 제 14 항에 있어서,
    상기 조정부는,
    상기 제 1 심층 신경망 모델을 이용하여 상기 차량 내 음향신호를 분석한 결과, 상기 음향 서비스를 포함하는 정상적인 노이즈인 경우, 제 4 음향 이벤트 신호를 발생하고,
    상기 제 4 음향 이벤트 신호에 대응하여 음성 인식 서비스를 비활성화 하며,
    상기 차량 내 음향신호 중 상기 음향 서비스를 제외한 음향신호를 노이즈로 검출하고,
    상기 노이즈의 크기 및 파형에 대응하여 상기 음향 서비스의 볼륨 및 이퀄라이저의 설정을 조정하도록 구성되는,
    음향 제어 장치.
  19. 제 14 항에 있어서,
    상기 조정부는,
    상기 제 1 심층 신경망 모델을 이용하여 상기 차량 내 음향신호를 분석한 결과, 상기 차량에서 발생하는 외부 환경 노이즈를 포함하는 비정상적인 노이즈인 경우, 제 5 음향 이벤트 신호를 발생하고,
    상기 제 5 음향 이벤트 신호에 대응하여, 사용자 설정 상태를 기준으로 일정 범위 이내에서 상기 비정상적인 노이즈의 크기 및 파형에 대응하여 상기 음향 서비스의 볼륨 및 이퀄라이저의 설정을 조정하도록 구성되는,
    음향 제어 장치.
  20. 음향을 조정하는 음향 제어 시스템으로서,
    차량 내에 발생하는 차량 내 음향신호를 수집하는 하나 이상의 마이크;
    상기 차량 내에 음향 서비스를 출력하기 위한 스피커; 및
    상기 마이크로부터 수집된 차량 내 음향신호를 분석하고, 상기 차량 내 음향신호를 분석한 결과에 대응하여 상기 음향 서비스의 볼륨 및 이퀄라이저의 설정을 조정하는 음향 처리부를 포함하며,
    상기 음향 처리부는, 음향신호의 특징을 분석하여 상기 음향신호가 차량 내에서 발생하는 정상적인 노이즈인지 또는 비정상적인 노이즈인지 판단하도록 미리 훈련된 제 1 심층 신경망 모델을 이용하여, 상기 차량 내 음향신호가 정상적인 노이즈인지 또는 비정상적인 노이즈인지 판단하도록 구성되고,
    상기 제 1 심층 신경망 모델은, 차량 내에서 통상적으로 발생하는 음향의 빅데이터를 정상적인 노이즈로 레이블링한 훈련 데이터를 통해 훈련된,
    음향 제어 시스템.
KR1020190107470A 2019-08-30 2019-08-30 음향 제어 시스템, 장치 및 방법 KR102645589B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020190107470A KR102645589B1 (ko) 2019-08-30 2019-08-30 음향 제어 시스템, 장치 및 방법
US16/601,979 US11003414B2 (en) 2019-08-30 2019-10-15 Acoustic control system, apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190107470A KR102645589B1 (ko) 2019-08-30 2019-08-30 음향 제어 시스템, 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20190106916A KR20190106916A (ko) 2019-09-18
KR102645589B1 true KR102645589B1 (ko) 2024-03-07

Family

ID=68070478

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190107470A KR102645589B1 (ko) 2019-08-30 2019-08-30 음향 제어 시스템, 장치 및 방법

Country Status (2)

Country Link
US (1) US11003414B2 (ko)
KR (1) KR102645589B1 (ko)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10225395B2 (en) * 2015-12-09 2019-03-05 Whatsapp Inc. Techniques to dynamically engage echo cancellation
KR102561781B1 (ko) * 2018-10-24 2023-08-02 삼성전자주식회사 송수신 경로의 이상을 결정할 수 있는 통신 모듈을 포함하는 안테나 모듈
KR102316671B1 (ko) * 2019-12-05 2021-10-22 주식회사 포스코건설 Cnn을 이용한 음향 처리방법
KR102239673B1 (ko) * 2019-12-19 2021-04-16 주식회사 더열림 인공지능 기반 능동형 스마트 보청기 피팅 방법 및 시스템
WO2021138102A1 (en) * 2019-12-30 2021-07-08 Arris Enterprises Llc Apparatus and method for automatic volume control with ambient noise compensation
FR3106008B1 (fr) * 2020-01-03 2022-01-14 Faurecia Services Groupe Procédé de commande d’équipements d’un habitacle d’un véhicule et dispositifs associés
EP3879507A1 (en) * 2020-03-12 2021-09-15 Hexagon Technology Center GmbH Visual-acoustic monitoring system for event detection, localization and classification
KR102296925B1 (ko) * 2020-06-15 2021-09-01 주식회사 다윈시스템 네트워크 방송 시스템
KR20220013799A (ko) * 2020-07-27 2022-02-04 삼성전자주식회사 전자 장치 및 전자 장치의 동작 방법
US20220028381A1 (en) * 2020-07-27 2022-01-27 Samsung Electronics Co., Ltd. Electronic device and operation method thereof
CN112037771B (zh) * 2020-08-28 2024-03-12 中移(杭州)信息技术有限公司 音量调节的方法、装置、电子设备和存储介质
KR20220118009A (ko) * 2021-02-18 2022-08-25 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN113823318A (zh) * 2021-06-25 2021-12-21 腾讯科技(深圳)有限公司 一种基于人工智能的倍率确定方法、音量调节方法及装置
US11971476B2 (en) * 2021-06-30 2024-04-30 Texas Instruments Incorporated Ultrasonic equalization and gain control for smart speakers
US20240015440A1 (en) * 2022-07-11 2024-01-11 Multimedia Led, Inc. Volume Control Device for An Audio Delivery System
CN115848938A (zh) * 2022-12-29 2023-03-28 重庆大学 适用于带式输送机的声光巡检方法、终端及可读存储介质
CN117953893A (zh) * 2024-03-26 2024-04-30 江苏云途半导体有限公司 一种集成了mcu和声音控制器的后备箱开关系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002232247A (ja) * 2001-02-05 2002-08-16 Matsushita Electric Ind Co Ltd 適応音質音量制御装置、並びに、適応音質音量制御装置を用いた音響装置、通信端末装置および情報端末装置
US20120130580A1 (en) * 2010-05-26 2012-05-24 Asako Omote Artificial engine sound control unit, approaching vehicle audible system, and electric vehicle having them

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3352946B2 (ja) * 1998-06-30 2002-12-03 松下電器産業株式会社 適応音質音量制御装置
JP2007015526A (ja) * 2005-07-07 2007-01-25 Matsushita Electric Ind Co Ltd 車載用音響制御システム
KR101437432B1 (ko) 2013-02-19 2014-09-05 전자부품연구원 차량 상태 적응형 오디오 시스템 및 제어방법
KR101547938B1 (ko) * 2014-04-29 2015-08-28 대성전기공업주식회사 친환경 차량의 작동 사운드 발생 장치 및 이의 제어 방법
KR102316653B1 (ko) 2014-10-28 2021-10-26 현대모비스 주식회사 차량용 오디오 볼륨 제어 방법 및 제어 장치
US20170026764A1 (en) * 2015-07-23 2017-01-26 Panasonic Automotive Systems Company Of America, Division Of Panasonic Corporation Of North America Automatic car audio volume control to aid passenger conversation
KR101725673B1 (ko) * 2015-11-03 2017-04-11 엘에스오토모티브 주식회사 차량 사운드 제네레이터 장치 및 이의 제어 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002232247A (ja) * 2001-02-05 2002-08-16 Matsushita Electric Ind Co Ltd 適応音質音量制御装置、並びに、適応音質音量制御装置を用いた音響装置、通信端末装置および情報端末装置
US20120130580A1 (en) * 2010-05-26 2012-05-24 Asako Omote Artificial engine sound control unit, approaching vehicle audible system, and electric vehicle having them

Also Published As

Publication number Publication date
KR20190106916A (ko) 2019-09-18
US11003414B2 (en) 2021-05-11
US20200042285A1 (en) 2020-02-06

Similar Documents

Publication Publication Date Title
KR102645589B1 (ko) 음향 제어 시스템, 장치 및 방법
US11842730B2 (en) Modification of electronic system operation based on acoustic ambience classification
US11211047B2 (en) Artificial intelligence device for learning deidentified speech signal and method therefor
CN109545219A (zh) 车载语音交互方法、系统、设备及计算机可读存储介质
KR20190109868A (ko) 사운드 데이터를 처리하는 시스템 및 시스템의 제어 방법
US11443747B2 (en) Artificial intelligence apparatus and method for recognizing speech of user in consideration of word usage frequency
US20190392851A1 (en) Artificial intelligence-based apparatus and method for controlling home theater speech
US20200058290A1 (en) Artificial intelligence apparatus for correcting synthesized speech and method thereof
US20200051566A1 (en) Artificial intelligence device for providing notification to user using audio data and method for the same
US11501757B2 (en) Artificial intelligence apparatus
US20190392811A1 (en) Apparatus and method for synthesizing engine sound
JP2017090612A (ja) 音声認識制御システム
US20150253747A1 (en) Apparatus and method for adaptively controlling a target system according to operating environment
US10757248B1 (en) Identifying location of mobile phones in a vehicle
US11021147B2 (en) Vehicles and methods for determining objects of driver focus
US20230317072A1 (en) Method of processing dialogue, user terminal, and dialogue system
KR102626716B1 (ko) 통화 음질 향상 시스템, 통화 음질 향상 장치 및 방법
US11542744B2 (en) Agent device, agent device control method, and storage medium
CN115428067A (zh) 用于提供个性化虚拟个人助理的系统和方法
US20230419971A1 (en) Dynamic voice assistant system for a vehicle
CN116259320A (zh) 基于语音的车辆控制方法及装置、存储介质、电子装置
CN111824174A (zh) 智能体装置、智能体装置的控制方法及存储介质
JP2020160108A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant