KR20220123862A - 차량 및 그 제어 방법 - Google Patents

차량 및 그 제어 방법 Download PDF

Info

Publication number
KR20220123862A
KR20220123862A KR1020210027322A KR20210027322A KR20220123862A KR 20220123862 A KR20220123862 A KR 20220123862A KR 1020210027322 A KR1020210027322 A KR 1020210027322A KR 20210027322 A KR20210027322 A KR 20210027322A KR 20220123862 A KR20220123862 A KR 20220123862A
Authority
KR
South Korea
Prior art keywords
sound
vehicle
sound sample
music
characteristic
Prior art date
Application number
KR1020210027322A
Other languages
English (en)
Inventor
장경진
박동철
이진성
홍상진
Original Assignee
현대자동차주식회사
기아 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 현대자동차주식회사, 기아 주식회사 filed Critical 현대자동차주식회사
Priority to KR1020210027322A priority Critical patent/KR20220123862A/ko
Priority to US17/576,386 priority patent/US11720321B2/en
Priority to CN202210116362.1A priority patent/CN115079989A/zh
Publication of KR20220123862A publication Critical patent/KR20220123862A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/03Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for supply of electrical power to vehicle subsystems or for
    • B60R16/0315Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for supply of electrical power to vehicle subsystems or for using multiplexing techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/025Arrangements for fixing loudspeaker transducers, e.g. in a box, furniture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Mechanical Engineering (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Automobile Manufacture Line, Endless Track Vehicle, Trailer (AREA)

Abstract

본 발명의 차량은, 카메라; 스피커; 및 상기 카메라 및 상기 스피커와 연결되는 제어부를 포함하며, 상기 제어부는, 상기 카메라를 통해 차량의 제1 외부 이미지를 획득하며, 상기 제1 외부 이미지를 미리 학습된 제1 신경망에 입력하여, 상기 제1 외부 이미지에 대응하는 제1 특성을 추출하며, 복수의 사운드 샘플들 각각에 대응하는 미리 저장된 특성과 상기 제1 특성의 비교를 기초로, 상기 복수의 사운드 샘플들 중 제1 사운드 샘플을 출력하도록 상기 스피커를 제어할 수 있다.

Description

차량 및 그 제어 방법{VEHICLE AND CONTROL METHOD THEREOF}
본 발명은 차량 및 그 제어 방법에 관한 것이다.
종래에는 차량의 주행 시, 차량 내 탑승자는, 차량 밖의 풍경, 예를 들어, 자연 환경을 시각적으로 볼 수 있지만, 청각적으로 자연 환경을 실감나게 느끼기는 어렵다. 만약, 차량이 주행 중 주변의 자연 환경과 어우러질 수 있는 적절한 사운드가 제공된다면, 차량 내 탑승자는 정서적으로 편안하고 만족스러운 느낌을 받을 수 있을 것이다.
종래에는, 차량이 미리 저장된 주행 사운드를 사용자에게 제공하는 기술이 개발되어 있으나, 이러한 종래의 기술은, 차량이 주행하는 외부의 환경에 맞추어 탑승자에게 적절한 사운드를 제공할 수는 없다.
개시된 발명의 일 측면은, 차량의 주행 시, 외부의 환경에 가장 잘 맞는 사운드, 예를 들어, 효과음 및/또는 음악을 탑승자에게 제공할 수 있는 차량 및 그 제어 방법을 제공할 수 있다.
일 측면에 따른 차량은, 카메라; 스피커; 및 상기 카메라 및 상기 스피커와 연결되는 제어부를 포함하며, 상기 제어부는, 상기 카메라를 통해 차량의 제1 외부 이미지를 획득하며, 상기 제1 외부 이미지를 미리 학습된 제1 신경망에 입력하여, 상기 제1 외부 이미지에 대응하는 제1 특성을 추출하며, 복수의 사운드 샘플들 각각에 대응하는 미리 저장된 특성과 상기 제1 특성의 비교를 기초로, 상기 복수의 사운드 샘플들 중 제1 사운드 샘플을 출력하도록 상기 스피커를 제어하는 것을 포함할 수 있다.
상기 제1 신경망은, 입력된 이미지에 대응하는 지형 정보 또는 상기 지형 정보에 대응하도록 미리 정해진 감정 정보를 식별하기 위한 특성을 추출하도록 미리 학습된 것일 수 있다.
상기 제어부는, 머신 러닝 모델을 통해, 상기 복수의 사운드 샘플들 각각에 대응하는 상기 미리 저장된 특성 중에서 상기 제1 특성과 가장 유사한 제2 특성을 식별하며, 상기 제2 특성의 상기 제1 사운드 샘플을 선택할 수 있다.
상기 복수의 사운드 샘플들 각각에 대응하는 상기 미리 저장된 특성은, 상기 복수의 사운드 샘플들 각각을 주파수 및 시간의 스펙트럼 이미지로 변환한 후, 상기 주파수 및 시간의 스펙트럼 이미지를 입력으로 하는 제2 신경망의 학습에 기초하여, 추출되어 저장된 것일 수 있다.
상기 제2 신경망은, 입력된 스펙트럼 이미지에 대응하는 지형 정보 또는 상기 지형 정보에 대응하도록 미리 정해진 감정 정보를 식별하기 위한 특성을 추출하도록 학습하는 것일 수 있다.
상기 제어부는, 상기 제1 외부 이미지의 획득 후 미리 정해진 시간의 경과에 응답하여, 상기 카메라를 통해 제2 외부 이미지를 획득하며, 상기 제2 외부 이미지를 상기 제1 신경망에 입력하여, 상기 제2 외부 이미지에 대응하는 제3 특성을 추출하며, 상기 복수의 사운드 샘플들 각각에 대응하는 상기 미리 저장된 특성과 상기 제3 특성의 비교를 기초로, 상기 복수의 사운드 샘플들 중 상기 제1 사운드 샘플 또는 상기 제1 사운드 샘플과는 다른 제2 사운드 샘플을 선택하는 것을 더 포함할 수 있다.
상기 제어부는, 상기 복수의 사운드 샘플들 중 상기 제1 사운드 샘플이 선택되고, 상기 제1 사운드 샘플이 제1 효과음을 포함하는 경우, 상기 제1 효과음의 재생 반복 횟수가 미리 정해진 최대 반복 횟수 이내가 되도록 설정하고, 상기 복수의 사운드 샘플 중 상기 제2 사운드 샘플이 선택되고, 상기 제2 사운드 샘플이 제2 효과음을 포함하는 경우, 상기 제2 효과음의 재생 반복 횟수가 미리 정해진 최소 반복 횟수가 되도록 설정할 수 있다.
상기 제어부는, 상기 복수의 사운드 샘플들 중 상기 제1 사운드 샘플이 선택되고, 상기 제1 사운드 샘플이 제1 음악을 포함하는 경우, 상기 제1 음악의 재생 시간을 미리 정해진 최대 재생 시간으로 설정하고, 상기 복수의 사운드 샘플들 중 상기 제2 사운드 샘플이 선택되고, 상기 제2 사운드 샘플이 제2 음악을 포함하는 경우, 상기 제2 음악의 재생 시간을 미리 정해진 기본 재생 시간으로 설정할 수 있다.
상기 제어부는, 상기 복수의 사운드 샘플들 중 상기 제2 사운드 샘플이 선택되고, 상기 제2 사운드 샘플이 제2 음악을 포함하는 경우, 상기 제1 음악의 데이터에 페이드 아웃을 위한 필터를 적용하고, 상기 제2 음악의 데이터에 페이드 인을 위한 필터를 적용할 수 있다.
일 측면에 따른 차량의 제어 방법은, 카메라를 통해 차량의 제1 외부 이미지를 획득하며, 상기 제1 외부 이미지를 미리 학습된 제1 신경망에 입력하여, 상기 제1 외부 이미지에 대응하는 제1 특성을 추출하며, 복수의 사운드 샘플들 각각에 대응하는 미리 저장된 특성과 상기 제1 특성의 비교를 기초로, 상기 복수의 사운드 샘플들 중 제1 사운드 샘플을 출력하는 것을 포함할 수 있다.
상기 제1 신경망은, 입력된 이미지에 대응하는 지형 정보 또는 상기 지형 정보에 대응하도록 미리 정해진 감정 정보를 식별하기 위한 특성을 추출하도록 미리 학습된 것일 수 있다.
상기 제어 방법은, 머신 러닝 모델을 통해, 상기 복수의 사운드 샘플들 각각에 대응하는 상기 미리 저장된 특성 중에서 상기 제1 특성과 가장 유사한 제2 특성을 식별하며, 상기 제2 특성의 상기 제1 사운드 샘플을 선택하는 것을 더 포함할 수 있다.
상기 복수의 사운드 샘플들 각각에 대응하는 상기 미리 저장된 특성은, 상기 복수의 사운드 샘플들 각각을 주파수 및 시간의 스펙트럼 이미지로 변환한 후, 상기 주파수 및 시간의 스펙트럼 이미지를 입력으로 하는 제2 신경망의 학습에 기초하여, 추출되어 저장된 것일 수 있다.
상기 제2 신경망은, 입력된 스펙트럼 이미지에 대응하는 지형 정보 또는 상기 지형 정보에 대응하도록 미리 정해진 감정 정보를 식별하기 위한 특성을 추출하도록 학습하는 것일 수 있다.
상기 제어 방법은, 상기 제1 외부 이미지의 획득 후 미리 정해진 시간의 경과에 응답하여, 상기 카메라를 통해 제2 외부 이미지를 획득하며, 상기 제2 외부 이미지를 상기 제1 신경망에 입력하여, 상기 제2 외부 이미지에 대응하는 제3 특성을 추출하며, 상기 복수의 사운드 샘플들 각각에 대응하는 상기 미리 저장된 특성과 상기 제3 특성의 비교를 기초로, 상기 복수의 사운드 샘플들 중 상기 제1 사운드 샘플 또는 상기 제1 사운드 샘플과는 다른 제2 사운드 샘플을 선택하는 것을 더 포함할 수 있다.
상기 제어 방법은, 상기 복수의 사운드 샘플들 중 상기 제1 사운드 샘플이 선택되고, 상기 제1 사운드 샘플이 제1 효과음을 포함하는 경우, 상기 제1 효과음의 재생 반복 횟수가 미리 정해진 최대 반복 횟수 이내가 되도록 설정하고, 상기 복수의 사운드 샘플 중 상기 제2 사운드 샘플이 선택되고, 상기 제2 사운드 샘플이 제2 효과음을 포함하는 경우, 상기 제2 효과음의 재생 반복 횟수가 미리 정해진 최소 반복 횟수가 되도록 설정하는 것을 더 포함할 수 있다.
상기 제어 방법은, 상기 복수의 사운드 샘플들 중 상기 제1 사운드 샘플이 선택되고, 상기 제1 사운드 샘플이 제1 음악을 포함하는 경우, 상기 제1 음악의 재생 시간을 미리 정해진 최대 재생 시간으로 설정하고, 상기 복수의 사운드 샘플들 중 상기 제2 사운드 샘플이 선택되고, 상기 제2 사운드 샘플이 제2 음악을 포함하는 경우, 상기 제2 음악의 재생 시간을 미리 정해진 기본 재생 시간으로 설정하는 것을 더 포함할 수 있다.
상기 제어 방법은, 상기 복수의 사운드 샘플들 중 상기 제2 사운드 샘플이 선택되고, 상기 제2 사운드 샘플이 제2 음악을 포함하는 경우, 상기 제1 음악의 데이터에 페이드 아웃을 위한 필터를 적용하고, 상기 제2 음악의 데이터에 페이드 인을 위한 필터를 적용하는 것을 더 포함할 수 있다.
개시된 발명의 일 측면에 따른 차량 및 그 제어 방법은 차량의 주행 중 외부의 환경에 잘 어우러지는 사운드를 탑승자에게 제공할 수 있다.
예를 들어, 차량 및 그 제어 방법은, 차량의 주행 시 탑승자가 외부의 멋진 자연 환경을 시각뿐 아니라 청각으로도 즐길 수 있도록 할 수 있다. 이에 따라, 차량의 탑승자가 차량 안에 갇혀 있지 않고 차량 밖의 넓은 곳에 위치한 느낌을 가지도록 하여, 탑승자는 정서적으로 편안함을 느낄 수 있다. 또한, 외부의 환경에 잘 어우러지는 사운드를 통해 탑승자가 정서적으로 치료 받는 느낌을 가지도록 하는 효과를 제공할 수 있다.
도 1은 일 실시예에 따른 차량 및 서버를 포함하는 시스템의 블록도이다.
도 2는 일 실시예에 따른 차량의 동작의 흐름도이다.
도 3은 일 실시예에 따른 차량의 사운드 샘플을 선택하는 동작을 나타낸 도면이다.
도 4는 일 실시예에 따른 제1 CNN의 학습 동작의 흐름도이다.
도 5는 일 실시예에 따른 제2 CNN의 학습 동작의 흐름도이다.
도 6은 일 실시예에 따른 차량의 동작의 흐름도이다.
도 7은 일 실시예에 따른 차량의 동작의 흐름도이다.
도 8은 일 실시예에 따른 차량의 주행 환경에 따른 이미지별 사운드스케이프 구현을 설명하기 위한 도면이다.
명세서 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다. 본 명세서가 실시 예들의 모든 요소들을 설명하는 것은 아니며, 본 발명이 속하는 기술분야에서 일반적인 내용 또는 실시 예들 간에 중복되는 내용은 생략한다. 명세서에서 사용되는 '부, 모듈, 장치'라는 용어는 소프트웨어 또는 하드웨어로 구현될 수 있으며, 실시 예들에 따라 복수의 '부, 모듈, 장치'가 하나의 구성요소로 구현되거나, 하나의 '부, 모듈, 장치'가 복수의 구성요소들을 포함하는 것도 가능하다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐 아니라, 간접적으로 연결되어 있는 경우를 포함하고, 간접적인 연결은 무선 통신망을 통해 연결되는 것을 포함한다.
또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
제 1, 제 2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위해 사용되는 것으로, 구성요소가 전술된 용어들에 의해 제한되는 것은 아니다.
단수의 표현은 문맥상 명백하게 예외가 있지 않는 한, 복수의 표현을 포함한다.
각 단계들에 있어 식별부호는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 실시될 수 있다.
이하 첨부된 도면들을 참고하여 본 발명의 작용 원리 및 실시 예들에 대해 설명한다.
도 1은 일 실시예에 따른 차량(100) 및 서버(1000)를 포함하는 시스템(1)의 블록도이다.
도 1을 참조하면, 차량(100)은 카메라(102), 스피커(104), 통신부(106), 저장부(108) 및/또는 제어부(110)를 포함할 수 있다.
카메라(102)는 정지 영상 및/또는 동영상을 촬영할 수 있다. 카메라(102)는 이미지 센서 및 렌즈를 포함할 수 있으며, 제어부(110)의 제어에 기초하여 차량(100)의 내부 및/또는 외부의 이미지를 획득(또는 촬영)할 수 있다.
카메라(102)는 하나 또는 복수 개일 수 있으며, 차량(100)의 전방, 후방 및/또는 측방을 향하는 시야(field of view)를 가지고, 차량(100)의 외부 이미지를 획득할 수 있다.
예를 들어, 카메라(102)는, 차량(100)의 전면부 및 측면부에 각각 위치하는 2개의 카메라를 포함할 수 있으며, 제어부(110)의 제어에 기초하여 미리 정해진 시간 간격, 예를 들어, 30초 간격으로 이미지를 획득할 수 있다.
스피커(104)는 전기 신호를 사운드로 변경하여 출력할 수 있다.
통신부(106)(또는 통신 장치 또는 통신 회로라고도 함)는 차량(100)과 외부 장치, 예를 들어, 서버(1000) 간의 무선 및/또는 유선 통신 채널의 수립 및 수립된 통신 채널을 통한 통신 수행을 지원할 수 있으며, 통신 회로를 포함할 수 있다. 예를 들어, 서버(1000)는 클라우드 서버일 수 있다. 예를 들어, 통신부(106)는 유선 통신 모듈(예: 전력선 통신 모듈) 및/또는 무선 통신 모듈(예: GPS(global positioning system) 모듈, 셀룰러 통신 모듈, 와이파이 통신 모듈, 근거리 무선 통신 모듈 및/또는 블루투스 통신 모듈)을 포함하고, 그 중 해당하는 통신 모듈을 이용하여 외부 장치와 통신할 수 있다.
통신부(106)는 차량용 통신 네트워크를 통해, 차량(100)의 구성 요소들(장치들이라고도 함) 간의 통신, 예를 들어, CAN(controller area network) 통신 및/또는 LIN(local interconnect network) 통신을 할 수 있는 통신 회로(또는 트랜시버라고도 함) 및 통신 회로의 동작을 제어하는 제어 회로를 포함할 수 있다.
저장부(108)는 차량(100)의 적어도 하나의 구성 요소(카메라(102), 스피커(104), 통신부(106) 및/또는 제어부(110))에 의해 사용되는 다양한 데이터, 예를 들어, 소프트웨어 프로그램 및 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 저장할 수 있다. 저장부(108)는 휘발성 메모리 및/또는 비휘발성 메모리를 포함할 수 있다.
제어부(110)(제어 회로 또는 프로세서라고도 함)는, 차량(100)의 적어도 하나의 다른 구성 요소(예: 하드웨어 구성 요소(예: 카메라(102), 스피커(104), 통신부(106) 및/또는 저장부(108)) 또는 소프트웨어 구성 요소(소프트웨어 프로그램))를 제어할 수 있고, 다양한 데이터 처리 및 연산을 수행할 수 있다. 제어부(110)는 차량(100)의 동력 계통을 제어하는 전자 제어 장치(ECU; electronic control unit)을 포함할 수 있다. 제어 장치(110)는 프로세서와 메모리를 포함할 수 있다.
제어부(110)는 사운드 스케이프 제공 시스템이라고도 할 수 있다.
제어부(110)는 카메라(102)를 통해 획득된 이미지에 대해 실시간으로 특성(feature)을 분석할 수 있다.
제어부(110)는 서버(1000)나 차량(100)의 저장부(108)의 미리 학습된 제1 신경망 알고리즘을 통해 이미지에 대한 특성을 분석할 수 있다.
예를 들어, 제1 신경망 알고리즘은, 제1 합성곱신경망(CNN; Convolutional Neural Network) 알고리즘(또는 비주얼 CNN 알고리즘이라고도 함)을 포함할 수 있다.
제1 CNN 알고리즘은, 이미지의 입력을 통해 학습하는 CNN(또는 제1 CNN 모델 또는 제1 CNN 기반 딥러닝 학습 모델이라고도 함)을 통해 이미지에 대응하는 특성을 추출하는 알고리즘이다.
예를 들어, 제1 CNN 알고리즘은, 이미지를 지형(예를 들어, 강변, 해변, 고속도로, 숲길 및/또는 도심 등)의 레이블로 생성하여 학습함으로써 이미지에 대한 분류를 할 수 있다.
다른 예로, 제1 CNN 알고리즘은, 이미지를 지형 및 감성(예를 들어, 즐거움, 흥분됨, 슬픔, 우울함, 외로움 및/또는 차분함 등)으로 구분하여, 이를 복합한 형태 (예를 들어, 강변-즐거움, 해변-흥분됨 등)로 레이블로 생성하여 학습함으로써 이미지에 대한 정교한 분류를 할 수 있다.
제어부(110)는, 통신부(106)를 통한 서버(1000)와의 통신을 통해 수신되거나 또는 저장부(108)에 저장된, 다양한 지형 및/또는 감성에 어울릴만한 대응되는 사운드 샘플 기반 특성 데이터베이스에 기초하여, 획득된 이미지에 어울릴만한 사운드 샘플을 선택할 수 있다.
예를 들어, 서버(1000) 또는 저장부(108)는, 제2 신경망 알고리즘을 통해, 다양한 사운드 샘플들을 학습하여 특성 데이터베이스를 생성할 수 있다. 예를 들어, 제2 신경망 알고리즘은 제2 CNN 알고리즘(또는 오디오 CNN 알고리즘이라고도 함)을 포함할 수 있다.
제2 CNN 알고리즘은 사운드 샘플의 단시간 푸리에 변환(STFT; Short Time Fourier Transform)을 기초로 주파수 및 시간의 스펙트럼 이미지를 생성 후, 이러한 주파수 및 시간의 스펙트럼 이미지를 입력으로 제2 CNN(또는 제2 CNN 모델 또는 제2 CNN 기반 딥러닝 학습 모델이라고도 함)을 학습하여, 특성을 추출하는 알고리즘일 수 있으며, 이외의 다른 알고리즘이 적용될 수 있다.
제어부(110)는 제1 CNN 학습 모델 분석부(112), 제2 CNN 학습 모델 분석부(114), 머신 러닝 기반 특성 비교부(116) 및 사운드 샘플 재생 변수 설정부(118)를 포함할 수 있다.
제1 CNN 학습 모델 분석부(112)는 차량(100)의 주행 중 카메라(110)를 통해 획득한 외부 이미지를 제1 CNN에 입력하여, 제1 CNN 알고리즘을 통해, 차량(100)의 실시간 주행 환경의 특성을 추출할 수 있다.
제2 CNN 학습 모델 분석부(114)는 복수의 사운드 샘플들을 제2 CNN에 입력하여, 제2 CNN 알고리즘을 통해 차량의 주행 환경의 특성들을 추출하여, 특성 데이터베이스를 수집할 수 있다.
복수의 사운드 샘플 각각은, 효과음 및/또는 음악을 포함할 수 있다.
예를 들어, 효과음은 새소리 및/또는 파도 소리 등을 포함할 수 있다. 음악은 플롯 연주곡 및/또는 피아노 연주곡 등을 포함할 수 있다.
머신 러닝 기반 특성 비교부(116)는 제1 CNN 학습 모델 분석부(112)로부터 출력된 이미지에 대응하는 특성과 제2 CNN 학습 모델 분석부(114)로부터 출력된 복수의 샘플들에 기초하여 수집된 특성 데이터베이스를 비교하여, 특성 데이터베이스에서 제1 CNN 학습 모델 분석부(112)로부터 출력된 이미지에 대응하는 특성과 가장 유사한 특성을 식별할 수 있으며, 식별한 특성의 사운드 샘플을 식별할 수 있다.
머신 러닝 기반 특성 비교부(116)는, 이미지의 특성과 사운드의 특성을 서로 비교하여, 이미지의 특성에 가장 유사한 사운드 샘플을 선택하는 머신 러닝 학습 모델을 통해, 사운드 샘플을 식별할 수 있다.
예를 들어, 이미지에 대응하는 특성과 특성 데이터베이스의 비교는 KL(Kullback Leibler)-divergence 방식 등을 통해 수행될 수 있다. KL-divergence 방식은 두 데이터의 확률 분포의 차이를 계산하여 그 차이가 가장 작은 특성들을 서로 유사한 것으로 판단하는 것으로, 데이터의 크로스 엔트로피를 구하고 최소화하여 계산할 수 있다.
사운드 샘플 재생 변수 설정부(118)는 머신 러닝 기반 특성 비교부(116)를 통해 식별된 사운드 샘플이, 효과음 및/또는 음악을 포함하는지를 식별할 수 있다.
사운드 샘플 재생 변수 설정부(118)는 식별된 사운드 샘플이 효과음을 포함하고, 차량(100)이 주행하는 외부의 환경이 크게 변하지 않는 경우, 효과음의 재생이 과도하게 반복되지 않도록 미리 정해진 최대 재생 횟수 이내에서 효과음이 재생되도록 설정 할 수 있다.
사운드 샘플 재생 변수 설정부(118)는 식별된 사운드 샘플이 음악을 포함하고, 차량(100)이 주행하는 외부의 환경이 크게 변하지 않는 경우, 처음부터 음악이 다시 재생되지 않도록 미리 선택되어 재생되는 음악이 연장되어 재생되도록 설정할 수 있다.
사운드 샘플 재생 변수 설정부(118)는 새롭게 식별된 사운드 샘플에 따라, 음악이 변경되어야 하는 경우, 과도한 변동감이 발생되지 않도록, 새롭게 식별된 사운드 샘플에 포함된 음악의 데이터에 페이드 인을 위한 필터(또는 페이드 인 필터라고도 함)를 적용하고, 이전의 사운드 샘플에 포함된 음악의 데이터에 페이드 아웃을 위한 필터(또는 페이드 아웃 필터라고도 함)를 적용할 수 있다.
사운드 샘플 재생 변수 설정부(118)는 식별된 사운드 샘플이 효과음 및 음악을 포함하는 경우, 음악과 효과음을 믹싱하여 자연스럽게 스피커(104)를 통해 출력되도록 할 수 있다.
상술한 제1 CNN, 제2 CNN 및/또는 사운드 샘플 기반 특성 데이터베이스는 외부의 서버(1000)에 저장되어 있을 수 있으며, 통신부(106)를 통한 서버(1000)와의 통신에 기초하여 수신된 것이거나 저장부(108)에 저장된 것일 수 있다.
한편, 차량(100)은 오디오 장치(미도시)를 포함할 수 있으며, 오디오 장치를 통해 스피커(104)가 상술한 음악 및/또는 효과음을 출력할 수 있다.
이하의 도 2 내지 도 6을 참조하여, 제어부(110)의 동작에 관해 상세히 설명한다.
도 2는 일 실시예에 따른 차량(100)(또는 차량(100)의 제어부(110))의 동작의 흐름도이다. 도 3은 일 실시예에 따른 차량(100)(또는 차량(100)의 제어부(110)의 사운드 샘플을 선택하는 동작을 나타낸 도면이다.
도 2 및 도 3을 참조하면, 차량(100)은, 카메라(102)를 통해 차량(100)의 제1 외부 이미지(301)를 획득할 수 있다(202).
제1 외부 이미지(301)는 예를 들어, 도 3과 같은 해안 도로의 이미지일 수 있다.
차량(100)은, 제1 외부 이미지(301)를 미리 학습된 제1 신경망, 예를 들어, 제1 합성곱신경망(CNN; Convolutional neural network)(303)에 입력하여, 제1 외부 이미지에 대응하는 제1 특성(305)을 추출할 수 있다(204).
제1 CNN(303)은, 입력된 이미지에 대응하는 지형 정보 또는 상기 지형 정보에 대응하도록 미리 정해진 감정 정보를 식별하기 위한 특성을 추출하도록 미리 학습된 것일 수 있으며, 제1 CNN(303)의 학습에 대한 실시예는 도 4를 참조하여 후술하였다.
제1 특성(305)은, 차량(100)의 주행 환경에 대응하는 특성으로, 제1 외부 이미지에 대응하는 지형 정보를 식별하기 위한 특성을 포함할 수 있다.
차량(100)은 복수의 사운드 샘플들(307) 각각에 대응하는 미리 저장된 특성(313)과 제1 특성(305)의 비교를 기초로, 복수의 사운드 샘플들(307) 중 제1 사운드 샘플(319)을 출력하도록 스피커(104)를 제어할 수 있다(206).
복수의 사운드 샘플들(307)은, 사운드 샘플 데이터베이스라고도 할 수 있다.
복수의 사운드 샘플들(307) 각각에 대응하는 미리 저장된 특성(313)은, 복수의 사운드 샘플들(307) 각각을 주파수 및 시간의 스펙트럼 이미지(309)로 변환한 후, 주파수 및 시간의 스펙트럼 이미지(309)를 입력으로 하는 제2 신경망, 예를 들어, 제2 CNN(311)의 학습에 기초하여 추출되어 저장된 것일 수 있다.
예를 들어, 제2 CNN(311)은, 입력된 스펙트럼 이미지(309)에 대응하는 차량(100)의 주행 환경에 대응하는 특성을 추출하도록 학습하는 것일 수 있으며, 제2 CNN(311)의 학습에 대한 실시예는 도 5를 참조하여 후술하였다.
예를 들어, 입력된 스펙트럼 이미지(309)에 대응하는 차량(100)의 주행 환경에 대응하는 특성은 지형 정보 또는 상기 지형 정보에 대응하도록 미리 정해진 감정 정보를 식별하기 위한 특성을 포함할 수 있다.
복수의 사운드 샘플들(307) 각각에 대응하는 특성(313)은 데이터베이스화되어 사운드 샘플 기반 특성 데이터베이스(315)에 저장될 수 있다.
차량(100)은 머신 러닝 모델(317)을 통해, 복수의 사운드 샘플들(307) 각각에 대응하는 미리 저장된 특성(313) 중에서 제1 특성(305)과 가장 유사한 제2 특성을 식별할 수 있으며, 제2 특성의 제1 사운드 샘플(319)을 선택할 수 있다.
제2 특성은, 입력된 스펙트럼 이미지(309)에 대응하는 차량(100)의 주행 환경에 대응하는 특성으로, 제1 사운드 샘플(319)에 대응하는 지형 정보를 식별하기 위한 특성을 포함할 수 있다.
상술한 실시예에 추가로, 차량(100)은, 제1 외부 이미지의 획득 후 미리 정해진 시간의 경과에 응답하여, 카메라(102)를 통해 제2 외부 이미지를 획득할 수 있다. 차량(100)은, 제2 외부 이미지를 제1 CNN(303)에 입력하여, 제2 외부 이미지에 대응하는 제3 특성을 추출할 수 있다. 차량(100)은, 복수의 사운드 샘플들(307) 각각에 대응하는 미리 저장된 특성(313)과 상기 제3 특성의 비교를 기초로, 복수의 사운드 샘플들(307) 중 제1 사운드 샘플(319) 또는 제1 사운드 샘플(319)과는 다른 제2 사운드 샘플을 선택할 수 있다.
상술한 동작들에 따라, 복수의 사운드 샘플들(307) 중 제1 사운드 샘플(319)이 선택되고, 선택된 제1 사운드 샘플(319)이 제1 효과음을 포함하는 경우, 차량(100)은 제1 효과음의 재생 반복 횟수가 미리 정해진 최대 반복 횟수 이내가 되도록 설정할 수 있다.
상술한 동작들에 따라, 복수의 사운드 샘플(307) 중 제2 사운드 샘플이 선택되고, 제2 사운드 샘플이 제2 효과음을 포함하는 경우, 차량(100)은 제2 효과음의 재생 반복 횟수가 미리 정해진 최소 반복 횟수가 되도록 설정할 수 있다.
상술한 동작들에 따라, 복수의 사운드 샘플들(307) 중 제1 사운드 샘플(319)이 선택되고, 제1 사운드 샘플(319)이 제1 음악을 포함하는 경우, 차량(100)은 제1 음악의 재생 시간을 미리 정해진 최대 재생 시간으로 설정할 수 있다.
상술한 동작들에 따라, 복수의 사운드 샘플들(307) 중 제2 사운드 샘플이 선택되고, 제2 사운드 샘플이 제2 음악을 포함하는 경우, 차량(100)은, 제2 음악의 재생 시간을 미리 정해진 기본 재생 시간으로 설정할 수 있다. 또한, 복수의 사운드 샘플들(307) 중 제2 사운드 샘플이 선택되고, 제2 사운드 샘플이 제2 음악을 포함하는 경우, 차량(100)은, 제1 음악의 데이터에 페이드 아웃을 위한 필터를 적용하고, 제2 음악의 데이터에 페이드 인을 위한 필터를 적용할 수 있다.
도 4는 일 실시예에 따른 제1 CNN의 학습 동작의 흐름도이다.
제1 CNN의 학습 동작은, 차량(100)(및/또는 차량(100)의 제어부(110)) 및/또는 외부의 전자 장치, 예를 들어, 서버(1000)(및/또는 서버(1000)의 제어부(미도시)) 등에 의해 수행될 수 있다.
차량(100) 및/또는 전자 장치는, 주행 환경 학습을 위한 복수의 이미지들 각각을 적어도 하나의 단어로 레이블링할 수 있다(402).
적어도 하나의 단어는, 이미지에 대응하는 지형 정보 및/또는 지형 정보에 대응하도록 미리 정해진 감정 정보를 포함할 수 있다.
예를 들어, 지형 정보는, 강변, 해변, 고속도로, 숲길 및/또는 도심 등 다양할 수 있다. 지형 정보에 대응하도록 미리 정해진 감정 정보는, 강변의 경우 즐거움 및/또는 해변의 경우 흥분됨 등으로 다양할 수 있다.
차량(100) 및/또는 전자 장치는, 제1 CNN을 통해, 각각을 적어도 하나의 단어로 레이블링한 복수의 이미지들에 대한 학습을 하여 제1 CNN 모델을 구성할 수 있다(404).
제1 CNN 모델은, 입력된 이미지에 대응하는 차량(100)의 주행 환경에 대응하는 특성을 추출하도록 학습될 수 있다.
예를 들어, 차량(100)의 주행 환경에 대응하는 특성은, 입력된 이미지에 대응하는 지형 정보 또는 지형 정보에 대응하도록 미리 정해진 감정 정보를 식별하기 위한 특성을 포함할 수 있다.
도 5는 일 실시예에 따른 제2 CNN의 학습 동작의 흐름도이다.
제2 CNN의 학습 동작은, 차량(100)(및/또는 차량(100)의 제어부(110)) 및/또는 외부의 전자 장치, 예를 들어, 서버(1000)(및/또는 서버(1000)의 제어부(미도시)) 등에 의해 수행될 수 있다.
차량(100) 및/또는 전자 장치는, 복수의 사운드 샘플들 각각을 적어도 하나의 단어로 레이블링할 수 있다(502).
적어도 하나의 단어는, 사운드 샘플에 대응하도록 정해지는 지형 정보 및/또는 지형 정보에 대응하도록 미리 정해진 감정 정보를 포함할 수 있다.
예를 들어, 지형 정보는, 강변, 해변, 고속도로, 숲길 및/또는 도심 등 다양할 수 있다. 지형 정보에 대응하도록 미리 정해진 감정 정보는, 강변의 경우 즐거움 및/또는 해변의 경우 흥분됨 등으로 다양할 수 있다.
차량(100) 및/또는 전자 장치는, 제2 CNN을 통해, 각각을 적어도 하나의 단어로 레이블링한 복수의 사운드 샘플들에 대한 학습을 하여 제2 CNN 모델을 구성할 수 있다 (504).
차량(100)은, 복수의 사운드 샘플들 각각을 주파수 및 시간의 스펙트럼 이미지로 변환한 후, 주파수 및 시간의 스펙트럼 이미지를 입력으로 하는 제2 CNN 모델의 학습을 할 수 있다.
제2 CNN 모델은, 입력된 사운드 샘플에 대응하는 차량(100)의 주행 환경에 대응하는 특성을 추출하도록 학습될 수 있다.
예를 들어, 차량(100)의 주행 환경에 대응하는 특성은, 입력된 사운드 샘플에 대응하는 지형 정보 또는 지형 정보에 대응하도록 미리 정해진 감정 정보를 식별하기 위한 특성을 포함할 수 있다.
도 6은 일 실시예에 따른 차량(100)(또는 차량(100)의 제어부(110))의 동작의 흐름도이다.
차량(100)은 카메라(102)를 통해 이미지를 획득할 수 있다(602).
차량(100)은, 주행 중 미리 정해진 시간 간격, 예를 들어, 30초마다 카메라(102)를 통해 차량(100)의 외부 이미지를 획득할 수 있다.
차량(100)은 획득된 이미지를 사전에 학습된 제1 CNN에 입력하여 차량(100)의 주행 환경에 대응하는 특성을 추출할 수 있다(604).
제1 CNN은 다양한 주행 환경의 이미지를 입력하여 특성을 추출하도록 학습시킨 제1 CNN 모델일 수 있다.
차량(100)은, 머신 러닝 모델(또는 머신 러닝 기법이라고도 함)을 통해, 사운드 샘플 기반 특성 데이터베이스에서, 주행 환경에 대응하는 특성과 가장 유사한 사운드 샘플 기반 특성을 선택할 수 있다(606).
차량(100)은, KL-divergence 방식을 통해, 주행 환경에 대응하는 특성과 사운드 샘플 기반 특성 데이터베이스의 사운드 샘플 기반 특성들을 비교하여, 사운드 샘플 기반 특성 데이터베이스의 사운드 샘플 기반 특성들 중 주행 환경에 대응하는 특성과 가장 유사한 사운드 샘플 기반 특성을 식별할 수 있다.
차량(100)은, 선택된 사운드 샘플 기반 특성의 사운드 샘플을 식별할 수 있다(608)
사운드 샘플은, 효과음 및/또는 음악을 포함할 수 있다.
상술한 도 6의 실시예에 따라, 미리 정해진 시간 간격(시간 주기), 예를 들어, 30초 간격으로 사운드 샘플이 선정된다고 가정할 때, 차량(100)은 차량(100)의 주행 상황에 맞게 자연스럽게 사운드를 스피커(104)를 통해 출력할 수 있다. 예를 들어, 차량(100)은 선정된 사운드 샘플의 유형에 따라, 차량(100)의 주행 환경에 맞게 적절한 시간으로 끊김이나 변동감 없이, 사운드를 스피커(104)를 통해 출력할 수 있다. 도 7을 참조하여, 차량(100)이 사운드를 출력하는 실시예를 설명한다.
도 7은 일 실시예에 따른 차량(100)(또는 차량(100)의 제어부(110))의 동작의 흐름도이다.
도 7을 참조하면, 차량(100)은 상술한 도 6의 실시예의 동작들에 따라 사운드 샘플을 식별할 수 있다(702).
차량(100)은 식별된 사운드 샘플에 효과음 및/또는 음악이 포함되어 있는지를 식별할 수 있다(704).
차량(100)은 식별된 사운드 샘플에 효과음이 포함된 경우 706 동작을 수행하고, 식별된 사운드 샘플에 음악이 포함된 경우 714 동작을 수행할 수 있다.
식별된 사운드 샘플에 효과음이 포함된 경우, 차량(100)은 사운드 샘플의 변화 여부를 식별할 수 있다(706).
차량(100)은 현재 식별된 사운드 샘플이 이전에 식별된 사운드 샘플과는 다른 것인 경우 사운드 샘플이 변화한 것으로 식별할 수 있다. 차량(100)은 현재 식별된 사운드 샘플이 이전에 식별된 사운드 샘플과 동일한 것인 경우 사운드 샘플이 변화하지 않은 것으로 식별할 수 있다.
차량(100)은 식별된 사운드 샘플이 변화한 경우 708 동작을 수행하고 그렇지 않으면 710 동작을 수행할 수 있다.
차량(100)은 효과음의 재생 횟수를 1회로 설정할 수 있다(708).
차량(100)은 최대 반복 횟수 이내에서 효과음의 재생 횟수를 재 설정할 수 있다(710).
예를 들어 최대 반복 횟수는 3회일 수 있다.
차량(100)은 708 동작 또는 710 동작에 응답하여 효과음의 오디오 스트림을 준비할 수 있다(712).
식별된 사운드 샘플에 음악이 포함된 경우, 차량(100)은 사운드 샘플의 변화 여부를 식별할 수 있다(714).
차량(100)은 현재 식별된 사운드 샘플이 이전에 식별된 사운드 샘플과는 다른 것인 경우 사운드 샘플이 변화한 것으로 식별할 수 있다. 차량(100)은 현재 식별된 사운드 샘플이 이전에 식별된 사운드 샘플과 동일한 것인 경우 사운드 샘플이 변화하지 않은 것으로 식별할 수 있다.
차량(100)은 식별된 사운드 샘플이 변화한 경우 716 동작을 수행하고 그렇지 않으면 722 동작을 수행할 수 있다.
식별된 사운드 샘플이 변화한 경우, 차량(100)은 식별된 사운드 샘플에 포함된 음악의 재생 시간을 미리 설정된 제1 시간으로 설정할 수 있다(716).
제1 시간은, 초기의 기본 재생 시간이라고 할 수 있으며, 예를 들어 제1 시간은 30초일 수 있다.
차량(100)은 이전의 사운드 샘플에 포함된 이전의 음악에 페이드 아웃 필터를 추가하고, 현재의 사운드 샘플에 포함된 음악에 페이드 인 필터를 추가할 수 있다(718).
식별된 사운드 샘플이 변화하지 않은 경우, 차량(100)은 이전의 음악을 미리 정해진 최대 재생 시간으로 설정할 수 있다(720).
예를 들어, 최대 재생 시간은 3분일 수 있다.
차량(100)은 718 동작 또는 722 동작에 응답하여, 음악의 오디오 스트림을 준비할 수 있다(722).
차량(100)은 사운드 샘플이 효과음 및 음악을 모두 포함하는 경우, 효과음 및 음악을 믹싱할 수 있다(724).
차량(100)은 사운드 샘플이 효과음 또는 음악만을 포함하는 경우 724 동작은 생략할 수 있다.
차량(100)은 오디오 스트림을 출력할 수 있다(726).
차량(100)은 712 동작에 따른 오디오 스트림, 722 동작에 따른 오디오 스트림 또는 724 동작에 따른 오디오 스트림을 출력할 수 있다.
상술한 도 7의 실시예에서는 706 동작에서 사운드 샘플이 변화한 경우, 효과음의 재생 횟수를 1회로 설정하는 것으로 설명하였으나, 다른 실시예에 따르면, 차량(100)의 주행 시작에 따라, 사운드 샘플이 최초로 식별된 경우에도 효과음의 재생 홧수를 1회로 설정할 수 있다.
또한, 상술한 도 7의 실시예에서는 714 동작에서 사운드 샘플이 변화한 경우, 음악의 재생 시간을 미리 설정된 제1 시간으로 설정하는 것으로 설명하였으나, 다른 실시예에 따르면, 차량(100)의 주행 시작에 따라, 사운드 샘플이 최초로 식별된 경우에도 음악의 재생 시간을 미리 설정된 제1 시간으로 설정할 수 있다.
상술한 도 7의 실시예에 따르면, 차량(100)은 획득된 이미지에 기초하여 식별된 사운드 샘플이 효과음을 포함하는지 음악을 포함하는지에 따라, 해당 오디오 스트림을 재생하기 위한 변수를 상이하게 설정할 수 있다.
사운드 샘플이, 효과음을 포함하고, 현재의 식별된 사운드 샘플 이전에 식별된 사운드 샘플이 없는 경우(초기 재생인 경우), 차량(100)은 재생 시간을 미리 설정된 제1 시간, 초기의 기본 재생 시간으로 설정하여 사운드인 효과음이 출력되도록 할 수 있다. 이후, 다음의 이미지가 획득되나, 식별된 사운드 샘플이 이전과 동일한 경우, 차량(100)은 미리 정해진 최대 반복 횟수까지만, 사운드 샘플의 사운드를 반복 재생하여, 반복에 따른 지겨운 느낌이 들지 않게 할 수 있다.
식별된 사운드 샘플이 음악을 포함하고, 현재의 식별된 사운드 샘플 이전에 식별된 사운드 샘플이 없는 경우, 차량(100)은 재생 시간을 미리 설정된 제1 시간, 초기의 기본 재생 시간으로 사운드인 음악이 출력되도록 할 수 있다. 이후, 다음의 이미지가 획득되나, 식별된 사운드 샘플이 이전과 동일한 경우, 차량(100)은 처음부터 다시 음악을 재생하지 않고 현재 음악을 연장하여 미리 설정된 최대 재생 시간까지 재생하도록 함으로써 음악이 짧게 끊어지는 느낌을 줄일 수 있다.
만약, 음악을 포함하는 사운드 샘플이 식별된 이후, 다른 음악을 포함하는 사운드 샘플이 식별되는 경우, 차량(100)은 먼저 식별된 사운드 샘플에 페이드아웃 필터를 추가하고, 이후 식별된 사운드 샘플에 페이드 인 필터를 추가하여, 두 개의 다른 음악들이 서로 자연스러운 느낌으로 연결되게 할 수 있다. 사운드 샘플이 효과음 및 음악을 모두 포함하는 경우, 차량(100)은 효과음을 재생하기 위한 변수 및 음악을 재생하기 위한 변수를 각각 설정한 이후, 효과음과 음악을 믹싱하여 오디오 스트림이 출력되도록 할 수 있다.
상술한 도 7의 실시예의 동작들은 미리 정해진 이미지를 획득하는 시간의 시간 주기에 맞춰 반복적으로 수행될 수 있다.
상술한 실시예들에 따르면, 차량(100)은, 차량(100)의 주변 영상을 기초로 한 사운드 스케이프를 제공할 수 있다. 차량(100)은, 차량(100)은, 차량(100)의 주변의 환경을 인식하기 위해 카메라(102)를 통해 이미지를 획득할 수 있다. 차량(100)은 획득한 이미지를 제1 CNN에 입력하여 이미지에 대한 특성을 추출하고, 이를 사운드 샘플의 특성과 비교하여, 이미지에 적합한 사운드 샘플을 선택하는 딥러닝 기반의 이미지-사운드 추출 동작을 수행할 수 있다. 또한, 차량(100)은 선택한 사운드 샘플을 차량(100)의 주행 환경에 맞추어 적절한 변수를 설정하여 재생하는 동작을 수행할 수 있다.
도 8은 일 실시예에 따른 차량(100)의 주행 환경에 따른 이미지별 사운드스케이프 구현을 설명하기 위한 도면이다.
도 8을 참조하면, 차량(100)은 주행 중 도 8의 (a)와 같은 고속 도로 이미지, 도 8의 (b)와 같은 공원 이미지, 도 8의 (c)와 같은 호수 이미지 및/또는 도 8의 (d)와 같은 들판 이미지를 획득할 수 있으며, 상술한 실시예들에 따라, 획득한 이미지에 대응하는 사운드, 예를 들어, 효과음 및/또는 음악을 출력할 수 있다.
한편, 개시된 실시 예들은 컴퓨터에 의해 실행 가능한 명령어를 저장하는 기록매체의 형태로 구현될 수 있다. 명령어는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 프로그램 모듈을 생성하여 개시된 실시 예들의 동작을 수행할 수 있다. 기록매체는 컴퓨터로 읽을 수 있는 기록매체로 구현될 수 있다.
컴퓨터가 읽을 수 있는 기록매체로는 컴퓨터에 의하여 해독될 수 있는 명령어가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있을 수 있다.
이상에서와 같이 첨부된 도면을 참조하여 개시된 실시 예들을 설명하였다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고도, 개시된 실시 예들과 다른 형태로 본 발명이 실시될 수 있음을 이해할 것이다. 개시된 실시 예들은 예시적인 것이며, 한정적으로 해석되어서는 안 된다.
1: 시스템 100: 차량
102: 카메라 104: 스피커
106: 통신부 108: 저장부
110: 제어부 112: 제1 CNN 학습 모델 분석부
114: 제2 CNN 학습 모델 분석부 116: 머신러닝 기반 특성 비교부
118: 사운드 샘플 재생 변수 설정부 1000: 서버

Claims (18)

  1. 카메라;
    스피커; 및
    상기 카메라 및 상기 스피커와 연결되는 제어부를 포함하며,
    상기 제어부는,
    상기 카메라를 통해 차량의 제1 외부 이미지를 획득하며,
    상기 제1 외부 이미지를 미리 학습된 제1 신경망에 입력하여, 상기 제1 외부 이미지에 대응하는 제1 특성을 추출하며,
    복수의 사운드 샘플들 각각에 대응하는 미리 저장된 특성과 상기 제1 특성의 비교를 기초로, 상기 복수의 사운드 샘플들 중 제1 사운드 샘플을 출력하도록 상기 스피커를 제어하는,
    차량.
  2. 제 1항에 있어서,
    상기 제1 신경망은,
    입력된 이미지에 대응하는 지형 정보 또는 상기 지형 정보에 대응하도록 미리 정해진 감정 정보를 식별하기 위한 특성을 추출하도록 미리 학습된,
    차량.
  3. 제 1항에 있어서,
    상기 제어부는,
    머신 러닝 모델을 통해, 상기 복수의 사운드 샘플들 각각에 대응하는 상기 미리 저장된 특성 중에서 상기 제1 특성과 가장 유사한 제2 특성을 식별하며,
    상기 제2 특성의 상기 제1 사운드 샘플을 선택하는,
    차량.
  4. 제 3항에 있어서,
    상기 복수의 사운드 샘플들 각각에 대응하는 상기 미리 저장된 특성은,
    상기 복수의 사운드 샘플들 각각을 주파수 및 시간의 스펙트럼 이미지로 변환한 후, 상기 주파수 및 시간의 스펙트럼 이미지를 입력으로 하는 제2 신경망의 학습에 기초하여, 추출되어 저장된
    차량.
  5. 제 4항에 있어서,
    상기 제2 신경망은,
    입력된 스펙트럼 이미지에 대응하는 지형 정보 또는 상기 지형 정보에 대응하도록 미리 정해진 감정 정보를 식별하기 위한 특성을 추출하도록 학습하는,
    차량.
  6. 제 1항에 있어서,
    상기 제어부는,
    상기 제1 외부 이미지의 획득 후 미리 정해진 시간의 경과에 응답하여, 상기 카메라를 통해 제2 외부 이미지를 획득하며,
    상기 제2 외부 이미지를 상기 제1 신경망에 입력하여, 상기 제2 외부 이미지에 대응하는 제3 특성을 추출하며,
    상기 복수의 사운드 샘플들 각각에 대응하는 상기 미리 저장된 특성과 상기 제3 특성의 비교를 기초로, 상기 복수의 사운드 샘플들 중 상기 제1 사운드 샘플 또는 상기 제1 사운드 샘플과는 다른 제2 사운드 샘플을 선택하는 것을 더 포함하는,
    차량.
  7. 제 6항에 있어서,
    상기 제어부는,
    상기 복수의 사운드 샘플들 중 상기 제1 사운드 샘플이 선택되고, 상기 제1 사운드 샘플이 제1 효과음을 포함하는 경우, 상기 제1 효과음의 재생 반복 횟수가 미리 정해진 최대 반복 횟수 이내가 되도록 설정하고,
    상기 복수의 사운드 샘플 중 상기 제2 사운드 샘플이 선택되고, 상기 제2 사운드 샘플이 제2 효과음을 포함하는 경우, 상기 제2 효과음의 재생 반복 횟수가 미리 정해진 최소 반복 횟수가 되도록 설정하는,
    차량.
  8. 제 7항에 있어서,
    상기 제어부는,
    상기 복수의 사운드 샘플들 중 상기 제1 사운드 샘플이 선택되고, 상기 제1 사운드 샘플이 제1 음악을 포함하는 경우, 상기 제1 음악의 재생 시간을 미리 정해진 최대 재생 시간으로 설정하고,
    상기 복수의 사운드 샘플들 중 상기 제2 사운드 샘플이 선택되고, 상기 제2 사운드 샘플이 제2 음악을 포함하는 경우, 상기 제2 음악의 재생 시간을 미리 정해진 기본 재생 시간으로 설정하는,
    차량.
  9. 제 8항에 있어서,
    상기 제어부는,
    상기 복수의 사운드 샘플들 중 상기 제2 사운드 샘플이 선택되고, 상기 제2 사운드 샘플이 제2 음악을 포함하는 경우, 상기 제1 음악의 데이터에 페이드 아웃을 위한 필터를 적용하고, 상기 제2 음악의 데이터에 페이드 인을 위한 필터를 적용하는,
    차량.
  10. 카메라를 통해 차량의 제1 외부 이미지를 획득하며,
    상기 제1 외부 이미지를 미리 학습된 제1 신경망에 입력하여, 상기 제1 외부 이미지에 대응하는 제1 특성을 추출하며,
    복수의 사운드 샘플들 각각에 대응하는 미리 저장된 특성과 상기 제1 특성의 비교를 기초로, 상기 복수의 사운드 샘플들 중 제1 사운드 샘플을 출력하는 것을 포함하는,
    차량의 제어 방법.
  11. 제 10항에 있어서,
    상기 제1 신경망은,
    입력된 이미지에 대응하는 지형 정보 또는 상기 지형 정보에 대응하도록 미리 정해진 감정 정보를 식별하기 위한 특성을 추출하도록 미리 학습된,
    차량의 제어 방법.
  12. 제 10항에 있어서,
    상기 제어 방법은,
    머신 러닝 모델을 통해, 상기 복수의 사운드 샘플들 각각에 대응하는 상기 미리 저장된 특성 중에서 상기 제1 특성과 가장 유사한 제2 특성을 식별하며,
    상기 제2 특성의 상기 제1 사운드 샘플을 선택하는 것을 더 포함하는,
    차량의 제어 방법.
  13. 제 12항에 있어서,
    상기 복수의 사운드 샘플들 각각에 대응하는 상기 미리 저장된 특성은,
    상기 복수의 사운드 샘플들 각각을 주파수 및 시간의 스펙트럼 이미지로 변환한 후, 상기 주파수 및 시간의 스펙트럼 이미지를 입력으로 하는 제2 신경망의 학습에 기초하여, 추출되어 저장된
    차량의 제어 방법.
  14. 제 13항에 있어서,
    상기 제2 신경망은,
    입력된 스펙트럼 이미지에 대응하는 지형 정보 또는 상기 지형 정보에 대응하도록 미리 정해진 감정 정보를 식별하기 위한 특성을 추출하도록 학습하는,
    차량의 제어 방법.
  15. 제 10항에 있어서,
    상기 제어 방법은,
    상기 제1 외부 이미지의 획득 후 미리 정해진 시간의 경과에 응답하여, 상기 카메라를 통해 제2 외부 이미지를 획득하며,
    상기 제2 외부 이미지를 상기 제1 신경망에 입력하여, 상기 제2 외부 이미지에 대응하는 제3 특성을 추출하며,
    상기 복수의 사운드 샘플들 각각에 대응하는 상기 미리 저장된 특성과 상기 제3 특성의 비교를 기초로, 상기 복수의 사운드 샘플들 중 상기 제1 사운드 샘플 또는 상기 제1 사운드 샘플과는 다른 제2 사운드 샘플을 선택하는 것을 더 포함하는,
    차량의 제어 방법.
  16. 제 15항에 있어서,
    상기 제어 방법은,
    상기 복수의 사운드 샘플들 중 상기 제1 사운드 샘플이 선택되고, 상기 제1 사운드 샘플이 제1 효과음을 포함하는 경우, 상기 제1 효과음의 재생 반복 횟수가 미리 정해진 최대 반복 횟수 이내가 되도록 설정하고,
    상기 복수의 사운드 샘플 중 상기 제2 사운드 샘플이 선택되고, 상기 제2 사운드 샘플이 제2 효과음을 포함하는 경우, 상기 제2 효과음의 재생 반복 횟수가 미리 정해진 최소 반복 횟수가 되도록 설정하는 것을 더 포함하는,
    차량의 제어 방법.
  17. 제 16항에 있어서,
    상기 제어 방법은,
    상기 복수의 사운드 샘플들 중 상기 제1 사운드 샘플이 선택되고, 상기 제1 사운드 샘플이 제1 음악을 포함하는 경우, 상기 제1 음악의 재생 시간을 미리 정해진 최대 재생 시간으로 설정하고,
    상기 복수의 사운드 샘플들 중 상기 제2 사운드 샘플이 선택되고, 상기 제2 사운드 샘플이 제2 음악을 포함하는 경우, 상기 제2 음악의 재생 시간을 미리 정해진 기본 재생 시간으로 설정하는 것을 더 포함하는,
    차량의 제어 방법.
  18. 제 17항에 있어서,
    상기 제어 방법은,
    상기 복수의 사운드 샘플들 중 상기 제2 사운드 샘플이 선택되고, 상기 제2 사운드 샘플이 제2 음악을 포함하는 경우, 상기 제1 음악의 데이터에 페이드 아웃을 위한 필터를 적용하고, 상기 제2 음악의 데이터에 페이드 인을 위한 필터를 적용하는 것을 더 포함하는,
    차량의 제어 방법.
KR1020210027322A 2021-03-02 2021-03-02 차량 및 그 제어 방법 KR20220123862A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020210027322A KR20220123862A (ko) 2021-03-02 2021-03-02 차량 및 그 제어 방법
US17/576,386 US11720321B2 (en) 2021-03-02 2022-01-14 Vehicle and control method thereof
CN202210116362.1A CN115079989A (zh) 2021-03-02 2022-02-07 车辆及其控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210027322A KR20220123862A (ko) 2021-03-02 2021-03-02 차량 및 그 제어 방법

Publications (1)

Publication Number Publication Date
KR20220123862A true KR20220123862A (ko) 2022-09-13

Family

ID=83117080

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210027322A KR20220123862A (ko) 2021-03-02 2021-03-02 차량 및 그 제어 방법

Country Status (3)

Country Link
US (1) US11720321B2 (ko)
KR (1) KR20220123862A (ko)
CN (1) CN115079989A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11928388B2 (en) 2021-10-27 2024-03-12 Hyundai Motor Company Vehicle sound service system and method thereof

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115891871B (zh) * 2022-11-16 2024-05-17 阿维塔科技(重庆)有限公司 车辆座舱的控制方法、装置及计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101216B (zh) * 2018-09-04 2020-09-22 Oppo广东移动通信有限公司 音效调整方法、装置、电子设备以及存储介质
WO2021010524A1 (ko) * 2019-07-17 2021-01-21 엘지전자 주식회사 차량용 전자 장치 및 차량용 전자 장치의 동작 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11928388B2 (en) 2021-10-27 2024-03-12 Hyundai Motor Company Vehicle sound service system and method thereof

Also Published As

Publication number Publication date
US20220283773A1 (en) 2022-09-08
US11720321B2 (en) 2023-08-08
CN115079989A (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
US20200186912A1 (en) Audio headset device
US11720321B2 (en) Vehicle and control method thereof
KR102523135B1 (ko) 전자 장치 및 전자 장치에 의한 자막 표현 방법
KR20170086596A (ko) 유저 발성 인식으로부터의 머리 전달 함수 데이터의 결정
CN104618446A (zh) 一种实现多媒体推送的方法和装置
WO2018038235A1 (ja) 聴覚トレーニング装置、聴覚トレーニング方法、およびプログラム
KR102212638B1 (ko) 음악 추천 시스템 및 방법
US7634410B2 (en) Method of audio-intonation calibration
JP2008203338A (ja) 楽音発生装置及び楽音発生方法
JP7453712B2 (ja) オーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器
CN112937432A (zh) 车辆发声装置的控制方法、装置、设备及存储介质
CN113439447A (zh) 使用深度学习图像分析的房间声学仿真
CN111105776A (zh) 有声播放装置及其播放方法
Wissmann et al. Sound in media: audio drama and audio-guided tours as stimuli for the creation of place
Sexton et al. Automatic CNN-based enhancement of 360° video experience with multisensorial effects
CN113409798A (zh) 车内含噪语音数据生成方法、装置以及设备
US11141669B2 (en) Speech synthesizing dolls for mimicking voices of parents and guardians of children
CN116797725A (zh) 一种车载场景生成方法、装置和系统
US20220269474A1 (en) Vehicle and control method thereof
KR101452451B1 (ko) 모바일 장치를 이용한 오디오 및 조명 감성 제어 시스템 및 방법
KR20220154499A (ko) 모빌리티의 사운드 생성 장치, 그를 포함한 시스템 및 그 방법
JPH04295894A (ja) 神経回路網モデルによる音声認識方法
DE102021110268A1 (de) Verfahren und System zur szenensynchronen Auswahl und Wiedergabe von Audiosequenzen für ein Kraftfahrzeug
US20240078731A1 (en) Avatar representation and audio generation
US20240078732A1 (en) Avatar facial expressions based on semantical context