KR20230060299A

KR20230060299A - 차량 사운드 서비스 시스템 및 방법

Info

Publication number: KR20230060299A
Application number: KR1020210144885A
Authority: KR
Inventors: 장경진
Original assignee: 현대자동차주식회사; 기아 주식회사
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2023-05-04
Also published as: CN116052715A; US11928388B2; US20230129087A1

Abstract

본 발명은 차량 사운드 서비스 시스템 및 방법에 관한 것으로, 카메라가 탑재된 이동 단말과 데이터를 송수신하는 통신부 및 상기 통신부와 전기적으로 연결되는 처리부를 포함하는 서비스 서버를 포함하고, 상기 처리부는, 상기 이동 단말이 상기 카메라를 이용하여 차량의 주변을 영상으로 촬영하여 전송하면 상기 통신부를 이용하여 상기 영상을 수신하고, 수신된 영상을 분석하여 주행 장소를 추정하고, 추정된 주행 장소에 적합한 사운드를 선정하여 상기 이동 단말에 전송한다.

Description

차량 사운드 서비스 시스템 및 방법{SYSTEM AND METHOD FOR SERVICING VEHICLE SOUND}

본 발명은 차량 사운드 서비스 시스템 및 방법에 관한 것이다.

차량에 주행 중 배경음을 제공하는 기술이 적용되고 있다. 그러나, 기존 차량은 미리 설정된 사운드를 사용자에게 재생하여 출력하는 것으로, 주행 중인 차량의 주변 환경에 맞추어 적절한 사운드를 제공할 수 없다. 차량이 주행하는 주변의 환경과 어우러지지 않는 사운드 제공으로 인해 차량 내 탑승자에게 불편감을 제공할 수 있다.

본 발명은 이동 단말의 카메라를 이용하여 차량의 주변 환경을 촬영하고 촬영된 영상을 분석하여 주행 장소에 적합한 사운드를 차량에 제공하는 차량 사운드 서비스 시스템 및 방법을 제공하고자 한다.

본 발명의 실시 예들에 따른 차량 사운드 서비스 시스템은 카메라가 탑재된 이동 단말과 데이터를 송수신하는 통신부 및 상기 통신부와 전기적으로 연결되는 처리부를 포함하는 서비스 서버를 포함하고, 상기 처리부는, 상기 이동 단말이 상기 카메라를 이용하여 차량의 주변을 영상으로 촬영하여 전송하면 상기 통신부를 이용하여 상기 영상을 수신하고, 수신된 영상을 분석하여 주행 장소를 추정하고, 추정된 주행 장소에 적합한 사운드를 선정하여 상기 이동 단말에 전송하는 것을 특징으로 한다.

상기 처리부는, 영상 기반 합성신경망을 이용하여 상기 수신된 영상에서 영상 특징을 추출하는 것을 특징으로 한다.

상기 처리부는, 사전에 장소별 영상 샘플들을 이용하여 상기 영상 기반 합성신경망에 장소별 영상 특징을 학습시키는 것을 특징으로 한다.

상기 처리부는, KNN 알고리즘 또는 KL-Divergence 알고리즘을 이용하여 상기 추출된 영상 특징과 데이터베이스에 저장된 효과음의 특징 간의 확률분포를 비교하여 상기 추출된 영상 특징에 가장 유사한 특징을 가지는 효과음을 선정하는 것을 특징으로 한다.

상기 처리부는, 사전에 오디오 기반 합성신경망에 의한 장소별 효과음 특징을 상기 데이터베이스에 저장하는 것을 특징으로 한다.

상기 처리부는, KNN 알고리즘 또는 KL-Divergence 알고리즘을 이용하여 상기 추출된 영상 특징과 상기 데이터베이스에 저장된 배경음악의 특징 간의 확률분포를 비교하여 상기 추출된 영상 특징에 가장 유사한 특징을 가지는 배경음악을 선정하는 것을 특징으로 한다.

상기 처리부는, 사전에 청음 평가에 의한 장소별 배경음악의 특징을 상기 데이터베이스에 저장하는 것을 특징으로 한다.

상기 처리부는, 상기 처리부가 재생 파라미터를 기반으로 선정된 사운드를 조정하고, 조정된 사운드를 상기 이동 단말에 전송하는 것을 특징으로 한다.

상기 재생 파라미터는, 재생 구간, 재생 시간 또는 주기 중 적어도 하나를 포함하는 것을 특징으로 한다.

상기 이동 단말은, 상기 조정된 사운드를 상기 차량 단말에 전송하여 상기 차량 단말이 상기 조정된 사운드를 재생하여 외부로 출력하게 하는 것을 특징으로 한다.

본 발명의 실시 예들에 따른 차량 사운드 서비스 방법은 이동 단말이 자신에 탑재된 카메라를 이용하여 차량의 주변을 영상으로 촬영하여 전송하는 단계, 서비스 서버의 처리부가 통신부를 이용하여 상기 영상을 수신하는 단계, 상기 처리부가 수신된 영상을 분석하여 주행 장소를 추정하는 단계, 상기 처리부가 추정된 주행 장소에 적합한 사운드를 선정하는 단계, 및 상기 처리부가 선정된 사운드를 상기 이동 단말에 전송하는 단계를 포함하는 것을 특징으로 한다.

상기 주행 장소를 추정하는 단계는, 상기 처리부가 영상 기반 합성신경망 알고리즘을 이용하여 상기 수신된 영상에서 영상 특징을 추출하는 단계를 포함하는 것을 특징으로 한다.

상기 차량 사운드 서비스 방법은, 상기 처리부가 사전에 장소별 영상 샘플들을 이용하여 상기 영상 기반 합성신경망에 장소별 영상 특징을 학습시키는 단계를 더 포함하는 것을 특징으로 한다.

상기 사운드를 선정하는 단계는, 상기 처리부가 KNN 알고리즘 또는 KL-Divergence 알고리즘을 이용하여 상기 추출된 영상 특징과 데이터베이스에 저장된 효과음의 특징 간의 확률분포를 비교하여 상기 추출된 영상 특징에 가장 유사한 특징을 가지는 효과음을 선정하는 단계를 포함하는 것을 특징으로 한다.

상기 차량 사운드 서비스 방법은, 상기 처리부가 사전에 오디오 기반 합성신경망에 의한 장소별 효과음 특징을 상기 데이터베이스에 저장하는 단계를 더 포함하는 것을 특징으로 한다.

상기 사운드를 선정하는 단계는, 상기 처리부가 KNN 알고리즘 또는 KL-Divergence 알고리즘을 이용하여 상기 추출된 영상 특징과 상기 데이터베이스에 저장된 배경음악의 특징 간의 확률분포를 비교하여 상기 추출된 영상 특징에 가장 유사한 특징을 가지는 배경음악을 선정하는 단계를 더 포함하는 것을 특징으로 한다.

상기 차량 사운드 서비스 방법은, 상기 처리부가 사전에 청음 평가에 의한 장소별 배경음악의 특징을 상기 데이터베이스에 저장하는 단계를 더 포함하는 것을 특징으로 한다.

상기 선정된 사운드를 상기 이동 단말에 전송하는 단계는, 상기 처리부가 재생 파라미터를 기반으로 선정된 사운드를 조정하는 단계, 및 상기 처리부가 조정된 사운드를 상기 이동 단말에 전송하는 단계를 더 포함하는 것을 특징으로 한다.

상기 차량 사운드 서비스 방법은, 상기 이동 단말이 상기 조정된 사운드를 수신하여 상기 차량 단말에 전송하는 단계, 및 상기 차량 단말이 상기 조정된 사운드를 재생하여 외부로 출력하는 단계를 더 포함하는 것을 특징으로 한다.

본 발명에 따르면, 차량 주행 중 이동 단말의 카메라를 이용하여 차량의 주변 환경을 촬영하고 촬영된 영상을 분석하여 주변 환경에 적합한 사운드를 차량에 제공하므로, 차량 탑승자에게 즐거운 청각 경험을 서비스할 수 있다.

도 1은 본 발명의 제1 실시 예에 따른 차량 사운드 서비스 시스템을 도시한 블록구성도이다.
도 2는 본 발명의 제1 실시 예에 따른 차량 사운드 서비스 방법을 도시한 흐름도이다.
도 3은 본 발명의 제2 실시 예에 따른 차량 사운드 서비스 시스템을 도시한 블록구성도이다.
도 4는 본 발명의 제2 실시 예에 따른 차량 사운드 서비스 방법을 도시한 흐름도이다.
도 5는 본 발명의 제3 실시 예에 따른 차량 사운드 서비스 시스템을 도시한 블록구성도이다.
도 6은 본 발명의 제3 실시 예에 따른 차량 사운드 서비스 방법을 도시한 흐름도이다.

이하, 본 발명의 일부 실시 예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시 예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시 예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.

본 발명의 실시 예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

도 1은 본 발명의 제1 실시 예에 따른 차량 사운드 서비스 시스템을 도시한 블록구성도이다.

도 1을 참조하면, 차량 사운드 서비스 시스템은 이동 단말(100), 차량 단말(200) 및 서비스 서버(300)를 포함할 수 있다.

이동 단말(100)은 차량 탑승자가 휴대할 수 있으며 데이터 통신이 가능한 전자 장치로, 스마트폰, 태블릿, 및/또는 노트북 등일 수 있다. 이동 단말(100)은 제1 통신부(110), 제1 저장부(120), 카메라(130), 사용자 인터페이스(140) 및 제1 처리부(150) 등을 포함할 수 있다.

제1 통신부(110)는 이동 단말(100)과 외부 전자 장치(예: 차량 단말(200) 및/또는 서비스 서버(300) 등) 간의 유선 통신 및/또는 무선 통신을 지원할 수 있다. 제1 통신부(110)는 AUX(auxiliary), LAN(Local Area Network), WAN(Wide Area Network), 이더넷(Ethernet) 및/또는 ISDN(Integrated Services Digital Network) 등과 같은 유선 통신 기술, WLAN(Wireless LAN)(Wi-Fi), Wibro(Wireless broadband) 및/또는 Wimax(World Interoperability for Microwave Access) 등과 같은 무선 통신 기술, 블루투스(Bluetooth), NFC(Near Field Communication), RFID(Radio Frequency Identification), 적외선 통신(IrDA, infrared Data Association), UWB(Ultra Wideband) 및/또는 지그비(ZigBee) 등과 같은 근거리 통신 기술 또는 LTE(Long Term Evolution), LTE-Advanced 및/또는 IMT(International Mobile Telecommunication)-2020 등과 같은 이동 통신 기술 중 적어도 하나를 이용할 수 있다. 제1 통신부(110)는 통신 프로세서, 통신 회로, 안테나, 및/또는 트랜시버(transceiver) 등을 포함할 수 있다.

제1 저장부(120)는 카메라(130)에 의해 촬영되는 영상을 저장할 수 있다. 제1 저장부(120)는 제1 통신부(110)를 통해 수신되는 데이터(예: 사운드 등)를 저장할 수 있다. 제1 저장부(120)는 제1 처리부(150)에 의해 실행되는 명령어들(instructions)을 저장하는 저장매체(non-transitory storage medium)일 수 있다. 제1 저장부(120)는 플래시 메모리(flash memory), 하드디스크(hard disk), SSD(Solid State Disk), SD 카드(Secure Digital Card), RAM(Random Access Memory), SRAM(Static Random Access Memory), ROM(Read Only Memory), PROM(Programmable Read Only Memory), EEPROM(Electrically Erasable and Programmable ROM), 및/또는 EPROM(Erasable and Programmable ROM) 등의 저장매체(기록매체) 중 적어도 하나로 구현될 수 있다.

카메라(130)는 이동 단말(100)에 탑재되어 주변의 영상을 획득(촬영)할 수 있다. 카메라(130)는 CCD(charge coupled device) 이미지 센서(image sensor), CMOS(complementary metal oxide semi-conductor) 이미지 센서, CPD(charge priming device) 이미지 센서 및/또는 CID(charge injection device) 이미지 센서 등과 같은 이미지 센서들 중 적어도 하나를 포함할 수 있다. 카메라(130)는 이미지 센서에 의해 획득된 영상에 대해 노이즈(noise) 제거, 컬러재현, 파일 압축, 화질 조절 및/또는 채도 조절 등을 수행하는 이미지 처리기를 포함할 수 있다.

사용자 인터페이스(140)는 사용자와의 상호작용을 위한 장치로, 입력 장치(예: 마이크, 키보드, 터치패드, 및/또는 스위치 등) 및 출력 장치(예: 디스플레이, 스피커, 터치 스크린 등) 등을 포함할 수 있다. 입력 장치는 사용자의 조작에 따른 데이터(또는 신호)를 발생시킬 수 있다. 출력 장치는 제1 처리부(150)의 동작에 따른 진행상황 및/또는 결과 등의 정보(예: 데이터 및/또는 신호 등)를 시각, 청각 및/또는 촉각 등의 신호 형태로 출력할 수 있다.

제1 처리부(150)는 이동 단말(100)의 전반적인 동작을 제어할 수 있다. 제1 처리부(150)는 ASIC(application specific integrated circuits), DSP(digital signal processors), DSPD(digital signal processing devices), PLD(programmable logic devices), FPGA(field programmable gate arrays), 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(microcontrollers), 또는 마이크로 프로세서(microprocessors) 중 적어도 하나를 이용하여 구현될 수 있다.

제1 처리부(150)는 차량이 주행하는 동안 카메라(130)를 이용하여 차량의 주변 환경(외부 환경)을 촬영할 수 있다. 이때, 카메라(130)가 장착된 이동 단말(100)을 차량에 거치하거나 탑승자(예: 운전자 또는 동승자)가 손에 든 상태로 주행 중 차량의 외부 환경을 촬영할 수 있다. 제1 처리부(150)는 제1 통신부(110)를 통해 카메라(130)에 의해 촬영된 영상을 서비스 서버(300)로 전송할 수 있다.

제1 처리부(150)는 제1 통신부(110)를 이용하여 서비스 서버(300)에서 전송되는 주행 장소에 적합한 사운드(맞춤 사운드)를 수신할 수 있다. 사운드는 효과음 및/또는 배경음악 등을 포함할 수 있다. 제1 처리부(150)는 재생 파라미터(예: 재생 구간, 재생 시간, 주기 등)를 토대로 수신된 사운드를 조정(처리)할 수 있다. 예를 들어, 제1 처리부(150)는 재생 파라미터에 기반하여 효과음과 배경음악을 합성하여 출력할 사운드(출력 사운드)를 생성할 수 있다. 제1 처리부(150)는 제1 통신부(110)를 통해 조정된 사운드를 차량 단말(200)로 전송할 수 있다.

차량 단말(200)은 차량에 설치될 수 있으며 데이터 통신이 가능한 전자 장치로, 내비게이션 장치, AVNT(Audio Video Navigation Telematics), 인포테인먼트(infotainment) 장치 등일 수 있다. 차량 단말(200)은 제2 통신부(210), 제2 저장부(220), 사운드 출력장치(230) 및 제2 처리부(240)를 포함할 수 있다.

제2 통신부(210)는 차량 단말(200)과 외부 전자 장치(예: 이동 단말(100) 및/또는 GNSS(global navigation satellite system) 등) 간의 유선 통신 및/또는 무선 통신을 지원할 수 있다. 또한, 제2 통신부(210)는 차량 단말(200)과 차량에 탑재된 다른 전자 장치(예: ECU(Electric Control Unit) 등) 간의 통신 수행을 지원할 수 있다. 제2 통신부(210)는 차량 통신 기술(예: CAN(Controller Area Network), MOST(Media Oriented Systems Transport) 네트워크, LIN(Local Interconnect Network) 및/또는 X-by-Wire(Flexray) 등), 유선 통신 기술(예: AUX, LAN, 이더넷 및/또는 ISDN 등) 및/또는 무선 통신 기술(예: Wi-Fi, 블루투스, NFC, RFID, IrDA, LTE, 및/또는 IMT-2000 등) 중 적어도 하나를 이용할 수 있다. 제2 통신부(210)는 통신 프로세서, 통신 회로, 안테나, 및/또는 트랜시버(transceiver) 등을 포함할 수 있다.

제2 저장부(220)는 제2 처리부(240)에 의해 실행되는 명령어들을 저장하는 저장매체일 수 있다. 제2 저장부(220)는 플래시 메모리, 하드디스크, SSD, SD 카드, RAM, SRAM, ROM, PROM, EEPROM, EPROM, eMMC(embedded multimedia card), 및/또는 UFS(universal flash storage) 등의 저장매체(기록매체) 중 적어도 하나를 포함할 수 있다.

사운드 출력장치(230)는 재생되는 사운드를 외부에 출력할 수 있다. 사운드 출력장치(230)는 앰프 및/또는 스피커 등을 포함할 수 있다. 앰프는 차량 내 탑재되어 재생되는 사운드의 전기 신호를 증폭할 수 있다. 스피커는 앰프에서 증폭된 전기 신호를 음파로 변환할 수 있다.

제2 처리부(240)는 제2 통신부(210)를 통해 이동 단말(100)에서 전송되는 사운드(음원)를 수신할 수 있다. 제2 처리부(240)는 수신된 사운드를 제2 저장부(220)에 저장할 수 있다. 제2 처리부(240)는 사운드를 재생하여 사운드 출력장치(230)에 출력할 수 있다. 제2 처리부(240)는 차량 단말(200)의 전반적인 동작을 제어할 수 있다. 제2 처리부(240)는 ASIC, DSP, DSPD, PLD, FPGA, 프로세서, 마이크로 컨트롤러, 또는 마이크로프로세서 등의 처리 장치 중 적어도 하나를 이용하여 구현될 수 있다.

서비스 서버(300)는 이동 단말(100)의 카메라(130)에 의해 촬영된 주행 환경의 영상을 분석하여 주행 장소를 파악하고, 파악된 주행 장소에 적합한 사운드를 선정하여 제공할 수 있다. 서비스 서버(300)는 제3 통신부(310), 제3 저장부(320) 및 제3 처리부(330) 등을 포함할 수 있다.

제3 통신부(310)는 서비스 서버(300)와 외부 전자 장치(예: 이동 단말(100) 등) 간의 유선 통신 및/또는 무선 통신 수행을 지원할 수 있다. 제3 통신부(310)는 유선 통신 기술(예: LAN, 이더넷 및/또는 ISDN 등) 및/또는 무선 통신 기술(예: Wi-Fi, LTE, 및/또는 IMT-2000 등) 중 적어도 하나를 이용할 수 있다.

제3 저장부(320)는 영상 기반 합성신경망(Visual Convolutional Neural Network, Visual CNN) 알고리즘, 오디오 기반 합성신경망(Audio CNN) 알고리즘, 스코어 테이블, 음원 라이브러리, KNN(K Nearest Neighbor) 알고리즘 및/또는 KL(Kullback-Leibler)-Divergence 알고리즘 등을 포함할 수 있다. 영상 기반 합성신경망 알고리즘은 영상에서 장소별 영상 특징을 추출할 수 있고, 사전에 다양한 장소의 영상 샘플들을 이용하여 장소별 영상 특징을 학습할 수 있다. 오디오 기반 합성신경망 알고리즘은 오디오 데이터(사운드)에서 효과음 특징을 추출할 수 있으며, 사전에 장소별 효과음 샘플들을 이용하여 장소별 효과음 특징을 학습할 수 있다. 스코어 테이블에는 장소별 배경음악에 대한 스코어가 정의될 수 있다. 장소별 배경음악 스코어는 장소별 다양한 배경음악 샘플을 이용하여 다수를 대상으로 각 배경음악에 대한 청음 평가를 수행하고, 그 청음 평가 결과값(스코어)의 평균으로 결정될 수 있다. 제3 저장부(320)는 오디오 기반 합성신경망에 의한 장소별 효과음 특징이 저장된 데이터베이스 및 청음평가 스코어 테이블에 의한 장소별 배경음악 특징이 저장된 데이터베이스를 포함할 수 있다. 음원 라이브러리는 다양한 종류의 효과음 및 배경음악의 음원을 저장할 수 있다.

제3 저장부(320)는 제3 처리부(330)에 의해 실행되는 명령어들을 저장하는 저장매체일 수 있다. 제3 저장부(320)는 플래시 메모리, 하드디스크, SSD, SD 카드, RAM, SRAM, ROM, PROM, EEPROM, EPROM, eMMC(embedded multimedia card), 및/또는 UFS(universal flash storage) 등의 저장매체(기록매체) 중 적어도 하나를 포함할 수 있다.

제3 처리부(330)는 서비스 서버(300)의 전반적인 동작을 제어할 수 있다. 제3 처리부(330)는 ASIC, DSP, DSPD, PLD, FPGA, 프로세서, 마이크로 컨트롤러, 또는 마이크로프로세서 중 적어도 하나를 이용하여 구현될 수 있다.

제3 처리부(330)는 제3 통신부(310)를 통해 이동 단말(100)에서 전송되는 영상을 수신할 수 있다. 제3 처리부(330)는 영상 기반 합성신경망을 이용하여 영상으로부터 특징을 추출할 수 있다. 제3 처리부(330)는 추출된 영상 특징(주행 장소의 특징)을 기반으로 주행 장소를 추정할 수 있다.

제3 처리부(330)는 추정된 주행 장소에 매칭되는 사운드 즉, 효과음 및/또는 배경음악을 선정할 수 있다. 제3 처리부(330)는 추출된 영상 특징과 데이터베이스에 저장된 사운드 특징을 비교하여 추출된 영상 특징에 가장 유사한 사운드를 선정할 수 있다. 제3 처리부(330)는 KNN 또는 KL-Divergence 알고리즘 등을 이용하여 추출된 영상 특징과 효과음 특징 간의 확률분포를 비교하고 그 비교결과에 근거하여 현재 영상 특징에 가장 유사한 특징을 가지는 효과음을 선정할 수 있다. 또한, 제3 처리부(330)는 KNN 또는 KL-Divergence 알고리즘 등을 이용하여 추출된 영상 특징과 배경음악 특징 간의 확률분포를 비교하고 그 비교결과에 기반하여 현재 영상 특징에 가장 유사한 특징을 가지는 배경음악을 선정할 수 있다. KL-divergence 알고리즘은 양 데이터의 확률분포 차이를 계산하여 그 차이가 가장 작은 데이터들이 서로 유사하다고 판단하므로, 데이터의 크로스 엔트로피(cross entropy)를 최소화함으로써 가장 유사한 데이터를 산출할 수 있다.

제3 처리부(330)는 제3 통신부(310)를 이용하여 이동 단말(100)에 선정된 사운드를 전송할 수 있다. 제3 처리부(330)는 추정된 주행 장소에 적합한(어울리는) 사운드로 선정된 효과음 및 배경음악을 음원 라이브러리에서 추출하여 이동 단말(100)에 전송할 수 있다. 이때, 제3 처리부(330)는 재생 파라미터(예: 재생 구간, 재생 시간 및 주기 등)에 기반하여 선정된 효과음과 배경음악을 합성하여 출력할 사운드를 구성하고, 구성된 사운드를 이동 단말(100)에 전송할 수도 있다.

도 2는 본 발명의 제1 실시 예에 따른 차량 사운드 서비스 방법을 도시한 흐름도이다.

도 2를 참조하면, 이동 단말(100)은 카메라(130)를 이용하여 주행 중인 차량의 주변 환경을 영상으로 촬영할 수 있다(S100). 카메라(130)가 탑재된 이동 단말(100)은 차량에 거치된 상태이거나 탑승자가 손에 든 상태일 수 있다.

이동 단말(100)은 제1 통신부(110)를 통해 촬영된 영상을 서비스 서버(300)에 전송할 수 있다(S110).

서비스 서버(300)는 제3 통신부(310)를 통해 이동 단말(100)에서 전송하는 영상을 수신할 수 있다(S120). 서비스 서버(300)는 수신된 영상을 제3 저장부(320)에 저장할 수도 있다.

서비스 서버(300)는 수신된 영상을 분석하여 주행 장소를 추정할 수 있다(S130). 서비스 서버(300)는 영상 기반 합성신경망 알고리즘을 이용하여 영상에서 특징을 추출할 수 있다. 서비스 서버(300)는 추출된 영상 특징을 토대로 주행 장소를 추정할 수 있다.

서비스 서버(300)는 주행 장소 추정 결과를 기반으로 사운드를 선정할 수 있다(S140). 서비스 서버(300)는 추출된 영상 특징과 데이터베이스에 저장된 사운드 특징을 비교하여 추출된 영상 특징에 가장 유사한 사운드를 선정할 수 있다. 서비스 서버(300)는 KNN 또는 KL-Divergence 알고리즘 등을 이용하여 추출된 영상 특징과 효과음 특징 간의 확률분포를 비교하여 현재 영상 특징에 가장 유사한 특징을 가지는 효과음을 선정할 수 있다. 또한, 제3 처리부(330)는 KNN 또는 KL-Divergence 알고리즘 등을 이용하여 추출된 영상 특징과 배경음악 특징 간의 확률분포를 비교하여 현재 영상 특징에 가장 유사한 특징을 가지는 배경음악을 선정할 수 있다.

서비스 서버(300)는 선정된 사운드를 이동 단말(100)에 전송할 수 있다(S150). 서비스 서버(300)는 추정된 주행 장소에 적합한 사운드로 선정된 효과음 및 배경음악을 음원 라이브러리에서 추출하여 이동 단말(100)에 전송할 수 있다.

이동 단말(100)은 재생 파라미터를 토대로 사운드를 조정할 수 있다(S160). 이동 단말(100)은 재생 파라미터(예: 재생 구간, 재생 시간 및 주기 등)에 기반하여 선정된 효과음과 배경음악을 합성하여 사운드(사운드 스트림 데이터)를 생성할 수 있다.

이동 단말(100)은 조정된 사운드를 차량 단말(200)에 전송할 수 있다(S170). 이동 단말(100)은 선정된 효과음과 배경음악으로 구성된 사운드를 차량 단말(200)에 전송할 수 있다.

차량 단말(200)은 이동 단말(100)에서 제공받은 사운드를 재생하여 출력할 수 있다(S180). 차량 단말(200)은 제2 통신부(210)를 통해 이동 단말(100)에서 전송되는 사운드를 수신할 수 있다. 차량 단말(200)은 수신된 사운드를 재생하여 사운드 출력장치(230)로 출력할 수 있다.

상기한 실시 예에서는 이동 단말(100)이 재생 파라미터에 기반하여 선정된 효과음과 배경음악으로 출력할 사운드를 구성하는 것을 예로 들어 설명하고 있으나, 이에 한정되지 않고 서비스 서버(300)가 재생 파라미터에 기반하여 선정된 효과음과 배경음악으로 출력할 사운드를 구성하도록 구현할 수도 있다.

도 3은 본 발명의 제2 실시 예에 따른 차량 사운드 서비스 시스템을 도시한 블록구성도이다.

도 3을 참조하면, 차량 사운드 서비스 시스템은 이동 단말(400) 및 차량 단말(500) 등을 포함할 수 있다.

이동 단말(400)은 차량 탑승자가 휴대할 수 있으며 데이터 통신이 가능한 전자 장치로, 스마트폰, 태블릿, 및/또는 노트북 등일 수 있다. 이동 단말(400)은 차량 주행 중 이동 단말(400)에 탑재된 카메라(430)를 이용하여 주행 환경을 촬영하고, 촬영된 영상을 분석하여 주행 장소를 파악하며 파악된 주행 장소에 적합한 사운드를 선정할 수 있다. 이동 단말(400)은 제4 통신부(410), 제4 저장부(420), 카메라(430), 사용자 인터페이스(440) 및 제4 처리부(450)를 포함할 수 있다.

제4 통신부(410)는 이동 단말(400)과 외부 전자 장치(예: 차량 단말(500) 등) 간의 유선 통신 및/또는 무선 통신을 지원할 수 있다. 제4 통신부(410)는 유선 통신 기술(예: AUX, LAN, 이더넷 및/또는 ISDN 등) 및/또는 무선 통신 기술(예: Wi-Fi, 블루투스, NFC, RFID, IrDA, LTE, 및/또는 IMT-2000 등) 중 적어도 하나를 이용할 수 있다. 제4 통신부(410)는 통신 프로세서, 통신 회로, 안테나, 및/또는 트랜시버(transceiver) 등을 포함할 수 있다.

제4 저장부(420)는 카메라(430)에 의해 촬영되는 영상을 저장할 수 있다. 제4 저장부(420)는 제4 통신부(410)를 통해 수신되는 데이터(예: 사운드 등)를 저장할 수 있다. 제4 저장부(420)는 제4 처리부(450)에 의해 실행되는 명령어들을 저장하는 저장매체일 수 있다. 제4 저장부(420)는 플래시 메모리, 하드디스크, SSD, SD 카드, RAM, SRAM, ROM, PROM, EEPROM, EPROM, eMMC(embedded multimedia card), 및/또는 UFS(universal flash storage) 등의 저장매체(기록매체) 중 적어도 하나를 포함할 수 있다.

제4 저장부(420)는 영상 기반 합성신경망(Visual Convolutional Neural Network, Visual CNN) 알고리즘, 오디오 기반 합성신경망(Audio CNN) 알고리즘, 스코어 테이블, 음원 라이브러리, KNN 알고리즘 및/또는 KL-Divergence 알고리즘 등을 포함할 수 있다. 영상 기반 합성신경망 알고리즘은 영상에서 장소별 영상 특징을 추출할 수 있고, 사전에 다양한 장소의 영상 샘플들을 이용하여 장소별 영상 특징을 학습할 수 있다. 오디오 기반 합성신경망 알고리즘은 오디오 데이터(사운드)에서 효과음 특징을 추출할 수 있으며, 사전에 장소별 효과음 샘플들을 이용하여 장소별 효과음 특징을 학습할 수 있다. 스코어 테이블에는 장소별 배경음악들에 대한 스코어가 정의될 수 있다. 장소별 배경음악에 대한 스코어는 장소별 다양한 배경음악 샘플을 이용하여 다수를 대상으로 각 배경음악에 대한 청음 평가를 수행하고, 그 청음 평가 결과값(스코어)의 평균으로 결정될 수 있다. 제3 저장부(320)는 오디오 기반 합성신경망에 의한 장소별 효과음 특징이 저장된 데이터베이스 및 청음평가 스코어 테이블에 의한 장소별 배경음악 특징이 저장된 데이터베이스를 포함할 수 있다. 음원 라이브러리는 다양한 종류의 효과음 및 배경음악의 음원을 저장할 수 있다.

카메라(430)는 이동 단말(100)에 탑재되어 주변의 영상을 촬영할 수 있다. 카메라(430)는 CCD 이미지 센서, CMOS 이미지 센서, CPD 이미지 센서 및/또는 CID 이미지 센서 등과 같은 이미지 센서들 중 적어도 하나를 포함할 수 있다. 카메라(430)는 이미지 센서에 의해 획득된 영상에 대해 노이즈 제거, 컬러재현, 파일 압축, 화질 조절 및 채도 조절 등을 수행하는 이미지 처리기를 포함할 수 있다.

사용자 인터페이스(440)는 사용자와의 상호작용을 위한 장치일 수 있다. 사용자 인터페이스(440)는 입력 장치(예: 마이크, 키보드, 터치패드, 및/또는 스위치 등) 및 출력 장치(예: 디스플레이, 스피커, 터치 스크린 등) 등을 포함할 수 있다. 입력 장치는 사용자의 조작에 따른 데이터(또는 신호)를 발생시킬 수 있고, 출력 장치는 제4 처리부(450)의 동작에 따른 진행상황 및 결과 등을 시각, 청각 및/또는 촉각 등의 신호 형태로 출력할 수 있다.

제4 처리부(450)는 이동 단말(400)의 전반적인 동작을 제어할 수 있다. 제4 처리부(450)는 ASIC, DSP, DSPD, PLD, FPGA, 프로세서, 마이크로 컨트롤러, 또는 마이크로프로세서 중 적어도 하나를 이용하여 구현될 수 있다.

제4 처리부(450)는 차량이 주행하는 동안 이동 단말(400)에 탑재된 카메라(430)를 이용하여 차량의 주변 환경을 촬영할 수 있다. 제4 처리부(450)는 영상 기반 합성신경망을 이용하여 촬영된 영상으로부터 특징을 추출할 수 있다. 제4 처리부(450)는 추출된 영상 특징을 기반으로 주행 장소를 추정할 수 있다.

제4 처리부(450)는 추정된 주행 장소에 매칭되는 사운드 즉, 효과음 및/또는 배경음악을 선정할 수 있다. 제4 처리부(450)는 추출된 영상 특징과 사운드의 특징을 비교하여 추출된 영상 특징에 가장 유사한 사운드를 선정할 수 있다. 제4 처리부(450)는 KNN 또는 KL-divergence 알고리즘 등을 이용하여 추출된 영상 특징과 효과음 특징 간의 확률분포를 비교하여 현재 영상 특징에 가장 유사한 특징을 가지는 효과음을 선정할 수 있다. 또한, 제4 처리부(450)는 KNN 또는 KL-Divergence 알고리즘 등을 이용하여 추출된 영상 특징과 배경음악 특징 간의 확률분포를 비교하여 현재 영상 특징에 가장 유사한 특징을 가지는 배경음악을 선정할 수 있다.

제4 처리부(450)는 추정된 주행 장소에 적합한 사운드로 선정된 효과음 및 배경음악을 음원 라이브러리에서 추출할 수 있다. 제4 처리부(450)는 재생 파라미터(예: 재생 구간, 재생 시간 및 주기 등)에 기반하여 선정된 효과음과 배경음악을 합성하여 사운드를 생성할 수 있다. 제4 처리부(450)는 제4 통신부(410)를 이용하여 생성된 사운드를 차량 단말(500)에 전송할 수 있다.

차량 단말(500)은 차량에 설치될 수 있으며 데이터 통신이 가능한 전자 장치로, 내비게이션 장치, AVNT, 및/또는 인포테인먼트 장치 등일 수 있다. 차량 단말(500)은 제5 통신부(510), 제5 저장부(520), 사운드 출력장치(530) 및 제5 처리부(540)를 포함할 수 있다.

제5 통신부(510)는 차량 단말(500)과 외부 전자 장치(예: 이동 단말(400) 및/또는 GNSS 등) 간의 유선 통신 및/또는 무선 통신을 지원할 수 있다. 또한, 제5 통신부(510)는 차량 단말(500)과 차량에 탑재된 다른 전자 장치(예: ECU(Electric Control Unit) 등) 간의 통신 수행을 지원할 수 있다. 제5 통신부(510)는 차량 통신 기술(예: CAN, MOST 네트워크, LIN 및/또는 X-by-Wire 등), 유선 통신 기술(예: AUX, LAN, 이더넷 및/또는 ISDN 등) 및/또는 무선 통신 기술(예: Wi-Fi, 블루투스, NFC, RFID, IrDA, LTE, 및/또는 IMT-2000 등) 중 적어도 하나를 이용할 수 있다. 제5 통신부(510)는 통신 프로세서, 통신 회로, 안테나, 및/또는 트랜시버(transceiver) 등을 포함할 수 있다.

제5 저장부(520)는 이동 단말(400)에서 제공되는 사운드를 저장할 수 있다. 제5 저장부(520)는 제5 처리부(540)에 의해 실행되는 명령어들을 저장하는 저장매체일 수 있다. 제5 저장부(520)는 플래시 메모리, 하드디스크, SSD, SD 카드, RAM, SRAM, ROM, PROM, EEPROM, EPROM, eMMC(embedded multimedia card), 및/또는 UFS(universal flash storage) 등의 저장매체(기록매체) 중 적어도 하나를 포함할 수 있다.

사운드 출력장치(530)는 제5 처리부(540)의 제어 하에 사운드를 외부에 출력할 수 있다. 사운드 출력장치(530)는 앰프 및 스피커 등을 포함할 수 있다. 앰프는 차량 내 탑재되어 재생되는 사운드의 전기 신호를 증폭할 수 있다. 스피커는 앰프에서 증폭된 전기 신호를 음파로 변환할 수 있다.

제5 처리부(540)는 제5 통신부(510)를 통해 이동 단말(400)에서 전송되는 사운드를 수신할 수 있다. 제5 처리부(540)는 수신된 사운드를 제5 저장부(520)에 저장할 수 있다. 제5 처리부(540)는 사운드를 재생하여 사운드 출력장치(530)에 출력할 수 있다. 제5 처리부(540)는 차량 단말(500)의 전반적인 동작을 제어할 수 있다. 제5 처리부(540)는 ASIC, DSP, DSPD, PLD, FPGA, 프로세서, 마이크로 컨트롤러, 또는 마이크로프로세서 중 적어도 하나를 이용하여 구현될 수 있다.

도 4는 본 발명의 제2 실시 예에 따른 차량 사운드 서비스 방법을 도시한 흐름도이다.

이동 단말(400)은 카메라(430)를 이용하여 주행 중인 차량의 주변 영상을 촬영할 수 있다(S200). 카메라(430)가 탑재된 이동 단말(400)은 차량에 거치된 상태이거나 탑승자가 손에 든 상태일 수 있다.

이동 단말(400)은 촬영된 영상을 분석하여 주행 장소를 추정할 수 있다(S210). 이동 단말(400)은 영상 기반 합성신경망 알고리즘을 이용하여 영상에서 특징을 추출할 수 있다. 이동 단말(400)은 추출된 영상 특징을 토대로 주행 장소를 추정할 수 있다.

이동 단말(400)은 주행 장소 추정 결과를 기반으로 사운드를 선정할 수 있다(S220). 이동 단말(400)은 추출된 영상 특징과 사운드의 특징을 비교하여 추출된 영상 특징에 가장 유사한 사운드를 선정할 수 있다. 이동 단말(400)은 KNN 또는 KL-Divergence 알고리즘 등을 이용하여 추출된 영상 특징과 효과음 특징 간의 확률분포를 비교하여 현재 영상 특징에 가장 유사한 특징을 가지는 효과음을 선정할 수 있다. 또한, 이동 단말(400)은 KNN 또는 KL-Divergence 알고리즘 등을 이용하여 추출된 영상 특징과 배경음악 특징 간의 확률분포를 비교하여 현재 영상 특징에 가장 유사한 특징을 가지는 배경음악을 선정할 수 있다.

이동 단말(400)은 재생 파라미터를 토대로 사운드를 조정할 수 있다(S230). 이동 단말(400)은 재생 파라미터(예: 재생 구간, 재생 시간 및 주기 등)에 기반하여 선정된 효과음과 배경음악을 합성하여 사운드를 구성할 수 있다.

이동 단말(400)은 조정된 사운드를 차량 단말(500)에 전송할 수 있다(S240). 이동 단말(100)은 선정된 효과음과 배경음악으로 구성된 사운드를 차량 단말(500)에 전송할 수 있다.

차량 단말(500)은 이동 단말(400)에서 제공받은 사운드를 재생하여 출력할 수 있다(S250). 차량 단말(500)은 제5 통신부(510)를 통해 이동 단말(400)에서 전송되는 사운드를 수신할 수 있다. 차량 단말(500)은 수신된 사운드를 재생하여 사운드 출력장치(530)로 출력할 수 있다.

도 5는 본 발명의 제3 실시 예에 따른 차량 사운드 서비스 시스템을 도시한 블록구성도이다.

차량 사운드 서비스 시스템은 차량 단말(600)에 구현될 수 있다. 차량 단말(600)은 차량에 설치되며 데이터 통신이 가능한 전자 장치로, 내비게이션 장치, AVNT, 및/또는 인포테인먼트 장치 등일 수 있다. 차량 단말(600)은 제6 통신부(610), 제6 저장부(620), 카메라(630), 사운드 출력장치(640) 및 제6 처리부(650)를 포함할 수 있다.

제6 통신부(610)는 차량 단말(600)과 외부 전자 장치(예: GNSS 등) 간의 유선 통신 및/또는 무선 통신을 지원할 수 있다. 또한, 제6 통신부(610)는 차량 단말(600)과 차량에 탑재된 다른 전자 장치(예: ECU(Electric Control Unit) 등) 간의 통신 수행을 지원할 수 있다. 제6 통신부(610)는 차량 통신 기술(예: CAN, MOST 네트워크, LIN 및/또는 X-by-Wire 등), 유선 통신 기술(예: AUX, LAN, 이더넷 및/또는 ISDN 등) 및/또는 무선 통신 기술(예: Wi-Fi, 블루투스, NFC, RFID, IrDA, LTE, 및/또는 IMT-2000 등) 중 적어도 하나를 이용할 수 있다. 제6 통신부(610)는 통신 프로세서, 통신 회로, 안테나, 및/또는 트랜시버(transceiver) 등을 포함할 수 있다.

제6 저장부(620)는 카메라(630)에 의해 촬영되는 영상을 저장할 수 있다. 제6 저장부(620)는 영상 기반 합성신경망(Visual Convolutional Neural Network, Visual CNN) 알고리즘, 오디오 기반 합성신경망(Audio CNN) 알고리즘, 스코어 테이블, 음원 라이브러리, KNN 알고리즘 및/또는 KL-Divergence 알고리즘 등을 포함할 수 있다. 영상 기반 합성신경망 알고리즘은 영상에서 장소별 영상 특징을 추출할 수 있고, 사전에 다양한 장소의 영상 샘플들을 이용하여 장소별 영상 특징을 학습할 수 있다. 오디오 기반 합성신경망 알고리즘은 오디오 데이터(사운드)에서 효과음 특징을 추출할 수 있으며, 사전에 장소별 효과음 샘플들을 이용하여 장소별 효과음 특징을 학습할 수 있다. 스코어 테이블에는 장소별 배경음악들에 대한 스코어가 정의될 수 있다. 장소별 배경음악 스코어는 장소별 다양한 배경음악 샘플을 이용하여 다수를 대상으로 각 배경음악에 대한 청음 평가를 수행하고, 그 청음 평가 결과값(스코어)의 평균으로 결정될 수 있다. 제6 저장부(620)는 오디오 기반 합성신경망에 의한 장소별 효과음 특징이 저장된 데이터베이스 및 청음평가 스코어 테이블에 의한 장소별 배경음악 특징이 저장된 데이터베이스를 포함할 수 있다. 음원 라이브러리는 다양한 종류의 효과음 및/또는 배경음악의 음원을 저장할 수 있다.

제6 저장부(620)는 제6 처리부(650)에 의해 실행되는 명령어들을 저장하는 저장매체일 수 있다. 제6 저장부(620)는 플래시 메모리, 하드디스크, SSD, SD 카드, RAM, SRAM, ROM, PROM, EEPROM, EPROM, eMMC(embedded multimedia card), 및/또는 UFS(universal flash storage) 등의 저장매체(기록매체) 중 적어도 하나를 포함할 수 있다.

카메라(630)는 차량 단말(600)에 탑재되어 차량의 주변 환경을 영상으로 획득할 수 있다. 카메라(630)는 CCD 이미지 센서, CMOS 이미지 센서, CPD 이미지 센서 및/또는 CID 이미지 센서 등과 같은 이미지 센서들 중 적어도 하나를 포함할 수 있다. 카메라(630)는 이미지 센서에 의해 획득된 영상에 대해 노이즈 제거, 컬러 재현, 파일 압축, 화질 조절 및 채도 조절 등을 수행하는 이미지 처리기를 포함할 수 있다.

사운드 출력장치(640)는 사운드를 외부에 출력할 수 있다. 사운드 출력장치(640)는 앰프 및 스피커 등을 포함할 수 있다. 앰프는 차량 내 탑재되어 재생되는 사운드의 전기 신호를 증폭할 수 있다. 스피커는 앰프에서 증폭된 전기 신호를 음파로 변환할 수 있다.

제6 처리부(650)는 차량 단말(600)의 전반적인 동작을 제어할 수 있다. 제6 처리부(650)는 ASIC, DSP, DSPD, PLD, FPGA, 프로세서, 마이크로 컨트롤러, 또는 마이크로프로세서 중 적어도 하나를 이용하여 구현될 수 있다.

제6 처리부(650)는 차량이 주행하는 동안 카메라(630)를 이용하여 차량의 주변 환경을 촬영할 수 있다. 제6 처리부(650)는 영상 기반 합성신경망을 이용하여 촬영된 영상으로부터 특징을 추출할 수 있다. 제6 처리부(650)는 추출된 영상 특징을 기반으로 주행 장소를 추정할 수 있다.

제6 처리부(650)는 추정된 주행 장소에 매칭되는 사운드 즉, 효과음 및/또는 배경음악을 선정할 수 있다. 제6 처리부(650)는 추출된 영상 특징과 사운드의 특징을 비교하여 추출된 영상 특징에 가장 유사한 사운드를 선정할 수 있다. 제6 처리부(650)는 KNN 또는 KL-divergence 알고리즘 등을 이용하여 추출된 영상 특징과 효과음 특징 간의 확률분포를 비교하여 현재 영상 특징에 가장 유사한 특징을 가지는 효과음을 선정할 수 있다. 또한, 제6 처리부(650)는 KNN 또는 KL-Divergence 알고리즘 등을 이용하여 추출된 영상 특징과 배경음악 특징 간의 확률분포를 비교하여 현재 영상 특징에 가장 유사한 특징을 가지는 배경음악을 선정할 수 있다.

제6 처리부(650)는 추정된 주행 장소에 적합한 사운드로 선정된 효과음 및 배경음악을 음원 라이브러리에서 추출할 수 있다. 제6 처리부(650)는 재생 파라미터(예: 재생 구간, 재생 시간 및 주기 등)에 기반하여 선정된 효과음과 배경음악을 합성하여 사운드를 생성할 수 있다.

제6 처리부(650)는 생성된 사운드를 재생하여 사운드 출력장치(640)에 출력할 수 있다. 사운드 출력장치(640)는 제6 처리부(650)의 제어 하에 재생되는 사운드를 외부에 출력할 수 있다.

도 6은 본 발명의 제3 실시 예에 따른 차량 사운드 서비스 방법을 도시한 흐름도이다.

차량 단말(600)은 카메라(630)를 이용하여 주행 중인 차량의 주변 영상을 촬영할 수 있다(S300). 카메라(630)는 차량에 거치되거나 장착될 수 있다.

차량 단말(600)은 카메라(630)에 의해 촬영된 영상을 분석하여 주행 장소를 추정할 수 있다(S310). 차량 단말(600)은 영상 기반 합성신경망 알고리즘을 이용하여 영상에서 특징을 추출할 수 있다. 차량 단말(600)은 추출된 영상 특징을 토대로 주행 장소를 추정할 수 있다.

차량 단말(600)은 주행 장소 추정 결과를 기반으로 사운드를 선정할 수 있다(S320). 차량 단말(600)은 추출된 영상 특징과 사운드의 특징을 비교하여 추출된 영상 특징에 가장 유사한 사운드를 선정할 수 있다. 차량 단말(600)은 KNN 또는 KL-Divergence 알고리즘 등을 이용하여 추출된 영상 특징과 효과음 특징 간의 확률분포를 비교하여 현재 영상 특징에 가장 유사한 특징을 가지는 효과음을 선정할 수 있다. 또한, 차량 단말(600)은 KNN 또는 KL-Divergence 알고리즘 등을 이용하여 추출된 영상 특징과 배경음악 특징 간의 확률분포를 비교하여 현재 영상 특징에 가장 유사한 특징을 가지는 배경음악을 선정할 수 있다.

차량 단말(600)은 재생 파라미터를 토대로 사운드를 조정할 수 있다(S330). 차량 단말(600)은 재생 파라미터(예: 재생 시간 및 주기 등)에 기반하여 선정된 효과음과 배경음악을 합성하여 사운드를 생성할 수 있다.

차량 단말(500)은 조정된 사운드를 재생하여 출력할 수 있다(S340). 차량 단말(500)은 효과음 및 배경음악으로 구성된 사운드를 재생하여 사운드 출력장치(640)로 출력할 수 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

카메라가 탑재된 이동 단말과 데이터를 송수신하는 통신부 및 상기 통신부와 전기적으로 연결되는 처리부를 포함하는 서비스 서버를 포함하고,
상기 처리부는,
상기 이동 단말이 상기 카메라를 이용하여 차량의 주변을 영상으로 촬영하여 전송하면 상기 통신부를 이용하여 상기 영상을 수신하고,
수신된 영상을 분석하여 주행 장소를 추정하고,
추정된 주행 장소에 적합한 사운드를 선정하여 상기 이동 단말에 전송하는 것을 특징으로 하는 차량 사운드 서비스 시스템.
청구항 1에 있어서,
상기 처리부는,
영상 기반 합성신경망을 이용하여 상기 수신된 영상에서 영상 특징을 추출하는 것을 특징으로 하는 차량 사운드 서비스 시스템.
청구항 2에 있어서,
상기 처리부는,
사전에 장소별 영상 샘플들을 이용하여 상기 영상 기반 합성신경망에 장소별 영상 특징을 학습시키는 것을 특징으로 하는 차량 사운드 서비스 시스템.
청구항 2에 있어서,
상기 처리부는,
KNN 알고리즘 또는 KL-Divergence 알고리즘을 이용하여 상기 추출된 영상 특징과 데이터베이스에 저장된 효과음의 특징 간의 확률분포를 비교하여 상기 추출된 영상 특징에 가장 유사한 특징을 가지는 효과음을 선정하는 것을 특징으로 하는 차량 사운드 서비스 시스템.
청구항 4에 있어서,
상기 처리부는,
사전에 오디오 기반 합성신경망에 의한 장소별 효과음 특징을 상기 데이터베이스에 저장하는 것을 특징으로 하는 차량 사운드 서비스 시스템.
청구항 4에 있어서,
상기 처리부는,
KNN 알고리즘 또는 KL-Divergence 알고리즘을 이용하여 상기 추출된 영상 특징과 상기 데이터베이스에 저장된 배경음악의 특징 간의 확률분포를 비교하여 상기 추출된 영상 특징에 가장 유사한 특징을 가지는 배경음악을 선정하는 것을 특징으로 하는 차량 사운드 서비스 시스템.
청구항 6에 있어서,
상기 처리부는,
사전에 청음 평가에 의한 장소별 배경음악의 특징을 상기 데이터베이스에 저장하는 것을 특징으로 하는 차량 사운드 서비스 시스템.
청구항 1에 있어서,
상기 처리부는,
상기 처리부가 재생 파라미터를 기반으로 선정된 사운드를 조정하고, 조정된 사운드를 상기 이동 단말에 전송하는 것을 특징으로 하는 차량 사운드 서비스 시스템.
청구항 8에 있어서,
상기 재생 파라미터는,
재생 구간, 재생 시간 또는 주기 중 적어도 하나를 포함하는 것을 특징으로 하는 차량 사운드 서비스 시스템.
청구항 8에 있어서,
상기 이동 단말은, 상기 조정된 사운드를 상기 차량 단말에 전송하여 상기 차량 단말이 상기 조정된 사운드를 재생하여 외부로 출력하게 하는 것을 특징으로 하는 차량 사운드 서비스 시스템.
이동 단말이 자신에 탑재된 카메라를 이용하여 차량의 주변을 영상으로 촬영하여 전송하는 단계;
서비스 서버의 처리부가 통신부를 이용하여 상기 영상을 수신하는 단계;
상기 처리부가 수신된 영상을 분석하여 주행 장소를 추정하는 단계;
상기 처리부가 추정된 주행 장소에 적합한 사운드를 선정하는 단계; 및
상기 처리부가 선정된 사운드를 상기 이동 단말에 전송하는 단계를 포함하는 것을 특징으로 하는 차량 사운드 서비스 방법.
청구항 11에 있어서,
상기 주행 장소를 추정하는 단계는,
상기 처리부가 영상 기반 합성신경망 알고리즘을 이용하여 상기 수신된 영상에서 영상 특징을 추출하는 단계를 포함하는 것을 특징으로 하는 차량 사운드 서비스 방법.
청구항 12에 있어서,
상기 처리부가 사전에 장소별 영상 샘플들을 이용하여 상기 영상 기반 합성신경망에 장소별 영상 특징을 학습시키는 단계를 더 포함하는 것을 특징으로 하는 차량 사운드 서비스 방법.
청구항 12에 있어서,
상기 사운드를 선정하는 단계는,
상기 처리부가 KNN 알고리즘 또는 KL-Divergence 알고리즘을 이용하여 상기 추출된 영상 특징과 데이터베이스에 저장된 효과음의 특징 간의 확률분포를 비교하여 상기 추출된 영상 특징에 가장 유사한 특징을 가지는 효과음을 선정하는 단계를 포함하는 것을 특징으로 하는 차량 사운드 서비스 방법.
청구항 14에 있어서,
상기 처리부가 사전에 오디오 기반 합성신경망에 의한 장소별 효과음 특징을 상기 데이터베이스에 저장하는 단계를 더 포함하는 것을 특징으로 하는 차량 사운드 서비스 방법.
청구항 14에 있어서,
상기 사운드를 선정하는 단계는,
상기 처리부가 KNN 알고리즘 또는 KL-Divergence 알고리즘을 이용하여 상기 추출된 영상 특징과 상기 데이터베이스에 저장된 배경음악의 특징 간의 확률분포를 비교하여 상기 추출된 영상 특징에 가장 유사한 특징을 가지는 배경음악을 선정하는 단계를 더 포함하는 것을 특징으로 하는 차량 사운드 서비스 방법.
청구항 16에 있어서,
상기 처리부가 사전에 청음 평가에 의한 장소별 배경음악의 특징을 상기 데이터베이스에 저장하는 단계를 더 포함하는 것을 특징으로 하는 차량 사운드 서비스 방법.
청구항 11에 있어서,
상기 선정된 사운드를 상기 이동 단말에 전송하는 단계는,
상기 처리부가 재생 파라미터를 기반으로 선정된 사운드를 조정하는 단계; 및
상기 처리부가 조정된 사운드를 상기 이동 단말에 전송하는 단계를 더 포함하는 것을 특징으로 하는 차량 사운드 서비스 방법.
청구항 18에 있어서,
상기 재생 파라미터는,
재생 구간, 재생 시간 또는 주기 중 적어도 하나를 포함하는 것을 특징으로 하는 차량 사운드 서비스 방법.
청구항 18에 있어서,
상기 이동 단말이 상기 조정된 사운드를 수신하여 상기 차량 단말에 전송하는 단계; 및
상기 차량 단말이 상기 조정된 사운드를 재생하여 외부로 출력하는 단계를 더 포함하는 것을 특징으로 하는 차량 사운드 서비스 방법.