KR20240063014A - 이진 분류 모델과 회귀를 사용한 사운드 쾌적성 예측 - Google Patents

이진 분류 모델과 회귀를 사용한 사운드 쾌적성 예측 Download PDF

Info

Publication number
KR20240063014A
KR20240063014A KR1020230146555A KR20230146555A KR20240063014A KR 20240063014 A KR20240063014 A KR 20240063014A KR 1020230146555 A KR1020230146555 A KR 1020230146555A KR 20230146555 A KR20230146555 A KR 20230146555A KR 20240063014 A KR20240063014 A KR 20240063014A
Authority
KR
South Korea
Prior art keywords
sound
comfort
sounds
classification model
ratings
Prior art date
Application number
KR1020230146555A
Other languages
English (en)
Inventor
비제이 쿠마르 소렌
카린 아우
펠릭스 소른
필리페 카브리타 콘데사
플로리안 랭
미카엘 쿠카
리잘 패토니
토마스 알버
Original Assignee
로베르트 보쉬 게엠베하
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 로베르트 보쉬 게엠베하 filed Critical 로베르트 보쉬 게엠베하
Publication of KR20240063014A publication Critical patent/KR20240063014A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/001Monitoring arrangements; Testing arrangements for loudspeakers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Otolaryngology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

기계 학습은 디바이스에서 방출되는 사운드의 쾌적성을 분류하기 위해 사용된다. 인간 심사위원들로부터 복수의 쾌적성 레이팅들이 수신되고, 각각의 쾌적성 레이팅들은 하나 이상의 디바이스들에 의해 방출되는 복수의 사운드들 중 각자의 사운드에 대응한다. 각각의 쾌적성 레이팅과 다른 각 쾌적성 레이팅들 각각 간의 차이들은 쌍별 비교들을 통해 결정된다. 이러한 차이들은 각각의 비교에서 쾌적성 등급이 더 높거나 낮은 것에 따라 이진 값들로 변환된다. 측정 가능한 사운드 품질들은 사운드들과 연관되어 수신된다. 측정 가능한 사운드 품질들 각각과 복수의 측정된 복수의 사운드 품질들 모든 다른 사운드 품질 사이의 제2 차이들은 쌍별 방식으로 결정된다. 분류 모델은 이진 값들을 제2 차이들과 비교하여 사운드의 쾌적성을 분류하도록 훈련된다.

Description

이진 분류 모델과 회귀를 사용한 사운드 쾌적성 예측{PREDICTING SOUND PLEASANTNESS USING BINARY CLASSIFICATION MODEL AND REGRESSION}
관련 출원들의 상호-참조
본 출원은 "PREDICTING SOUND PLEASANTNESS USING REGRESSION PREDICTION MACHINE LEARNING MODEL"이라는 제목으로 본 출원과 같은 날 제출된 동시 계류 중인 출원 일련 번호 17/977574(변호사 문서 번호 097182-00196)와 관련되고, 그 전체 개시내용은 참조로 포함된다.
기술 분야
본 개시내용은 기계 학습을 사용하여 전자 디바이스들 및 기기들과 같은 사물들에서 방출되는 사운드들의 쾌적성을 평가하는 것에 관한 것이다.
여러 애플리케이션 분야들은 인간 청취자가 인식하는 것을 나타내는 수량들을 측정하는 것을 요구한다. 예를 들어, 사운드 품질 평가는 사용자들이 산업용 사물들(전자 디바이스들, 자동차들, 전기 기기들 등)의 사운드의 품질을 어떻게 인식하는지 연구하고, 이러한 사운드들의 설계에 대한 사양들을 수립한다. 사운드 품질 평가는 사람들과 사물의 상호작용들을 개선하기 위해 사물에 의해 생성되는 사운드를 불쾌적성이나 쾌적성의 측면에서 평가하는 것을 의미할 수 있다. 현대의 전기화와 도시화의 증가로 인해, 사물의 사운드에 대한 인간의 인식의 관련성은 특히 사물의 쾌적성이나 방해로 인식될 가능성과 관련하여 높아지고 있다.
게다가, 잡음, 진동 및 충격(NVH)에 대한 전기기계 시스템들의 분석은 제품 개발 및 제조 품질 제어의 중요한 부분이다. 열악한 NVH 성능은 제품을 사용하는 동안 사용자의 피로를 증가시키고, 시간 경과에 따라 제품의 추가적인 열화(마모 및 찢어짐)를 유발하고, 고객의 구매 결정에 부정적인 영향을 미칠 수 있다.
많은 전기 디바이스들의 사운드 품질 평가는 일반적으로 청취자들의 심사위원단이 사운드를 듣게 하고 사운드의 쾌적성을 레이팅(rate)하는 것을 포함한다. 그러나, 이는 시간이 소비적이고 개발된 각각의 신제품에 대해 청취자들의 새로운 심사위원단을 요구한다. NVH 분석은 일반적으로 실험실 설정에서 센서들로 측정되고, 사운드의 쾌적성을 설명하지 않는 경우가 많다. 게다가, NVH 분석 동안 측정된 사운드의 품질들은 어떤 사람들에게는 불쾌할 수 있지만, 다른 사람들에게는 즐거울 수 있다.
일 실시예에 따르면, 디바이스에서 방출되는 사운드의 쾌적성을 분류하기 위해 분류 모델을 훈련하는 방법은: 하나 이상의 인간 심사위원들로부터 복수의 쾌적성 레이팅들을 수신하는 단계로서, 각각의 쾌적성 레이팅은 하나 이상의 디바이스들에 의해 방출되는 복수의 사운드들 중 각자의 사운드에 대응하는, 상기 복수의 쾌적성 레이팅들을 수신하는 단계; 제1 쌍별 비교들을 통해, 복수의 쾌적성 레이팅들 각각과 복수의 쾌적성 레이팅들의 모든 다른 쾌적성 레이팅들 사이의 제1 차이들을 결정하는 단계; 해당 쌍별 비교에 대해 어떤 쾌적성 레이팅이 더 높은지에 기반하여 결정된 제1 차이들을 이진 값들로 변환하는 단계; 하나 이상의 센서들로부터, 복수의 측정 가능한 사운드 품질들을 수신하는 단계로서, 각각의 측정 가능한 사운드 품질은 복수의 사운드들 중 각자의 사운드와 연관되는, 상기 복수의 측정 가능한 사운드 품질들을 수신하는 단계; 제2 쌍별 비교들을 통해, 복수의 측정 가능한 사운드 품질들 각각과 복수의 측정된 사운드 품질들의 모든 다른 측정된 사운드 품질 사이의 제2 차이들을 쌍별 방식으로 결정하는 단계; 이진 값들을 제2 차이들과 비교하여 사운드 쾌적성을 분류하는 분류 모델을 훈련시키는 단계; 및 훈련 단계 동안 수렴에 기반하여, 사운드의 쾌적성을 분류하도록 구성된 훈련된 분류 모델을 출력하는 단계를 포함한다.
다른 실시예에 따르면, 디바이스에서 방출되는 사운드의 쾌적성을 분류하도록 구성된 분류 모델을 훈련시키기 위한 시스템은 하나 이상의 디바이스들에 의해 방출되는 복수의 사운드를 검출하도록 구성된 마이크로폰, 및 복수의 사운드를 프로세싱하도록 프로그래밍된 프로세서를 포함한다. 메모리는 명령들을 저장하고, 명령들은, 프로세서에 의해 실행될 때, 프로세서로 하여금: 하나 이상의 인간 심사위원들로부터 복수의 쾌적성 레이팅들을 수신하게 하고, 각각의 쾌적성 레이팅은 복수의 사운드들 중 각자의 사운드에 대응하고; 제1 쌍별 비교들을 통해, 복수의 쾌적성 레이팅들 각각과 복수의 쾌적성 레이팅들의 모든 다른 쾌적성 레이팅들 사이의 제1 차이들을 결정하게 하고; 해당 쌍별 비교에 대해 쾌적성 레이팅 중 어느 쾌적 레이팅이 더 높은지에 기반하여 결정된 제1 차이들을 이진 값들로 변환하게 하고; 사운드 품질들을 측정하게 하고, 각각의 사운드 품질은 복수의 사운드들 각자의 사운드와 연관되고; 제2 쌍별 비교들을 통해, 측정된 사운드 품질들 각각과 측정된 사운드 품질들의 모든 다른 측정된 사운드 품질 사이의 제2 차이들을 쌍별 방식으로 결정하게 하고; 이진 값들을 제2 차이들과 비교하여 사운드 쾌적성을 분류하는 분류 모델을 훈련하게 하고; 및 분류 모델의 훈련 단계 동안 수렴에 기반하여, 사운드의 쾌적성을 분류하도록 구성된 훈련된 분류 모델을 출력하게 한다.
또 다른 실시예에 따르면, 기계 학습을 활용하여 사운드의 쾌적성을 예측하는 방법은: 인간 심사위원들로부터 쾌적성 레이팅들을 수신하는 단계로서, 각각의 쾌적성 레이팅은 하나 이상의 디바이스에 의해 방출되는 각자의 사운드에 대응하는, 상기 쾌적성 레이팅들을 수신하는 단계; 쾌적성 레이팅들 각각과 쾌적성 레이팅들의 각각의 다른 쾌적성 레이팅 사이의 제1 차이들을 결정하는 단계; 사운드 품질들을 측정하기 위해 마이크로폰을 활용하는 단계로서, 각각의 사운드 품질은 사운드들의 각자의 사운드와 연관되는, 마이크로폰을 활용하는 단계; 측정된 사운드 품질들의 각각과 측정된 사운드 품질들의 각각의 다른 사운드 품질 사이의 제2차이들을 결정하는 단계; 수렴이 훈련된 분류 모델을 생성할 때까지 제1 차이들과 제2 차이들의 비교에 기반하여 사운드 쾌적성을 분류하기 위해 분류 모델을 훈련시키는 단계; 새로운 사운드의 새로운 사운드 품질을 측정하기 위해 마이크로폰을 활용하는 단계; 훈련된 분류 모델을 통해, 측정된 새로운 사운드의 새로운 사운드 품질을 사운드들과 연관된 각각의 측정된 사운드 품질과 비교하는 단계; 및 훈련된 분류 모델에 의해 이루어진 비교에 기반하여 레이팅이 지정되지 않은 사운드의 전반적인 쾌적성을 예측하기 위해 회귀 모델을 활용하는 단계를 포함한다.
도 1은 실시예에 따른 신경망 훈련 시스템을 도시한다.
도 2는 실시예에 따라 신경망을 훈련 및 활용하기 위한 컴퓨터 구현 방법을 도시한다.
도 3은 이진 분류 기계 학습 모델을 사용하여 사운드의 쾌적성을 예측하는 시스템들 및 방법들을 예시하고, 실시예에 따라, 도 3a는 시스템 흐름도를 도시하고, 도 3b는 사운드별 쌍별 비교들의 실시예를 예시하는 표를 도시하고, 도 3c는 결과들을 이진 포맷으로 변환하는 것을 도시한다.
도 4는 실시예에 따른 회귀 예측 기계 학습 모델을 이용하여 사운드 쾌적성을 예측하는 시스템 흐름도를 예시한다.
도 5는 실시예에 따른 컴퓨터 제어 기계와 제어 시스템 사이의 상호작용의 개략도를 묘사한다.
도 6은 실시예에 따라, 부분 자율 차량, 완전 자율 차량, 부분 자율 로봇 또는 완전 자율 로봇일 수 있는 차량에 대해 본원에 개시된 쾌적성 예측 방법들을 수행하도록 구성된 도 5의 제어 시스템의 개략도를 묘사한다.
도 7은 생산 라인의 일부 같은, 제조 시스템의 펀치 커터, 커터 또는 건 드릴과 같은 제조 기계에 대해 본원에 개시된 쾌적성 예측 방법들을 수행하도록 구성된 도 5의 제어 시스템의 개략도를 묘사한다.
도 8은 적어도 부분적으로 자율 모드를 갖는 전동 드릴 또는 드라이버와 같은 전동 공구에 관해 본원에 개시된 쾌적성 예측 방법을 수행하도록 구성된 도 5의 제어 시스템의 개략도를 묘사한다.
도 9는 자동화된 개인 비서와 관련하여 본원에 개시된 쾌적성 예측 방법들을 수행하도록 구성된 도 5의 제어 시스템의 개략도를 묘사한다.
도 10은 제어 액세스 시스템 또는 감시 시스템과 같은 모니터링 시스템에 대해 본원에 개시된 쾌적성 예측 방법들을 수행하도록 구성된 도 5의 제어 시스템의 개략도를 묘사한다.
도 11은 이미징 시스템, 예를 들어 MRI 디바이스, X선 이미징 장치 또는 초음파 장치에 대해 본원에 개시된 쾌적성 예측 방법들을 수행하도록 구성된 도 5의 제어 시스템의 개략도를 묘사한다.
본 개시내용의 실시예들이 본원에 설명된다. 그러나, 개시된 실시예들이 단지 예들이고 다른 실시예들이 다양하고 대안적인 형태들을 취할 수 있다는 것이 이해되어야 한다. 도면들은 반드시 비례하지 않고; 일부 특징들은 특정 컴포넌트들의 세부사항들을 보여주기 위해 과장되거나 최소화될 수 있다. 그러므로, 본원에 개시된 특정 구조적 및 기능적 세부사항들은 제한적인 것으로 해석되어서는 안되며, 단지 통상의 기술자가 실시예들을 다양하게 이용하도록 가르치기 위한 대표적인 기초로서 해석되어야 한다. 통상의 기술자들이 이해하는 바와 같이, 도면들 중 임의의 하나를 참조하여 예시되고 설명된 다양한 특징들은 하나 이상의 다른 도면들에 예시된 특징들과 조합되어 명시적으로 예시되거나 설명되지 않은 실시예들을 생성할 수 있다. 예시된 특징들의 조합들은 통상적인 애플리케이션들에 대한 대표적인 실시예들을 제공한다. 그러나, 본 개시내용의 교시들과 일치하는 특징들의 다양한 조합들 및 수정들은 특정 애플리케이션들 또는 구현들을 위해 원해질 수 있다.
본 개시내용은 음량, 음조, 선명도 같은 다양한 측정 가능한 사운드 품질들을 나타낸다. 음량은 사운드의 강도나 진폭을 의미한다. 음량은 실제 측정된 사운드의 음량 또는 사운드 음량, 사운드 강도의 사람의 인식을 나타낼 수 있다. 음량은 데시벨 단위(예를 들어, 사운드의 음량을 측정하기 위함) 또는 폰 단위(예를 들어, 사운드에 대한 사람의 인식을 측정하기 위함)로 측정될 수 있다. 음조는 인간들이 사운드의 음조 성분들(예를 들어, 피치, 톤, 코드, 키 등)을 인식하는 방법과 상관되는 사운드 품질의 측정을 나타낸다. 선명도는 사운드의 주파수, 또는 사운드의 고주파 콘텐츠 양을 나타내고; 고주파의 비율이 높을수록, 사운드가 더 선명해진다. 다른 유형들의 측정 가능한 사운드 품질들은 거칠기(예를 들어, 70 Hz와 같은 소정 주파수에서 음량의 느린 일시적 변화들을 강조), 엔벨로프(예를 들어, 사운드의 어택, 감쇠, 지속 및 방출) 등을 포함할 수 있다.
예를 들어, 사운드 품질 평가는 사용자들이 산업용 사물들(전자 디바이스들, 자동차들, 전기 기기들 등)의 사운드의 품질을 어떻게 인식하는지 연구하고, 이러한 사운드들의 설계에 대한 사양들을 수립한다. 사운드 품질 평가는 사람들과 사물의 상호작용들을 개선하기 위해 사물에 의해 생성되는 사운드를 불쾌적성이나 쾌적성의 측면에서 평가하는 것을 의미할 수 있다. 현대의 전기화와 도시화의 증가로 인해, 사물의 사운드에 대한 인간의 인식의 관련성은 특히 사물의 쾌적성이나 방해로 인식될 가능성과 관련하여 높아지고 있다.
본원에 개시된 다양한 실시예들에 따르면, 디바이스의 사운드의 쾌적성을 예측하기 위해 기계 학습 모델링을 사용하는 방법들 및 시스템들이 제공된다. 이 접근법은 예를 들어 고정 디바이스들(예를 들어, 펌프들, 열 펌프들, 팬,들 전자 디바이스들 등)를 제어할 때 현재 방출되는 사운드에 대한 인간의 인식을 추정하는 데 사용될 수 있다. 이어서, 이 추정은 인간의 음향 인식과 관련하여 디바이스 제어를 최적화하는 데 사용될 수 있다. 이는 기계 학습 알고리즘에 의해 수행되고 하나 이상의 마이크로폰들 또는 가속도 센서들의 신호들에 기반하여, 미리 처리되고 이어서 대응 신호들과 비교되고, 인간의 인식 측면에서 품질은 연속적인 스케일의 숫자 값들 형태로 청취 테스트들에서 이미 결정되었다. 이어서, 예측된 비교 결과들은 실제 사운드 품질을 추정하기 위한 후속 알고리즘에 의해 누적되고, 이에 기반하여, 제품 제어가 적응될 수 있다.
개시된 방법들 및 시스템들은 소량의 훈련 데이터만이 이용 가능한 경우들에서 회귀 작업들에 대한 새로운 접근법을 제공한다. 이는 원래 작업을 분류 작업으로 변환한 후, 원래 회귀 문제를 해결하기 위해 분류 결과들을 추가로 프로세싱함으로써 달성된다. 예를 들어, 실시예들에서, 기계 학습 모델은 다양한 사운드들에 점수를 매기고 레이팅을 매기는 인간 평가자들의 심사위원단에 대해 훈련된다. 훈련 동안, 하나의 사운드의 측정 가능한 품질들(예를 들어, 음량, 음조, 선명도, 진동, 전압 등)은 쌍별 방식으로 다른 사운드의 대응하는 측정 가능한 품질들과 비교된다. 비교는 각자의 품질들에 차이를 생성할 수 있다. 이진 분류들은 구현할 수 있고, 예를 들어 사운드 품질 A를 의미하는 "0"은 사운드 품질 B보다 더 쾌적성을 의미하고, 사운드 품질 B를 의미하는 "1"은 사운드 품질 A보다 더 쾌적성을 의미한다. 일단 훈련되면, 회귀 작업은 훈련으로부터 저장된 모든 사운드 품질들과 새로운 사운드의 사운드 품질들을 비교하는 데 활용될 수 있고, 다른 사운드 품질들과의 유사성들에 기반하여, 그 새로운 사운드의 쾌적성의 예측은 모델에 의해 생성될 수 있다.
모델들의 훈련, 및 사운드의 쾌적성을 예측하기 위한 모델들의 사용에 관한 추가 세부사항들은 아래에 제공될 것이다. 그러나 먼저, 도 1 및 도 2를 참조하고, 도 1은 신경망, 예를 들어 심층 신경망을 훈련하기 위한 시스템(100)을 도시하고, 도 2는 본원에 설명된 기계 학습 모델들(210)(예를 들어, 도 3-도 4를 참조하여 설명된 이진 분류 모델, 회귀 모델 및 회귀 예측 모델)을 실행하기 위한 시스템(200)을 도시한다. 도 1을 참조하면, 시스템(100)은 신경망에 대한 훈련 데이터(102)에 액세스하기 위한 입력 인터페이스를 포함할 수 있다. 예를 들어, 도 1에 예시된 바와 같이, 입력 인터페이스는 데이터 저장장치(106)로부터 훈련 데이터(102)에 액세스할 수 있는 데이터 저장 인터페이스(104)로 구성될 수 있다. 예를 들어, 데이터 저장 인터페이스(104)는 메모리 인터페이스 또는 영구 저장 인터페이스, 예를 들어 하드 디스크 또는 SSD 인터페이스일 수 있을 뿐만 아니라 블루투스, 지그비 또는 Wi-Fi 인터페이스, 이더넷 또는 광섬유 인터페이스와 같은 개인, 로컬 또는 광역 네트워크 인터페이스일 수도 있다. 데이터 저장장치(106)는 하드 드라이브 또는 SSD와 같은 시스템(100)의 내부 데이터 저장장치일 수 있지만, 네트워크 액세스 가능한 데이터 저장장치와 같은 외부 데이터 저장장치일 수 있다.
일부 실시예들에서, 데이터 저장장치(106)는 데이터 저장장치(106)로부터 시스템(100)에 의해 액세스될 수 있는 훈련되지 않은 신경망 버전의 데이터 표현(108)을 더 포함할 수 있다. 그러나, 훈련되지 않은 신경망의 훈련 데이터(102) 및 데이터 표현(108)이 또한 각각 상이한 데이터 저장장치로부터, 예를 들어 데이터 저장 인터페이스(104)의 다른 서브시스템을 통해 액세스될 수도 있다는 것이 인식될 것이다. 각각의 서브시스템은 데이터 저장 인터페이스(104)에 대해 위에서 설명된 것과 같은 유형일 수 있다. 다른 실시예들에서, 훈련되지 않은 신경망의 데이터 표현(108)은 신경망에 대한 설계 파라미터들에 기반하여 시스템(100)에 의해 내부적으로 생성될 수 있으므로, 데이터 저장장치(106)에 명시적으로 저장되지 않을 수 있다. 시스템(100)은 시스템(100)의 동작 동안, 훈련될 신경망의 계층들의 스택에 대한 대체로서 반복 기능을 제공하도록 구성될 수 있는 프로세서 서브시스템(110)을 더 포함할 수 있다. 여기서, 대체되는 계층들의 스택의 각각의 계층들은 서로 공유된 가중치들을 가질 수 있고 이전 계층의 출력을 입력으로 수신하거나, 계층들의 스택의 제1 계층의 경우, 초기 활성화, 및 계층들의 스택의 입력의 일부를 입력으로서 수신할 수 있다. 프로세서 서브시스템(110)은 훈련 데이터(102)를 사용하여 신경망을 반복적으로 훈련하도록 추가로 구성될 수 있다. 여기서, 프로세서 서브시스템(110)에 의한 훈련의 반복은 순방향 전파 부분과 역방향 전파 부분을 포함할 수 있다. 프로세서 서브시스템(110)은 수행될 수 있는 순방향 전파 부분을 정의하는 다른 동작들 중에서, 반복 함수가 고정점으로 수렴하는 반복 함수의 평형점을 결정하는 것, 여기서 평형점의 결정은 수치적 근-찾기 알고리즘을 사용하여 입력을 뺀 반복 함수에 대한 근해를 찾고, 평형점을 신경망의 계층들의 스택 출력 대신 제공하는 것에 의해 순방향 전파 부분을 수행하도록 구성될 수 있다. 시스템(100)은 훈련된 신경망의 데이터 표현(112)을 출력하기 위한 출력 인터페이스를 더 포함할 수 있고, 이 데이터는 또한 훈련된 모델 데이터(112)로 지칭될 수 있다. 예를 들어, 도 1에 또한 예시된 바와 같이, 출력 인터페이스는 데이터 저장 인터페이스(104)에 의해 구성될 수 있고, 상기 인터페이스는 이들 실시예들에서 입력/출력('IO') 인터페이스이고, 이를 통해 훈련된 모델 데이터(112)는 데이터 저장장치(106)에 저장될 수 있다. 예를 들어, '훈련되지 않은' 신경망을 정의하는 데이터 표현(108)은 훈련 동안 또는 훈련 후에 적어도 부분적으로 훈련된 신경망의 데이터 표현(112)으로 대체될 수 있고, 하이퍼파라미터들 및 신경망들의 다른 유형들의 파라미터들은 훈련 데이터(102)에 대한 훈련을 반영하도록 적응될 수 있다. 이는 또한 데이터 저장장치(106) 상의 동일한 데이터 기록을 지칭하는 참조 번호(108, 112)에 의해 도 1에 예시된다. 다른 실시예들에서, 데이터 표현(112)은 '훈련되지 않은' 신경망을 정의하는 데이터 표현(108)과 별도로 저장될 수 있다. 일부 실시예들에서, 출력 인터페이스는 데이터 저장 인터페이스(104)와 별개일 수 있지만, 일반적으로 데이터 저장 인터페이스(104)에 대해 위에서 설명된 것과 같은 유형일 수 있다.
시스템(100)의 구조는 본원에 설명된 기계 학습 모델을 훈련하는 데 활용될 수 있는 시스템의 일 예이다. 기계 학습 모델들을 동작하고 훈련하기 위한 추가 구조가 도 2에 도시된다.
도 2는 본원에 설명된 기계 학습 모델들, 예를 들어 아래 도 3-도 4를 참조하여 설명된 이진 분류 모델, 회귀 모델 및 회귀 예측 모델을 구현하기 위한 시스템(200)을 묘사한다. 시스템(200)은 적어도 하나의 컴퓨팅 시스템(202)을 포함할 수 있다. 컴퓨팅 시스템(202)은 메모리 유닛(208)에 동작가능하게 연결되는 적어도 하나의 프로세서(204)를 포함할 수 있다. 프로세서(204)는 중앙 처리 유닛(CPU)(206)의 기능을 구현하는 하나 이상의 집적 회로들을 포함할 수 있다. CPU(206)는 x86, ARM, Power, 또는 MIPS 명령 세트 계열들 중 하나와 같은 명령 세트를 구현하는 상업적으로 이용 가능한 프로세싱 유닛일 수 있다. 동작 동안, CPU(206)는 메모리 유닛(208)으로부터 검색된 저장된 프로그램 명령들을 실행할 수 있다. 저장된 프로그램 명령들은 본원에 설명된 동작을 수행하기 위해 CPU(206)의 동작을 제어하는 소프트웨어를 포함할 수 있다. 일부 예들에서, 프로세서(204)는 CPU(206), 메모리 유닛(208), 네트워크 인터페이스 및 입력/출력 인터페이스들의 기능을 단일 통합 디바이스에 통합하는 SoC(System on a Chip)일 수 있다. 컴퓨팅 시스템(202)은 동작의 다양한 양태들을 관리하기 위한 운영 체제를 구현할 수 있다. 도 2에 하나의 프로세서(204), 하나의 CPU(206), 하나의 메모리(208)가 도시되어 있지만, 물론 전체 시스템에서 각각 두 개 이상이 활용될 수 있다.
메모리 유닛(208)은 명령들 및 데이터를 저장하기 위한 휘발성 메모리 및 비휘발성 메모리를 포함할 수 있다. 비휘발성 메모리는 NAND 플래시 메모리, 자기 및 광학 저장 매체, 또는 컴퓨팅 시스템(202)이 비활성화되거나 전력을 손실할 때 데이터를 유지하는 임의의 다른 적합한 데이터 저장 디바이스와 같은 고체 메모리를 포함할 수 있다. 휘발성 메모리는 프로그램 명령들 및 데이터를 저장하는 정적 및 동적 RAM(random-access memory)을 포함할 수 있다. 예를 들어, 메모리 유닛(208)은 기계 학습 모델(210) 또는 알고리즘, 기계 학습 모델(210)을 위한 훈련 데이터세트(212), 원시 소스 데이터세트(216)를 저장할 수 있다.
컴퓨팅 시스템(202)은 외부 시스템 및 디바이스들과의 통신을 제공하도록 구성된 네트워크 인터페이스 디바이스(222)를 포함할 수 있다. 예를 들어, 네트워크 인터페이스 디바이스(222)는 IEEE(Institute of Electrical and Electronics Engineers) 802.11 계열 표준에 의해 정의된 유선 및/또는 무선 이더넷 인터페이스를 포함할 수 있다. 네트워크 인터페이스 디바이스(222)는 셀룰러 네트워크(예를 들어, 3G, 4G, 5G)와 통신하기 위한 셀룰러 통신 인터페이스를 포함할 수 있다. 네트워크 인터페이스 디바이스(222)는 외부 네트워크(224) 또는 클라우드에 통신 인터페이스를 제공하도록 추가로 구성될 수 있다.
외부 네트워크(224)는 월드 와이드 웹(World Wide Web) 또는 인터넷으로 지칭될 수 있다. 외부 네트워크(224)는 컴퓨팅 디바이스들 간의 표준 통신 프로토콜을 수립할 수 있다. 외부 네트워크(224)는 컴퓨팅 디바이스들과 네트워크들 사이에서 정보와 데이터가 쉽게 교환되도록 할 수 있다. 하나 이상의 서버들(230)은 외부 네트워크(224)와 통신할 수 있다.
컴퓨팅 시스템(202)은 디지털 및/또는 아날로그 입력들 및 출력들을 제공하도록 구성될 수 있는 입력/출력(I/O) 인터페이스(220)를 포함할 수 있다. I/O 인터페이스(220)는 내부 저장장치와 외부 입력 및/또는 출력 디바이스들(예를 들어, HMI 디바이스) 간에 정보를 전송하는 데 사용된다. I/O(220) 인터페이스는 프로세서(들)와 저장장치에 또는 그 사이에서 정보를 전송하기 위해 연관된 회로 또는 BUS 네트워크들을 포함할 수 있다. 예를 들어, I/O 인터페이스(220)는 프로세서(들)에 의해 판독되거나 설정될 수 있는 디지털 I/O 로직 라인들, I/O 라인들을 통한 데이터 전송을 감독하기 위한 핸드셰이크 라인들; 타이밍 및 카운팅 설비들, 및 그러한 기능들을 제공하는 것으로 알려진 다른 구조를 포함할 수 있다. 입력 디바이스들의 예들은 키보드, 마우스, 센서들 등을 포함한다. 출력 디바이스들의 예들은 모니터들, 프린터들, 스피커들 등을 포함한다. I/O 인터페이스(220)는 외부 디바이스들(예를 들어, 범용 직렬 버스(Universal Serial Bus, USB))와 통신하기 위한 추가적인 직렬 인터페이스를 포함할 수 있다. I/O 인터페이스(220)는 입력 인터페이스(센서와 같은 외부 입력으로부터 데이터를 전송한다는 점에서) 또는 출력 인터페이스(디스플레이와 같은 외부 출력으로 데이터를 전송한다는 점에서)로 지칭될 수 있다.
컴퓨팅 시스템(202)은 시스템(200)이 제어 입력을 수신할 수 있게 하는 임의의 디바이스를 포함할 수 있는 인간 기계 인터페이스(HMI) 디바이스(218)를 포함할 수 있다. 입력 디바이스들의 예들은 키보드들, 마우스들, 터치스크린들, 음성 입력 디바이스들 및 다른 유사한 디바이스들과 같은 휴먼 인터페이스 입력들을 포함할 수 있다. 컴퓨팅 시스템(202)은 디스플레이 디바이스(232)를 포함할 수 있다. 컴퓨팅 시스템(202)은 그래픽 및 텍스트 정보를 디스플레이 디바이스(232)에 출력하기 위한 하드웨어 및 소프트웨어를 포함할 수 있다. 디스플레이 디바이스(232)는 전자 디스플레이 스크린, 프로젝터, 프린터 또는 사용자 또는 오퍼레이터에게 정보를 디스플레이하기 위한 다른 적합한 디바이스를 포함할 수 있다. 컴퓨팅 시스템(202)은 네트워크 인터페이스 디바이스(222)를 통해 원격 HMI 및 원격 디스플레이 디바이스와의 상호작용을 허용하도록 추가로 구성될 수 있다.
시스템(200)은 하나 또는 다수의 컴퓨팅 시스템들을 사용하여 구현될 수 있다. 예는 설명된 모든 특징들을 구현하는 단일 컴퓨팅 시스템(202)을 묘사하지만, 다양한 특징들 및 기능들이 서로 통신하는 다수의 컴퓨팅 유닛들에 의해 분리되고 구현될 수 있도록 의도된다. 선택된 특정 시스템 아키텍처는 다양한 요인들에 따를 수 있다.
시스템(200)은 원시 소스 데이터세트(216)를 분석하도록 구성된 기계 학습 모델(210)을 구현할 수 있다. 원시 소스 데이터세트(216)는 기계 학습 시스템에 대한 입력 데이터세트를 나타낼 수 있는 원시 또는 프로세싱되지 않은 센서 데이터를 포함할 수 있다. 원시 소스 데이터세트(216)는 음량, 음조, 선명도 등과 같은 측정 가능한 사운드 품질들을 포함할 수 있다. 원시 소스 데이터세트(216)는 또한 시계열 데이터(예를 들어, 시간 경과에 따른 압력 센서 신호), 진동 데이터, 온도 데이터, 전압 데이터, 전류 데이터 등)와 같이 디바이스에 의해 생성된 사운드를 유발하거나 달리 연관될 수 있는 측정 가능한 비-사운드 품질들을 포함할 수 있다. 원시 소스 데이터세트(216)는 본원에 설명된 센서들 중 하나 이상에 의해 수신되거나 발생하는 전적으로 원시이거나 부분적으로 프로세싱된 센서 데이터일 수 있다. 입력들의 여러 가지 다른 예들은 도 5-도 11을 참조하여 도시되고 설명된다. 일부 예들에서, 기계 학습 모델(210)은 미리 결정된 기능을 수행하도록 설계된 신경망 알고리즘(예를 들어, 심층 신경망)일 수 있다. 예를 들어, 신경망 알고리즘은 차량 엔진이나 모터 사운드의 쾌적성 점수를 예측하도록 구성될 수 있다. 기계 학습 모델(들)(210)은 도 3-도 4를 참조하여 아래에서 더 설명되는 이진 분류 모델, 회귀 모델 및 회귀 예측 모델을 동작시키도록 구성된 알고리즘을 포함할 수 있다.
컴퓨터 시스템(200)은 기계 학습 모델(210)에 대한 훈련 데이터세트(212)를 저장할 수 있다. 훈련 데이터세트(212)는 기계 학습 모델(210)을 훈련하기 위해 이전에 구성된 데이터의 세트를 나타낼 수 있다. 예를 들어, 훈련 데이터 세트(212)는 위에서 설명된 측정 가능한 사운드 품질들 또는 비-사운드 품질들과 대응 사운드의 쾌적성에 대한 연관된 점수 또는 순위를 포함할 수 있다. 훈련 데이터세트(212)는 기계 학습 알고리즘(210)에 의해 신경망 알고리즘과 연관된 가중 요소들을 학습하는 데 사용될 수 있다. 훈련 데이터세트(212)는 기계 학습 알고리즘(210)이 학습 프로세스를 통해 복제하려고 시도하는 대응 성과들 또는 결과들을 갖는 소스 데이터의 세트를 포함할 수 있다.
기계 학습 알고리즘(210)은 훈련 데이터세트(212)를 입력으로 사용하여 학습 모드에서 동작될 수 있다. 기계 학습 알고리즘(210)은 훈련 데이터세트(212)로부터의 데이터를 사용하여 다수의 반복에 걸쳐 실행될 수 있다. 각각의 반복으로, 기계 학습 알고리즘(210)은 달성된 결과들에 기반하여 내부 가중 요인들을 업데이트할 수 있다. 예를 들어, 기계 학습 알고리즘(210)은 새로운 사운드(예를 들어, 연관된 측정 가능한 사운드 품질들 또는 비-사운드 품질들)를 훈련 데이터세트(212)에 포함된 사운드들과 비교할 수 있다. 훈련 데이터세트(212)는 예상 결과들을 포함하므로, 기계 학습 알고리즘(210)은 성능이 수용 가능한 시기를 결정할 수 있다. 기계 학습 알고리즘(210)이 미리 결정된 성능 수준(예를 들어, 훈련 데이터세트(212)와 연관된 성과들과의 100% 일치), 또는 수렴을 달성한 후, 기계 학습 알고리즘(210)은 훈련 데이터세트(212)에 없는 데이터를 사용하여 실행될 수 있다. 본 개시내용에서, "수렴"이 설정된(예를 들어, 미리 결정된) 반복들 횟수가 발생했거나, 잔차가 충분히 작거나(예를 들어, 반복들에 대한 대략적인 확률의 변화가 임계치 미만임), 또는 다른 수렴 조건을 의미할 수 있다는 것이 이해되어야 한다. 훈련된 기계 학습 알고리즘(210)은 주석이 달린 데이터를 생성하기 위해 새로운 데이터세트에 적용될 수 있다.
기계 학습 알고리즘(210)은 높은 사운드 쾌적성에 대응하는 원시 소스 데이터(216)의 특정 특징들 및 낮은 사운드 쾌적성에 대응하는 다른 특징들을 식별하도록 구성될 수 있다. 원시 소스 데이터(216)는 사운드 쾌적성이 원해지는 복수의 인스턴스들 또는 입력 데이터세트를 포함할 수 있다. 예를 들어, 기계 학습 알고리즘(210)은 낮은 쾌적성 점수와 더 자주 대응하지 않는 특정 피치 또는 톤의 존재를 식별하도록 구성될 수 있다. 기계 학습 알고리즘(210)은 원시 소스 데이터(216)를 프로세싱하여 특정 특징들의 존재를 식별하도록 프로그래밍될 수 있다.
원시 소스 데이터(216)는 다양한 소스들로부터 도출될 수 있다. 예를 들어, 원시 소스 데이터(216)는 기계 학습 시스템에 의해 수집된 실제 입력 데이터일 수 있다. 원시 소스 데이터(216)는 시스템 테스트를 위해 기계 생성될 수 있다. 실시예에서, 원시 소스 데이터(216)는 마이크로폰 또는 다른 사운드 센서(예를 들어, 마이크로폰, 피크 검출기 및 증폭기를 갖는 사운드 센서 모듈)로부터 수신된 측정 가능한 사운드 품질들을 포함한다. 노이즈 필터링, 최소 및 최대 임계치들, 피크 검출 등과 같은 다른 전처리는 원시 소스 데이터(216)에 적용될 수 있다. 예를 들어, 마이크로폰이 사운드를 검출할 수 있는 반면, 마이크 시스템(예를 들어, 연관된 프로세서가 장착된 마이크로폰)은 사운드의 측정 가능한 사운드 품질들을 검출하거나 결정할 수 있다.
모델들을 수행하도록 구성된 도 1-도 2의 구조적 예들과 함께, 기계 학습 모델에 대한 위의 설명을 고려하면, 도 3a는 실시예에 따라 사운드의 쾌적성 레이팅을 예측하기 위한 시스템(300)의 흐름도를 예시한다. 시스템(300)은 사운드 쾌적성의 궁극적 예측에 사용될 수 있는 기계 학습 모델(예를 들어, 이진 분류 모델)을 훈련하기 위한 시스템을 포함한다는 점에서 종단간일 수 있다. 물론, 본원의 다른 곳에서 언급된 바와 같이, 시스템(300)은 사운드의 쾌적성을 예측하는 것으로 언급되지만, 그럼에도 불구하고 디바이스에 의해 출력되는 사운드와 연관될 수 있는 진동과 같은 측정 가능한 비-사운드 데이터에 사용될 수 있다.
두 가지 모델들, 즉 이진 분류 모델과 회귀 모델이 도 3a에 도시된다. 도 3a는 이 두 모델들의 사용과 구현을 도시한다. 그러나, 먼저 이러한 모델들은 훈련되어야 한다. 이진 분류 모델을 훈련하기 위해, 입력 데이터는 다수의 인간 심사위원들에 의해 이미 레이팅된 사운드들에 관하여 수신된다. 예로서, 인간 심사위원들은 청취 테스트들에서 열 펌프들, 모터들, 로터들, 차량 엔진, 전동 공구들, 기기들, 컴퓨터들, 랩톱들과 같은 하나 이상의 다양한 디바이스들에서 출력되는 n개의 사운드들을 청취할 수 있다. 청취 테스트들에 대상 디바이스들의 유형들은 사실상 무제한이고 사운드를 생성하는 모든 것을 포함할 수 있다. 심사위원들은 예를 들어 0에서 10까지의 척도로 사운드의 쾌적성에 기반하여 간단히 레이팅할 수 있다. 한편, 사운드들과 연관된 측정 가능한 사운드 데이터는 예를 들어 원시 소스 데이터(216)로서 메모리(208)에 기록된다. 측정 가능한 사운드 데이터는 설명적인 수량들을 포함할 수 있고 스칼라(예를 들어, 음량, 음조, 선명도 등과 같은 심리적 수량들), 1차원 벡터들(예를 들어, 시간에 따른 음량) 또는 2차원 스펙트럼들(예를 들어, FFT(Fast Fourier Transforms) 대 시간과 같은 주파수 분석들)일 수 있다. 상이한 입력 채널들을 사용하여 이러한 측정 가능한 품질들의 조합은 또한 가능하다.
훈련용 모델들을 준비하기 위해, 레이팅된 사운드들은 양방향으로 서로 결합된다(예를 들어, 사운드 n1은 사운드 n2와 비교되고 사운드 n2는 사운드 n1과 비교됨). 측정된 사운드 품질들과 심사위원단 레이팅들 간의 차이들은 양방향으로 계산된다. 이는 쌍별 방식으로 수행될 수 있다. 예를 들어, 각각의 사운드의 측정된 사운드 각각뿐 아니라, 각각의 사운드의 대응 쾌적성 레이팅들에 대해, 데이터는 n개의 쌍별 비교들로 변환된다. n개의 사운드들을 가정하면, 이것은 n2개의 비교 쌍들을 생성한다. 주 대각선(예를 들어, 사운드 2와 사운드 2 비교 같은 사운드가 자신과 비교)은 데이터에서 제거되거나, 0으로 될 수 있다. 마찬가지로, 존재하는 경우, 정확하게 동일한 심사위원단 평가에 의한 사운드들의 비교들(예를 들어, 사운드 7과 사운드 4의 심사위원단 레이팅 사이의 차이가 0임)은 제거될 수 있다. 이러한 쌍별 비교들은 측정 가능한 사운드 데이터와 심사위원단 레이팅에 대해 생성될 수 있다. 모델에 의한 더 나은 프로세싱을 위해 결과 데이터는 스케일링될 수 있다(예를 들어, 0 내지 1의 스케일).
도 3b는 7개의 상이한 사운드들의 쌍별 비교로부터 발생하는 표(350)의 예를 도시한다. 이 예는 사운드 쾌적성에 대한 심사위원단 레이팅들 사이의 차이들을 0 내지 1의 척도로 도시한다. 각각의 열의 가로 헤더는 비교의 제1 사운드를 나타내고, 각각의 행의 세로 헤더는 비교의 제2 사운드를 나타낸다. 이 예시된 예에서, "Sound 1" 열과 "Sound 2" 행의 교차점에 있는 셀은 Sound 1내지 Sound 2의 쾌적성 레이팅 차이이다. 0에서 10까지의 심사위원단 레이팅의 예를 사용하면, 이 쌍별 비교는 -10(10으로 레이팅된 최고 사운드와 비교하여 0으로 레이팅된 최악의 사운드)과 10(0으로 레이팅된 최악의 사운드와 비교하여 10으로 레이팅된 최고의 사운드) 사이의 비교된 2개의 비교된 사운드들 사이의 심사위원단 레이팅 차이들로 이어질 것이다. 대각선의 반대 값들(예를 들어, 사운드 A와 사운드 B, 사운드 B와 사운드 A의 비교)은 값은 동일하지만 대수 기호(+/-)가 다르다. 이어서, 이러한 쌍별 레이팅 차이들은 가장 큰 쌍별 차이(이 예에서 10으로 나눔)로 나누어 스케일 -1에서 1까지 스케일링될 수 있고, 이는 여전히 대각선 반대 값들과의 관계를 유지한다. 0과 1 사이의 스케일링은 2개의 비교 차이(A-B 및 B-A)의 합이 항상 1과 같도록 값들의 시프트를 포함한다. 도 3b에서 볼 수 있듯이, 쌍별 비교들의 총 개수는 사운드들 개수의 제곱에서 자신과 비교한 각각의 사운드 품질의 대각선을 뺀 값, 즉 (n2 - n)과 같다.
도시되지는 않았지만, 쌍별 비교들의 유사한 표들은 각각의 사운드에 대해 측정된 다른 사운드 품질들(예를 들어, 선명도, 음조, 음량 등) 각각에 대해 만들어질 수 있다. 예를 들어, 각각의 사운드의 사운드 품질이 쌍별 방식으로 모든 다른 사운드들의 사운드 품질과 비교되도록, 각각의 사운드의 사운드의 음조가 다른 사운드들 각각의 음조와 비교하는 유한 표가 만들어질 수 있다. 이는 음량, 선명도 등과 같이 측정 가능한 다른 사운드에 대해 수행될 수 있다.
실시예들에 따르면, 시스템에 대한 입력들(예를 들어, 측정된 사운드 품질들 및 심사위원단 레이팅들)은 별도로 또는 개별적으로 이진 분류 모델에 공급되지 않는다. 대신, 이들의 차이들은 위에서 설명된 쌍별 비교에 따라 먼저 계산된다. 이것은 필요한 모델 가중치들의 개수를 줄이고 그러므로 필요한 훈련 데이터 양과 가중치들 최적화 측면에서 더 효율적이다. 추가적으로, 이 접근법은 자동으로 0을 중심으로 하는 입력 변수들을 생성하고, 이는 일반적으로 문제 해결에 적합한 기계 학습 방법들에 유리하다. 차이의 사용은 2개의 비교 사운드들의 사운드 특성(예를 들어, 음량)의 실제 값들에 관계없이 동일한 차이가 항상 동일한 선호도를 가져온다는 가정에 기반한다. 이 가정이 유효하지 않은 경우, 특성 절대 값(예를 들어, 사운드 A의 최대 음압 레벨)은 추가 입력 채널을 통해 모델에 추가로 전송될 수 있고, 이는 위에서 언급된 장점들을 유지하면서, 여전히 더 적은 개수의 모델 파라미터들이 2개의 사운드들의 별도의 전송에 비해 최적화되게 할 것이다.
쾌적성 점수들 및 그 차이들과 관련하여, 이진 분류 모델은 각각의 쾌적성 점수 차이를 이진 값(예를 들어, "0" 또는 "1")으로 덮어써서 훈련될 수 있다. 비교되는 각각의 각자 사운드 레이팅에 대해, 이러한 쌍별 비교들의 출력은 각각의 비교에서 어느 사운드 레이트들이 더 나은지에 따라 이진 값 중 하나로 덮어쓰여진다. 예를 들어, 도 3b를 참조하면, 사운드 2의 심사위원단 레이팅이 사운드 3보다 낫다면(0.88 차이로 표시됨), 그 값은 심사위원단에 의해 사운드 2가 더 쾌적한 것으로 레이팅되는 것을 나타내는 "1"로 덮어쓰기된다. 열 헤더에 있는 사운드의 쾌적성이 행 헤더에 있는 사운드의 쾌적성보다 더 좋은 모든 사운드에 대해, 값은 "1"로 대체될 수 있고; 열 헤더에 있는 사운드의 쾌적성이 열 헤더에 있는 사운드의 쾌적성보다 나쁜 것으로 레이팅되는 모든 사운드에 대해, 값은 "0"으로 대체될 수 있다. 도 3c는 도 3b의 값들을 이진 포맷으로 변환한 결과 이진 표(360)를 예시한다.
다르게 말하면, 이진 분류 모델은 (a) 각각의 사운드의 쾌적성 레이팅과 다른 모든 사운드의 쾌적성 레이팅 간의 차이를 쌍별 방식으로 결정하고, (b) 각각의 쌍별 비교에서 어떤 쾌적성 레이팅이 다른 쾌적성 레이팅을 초과하는지에 따라 차이를 제1 이진 값 또는 제2 이진 값으로 변환하여 훈련될 수 있다.
다른 한편, 측정 가능한 사운드 데이터 입력은 이진 포맷으로 변환될 필요가 없다. 그러나, 각각의 쌍별 비교의 측정 가능한 사운드 품질들 간의 차이는 메모리에 저장되어 이진 분류 모델을 실행할 때 이에 의존할 수 있다. 예를 들어, 사운드 2가 45dB의 음량을 갖고 사운드 3이 72dB의 음량을 갖는 경우, 사운드 2와 사운드 3의 차이는 -27로 저장되고, 사운드 3과 사운드 2의 차이는 27로 저장될 수 있다.
따라서, 이진 분류 모델은 사운드의 이진 분류를 수행하도록 최적화된다. 연관된 사운드 레이팅 비교들로 측정 가능한 사운드 품질들을 프로세싱함으로써, 모델은 측정된 사운드 품질들의 차이에 기반하여 두 사운드들 간의 이진 예측을 수행하도록 구성된다(예를 들어, "1"은 사운드 A가 사운드 B보다 더 쾌적하고, "0"은 사운드 B가 더 쾌적함을 의미함). 이진 분류 모델은 신경망들(예를 들어, 심층 신경망) 또는 이진 분류에 적합한 다른 수학적 방법들(예를 들어, 랜덤 포레스트(Random Forest), 지원 벡터 기계 등)에 의존하여 이러한 예측들을 수행할 수 있다.
이는 이진 분류 모델이 심사위원단에 의해 레이팅되지 않은 새로운 사운드에 대해 동작하게 한다. 도 3a를 참조하면, 시스템(300)은 다음 실시예에 따라 진행될 수 있다. 302에서, 심사위원단에 의해 이미 레이팅된 사운드들은 저장장치로부터 수신되거나 검색된다. 이것은 각각의 사운드의 심사위원단 레이팅 비교들뿐만 아니라 각각의 사운드에 대해 측정 가능한 사운드 품질들, 및 위에 설명된 모든 쌍별 비교들을 포함한다.
304에서, 심사위원단에 의해 채점되지 않은 새로운 사운드(예를 들어, "사운드 X")가 프로세싱된다. 이것은 마이크로폰을 통해 사운드를 수신하는 것, 및/또는 사운드를 프로세싱하여 음량, 선명도 및 음조와 같은 측정 가능한 품질들을 결정하는 것을 포함할 수 있다. 사운드는 또한 위에서 설명된 바와 같이, 스칼라 음향심리 품질들 또는 2차원 스펙트럼과 같이 이미 레이팅된 사운드들이 설명되는 모든 포맷으로 설명될 수 있다.
306에서, 시스템은 레이팅되지 않은 사운드 X와 이미 레이팅된 사운드들의 개수(n) 사이의 쌍별 비교를 수행한다. 이 계산은 음량, 음조, 선명도 등과 같이 304에서 결정된 각각의 측정 가능한 사운드 품질의 쌍별 비교를 포함한다. 사운드 X의 이러한 측정 가능한 사운드 품질들은 쌍별 방식으로 302의 레이팅된 사운드들의 대응하는 측정 가능한 사운드 품질들과 비교된다. 예를 들어, 사운드 X의 음조는 사운드들(1-n) 각각의 음조와 비교된다. 유사한 비교들은 사운드 X와 사운드 1-n 사이의 다른 사운드 품질들(예를 들어, 선명도, 음량) 각각에 대해 이루어진다.
위에서 설명된 바와 같이, 이진 분류 모델은 304와 306으로부터 측정 가능한 사운드 품질 입력들을 별도로 또는 개별적으로 수신하거나 프로세싱하지 않는다. 대신, 각각의 유형의 사운드 품질에 대해, 각각의 사운드들 간의 차이들이 계산되고; 이러한 차이들은 308에서 이진 분류 모델에 대한 입력으로 사용된다. 위에서 설명된 바와 같이, 이것은 필요한 모델 가중치들의 개수를 줄이고 그러므로 필요한 훈련 데이터 양과 가중치들 최적화 측면에서 더 효율적이다.
308에서, 이진 분류 모델은 사운드 X가 다른 사운드들 1-n 각각보다 나은지 여부를 예측한다. 이는 위에서 계산된 차이들(예를 들어, 각각의 사운드에 대해 측정 가능한 사운드 품질들의 쌍별 비교)에 기반하여 위에서 설명한 것들과 같은 신경망들(예를 들어, 랜덤 포레스트, 지원 벡터 머신 등)을 사용하여 수행할 수 있다. 각각의 사운드 비교에 대해, 308에서의 이진 분류 모델의 결과는 사운드 X가 비교된 사운드(예를 들어, 사운드 A)보다 더 쾌적한 것으로 예측되는 경우 "1"을 반환하거나, 사운드 X가 사운드 A보다 덜 쾌적할 것으로 예측되는 경우 "0"을 반환할 수 있다. 실시예에 따르면, 이 결과는 이진 정수일 필요가 없고, 대신 0과 1 사이 범위의 부동 소수점 숫자일 필요가 있으며, 이는 비교 쌍이 0 또는 1로 평가될 확률로 해석될 수 있다. 1에 가까운 예측들은 사운드 X가 사운드 A보다 더 쾌적할 확률이 높은 것으로 해석되고, 0에 가까운 예측은 사운드 X가 사운드 A보다 덜 쾌적할 확률이 높은 것으로 해석된다.
이진 분류 모델의 결과는 이미 레이팅된 다른 모든 사운드와 사운드 X의 비교이다. 심사위원단 레이팅 쾌적성 점수와 함께 레이팅된 사운드들 1-n의 측정 가능한 사운드 품질들에 기반하여, 이진 분류 모델은 각각의 사운드와 비교하여 사운드 X의 쾌적성에 대한 가능성 또는 신뢰도에 관해 0과 1 사이의 점수를 출력하도록 구성된다. 예를 들어, 이진 분류 모델은 사운드 X를 사운드 7과 비교할 때 숫자 0.92를 출력할 수 있고, 이는 사운드 X가 사운드 7보다 더 쾌적한 사운드를 갖는 것으로 심사위원단에 의해 레이팅될 상대적으로 높은 신뢰도를 나타낸다. 대조적으로, 이진 분류 모델은 사운드 X를 사운드 8과 비교할 때 숫자 0.11를 출력할 수 있고, 이는 사운드 X가 사운드 8보다 덜 쾌적한 사운드를 갖는 것으로 심사위원단에 의해 레이팅될 상대적으로 높은 신뢰도를 나타낸다.
308에서의 이진 분류 모델의 출력들은 사운드 X를 임의의 다른 사운드와 비교하기 위해 사용될 수 있다. 이러한 출력들은 사운드별 비교가 필요한 경우 자체적으로 독립적으로 사용된다. 예로서, 사용자는 사운드 X가 심사위원단에 의해 사운드 3, 사운드 5 및/또는 사운드 7보다 더 쾌적할 것으로 레이팅되는지 여부를 알고 싶어할 수 있다. 그러나, 이진 분류 모델(308)의 출력들은 또한 사운드 X의 전반적인 쾌적 레이팅을 생성하는 데 사용될 수 있다. 예를 들어, 회귀 모델은 이진 분류 모델의 훈련에 사용된 이전에 레이팅된 사운드들과 레이팅된 사운드들의 추가 세트를 비교하여 훈련될 수 있다. 이것은 이전에 레이팅된 사운드들과 비교하여 각각의 추가 사운드에 대한 쾌적성 예측들과 함께, 측정된 각각의 사운드 품질에 대한 쌍별 비교를 초래한다. 대안적으로, k개의 대표 사운드들은 이진 분류 모델을 훈련하는데 사용된 이전에 레이팅된 사운드들로부터 선택되고, 이전에 레이팅된 사운드들의 나머지 n-k개의 사운드들과 비교될 수 있다. 이러한 비교들은 회귀 모델을 최적화하기 위한 기초 역할을 하고, 다른 모든 사운드들과의 쌍별 비교에 대한 이진 분류 모델의 예측들을 연속 스케일의 실제 심사위원단 평가로 전송한다. 일단 훈련되면, 회귀 작업은 새로운 사운드(예를 들어, 사운드 X)의 측정 가능한 사운드 품질들을 훈련에서 이미 알려진 것들과 비교할 수 있다.
도 3a에 도시된 예를 참조하면, 310에서 이진 분류 모델(308)에 의해 사용된 사운드 X와 심사위원단 레이팅 사운드들의 수(n) 사이의 모든 쌍별 비교들은 누적된다. 심사위원단 레이팅 사운드들의 개수(n)의 사운드 쾌적성 레이팅은 또한 컴파일될 수 있다. 예를 들어, 여기에 도시된 것처럼, 사운드 X와 사운드 1을 비교한 경우, 0.81은 사운드 1의 쾌적성 레이팅을 나타내고; 사운드 X와 사운드 2의 비교에서, 1.09는 사운드 2의 쾌적성 레이팅을 나타내는 식이다. 위에서 설명된 바와 같이, 이러한 심사위원단 사운드 레이팅들은 여기 310에 도시된 것처럼 0내지 10까지의 스케일일 수 있지만; 0-100 또는 문자 레이팅들("A"부터 "F"까지) 등과 같은 다른 스케일들은 사용될 수 있는 식이다. 310의 마지막 행은 모델 예측을 도시하고, 이는 다시 사운드 X가 비교 사운드 파트너보다 높게 레이팅되는지 낮게 레이팅되는지 여부에 대한 0과 1 사이의 숫자를 나타낸다. 예를 들어, 사운드 X와 사운드 1의 비교는 0.02를 생성하고, 이는 사운드 X가 사운드 1보다 덜 쾌적하다는 높은 정도의 확실성 또는 확률을 나타낸다. 마찬가지로, 사운드 X와 사운드 n의 비교는 0.99를 생성하고, 이는 사운드 X가 사운드 n보다 덜 쾌적하다는 높은 정도의 확실성 또는 확률을 나타낸다.
312의 회귀 작업을 활용하여, 회귀 모델은 사운드 X의 전반적인 쾌적성 레이팅을 출력한다. 사운드 X와 레이팅된 사운드의 비교에 관한 310의 각각의 모델 예측 출력은 312의 회귀 작업에 의해 활용된다. 일반적으로, 회귀 작업은 이진 분류 모델의 예측 목록(예를 들어, 이미 알려진 각각의 사운드와 사운드 X의 비교들) 및 비교 파트너들의 알려진 심사위원단 레이팅들의 목록에서 알려지지 않은 사운드 X의 최종 레이팅 레이팅의 결론을 도출한다. 하나의 접근법은 이진 분류 모델이 사운드 X가 더 낫게 레이팅될 것이라고 이진 분류 모듈이 예측한 가장 낮은 레이팅된 알려진 사운드에 대해 알려진 심사위원단 예측을 취하고, 사운드 X가 더 나쁘게 레이팅될 것을 이진 분류 모델이 예측한 가장 높은 레이팅 사운드에 대해 알려진 심사위원단 예측을 취하는 것이고, 사운드 X의 최종 심사위원단 레이팅으로 이들 2개의 평균을 도출하는 것이다. 다른 더 복잡한 모델들은 비교 사운드들의 알려진 심사위원단 레이팅들의 값 분포를 포함하여 이진 예측 값들의 전체 범위를 고려할 수 있다. 이러한 모델들은 이진 분류기와 마찬가지로, 기계 학습 모델들일 수 있다.
따라서, 회귀 모델(312)은 심사위원단에 의해 레이팅되지 않은 다양한 사운드들의 예측된 쾌적성 점수들을 출력하도록 구성될 수 있다. 이 쾌적성 점수는 심사위원단들에 의해 사용되는 것과 동일한 스케일(예를 들어, 0 내지 10 척도)와 일치하도록 스케일링될 수 있다. 레이팅되지 않은 새로운 사운드들의 예상되는 심사위원단 레이팅을 예측하기 위해, 이러한 사운드들은 음조, 선명도 및/또는 음량과 같은 이진 분류 모델(308)을 훈련하는 데 사용된 것과 동일한 수량들로 먼저 설명되어야 한다. 이어서, 이들 사운드들은 이진 분류 모델(308)의 훈련에 사용된 알려진 사운드들(예를 들어, 302에 설명된 바와 같이)과 쌍을 이루고, 측정된 사운드량들의 차이가 형성된다. 필요한 경우, 이들은 이진 분류 모델의 최적화와 동일한 스케일링 방법을 사용하여 전처리된다. 이어서, 이진 분류 모델(312)은 레이팅이 레이팅되지 않은 새로운 사운드를 이전 레이팅된 사운드와 비교하여 각각의 사운드 비교 쌍에 대해 예측을 한다. 이미 알려진 n 또는 n-k 사운드들과의 예측된 비교 결과들의 결과적인 목록은 연속 스케일의 최종 회귀를 위한 회귀 모델에 의해 사용된다.
도 3의 실시예는 실시예에 따라, 극단 값들의 특정 고려를 포함한다. 새로운 사운드가 모델 훈련에 사용된 사운드보다 나쁠 것으로 예측되면, 최악의 훈련 레이팅에서 모든 훈련 사운드들의 평균 차이를 뺀 값이 새로운 사운드에 할당된다. 반대로, 새로운 사운드가 주어진 훈련 사운드보다 더 좋을 것으로 예측되면, 최고의 훈련 레이팅과 모든 훈련 사운드들의 평균 차이가 새로운 사운드에 할당된다.
도 3의 실시예는 또한 0들과 1들의 목록들에 기반하지 않고 제2 후속 회귀 모델을 사용하여 예측된 확률들에 기반하여 최종 회귀 결정을 내린다. 이를 위해, 쌍별 비교들의 예측은 0이나 1로 반올림되지 않고, 0과 1 사이의 부동 소수점 숫자로 남겨지며, 이는 이벤트가 비교 사운드보다 좋거나 나쁠 확률로 해석될 수 있다. 이어서, 제2 모델(예를 들어, 회귀 모델)은 제1 모델(예를 들어, 이진 분류 모델)에 의해 수행된 쌍 비교들의 예측 확률들에 기반하여 새로운 사운드에 대한 최종 회귀 결정을 내린다. 이는 제2 모델이 이제 이진 분류보다 더 복잡한 회귀 작업을 해결해야 하지만, 제1 모델에서 수행되는 광범위한 전처리의 이점을 누릴 수 있음을 의미한다.
도 3의 실시예는 두 사운드의 차이가 이진 분류 모델의 입력으로 사용되므로, 쌍 비교들의 이진 분류와 관련하여 효율적이다. 추가적으로, 이 실시예는 극단 값들을 고려하고, 특히 이미 라벨링된 훈련 사운드들의 개수가 증가하는 경우, 0들과 1들의 2개의 목록들에 기반한 최종 회귀 결과의 단순 추정보다 더 정확한 예측을 가능하게 한다.
도 4는 레이팅되지 않은 사운드의 쾌적성 레이팅을 결정하기 위한 시스템(400)의 흐름도의 대안적인 실시예를 예시한다. 다시, 도 4에 도시된 흐름도에 예시된 단계들은 예를 들어 도 1-도 2에 예시된 구조를 사용하여 수행될 수 있다. 쌍별 분류들이 사용되는 도 3을 참조하여 위에서 설명된 방법들과 달리, 여기서 이 실시예에 따르면, 쌍별 상대 회귀 문제들은 절대 쌍별 예측 값들에 대한 후속 평균과 함께 사용된다.
일반적으로 회귀 문제는 함수()를 찾는 작업으로 공식화될 수 있으므로, 훈련 데이터 세트()의 모든 개의 샘플 쌍들()을 통해, 손실률()의 에러는 최소화되고, 이다. 도 4의 예에서, x는 측정된 사운드의 사운드 품질이고, y는 예를 들어 0에서 10까지 스케일링될 수 있는 점수이다. 본원에 사용된 쌍별 상대 회귀는 함수()를 찾는 문제로 공식화될 수 있으므로, 훈련 데이터 세트()의 모두(), 에러 또는 손실률()이 최소화된다. 후속하여, 절대 스케일로의 복귀가 쌍별 상대 회귀의 예측에 대한 적절한 평균화에 의해 수행되고, 예를 들어 음의 지수 회귀 차이를 기반으로 한 가중치로 평균화하여 입력 데이터 공간에서 적합한 거리 메트릭(예를 들어, 유클리드 표준)으로서 를 갖는 로서 음의 지수 회귀 차이에 기반한 가중으로 예를 들어 평균화함으로써 손실 값을 로서 계산한다. 여기서 는 사운드 i에 대한 최종 레이팅 예측이고, 는 사운드 i와 j 사이의 레이팅 차이에 대한 회귀 모델의 예측이고, 는 비교 사운드 j의 알려진 레이팅이고, M은 평균 함수이고, 는 상수이고, 입력 특징 공간에서 사운드들 i와 j의 수량들(예를 들어, i와 j의 음량 값들)이다. 에러 또는 손실률(L)에 대한 예시적인 옵션은 훈련 값의 평균 제곱 편차들("Root Mean Square Error")의 제곱근()이다.
도 4를 참조하면, 시스템(400)은 아래에 설명되는 회귀 예측 모델을 포함한다. 먼저, 모델은 훈련된다. 훈련은 도 3을 참조하여 위에서 설명된 것과 유사한 훈련 데이터를 포함할 수 있다. 예를 들어, 회귀 예측 모델은 청취 테스트들에서 한 명 이상의 인간 심사위원들에 의해 이미 레이팅된 사운드들을 사용하는 기계 학습 방법들(예를 들어, 인공 신경망)에 기반하여 훈련될 수 있다. 이 모델에서 입력 데이터로 사용되는 설명 수량들은 스칼라(예를 들어, 음량, 음조, 선명도), 1차원 벡터들(예를 들어, 음량 대 시간), 2차원 스펙트럼(예를 들어, FFT 대 시간) 또는 상이한 표현들의 조합일 수 있다. 모델 훈련을 준비하기 위해, 레이팅된 모든 사운드들은 양방향들로 서로 결합된다(예를 들어, 사운드 A와 B 비교, 사운드 B와 A 비교). 이어서 쌍의 입력 데이터는 별도의 입력 채널들을 통해, 비교된 두 사운드들의 특징들의 차이를 수신하는 하나의 입력 채널을 통해, 또는 추가 특성 수량들과 함께 차이의 조합을 사용하여 회귀 예측 모델에 공급될 수 있다. 출력 변수로서, 쌍을 이룬 사운드들의 심사위원 평가들의 차이가 형성된다. n개의 사운드들의 경우, 이는 n² 비교 쌍들을 생성한다. 사운드 차이가 입력으로 사용되는 경우, 주대각선의 입력 및 출력량이 모두 0이므로, 주대각선에 대한 비교들은 제거될 수 있다(위의 도 3b와 유사). 이어서, 입력 데이터는 알고리즘에 의한 더 나은 프로세싱을 위해 스케일링될 수 있다. 회귀 예측 모델의 타겟 변수는 비교된 두 사운드들에 대한 심사위원 레이팅들의 차이이다. 이어서, 모델은 한 쌍의 입력 변수들이 제공될 때 두 심사위원 레이팅들의 차이를 예측하도록 최적화된다.
일단 훈련되면, 이것은 회귀 예측 모델이 심사위원에 의해 레이팅되지 않은 새로운 사운드에 대해 작용하게 한다. 도 4를 참조하면, 시스템(400)은 다음 실시예에 따라 진행될 수 있다. 402에서, 심사위원단에 의해 이미 레이팅된 사운드들은 저장장치로부터 수신되거나 검색된다. 이것은 각각의 사운드의 심사위원단 레이팅 비교들뿐만 아니라 각각의 사운드에 대해 측정 가능한 사운드 품질들, 및 위에 설명된 모든 쌍별 비교들을 포함한다. 이들 심볼들()의 개수는 에 대해 수신 또는 검색된다.
404에서, 심사위원단에 의해 채점되지 않은 새로운 사운드(예를 들어, "")가 프로세싱된다. 이것은 마이크로폰을 통해 사운드를 수신하는 것, 및/또는 사운드를 프로세싱하여 음량, 선명도 및 음조와 같은 측정 가능한 품질들을 결정하는 것을 포함할 수 있다. 사운드는 또한 위에서 설명된 바와 같이, 스칼라 음향심리 품질들 또는 2차원 스펙트럼과 같이 이미 레이팅된 사운드들이 설명되는 모든 포맷으로 설명될 수 있다.
[3] 이어서 쌍별 상대 회귀 예측 모델로 또한 지칭되는 회귀 예측 모델(406)은 이후 쌍별 방식으로 이 데이터에 작용하여, 레이팅되지 않은 사운드 xi의 측정된 사운드 품질들을 각각의 심사위원 레이팅된 사운드()의 측정된 사운드 품질과 비교한다. 모델은 모든 쌍 비교들에 대해 새로운 사운드에 대한 심사위원 레이팅과 각자의 비교 사운드 간의 차이를 예측한다. 위의 예들에 따라 훈련된 모델을 사용하여, 회귀 예측 모델(406)은 의 사운드 품질을 의 사운드 품질과 비교하고 이미 레이팅된 사운드()의 알려진 심사위원 레이팅과 함께 2개의 비교된 품질들에 기반하여 예측()을 출력할 수 있다.
40의 예에는 에 대한 각각의 사운드()와 비교되는 예측된 사운드()의 레이팅이 도시된다. 이 예에서, 레이팅되지 않은 새로운 사운드()를 사운드()와 비교할 때, 모델은 새로운 사운드()가 심사위원 레이팅되어 비교된 사운드()의 알려진 레이팅()보다 +4.15 더 높은 레이팅()을 가질 것으로 예측한다. 즉, 모델은 사운드()와 사운드()의 쌍별 비교에 대해 4.15의 예측된 쾌적성 차이 레이팅을 출력한다. 이 프로세스는 사운드들의 개수()까지 각각의 사운드()에 대해 계속되고, 레이팅되지 않은 사운드를 각각에 비교한다. 이 예에서, 사운드()에서, 모델은 레이팅되지 않은 사운드()와 레이팅된 사운드()사이의 레이팅들의 차이를 -4.5로 예측한다. 즉, 0에서 10까지의 스케일에서의 레이팅은 레이팅되지 않은 사운드()의 경우 4.5가 적다.
408에서, 회귀 예측 모델(406)의 출력으로부터의 비교 결과들은 요약을 위해 컴파일되거나 누적된다. 즉, 레이팅되지 않은 사운드()와 각각의 각자 레이팅된 사운드() 간의 레이팅들의 차이가 컴파일된다. 제1 행은 레이팅되지 않은 사운드와 비교되는 각각의 사운드의 알려진 레이팅()을 도시한다. 예를 들어, 제1 사운드()에 대한 사운드 쾌적성의 심사위원 평균 레이팅()은 0.81이고; 제2 사운드()의 사운드 쾌적성에 대한 심사위원 평균 레이팅()은 1.09 등이다. 각각의 사운드에 대해, 이 숫자는 회귀 예측 모델(406)의 출력과 추가되거나 결합되어 합산 레이팅()에 도달한다. 이는 회귀 예측 모델을 사용하여 이미 레이팅된 각각의 사운드와의 비교에 기반하여 레이팅되지 않은 사운드의 예측 레이팅을 나타낸다.
410에서, 시스템은 합산된 모든 레이팅들의 가중 평균을 결정한다. 일 실시예들에서, 실제 평균과의 차이에 따라 합산된 레이팅 각각에 가중치가 부여된다. 예를 들어, 합산된 레이팅들이 평균에서 점점 벗어날수록, 이들 합산된 레이팅들에 부여되는 가중치는 감소된다. 이는 평균에 가까운 레이팅들을 더 크게 가중한다.
결과 가중 평균은 레이팅되지 않은 새로운 사운드의 전반적인 예측 쾌적성 레이팅()을 나타낸다. 따라서, 시스템(400)은 측정된 사운드 품질들을 회귀 예측 모델에서 이미 심사위원 레이팅된 사운드의 사운드 품질들과 비교함으로써 레이팅되지 않은 사운드의 쾌적성 레이팅을 예측할 수 있다.
일반적으로, 회귀 예측 모델이 훈련되면, 이는 레이팅되지 않은 새로운 사운드에 대한 예상 심사위원 레이팅을 예측하는 데 사용할 수 있다. 레이팅되지 않은 새로운 사운드들에 예상되는 심사위원 레이팅을 예측하기 위해, 레이팅되지 않은 사운드들은 먼저 모델을 훈련하는 데 사용된 것과 동일한 양들(예를 들어, 음량, 음조, 선명도 등)으로 설명되어야 한다. 이어서, 측정된 각각의 사운드 품질은 모델 훈련에 사용된 이미 레이팅된 사운드들의 각각의 대응 사운드 품질과 쌍을 이룬다. 쌍 비교들의 입력 양들이 도출된다. 필요한 경우, 이들은 모델의 최적화와 동일한 스케일링 방법을 사용하여 전처리된다. 이어서, 모델은 모든 쌍 비교들에 대해 새로운 사운드에 대한 심사위원 레이팅과 각자의 비교 사운드 간의 차이를 예측한다. 이제, 레이팅되지 않은 사운드의 원하는 심사위원 레이팅은 알려진 모든 사운드 레이팅 더하기 레이팅되지 않은 사운드에 대한 연관된 예측 차이의 대응 가중 평균을 계산하여 결정될 수 있다.
도 3의 실시예 및 다른 시스템들과 비교되는 도 4의 시스템의 한 가지 장점은 초기 회귀 작업을 분류 문제로 변환하는 중간 단계가 필요하지 않다는 것이다. 분류 작업으로 변환하는 경우, 분류 문제의 변동 영역에 있는 샘플만(따라서 예측 "0 - 새로운 사운드가 작은 음조/덜 쾌적함/..."과 "1 - 새로운 사운드가 더 큰 음조/쾌적함)/...” 사이에서)이 예측 결과에 기여할 수 있고, 상대 회귀 접근법의 경우 모든 훈련 샘플들의 쌍 비교들은 이에 기여할 수 있고, 이는 예측 정확도를 향상시킬 수 있다.
특히 모델을 훈련하거나 회귀 함수를 보정하는 데 소량의 데이터들만 이용 가능한 경우, 특히 수립된 방법들에 비해 장점들이 달성될 수 있다. 비교 쌍의 2개의 샘플들의 데이터를 모델에 공급하는 것은 (a) 개별적으로(예를 들어, 인공 신경망의 두 개의 서로 다른 입력 채널을 통해) 로서, (b) 두 샘플들의 차이()로 또는 (c) 샘플들과 하나 이상의 추가 특성량들 사이의 차이()의 조합으로 수행될 수 있다. 접근법 (a)는 특히 샘플들의 고차원 표현(예를 들어, 음향 작업들의 경우 사운드들의 단기 스펙트럼 또는 시간 신호들)의 경우 적합하지만, 변형들 (b) 및 (c)는 특히 샘플들의 저차원 표현들에 적합하다(예를 들어, 음향 작업들의 경우 1차원 음향심리량의 조합).
게다가, 도 4에서 설명된 방법은 개념적으로 더 간단하고 분류 문제를 회귀 문제로 변환하는 단계는 더 이상 필요하지 않지만, 상대 회귀 값들에 대한 평균으로 대체된다.
위에 설명된 시스템들과 방법들은 예를 들어 제품들에 의해 방출되는 사운드의 음향 특성들(예를 들어, 사운드의 쾌적함, 음량, 음조 등)과 관련하여 제품들의 제어를 최적화하는 데 사용될 수 있다. 이러한 최적화는 제품 개발 프로세스 과정에서 그리고 제품 적용 시 동적으로 이루어질 수 있다. 사용 사례의 예는 위에서 설명된 시스템들이 (i) 센서(마이크로폰, 가속도 센서 등)를 사용하여 제품에서 방출되는 사운드 품질들을 측정하고, (ii) 시스템에 이미 알려진 사운드들의 사운드 품질과의 쌍별 비교에 기반하여 쾌적함을 레이팅하는 인구가 밀집된 주거 지역의 열 펌프이다. 이어서, 이 평가는 현재 동작 지점에서 열 펌프 제어를 최적화하여 열 펌프에 의해 생성되는 사운드를 변경할 수 있다.
음향 특성들이 제안된 접근법을 사용하여 최적화될 수 있는 디바이스들의 다른 예들은 전기 차량들, 전동 공구 및 다른 디바이스들을 사용하여 최적화될 있다. 이들의 예들은 도 6-도 11에 도시되고 아래에 설명되어 있다. 이러한 애플리케이션들(및 다른 애플리케이션들)에 대한 기계 학습 모델을 훈련하고 사용하는 데 사용되는 구조는 도 5에 예시되어 있다.
도 5는 실시예에 따른 컴퓨터 제어 기계(500)와 제어 시스템(502) 사이의 상호작용의 개략도를 묘사한다. 컴퓨터 제어 기계(500)는 액추에이터(504)와 센서(506)를 포함한다. 액추에이터(504)는 하나 이상의 액추에이터들을 포함할 수 있고, 센서(506)는 하나 이상의 센서들을 포함할 수 있다. 센서(506)는 컴퓨터 제어 기계(500)의 상태를 감지하도록 구성된다. 센서(506)는 감지된 조건을 센서 신호들(508)로 인코딩하고 센서 신호들(508)을 제어 시스템(502)에 전송하도록 구성될 수 있다. 센서(506)의 비제한적인 예들은 마이크로폰, 비디오, 레이더, LiDAR, 초음파 및 모션 센서들을 포함한다.
제어 시스템(502)은 컴퓨터 제어 기계(500)로부터 센서 신호(508)를 수신하도록 구성된다. 아래에 설명된 바와 같이, 제어 시스템(502)은 센서 신호들에 따라 액추에이터 제어 커맨드들(510)을 계산하고 컴퓨터 제어 기계(500)의 액추에이터(504)에 액추에이터 제어 커맨드들(510)을 전송하도록 추가로 구성될 수 있다. 실시예에서, 제어 시스템(502)은 본원에 설명된 모델들의 출력들에 따라 액추에이터 제어 커맨드들(510)을 계산하도록 추가로 구성될 수 있다. 예를 들어, 액추에이터 제어 커맨드들(510)은 본원에 설명된 모델들을 사용하여 레이팅되지 않은 사운드의 예측된 쾌적성에 기반하여 계산될 수 있다. 하나 이상의 디바이스들에서 방출되는 사운드가 임계치 미만의 쾌적성 레이팅을 갖는 것으로 예측되는 경우, 시스템은 각각의 하나 이상의 디바이스들을 분리하거나 구성하도록 액추에이터에 커맨딩할 수 있다.
도 5에 도시된 바와 같이, 제어 시스템(502)은 수신 유닛(512)을 포함한다. 수신 유닛(512)은 센서(506)로부터 센서 신호들(508)을 수신하고 센서 신호들(508)을 입력 신호들 x로 변환하도록 구성될 수 있다. 대안적인 실시예에서, 센서 신호들(508)은 수신 유닛(512) 없이 입력 신호들 x로서 직접 수신된다. 각각의 입력 신호 x는 각각의 센서 신호(508)의 일부일 수 있다. 수신 유닛(512)은 각각의 센서 신호(508)를 프로세싱하여 각각의 입력 신호 x를 생성하도록 구성될 수 있다. 입력 신호 x는 센서(506)에 의해 기록된 이미지에 대응하는 데이터를 포함할 수 있다.
제어 시스템(502)은 분류기(514)를 포함한다. 분류기(514)는 위에서 설명된 신경망과 같은 기계 학습 알고리즘을 사용하여 입력 신호들 x를 하나 이상의 라벨로 분류하도록 구성될 수 있다. 분류기(514)는 위에서 설명된 것들과 같은 파라미터(예를 들어, 파라미터(θ))에 의해 파라미터화되도록 구성된다. 파라미터들(θ)은 비휘발성 저장장치(516)에 저장되고 제공될 수 있다. 분류기(514)는 입력 신호들 x로부터 출력 신호들 y를 결정하도록 구성된다. 각각의 출력 신호 y는 각각의 입력 신호 x에 하나 이상의 레이블들을 배정하는 정보를 포함한다. 분류기(514)는 출력 신호들 y를 변환 유닛(518)으로 송신할 수 있다. 변환 유닛(518)은 출력 신호 y를 액추에이터 제어 커맨드들(510)로 변환하도록 구성된다. 제어 시스템(502)은 액추에이터 제어 커맨드들(510)을 액추에이터(504)에 송신하도록 구성되고, 이는 액추에이터 제어 커맨드들(510)에 응답하여 컴퓨터 제어 기계(500)를 동작시키도록 구성된다. 다른 실시예에서, 액추에이터(504)는 출력 신호들 y에 직접적으로 기반하여 컴퓨터 제어 기계(500)를 동작시키도록 구성된다.
액추에이터(504)에 의해 액추에이터 제어 커맨드들(510)을 수신하면, 액추에이터(504)는 관련된 액추에이터 제어 커맨드(510)에 대응하는 동작을 실행하도록 구성된다. 액추에이터(504)는 액추에이터 제어 커맨드들(510)을 액추에이터(504)를 제어하는 데 사용되는 제2 액추에이터 제어 커맨드로 변환하도록 구성된 제어 로직을 포함할 수 있다. 하나 이상의 실시예들에서, 액추에이터 제어 커맨드들(510)은 액추에이터 대신에 또는 그에 더하여 디스플레이를 제어하기 위해 활용될 수 있다.
다른 실시예에서, 제어 시스템(502)은 센서(506)를 포함하는 컴퓨터 제어 기계(500) 대신에 또는 그에 추가하여 센서(506)를 포함한다. 제어 시스템(502)은 또한 액추에이터(504)를 포함하는 컴퓨터 제어 기계(500) 대신에 또는 이에 더하여 액추에이터(504)를 포함할 수도 있다.
도 5에 도시된 바와 같이, 제어 시스템(502)은 또한 프로세서(520) 및 메모리(522)를 포함한다. 프로세서(520)는 하나 이상의 프로세서들을 포함할 수 있다. 메모리(522)는 하나 이상의 메모리 디바이스들을 포함할 수 있다. 하나 이상의 실시예들의 분류기(514)(예를 들어, 이진 분류 모델과 관련하여 위에서 설명된 것과 같은 기계 학습 알고리즘)는 비휘발성 저장장치(516), 프로세서(520) 및 메모리(522)를 포함하는 제어 시스템(502)에 의해 구현될 수 있다.
비-휘발성 저장장치(516)는 하드 드라이브, 광학 드라이브, 테이프 드라이브, 비-휘발성 고체-상태 디바이스, 클라우드 저장장치 또는 정보를 지속적으로 저장할 수 있는 임의의 다른 디바이스와 같은 하나 이상의 지속적 데이터 저장 디바이스들을 포함할 수 있다. 프로세서(520)는 고성능 코어들, 마이크로프로세서들, 마이크로-제어기들, 디지털 신호 프로세서들, 마이크로컴퓨터들, 중앙 처리 유닛들, 필드 프로그래밍가능 게이트 어레이들, 프로그래밍가능 논리 디바이스들, 상태 머신들, 논리 회로들, 아날로그 회로들, 디지털 회로들, 또는 메모리(522)에 상주하는 컴퓨터-실행가능 명령들에 기반한 신호들(아날로그 또는 디지털)을 조작하는 임의의 다른 디바이스들을 포함하는 고성능 컴퓨팅(HPC) 시스템들로부터 선택된 하나 이상의 디바이스들을 포함할 수 있다. 메모리(522)는 단일 메모리 디바이스 또는 랜덤 액세스 메모리(RAM), 휘발성 메모리, 비-휘발성 메모리, 정적 랜덤-액세스 메모리(SRAM), 동적 랜덤 액세스 메모리(DRAM), 플래시 메모리, 캐시 메모리, 또는 정보를 저장할 수 있는 임의의 다른 디바이스를 포함(그러나 이에 제한되지 않음)하는 다수의 메모리 디바이스들을 포함할 수 있다.
프로세서(520)는 메모리(522)를 판독하고 비휘발성 저장장치(516)에 상주하며 하나 이상의 기계 학습 알고리즘 및/또는 하나 이상의 실시예들의 방법론들을 구현하는 컴퓨터 실행가능 명령들을 실행하도록 구성될 수 있다. 비휘발성 저장장치(516)는 하나 이상의 운영 체제들 및 애플리케이션들을 포함할 수 있다. 비휘발성 저장장치(516)는 Java, C, C++, C #, Objective C, 포트란, 파스칼, 자바 스크립트, 파이썬, 펠(Perl), 및 PL/SQL을 제한 없이 포함하는 다양한 프로그래밍 언어들 및/또는 기술들을 사용하여 생성된 컴퓨터 프로그램들로부터 컴파일링되거나 해석될 수 있다.
프로세서(520)에 의해 실행될 때, 비휘발성 저장장치(516)의 컴퓨터 실행가능 명령들은 제어 시스템(502)이 본원에 개시된 기계 학습 알고리즘 및/또는 방법론들 중 하나 이상을 구현하게 할 수 있다. 비-휘발성 저장장치(516)는 또한 본원에 설명된 하나 이상의 실시예들의 기능들, 특징들 및 프로세스들을 지원하는 기계 학습 데이터(데이터 파라미터들을 포함함)를 포함할 수 있다.
본원에 설명된 알고리즘들 및/또는 방법론들을 구현하는 프로그램 코드는 다양한 상이한 형태들의 프로그램 제품으로서 개별적으로 또는 집합적으로 배포될 수 있다. 프로그램 코드는 프로세서가 하나 이상의 실시예들의 양태들을 수행하게 하기 위한 컴퓨터 판독가능 프로그램 명령들을 갖는 컴퓨터 판독가능 저장 매체를 사용하여 배포될 수 있다. 본질적으로 비일시적인 컴퓨터 판독가능 저장 매체는 컴퓨터 판독가능 명령들, 데이터 구조, 프로그램 모듈들 또는 다른 데이터와 같은 정보 저장을 위한 모든 방법이나 기술로 구현된 휘발성 및 비휘발성, 제거 가능 및 제거 불가능 유형의 매체를 포함할 수 있다. 컴퓨터 판독가능 저장 매체는 RAM, ROM, EPROM(Erasable Programmable Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), 플래시 메모리 또는 다른 솔리드 스테이트 메모리 기술, 휴대용 컴팩트 디스크 판독전용 메모리(CD-ROM) 또는 다른 광학 저장장치, 자기 카세트, 자기 테이프, 자기 디스크 저장장치 또는 다른 자기 저장 디바이스들, 또는 원하는 정보를 저장하는 데 사용될 수 있고 컴퓨터에 의해 판독될 수 있는 임의의 다른 매체를 더 포함할 수 있다. 컴퓨터 판독가능 프로그램 명령들은 컴퓨터 판독가능 저장 매체로부터 컴퓨터, 다른 유형의 프로그램 가능한 데이터 프로세싱 장치, 또는 다른 장치로 다운로드되거나 네트워크를 통해 외부 컴퓨터나 외부 저장 디바이스로 다운로드될 수 있다.
컴퓨터 판독가능 매체에 저장된 컴퓨터 판독가능 프로그램 명령들은 컴퓨터, 다른 유형들의 프로그램 가능한 데이터 프로세싱 장치 또는 다른 장치가 특정 방식으로 기능하도록 지시하는 데 사용될 수 있고, 따라서 컴퓨터 판독가능 매체에 저장된 명령들은 순서도들이나 다이어그램들에 지정된 기능들, 작용들 및/또는 동작들을 구현하는 명령들을 포함한 제조 물품을 생성한다. 소정의 대안적인 실시예들에서, 흐름도들 및 다이어그램들에 명시된 기능들, 작용들 및/또는 동작들은 하나 이상의 실시예들에 따라 재배열되고, 연속적으로 프로세싱되고/되거나 동시에 프로세싱될 수 있다. 게다가, 임의의 흐름도들 및/또는 다이어그램들은 하나 이상의 실시예들에 따라 예시된 것보다 더 많거나 더 적은 노드들 또는 블록들을 포함할 수 있다.
프로세스들, 방법들, 또는 알고리즘들은 주문형 집적 회로(ASIC)들, 필드-프로그램가능 게이트 어레이(FPGA)들, 상태 머신들, 제어기들 또는 다른 하드웨어 컴포넌트들 또는 디바이스들, 또는 하드웨어, 소프트웨어 및 펌웨어 컴포넌트들의 조합 같은 적합한 하드웨어 컴포넌트들을 사용하여 전체적으로 또는 부분적으로 구현될 수 있다.
도 6은 적어도 부분적으로 자율적인 차량이거나 적어도 부분적으로 자율적인 로봇일 수 있는 차량(600)을 제어하도록 구성된 제어 시스템(502)의 개략도를 묘사한다. 차량(600)은 액추에이터(504)와 센서(506)를 포함한다. 센서(506)는 하나 이상의 마이크로폰들, 비디오 센서들, 카메라들, 레이더 센서들, 초음파 센서들, LiDAR 센서들 및/또는 포지션 센서들(예를 들어, GPS)을 포함할 수 있다. 하나 이상의 특정 센서들 중 하나 이상은 차량(600) 또는 차량의 일부에 통합될 수 있다.
차량(600)의 제어 시스템(502)의 분류기(514)는 입력 신호들 x에 따라 차량(600) 부근의 객체들을 검출하도록 구성될 수 있다. 그러한 실시예에서, 출력 신호 y는 차량(600)에 대한 객체들의 근접성을 특징짓는 정보를 포함할 수 있다. 액추에이터 제어 커맨드(510)는 이 정보에 따라 결정될 수 있다. 액추에이터 제어 커맨드(510)는 검출된 객체들과의 충돌들을 피하기 위해 사용될 수 있다. 본원의 교시들은 카메라에 의해 캡처된 이미지들과 연관된 이미지 데이터가 이들 이미지들의 예측된 쾌적성 레이팅으로 이어질 수 있는 이러한 특정 실시예에 적용될 수 있다. 이어서, 차량에 의해 캡처된 장면들은 쾌적할 수 있거나(예를 들어, 구릉진 시골길에서 운전) 쾌적하지 않을 수(예를 들어, 교통 체증) 있는 것으로 예측될 수 있다.
차량(600)이 적어도 부분적으로 자율 로봇인 다른 실시예들에서, 차량(600)은 비행, 수영, 다이빙 및 걷기와 같은 하나 이상의 기능들을 수행하도록 구성된 모바일 로봇일 수 있다. 본원의 교치들에 따르면, 쾌적하거나 쾌적하지 않을 것으로 예측되는 사운드들은 이들 디바이스들로부터 방출될 수 있다. 모바일 로봇은 적어도 부분적으로 자율적인 잔디 깎기 기계이거나 적어도 부분적으로 자율적인 청소 로봇일 수 있다. 이러한 실시예들에서, 액추에이터 제어 커맨드(510)는 모바일 로봇이 움직임이나 사운드들의 예측된 쾌적함에 기반하여 더 쾌적한 움직임들 또는 사운드들을 만들 수 있도록 이동 로봇의 추진 유닛, 조향 유닛 및/또는 브레이크 유닛이 제어될 수 있게 결정될 수 있다.
차량(600)은 가정용 기기 형태의 적어도 부분적으로 자율적인 로봇일 수 있다. 가전 기기들의 비제한적인 예들은 세탁기, 스토브, 오븐, 전자레인지 또는 식기세척기를 포함한다. 그러한 차량(600)에서, 센서(506)는 가전 제품에 의해 방출되는 사운드를 검출하도록 구성된 마이크로폰일 수 있다. 예를 들어, 가전 제품이 세탁기인 경우, 센서(506)는 세탁기의 동작과 연관된 소음들을 검출할 수 있고, 여기서 그 사운드의 예측된 쾌적성은 본원에 설명된 방법들에 기반하여 결정될 수 있다. 이러한 동작은 가정이나 가전제품에 로컬이 아닌 외부 서버들을 포함할 수 있다. 이어서 서버는 세탁기에 동작을 중단하라는 신호를 전송하거나, 불쾌한 사운드가 방출되는 것에 기반하여 기기에 수리가 필요할 수 있다는 신호를 기기 제조업체나 관리자에게 전송할 수 있다.
도 7은 생산 라인의 일부와 같은 제조 시스템(702)의 펀치 커터, 커터 또는 건 드릴과 같은 시스템(700)(예를 들어, 제조 기계)을 제어하도록 구성된 제어 시스템(502)의 개략도를 묘사한다. 제어 시스템(502)은 시스템(700)(예를 들어, 제조 기계)을 제어하도록 구성되는 액추에이터(504)를 제어하도록 구성될 수 있다.
시스템(700)(예를 들어, 제조 기계)의 센서(506)는 제조된 제품(704)의 하나 이상의 특성들을 캡처하도록 구성된 광학 센서일 수 있다. 분류기(514)는 광학 센서에 의해 캡처된 이미지의 쾌적성을 분류하도록 구성될 수 있다. 액추에이터(504)는 제조된 제품(704)의 예측된 쾌적성에 따라 시스템(700)(예를 들어, 제조 기계)을 제어하도록 구성될 수 있다. 액추에이터(504)는 제조된 제품(704)의 예측된 쾌적성에 따라 시스템(700)(예를 들어, 제조 기계)의 후속 제조 제품(706)에 대한 시스템(700)(예를 들어, 제조 기계)의 기능을 제어하도록 구성될 수 있다.
도 8은 적어도 부분적으로 자율 모드를 갖는 전동 드릴 또는 드라이버와 같은 전동 공구(800)를 제어하도록 구성된 제어 시스템(502)의 개략도를 묘사한다. 제어 시스템(502)은 전동 공구(800)를 제어하도록 구성된 액추에이터(504)를 제어하도록 구성될 수 있다.
전동 공구(800)의 센서(506)는 공구가 작업 표면(802)에서 동작될 때 및/또는 패스너(804)가 작업 표면(802)에 박혀 있을 때 하나 이상의 사운드들을 캡처하도록 구성된 마이크로폰일 수 있다. 분류기(514)는 그러한 사운드들의 쾌적성을 분류하거나 예측하도록 구성될 수 있다. 이는 전동 공구(800)의 제조자에게 제품이 다양한 표면들이나 패스너들에서 작업하는 동안 쾌적한 사운드들을 낼 것인지 여부를 더 잘 알릴 수 있다. 이것은 인간들의 심사위원단들이 다양한 표면들이나 패스너들에서 다양한 도구들을 작동하는 것을 들어야 하는 것을 제거할 수 있고, 이는 끝없는 작업일 수 있다. 액추에이터(504)는 전동 공구(800)의 구동 기능이 예측된 사운드의 쾌적성에 따라 조정되도록 전동 공구(800)를 제어하도록 구성될 수 있다. 예를 들어, 액추에이터(504)는 예를 들어 예측된 사운드의 쾌적성이 패스너(804)의 상태가 작업 표면(802)에 대해 같은 높이에 있지 않다는 것을 나타내는 경우, 구동 기능을 중단할 수 있다. 다른 비제한적인 예로서, 액추에이터(504)는 작업 표면(802)의 경도에 따라 추가 또는 더 적은 토크를 가할 수 있다.
도 9는 자동화된 개인 어시스턴트(900)를 제어하도록 구성된 제어 시스템(502)의 개략도를 묘사한다. 센서(506)는 마이크로폰 또는 카메라일 수 있고, 개인 어시스턴트(900)에 의해 캡처된 사운드들 또는 이미지들은 본원의 교시들에 따라 캡처된 이미지들 또는 사운드들의 쾌적성을 예측하는 시스템에 (예를 들어, 무선 신호들을 통해) 전달될 수 있다.
도 10은 모니터링 시스템(1000)을 제어하도록 구성된 제어 시스템(502)의 개략도를 묘사한다. 일 실시예에서, 모니터링 시스템(1000)은 센서(506), 예를 들어 카메라에 의해 캡처된 이미지들에 기반하여 도어(1002)를 통한 접근을 물리적으로 제어하거나, 캡처된 이미지들을 디스플레이(1004)에 디스플레이하도록 구성될 수 있다. 도어(1002)의 제어는 예를 들어 카메라에 의해 캡처된 하나 이상의 객체들의 예측된 쾌적성에 기반하여 승인되거나 거부될 수 있다.
도 11은 디스플레이(1102), 예를 들어 MRI 장치, x-선 이미징 장치 또는 초음파 장치에 이미지들을 디스플레이하는 이미징 시스템(1100)을 제어하도록 구성된 제어 시스템(502)의 개략도를 묘사한다. 센서(506)는 예를 들어 이미징 시스템에 부착된 마이크로폰일 수 있고, 여기서 시스템은 이미징 장치에 의해 방출되는 사운드의 쾌적성을 예측한다. 예를 들어, 이는 의사 진료실에서 더 나은 경험으로 이어질 수 있다.
본 개시내용이 하나의 사운드와 연관된 사운드 품질 측정들(예를 들어, 음량, 음조, 선명도)을 다른 사운드의 사운드 품질 측정과 비교하는 것을 제공하지만, 이는 사운드 측정들에만 제한되어서는 안 된다는 것이 이해되어야 한다. 그럼에도 불구하고 사운드와 연관된 다른 비사운드 측정들은 본원에 설명된 모델들 및 알고리즘들과 비교될 수 있다. 즉, 사운드와 연관된 측정은 사운드 자체의 품질들일 필요는 없다. 대신, 측정들은 이러한 품질들이 또한 사람이 인지하는 사운드를 유발하거나 영향을 미칠 수 있기 때문에 진동이나 전압과 같은 비사운드 측정들일 수 있다. 측정된 진동 특성(예를 들어, 가속도계 사용) 및 전압 특성(예를 들어, 전압계 또는 디지털 멀티미터 사용)은 본원에 설명된 기계 학습 모델들에 입력될 수 있고, 여기서 기계 학습 모델들은 쌍별 비교들로 다른 사운드와 연관된 진동 또는 전압 특성과 구성요소의 사운드와 연관된 진동 또는 전압 특성을 비교할 수 있다. 그러므로, 사운드의 품질들에 대한 언급들은 직접적인 사운드 품질들은 아니지만 그럼에도 불구하고 사운드와 연관될 수 있는 비사운드 측정들(예를 들어, 진동 또는 전압)을 포함할 수 있음이 이해되어야 한다. 이의 일 예는 모터이다. 모터가 소정 크기나 위상으로 진동할 때, 불쾌하다고 인식되는 사운드와 연관될 수 있고, 진동 특성이 변함에 따라 그 사운드에 대해 인식되는 쾌적성은 변경될 수 있다.
추가로, 본원에 제공된 교시들이 사운드에만 제한되지 않는다는 것이 이해되어야 한다. 음향 회귀 문제들 외에도, 제시된 접근법은 또한 센서 데이터 평가에 기반하는 다른 종류의 회귀 문제들에도 적용될 수 있다. 이에 대한 예들은 측정된 전류 신호, 전압 신호, 진동 신호 등의 함수로서 생산 프로세스의 에러 확률 결정을 포함한다. 본원의 교시들은 디바이스의 전체적인 인간 인지 주관적인 품질들(예를 들어, 시각적 쾌적성, 사용자 친화성, 작업성, 냄새 등)이 먼저 측정 가능한 품질들을 쌍별 비교들로 기계 학습 모델을 훈련하고 이어서 디바이스의 측정 가능한 품질들을 훈련으로부터 이미 알려진 품질들과 비교하는 회귀 작업을 사용하여 예측될 수 있는 비사운드 환경들에 적용될 수 있다. 최신 방법들과 비교하여, 제시된 접근법은 특히 소량의 훈련 데이터가 이용 가능한 경우 장점이 있다.
예를 들어, 제품들의 음향 최적화 외에, 본 발명은 또한 센서나 이미지 데이터의 평가에 기반하는 다른 회귀 문제들에 적용될 수 있다. 예를 들어, 심사위원단은 사람 사진에 나타난 얼굴 표정에 친근감 점수를 배정하는 임무를 맡을 수 있다. 그후, 모델들은 친근감 점수에 대응하는 이미지 데이터(예를 들어, 카메라 또는 다른 이미지 센서에서 캡처하여 전처리된 데이터)로 훈련될 수 있고, 회귀 작업들 및 쌍별 비교들은 심사위원단에 의해 레이팅되지 않은 새로운 이미지로 이루어질 수 있다. 본원의 교시들은 또한 측정된 전류 신호나 녹음된 사운드 또는 이미지의 함수로서 생산 공정의 실패 확률을 결정하거나, 음성 문장의 오디오 녹음으로부터 심각성을 평가하기 위해 제공될 수 있다.
본원에 개시된 시스템들과 방법들은 기계 학습 방법들을 사용하여 회귀 작업들을 처리하는 새로운 방법을 제공하고, 특히 입력 데이터가 저차원이고 이용 가능한 훈련 데이터의 양이 작은 경우에 이점이 있다. 시스템들 및 방법들은 또한 특징적인 저차원 수량들(예를 들어, 전류들, 압입력들 등)과 연속 스케일의 이상 기준이 이용 가능한 경우, 이상들을 검출하는 데 사용될 수 있다. 이것은 예를 들어 기술 구성요소들이나 시스템들의 제조 프로세스의 경우일 수 있다. 최신 방법들과 비교하여, 제시된 접근법은 특히 소량의 훈련 데이터가 이용 가능한 경우 장점이 있다.
예시적인 실시예들이 위에 설명되었지만, 이들 실시예들이 청구 범위들에 의해 포함된 모든 가능한 형태들을 설명하도록 의도되지 않는다. 본 명세서에서 사용된 단어들은 제한이 아닌 설명의 단어들이고, 본 개시내용의 사상 및 범위를 벗어나지 않고 다양한 변경이 이루어질 수 있음이 이해된다. 이미 설명된 바와 같이, 다양한 실시예들의 특징들은 명시적으로 설명되거나 예시되지 않을 수 있는 본 발명의 추가 실시예들을 형성하기 위해 결합될 수 있다. 다양한 실시예들이 하나 이상의 원하는 특징들에 관하여 장점들을 제공하거나 다른 실시예들 또는 종래 기술 구현들보다 선호되는 것으로 설명될 수 있지만, 통상의 기술자들은 하나 이상의 특징들 또는 특성들이 원하는 전체 시스템 속성들을 달성하기 위해 절충될 수 있고, 이것이 특정 애플리케이션 및 구현에 따른다는 것을 인식한다. 이러한 속성들은 비용, 강도, 내구성, 수명주기 비용, 시장성, 외관, 포장, 크기, 서비스가능성, 무게, 제조가능성, 조립 용이성 등을 포함(그러나 이에 제한되지 않음)할 수 있다. 따라서 하나 이상의 특징들에 관하여 다른 실시예들 또는 종래 기술의 구현들보다 덜 바람직한 것으로 임의의 실시예들이 설명되는 한, 이러한 실시예들은 본 개시내용의 범위를 벗어나지 않으며 특정 애플리케이션들에 바람직할 수 있다.

Claims (20)

  1. 디바이스에서 방출되는 사운드의 쾌적성을 분류하기 위해 분류 모델을 훈련하는 방법에 있어서,
    하나 이상의 인간 심사위원들로부터 복수의 쾌적성 레이팅(rating)들을 수신하는 단계로서, 각각의 쾌적성 레이팅은 하나 이상의 디바이스들에 의해 방출되는 복수의 사운드들 중 각자의 사운드에 대응하는, 상기 복수의 쾌적성 레이팅들을 수신하는 단계;
    제1 쌍별 비교들을 통해, 상기 복수의 쾌적성 레이팅들 각각과 상기 복수의 쾌적성 레이팅들의 모든 다른 쾌적성 레이팅들 사이의 제1 차이들을 결정하는 단계;
    상기 쌍별 비교에 대해 어떤 쾌적성 레이팅이 더 높은지에 기반하여 결정된 제1 차이들을 이진 값들로 변환하는 단계;
    하나 이상의 센서들로부터, 복수의 측정 가능한 사운드 품질들을 수신하는 단계로서, 각각의 측정 가능한 사운드 품질은 상기 복수의 사운드들 중 각자의 사운드와 연관되는, 상기 복수의 측정 가능한 사운드 품질들을 수신하는 단계;
    제2 쌍별 비교들을 통해, 상기 복수의 측정 가능한 사운드 품질들 각각과 상기 복수의 측정된 사운드 품질들의 모든 다른 측정된 사운드 품질 사이의 제2 차이들을 쌍별 방식으로 결정하는 단계;
    상기 이진 값들을 상기 제2 차이들과 비교하여 사운드 쾌적성을 분류하기 위해 분류 모델을 훈련시키는 단계; 및
    상기 훈련시키는 단계 동안 수렴에 기반하여, 사운드 쾌적성을 분류하도록 구성된 훈련된 분류 모델을 출력하는 단계를 포함하는, 분류 모델을 훈련하는 방법.
  2. 제1 항에 있어서, 상기 복수의 측정 가능한 사운드 품질들은 음량, 음조, 선명도 중 적어도 하나를 포함하는, 분류 모델을 훈련하는 방법.
  3. 제1 항에 있어서,
    상기 하나 이상의 센서들로부터, 상기 하나 이상의 인간 심사위원에 의해 레이팅되지 않은 레이팅되지 않은 사운드의 적어도 하나의 측정 가능한 사운드 품질을 수신하는 단계; 및
    상기 훈련된 분류 모델을 통해, 레이팅되지 않은 사운드의 적어도 하나의 측정 가능한 사운드 품질을 각자의 복수의 사운드들과 연관된 각각의 측정 가능한 사운드 품질과 비교하는 단계를 더 포함하는, 분류 모델을 훈련하는 방법.
  4. 제3 항에 있어서,
    상기 훈련된 분류 모델로부터, 상기 복수의 사운드들의 각각과 비교하여 상기 레이팅되지 않은 사운드의 쾌적성의 신뢰 레이팅들을 출력하는 단계를 더 포함하는, 분류 모델을 훈련하는 방법.
  5. 제4 항에 있어서, 상기 신뢰 레이팅들은 2개의 이진 값들 사이의 스케일(scale) 상에 있는, 분류 모델을 훈련하는 방법.
  6. 제4 항에 있어서,
    상기 훈련된 분류 모델에서 출력된 상기 신뢰 레이팅들에 기반하여 레이팅되지 않은 사운드의 전반적인 쾌적성을 예측하기 위해 회귀 모델을 활용하는 단계를 더 포함하는, 분류 모델을 훈련하는 방법.
  7. 제1 항에 있어서, 상기 제1 쌍별 비교들 각각은 제1 쾌적성 레이팅과 제2 쾌적성 레이팅간의 비교를 포함하고,
    각각의 쌍별 비교의 각각의 상기 제1 차이 각각과 연관된 상기 이진 값들은 (a) 제1 쾌적성 레이팅이 상기 쌍별 비교의 제2 레이팅을 초과함을 나타내는 제1 이진 값, 및 (b) 제2 쾌적 레이팅이 상기 쌍별 비교의 상기 제1 쾌적성 레이팅을 초과함을 나타내는 제2 이진 값을 포함하는, 분류 모델을 훈련하는 방법.
  8. 제1 항에 있어서, 인간 심사위원들에 의해 레이팅된 상기 복수의 사운드들의 개수는 n과 같고, 상기 이진 값들의 개수는 n2 - n과 같은, 분류 모델을 훈련하는 방법.
  9. 제1 항에 있어서, 상기 제2 차이는 이진 값들로 변환되지 않는, 분류 모델을 훈련하는 방법.
  10. 디바이스에서 방출되는 사운드의 쾌적성을 분류하도록 구성된 분류 모델을 훈련시키기 위한 시스템에 있어서,
    하나 이상의 디바이스들에 의해 방출되는 복수의 사운드들을 검출하도록 구성된 마이크로폰;
    상기 복수의 사운드들을 프로세싱하도록 프로그래밍된 프로세서; 및
    명령들을 저장하는 메모리를 포함하고, 상기 명령들은, 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금:
    하나 이상의 인간 심사위원들로부터 복수의 쾌적성 레이팅들을 수신하게 하고, 각각의 쾌적성 레이팅은 상기 복수의 사운드들 중 각자의 사운드에 대응하고,
    제1 쌍별 비교들을 통해, 상기 복수의 쾌적성 레이팅들 각각과 상기 복수의 쾌적성 레이팅들의 모든 다른 쾌적성 레이팅들 사이의 제1 차이들을 결정하게 하고,
    상기 쌍별 비교에 대해 어떤 쾌적성 레이팅이 더 높은지에 기반하여 결정된 제1 차이들을 이진 값들로 변환하게 하고,
    사운드 품질들을 측정하게 하고, 각각의 사운드 품질은 상기 복수의 사운드들 중 각자의 사운드와 연관되고,
    제2 쌍별 비교를 통해, 측정된 사운드 품질들 각각과 상기 측정된 사운드 품질들의 모든 다른 측정된 사운드 품질 사이의 제2 차이들을 쌍별 방식으로 결정하게 하고,
    상기 이진 값들을 상기 제2 차이들과 비교하여 사운드 쾌적성을 분류하기 위해 분류 모델을 훈련하게 하고,
    상기 분류 모델의 훈련 동안 수렴에 기반하여, 사운드 쾌적성을 분류하도록 구성된 훈련된 분류 모델을 출력하게 하는, 분류 모델을 훈련시키기 위한 시스템.
  11. 제10 항에 있어서, 상기 측정된 사운드 품질들은 음량, 음조, 선명도 중 적어도 하나를 포함하는, 분류 모델을 훈련시키기 위한 시스템.
  12. 제10 항에 있어서,
    상기 메모리는, 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금:
    상기 하나 이상의 인간 심사위원들에 의해 레이팅되지 않은 레이팅되지 않은 사운드의 사운드 품질을 측정하게 하고,
    상기 훈련된 분류 모델을 통해, 상기 레이팅되지 않은 사운드의 상기 측정된 사운드 품질을 각자의 복수의 사운드들과 연관된 각각의 측정된 사운드 품질들과 비교하게 하는 명령들을 더 포함하는, 분류 모델을 훈련시키기 위한 시스템.
  13. 제12 항에 있어서,
    상기 메모리는, 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금:
    상기 훈련된 분류 모델로부터, 상기 복수의 사운드들의 각각과 비교하여 상기 레이팅되지 않은 사운드의 쾌적성의 신뢰 레이팅들을 출력하게 하는 명령들을 더 포함하는, 분류 모델을 훈련시키기 위한 시스템.
  14. 제13 항에 있어서, 상기 신뢰 레이팅들은 2개의 이진 값들 사이의 스케일 상에 있는, 분류 모델을 훈련시키기 위한 시스템.
  15. 제13 항에 있어서,
    상기 메모리는, 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금:
    상기 훈련된 분류 모델에서 출력된 상기 신뢰 레이팅들에 기반하여 상기 레이팅되지 않은 사운드의 전반적인 쾌적성을 예측하기 위해 회귀 모델을 활용하게 하는 명령들을 더 포함하는, 분류 모델을 훈련시키기 위한 시스템.
  16. 제10 항에 있어서,
    상기 제1 쌍별 비교들 각각은 제1 쾌적성 레이팅과 제2 쾌적성 레이팅 간의 비교를 포함하고,
    각각의 쌍별 비교의 각각의 상기 제1 차이 각각과 연관된 상기 이진 값들은 (a) 제1 쾌적성 레이팅이 상기 쌍별 비교의 제2 레이팅을 초과함을 나타내는 제1 이진 값, 및 (b) 제2 쾌적 레이팅이 상기 쌍별 비교의 상기 제1 쾌적성 레이팅을 초과함을 나타내는 제2 이진 값을 포함하는, 분류 모델을 훈련시키기 위한 시스템.
  17. 제10 항에 있어서, 상기 제2 차이는 이진 값들로 변환되지 않는, 분류 모델을 훈련시키기 위한 시스템.
  18. 기계 학습을 활용하여 사운드의 쾌적성을 예측하는 방법에 있어서,
    인간 심사위원들로부터 쾌적성 레이팅들을 수신하는 단계로서, 각각의 쾌적성 레이팅은 하나 이상의 디바이스에 의해 방출되는 각자의 사운드에 대응하는, 상기 쾌적성 레이팅들을 수신하는 단계;
    상기 쾌적성 레이팅들 각각과 상기 쾌적성 레이팅들의 각각의 다른 쾌적성 레이팅 사이의 제1 차이들을 결정하는 단계;
    사운드 품질들을 측정하기 위해 마이크로폰을 활용하는 단계로서, 각각의 사운드 품질은 상기 사운드들의 각자의 사운드와 연관되는, 상기 마이크로폰을 활용하는 단계;
    측정된 사운드 품질들의 각각과 상기 측정된 사운드 품질들의 각각의 다른 사운드 품질 사이의 제2 차이들을 결정하는 단계;
    상기 수렴이 훈련된 분류 모델을 생성할 때까지 상기 제1 차이들과 상기 제2 차이들의 비교에 기반하여 사운드 쾌적성을 분류하기 위해 분류 모델을 훈련시키는 단계;
    새로운 사운드의 새로운 사운드 품질을 측정하기 위해 상기 마이크로폰을 활용하는 단계;
    훈련된 분류 모델을 통해, 상기 새로운 사운드의 측정된 새로운 사운드 품질을 상기 사운드들과 연관된 각각의 측정된 사운드 품질과 비교하는 단계; 및
    상기 훈련된 분류 모델에 의해 이루어진 비교에 기반하여 레이팅되지 않은 사운드의 전체 쾌적성을 예측하기 위해 회귀 모델을 활용하는 단계를 포함하는, 사운드의 쾌적성을 예측하는 방법.
  19. 제18 항에 있어서,
    상기 제1 차이들 각각에 대해 어떤 쾌적성 레이팅이 더 높은지에 기반하여 결정된 제1 차이들을 이진 값들로 변환하는 단계를 더 포함하고,
    상기 분류 모델은 상기 이진 값들로 훈련되는, 사운드의 쾌적성을 예측하는 방법.
  20. 제18 항에 있어서, 상기 측정된 사운드 품질들은 음량, 음조, 선명도 중 적어도 하나를 포함하는, 사운드의 쾌적성을 예측하는 방법.
KR1020230146555A 2022-10-31 2023-10-30 이진 분류 모델과 회귀를 사용한 사운드 쾌적성 예측 KR20240063014A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/977,587 2022-10-31
US17/977,587 US20240144954A1 (en) 2022-10-31 2022-10-31 Predicting sound pleasantness using binary classification model and regression

Publications (1)

Publication Number Publication Date
KR20240063014A true KR20240063014A (ko) 2024-05-09

Family

ID=90628920

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230146555A KR20240063014A (ko) 2022-10-31 2023-10-30 이진 분류 모델과 회귀를 사용한 사운드 쾌적성 예측

Country Status (4)

Country Link
US (1) US20240144954A1 (ko)
JP (1) JP2024066497A (ko)
KR (1) KR20240063014A (ko)
DE (1) DE102023210497A1 (ko)

Also Published As

Publication number Publication date
DE102023210497A1 (de) 2024-05-02
US20240144954A1 (en) 2024-05-02
JP2024066497A (ja) 2024-05-15

Similar Documents

Publication Publication Date Title
US11941868B2 (en) Inference apparatus, inference method, and computer-readable storage medium storing an inference program
US11756349B2 (en) Electronic control unit testing optimization
CN112581263A (zh) 一种基于灰狼算法优化广义回归神经网络的信用评估方法
US11475712B2 (en) Method and device for automatic gesture recognition
US20210056778A1 (en) Techniques to detect vehicle anomalies based on real-time vehicle data collection and processing
JP6718500B2 (ja) 生産システムにおける出力効率の最適化
US20240070449A1 (en) Systems and methods for expert guided semi-supervision with contrastive loss for machine learning models
US20220269988A1 (en) Abnormality degree calculation system and abnormality degree calculation method
US20210326663A1 (en) System and method of a monotone operator neural network
CN112832996A (zh) 用于控制供水系统的方法
KR102254522B1 (ko) 인공지능을 이용한 파라메트릭 이퀄라이징 음향 조율 시스템의 제어 방법, 장치 및 프로그램
US11941923B2 (en) Automation method of AI-based diagnostic technology for equipment application
WO2022197615A1 (en) Techniques for adaptive generation and visualization of quantized neural networks
CN117371511A (zh) 图像分类模型的训练方法、装置、设备及存储介质
KR20240063014A (ko) 이진 분류 모델과 회귀를 사용한 사운드 쾌적성 예측
CN117390559A (zh) 基于物联网的城市园林监测方法、装置和电子设备
JP2024045070A (ja) ロングテール分類用のマルチ教師グループ蒸留のためのシステム及び方法
US20240143994A1 (en) Predicting sound pleasantness using regression prediction machine learning model
TW202143042A (zh) 感測數據智能檢測方法與系統
US20230100132A1 (en) System and method for estimating perturbation norm for the spectrum of robustness
CN113688853A (zh) 感测数据智能检测方法与系统
US20240110996A1 (en) System and method for prediction analysis of a system utilizing machine learning networks
US20240112019A1 (en) System and method for deep learning-based sound prediction using accelerometer data
US20240062058A1 (en) Systems and methods for expert guided semi-supervision with label propagation for machine learning models
US20240112018A1 (en) System and method for deep learning-based sound prediction using accelerometer data