KR20230149894A - 개인화 가능한 기계학습 기반의 운전자 이상행동 감지 시스템 - Google Patents

개인화 가능한 기계학습 기반의 운전자 이상행동 감지 시스템 Download PDF

Info

Publication number
KR20230149894A
KR20230149894A KR1020220048708A KR20220048708A KR20230149894A KR 20230149894 A KR20230149894 A KR 20230149894A KR 1020220048708 A KR1020220048708 A KR 1020220048708A KR 20220048708 A KR20220048708 A KR 20220048708A KR 20230149894 A KR20230149894 A KR 20230149894A
Authority
KR
South Korea
Prior art keywords
data
driver
abnormal
learning
abnormal behavior
Prior art date
Application number
KR1020220048708A
Other languages
English (en)
Inventor
임경태
Original Assignee
한밭대학교 산학협력단
한밭대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한밭대학교 산학협력단, 한밭대학교 산학협력단 filed Critical 한밭대학교 산학협력단
Priority to KR1020220048708A priority Critical patent/KR20230149894A/ko
Publication of KR20230149894A publication Critical patent/KR20230149894A/ko

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0015Planning or execution of driving tasks specially adapted for safety
    • B60W60/0016Planning or execution of driving tasks specially adapted for safety of the vehicle or its occupants
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/08Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • B60W50/14Means for informing the driver, warning the driver or prompting a driver intervention
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/02Alarms for ensuring the safety of persons
    • G08B21/06Alarms for ensuring the safety of persons indicating a condition of sleep, e.g. anti-dozing alarms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/08Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
    • B60W2040/0818Inactivity or incapacity of driver
    • B60W2040/0827Inactivity or incapacity of driver due to sleepiness
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/08Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
    • B60W2040/0818Inactivity or incapacity of driver
    • B60W2040/0863Inactivity or incapacity of driver due to erroneous selection or response of the driver
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/08Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
    • B60W2040/0872Driver physiology
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0002Automatic control, details of type of controller or control system architecture
    • B60W2050/0004In digital systems, e.g. discrete-time systems involving sampling
    • B60W2050/0005Processor details or data handling, e.g. memory registers or chip architecture
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • B60W50/14Means for informing the driver, warning the driver or prompting a driver intervention
    • B60W2050/143Alarm means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2420/00Indexing codes relating to the type of sensors based on the principle of their operation
    • B60W2420/40Photo, light or radio wave sensitive means, e.g. infrared sensors
    • B60W2420/403Image sensing, e.g. optical camera
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/30Driving style

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Business, Economics & Management (AREA)
  • Emergency Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

운전자의 이상행동을 감지하는 방법을 개시한다. 본 명세서의 일 실시예에 따라, 운전자별로 개인화된 이상행동 판별모델이 생성되어, 모바일 애플리케이션 또는 차량에 탑재되는 형태로 구현될 수 있다. 본 명세서는, 수집된 영상 데이터 및 음성 데이터의 속성에 기초하여 운전자의 정상 운행상태를 나타내는 정상 데이터와 비정상 운행상태를 나타내는 비정상 데이터를 각각 학습 데이터로 정의하고, 학습 데이터에 기초하여 기계학습 기반의 학습을 통해 상기 개인화된 이상행동 판별모델을 생성하여, 운전자의 정상 및 비정상 운행상태 여부를 판별할 수 있다.

Description

개인화 가능한 기계학습 기반의 운전자 이상행동 감지 시스템{Personalized machine learning-based driver abnormal behavior detection system}
본 명세서는 운전자의 이상행동을 감지할 수 잇는 감지 장치 및 방법에 관한 것이다.
자율주행 기술이 발달함에 따라, 운전자 부주의와 관련된 사건사고가 늘어나고 있는 편이다. 예를들어, 전체 운전 중 사망사고 75%가 "졸음운전", "휴대전화사용", "잡담이나 장난", "TV 시청" 때문에 발생한다. 하지만, 이러한 운전자 부주의 사고는 대부분 운전자가 취하는 특징적인 행동 패턴이 있다. 따라서, 차량 내 장착된 카메라를 활용해 운전자의 머리 위치, 시선, 눈을 깜빡이는 속도와 같은 생리현상 등을 이용할 수 있는데, 이는 최신 인공지능 기술 특히 Video Turing Test (VTT)를 이용하면 충분히 감지 가능한 문제이다. 현존하는 첨단 운전자보조시스템 혹은 운전자 상태경고 DSW(Driver State Warning)시스템이 2018 년부터 활발하게 연구되고 있으며 최근 양산 준비를 하고 있다.
한국 공개특허(10-2019-0093298, 발명의 명칭: 동공 인식 기반의 운전자 이상행위 검출 알고리즘)는 동공의 위치만 이용해 운전자 이상행위를 찾기 때문에 정확도에 큰 문제가 발생할 수 있으며, 카메라의 위치에 따라 동공의 거리와 비율이 달라지기 때문에 실제 활용에 어려움. 개인화 불가능하여 정확도 및 사용성에 한계가 있다.
하지만, 기존 제안된 인공지능 모델의 경우 개인화가 불가하다. 이에 따라, 학습 모델의 개인화가 불가능하여 정확도가 낮고 새로운 물체 인식이나 사용자요구에 대한 인식이 불가능 하다. 또한, 멀티모달(Multimodal) 정보를 효율적으로 활용할 수 없기 때문에 운전자 부주의 판단 시 운전자 영상에만 집중한다. 하지만 주행 중 수집할 수 있는 데이터는 영상, 음성, 촉감 등 다양한 복합데이터로 구성될 수 있다.
본 명세서는 전술한 문제점을 해결하기위해 음성명령제어를 통해 개인이 직접 모델을 학습시켜 모델의 개인화를 가능하게 만들고, 비디오 영상, 음성 데이터, 촉감 데이터를 활용한 멀티 모달(multimodal) 기술로 상황판별의 정확도를 높이는 방법을 제안한다.
본 발명이 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 이하의 발명의 상세한 설명으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 명세서의 일 실시예에 따른 운전자의 이상행동 감지장치는, 영상 획득부; 음성 획득부; 상기 영상 획득부를 통해 획득된 영상 데이터, 상기 음성 획득부를 통해 획득된 음성 데이터를 저장하는 데이터베이스; 상기 저장된 영상 데이터 및 음성 데이터에 기초하여 학습된 개인화된 이상행동 판별모델을 저장하는 저장부; 상기 영상 획득부 및 음성 획득부를 통해 획득되는 실시간 데이터를 상기 이상행동 판별모델에 적용하여 운전자의 이상행동을 판단하는 프로세서;를 포함하되, 상기 프로세서는, 상기 영상 데이터 및 음성 데이터의 속성에 기초하여 상기 운전자의 정상 운행상태를 나타내는 정상 데이터와 비정상 운행상태를 나타내는 비정상 데이터를 각각 학습 데이터로 정의하고, 상기 학습 데이터에 기초하여 기계학습 기반의 학습을 통해 상기 개인화된 이상행동 판별모델을 생성할 수 있다.
상기 학습 데이터는, 상기 운전자의 정상 운행상태에 대응하는 제1 음성 데이터와 비정상 운행 상태에 대응하는 제2 음성 데이터, 상기 운전자의 정상 운행 상태에 대응하는 제1 영상 데이터와 비정상 운행상태에 대응하는 제2 영상 데이터를 포함할 수 있다.
상기 프로세서는, 상기 음성 획득부를 통해 입력되는 상기 음성 데이터를 SST 변환하여 상기 제1 음성 데이터 및 제2 음성 데이터로 구분하고, 상기 제1 음성 데이터 및 제1 영상 데이터를 상기 정상 데이터로 정의하고, 상기 제2 음성 데이터 및 제2 영상 데이터를 상기 비정상 데이터로 정의할 수 있다.
상기 프로세서는, 상기 운전자에 의해 차량이 운행되는 중, 상기 영상 획득부 및 음성 획득부를 통해 수신된 상기 음성 데이터 및 영상 데이터에 기초하여 상기 운전자를 식별하고, 식별된 운전자에 대응하는 이상행동 판별모델이 존재하는 경우, 상기 수신된 음성 데이터 및 영상 데이터를 상기 이상행동 판별모델에 적용하여 상기 운전자의 이상상태 여부를 판단할 수 있다.
상기 프로세서는, 상기 식별된 운전자에 대응하는 이상행동 판별모델이 존재하지 않는 경우, 새로운 개인화된 이상행동 판별모델 생성모드를 안내할 수 있다.
상기 운전자의 이상행동 감지장치는, 휴대 가능한 모바일 디바이스를 포함하고,
상기 프로세서는, 운전자 이상행동 감지를 위한 모바일 애플리케이션이 실행됨에 따라 구동될 수 있다.
상기 운전자의 이상행동 감지장치는, 차량에 탑재된 임베딩 장치를 포함하고, 상기 프로세서는, 상기 차량의 운행이 시작됨에 따라 구동될 수 있다.
본 명세서의 다른 실시예에 따른 운전자의 이상행동 판별모델 생성방법은, 차량 운행이 시작됨에 따라 운전자의 음성데이터 및 영상 데이터를 획득하는 단계; 및 상기 음성 데이터 및 영상 데이터에 기초하여 개인화된 이상행동 판별모델을 생성하기 위한 학습 데이터를 구성하는 단계;를 포함하고,
상기 학습 데이터를 구성하는 단계는, 운전자의 이상행동 판별모델 생성방법은, 음성 획득부를 통해 입력되는 상기 음성 데이터를 SST 변환하여 상기 운전자의 정상 운행상태에 대응하는 제1 음성 데이터 및 비정상 운행 상태에 대응하는 제2 음성 데이터로 구분하는 단계; 영상 획득부를 통해 입력되는 상기 영상 데이터를 분석하여 상기 운전자의 정상 운행상태에 대응하는 제1 영상 데이터 및 비정상 운행 상태에 대응하는 제2 영상 데이터로 구분하는 단계: 및 상기 제1 음성 데이터 및 제1 영상 데이터를 상기 정상 데이터로 정의하고, 상기 제2 음성 데이터 및 제2 영상 데이터를 상기 비정상 데이터로 정의하는 단계;를 포함한다.
본 명세서의 일 실시예에 따르면, 개인화된 운전자 상태 감지 데이터를 구축하여 기존보다 성능이 우월한 운전자 이상감지 서비스를 활용할 수 있다.
또한, 본 명세서의 일 실시예에 따르면, 최소한의 비용으로 컴퓨터 비전 기술을 차량에 적용함으로써, 운전자의 안전 운전을 보장할 수 있다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 명세서에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 명세서에 대한 실시예를 제공하고, 상세한 설명과 함께 본 명세서의 기술적 특징을 설명한다.
도 1은 본 명세서의 일 실시예에 따른 운전자의 이상행동 감지장치의 구성을 설명하기 위한 도면이다.
도 2는 본 명세서의 일 실시예에 따라 운전자의 이상행동 감지장치에 포함되는 음성처리 모듈을 구체적으로 설명하기 위한 도면이다.
도 3은 본 명세서의 일 실시예에 적용될 수 있는 AI 장치의 블록도이다.
도 4는 본 명세서의 일 실시예에 따라 개인화된 이상행동 판별모델 생성방법의 흐름도이다.
도 5는 본 명세서의 일 실시예에 따라 운전자의 이상행동 감지방법의 흐름도이다.
본 명세서에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 발명에 대한 실시예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 특징을 설명한다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
도 1은 본 명세서의 일 실시예에 따른 운전자의 이상행동 감지장치의 구성을 설명하기 위한 도면이다.
이상행동 감지장치(100)는 AI 프로세싱을 수행할 수 있는 AI 모듈을 포함하는 전자 기기 또는 상기 AI 모듈을 포함하는 서버 등을 포함할 수 있다. 상기 AI 프로세싱은, 디바이스의 제어와 관련된 모든 동작들을 포함할 수 있다.
상기 이상행동 감지장치 (100)는 휴대폰, 스마트폰, 데스크탑 컴퓨터, 노트북, 디지털방송용 단말기, PDA(personal digital assistants), PMP(portable multimedia player), 태블릿 PC, 웨어러블 장치, 셋톱박스(STB), DMB 수신기, 로봇과 같은 고정형 기기 또는 이동 가능한 기기 등으로 구현될 수 있다. 위 예시는 사용자 단말의 예시에 불과하면, 상기 이상행동 감지장치(100)는 네트워크와 연결된 서버 장치일 수도 있다. 또한, 상기 이상행동 감지장치(100)는 차량 내부에 임베딩되어 차량과 일체화되어 구현될 수도 있다.
상기 이상행동 감지장치 (100)는 트레이닝 데이터(110), 러닝 유닛(120), 신경망 모델(130), 통신부(140), 입력부(150), 출력부(160), 프로세서(170)를 포함할 수 있다. 입력된 음성을 처리하는 음성처리 모듈(voice processor)은 프로세서(170)에 포함되거나 독립된 모듈로 구비될 수 있다.
트레이닝 데이터(110)는 인공신경망을 학습시키기 위한 데이터로서, 경험이나 교육을 통해 획득한 사실, 정보 및 기술(Information about objects, events, concepts or rules, their relationships and properties, organized of goal-oriented systematic use) 등을 의미할 수 있다. 상기 트레이닝 데이터(110)는 트레이닝 데이터 획득부의 의미를 포함할 수 있다.
본 명세서의 일 실시예에 의하면 트레이닝 데이터(110)는 음성인식 장치(100)에 입력되는 음성신호(voice signal)을 포함할 수 있다. 또는 상기 트레이닝 데이터(110)는 상기 음성인식 장치(100)에 입력되는 음성신호 중 언어장애 요소가 포함되어 있는 특정 음성신호만을 의미할 수도 있다. 또는 프로세서(170)는 입력된 음성신호에 대하여 음성인식을 수행한 결과 음성 인식률이 미리 정해진 인식률 이하인 음성신호를 구분하고, 음성 인식률이 저조한 음성신호를 트레이닝 데이터(110)로 획득할 수 있다.
또는 프로세서(170)는 미리 정해진 스피치 패턴에 대응되는 음성이 입력되는 경우, 음성인식을 수행하는 과정과 별도로 트레이닝 데이터로 활용할 수 있다. 여기서 미리 정해진 스피치 패턴은 본 명세서의 일 실시예에 따라 언어장애 유형으로 구분될 수 있는 적어도 하나의 언어장애 스피치 패턴에 대응되는 음성신호를 포함할 수 있다. 상기 미리 정해진 스피치 패턴에 대응되는 음성인지 여부를 판단하기 위해 프로세서(170)는 음성인식을 통해 음성신호를 텍스트로 변환한 후, 상기 변환된 텍스트를 분석하여 입력된 음성이 언어장애 스피치 패턴에 대응되는 음성신호인지 여부를 판단할 수도 있다.
일 실시예에 따라 상기 미리 정해진 언어장애 스피치 패턴은, 말 더듬기, 반복 읽기, 발음 부정확, 긴 휴지, 음량 부족 등으로 인해 원활한 음성인식이 불가능한 상태의 스피치 패턴을 의미할 수 있다. 한편, 전술한 말 더듬기, 반복 읽기, 발음 부정확, 긴 휴지, 음량 부족 등의 스피치 패턴은 본 명세서의 기술적 사상을 설명하기 위한 예시이며, 상기 미리 정해진 언어장애 스피치 패턴은 전술한 예로 한정되지 않고 새롭게 발견되는 언어장애 유형을 등록함으로써, 다양한 언어장애 증세에 최적화된 음성인식 언어모델을 구축할 수 있다.
학습부(120)는 데이터 분류/인식을 판단하기 위하여 어떤 학습 데이터를 이용할지, 학습 데이터를 이용하여 데이터를 어떻게 분류하고 인식할지에 관한 기준을 학습할 수 있다. 학습부(120)는 학습에 이용될 학습 데이터를 획득하고, 획득된 학습데이터를 신경망 모델에 적용함으로써, 신경망 모델을 학습할 수 있다.
학습부(120)는 적어도 하나의 하드웨어 칩 형태로 제작되어 음성인식 장치(100)에 탑재될 수 있다. 예를 들어, 학습부(120)는 인공지능(AI)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 범용 프로세서(CPU) 또는 그래픽 전용 프로세서(GPU)의 일부로 제작되어 음성인식 장치(100)에 탑재될 수도 있다. 또한, 학습부(120)는 소프트웨어 모듈로 구현될 수 있다. 소프트웨어 모듈(또는 인스트럭션(instruction)을 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록 매체(non-transitory computer readable media)에 저장될 수 있다. 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 애플리케이션에 의해 제공될 수 있다.
본 명세서의 일 실시예에 따른 학습부(Learning unit, 120)는 트레이닝 데이터(110)가 확정되면 트레이닝 데이터(110)에 전처리 과정을 수행하고, 전처리된 데이터를 이용하여 인공신경망을 학습시킨다.
학습부(120)는 데이터 획득부(미도시) 및 모델 학습부(미도시)를 더 포함할 수 있다.
학습 데이터 획득부는 데이터를 분류하고 인식하기 위한 신경망 모델에 필요한 학습 데이터를 획득할 수 있다. 예를 들어, 데이터 획득부(23)는 학습 데이터로서, 신경망 모델에 입력하기 위한 샘플 데이터를 획득할 수 있다. 본 명세서의 일 실시예에 의하면, 상기 학습을 위한 샘플 데이터는 음성인식 장치(100)로 인력되는 모든 음성 신호이거나, 미리 정해진 스피치 패턴이 등록되어 있는 경우, 상기 미리 정해진 스피치 패턴에 해당되는 음성신호를 추출하여 학습데이터로 정의할 수 있다.
모델 학습부는 상기 획득된 학습 데이터를 이용하여, 신경망 모델이 소정의 데이터를 어떻게 분류할지에 관한 판단 기준을 가지도록 학습할 수 있다. 이 때 모델 학습부는 학습 데이터 중 적어도 일부를 판단 기준으로 이용하는 지도 학습(supervised learning)을 통하여, 신경망 모델을 학습시킬 수 있다. 또는 모델 학습부는 지도 없이 학습 데이터를 이용하여 스스로 학습함으로써, 판단 기준을 발견하는 비지도 학습(unsupervised learning)을 통해 신경망 모델을 학습시킬 수 있다. 또한, 모델 학습부는 학습에 따른 상황 판단의 결과가 올바른지에 대한 피드백을 이용하여 강화 학습(reinforcement learning)을 통하여, 신경망 모델을 학습시킬 수 있다. 또한, 모델 학습부는 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient decent)을 포함하는 학습 알고리즘을 이용하여 신경망 모델을 학습시킬 수 있다.
신경망 모델이 학습되면, 모델 학습부는 학습된 신경망 모델을 메모리에 저장할 수 있다. 모델 학습부는 학습된 신경망 모델을 음성인식 장치(100)와 유선 또는 무선 네트워크로 연결된 서버의 메모리에 저장할 수도 있다.
학습부(120)는 인식 모델의 분석 결과를 향상시키거나, 인식 모델의 생성에 필요한 리소스 또는 시간을 절약하기 위해 학습 데이터 전처리부(미도시) 및 학습 데이터 선택부(미도시)를 더 포함할 수도 있다.
학습 데이터 전처리부는 획득된 데이터가 상황 판단을 위한 학습에 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 예를 들어, 학습 데이터 전처리부는, 모델 학습부가 이상행동 감지장치(100)에 입력된 음성 데이터, 음성인식 결과에 대응하는 텍스트 데이터를 학습 데이터로 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다.
또한, 학습 데이터 선택부는, 학습 데이터 획득부에서 획득된 학습 데이터 또는 전처리부에서 전처리된 학습 데이터 중 학습에 필요한 데이터를 선택할 수 있다.
또한, 학습부(120)는 신경망 모델의 분석 결과를 향상시키기 위하여 모델 평가부(미도시)를 더 포함할 수도 있다.
모델 평가부는, 신경망 모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 분석 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(120)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 인식 모델을 평가하기 위한 기 정의된 데이터일 수 있다. 일 예로, 모델 평가부는 평가 데이터에 대한 학습된 인식 모델의 분석 결과 중, 분석 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정되 임계치를 초과하는 경우, 소정 기준을 만족하지 못한 것으로 평가할 수 있다.
통신부(140)는 프로세서(170)에 의한 AI 프로세싱 결과를 외부 전자 기기로 전송할 수 있다. 여기서 외부 전자 기기는 외부 서버, 사용자 단말 등을 포함할 수 있다.
통신부(140)가 이용하는 통신 기술에는 GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), LTE(Long Term Evolution), 5G, WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), 블루투스(Bluetooth??), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), ZigBee, NFC(Near Field Communication) 등이 있다.
입력부(150)는 다양한 종류의 데이터를 획득할 수 있다. 입력부(120)는 영상 신호 입력을 위한 카메라, 오디오 신호를 수신하기 위한 마이크로폰, 사용자로부터 정보를 입력 받기 위한 사용자 입력부 등을 포함할 수 있다. 여기서, 카메라나 마이크로폰을 센서로 취급하여, 카메라나 마이크로폰으로부터 획득한 신호를 센싱 데이터 또는 센서 정보라고 할 수도 있다.
입력부(150)는 모델 학습을 위한 학습 데이터 및 학습 모델을 이용하여 출력을 획득할 때 사용될 입력 데이터 등을 획득할 수 있다. 입력부(150)는 가공되지 않은 입력 데이터를 획득할 수도 있으며, 이 경우 프로세서(170)는 입력 데이터에 대하여 전처리로써 입력 특징점(input feature)을 추출할 수 있다.
출력부(160)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시킬 수 있다. 출력부(160)에는 시각 정보를 출력하는 디스플레이부, 청각 정보를 출력하는 스피커, 촉각 정보를 출력하는 햅틱 모듈 등이 포함될 수 있다.
프로세서(170)는 학습부(120)에서 인공신경망 학습이 완료되면 메모리(미도시)에 신경망 모델(NN Model, 130)을 저장할 수 있다.
프로세서(170)는 메모리(미도시)에 저장된 프로그램을 이용하여 신경망을 학습할 수 있다. 특히, 프로세서(170)는 음성인식 장치(100)에 입력된 음성에 언어장애 요소가 포함된 경우, 언어장애 요소에도 불구하고 음성 인식률을 높이기 위해 언어장애 요소가 포함된 학습데이터에 기초하여 신경망을 학습할 수 있다. 여기서, 신경망은 인간의 뇌 구조를 컴퓨터 상에서 모의하도록 설계될 수 있으며, 인간의 신경망의 뉴런(neuron)을 모의하는, 가중치를 갖는 복수의 네트워크 노드들을 포함할 수 있다. 복수의 네트워크 모드들은 뉴런이 시냅스(synapse)를 통해 신호를 주고받는 뉴런의 시냅틱 활동을 모의하도록 각각 연결 관계에 따라 데이터를 주고받을 수 있다. 여기서 신경망은 신경망 모델에서 발전한 딥러닝 모델을 포함할 수 있다. 딥 러닝 모델에서 복수의 네트워크 노드들은 서로 다른 레이어에 위치하면서 컨볼루션(convolution) 연결 관계에 따라 데이터를 주고 받을 수 있다. 신경망 모델의 예는 심층 신경망(DNN, deep neural networks), 합성곱 신경망(CNN, convolutional deep neural networks), 순환 신경망(RNN, Recurrent Boltzmann Machine), 제한 볼츠만 머신(RBM, Restricted Boltzmann Machine), 심층 신뢰 신경망(DBN, deep belief networks), 심층 Q-네트워크(Deep Q-Network)와 같은 다양한 딥 러닝 기법들을 포함하며, 컴퓨터비젼, 음성인식, 자연어처리, 음성/신호처리 등의 분야에 적용될 수 있다.
한편, 전술한 바와 같은 기능을 수행하는 프로세서는 범용 프로세서(예를 들어, CPU)일 수 있으나, 인공지능 학습을 위한 AI 전용 프로세서(예를 들어, GPU)일 수 있다.
한편, 이상행동 감지장치(100)는 메모리(미도시)를 더 포함할 수 있다. 상기 메모리는 음싱인식 동작에 필요한 각종 프로그램 및 데이터를 저장할 수 있다. 메모리는 비 휘발성 메모리, 휘발성 메모리, 플래시 메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SDD) 등으로 구현할 수 있다. 메모리는 프로세서(170)에 의해 엑세스되며, 프로세서(170)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 또한, 메모리는 본 발명의 일 실시예에 따른 데이터 분류/인식을 위한 학습 알고리즘을 통해 생성된 신경망 모델(예를 들어, 특정 언어장애에 대응하는 언어모델, 복수의 언어장애 증상에 대응되는 복합 언어모델)을 저장할 수 있다.
본 명세서는 이상행동 감지장치가 활용될 수 있는 다양한 기기 예를 들어, 감시용 카메라, 자율주행 차량, 사용자 단말기 및 서버 중 하나 이상이 인공 지능(Artificial Intelligence) 모듈, 로봇, 증강현실(Augmented Reality, AR) 장치, 가상 현실(Virtual reality, VT) 장치, 5G 서비스와 관련된 장치 등과 연계될 수 있다.
한편, 도 2를 참조하면, 본 명세서의 일 실시예에 따른 이상행동 감지장치(100)는 음성처리 모듈(이하, 프로세서 170 내부에 구비된 음성처리 모듈로 가정하여 설명함)을 포함할 수 있다. 음성 처리모듈(170)은 자동 음성 인식(Auto Speech Recognition, ASR) 모듈(171), 지능형 에이전트(Artificial Intelligent Agent)(172), 자연어 이해(Natural Language Understanding, NLU) 모듈(173), 텍스트 음성 변환(Text-to-Speech, TTS) 모듈(174)를 포함할 수 있다.
ASR 모듈(171)은 수신된 사용자 음성 입력을 텍스트 데이터로 변환할 수 있다. ASR 모듈(171)은 프론트-엔드 스피치 프리프로세서(front-end speech pre-processor)를 포함할 수 있다. 프론트-엔드 스피치 프리프로세서는 스피치 입력으로부터 대표적인 특징을 추출한다. 예를 들어, 프론트-엔드 스피치 프리프로세서는 스피치 입력을 푸리에 변환을 수행하여 대표적인 다차원 벡터의 시퀀스로서 스피치 입력을 특징짓는 스펙트럼 특징을 추출한다. 또한, ASR 모듈(171)은 하나 이상의 스피치 인식 모델(예컨대, 음향 모델 및/또는 언어 모델)을 포함하고, 하나 이상의 스피치 인식 엔진을 구비할 수 있다. 스피치 인식 모델의 예는 은닉 마르코프 모델(Hidden Markov Models), 가우시안 혼합 모델(Gaussian-Mixture Models), 딥 신경망 모델(Deep Neural Network Models), n-gram 언어 모델, 및 기타 통계 모델을 포함할 수 있다. 스피치 인식 엔진의 예는 동적 시간 왜곡 기반 엔진 및 가중치 유한 상태 변환기(WFST) 기반 엔진을 포함할 수 있다. 하나 이상의 스피치 인식 모델 및 하나 이상의 스피치 인식 엔진은 중간 인식 결과들(예를 들어, 음소, 음소 문자열, 및 하위 단어들), 및 궁극적으로 텍스트 인식 결과들(예컨대, 단어, 단어 문자열, 또는 토큰들의 시퀀스)을 생성하기 위해 프론트-엔드 스피치 프리프로세서의 추출된 대표 특징들을 처리하는 데 사용될 수 있다.
ASR 모듈(171)이 텍스트 문자열(예를 들어, 단어들, 또는 단어들의 시퀀스, 또는 토큰들의 시퀀스)을 포함하는 인식 결과를 생성하면, 인식 결과는 의도 추론을 위해 자연 언어 처리 모듈(173)로 전달될 수 있다. 일부 예들에서, ASR 모듈(171)은 스피치 입력의 다수의 후보 텍스트 표현들을 생성한다. 각각의 후보 텍스트 표현은 스피치 입력에 대응하는 단어들 또는 토큰들의 시퀀스이다.
NLU 모듈(173)은 문법적 분석(Syntactic analyze) 또는 의미적 분석(Semantic analyze)을 수행하여 사용자 의도를 파악할 수 있다. 상기 문법적 분석은 문법 단위(예를 들어, 단어, 구, 형태소 등)를 나누고, 나누어진 단위가 어떠한 문법적인 요소를 갖는지 파악할 수 있다. 상기 의미적 분석은 의미(semantic) 매칭, 룰(rule) 매칭, 포뮬러(formula) 매칭 등을 이용하여 수행할 수 있다. 이에 따라, NUL 모듈(173)은 사용자 입력이 어느 도메인(domain), 의도(intent) 또는 상기 의도를 표현하는데 필요한 파라미터(parameter)를 획득할 수 있다.
상기 NLU 모듈(173)은 도메인, 의도 및 상기 의도를 파악하는데 필요한 파라미터로 나누어진 매핑 규칙을 이용하여 사용자의 의도 및 파라미터를 결정할 수 있다. 예를 들어, 하나의 도메인(예를 들어, 날씨정보)은 복수의 의도(예를 들어, 더워, 추워, 날씨에 대한 감정표현 등)를 포함할 수 있고, 하나의 의도는 복수의 파라미터(예를 들어, 시간, 반복 횟수, 알람음 등)을 포함할 수 있다. 복수의 룰은, 예를 들어, 하나 이상의 필수 요소 파라미터를 포함할 수 있다. 상기 매칭 규칙은 자연어 이해 데이터 베이스(Natural Language Understanding Database)에 저장될 수 있다.
상기 NLU 모듈(173)은 형태소, 구 등의 언어적 특징(예를 들어, 문법적 요소)을 이용하여 사용자 입력으로부터 추출된 단어의 의미를 파악하고, 상기 파악된 단어의 의미를 도메인 및 의도에 매칭시켜 사용자의 의도를 결정한다. 예를 들어, NLU 모듈(173)은 각각의 도메인 및 의도에 사용자 입력에서 추출된 단어가 얼마나 포함되어 있는지를 계산하여 사용자 의도를 결정할 수도 있다. 일 실시예에 따르면, NLU 모듈(173)은 상기 의도를 파악하는데 기초가된 단어를 이용하여 사용자 입력의 파라미터를 결정할 수 있다. 일 실시예에 따르면, NLU 모듈(173)은 사용자 입력의 의도를 파악하기 위한 언어적 특징이 저장된 자연어 인식 데이터 베이스를 이용하여 사용자의 의도를 결정할 수 있다. 또한 일 실시예에 따르면, NLU 모듈(173)은 개인화 언어 모델(personal language model, PLM)을 이용하여 사용자의 의도를 결정할 수 있다. 예를 들어, NLU 모듈(173)은 개인화된 정보(예를 들어, 언어이용 특성, 언어장애 여부 등)을 이용하여 사용자의 의도를 결정할 수 있다. 상기 개인화 언어 모델은, 예를 들어, 자연어 인식 데이터 베이스에 저장될 수 있다. 일 실시예에 따르면, NLU 모듈(173) 뿐 아니라 ASR 모듈(173)도 자연어 인식 데이터 베이스에 저장된 개인화 언어 모델을 참고하여 사용자 음성을 인식할 수 있다.
NLU 모듈(173)은 자연어 생성 모듈(미도시)을 더 포함할 수 있다. 상기 자연어 생성 모듈은 지정된 정보를 텍스트 형태로 변경할 수 있다. 상기 텍스트 형태로 변경된 정보는 자연어 발화의 형태일 수 있다. 상기 지정된 정보는 예를 들어, 추가 입력에 대한 정보, 사용자 입력에 대응되는 동작의 완료를 안내하는 정보 또는 사용자의 추가 입력을 안내하는 정보 등을 포함할 수 있다. 상기 텍스트 형태로 변경된 정보는 클라이언트 디바이스로 전송되어 디스플레이에 표시되거나, TTS 모듈로 전송되어 음성 형태로 변경될 수 있다.
여기서 상기 NLU 모듈(173)은 사용자의 의도를 추론함에 있어서, 일반적인 언어모델을 사용할 수도 있다. 상기 일반적인 언어모델이라 함은, 스피커(speaker)가 별다른 언어장애 현상 없는 음성을 입력한 경우, 음성인식 장치(100)에서 이용하는 언어모델일 수 있다. 그러나 본 명세서의 일 실시예에 따르면, 상기 일반적인 언어모델을 사용하여 사용자의 의도가 정상적으로 추론되지 못한 경우, 특히 입력된 음성이 언어장애 요소를 포함하여 상기 일반적인 언어모델을 이용한 경우 정상적인 음성인식이 불가능한 것으로 판단한 경우, 일반적인 언어모델에서 언어장애의 특징요소가 튜닝된 튜닝 언어모델을 사용할 수 있다.
일 실시예에 따라 프로세서는 상기 NLU 모듈(173)에서 상기 일반적인 언어모델을 이용하여 음성인식을 수행한 결과, 사용자의 의도 추출이 불가능한 경우를 입력된 음성에 언어장애 요소가 포함된 것으로 판단할 수 있다.
또한, 일 실시예에 따라 프로세서는 상기 ASR 모듈(171)에서 입력된 음성을 텍스트로 변환한 결과를 NLU 모듈(173)에서 상기 문법적 분석을 수행한 결과 구분된 형태소가 어떠한 문법적인 요소를 갖는지 파악할 수 없는 경우, 입력된 음성에 언어장애 요소가 포함된 것으로 판단할 수도 있다.
입력된 음성에 언어장애 요소가 포함된 것으로 판단하는 방법은 전술한 예시에 한정되지 않고 다양한 방법을 통해 구현될 수 있다.
음성 합성 모듈(TTS 모듈, 174)은 텍스트 형태의 정보를 음성 형태의 정보로 변경할 수 있다. TTS 모듈(174)은 NLU 모듈(173)의 자연어 생성 모듈로부터 텍스트 형태의 정보를 수신하고, 상기 텍스트 형태의 정보를 음성 형태의 정보로 변경하여 음성 형태의 정보를 스피커를 통해 출력할 수 있다.
음성 합성 모듈(174)은 제공된 텍스트에 기초하여 스피치 출력을 합성한다. 예를 들어, 음성 인식 모듈(ASR)(171)에서 생성된 결과는 텍스트 문자열의 형태이다. 음성 합성 모듈(174)은 텍스트 문자열을 가청 스피치 출력으로 변환한다. 음성 합성 모듈(174)은, 텍스트로부터의 스피치 출력을 생성하기 위하여 임의의 적절한 스피치 합성 기법을 사용하는데, 이는 편집 합성(concatenative synthesis), 단위 선택 합성(unit selection synthesis), 다이폰 합성, 도메인-특정 합성, 포먼트 합성(Formant synthesis), 조음 합성(Articulatory synthesis), HMM(hidden Markov model) 기반 합성, 및 정현파 합성(sinewave synthesis)을 포함하지만 이로 한정되지 않는다.
일부 예들에서, 음성 합성 모듈(174)은 단어들에 대응하는 음소 문자열에 기초하여 개별 단어들을 합성하도록 구성된다. 예를 들어, 음소 문자열은 생성된 텍스트 문자열의 단어와 연관된다. 음소 문자열은 단어와 연관된 메타데이터에 저장된다. 음성 합성 모듈(174)은 스피치 형태의 단어를 합성하기 위해 메타데이터 내의 음소 문자열을 직접 프로세싱하도록 구성된다.
본 명세서의 일 실시예에 따라, ASR 모듈(171), NLU 모듈(173)의 음성 처리 결과를 TTS(174)를 통해 음성합성을 수행한 결과, TTS(174)의 출력이 독립적인 언어적 의미를 갖지 못하는 경우 예를 들어, 사용자의 의도는 "더워" 라는 음성을 입력하고자 하였으나, 사용자의 언어장애로 인해 "더더워", "더더더워", "더더어더워" 등의 TTS(174) 결과를 출력한 경우, 입력된 음성에 언어장애 요소가 포함된 것으로 판단하고, 상기 입력된 음성을 추후 언어모델 튜닝을 위한 학습 데이터로 저장할 수 있다. 즉, 본 명세서의 일 실시예는 ASR 모듈(171), NLU 모듈(173)을 통해서만 입력 음성의 언어장애 포함여부를 판단하는 것이 아니라, ASR 모듈(171), NLU 모듈(173)의 음성 처리 결과에서는 언어장애 요소가 포함되어 있는지 판단하지 못하였으나, 최종적으로 TTS(174) 출력 결과를 통해서 언어장애 포함여부를 판단할 수도 있다.
한편, 본 발명의 일 실시예에 따른 이상행동 감지장치는 지능형 에이전트(Artificial Intelligence Agent, AI 에이전트)(172)를 더 포함할 수 있다. 상기 지능형 에이전트(172)는 전술한 ASR 모듈(171), NLU 모듈(173) 및/또는 TTS 모듈(173)이 수행하는 기능 중 적어도 일부의 기능을 수행하도록 설계될 수 있다. 또한 상기 지능형 에이전트 모듈(172)은 ASR 모듈(171), NLU 모듈(173) 및/또는 TTS 모듈(174) 각각의 독립적인 기능을 수행하는데 기여할 수 있다.
상기 지능형 에이전트 모듈(173)은 심층학습(딥러닝)을 통해 전술한 기능들을 수행할 수 있다. 상기 심층학습은 심층 신경망(DNN, deep neural networks), 합성곱 신경망(CNN, convolutional deep neural networks), 순환 신경망(RNN, Recurrent Boltzmann Machine), 제한 볼츠만 머신(RBM, Restricted Boltzmann Machine), 심층 신뢰 신경망(DBN, deep belief networks), 심층 Q-네트워크(Deep Q-Network)와 같은 다양한 딥 러닝 기법들이 컴퓨터비젼, 음성인식, 자연어처리, 음성/신호처리 등의 분야에 적용될 수 있다.
지능형 에이전트 모듈(172)은 자연어 처리 분야에서 심층 인공신경망 구조를 이용하여 자동 번역(machine translation), 감정 분석(emotion analysis), 정보 검색(information retrieval)을 비롯한 다양한 자연언어처리 과정을 수행할 수 있다.
본 명세서의 일 실시예는 지능형 에이전트 모듈(172)을 통해 입력된 음성에 언어장애 요소가 포함되어 있는지 여부를 판단할 수도 있다. 지능형 에이전트 모듈(172)은 특히 다양한 개인화된 정보를 수집하여, 개인화된 언어모델을 학습하는데 활용될 수 있다. 일 실시예에 따라, 음성인식 장치(100) 사용자에 의해 주로 발현되는 주요 언어장애 유형들을 판단하고, 해당 언어장애 유형에 대응되는 언어모델에 대하여 튜닝을 수행할 수 있다. 지능형 에이전트 모듈(172)은 상기 개인화된 언어모델을 학습하는데, 개인화된 정보 예를 들어, 맵(maps), SMS, News, Music, Stock, Weather, wikipedia 정보를 활용할 수도 있다.
상기 지능형 에이전트(172)은 설명의 편의를 위해 ASR 모듈(171), NLU 모듈(173) 및 TTS 모듈(174)과 구분되도록 별도의 블럭으로 표현하였으나, 상기 지능형 에이전트(172)는 상기 각 모듈(171,173,174)의 적어도 일부 또는 전부의 기능을 수행할 수도 있다.
도 3은 본 명세서의 일 실시예들에 적용될 수 있는 AI 장치의 블록도이다.
도 3을 살펴보면, AI 장치(20)는 AI 프로세싱을 수행할 수 있는 AI 모듈을 포함하는 전자 기기 또는 AI 모듈을 포함하는 서버 등을 포함할 수 있다. 또한, AI 장치(20)는 감시 카메라 또는 영상 관리 서버의 적어도 일부의 구성으로 포함되어 AI 프로세싱 중 적어도 일부를 함께 수행하도록 구비될 수도 있다.
AI 프로세싱은 감시카메라 도는 영상 관리 서버의 제어부와 관련된 모든 동작들을 포함할 수 있다. 예를 들어, 감시 카메라 또는 영상 관리 서버는 획득된 영상 신호를 AI 프로세싱 하여 처리/판단, 제어 신호 생성 동작을 수행할 수 있다.
AI 장치(20)는 AI 프로세싱 결과를 직접 이용하는 클라이언트 디바이스이거나, AI 프로세싱 결과를 다른 기기에 제공하는 클라우드 환경의 디바이스일 수도 있다. AI 장치(20)는 신경망을 학습할 수 있는 컴퓨팅 장치로서, 서버, 데스크탑 PC, 노트북 PC, 태블릿 PC 등과 같은 다양한 전자 장치로 구현될 수 있다.
AI 장치(20)는 AI 프로세서(21), 메모리(25) 및/또는 통신부(27)를 포함할 수 있다.
AI 프로세서(21)는 메모리(25)에 저장된 프로그램을 이용하여 신경망을 학습할 수 있다. 특히, AI 프로세서(21)는 감시 카메라의 관련 데이터를 인식하기 위한 신경망을 학습할 수 있다. 여기서, 감시 카메라의 관련 데이터를 인식하기 위한 신경망은 인간의 뇌 구조를 컴퓨터 상에서 모의하도록 설계될 수 있으며, 인간의 신경망의 뉴런(neuron)을 모의하는, 가중치를 갖는 복수의 네트워크 노드들을 포함할 수 있다. 복수의 네트워크 모드들은 뉴런이 시냅스(synapse)를 통해 신호를 주고 받는 뉴런의 시냅틱 활동을 모의하도록 각각 연결 관계에 따라 데이터를 주고 받을 수 있다. 여기서 신경망은 신경망 모델에서 발전한 딥러닝 모델을 포함할 수 있다. 딥 러닝 모델에서 복수의 네트워크 노드들은 서로 다른 레이어에 위치하면서 컨볼루션(convolution) 연결 관계에 따라 데이터를 주고 받을 수 있다. 신경망 모델의 예는 심층 신경망(DNN, deep neural networks), 합성곱 신경망(CNN, convolutional deep neural networks), 순환 신경망(RNN, Recurrent Boltzmann Machine), 제한 볼츠만 머신(RBM, Restricted Boltzmann Machine), 심층 신뢰 신경망(DBN, deep belief networks), 심층 Q-네트워크(Deep Q-Network)와 같은 다양한 딥 러닝 기법들을 포함하며, 컴퓨터비젼, 음성인식, 자연어처리, 음성/신호처리 등의 분야에 적용될 수 있다.
한편, 전술한 바와 같은 기능을 수행하는 프로세서는 범용 프로세서(예를 들어, CPU)일 수 있으나, 인공지능 학습을 위한 AI 전용 프로세서(예를 들어, GPU)일 수 있다.
메모리(25)는 AI 장치(20)의 동작에 필요한 각종 프로그램 및 데이터를 저장할 수 있다. 메모리(25)는 비 휘발성 메모리, 휘발성 메모리, 플래시 메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SDD) 등으로 구현할 수 있다. 메모리(25)는 AI 프로세서(21)에 의해 액세스되며, AI 프로세서(21)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 또한, 메모리(25)는 본 발명의 일 실시예에 따른 데이터 분류/인식을 위한 학습 알고리즘을 통해 생성된 신경망 모델(예를 들어, 딥 러닝 모델(26))을 저장할 수 있다.
한편, AI 프로세서(21)는 데이터 분류/인식을 위한 신경망을 학습하는 데이터 학습부(22)를 포함할 수 있다. 데이터 학습부(22)는 데이터 분류/인식을 판단하기 위하여 어떤 학습 데이터를 이용할지, 학습 데이터를 이용하여 데이터를 어떻게 분류하고 인식할지에 관한 기준을 학습할 수 있다. 데이터 학습부(22)는 학습에 이용될 학습 데이터를 획득하고, 획득된 학습데이터를 딥러닝 모델에 적용함으로써, 딥러닝 모델을 학습할 수 있다.
데이터 학습부(22)는 적어도 하나의 하드웨어 칩 형태로 제작되어 AI 장치(20)에 탑재될 수 있다. 예를 들어, 데이터 학습부(22)는 인공지능(AI)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 범용 프로세서(CPU) 또는 그래픽 전용 프로세서(GPU)의 일부로 제작되어 AI 장치(20)에 탑재될 수도 있다. 또한, 데이터 학습부(22)는 소프트웨어 모듈로 구현될 수 있다. 소프트웨어 모듈(또는 인스트럭션(instruction)을 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록 매체(non-transitory computer readable media)에 저장될 수 있다. 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 애플리케이션에 의해 제공될 수 있다.
데이터 학습부(22)는 학습 데이터 획득부(23) 및 모델 학습부(24)를 포함할 수 있다.
학습 데이터 획득부(23)는 데이터를 분류하고 인식하기 위한 신경망 모델에 필요한 학습 데이터를 획득할 수 있다.
모델 학습부(24)는 획득된 학습 데이터를 이용하여, 신경망 모델이 소정의 데이터를 어떻게 분류할지에 관한 판단 기준을 가지도록 학습할 수 있다. 이 때 모델 학습부(24)는 학습 데이터 중 적어도 일부를 판단 기준으로 이용하는 지도 학습(supervised learning)을 통하여, 신경망 모델을 학습시킬 수 있다. 또는 모델 학습부(24)는 지도 없이 학습 데이터를 이용하여 스스로 학습함으로써, 판단 기준을 발견하는 비지도 학습(unsupervised learning)을 통해 신경망 모델을 학습시킬 수 있다. 또한, 모델 학습부(24)는 학습에 따른 상황 판단의 결과가 올바른지에 대한 피드백을 이용하여 강화 학습(reinforcement learning)을 통하여, 신경망 모델을 학습시킬 수 있다. 또한, 모델 학습부(24)는 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient decent)을 포함하는 학습 알고리즘을 이용하여 신경망 모델을 학습시킬 수 있다.
신경망 모델이 학습되면, 모델 학습부(24)는 학습된 신경망 모델을 메모리에 저장할 수 있다. 모델 학습부(24)는 학습된 신경망 모델을 AI 장치(20)와 유선 또는 무선 네트워크로 연결된 서버의 메모리에 저장할 수도 있다.
데이터 학습부(22)는 인식 모델의 분석 결과를 향상시키거나, 인식 모델의 생성에 필요한 리소스 또는 시간을 절약하기 위해 학습 데이터 전처리부(미도시) 및 학습 데이터 선택부(미도시)를 더 포함할 수도 있다.
학습 데이터 전처리부는 획득된 데이터가 상황 판단을 위한 학습에 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 예를 들어, 학습 데이터 전처리부는, 모델 학습부(24)가 이미지 인식을 위한 학습을 위하여 획득된 학습 데이터를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다.
또한, 학습 데이터 선택부는, 학습 데이터 획득부(23)에서 획득된 학습 데이터 또는 전처리부에서 전처리된 학습 데이터 중 학습에 필요한 데이터를 선택할 수 있다. 선택된 학습 데이터는 모델 학습부(24)에 제공될 수 있다.
또한, 데이터 학습부(22)는 신경망 모델의 분석 결과를 향상시키기 위하여 모델 평가부(미도시)를 더 포함할 수도 있다.
모델 평가부는, 신경망 모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 분석 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(22)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 인식 모델을 평가하기 위한 기 정의된 데이터일 수 있다. 일 예로, 모델 평가부는 평가 데이터에 대한 학습된 인식 모델의 분석 결과 중, 분석 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정되 임계치를 초과하는 경우, 소정 기준을 만족하지 못한 것으로 평가할 수 있다.
통신부(27)는 AI 프로세서(21)에 의한 AI 프로세싱 결과를 외부 전자 기기로 전송할 수 있다. 예를 들어, 외부 전자 기기는 감시카메라, 블루투스 장치, 자율주행 차량, 로봇, 드론, AR 기기, 모바일 기기, 가전 기기 등을 포함할 수 있다.
한편, 도 3에 도시된 AI 장치(20)는 AI 프로세서(21)와 메모리(25), 통신부(27) 등으로 기능적으로 구분하여 설명하였지만, 전술한 구성요소들이 하나의 모듈로 통합되어 AI 모듈로 호칭될 수도 있음을 밝혀둔다.
본 명세서는 감시용 카메라, 자율주행 차량, 사용자 단말기 및 서버 중 하나 이상이 인공 지능(Artificial Intelligence) 모듈, 로봇, 증강현실(Augmented Reality, AR) 장치, 가상 현실(Virtual reality, VT) 장치, 5G 서비스와 관련된 장치 등과 연계될 수 있다.
본 명세서의 일 실시예에 따른 운전자의 이상행동 감지 장치(시스템) 및 방법은, 기존 방식은 수동으로 사용자가 명령제어해야 했다면, 본 제안에서는 사용자가 음성만으로 운전 중 음성명령제어를 진행할 수 있다. 또한, 기존 방식에 없던 새로운 개인화된 운전자 상태 감지 데이터를 구축하여 기존보다 성능이 우월한 운전자 이상감지 서비스를 활용할 수 있다.
또한, 본 명세서의 일 실시예에 따른 운전자의 이상행동 감지 장치(시스템) 및 방법은, 개인화를 통해 음성명령으로 졸음 감지 뿐만 아니라, 휴대폰 활용, 운전자 부주의 상황 등 확장이 가능하다.
또한, 본 명세서의 일 실시예에 따른 운전자의 이상행동 감지 장치(시스템) 및 방법은, 컴퓨터비전 기술 수준이 발달해 적은 비용으로도 연구/개발/실험 진행이 가능하다. 또한, 저렴한 장비 (예, Jetson NANO, 휴대전화) 200$이내의 비용으로 모든 차량에 탑재가 가능하다. 본 특허에서 제안하는 방법은 적은 비용으로 운전자의 안전도를 높일 수 있으며 사업화와 기술이전의 가능성이 매우 높기에 필수적인 기술일 수 있다.
도 4는 본 명세서의 일 실시예에 따라 개인화된 이상행동 판별모델 생성방법의 흐름도이다. 도 4에 도시된 이상행동 판별모델 생성방법은 도 1에 도시된 프로세서(170) 및/또는 도 3에 도시된 AI 프로세서에 의해 구현될 수도 있다. 설명의 편의를 위해 본 명세서의 일 실시예에 따른 개인화된 이상행동 판별모델은 도 1의 프로세서(170)에 의해 구현되는 것으로 설명한다.
도 4를 참조하면, 프로세서(170)는 입력 데이터를 수신한다(S400). 여기서 입력데이터는 도 1에 도시된 입력부(150)를 통해 획득될 수 있다. 상기 입력 데이터는 카메라를 통해 획득되는 영상 데이터, 오디오 신호를 수신하는 마이크로폰을 통해 획득되는 음성 데이터를 포함할 수 있다. 프로세서(170)는 상기 획득된 영상 데이터와 음성 데이터를 데이터베이스에 저장할 수 있다.
프로세서(170)는 상기 저장된 영상 데이터 및 음성 데이터에 기초하여 개인화된 이상행동 판별모델을 학습할 수 있다.
이를 위해, 프로세서(170)는 입력 데이터가 음성 데이터인 경우(S410: 음성), 입력 데이터에 대하여 STT(Speak to text) 변환을 수행할 수 있다(S420). 프로세서(170)는 STT 변환에 기초하여 입력 데이터를 해석할 수 있다(S430). 상기 입력 데이터의 해석 결과는 운전자의 음성 데이터에 기초하여 운전자의 상태를 정상 상태로 판단하기 위한 제1 음성 데이터와, 비정상 상태로 판단하기 위한 제2 음성 데이터로 구분될 수 있다. 프로세서는, 상기 제1 음성 데이터와 제2 음성 데이터로 구분된 결과를 데이터 베이스에 저장한다(S440).
프로세서(170)는 입력 데이터가 영상 데이터인 경우(S410: 영상), 상기 입력 데이터에 대하여 영상 분석을 수행할 수 있다. 일 실시예에 따라 상기 영상 분석은 운전자의 졸음상태를 판별하기 위한 다양한 방법(공지의 방법 포함)들이 적용될 수 있다. 음성 데이터와 마찬가지로, 프로세서(170)는 상기 영상 데이터를 전상 운행상태에 대응하는 제1 영상 데이터와 비정상 상태에 대응하는 제2 영상 데이터로 구분하여 데이터베이스에 저장할 수 있다(S440).
프로세서(170)는 데이터베이스에 저장된 상기 제1 음성데이터와 제1 영상 데이터를 운전자의 상태를 정상 상태로 판별하기 위한 정상 학습 데이터로 정의하고, 상기 제2 음성 데이터와 제2 영상 데이터를 상기 운전자의 상태를 비정상 상태로 판별하기 위한 비정상 학습 데이터로 정의함으로써, 학습 데이터를 생성할 수 있다(S450). 한편, 여기서 제1 음성 데이터 및 제2 음성 데이터는 STT 변환된 데이터를 의미할 수 있다.
프로세서(170)는 상기 마련된 학습 데이터에 기초하여 딥러닝 기반의 기계학습을 통해 개인화된 이상행동 판별모델을 생성할 수 있다(S460).
이하, 개인화된 이상행동 판별모델의 학습이 완료되어 저장된 후, 모바일 디바이스 또는 차량에 탑재된 이상행동 판별 애플리케이션의 기능이 실행됨에 따라, 운전자의 이상행동을 감지하는 방법을 설명한다.
도 5는 본 명세서의 일 실시예에 따라 운전자의 이상행동 감지방법의 흐름도이다.
프로세서(170)는 입력 데이터를 수신한다(S500). 상기 입력데이터는 전술한 바와 같이, 모바일 디바이스의 입력부 또는 차량에 탑재된 영상획득 수단/음성획득 수단을 통해 입력되는 음성 데이터 및/또는 영상 데이터를 포함할 수 있다.
프로세서(170)는 상기 입력된 입력 데이터에 기초하여 운전자를 식별할 수 있다(S510). 운전자 식별은 운전자가 기 등록되어 있는 사람인지 여부로 판단할 수 있는데, 일 실시예에 따라 프로세서(170)는 입력된 음성 데이터 또는 영상 데이터에 기초하여 운전자를 식별할 수 있다.
프로세서(170)는 식별된 운전자에 대응하는 이상행동 판별모델에 기 학습되어 데이터베이스에 저장되어 있는지 여부를 판단할 수 있다(S520). 프로세서(170)는 기 학습된 운전자의 이상행동 판별모델이 존재하는 경우(S520:Y), 수신된 입력 데이터를 기 저장된 이상행동 판별 모델에 적용하여 운전자의 이상행동을 판별할 수 있다(S530).
한편, 프로세서(170)는 식별된 운전자에 대응하는 이상행동 판별모델이 존재하지 않는 것으로 판단한 경우(S520: N), 신규 이상행동 판별모델 학습모드로 진입할지 여부를 운전자에게 안내할 수 있다(S540).
본 명세서의 일 실시예에 따른 운전자의 이상행동 판별모델 애플리케이션이 구동되는 차량의 경우, 운전자별로 정상 운행상태 데이터와 비정상 운행상태 데이터를 각각 구분하여 학습 데이터로 정의하여 운전자별 이상행동 판별모델을 학습하여 저장할 수 있다. 운전자별 이상행동 판별모델 학습 방법은 도 4에 도시된 바와 동일하게 적용될 수 있다. 다만, 본 명세서의 일 실시예에 따른 이상행동 판별방법이 모바일 디바이스에 설치된 애플리케이션을 통해 실행되는 경우, 모바일 디바이스 소유자의 개인화된 모델이 저장되어 있을 수 있다.
전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims (8)

  1. 영상 획득부;
    음성 획득부;
    상기 영상 획득부를 통해 획득된 영상 데이터, 상기 음성 획득부를 통해 획득된 음성 데이터를 저장하는 데이터베이스;
    상기 저장된 영상 데이터 및 음성 데이터에 기초하여 학습된 개인화된 이상행동 판별모델을 저장하는 저장부;
    상기 영상 획득부 및 음성 획득부를 통해 획득되는 실시간 데이터를 상기 이상행동 판별모델에 적용하여 운전자의 이상행동을 판단하는 프로세서;를 포함하되,
    상기 프로세서는,
    상기 영상 데이터 및 음성 데이터의 속성에 기초하여 상기 운전자의 정상 운행상태를 나타내는 정상 데이터와 비정상 운행상태를 나타내는 비정상 데이터를 각각 학습 데이터로 정의하고, 상기 학습 데이터에 기초하여 기계학습 기반의 학습을 통해 상기 개인화된 이상행동 판별모델을 생성하는 것을 특징으로 하는 운전자의 이상행동 감지장치.
  2. 제 1 항에 있어서,
    상기 학습 데이터는,
    상기 운전자의 정상 운행상태에 대응하는 제1 음성 데이터와 비정상 운행 상태에 대응하는 제2 음성 데이터,
    상기 운전자의 정상 운행 상태에 대응하는 제1 영상 데이터와 비정상 운행상태에 대응하는 제2 영상 데이터를 포함하는 것을 특징으로 하는 운전자의 이상행동 감지장치.
  3. 제 2 항에 있어서,
    상기 프로세서는,
    상기 음성 획득부를 통해 입력되는 상기 음성 데이터를 SST 변환하여 상기 제1 음성 데이터 및 제2 음성 데이터로 구분하고,
    상기 제1 음성 데이터 및 제1 영상 데이터를 상기 정상 데이터로 정의하고, 상기 제2 음성 데이터 및 제2 영상 데이터를 상기 비정상 데이터로 정의하는 것을 특징으로 하는 운전자의 이상행동 감지장치.
  4. 제 1 항에 있어서,
    상기 프로세서는,
    상기 운전자에 의해 차량이 운행되는 중, 상기 영상 획득부 및 음성 획득부를 통해 수신된 상기 음성 데이터 및 영상 데이터에 기초하여 상기 운전자를 식별하고, 식별된 운전자에 대응하는 이상행동 판별모델이 존재하는 경우, 상기 수신된 음성 데이터 및 영상 데이터를 상기 이상행동 판별모델에 적용하여 상기 운전자의 이상상태 여부를 판단하는 것을 특징으로 하는 운전자의 이상행동 감지장치.
  5. 제 4 항에 있어서,
    상기 프로세서는,
    상기 식별된 운전자에 대응하는 이상행동 판별모델이 존재하지 않는 경우, 새로운 개인화된 이상행동 판별모델 생성모드를 안내하는 것을 특징으로 하는 운전자의 이상행동 감지장치.
  6. 제 1 항에 있어서,
    상기 운전자의 이상행동 감지장치는, 휴대 가능한 모바일 디바이스를 포함하고,
    상기 프로세서는, 운전자 이상행동 감지를 위한 모바일 애플리케이션이 실행됨에 따라 구동되는 것을 특징으로 하는 이상행동 감지장치.
  7. 상기 제 1 항에 있어서,
    상기 운전자의 이상행동 감지장치는, 차량에 탑재된 임베딩 장치를 포함하고,
    상기 프로세서는, 상기 차량의 운행이 시작됨에 따라 구동되는 것을 특징으로 하는 이상행동 감지장치.
  8. 차량 운행이 시작됨에 따라 운전자의 음성데이터 및 영상 데이터를 획득하는 단계;
    상기 음성 데이터 및 영상 데이터에 기초하여 개인화된 이상행동 판별모델을 생성하기 위한 학습 데이터를 구성하는 단계;를 포함하고,
    상기 학습 데이터를 구성하는 단계는,
    음성 획득부를 통해 입력되는 상기 음성 데이터를 SST 변환하여 상기 운전자의 정상 운행상태에 대응하는 제1 음성 데이터 및 비정상 운행 상태에 대응하는 제2 음성 데이터로 구분하는 단계;
    영상 획득부를 통해 입력되는 상기 영상 데이터를 분석하여 상기 운전자의 정상 운행상태에 대응하는 제1 영상 데이터 및 비정상 운행 상태에 대응하는 제2 영상 데이터로 구분하는 단계: 및
    상기 제1 음성 데이터 및 제1 영상 데이터를 상기 정상 데이터로 정의하고, 상기 제2 음성 데이터 및 제2 영상 데이터를 상기 비정상 데이터로 정의하는 단계;
    를 포함하는 것을 특징으로 하는 운전자의 이상행동 판별모델 생성방법.
KR1020220048708A 2022-04-20 2022-04-20 개인화 가능한 기계학습 기반의 운전자 이상행동 감지 시스템 KR20230149894A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220048708A KR20230149894A (ko) 2022-04-20 2022-04-20 개인화 가능한 기계학습 기반의 운전자 이상행동 감지 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220048708A KR20230149894A (ko) 2022-04-20 2022-04-20 개인화 가능한 기계학습 기반의 운전자 이상행동 감지 시스템

Publications (1)

Publication Number Publication Date
KR20230149894A true KR20230149894A (ko) 2023-10-30

Family

ID=88558038

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220048708A KR20230149894A (ko) 2022-04-20 2022-04-20 개인화 가능한 기계학습 기반의 운전자 이상행동 감지 시스템

Country Status (1)

Country Link
KR (1) KR20230149894A (ko)

Similar Documents

Publication Publication Date Title
US11410657B2 (en) Artificial robot and method for speech recognition the same
KR102502220B1 (ko) 전자 장치, 그의 사용자 발화 의도 판단 방법 및 비일시적 컴퓨터 판독가능 기록매체
JP7022062B2 (ja) 統合化された物体認識および顔表情認識を伴うvpa
CN108701453B (zh) 模块化深度学习模型
US10878807B2 (en) System and method for implementing a vocal user interface by combining a speech to text system and a speech to intent system
KR102601848B1 (ko) 데이터 인식 모델 구축 장치 및 방법과 데이터 인식 장치
US11705105B2 (en) Speech synthesizer for evaluating quality of synthesized speech using artificial intelligence and method of operating the same
US10521723B2 (en) Electronic apparatus, method of providing guide and non-transitory computer readable recording medium
KR20190094315A (ko) 스타일을 고려하여 텍스트와 음성을 상호 변환하는 인공 지능 장치 및 그 방법
KR102484257B1 (ko) 전자 장치, 그의 문서 표시 방법 및 비일시적 컴퓨터 판독가능 기록매체
US11881209B2 (en) Electronic device and control method
KR102281504B1 (ko) 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법
US20200005795A1 (en) Device and method for providing voice recognition service based on artificial intelligence
CN111754998A (zh) 人工智能设备以及操作人工智能设备的方法
US11568853B2 (en) Voice recognition method using artificial intelligence and apparatus thereof
US20210110815A1 (en) Method and apparatus for determining semantic meaning of pronoun
US11508358B2 (en) Artificial intelligence apparatus and method for recognizing speech in consideration of utterance style
KR20220070466A (ko) 지능적 음성 인식 방법 및 장치
KR102221963B1 (ko) 화상 정보를 제공하는 인공 지능 장치 및 그 방법
Jha et al. Machine learning techniques for speech emotion recognition using paralinguistic acoustic features
KR20230120790A (ko) 가변적 언어모델을 이용한 음성인식 헬스케어 서비스
CN115132195B (zh) 语音唤醒方法、装置、设备、存储介质及程序产品
US11922538B2 (en) Apparatus for generating emojis, vehicle, and method for generating emojis
KR20200144366A (ko) 로봇을 위한 기동어 인식 모델의 생성
KR20230149894A (ko) 개인화 가능한 기계학습 기반의 운전자 이상행동 감지 시스템