KR20210042860A - 정보 출력 방법, 장치 및 시스템 - Google Patents

정보 출력 방법, 장치 및 시스템 Download PDF

Info

Publication number
KR20210042860A
KR20210042860A KR1020210041794A KR20210041794A KR20210042860A KR 20210042860 A KR20210042860 A KR 20210042860A KR 1020210041794 A KR1020210041794 A KR 1020210041794A KR 20210041794 A KR20210041794 A KR 20210041794A KR 20210042860 A KR20210042860 A KR 20210042860A
Authority
KR
South Korea
Prior art keywords
information
vehicle
users
text information
audio collection
Prior art date
Application number
KR1020210041794A
Other languages
English (en)
Inventor
성용 주오
이바오 양
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210042860A publication Critical patent/KR20210042860A/ko

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/02Alarms for ensuring the safety of persons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B25/00Alarm systems in which the location of the alarm condition is signalled to a central station, e.g. fire or police telegraphic systems
    • G08B25/01Alarm systems in which the location of the alarm condition is signalled to a central station, e.g. fire or police telegraphic systems characterised by the transmission medium
    • G08B25/016Personal emergency signalling and security systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Abstract

본 발명의 실시예는 정보 출력 방법, 장치 및 시스템을 공개한다. 상기 시스템은, 차량 내 상이한 위치에 설치된 적어도 2개의 오디오 수집 기기를 통해, 오디오 데이터를 각각 수집하고 에코 제거를 수행하며; 에코 제거 후의 데이터를 적어도 2개의 음성 식별 엔진에 각각 입력하여 음성 식별을 수행하여, 적어도 2개의 사용자의 텍스트 정보를 얻고; 적어도 2개의 오디오 수집 기기의 위치 및 대응되는 적어도 2개의 사용자의 텍스트 정보를 서버단에 업로드하도록 구성되는 차량; 및 차량에 의해 업로드된 적어도 2개의 오디오 수집 기기의 위치 및 대응되는 적어도 2개의 사용자의 텍스트 정보를 수신하고; 적어도 2개의 오디오 수집 기기의 위치에 따라, 2개의 사용자의 텍스트 정보를 대화 스트림으로 형성하며; 대화 스트림을 미리 트레이닝된 딥 러닝 모델에 입력하여, 비정상 대화인 확률을 얻고; 확률이 기설정된 제1 임계값보다 높으면, 신고가 트리거되도록 구성되는 서버단을 포함한다. 상기 실시형태는 차량 탑재 스마트 신고를 구현한다.

Description

정보 출력 방법, 장치 및 시스템{METHOD, DEVICE AND SYSTEM FOR OUTPUTTING INFORMATION}
본 발명의 실시예는 차량 인터넷 기술분야에 관한 것이고, 구체적으로 정보 출력 방법, 장치 및 시스템에 관한 것이다.
현재 인터넷 예약 차량은 안전 사고가 빈번하고, 인터넷 예약 차량 기수가 크며, 불법 사고 발생에 예고가 없고, 인터넷 예약 차량 플랫폼의 안전 기술수단이 제한적이며, 심각한 지연성이 존재하여, 사고가 발생시 피해자가 경계하고 경찰에 신고하더라도, 신고 접수가 지연되어 처리하기 어려운 문제가 존재한다.
현재 인터넷 예약 차량 플랫폼의 사고 이상 처리 메커니즘은, 피해자가 사전에 위협을 느낄 때, 휴대폰 APP단의 긴급 연락인 또는 구조 전화를 통해 전화 연결하거나 문자 메시지를 연락인 플랫폼에 보내는 것이다. 당해 메커니즘에 기반하면, 한편으로 불법 범죄 활동 발생시 피해자가 당시 환경의 제약을 받아 휴대폰을 정상적으로 사용하여 도움을 요청하거나 경찰에 신고할 수 없고, 다른 한편으로 긴급 연락인이 구조 전화 또는 메시지를 수신한 후 경찰에 신고하고, 인터넷 예약 플랫폼에 연락하여 사고가 발생한 차량의 위치 정보를 얻으며, 플랫폼이 관련 차량의 위치 및 차량 특징을 제공하여 경찰이 출동하여 처리하도록 해야 한다.
기존의 차량 탑재 스마트 경보수단은 차량 탑재 시스템의 카메라를 작동시켜, 앞줄의 인물 이미지 정보를 포획하고, 이미지 분석을 통해 잠복 위험 장면을 검출함으로써, 스마트 경보의 조치를 달성한다.
그러나 기존의 스마트 경보 시스템은 차량 기계 카메라에 의존하고 있어, 반드시 차량 기계 카메라를 작동시켜야만 인물 이미지 정보를 포획할 수 있고, 위험한 상황에서 제때에 카메라를 작동시킬 수 없다. 카메라를 작동시킨 후 전체 차량 기계 인터페이스가 모두 촬영 화면이 되어 눈에 띄기 쉽고 꺼지기 쉬우며, 카메라가 꺼지면 경보 시스템도 바로 작동하지 못한다.
본 발명의 실시예는 정보 출력 방법, 장치 및 시스템을 제공한다.
제1 양태에서, 본 발명의 실시예는 정보 출력 방법을 제공하되, 상기 방법은, 차량 내 상이한 위치에 설치된 적어도 2개의 오디오 수집 기기를 통해, 오디오 데이터를 각각 수집하는 단계; 수집된 적어도 2개의 오디오 데이터에 대해 에코 제거를 수행하는 단계; 에코 제거 후의 데이터를 적어도 2개의 음성 식별 엔진에 각각 입력하여 음성 식별을 수행하여, 적어도 2개의 사용자의 텍스트 정보를 얻는 단계; 및 적어도 2개의 오디오 수집 기기의 위치 및 대응되는 적어도 2개의 사용자의 텍스트 정보를 서버단에 업로드하여, 서버단이 미리 트레이닝된 딥 러닝 모델을 통해, 텍스트 정보 분석을 수행하도록 하고, 분석 결과가 신고 조건을 만족하면, 신고 정보를 출력하는 단계를 포함한다.
일부 실시예에서, 상기 방법은, 에코 제거 후의 데이터를 적어도 2개의 정서 식별 엔진에 각각 입력하여 정서 식별을 수행하여, 적어도 2개의 사용자의 정서 정보를 얻는 단계; 및 적어도 2개의 오디오 수집 기기의 위치, 대응되는 적어도 2개의 사용자의 텍스트 정보, 및 적어도 2개의 사용자의 정서 정보를 서버단에 업로드하여, 서버단이 미리 트레이닝된 딥 러닝 모델을 통해, 텍스트 정보 및 정서 분석을 수행하도록 하고, 분석 결과가 신고 조건을 만족하면, 신고 정보를 출력하는 단계를 더 포함한다.
제2 양태에서, 본 발명의 실시예는 정보 출력 방법을 제공하되, 상기 방법은, 차량에 의해 업로드된 적어도 2개의 오디오 수집 기기의 위치 및 대응되는 적어도 2개의 사용자의 텍스트 정보를 수신하는 단계; 적어도 2개의 오디오 수집 기기의 위치에 따라, 2개의 사용자의 텍스트 정보를 대화 스트림으로 형성하는 단계; 대화 스트림을 미리 트레이닝된 딥 러닝 모델에 입력하여, 비정상 대화인 확률을 얻는 단계; 및 확률이 기설정된 제1 임계값보다 높으면, 신고가 트리거되는 단계를 포함한다.
일부 실시예에서, 상기 방법은, 차량의 속성 정보와 위치 정보를 획득하는 단계; 위치 정보에, 따라 차량과 거리가 가장 가까운 교통 경찰을 찾는 단계; 및 차량의 속성 정보와 위치 정보를 교통 경찰에게 송신하는 단계를 더 포함한다.
일부 실시예에서, 상기 방법은, 적어도 2개의 사용자의 정서 정보를 수신하는 단계; 및 비정상 대화인 확률이 기설정된 제2 임계값보다 작고 승객의 정서 정보에 공포 정서가 포함되면, 신고가 트리거되는 단계를 더 포함한다.
일부 실시예에서, 상기 방법은, 차량의 오디오 수집 기기의 회로 연결 차단이 검출된 것에 응답하여, 신고가 트리거되는 단계를 더 포함한다.
일부 실시예에서, 상기 방법은, 차량에 테스트 문제를 정기적으로 송신하여 승객이 대답하는 단계; 및 딥 러닝 모델에 의해 정상으로 판정되는 답변 정보가 기설정된 시간 내에 수신되지 않으면, 신고가 트리거되는 단계를 더 포함한다.
제3 양태에서, 본 발명의 실시예는 정보 출력 장치를 제공하되, 상기 장치는 차량 내 상이한 위치에 설치된 적어도 2개의 오디오 수집 기기를 통해, 오디오 데이터를 각각 수집하도록 구성되는 오디오 수집 유닛; 수집된 적어도 2개의 오디오 데이터에 대해 에코 제거를 수행하도록 구성되는 에코 제거 유닛; 에코 제거 후의 데이터를 적어도 2개의 음성 식별 엔진에 각각 입력하여 음성 식별을 수행하여, 적어도 2개의 사용자의 텍스트 정보를 얻도록 구성되는 음성 식별 유닛; 및 적어도 2개의 오디오 수집 기기의 위치 및 대응되는 적어도 2개의 사용자의 텍스트 정보를 서버단에 업로드하여, 서버단이 미리 트레이닝된 딥 러닝 모델을 통해, 텍스트 정보 분석을 수행하도록 하고, 분석 결과가 신고 조건을 만족하면, 신고 정보를 출력하도록 구성되는 정보 업로드 유닛을 포함한다.
일부 실시예에서, 상기 장치는, 에코 제거 후의 데이터를 적어도 2개의 정서 식별 엔진에 각각 입력하여 정서 식별을 수행하여, 적어도 2개의 사용자의 정서 정보를 얻도록 구성되는 정서 식별 유닛을 더 포함하고, 정보 업로드 유닛은 또한, 적어도 2개의 오디오 수집 기기의 위치, 대응되는 적어도 2개의 사용자의 텍스트 정보, 및 적어도 2개의 사용자의 정서 정보를 서버단에 업로드하여, 서버단이 미리 트레이닝된 딥 러닝 모델을 통해, 텍스트 정보 및 정서 분석을 수행하도록 하고, 분석 결과가 신고 조건을 만족하면, 신고 정보를 출력하도록 구성된다.
제4 양태에서, 본 발명의 실시예는 정보 출력 장치를 제공하되, 상기 장치는 차량에 의해 업로드된 적어도 2개의 오디오 수집 기기의 위치 및 대응되는 적어도 2개의 사용자의 텍스트 정보를 수신하도록 구성되는 수신 유닛; 적어도 2개의 오디오 수집 기기의 위치에 따라, 2개의 사용자의 텍스트 정보를 대화 스트림으로 형성하도록 구성되는 텍스트 스티칭 유닛; 대화 스트림을 미리 트레이닝된 딥 러닝 모델에 입력하여, 비정상 대화인 확률을 얻도록 구성되는 대화 식별 유닛; 및 확률이 기설정된 제1 임계값보다 높으면, 신고가 트리거되도록 구성되는 신고 유닛을 포함한다.
일부 실시예에서, 신고 유닛은 또한, 차량의 속성 정보와 위치 정보를 획득하고; 위치 정보에, 따라 차량과 거리가 가장 가까운 교통 경찰을 찾으며; 차량의 속성 정보와 위치 정보를 교통 경찰에게 송신하도록 구성된다.
일부 실시예에서, 수신 유닛은 또한, 적어도 2개의 사용자의 정서 정보를 수신하도록 구성되고; 신고 유닛은 또한 비정상 대화인 확률이 기설정된 제2 임계값보다 작고 승객의 정서 정보에 공포 정서가 포함되면, 신고가 트리거되도록 구성된다.
일부 실시예에서, 신고 유닛은 또한, 차량의 오디오 수집 기기의 회로 연결 차단이 검출된 것에 응답하여, 신고가 트리거되도록 구성된다.
일부 실시예에서, 신고 유닛은 또한, 차량에 테스트 문제를 정기적으로 송신하여 승객이 대답하고; 딥 러닝 모델에 의해 정상으로 판정되는 답변 정보가 기설정된 시간 내에 수신되지 않으면, 신고가 트리거되도록 구성된다.
제5 양태에서, 본 발명의 실시예는 정보 출력 시스템을 제공하되, 상기 시스템은, 차량 내 상이한 위치에 설치된 적어도 2개의 오디오 수집 기기를 통해, 오디오 데이터를 각각 수집하고; 수집된 적어도 2개의 오디오 데이터에 대해 에코 제거를 수행하며; 에코 제거 후의 데이터를 적어도 2개의 음성 식별 엔진에 각각 입력하여 음성 식별을 수행하여, 적어도 2개의 사용자의 텍스트 정보를 얻고; 적어도 2개의 오디오 수집 기기의 위치 및 대응되는 적어도 2개의 사용자의 텍스트 정보를 서버단에 업로드하도록 구성되는 차량; 및 차량에 의해 업로드된 적어도 2개의 오디오 수집 기기의 위치 및 대응되는 적어도 2개의 사용자의 텍스트 정보를 수신하고; 적어도 2개의 오디오 수집 기기의 위치에 따라, 2개의 사용자의 텍스트 정보를 대화 스트림으로 형성하며; 대화 스트림을 미리 트레이닝된 딥 러닝 모델에 입력하여, 비정상 대화인 확률을 얻고; 확률이 기설정된 제1 임계값보다 높으면, 신고가 트리거되도록 구성되는 서버단을 포함한다.
제6 양태에서, 본 발명의 실시예는, 하나 또는 복수 개의 프로세서; 하나 또는 복수 개의 프로그램이 저장되는 저장 장치를 포함하는 정보 출력 전자 기기를 제공하되, 하나 또는 복수 개의 프로그램이 하나 또는 복수 개의 프로세서에 의해 실행될 경우, 하나 또는 복수 개의 프로세서가 제1양태 및 제2 양태 중 임의의 하나의 방법을 구현하도록 한다.
제7 양태에서, 본 발명의 실시예는 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 매체를 제공하되, 프로그램이 프로세서에 의해 실행될 경우, 제1양태 및 제2 양태 중 임의의 하나의 방법을 구현하도록 한다.
제8 양태에서, 본 발명의 실시예는 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램을 제공하되, 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 제1양태 및 제2 양태 중 임의의 하나의 방법을 구현하도록 한다.
본 발명은 주로 차량 탑재 시나리오의 인신 안전 문제에 대해 효과적인 실시간 음성 모니터링을 수행하고, 차량 탑재 시나리오에서 사용자 음성 대화를 모니터링하고, 사용자 대화 내용을 획득하며, 위험을 사전에 예측하여 적시에 예방 조치를 취함으로써, 차량 탑재 출행 시나리오에서의 많은 잠복된 안전 문제를 해결한다.
아래 첨부 도면에 도시된 비 제한적인 실시예의 상세한 설명에 대한 열독 및 참조를 통해 본 발명의 다른 특징, 목적 및 장점이 보다 명백해질 것이다.
도 1은 본 발명의 일 실시예가 응용될 수 있는 예시적 시스템 아키텍처이다.
도 2는 본 발명에 따른 정보 출력 방법의 일 실시예의 흐름도이다.
도 3은 본 발명에 따른 정보 출력 방법의 다른 실시예의 흐름도이다.
도 4는 본 발명에 따른 정보 출력 방법의 일 응용 장면의 모식도이다.
도 5는 본 발명에 따른 정보 출력 장치의 일 실시예의 구조 모식도이다.
도 6은 본 발명에 따른 정보 출력 장치의 다른 실시예의 구조 모식도이다.
도 7은 본 발명의 실시예를 구현하는데 적합한 전자 기기의 컴퓨터 시스템의 구조 모식도이다.
아래 첨부 도면 및 실시예를 참조하여 본 발명을 더 상세히 설명한다. 여기서 설명되는 구체적인 실시예는 관련 발명을 해석하기 위한 것일 뿐 본 발명은 이에 한정되지 않음을 이해할 수 있을 것이다. 이 밖에, 설명의 편의를 위해 도면에는 해당 발명과 관련된 부분만이 도시되었음을 유의해야 한다.
모순되지 않는 한 본 발명의 실시예 및 실시예의 특징은 서로 조합될 수 있음을 유의해야 한다. 아래 첨부 도면을 참조하고 실시예를 참조하여 본 발명을 상세히 설명하기로 한다.
도 1은 본 발명의 정보 출력 방법 또는 정보 출력 장치 실시예를 응용할 수 있는 예시적 시스템 아키텍처(100)를 도시한다.
도 1에 도시된 바와 같이, 시스템 아키텍처(100)는 차량(101), 네트워크(102) 및 서버(103)를 포함할 수 있고, 차량(101)에는 오디오 수집 기기(1011, 1012, 1013, 1014)가 설치되어 있고, 컨트롤러(1015)도 설치되어 있다. 상기 컨트롤러(1015)는 단계(201) 내지 단계(205)를 수행할 수 있다. 네트워크(102)는 차량(101)과 서버(103) 사이에서 통신 링크의 매체를 제공한다. 네트워크(102)는 다양한 연결 타입을 포함할 수 있는 바, 예를 들면 유선, 무선 통신 링크 또는 광섬유 케이블 등이다.
승객은 차량(101)을 사용하여 네트워크(102)를 통해 서버(103)와 인터랙션함으로써 메시지 등을 수신 또는 송신할 수 있다. 차량(101)에는 복수 개의 오디오 수집 기기가 설치될 수 있다. 차량(101)은 음성을 검출된 후 로컬에서 음성 인식을 수행할 수 있다. 각각의 오디오 수집 기기는 하나의 오디오 데이터를 수신할 수 있고, 하나의 오디오 데이터는 하나의 음성 식별 엔진에 의해 음성 식별을 수행하고, 이렇게 각각의 오디오 수집 기기는 하나의 사용자의 텍스트 정보에 대응된다. 오디오 수집 기기의 위치에 따라 상기 오디오 데이터에 대응되는 사용자의 신분을 결정할 수 있고, 예를 들어, 운전 위치 부근에서 수집한 음성에 대해 음성 식별을 수행하여 얻은 텍스트 정보는 운전사의 것이다.
차량(101)에 설치된 오디오 수집 기기의 수량은 2개에 제한되지 않고 3개 또는 3개 이상일 수 있다. 복수 개의 오디오 수집 기기를 설치하는 목적은 주로 말하는 사람의 위치를 식별하여, 운전사가 승객에게 위협을 가하는지 여부를 판정하는 것이다. 오디오 수집 기기의 수량은 차량의 최대 승객수와 일치할 수 있다.
서버(103)는 다양한 서비스를 제공하는 서버일 수 있고, 예를 들면 차량(101)에 의해 업로드된 음성 식별 결과에 대해 텍스트 분석을 제공하는 신고 서버일 수 있다. 신고 서버에는 사용자 신분에 따라 수신된 텍스트 정보를 대화 스트림으로 스티칭하는 신경망 모델이 설치될 수 있고, 신경망 모델을 통해 대화가 신고 조건을 만족하는지 여부를 판정한다. 만약 신고 조건을 만족하면 신고가 트리거되고, 차량 근처의 교통 경찰에게 상기 차량의 위치 정보와 속성 정보(차량 번호판, 차량 모델, 차량 주인 신분 정보, 전화 등)를 통지한다.
설명해야 할 것은, 서버는 하드웨어 또는 소프트웨어일 수 있다. 서버가 하드웨어인 경우 복수의 서버로 구성된 분산형 서버 클러스터로 구현될 수 있고, 하나의 서버로 구현될 수도 있다. 서버가 소프트웨어인 경우 복수의 소프트웨어 또는 소프트웨어 모듈(예를 들면 분산형 서비스를 제공함)로 구현되거나, 하나의 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있으며 여기서는 구체적으로 한정하지 않는다.
설명해야 할 것은, 본 발명의 실시예가 제공하는 정보 출력 방법은 일반적으로 차량(101)과 서버(103)에 의해 수행될 수 있고, 상응하게, 정보 출력 장치는 일반적으로 차량(101)과 서버(103)에 설치될 수 있다. 하나의 서버는 다수의 차량을 위해 서비스를 제공할 수 있고, 이들은 신고 시스템을 형성한다.
이해해야 할 것은 도 1 중 차량, 네트워크, 서버의 개수는 예시적인 것일 뿐이며, 실제 필요에 따라 임의의 개수의 차량, 네트워크 및 서버를 구비할 수 있다.
계속하여 도 2를 참조하면, 이는 본 발명에 따른 정보 출력 방법의 일 실시예의 프로세스(200)를 도시한다. 상기 정보 출력 방법은 차량에 응용되고, 하기와 같은 단계를 포함한다.
단계(201)에서, 차량 내 상이한 위치에 설치된 적어도 2개의 오디오 수집 기기를 통해, 오디오 데이터를 각각 수집한다.
본 실시예에서, 정보 출력 방법의 수행 주체(예를 들어 도 1에 도시된 차량)는 차량 내 상이한 위치에 설치된 적어도 2개의 오디오 수집 기기를 통해, 오디오 데이터를 각각 수집한다. 오디오 수집 기기는 마이크, 픽업, 녹음기 등 오디오를 수집하는 기기를 포함할 수 있다. 각각의 오디오 수집 기기는 하나의 데이터를 수집한다. 오디오 수집 기기는 좌석 옆에 설치되어, 상기 좌석의 사용자의 음성을 수집할 수 있다. 오디오 수집 기기의 위치를 통해, 수집된 오디오 데이터가 어느 사용자의 것인지 판정할 수 있다. 2개의 오디오 수집 기기 중 하나는 운전사가 사용한 오디오 수집 기기이다. 다른 오디오 수집 기기는 승객을 위해 사용된다. 일반적으로 4개의 오디오 수집 기기를 설치할 수 있고, 도 1에 도시된 바와 같다.
단계(202)에서, 수집된 적어도 2개의 오디오 데이터에 대해 에코 제거를 수행한다.
본 실시예에서, 에코 제거(Acoustic Echo Cancellation, AEC) 문제에 대해, 현재 가장 널리 사용되고 있는 알고리즘은 자체 적응 필터링에 기반한 에코 제거 알고리즘이다. 상이한 자체 적응 필터링 알고리즘을 사용하여 여파기의 가중치 벡터를 조절하고, 하나의 유사한 에코 경로를 추정하여 실제 에코 경로에 근접함으로써 추정된 에코 신호를 얻고, 순수한 음성과 에코의 혼합 신호에서 해당 신호를 제거하여 에코 제거를 구현한다.
단계(203)에서, 에코 제거 후의 데이터를 적어도 2개의 음성 식별 엔진에 각각 입력하여 음성 식별을 수행하여, 적어도 2개의 사용자의 텍스트 정보를 얻는다.
본 실시예에서, 각각의 오디오 수집 기기는 하나의 음성 식별 엔진에 대응된다. 음성 식별 엔진은 음성 식별 기술을 사용하고, 자동 음성 식별(Automatic Speech Recognition, ASR)이라고도 하며, 그 목표는 인류 음성 중의 어휘 내용을 버튼, 이진법 코드 또는 캐릭터 시퀀스 등과 같은 컴퓨터 판독 가능한 입력으로 변환하는 것이다. 본 발명의 수단에서, 웨이크업이 필요없이 음성 식별을 시작한다.
단계(204)에서, 적어도 2개의 오디오 수집 기기의 위치 및 대응되는 적어도 2개의 사용자의 텍스트 정보를 서버단에 업로드하여, 서버단이 미리 트레이닝된 딥 러닝 모델을 통해, 텍스트 정보 분석을 수행하도록 하고, 분석 결과가 신고 조건을 만족하면, 신고 정보를 출력한다.
본 실시예에서, 음성의 끝점이 검출된 후 텍스트 정보 식별을 시작하여 서버단에 업로드할 수 있고, 음성 식별을 실시간으로 수행하여 식별 결과를 실시간으로 업로드할 수도 있다. 각각의 사용자의 오디오 데이터의 음성 식별 결과는 각각 상이한 방출 장치를 통해 업로드될 수 있고, 하나의 방출 장치를 공동으로 사용하고, 복수 개의 사용자의 텍스트 정보를 하나의 패킷으로 하여 업로드될 수 있다. 자원을 절약하기 위해, 시간대별로 상이한 사용자의 텍스트 정보를 리포트할 수도 있다. 리포트된 텍스트 정보는 오디오 수집 기기의 위치 식별자가 구비되고, 서버단은 이를 사용하여 수신된 텍스트 정보가 누구의 것인지 판정할 수 있다. 만약 시간대별로 텍스트 정보를 리포트할 때 자원이 충돌되면, 승객의 텍스트 정보를 우선적으로 리포트한 다음 운전사의 텍스트 정보를 리포트할 수 있다. 만약 시간대별로 리포트하면, 대화의 시간 순서를 구분하도록 시간 라벨을 추가하여야 한다.
텍스트 정보가 서버단에 리포트된 이후, 서버단에 의해 미리 트레이닝된 딥 러닝 모델을 통해 텍스트 정보 분석을 수행하고, 분석 결과가 신고 조건을 만족하면 신고 정보를 출력한다.
본 실시예의 일부 선택 가능한 구현형태에서, 상기 방법은, 에코 제거 후의 데이터를 적어도 2개의 정서 식별 엔진에 각각 입력하여 정서 식별을 수행하여, 적어도 2개의 사용자의 정서 정보를 얻는 단계; 및 적어도 2개의 오디오 수집 기기의 위치, 대응되는 적어도 2개의 사용자의 텍스트 정보, 및 적어도 2개의 사용자의 정서 정보를 서버단에 업로드하여, 서버단이 미리 트레이닝된 딥 러닝 모델을 통해, 텍스트 정보 및 정서 분석을 수행하도록 하고, 분석 결과가 신고 조건을 만족하면, 신고 정보를 출력하는 단계를 더 포함한다. 정서 식별 엔진은 신경망 분류기일 수 있고, 소리 특징을 추출하여 긴장, 공포, 기쁨, 슬픔 등과 같은 사용자의 정서를 판정하며, 일반적으로 공포를 느낀 사용자의 소리는 떨리게 된다. 트레이닝 과정을 간략화하기 위해, 이진 분류기를 사용할 수 있고, 사용자의 정서가 공포임을 식별해내는 확률을 얻으면 된다. 트레이닝시 공포를 느낀 사용자의 소리를 양성 샘플로 하여 트레이닝을 수행한다.
만약 승객이 협박을 받아 운전사의 요구대로 정상적인 대화를 하면, 음성으로 식별된 텍스트 정보를 통해 이상 여부를 전혀 판단할 수 없다. 정서 정보를 식별해내는 것은 음성 식별된 텍스트 정보가 사용자의 정신 상태를 표현할 수 없는 것을 보완하기 위함이다. 만약 텍스트 정보가 정상이지만 승객의 정서가 이상이면, 운전사는 음성 모니터링을 속이기 위해 승객이 정상적인 대화를 하도록 강요한 것일 가능성이 매우 높다.
또한, 도 3을 참조하면, 이는 정보 출력 방법의 다른 실시예의 프로세스(300)를 도시한다. 상기 정보 출력 방법의 프로세스(300)는 서버단에 응용되고, 하기와 같은 단계를 포함한다.
단계(301)에서, 차량에 의해 업로드된 적어도 2개의 오디오 수집 기기의 위치 및 대응되는 적어도 2개의 사용자의 텍스트 정보를 수신한다.
본 실시예에서, 정보 출력 방법의 수행 주체(예를 들어 도 1에 도시된 서버단)는 무선 연결을 통해 차량에 의해 업로드된 적어도 2개의 오디오 수집 기기의 위치 및 대응되는 적어도 2개의 사용자의 텍스트 정보를 수신한다.
단계(302)에서, 적어도 2개의 오디오 수집 기기의 위치에 따라, 2개의 사용자의 텍스트 정보를 대화 스트림으로 형성한다.
본 실시예에서, 텍스트 정보에 대응되는 위치를 수신하는 것에 따라 텍스트 정보가 속한 사용자를 구별할 수 있다. 그리고 텍스트 정보를 수신한 시간에 따라 상이한 사용자가 말한 것을 완전한 대화로 스티칭한다. 만약 차량이 시간대별로 텍스트 정보를 리포트하면, 타임 스탬프를 추가하고, 서버단은 타임 스탬프에 따라 대화 스트림을 스티칭한다.
단계(303)에서, 대화 스트림을 미리 트레이닝된 딥 러닝 모델에 입력하여, 비정상 대화인 확률을 얻는다.
본 실시예에서, 과거 사건의 대화 정보를 트레이닝 샘플로 사용하여 상기 딥 러닝 모델을 트레이닝할 수 있다. 과거 사건에 운전사와 피해자의 대화 기록(운전사가 체포된 후 심문 기록)이 기록되고, 이를 양성 샘플로 하여 모니터링이 있는 트레이닝을 수행한다. 트레이닝을 거쳐 얻은 딥 러닝 모델은 입력된 대화 스트림에 따라 비정상 대화인 확률을 얻을 수 있다.
단계(304)에서, 확률이 기설정된 제1 임계값보다 높으면, 신고가 트리거된다.
본 실시예에서, 비정상 대화인 확률이 기설정된 제1 임계값보다 높으면, 신고가 트리거된다. 신고가 트리거되는 과정은 110으로 전화를 걸어 의심 차량의 위치와 속성 정보(차량 모델, 컬러, 차량 주인 정보 등)를 알리는 것을 포함한다. 또한, 위치 정보에, 따라 차량과 거리가 가장 가까운 교통 경찰을 찾고; 차량의 속성 정보와 위치 정보를 교통 경찰에게 송신할 수 있다.
본 실시예의 일부 선택 가능한 구현형태에서, 상기 방법은, 적어도 2개의 사용자의 정서 정보를 수신하는 단계; 및 비정상 대화인 확률이 기설정된 제2 임계값보다 작고 승객의 정서 정보에 공포 정서가 포함되면, 신고가 트리거되는 단계를 더 포함한다. 오디오 수집 기기의 위치를 통해 수신된 음성이 운전사의 것인지 아니면 승객의 것인지 결정하여, 적어도 2개의 사용자의 정서 정보 중 어느 정서 정보가 승객의 것인지 식별할 수 있다. 정서 정보는 공포 정서, 긴장 정서, 격동 정서 등을 포함할 수 있다. 정서 정보를 통해 수신된 텍스트 정보에 대해 조정 검증을 수행할 수도 있다. 비록 텍스트 정보로부터 문제를 보아낼 수 없지만 승객이 운전사에게 협박 당하는 상황을 배제할 수 없으므로, 소리 특징을 통해 승객의 정서가 정상인지 여부를 판정하여야 하고, 만약 두려움 속에서도 완전한 대화를 수행할 수 있다면 매우 의심스러우며 신고하여야 한다. 제2 임계값은 제1 임계값보다 작거나 같을 수 있다.
본 실시예의 일부 선택 가능한 구현형태에서, 상기 방법은, 차량의 오디오 수집 기기의 회로 연결 차단이 검출된 것에 응답하여, 신고가 트리거되는 단계를 더 포함한다. 오디오 수집 기기의 회로가 끊기는 것은 오디오 수집 기기가 제거되었다는 것을 설명한다. 본 발명이 정상적으로 작동될 수 있는 전제 조건은 오디오 수집 기기가 모두 정상적으로 사용되는 것이다. 따라서 오디오 수집 기기에 대해 일부 검출을 수행하여 운전사에 의해 제거되는 것을 방지하여야 한다. 만약 운영자의 승인없이 오디오 수집 기기가 제거되면 경찰에 신고한다.
본 실시예의 일부 선택 가능한 구현형태에서, 상기 방법은, 차량에 테스트 문제를 정기적으로 송신하여 승객이 대답하는 단계; 및 딥 러닝 모델에 의해 정상으로 판정되는 답변 정보가 기설정된 시간 내에 수신되지 않으면, 신고가 트리거되는 단계를 더 포함한다. 만약 차량 내의 대화가 계속하여 모니터링되지 않으면 승객이 말하고 싶지 않은 것인지 아니면 운전사가 승객이 말하지 못 하도록 하는 것인지 판정할 수 없으므로, 일부 테스트 문제를 정기적으로 송신하여 승객이 대답하여 승객의 안전 여부를 결정하여야 한다. 만약 일정 시간 동안 승객의 대답이 없거나 대답 후 음성 식별을 통해 해석된 결과가 딥 러닝 모델을 거쳐 이상으로 판정되면 신고가 트리거된다.
계속하여 도 4를 참조하면, 도 4는 본 실시예에 따른 정보 출력 방법의 응용 장면의 일 모식도이다. 도 4의 응용 장면에서, 승객이 차량에 탑승한 후 운전사의 뒤쪽에 앉으면, 승객과 가장 가까운 오디오 수집 기기가 승객의 음성을 수집한다. 운전사 옆의 오디오 수집 기기는 운전사의 음성을 수집한다. 다음, 두 사람의 음성은 각각 음성 식별 엔진에 의해 식별되어 2개의 텍스트 정보를 얻는다. 차량은 이 2개의 텍스트 정보를 서버단에 송신한다. 서버단은 오디오 수집 기기의 위치에 따라 어느 텍스트 정보가 운전사가 말한 것이고, 어느 텍스트 정보가 승객이 말한 것인지 결정한다. 다음, 수신된 시간에 따라 두 개의 텍스트 정보를 대화로 스티칭한다. 마지막으로, 미리 트레이닝된 딥 러닝 모델에 대화를 입력하여 비정상 대화인 확률을 판정한다. 만약 기설정된 제1 임계값보다 높으면, 신고가 트리거된다.
본 발명의 상기 실시예에서 제공되는 방법은 하기와 같은 장점이 있다.
1. 차량 안전 속성을 증가시키고, 차량 기업 안전 기술 해결 수단을 풍부하게 한다.
2. 택시, 인터넷 예약 차량 등 업계와 같은 차량 파생 운송 서비스 업계에서, 상기 해결 수단이 탑재된 차량은 승객의 안전 보장을 향상시킬 수 있다.
3. 사용자의 대화 내용을 검출하여, 차량 기계의 관련 추천 서비스를 최적화할 수 있고, 사용자에게 더 흥미로운 뉴스 메시지를 추천하며, 사용자에게 더욱 우수한 문장 또는 제품을 추천한다.
또한, 도 5를 참조하면, 상기 각 도면에 도시된 방법에 대한 구현으로서, 본 발명은 정보 출력 장치의 일 실시예를 제공하고, 상기 장치 실시예는 도 2에 도시된 방법 실시예와 대응되며, 상기 장치는 구체적으로 다양한 전자 기기에 응용될 수 있다.
도 5에 도시된 바와 같이, 본 실시예의 정보 출력 장치(500)는 오디오 수집 유닛(501), 에코 제거 유닛(502), 음성 식별 유닛(503) 및 정보 업로드 유닛(504)을 포함한다. 여기서, 오디오 수집 유닛(501)은, 차량 내 상이한 위치에 설치된 적어도 2개의 오디오 수집 기기를 통해, 오디오 데이터를 각각 수집하도록 구성되고; 에코 제거 유닛(502)은, 수집된 적어도 2개의 오디오 데이터에 대해 에코 제거를 수행하도록 구성되며; 음성 식별 유닛(503)은 에코 제거 후의 데이터를 적어도 2개의 음성 식별 엔진에 각각 입력하여 음성 식별을 수행하여, 적어도 2개의 사용자의 텍스트 정보를 얻도록 구성되고; 정보 업로드 유닛(504)은 적어도 2개의 오디오 수집 기기의 위치 및 대응되는 적어도 2개의 사용자의 텍스트 정보를 서버단에 업로드하여, 서버단이 미리 트레이닝된 딥 러닝 모델을 통해, 텍스트 정보 분석을 수행하도록 하고, 분석 결과가 신고 조건을 만족하면, 신고 정보를 출력하도록 구성된다.
본 실시예에서, 정보 출력 장치(500)의 오디오 수집 유닛(501), 에코 제거 유닛(502), 음성 식별 유닛(503) 및 정보 업로드 유닛(504)의 구체적인 처리는 도 2의 대응 실시예 중의 단계(201), 단계(202), 단계(203), 단계(204)를 참조할 수 있다.
본 실시예의 일부 선택 가능한 구현형태에서, 장치(500)는 에코 제거 후의 데이터를 적어도 2개의 정서 식별 엔진에 각각 입력하여 정서 식별을 수행하여, 적어도 2개의 사용자의 정서 정보를 얻도록 구성되는 정서 식별 유닛을 더 포함하고; 정보 업로드 유닛은 또한, 적어도 2개의 오디오 수집 기기의 위치, 대응되는 적어도 2개의 사용자의 텍스트 정보, 및 적어도 2개의 사용자의 정서 정보를 서버단에 업로드하여, 서버단이 미리 트레이닝된 딥 러닝 모델을 통해, 텍스트 정보 및 정서 분석을 수행하도록 하고, 분석 결과가 신고 조건을 만족하면, 신고 정보를 출력하도록 구성된다.
또한, 도 6을 참조하면, 상기 각 도면에 도시된 방법에 대한 구현으로서, 본 발명은 정보 출력 장치를 제공하고, 상기 장치 실시예는 도 3에 도시된 방법 실시예와 대응되며, 상기 장치는 구체적으로 다양한 전자 기기에 응용될 수 있다.
도 6에 도시된 바와 같이, 본 실시예의 정보 출력 장치(600)는 수신 유닛(601), 텍스트 스티칭 유닛(602), 대화 식별 유닛(603), 신고 유닛(604)을 포함한다. 여기서, 수신 유닛(601)은 차량에 의해 업로드된 적어도 2개의 오디오 수집 기기의 위치 및 대응되는 적어도 2개의 사용자의 텍스트 정보를 수신하도록 구성되고; 텍스트 스티칭 유닛(602)은 적어도 2개의 오디오 수집 기기의 위치에 따라, 2개의 사용자의 텍스트 정보를 대화 스트림으로 형성하도록 구성되며; 대화 식별 유닛(603)은 대화 스트림을 미리 트레이닝된 딥 러닝 모델에 입력하여, 비정상 대화인 확률을 얻도록 구성되고; 신고 유닛(604)은 확률이 기설정된 제1 임계값보다 높으면, 신고가 트리거되도록 구성된다.
본 실시예에서, 정보 출력 장치(600)의 수신 유닛(601), 텍스트 스티칭 유닛(602), 대화 식별 유닛(603), 신고 유닛(604)의 구체적인 처리는 도 2의 대응 실시예 중의 단계(201), 단계(202), 단계(203), 단계(204)를 참조할 수 있다.
본 실시예의 일부 선택 가능한 구현형태에서, 신고 유닛(604)은 또한, 차량의 속성 정보와 위치 정보를 획득하고; 위치 정보에, 따라 차량과 거리가 가장 가까운 교통 경찰을 찾으며; 차량의 속성 정보와 위치 정보를 교통 경찰에게 송신하도록 구성된다.
본 실시예의 일부 선택 가능한 구현형태에서, 수신 유닛(601)은 또한 적어도 2개의 사용자의 정서 정보를 수신하도록 구성되고; 신고 유닛(604)은 또한 비정상 대화인 확률이 기설정된 제2 임계값보다 작고 승객의 정서 정보에 공포 정서가 포함되면, 신고가 트리거되도록 구성된다.
본 실시예의 일부 선택 가능한 구현형태에서, 신고 유닛(604)은 또한, 차량의 오디오 수집 기기의 회로 연결 차단이 검출된 것에 응답하여, 신고가 트리거되도록 구성된다.
본 실시예의 일부 선택 가능한 구현형태에서, 신고 유닛(604)은 또한, 차량에 테스트 문제를 정기적으로 송신하여 승객이 대답하고; 딥 러닝 모델에 의해 정상으로 판정되는 답변 정보가 기설정된 시간 내에 수신되지 않으면, 신고가 트리거되도록 구성된다.
아래 도 7을 참조하면, 이는 본 발명의 실시예를 구현하는데 사용하기 적합한 전자 기기(예를 들어 도 1의 서버 또는 차량 컨트롤러)(700)의 구조 모식도를 도시한다. 도 7에 도시된 차량 컨트롤러/서버는 단지 하나의 예시일 뿐, 본 발명의 실시예의 기능과 사용범위를 제한하기 위함이 아니다.
도 7에 도시된 바와 같이, 전자 기기(700)는 판독 전용 메모리(ROM)(702)에 저장된 프로그램 또는 저장 장치(708)로부터 랜덤 액세스 메모리(RAM)(703)로 로딩된 프로그램에 따라 다양하고 적절한 동작 및 처리를 수행할 수 있는 처리 장치(예를 들면 중앙 처리 장치, 그래픽 처리 장치 등)(701)를 포함한다. RAM(703)에는 또한 전자 기기(700)의 조작에 필요한 다양한 프로그램 및 데이터가 저장된다. 처리 장치(701), ROM(702) 및 RAM(703)은 버스(704)를 통해 서로 연결된다. 입/출력(I/O) 인터페이스(705) 역시 버스(704)에 연결된다.
일반적으로, 예를 들어 터치 스크린, 터치 패드, 키보드, 마우스, 카메라, 오디오 수집 기기, 가속도계, 자이로스코프 등을 포함하는 입력 장치(706); 예를 들어 액정 디스플레이(LCD), 스피커, 진동기 등을 포함하는 출력 장치(707); 예를 들어 자기 테이프, 하드 드라이버 등을 포함하는 저장 장치(708); 및 통신 장치(709)는 I/O 인터페이스(705)에 연결될 수 있다. 통신 장치(709)는 전자 기기(700)가 무선 또는 유선으로 다른 기기와 통신하여 데이터를 교환하도록 허용할 수 있다. 비록 도 7에서 다양한 장치를 갖는 전자 기기(700)를 나타냈지만, 모든 도시된 장치를 실시하거나 구비할 필요는 없음을 이해해야 한다. 보다 많거나 보다 적은 장치를 대체적으로 실시하거나 구비할 수 있다. 도 7에 도시된 각 블록은 하나의 장치를 대표할 수 있고, 수요에 따라 다수의 장치를 대표할 수도 있다.
특히, 본 발명의 실시예에 따르면, 앞에서 흐름도를 참조하여 설명한 과정은 컴퓨터 소프트웨어 프로그램으로서 구현될 수 있다. 예를 들어, 본 발명의 실시예는 컴퓨터 판독 가능한 매체에 베어링된 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 포함하고, 상기 컴퓨터 프로그램은 흐름도에 도시된 방법을 수행하기 위한 프로그램 코드를 포함한다. 이런 실시예에서, 상기 컴퓨터 프로그램은 통신 장치(709)를 통해 네트워크로부터 다운로드 및 설치될 수 있거나, 또는 저장 장치(708)로부터 설치될 수 있거나, 또는 ROM(702)으로부터 설치될 수 있다. 상기 컴퓨터 프로그램이 처리 장치(701)에 의해 실행될 때, 본 발명의 방법에 한정된 상기 기능들이 수행된다. 본 발명의 실시예에 기재된 컴퓨터 판독 가능한 매체는 컴퓨터 판독 가능 신호 매체 또는 컴퓨터 판독 가능 저장 매체 또는 이 양자의 임의의 조합 일 수 있음에 유의해야 한다. 컴퓨터 판독 가능 저장 매체는 예를 들어, 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 소자, 또는 이들의 임의의 조합일 수 있지만, 이에 한정되지 않는다. 컴퓨터 판독 가능 저장 매체의 보다 구체적인 예는 하나 또는 복수의 도선에 의한 전기적 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그램 가능 읽기 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 장치, 자기 저장 장치 또는 이들의 임의의 적절한 조합을 포함할 수 있지만, 이에 한정되지 않는다. 본 발명의 실시예에서, 컴퓨터 판독 가능 저장 매체는 명령 실행 시스템, 장치 또는 소자 또는 이들과 결합되어 사용될 수 있는 프로그램을 포함하거나 저장할 수 있는 임의의 타입의 매체일 수 있다. 본 발명의 실시예에서, 컴퓨터 판독 가능 신호 매체는 컴퓨터 판독 가능 프로그램 코드를 베어링하는 베이스 밴드 또는 캐리어의 일부로 전파되는 데이터 신호를 포함할 수 있다. 이러한 전파된 데이터 신호는 전자기 신호, 광학 신호, 또는 상기 임의의 적절한 조합을 포함하지만 이에 한정되지 않는 다양한 형태를 취할 수 있다. 컴퓨터 판독 가능 신호 매체는 또한 명령 실행 시스템, 장치 또는 소자에 사용되거나 이와 결합하여 사용하기 위한 프로그램을 전송, 전파 또는 전송할 수 있는 컴퓨터 판독 가능 저장 매체 이외의 임의의 컴퓨터 판독 가능한 매체일 수 있다. 컴퓨터 판독 가능한 매체에 포함된 프로그램 코드는 전기선, 광섬유 케이블, RF(무선 주파수) 등, 또는 상기의 임의의 적절한 조합을 포함하지만 이에 한정되지 않는 임의의 적절한 매체에 의해 전송될 수 있다.
상기 컴퓨터 판독 가능한 매체는 상기 전자 기기에 포함될 수 있거나 상기 전자 기기에 조립되지 않고 별도로 존재할 수 있다. 상기 컴퓨터 판독 가능한 매체에는 하나 또는 다수의 프로그램이 베어링되어, 상기 하나 또는 다수의 프로그램이 상기 전자 기기에 의해 실행시 상기 전자 기기로 하여금, 차량 내 상이한 위치에 설치된 적어도 2개의 오디오 수집 기기를 통해, 오디오 데이터를 각각 수집하는 단계; 수집된 적어도 2개의 오디오 데이터에 대해 에코 제거를 수행하는 단계; 에코 제거 후의 데이터를 적어도 2개의 음성 식별 엔진에 각각 입력하여 음성 식별을 수행하여, 적어도 2개의 사용자의 텍스트 정보를 얻는 단계; 및 적어도 2개의 오디오 수집 기기의 위치 및 대응되는 적어도 2개의 사용자의 텍스트 정보를 서버단에 업로드하여, 서버단이 미리 트레이닝된 딥 러닝 모델을 통해, 텍스트 정보 분석을 수행하도록 하고, 분석 결과가 신고 조건을 만족하면, 신고 정보를 출력하는 단계를 수행하도록 한다. 또는 상기 전자 기기로 하여금, 차량에 의해 업로드된 적어도 2개의 오디오 수집 기기의 위치 및 대응되는 적어도 2개의 사용자의 텍스트 정보를 수신하는 단계; 적어도 2개의 오디오 수집 기기의 위치에 따라, 2개의 사용자의 텍스트 정보를 대화 스트림으로 형성하는 단계; 대화 스트림을 미리 트레이닝된 딥 러닝 모델에 입력하여, 비정상 대화인 확률을 얻는 단계; 및 확률이 기설정된 제1 임계값보다 높으면, 신고가 트리거되는 단계를 수행하도록 한다.
본 발명의 동작을 수행하기 위한 컴퓨터 프로그램 코드는 하나 또는 하나 이상의 프로그래밍 언어, 또는 그들의 조합으로 작성될 수 있다. 상기 프로그래밍 언어는 Java, Smalltalk, C++를 비롯한 객체 지향 프로그래밍 언어와 "C" 언어 또는 유사한 프로그래밍 언어를 비롯한 기존 절차적 프로그래밍 언어를 포함한다. 프로그램 코드는 완전히 사용자의 컴퓨터에서 실행되거나, 부분적으로 사용자의 컴퓨터에서 실행되거나, 독립형 소프트웨어 패키지로서 실행되거나, 일부는 사용자의 컴퓨터에서 실행되고 일부는 원격 컴퓨터에서 실행되거나, 또는 완전히 원격 컴퓨터 또는 서버에서 실행될 수 있다. 원격 컴퓨터의 경우 원격 컴퓨터는 LAN 또는 WAN을 포함한 모든 종류의 네트워크를 통해 사용자의 컴퓨터에 연결되거나 외부 컴퓨터에 연결될 수 있다(예를 들어, 인터넷 서비스 제공 업체를 이용하여 인터넷을 통해 연결).
도면의 흐름도 및 블록도는 본 발명의 다양한 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 구현 가능한 아키텍처, 기능 및 동작을 도시한다. 이 점에서, 흐름도 또는 블록도의 각 블록은 지정된 논리적 기능을 구현하기 위한 하나 또는 하나 이상의 실행 가능한 명령을 포함하는 모듈, 프로그램 세그먼트 또는 코드의 일부를 나타낼 수 있다. 일부 대안적인 구현에서, 블록에 표기된 기능은 또한 도면에 도시된 것과 다른 순서로 구현될 수 있음에 유의해야 한다. 예를 들어, 연속적으로 표현된 2개의 블록은 실제로 병렬 실행될 수 있고, 관련 기능에 따라 때때로 역순으로 실행될 수도 있다. 또한, 블록도 및/또는 흐름도의 각 블록, 및 블록도 및/또는 흐름도에서 블록의 조합은 지정된 기능 또는 동작을 수행하는 전용 하드웨어 기반 시스템에서 구현될 수 있거나 전용 하드웨어와 컴퓨터 명령어를 조합하여 구현할 수도 있음에 유의해야 한다.
본 발명의 실시예들에 설명된 유닛들은 소프트웨어 또는 하드웨어에 의해 구현될 수 있다. 설명된 유닛은 또한 프로세서, 예를 들어 오디오 수집 유닛, 에코 제거 유닛, 음성 식별 유닛 및 정보 업로드 유닛을 포함하는 프로세서에 설치될 수도 있다. 여기서 이들 유닛의 명칭은 경우에 따라서는 상기 유닛 자체로 한정되지 않으며, 예를 들어, 오디오 수집 유닛은 "차량 내 상이한 위치에 설치된 적어도 2개의 오디오 수집 기기를 통해, 오디오 데이터를 각각 수집하는 유닛”으로 기술될 수도 있다.
상기 설명은 본 발명의 바람직한 실시예 및 적용된 기술의 원리에 대한 설명일 뿐이다. 본 발명이 속하는 기술분야의 통상의 기술자들은 본 발명에 언급된 본 발명의 범위는 상기 기술 특징의 특정 조합에 따른 기술적 해결 수단에 한정되지 않으며, 동시에 본 발명의 사상을 벗어나지 않으면서 상기 기술 특징 또는 그 등가 특징에 대해 임의로 조합하여 형성된 다른 기술적 해결 수단, 예를 들어, 상기 특징과 본 발명에 공개된(단 이에 한정되지 않음) 유사한 기능을 구비하는 기술 특징을 서로 교체하여 형성된 기술적 해결 수단을 포함함을 이해하여야 한다.

Claims (18)

  1. 정보 출력 방법으로서,
    차량 내 상이한 위치에 설치된 적어도 2개의 오디오 수집 기기를 통해, 오디오 데이터를 각각 수집하는 단계;
    수집된 적어도 2개의 오디오 데이터에 대해 에코 제거를 수행하는 단계;
    에코 제거 후의 데이터를 적어도 2개의 음성 식별 엔진에 각각 입력하여 음성 식별을 수행하여, 적어도 2개의 사용자의 텍스트 정보를 얻는 단계; 및
    상기 적어도 2개의 오디오 수집 기기의 위치 및 대응되는 적어도 2개의 사용자의 텍스트 정보를 서버단에 업로드하여, 서버단이 미리 트레이닝된 딥 러닝 모델을 통해, 텍스트 정보 분석을 수행하도록 하고, 분석 결과가 신고 조건을 만족하면, 신고 정보를 출력하는 단계를 포함하는 정보 출력 방법.
  2. 제1항에 있어서,
    상기 방법은,
    에코 제거 후의 데이터를 적어도 2개의 정서 식별 엔진에 각각 입력하여 정서 식별을 수행하여, 적어도 2개의 사용자의 정서 정보를 얻는 단계; 및
    상기 적어도 2개의 오디오 수집 기기의 위치, 대응되는 적어도 2개의 사용자의 텍스트 정보, 및 적어도 2개의 사용자의 정서 정보를 서버단에 업로드하여, 서버단이 미리 트레이닝된 딥 러닝 모델을 통해, 텍스트 정보 및 정서 분석을 수행하도록 하고, 분석 결과가 신고 조건을 만족하면, 신고 정보를 출력하는 단계를 더 포함하는 정보 출력 방법.
  3. 정보 출력 방법으로서,
    차량에 의해 업로드된 적어도 2개의 오디오 수집 기기의 위치 및 대응되는 적어도 2개의 사용자의 텍스트 정보를 수신하는 단계;
    상기 적어도 2개의 오디오 수집 기기의 위치에 따라, 2개의 사용자의 텍스트 정보를 대화 스트림으로 형성하는 단계;
    상기 대화 스트림을 미리 트레이닝된 딥 러닝 모델에 입력하여 비정상 대화인 확률을 얻는 단계; 및
    상기 확률이 기설정된 제1 임계값보다 높으면 신고가 트리거되는 단계를 포함하는 정보 출력 방법.
  4. 제3항에 있어서,
    상기 방법은,
    상기 차량의 속성 정보와 위치 정보를 획득하는 단계;
    상기 위치 정보에 따라, 상기 차량과 거리가 가장 가까운 교통 경찰을 찾는 단계; 및
    상기 차량의 속성 정보와 위치 정보를 상기 교통 경찰에게 송신하는 단계를 더 포함하는 정보 출력 방법.
  5. 제3항에 있어서,
    상기 방법은,
    적어도 2개의 사용자의 정서 정보를 수신하는 단계; 및
    비정상 대화인 확률이 기설정된 제2 임계값보다 작고 승객의 정서 정보에 공포 정서가 포함되면, 신고가 트리거되는 단계를 더 포함하는 정보 출력 방법.
  6. 제3항에 있어서,
    상기 방법은,
    상기 차량의 오디오 수집 기기의 회로 연결 차단이 검출된 것에 응답하여, 신고가 트리거되는 단계를 더 포함하는 정보 출력 방법.
  7. 제3항에 있어서,
    상기 방법은,
    상기 차량에 테스트 문제를 정기적으로 송신하여 승객이 대답하도록 하는 단계; 및
    상기 딥 러닝 모델에 의해 정상으로 판정되는 답변 정보가 기설정된 시간 내에 수신되지 않으면, 신고가 트리거되는 단계를 더 포함하는 정보 출력 방법.
  8. 정보 출력 장치로서,
    차량 내 상이한 위치에 설치된 적어도 2개의 오디오 수집 기기를 통해, 오디오 데이터를 각각 수집하도록 구성되는 오디오 수집 유닛;
    수집된 적어도 2개의 오디오 데이터에 대해 에코 제거를 수행하도록 구성되는 에코 제거 유닛;
    에코 제거 후의 데이터를 적어도 2개의 음성 식별 엔진에 각각 입력하여 음성 식별을 수행하여, 적어도 2개의 사용자의 텍스트 정보를 얻도록 구성되는 음성 식별 유닛; 및
    상기 적어도 2개의 오디오 수집 기기의 위치 및 대응되는 적어도 2개의 사용자의 텍스트 정보를 서버단에 업로드하여, 서버단이 미리 트레이닝된 딥 러닝 모델을 통해, 텍스트 정보 분석을 수행하도록 하고, 분석 결과가 신고 조건을 만족하면, 신고 정보를 출력하도록 구성되는 정보 업로드 유닛을 포함하는 정보 출력 장치.
  9. 제8항에 있어서,
    상기 장치는,
    에코 제거 후의 데이터를 적어도 2개의 정서 식별 엔진에 각각 입력하여 정서 식별을 수행하여, 적어도 2개의 사용자의 정서 정보를 얻도록 구성되는 정서 식별 유닛을 더 포함하고,
    상기 정보 업로드 유닛은 또한, 상기 적어도 2개의 오디오 수집 기기의 위치, 대응되는 적어도 2개의 사용자의 텍스트 정보, 및 적어도 2개의 사용자의 정서 정보를 서버단에 업로드하여, 서버단이 미리 트레이닝된 딥 러닝 모델을 통해, 텍스트 정보 및 정서 분석을 수행하도록 하고, 분석 결과가 신고 조건을 만족하면, 신고 정보를 출력하도록 구성되는 정보 출력 장치.
  10. 정보 출력 장치로서,
    차량에 의해 업로드된 적어도 2개의 오디오 수집 기기의 위치 및 대응되는 적어도 2개의 사용자의 텍스트 정보를 수신하도록 구성되는 수신 유닛;
    상기 적어도 2개의 오디오 수집 기기의 위치에 따라, 2개의 사용자의 텍스트 정보를 대화 스트림으로 형성하도록 구성되는 텍스트 스티칭 유닛;
    상기 대화 스트림을 미리 트레이닝된 딥 러닝 모델에 입력하여 비정상 대화인 확률을 얻도록 구성되는 대화 식별 유닛; 및
    상기 확률이 기설정된 제1 임계값보다 높으면 신고가 트리거되도록 구성되는 신고 유닛을 포함하는 정보 출력 장치.
  11. 제10항에 있어서,
    상기 신고 유닛은 또한,
    상기 차량의 속성 정보와 위치 정보를 획득하고;
    상기 위치 정보에 따라, 상기 차량과 거리가 가장 가까운 교통 경찰을 찾으며;
    상기 차량의 속성 정보와 위치 정보를 상기 교통 경찰에게 송신하도록 구성되는 정보 출력 장치.
  12. 제10항에 있어서,
    상기 수신 유닛은 또한, 적어도 2개의 사용자의 정서 정보를 수신하도록 구성되고;
    상기 신고 유닛은 또한, 비정상 대화인 확률이 기설정된 제2 임계값보다 작고 승객의 정서 정보에 공포 정서가 포함되면, 신고가 트리거되도록 구성되는 정보 출력 장치.
  13. 제10항에 있어서,
    상기 신고 유닛은 또한,
    상기 차량의 오디오 수집 기기의 회로 연결 차단이 검출된 것에 응답하여, 신고가 트리거되도록 구성되는 정보 출력 장치.
  14. 제10항에 있어서,
    상기 신고 유닛은 또한,
    상기 차량에 테스트 문제를 정기적으로 송신하여 승객이 대답하도록 하고;
    상기 딥 러닝 모델에 의해 정상으로 판정되는 답변 정보가 기설정된 시간 내에 수신되지 않으면, 신고가 트리거되도록 구성되는 정보 출력 장치.
  15. 정보 출력 시스템으로서,
    차량 내 상이한 위치에 설치된 적어도 2개의 오디오 수집 기기를 통해, 오디오 데이터를 각각 수집하고; 수집된 적어도 2개의 오디오 데이터에 대해 에코 제거를 수행하며; 에코 제거 후의 데이터를 적어도 2개의 음성 식별 엔진에 각각 입력하여 음성 식별을 수행하여, 적어도 2개의 사용자의 텍스트 정보를 얻고; 상기 적어도 2개의 오디오 수집 기기의 위치 및 대응되는 적어도 2개의 사용자의 텍스트 정보를 서버단에 업로드하도록 구성되는 차량; 및
    차량에 의해 업로드된 적어도 2개의 오디오 수집 기기의 위치 및 대응되는 적어도 2개의 사용자의 텍스트 정보를 수신하고; 상기 적어도 2개의 오디오 수집 기기의 위치에 따라, 2개의 사용자의 텍스트 정보를 대화 스트림으로 형성하며; 상기 대화 스트림을 미리 트레이닝된 딥 러닝 모델에 입력하여 비정상 대화인 확률을 얻고; 상기 확률이 기설정된 제1 임계값보다 높으면 신고가 트리거되도록 구성되는 서버단을 포함하는 정보 출력 시스템.
  16. 하나 또는 복수 개의 프로세서;
    하나 또는 복수 개의 프로그램이 저장되는 저장 장치를 포함하는 정보 출력 전자 기기로서,
    상기 하나 또는 복수 개의 프로그램이 상기 하나 또는 복수 개의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수 개의 프로세서가 제1항 내지 제7항 중 어느 한 항에 따른 방법을 구현하도록 하는 정보 출력 전자 기기.
  17. 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 매체로서,
    상기 프로그램이 프로세서에 의해 실행될 경우, 제1항 내지 제7항 중 어느 한 항에 따른 방법을 구현하는 컴퓨터 판독 가능한 매체.
  18. 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 제1항 내지 제7항 중 어느 한 항에 따른 방법을 구현하도록 하는 컴퓨터 프로그램.
KR1020210041794A 2020-05-29 2021-03-31 정보 출력 방법, 장치 및 시스템 KR20210042860A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010471698.0A CN111489522A (zh) 2020-05-29 2020-05-29 用于输出信息的方法、装置和系统
CN202010471698.0 2020-05-29

Publications (1)

Publication Number Publication Date
KR20210042860A true KR20210042860A (ko) 2021-04-20

Family

ID=71792443

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210041794A KR20210042860A (ko) 2020-05-29 2021-03-31 정보 출력 방법, 장치 및 시스템

Country Status (3)

Country Link
JP (1) JP7160454B2 (ko)
KR (1) KR20210042860A (ko)
CN (1) CN111489522A (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115698982A (zh) * 2020-10-20 2023-02-03 北京嘀嘀无限科技发展有限公司 基于机器学习检测运输服务相关安全问题的人工智能系统
CN113470696A (zh) * 2021-07-01 2021-10-01 首约科技(北京)有限公司 通过实时音频流分析解决司乘安全及提升服务质量的方法
CN114582105A (zh) * 2022-03-01 2022-06-03 福建环宇通信息科技股份公司 一种窗口监测方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4609527B2 (ja) * 2008-06-03 2011-01-12 株式会社デンソー 自動車用情報提供システム
CN102881063B (zh) * 2012-09-28 2015-07-08 北京经纬恒润科技有限公司 一种高频接收分时处理的方法及装置
JP2014170154A (ja) * 2013-03-05 2014-09-18 Panasonic Corp 車内会話支援装置
US20170221336A1 (en) * 2016-01-28 2017-08-03 Flex Ltd. Human voice feedback system
CN106603367A (zh) * 2017-02-28 2017-04-26 北京艾利特科技有限公司 一种用于时间同步的can总线通信方法
CN108630193B (zh) * 2017-03-21 2020-10-02 北京嘀嘀无限科技发展有限公司 语音识别方法及装置
CN107240405B (zh) * 2017-06-14 2021-04-30 深圳市冠旭电子股份有限公司 一种音箱及告警方法
CN109285548A (zh) * 2017-07-19 2019-01-29 阿里巴巴集团控股有限公司 信息处理方法、系统、电子设备、和计算机存储介质
CN108053625A (zh) * 2017-12-06 2018-05-18 新华三技术有限公司 一种报警方法和装置
CN108922564B (zh) * 2018-06-29 2021-05-07 北京百度网讯科技有限公司 情绪识别方法、装置、计算机设备及存储介质
CN109167615B (zh) * 2018-08-16 2021-08-10 江苏林洋能源股份有限公司 一种基于g3-plc通信网络的上下行分时通信的方法
CN108986430A (zh) * 2018-09-13 2018-12-11 苏州工业职业技术学院 基于语音识别的网约车安全预警方法和系统
CN109448317A (zh) * 2018-12-26 2019-03-08 上海理工大学 出租车自动报警系统
CN109920405A (zh) * 2019-03-05 2019-06-21 百度在线网络技术(北京)有限公司 多路语音识别方法、装置、设备及可读存储介质
CN110083643A (zh) * 2019-05-20 2019-08-02 广州国联智慧信息技术有限公司 一种基于身份识别和安全监管的行车记录分析系统及方法
CN209928582U (zh) * 2019-05-20 2020-01-10 宁波纷享安行智能科技有限公司 一种汽车报警装置以及汽车
CN110580799A (zh) * 2019-06-19 2019-12-17 四川鼎鸿物联网科技有限公司 一种出租车网约车驾乘人员言行自动预判报警系统
CN110718040A (zh) * 2019-09-04 2020-01-21 上海博泰悦臻电子设备制造有限公司 车内环境监控方法、系统、服务器、终端及存储介质
CN111145759B (zh) * 2019-12-27 2020-10-02 周洋 一种出行业用基于声纹特征识别的语音报警系统

Also Published As

Publication number Publication date
JP7160454B2 (ja) 2022-10-25
JP2021182131A (ja) 2021-11-25
CN111489522A (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
KR20210042860A (ko) 정보 출력 방법, 장치 및 시스템
US11638124B2 (en) Event-based responder dispatch
EP3675121B1 (en) Computer-implemented interaction with a user
CN109410521A (zh) 语音监控报警方法及系统
CN110544360B (zh) 一种列车安全驾驶监测系统及方法
CN110379126B (zh) 载客运营车辆监管系统及设备、介质
KR20140088836A (ko) 음향 문맥을 활용하여 탐색하는 방법들 및 시스템들
CN107871297A (zh) 行程中的安全监测方法及装置
CN110525456B (zh) 一种列车安全驾驶监测系统及方法
US10332385B2 (en) Location based support request messages responsive to alert recommendation
CN109192215A (zh) 一种基于语音的网约车监管方法及系统
CN109616125A (zh) 基于声纹识别的监控方法及系统
WO2020003749A1 (ja) 客室監視方法、及び客室監視装置
CN112071309A (zh) 网约车安全监测装置及系统
CN110580799A (zh) 一种出租车网约车驾乘人员言行自动预判报警系统
CN110059619B (zh) 基于图像识别自动报警的方法和装置
CN108674352B (zh) 通讯设备和通讯系统
CN113393643B (zh) 异常行为预警方法、装置、车载终端以及介质
KR102559488B1 (ko) 범죄 예방 서비스 방법 및 시스템
CN117315879A (zh) 驾驶环境监测方法、装置、计算机存储介质及车辆
WO2017052498A1 (en) Event-based responder dispatch
CN117726488A (zh) 一种静默报警方法、装置、车辆及存储介质
CN114973077A (zh) 一种网约车车载视频智能分析系统
CN116723269A (zh) 来电处理方法,来电处理系统,电子设备及车辆
CN114782930A (zh) 行为识别方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal