KR102300257B1 - 오디오 처리 방법, 장치 및 저장 매체 - Google Patents

오디오 처리 방법, 장치 및 저장 매체 Download PDF

Info

Publication number
KR102300257B1
KR102300257B1 KR1020197033760A KR20197033760A KR102300257B1 KR 102300257 B1 KR102300257 B1 KR 102300257B1 KR 1020197033760 A KR1020197033760 A KR 1020197033760A KR 20197033760 A KR20197033760 A KR 20197033760A KR 102300257 B1 KR102300257 B1 KR 102300257B1
Authority
KR
South Korea
Prior art keywords
audio data
audio
target
module
application program
Prior art date
Application number
KR1020197033760A
Other languages
English (en)
Other versions
KR20210024408A (ko
Inventor
강홍 루
루이 양
시아오추안 펑
시치 추이
웨이 한
빈 친
강 왕
단 리
Original Assignee
베이징 시아오미 모바일 소프트웨어 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 시아오미 모바일 소프트웨어 컴퍼니 리미티드 filed Critical 베이징 시아오미 모바일 소프트웨어 컴퍼니 리미티드
Publication of KR20210024408A publication Critical patent/KR20210024408A/ko
Application granted granted Critical
Publication of KR102300257B1 publication Critical patent/KR102300257B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)

Abstract

본 개시는 오디오 처리 방법, 장치 및 저장 매체에 관한 것으로, 당해 방법은, 목표 애플리케이션 프로그램을 웨이크업 한 후, 제1 오디오 신호에 대응하는 제1 오디오 데이터를 취득하는 단계; 제1 오디오 데이터를 취득하는 과정에서, 제2 오디오 신호에 대응하는 제2 오디오 데이터가 검출되면, 제2 오디오 데이터를 취득하는 단계; 및 제1 오디오 데이터와 제2 오디오 데이터에 기반하여 목표 오디오 데이터를 얻는 단계를 포함한다. 본 개시의 기술 방안은, 수신된 오디오 데이터에 대해 응답을 수행한 후에 다음 오디오 데이터에 대해 처리를 수행하는 방법과 비교하면, 목표 애플리케이션 프로그램을 재차 웨이크업 할 필요가 없기에, 대화 흐름을 단순화할 수 있으며; 또한, 제1 오디오 데이터와 제2 오디오 데이터를 결합시켜 목표 오디오 데이터를 얻으며, 목표 오디오 데이터에 대해 함께 오디오 응답을 수행하기에, 더욱 정확하게 사용자의 실제 수요를 취득할 수 있고, 제1 오디오 데이터와 제2 오디오 데이터에 대해 각각 개별적으로 응답함으로 인해 초래되는 응답 오류의 확률을 줄일 수 있으며, 오디오 응답의 정확도를 향상시킨다.

Description

오디오 처리 방법, 장치 및 저장 매체
(관련 출원의 상호 참조)
본 출원은 출원번호가 201910760806.3이고, 출원일자가 2019년 08월16일인 중국 특허 출원을 기반으로 제출하며, 상기 중국 특허 출원의 우선권을 주장하고, 상기 중국 특허 출원의 전부 내용은 본 개시에 도입되어 참조로 한다.
본 개시는 정보 기술 분야에 관한 것으로, 특히 오디오 처리 방법, 장치 및 저장 매체에 관한 것이다.
현재, 음성을 통해 인간-컴퓨터 대화를 수행하는 대화 방식이 광범하게 주목 받고 있는 바, 전체 인터넷 업계에서 모두 적극적으로 음성 대화가 가능한 적용 방식과 적용 시나리오를 탐색하고 있으며, 또한 이미 음성 대화에 기초한 대량의 스마트 스피커, 음성 어시스턴트 등과 같은 제품이 출시되고 있다. 그 중에서, 음성 어시스턴트는 거의 각 제조 업체의 신제품 출시회의 중점으로 되고 있으며, 사용자의 소비 선택에 어느 정도 영향을 미치고 있다. 그러나 사용자와 음성 어시스턴트가 대화를 진행하는 과정에, 대화 과정이 복잡하고, 대화가 유창하지 않는 문제가 존재한다.
본 개시는 오디오 처리 방법, 장치 및 저장 매체를 제공한다.
본 개시 실시예의 제1 측면에 따르면, 오디오 처리 방법을 제공하는 바, 상기 방법은 전자 기기에 적용되며, 상기 방법은,
목표 애플리케이션 프로그램을 웨이크업(wake up)한 후, 제1 오디오 신호에 대응하는 제1 오디오 데이터를 취득하는 단계;
상기 제1 오디오 데이터를 취득하는 과정에서, 제2 오디오 신호에 대응하는 제2 오디오 데이터가 검출되면, 상기 제2 오디오 데이터를 취득하는 단계; 및
상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기반하여 목표 오디오 데이터를 얻는 단계를 포함한다.
일부 실시예에 있어서, 상기 방법은,
상기 제1 오디오 데이터의 취득 종료와 상기 제2 오디오 데이터의 취득 시작 사이의 시간차를 확정하는 단계를 더 포함하며,
상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기반하여 목표 오디오 데이터를 얻는 단계는,
상기 시간차가 제1 설정 시간보다 크거나 같으면, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기반하여 상기 목표 오디오 데이터를 얻는 단계를 포함한다.
일부 실시예에 있어서, 상기 시간차가 제1 설정 시간보다 크거나 같으면, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기반하여 상기 목표 오디오 데이터를 얻는 단계는,
상기 시간차가 제1 설정 시간보다 크거나 같으면, 상기 제1 오디오 데이터가 완전히 입력되었는지 여부를 검출하는 단계; 및
상기 제1 오디오 데이터가 완전히 입력되지 않은 경우, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기반하여 상기 목표 오디오 데이터를 얻는 단계를 포함한다.
일부 실시예에 있어서, 상기 제1 오디오 데이터가 완전히 입력되지 않은 경우, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기반하여 상기 목표 오디오 데이터를 얻는 단계는,
제1 오디오 데이터가 완전히 입력되지 않은 경우, 상기 제1 오디오 데이터와 상기 제2 오디오 데이터를 스플라이싱 가능한지 여부를 판단하는 단계; 및
상기 제1 오디오 데이터와 상기 제2 오디오 데이터를 스플라이싱 가능하면, 상기 제1 오디오 데이터와 상기 제2 오디오 데이터를 스플라이싱하여 목표 오디오 데이터를 얻는 단계를 포함한다.
일부 실시예에 있어서, 상기 방법은,
상기 제1 오디오 데이터가 완전히 입력된 경우, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 각각 상기 목표 오디오 데이터로 확정하는 단계를 더 포함한다.
일부 실시예에 있어서, 상기 방법은,
상기 목표 오디오 데이터에 대해 에코 제거 처리를 수행하는 단계;
에코 제거 처리 후의 목표 오디오 데이터에 기반하여 응답 정보를 얻는 단계; 및
상기 응답 정보를 출력하는 단계를 더 포함한다.
일부 실시예에 있어서, 상기 방법은,
검출 대상 오디오 데이터를 취득하는 단계;
상기 검출 대상 오디오 데이터 중에 목표 애플리케이션 프로그램을 웨이크업 하기 위한 웨이크업 정보가 포함되어 있는지 여부를 확정하는 단계; 및
상기 검출 대상 오디오 데이터 중에 상기 웨이크업 정보가 포함되어 있으면, 상기 목표 애플리케이션 프로그램에 대해 웨이크업 처리를 수행하는 단계를 더 포함하며,
여기서, 상기 오디오 데이터는 음성 데이터를 포함한다.
본 개시 실시예의 제2 측면에 따르면, 오디오 처리 장치를 제공하는 바, 상기 장치는,
목표 애플리케이션 프로그램을 웨이크업 한 후, 제1 오디오 신호에 대응하는 제1 오디오 데이터를 취득하도록 구성되는 제1 오디오 취득 모듈;
상기 제1 오디오 데이터를 취득하는 과정에서, 제2 오디오 신호에 대응하는 제2 오디오 데이터가 검출되면, 상기 제2 오디오 데이터를 취득하도록 구성되는 제2 오디오 취득 모듈; 및
상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기반하여 목표 오디오 데이터를 얻도록 구성되는 제1 오디오 확정 모듈을 구비한다.
일부 실시예에 있어서, 상기 장치는,
상기 제1 오디오 데이터의 취득 종료와 상기 제2 오디오 데이터의 취득 시작 사이의 시간차를 확정하도록 구성되는 시간 확정 모듈을 더 구비하며,
상기 제1 오디오 확정 모듈은,
상기 시간차가 제1 설정 시간보다 크거나 같으면, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기반하여 상기 목표 오디오 데이터를 얻도록 구성되는 오디오 확정 서브 모듈을 구비한다.
일부 실시예에 있어서, 상기 오디오 확정 서브 모듈은 구체적으로,
상기 시간차가 제1 설정 시간보다 크거나 같으면, 상기 제1 오디오 데이터가 완전히 입력되었는지 여부를 검출하고;
상기 제1 오디오 데이터가 완전히 입력되지 않은 경우, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기반하여 상기 목표 오디오 데이터를 얻도록 구성된다.
일부 실시예에 있어서, 상기 오디오 확정 서브 모듈은 또한 구체적으로,
제1 오디오 데이터가 완전히 입력되지 않은 경우, 상기 제1 오디오 데이터와 상기 제2 오디오 데이터를 스플라이싱 가능한지 여부를 판단하고;
상기 제1 오디오 데이터와 상기 제2 오디오 데이터를 스플라이싱 가능하면, 상기 제1 오디오 데이터와 상기 제2 오디오 데이터를 스플라이싱하여 목표 오디오 데이터를 얻도록 구성된다.
일부 실시예에 있어서, 상기 장치는,
상기 제1 오디오 데이터가 완전히 입력된 경우, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 각각 상기 목표 오디오 데이터로 확정하도록 구성되는 제2 오디오 확정 모듈을 더 구비한다.
일부 실시예에 있어서, 상기 장치는,
상기 목표 오디오 데이터에 대해 에코 제거 처리를 수행하도록 구성되는 에코 제거 모듈;
에코 제거 처리 후의 목표 오디오 데이터에 기반하여 응답 정보를 얻도록 구성되는 응답 모듈; 및
상기 응답 정보를 출력하도록 구성되는 출력 모듈을 더 구비한다.
일부 실시예에 있어서, 상기 장치는,
검출 대상 오디오 데이터를 취득하도록 구성되는 제3 오디오 취득 모듈;
상기 검출 대상 오디오 데이터 중에 목표 애플리케이션 프로그램을 웨이크업 하기 위한 웨이크업 정보가 포함되어 있는지 여부를 확정하도록 구성되는 정보 확정 모듈; 및
상기 검출 대상 오디오 데이터 중에 상기 웨이크업 정보가 포함되어 있으면, 상기 목표 애플리케이션 프로그램에 대해 웨이크업 처리를 수행하도록 구성되는 웨이크업 모듈을 더 구비하며,
여기서, 상기 오디오 데이터는 음성 데이터를 포함한다.
본 개시 실시예의 제3 측면에 따르면, 오디오 처리 장치를 제공하는 바, 상기 장치는,
프로세서; 및
프로세서 수행 가능 명령을 저장하도록 구성되는 메모리를 구비하며;
여기서, 상기 프로세서를 수행할 시, 상기의 제1 측면 중의 오디오 처리 방법 중의 단계가 구현된다.
본 개시 실시예의 제4 측면에 따르면, 비 일시적 컴퓨터 판독 가능 저장 매체를 제공하는 바, 상기 저장 매체 중의 명령이 오디오 처리 장치의 프로세서에 의해 수행될 시, 상기 장치가 상기의 제1 측면 중의 오디오 처리 방법을 수행하도록 한다.
본 개시의 실시예에 의해 제공되는 기술 방안은 이하의 유익한 효과를 포함할 수 있다.
본 개시의 실시예에 있어서, 목표 애플리케이션 프로그램을 웨이크업 한 후, 제1 오디오 데이터를 취득하는 과정에서, 제2 오디오 데이터가 검출되면, 제1 오디오 데이터와 제2 오디오 데이터에 대해 분석과 처리를 수행하여 목표 오디오 데이터를 얻을 수 있고, 연속 대화하는 과정에서, 복수의 오디오 데이터에 대해 각각 직접 처리를 수행할 수 있으므로, 수신된 오디오 데이터에 대해 응답을 수행한 후에 다시 다음 오디오 데이터에 대해 처리를 수행하는 방법과 비교하면, 목표 애플리케이션 프로그램을 재차 웨이크업 할 필요가 없으며, 대화 흐름을 단순화한 기초 상에서 음성 대화 과정을 더욱 유창하게 하며; 또한, 제1 오디오 데이터와 제2 오디오 데이터를 결합시켜 목표 오디오 데이터를 얻으며, 목표 오디오 데이터에 대해 함께 오디오 응답을 수행하기에, 사용자의 실제 수요를 더욱 정확하게 취득할 수 있고, 제1 오디오 데이터와 제2 오디오 데이터에 대해 각각 개별적으로 응답함으로 인해 초래되는 응답 오류의 확률을 줄일 수 있으며, 따라서 오디오 응답의 정확도를 향상시킨다.
이상의 일반적인 설명 및 이하의 상세 설명은 단지 예시적 및 해석적인 것인바, 본 개시를 한정하지 않는다는 것을 이해해야 할 것이다.
여기서의 도면은 명세서에 합병되어 본 명세서의 일부를 구성하는 바, 본 개시에 부합되는 실시예를 나타내며, 명세서와 함께 본 개시의 원리를 분석하기 위한 것이다.
도 1은 예시적인 일 실시예에 따른 오디오 처리 방법을 나타내는 흐름도이다.
도 2는 예시적인 일 실시예에 따른 오디오 처리 방법의 흐름을 나타내는 개략도이다.
도 3은 예시적인 일 실시예에 따른 오디오 처리 장치를 나타내는 블록도이다.
도 4는 예시적인 일 실시예에 따른 오디오 처리 장치의 하드웨어 구조를 나타내는 블록도이다.
여기서, 예시적인 실시 예를 상세하게 설명하는 바, 도면에 설명중의 예를 나타낸다. 다음의 설명에서, 도면을 설명할 때 특별한 설명이 없는 경우, 서로 다른 도면 중의 동일한 부호는 동일하거나 유사한 요소를 의미한다. 아래의 예시적인 실시 예에서 설명하는 실시 방법은 본 개시에 따른 모든 실시 방법을 대표하지 않는다. 반대로, 이들은 첨부된 특허 청구 범위에서 상세하게 기술된 본 개시의 여러 양태와 매칭한 장치 및 방법의 예에 불과하다.
도 1은 예시적인 일 실시예에 따른 오디오 처리 방법을 나타내는 흐름도이다, 도 1에 나타낸 바와 같이, 당해 방법은 전자 기기에 적용되며, 여기서, 전자 기기는 휴대폰, 태블릿, PDA, 랩톱, 데스크톱, 웨어러블 모바일 장치, 스마트 스피커 등과 같은 이동 단말과 고정단말을 포함한다. 당해 방법은 이하의 단계를 포함한다.
단계101에 있어서, 목표 애플리케이션 프로그램을 웨이크업(wake up)한 후, 제1 오디오 신호에 대응하는 제1 오디오 데이터를 취득한다.
여기서, 목표 애플리케이션 프로그램은 전자 기기 상에 설치할 수 있는 애플리케이션 프로그램이며, 예를 들면 음성 어시스턴트 등과 같은 사용자와 음성 대화를 진행하기 위한 것이다. 제1 오디오 신호는 전자 기기에 포함된 음성 수집 컴포넌트가 수집한 음성 신호를 포함할 수 있으며, 예를 들면 사용자에 의해 생성된 음성 신호이다. 제1 오디오 데이터는 제1 오디오 신호에 대해 디지털 처리한 후의 오디오 데이터이다.
전자 기기에 포함된 오디오 수집 컴포넌트를 통해 오디오 신호를 수집하고, 오디오 신호에 대해 디지털 처리를 수행하여 오디오 데이터를 얻을 수 있다. 여기서, 오디오 수집 컴포넌트는 전자 기기에 포함된 오디오를 수집하기 위한 컴포넌트일 수 있으며, 전자 기기가 핸드폰인 예를 들면, 오디오 수집 컴포넌트는 핸드폰 상의 마이크로폰일 수 있다.
본 개시의 실시예에 있어서, 음성 웨이크업의 방식을 통해 목표 애플리케이션 프로그램을 웨이크업 하며, 목표 애플리케이션 프로그램을 웨이크업 한 후, 목표 애플리케이션 프로그램을 통해 오디오 데이터를 취득할 수 있다.
예를 들면, 전자 기기에 포함된 오디오 수집 컴포넌트를 통해 사용자에 의해 생성된 음성 신호를 수신했을 경우, 당해 음성 신호에 대해 디지털 처리를 수행하여 음성 데이터를 얻을 수 있다. 그리고, 음성 데이터 중에 사전에 설정된 웨이크업 단어가 포함되어 있는지 여부를 검출하며, 음성 데이터 중에 웨이크업 단어가 포함되어 있으면, 목표 애플리케이션 프로그램을 웨이크업 할 수 있다. 여기서, 웨이크업 단어는 사용자가 수요에 따라 설정한 것일 수 있는 바, 예를 들면, 웨이크업 단어를 “샤오 아이”로 설정할 수 있다.
단계 102에 있어서, 제1 오디오 데이터를 취득하는 과정에서, 제2 오디오 신호에 대응하는 제2 오디오 데이터가 검출되면, 제2 오디오 데이터를 취득한다.
당해 제2 오디오 데이터는 제1 오디오 데이터와 동일할 수도 있고, 제1 오디오 데이터와 동일하지 않을 수도 있다. 제1 오디오 데이터를 취득하는 과정에서 취득한 오디오 데이터이기만 하면, 모두 제2 오디오 데이터로 불릴 수 있다.
단계 103에 있어서, 제1 오디오 데이터와 제2 오디오 데이터에 기반하여 목표 오디오 데이터를 얻는다.
목표 애플리케이션 프로그램은 서로 다른 시간에 각각 제1 오디오 데이터와 제2 오디오 데이터를 취득한 후, 제1 오디오 데이터와 제2 오디오 데이터에 기반하여 목표 오디오 데이터를 얻음으로써, 목표 애플리케이션 프로그램으로 하여금 목표 오디오 데이터에 기반하여 대응되는 응답을 하도록 할 수 있다.
여기서, 목표 오디오 데이터는 제1 오디오 데이터, 제2 오디오 데이터, 및 제1 오디오 데이터와 제2 오디오 데이터를 스플라이싱(Splicing)하여 얻은 제3 오디오 데이터 중 적어도 하나일 수 있다. 목표 오디오 데이터가 제1 오디오 데이터와 제2 오디오 데이터를 스플라이싱하여 얻은 제3 오디오 데이터인 예를 들면, 제1 오디오 데이터에 포함된 내용이 “오늘의 날씨는”이고, 제2 오디오 데이터에 포함된 내용이 “맑음”일 경우, 제3 오디오 데이터 즉 목표 오디오 데이터에 포함된 내용 은 “오늘의 날씨는 맑음”일 수 있다.
본 개시의 실시예에 있어서, 목표 애플리케이션 프로그램을 웨이크업 한 후, 제1 오디오 데이터를 취득하는 과정에서, 제2 오디오 데이터가 검출되면, 제1 오디오 데이터와 제2 오디오 데이터에 대해 동시에 분석과 처리를 수행하여 목표 오디오 데이터를 얻을 수 있다. 연속 대화하는 과정에서, 복수의 오디오 데이터에 대해 각각 동시에 직접 처리를 수행하는 바, 목표 애플리케이션 프로그램을 재차 웨이크업 할 필요가 없기에, 대화 흐름을 단순화할 수 있고, 또한 음성 대화 과정을 더욱 유창하게 할 수 있다.
상기 제1 오디오 데이터와 제2 오디오 데이터에 기반하여 목표 오디오 데이터를 얻는 단계는,
상기 제1 오디오 데이터의 제1 시맨틱 내용과 상기 제2 오디오 데이터의 제2 시맨틱 내용에 기반하여 상기 목표 오디오 데이터를 얻는 단계를 포함한다.
예를 들면, 상기 제1 시맨틱 내용과 상기 제2 시맨틱 내용이 서로 보충하는 것일 경우, 상기 제1 오디오 데이터와 상기 제2 오디오 데이터를 조합하여 상기 목표 오디오 데이터를 얻는 바, 이러한 적용 시나리오는 사용자가 제1 음성 신호를 생성한 후, 중간에 좀 멈추었거나 또는 끊기어 제2 오디오 신호를 통해 보충할 필요가 있는 시나리오일 수 있다.
여기서, 제1 시맨틱 내용이 “저를 도와”이고, 제2 시맨틱 내용이 “알람 시계를 설정해주세요”인 예를 들면, 제1 시맨틱 내용과 제2 시맨틱 내용에 대해 시맨틱 분석을 수행하여 제1 시맨틱 내용과 제2 시맨틱 내용이 서로 보충하는 것으로 확정한다. 그 다음, 제1 오디오 데이터와 제2 오디오 데이터를 조합하여 목표 오디오 데이터를 얻는다. 이렇게 하여 사용자의 최종 수요를 “저를 도와 알람 시계를 설정해주세요”인 것으로 확정할 수 있다.
다시 예를 들면, 제1 시맨틱 내용과 상기 제2 시맨틱 내용이 상호 모순될 경우에는, 상기 제2 오디오 데이터를 상기 목표 오디오 데이터로 할 수 있는 바, 이러한 적용 시나리오는 사용자에 의해 생성된 제1 오디오 신호가 틀린 것이며, 제2 오디오 신호를 통해 바로 잡는 시나리오일 수 있다.
제1 시맨틱 내용이 “오늘 무한의 날씨”이고, 제2 시맨틱 내용이 “아니, 문의하고 싶은 것은 오늘 북경의 날씨”인 예를 들면. 제1 시맨틱 내용과 제2 시맨틱 내용에 대해 시맨틱 분석을 수행하여 제1 오디오 데이터와 제2 오디오 데이터가 모두 날씨를 문의하는 것으로 분석할 수 있다. 제1 시맨틱 내용과 제2 시맨틱 내용이 관련성을 갖지만, 제1 오디오 데이터는 무한의 날씨를 문의하는 것이나, 제2 오디오 데이터는 북경의 날씨를 문의하는 것이기에, 양자가 상호 모순되며, 제1 시맨틱 내용이 틀린 것으로 분석할 수 있다. 이때 목표 애플리케이션 프로그램이 제1 오디오 데이터에 대해 처리를 수행하지 않아도 된다고 판정하며, 제2 오디오 데이터를 목표 오디오 데이터로 확정하여 제2 오디오 데이터에 대응하는 응답 정보를 출력할 수 있다.
또 예를 들면, 제1 시맨틱 내용과 상기 제2 시맨틱 내용이 상호 독립되어, 시맨틱 상의 상호 보충과 모순이 없으면, 상기 제1 오디오 데이터와 제2 오디오 데이터를 두 개의 목표 오디오 데이터로 하여 각각 오디오 응답을 수행할 필요가 있다. 이러한 적용 시나리오는 사용자가 비교적 급한 정황 또는 말하기 속도가 비교적 빠른 사용자이기에 아주 짧은 시간에 완전히 독립된 두 개의 음성 신호를 생성하는 시나리오일 수 있다.
여기서, 제1 시맨틱 내용이 “오늘 무한의 날씨”이고, 제2 시맨틱 내용이 “저를 도와 알람 시계를 하나 설정해주세요”인 예를 들면, 제1 시맨틱 내용과 제2 시맨틱 내용에 대해 시맨틱 분석을 수행하여 제1 시맨틱 내용과 제2 시맨틱 내용이 관련되지 않으며, 또한 제1 오디오 데이터와 제2 오디오 데이터가 각각 사용자의 두가지 서로 다른 수요를 나타내는 것으로 분석할 수 있다. 이때 제1 시맨틱 내용과 상기 제2 시맨틱 내용이 상호 독립되는 것으로 확정할 수 있는 바, 즉 시맨틱 상의 상호 보충과 모순이 없는 것으로 확정할 수 있으면, 상기 제1 오디오 데이터와 제2 오디오 데이터를 두 개의 목표 오디오 데이터로 하여 오디오 응답을 각각 수행하며, 제1 오디오 데이터와 제2 오디오 데이터에 대응하는 응답 정보를 각각 출력할 수 있다.
본 개시의 실시예의 기술 방안에 따르면, 수신된 오디오 데이터에 대해 응답을 수행한 후 다시 다음 오디오 데이터에 대해 처리를 수행하는 방법과 비교하면, 목표 애플리케이션 프로그램을 재차 웨이크업 할 필요가 없으며, 대화 흐름을 단순화한 기초 상에서 음성 대화 과정을 더욱 유창하게 하며; 또한, 제1 오디오 데이터와 제2 오디오 데이터를 결합시켜 목표 오디오 데이터를 얻으며, 목표 오디오 데이터에 대해 함께 오디오 응답을 수행하기에, 사용자의 실제 수요를 더욱 정확하게 취득할 수 있고, 제1 오디오 데이터와 제2 오디오 데이터에 대해 각각 개별적으로 응답함으로 인해 초래되는 응답 오류의 확률을 줄일 수 있으며, 따라서 오디오 응답의 정확도를 향상시킨다.
다른 선택적인 실시예에 있어서, 당해 방법은,
제1 오디오 데이터의 취득 종료와 제2 오디오 데이터의 취득 시작 사이의 시간차를 확정하는 단계를 더 포함하며,
이에 따라, 단계103는,
제1 오디오 데이터의 취득 종료와 제2 오디오 데이터의 취득 시작 사이의 시간차가 제1 설정 시간보다 크거나 같으면, 제1 오디오 데이터와 제2 오디오 데이터에 기반하여 목표 오디오 데이터를 얻는 단계를 포함한다.
오디오 데이터를 취득의 과정에서, 사용자가 잠시 멈추었을 가능성이 있다. 따라서, 이때 목표 애플리케이션 프로그램은, 멈추기 전후에 취득한 오디오 데이터를 각각 제1 오디오 데이터와 제2 오디오 데이터로 확정할 가능성이 있다.
제1 오디오 데이터와 제2 오디오 데이터의 취득 시간이 다르고, 또한 제2 오디오 데이터는 제1 오디오 데이터가 종료 된 후 취득한 것이기 때문에, 전자 기기는 제1 오디오 데이터의 취득 종료 의 종료 시간과 제2 오디오 데이터의 취득 시작의 시작 시간을 각각 취득하고, 그 다음, 당해 종료 시간과 시작 시간에 기반하여 시간차를 얻을 수 있다.
그 다음, 얻은 시간차와 기설정된 제1 설정 시간을 비교하며, 시간차가 제1 설정 시간보다 크거나 같으면, 사용자가 말하는 과정에서 잠시 멈추었을 가능성이 없는 것으로 확정한다. 이러한 경우, 제1 오디오 데이터와 제2 오디오 데이터에 대해 진일보의 판단과 처리를 수행하여 목표 오디오 데이터를 얻을 필요가 있다. 예를 들면, 제1 오디오 데이터와 제2 오디오 데이터를 각각 목표 오디오 데이터로 하거나, 또는 제1 오디오 데이터와 제2 오디오 데이터에 대해 스플라이싱 처리를 수행하여 목표 오디오 데이터를 얻는다.
제1 오디오 데이터의 취득 종료와 제2 오디오 데이터의 취득 시작 사이의 시간차가 제1 설정 시간보다 작으면, 사용자가 말하는 과정에서 잠시 멈추었을 가능성이 있는 것으로 확정한다. 이때, 제1 오디오 데이터와 제2 오디오 데이터를 직접 완전한 오디오 데이터로 스플라이싱하며, 당해 완전한 오디오 데이터를 목표 오디오 데이터로 한다.
본 개시의 실시예에 있어서, 목표 오디오 데이터를 얻기 전에, 먼저 제1 오디오 데이터의 취득 종료와 제2 오디오 데이터의 취득 시작 사이의 시간차에 대해 판정을 수행하며, 다시 제1 오디오 데이터와 제2 오디오 데이터에 대해 진일보의 처리를 수행할지 여부를 확정함으로써, 취득된 오디오 데이터에 대한 불필요한 처리 과정의 수행을 줄일 수 있다.
다른 선택적인 실시예에 있어서, 시간차가 제1 설정 시간보다 크거나 같으면, 제1 오디오 데이터와 제2 오디오 데이터에 기반하여 목표 오디오 데이터를 얻는 단계는,
시간차가 제1 설정 시간보다 크거나 같으면, 제1 오디오 데이터가 완전히 입력되었는지 여부를 검출하는 단계; 및
제1 오디오 데이터가 완전히 입력되지 않은 경우, 제1 오디오 데이터와 제2 오디오 데이터에 기반하여 목표 오디오 데이터를 얻는 단계를 포함한다.
제1 오디오 데이터의 취득 종료와 제2 오디오 데이터의 취득 시작 사이의 시간차가 제1 설정 시간보다 크거나 같을 경우, 진일보로 제1 오디오 데이터가 완전히 입력되었는지 여부를 검출할 수 있다. 제1 오디오 데이터가 완전히 입력되었는지 여부를 검출하는 단계는, 제1 음성 데이터의 제1 시맨틱 내용을 취득하는 단계; 상기 제1 시맨틱 내용에 대해 시맨틱 분석을 수행하여 시맨틱 분석 결과를 얻는 단계; 및 시맨틱 분석 결과에 기반하여 제1 오디오 데이터가 완전히 입력되었는지 여부를 확정하는 단계를 포함한다.
예를 들면, 제1 오디오 데이터의 제1 시맨틱 내용이 “저를 도와 ... 설정해주세요”인 경우, 제1 시맨틱 내용에 대해 분석을 수행하면 알 수 있듯이, 제1 시맨틱 내용 중에 일부 단어가 포함되어 있으나, 제1 시맨틱 내용 중에 포함된 단어에만 기반해서는 사용자의 수요가 무엇인지를 확정할 수 없다. 이로부터 알 수 있듯이, 제1 시맨틱 내용의 경우, 사용자가 음성 신호를 생성하는 과정에서 좀 멈추었거나 또는 끊기었을 가능성이 있으며, 제1 음성 데이터의 입력이 완전하지 않은 것으로 판정할 수 있다.
다른 실시예에 있어서, 제1 음성 데이터가 완전하지 않고, 또한 사용자가 다시 다른 오디오 신호를 입력하지 않은 것으로 검출되면, 목표 애플리케이션 프로그램은 문맥에 따라 제1 오디오 데이터에 대해 해당되는 응답 정보를 출력할 수 있다. 예를 들면, 제1 오디오 데이터의 제1 시맨틱 내용이 “저를 도와 ... 설정해주세요”인 경우, 목표 애플리케이션 프로그램이 출력하는 응답 정보는 “제가 당신을 도와 무엇을 설정해 드릴까요”일 수 있다.
여기서, 자연 언어 처리(Natural Language Processing, NLP) 기술을 통해 제1 오디오 데이터가 완전히 입력되었는지 여부를 검출할 수 있다.
다른 선택적인 실시예에 있어서, 제1 오디오 데이터가 완전히 입력되지 않은 경우, 제1 오디오 데이터와 제2 오디오 데이터에 기반하여 목표 오디오 데이터를 얻는 단계는,
제1 오디오 데이터가 완전히 입력되지 않은 경우, 제1 오디오 데이터와 제2 오디오 데이터를 스플라이싱 가능한지 여부를 판단하는 단계; 및
제1 오디오 데이터와 제2 오디오 데이터를 스플라이싱 가능하면, 제1 오디오 데이터와 제2 오디오 데이터를 스플라이싱하여 목표 오디오 데이터를 얻는 단계를 포함한다.
예를 들면, 제1 오디오 데이터에 포함된 내용이 “오늘의 날씨는”이고, 제2 오디오 데이터에 포함된 내용이 “맑음”이면, 제3 오디오 데이터 즉 목표 오디오 데이터에 포함된 내용은 “오늘의 날씨는 맑음”이다.
다른 선택적인 실시예에 있어서, 당해 방법은, 제1 오디오 데이터가 완전히 입력된 경우, 제1 오디오 데이터와 제2 오디오 데이터를 각각 목표 오디오 데이터로 확정하는 단계를 더 포함한다.
여기서, 제1 오디오 데이터가 완전히 입력된 경우, 목표 애플리케이션 프로그램이 제1 오디오 데이터에 대한 대응하는 응답 정보를 얻을 수 있는 것으로 확정하며, 이때 제1 오디오 데이터를 직접 목표 오디오 데이터로 확정할 수 있다. 마찬가지로, 제2 오디오 데이터가 완전히 입력된 경우, 제2 오디오 데이터를 목표 오디오 데이터로 확정할 수 있다. 이렇게 하여 목표 애플리케이션 프로그램은 제1 오디오 데이터와 제2 오디오 데이터에 대응하는 응답 정보를 각각 얻을 수 있다.
다른 선택적인 실시예에 있어서, 당해 방법은,
목표 오디오 데이터에 대해 에코 제거 처리를 수행하는 단계; 에코 제거 처리 후의 목표 오디오 데이터에 기반하여 응답 정보를 얻는 단계; 및 응답 정보를 출력하는 단계를 더 포함한다.
오디오 처리를 수행하는 과정에서, 전자 기기는 전자 기기 자체에 의해 생성된 오디오 신호(음악, 메시지 프롬프트 톤) 등을 입력 받을 가능성이 있으며, 이때 목표 오디오 데이터에 대해 에코 제거 처리를 수행하고, 에코 처리 후의 목표 오디오 데이터에 기반하여 응답 정보를 얻을 필요가 있다. 이렇게 하여, 전자 기기에 의해 생성된 오디오 신호의 간섭을 줄임으로써, 목표 애플리케이션 프로그램이 출력한 응답 정보의 정확성과 안정성을 보장할 수 있다.
여기서, 자동 음성 인식(Automatic Speech Recognition, ASR) 기술과 에코 제거(Acoustic Echo Cancellation, AEC) 기술을 통해 목표 오디오 데이터에 대해 에코 제거 처리를 수행할 수 있다.
다른 실시예에 있어서, 환경 소음, 환경 보컬(사용자 또는 타인이 목표 애플리케이션 프로그램에 대해 생성한 것이 아닌 음성)등의 확률을 줄이기 위하여 ASR 기술과 NLP 기술을 통해 목표 오디오 데이터에 대해 처리를 수행하여 목표 애플리케이션 프로그램에 대해 생성한 것이 아닌 음성을 마스킹할 수도 있다.
다른 선택적인 실시예에 있어서, 당해 방법은,
검출 대상 오디오 데이터를 취득하는 단계; 검출 대상 오디오 데이터 중에 목표 애플리케이션 프로그램을 웨이크업 하기 위한 웨이크업 정보가 포함되어 있는지 여부를 확정하는 단계; 검출 대상 오디오 데이터 중에 웨이크업 정보가 포함되어 있으면, 목표 애플리케이션 프로그램에 대해 웨이크업 처리를 수행하는 단계를 더 포함하며, 여기서, 오디오 데이터는 음성 데이터를 포함한다.
전자 기기에 포함된 오디오 수집 컴포넌트를 통해 오디오 신호를 수집하고, 오디오 신호에 대해 디지털 처리를 수행하여 오디오 데이터를 얻을 수 있는 바, 여기서, 오디오 수집 컴포넌트는 전자 기기에 포함된 오디오를 수집하기 위한 컴포넌트일 수 있으며, 전자 기기가 핸드폰인 예를 들면 오디오 수집 컴포넌트는 핸드폰 상의 마이크로폰일 수 있다.
여기서, 검출 대상 오디오 데이터는 수집된 사용자의 음성 신호에 대해 디지털 처리를 수행하여 얻은 음성 데이터일 수 있고; 웨이크업 정보는 사전에 설정된 웨이크업 단어일 수 있으며; 목표 애플리케이션 프로그램 는 전자 기기 상에 설치된 사용자와 음성 대화를 수행하기 위한 예를 들면 음성 어시스턴트와 같은 애플리케이션 프로그램일 수 있다.
구체적으로, 전자 기기에 포함된 오디오 수집 컴포넌트를 통해 사용자에 의해 생성된 음성 신호를 수신했을 경우, 당해 음성 신호에 대해 디지털 처리를 수행하여 음성 데이터를 얻고, 음성 데이터 중에 사전에 설정된 웨이크업 단어가 포함되어 있는지 여부를 검출할 수 있다. 여기서, 웨이크업 단어는 사용자가 수요에 따라 설정한 것일 수 있는 바, 예를 들면, 웨이크업 단어를 “샤오 아이”로 설정할 수 있다.
여기서, 웨이크업 처리는 목표 애플리케이션 프로그램을 휴면 상태로부터 동작 상태로 진입하도록 제어하는 처리를 가리키며, 목표 애플리케이션 프로그램을 웨이크업 한 후, 목표 애플리케이션 프로그램을 통해 오디오 데이터에 대해 처리를 수행할 수 있다. 다른 실시예에 있어서, 아이콘, 바로 가기 키 등을 통해 사용자가 입력한 웨이크업 조작을 수신하여 목표 애플리케이션 프로그램을 웨이크업 할 수도 있다.
다른 선택적인 실시예에 있어서, 핸드폰 상에 설치된 음성 어시스턴트의 예를 들면, 사용자는 핸드폰 상의 음성 어시스턴트와 음성 대화를 진행할 시, 먼저 명령을 설정하여 음성 어시스턴트를 웨이크업 한 후, 음성 어시스턴트가 웨이크업된 후 말하기를 시작하고, 음성 어시스턴트는 사용자 말의 내용에 따라 해당하는 피드백을 수행할 수 있다.
여기서, 설정 명령은 설정된 음성 명령, 핸드폰 상의 아이콘에 대한 트리거 명령, 핸드폰 상의 바로 가기 키에 대한 트리거 명령 중 적어도 하나를 포함한다. 여기서, 사용자가 음성 어시스턴트에 대해 오늘과 내일의 날씨를 문의하는 예를 들면, 주요 대화 내용은 아래와 같다.
사용자: 샤오 아이(여기는 음성을 통해 웨이크업한 음성 어시스턴트임, 또한 아이콘, 바로 가기 키를 클릭하는 방식 등 다른 방식을 통해 음성 어시스턴트를 웨이크업 할 수도 있음)
샤오 아이: 예/프롬프트 톤(응답 프롬프트임)
사용자: 오늘 날씨
샤오 아이: 오늘 북경 날씨는……(오늘 날씨를 방송함)
사용자: 샤오 아이(여기는 음성을 통해 웨이크업한 음성 어시스턴트임, 또한 아이콘, 바로 가기 키를 클릭하는 방식 등 다른 방식을 통해 음성 어시스턴트를 웨이크업 할 수도 있음)
샤오 아이: 예/프롬프트 톤(응답 프롬프트임)
사용자: 내일은
샤오 아이: 내일 북경 날씨는……(내일 날씨를 방송함)
다른 실시예에 있어서, 사용자는 먼저 명령을 설정하여 음성 어시스턴트를 웨이크업하고, 음성 어시스턴트가 웨이크업된 후 말하기를 시작할 수 있다. 음성 어시스턴트는 사용자가 말을 한 구절 마친 후, 사용자가 계속하여 말할 가능성이 있는 것으로 예측하면, 음성 어시스턴트가 대답을 마친 후, 자동으로 마이크로폰을 온 시켜 사용자에 의해 생성된 다음 명령을 수신한다. 여기서, 사용자가 음성 어시스턴트를 통해 알람 시계를 설정하는 예를 들면, 주요 대화 내용은 아래와 같다.
사용자: 샤오 아이(여기는 음성을 통해 웨이크업한 음성 어시스턴트임, 또한 아이콘, 바로 가기 키를 클릭하는 방식 등 다른 방식을 통해 음성 어시스턴트를 웨이크업 할 수도 있음)
샤오 아이: 예/프롬프트 톤(응답 프롬프트임)
사용자: 알람 시계를 설정하고 싶습니다
샤오 아이: 몇 시의 알람 시계를 설정하시겠습니까
사용자: 저녁 일곱 시
샤오 아이: 저녁 일곱 시의 알람 시계를 설정하였습니다
도 2는 예시적인 일 실시예에 따른 오디오 처리 방법의 흐름을 나타내는 개략도이다, 도 2에 나타낸 바와 같이, 당해 방법은 주요하게 이하의 단계를 포함한다.
단계 201에 있어서, 검출 대상 오디오 데이터를 취득하며, 검출 대상 오디오 데이터 중에 목표 애플리케이션 프로그램을 웨이크업 하기 위한 웨이크업 정보가 포함되어 있는지 여부를 확정한다.
전자 기기에 포함된 오디오 수집 컴포넌트를 통해 오디오 신호를 수집하고, 오디오 신호에 대해 디지털 처리를 수행하여 오디오 데이터를 얻을 수 있는 바, 여기서, 오디오 수집 컴포넌트는 전자 기기에 포함된 오디오를 수집하기 위한 컴포넌트일 수 있으며, 전자 기기가 핸드폰인 예를 들면, 오디오 수집 컴포넌트는 핸드폰 상의 마이크로폰일 수 있다.
여기서, 검출 대상 오디오 데이터는 수집된 사용자의 음성 신호에 대해 디지털 처리를 수행하여 얻은 음성 데이터일 수 있고; 웨이크업 정보는 사전에 설정된 웨이크업 단어일 수 있으며; 목표 애플리케이션 프로그램 는 전자 기기 상에 설치된 사용자와 음성 대화를 수행하기 위한 예를 들면 음성 어시스턴트와 같은 애플리케이션 프로그램일 수 있다.
예를 들면, 전자 기기에 포함된 오디오 수집 컴포넌트를 통해 사용자에 의해 생성된 음성 신호를 수신했을 경우, 당해 음성 신호에 대해 디지털 처리를 수행하여 음성 데이터를 얻고, 음성 데이터 중에 사전에 설정된 웨이크업 단어가 포함되어 있는지 여부를 검출할 수 있다. 여기서, 웨이크업 단어는 사용자가 수요에 따라 설정한 것일 수 있는 바, 예를 들면, 웨이크업 단어를 “샤오 아이”로 설정할 수 있다.
단계 202에 있어서, 검출 대상 오디오 데이터 중에 웨이크업 정보가 포함되어 있으면, 목표 애플리케이션 프로그램에 대해 웨이크업 처리를 수행한다.
웨이크업 처리는 목표 애플리케이션 프로그램을 휴면 상태로부터 동작 상태로 진입하도록 제어하는 처리를 가리키며, 목표 애플리케이션 프로그램을 웨이크업 한 후, 목표 애플리케이션 프로그램을 통해 오디오 데이터에 대해 처리를 수행할 수 있다. 다른 실시예에 있어서, 아이콘, 바로 가기 키 등을 통해 사용자가 입력한 웨이크업 조작을 수신하여 목표 애플리케이션 프로그램을 웨이크업 할 수도 있다.
단계 203에 있어서, 목표 애플리케이션 프로그램을 웨이크업 한 후, 제1 오디오 신호에 대응하는 제1 오디오 데이터를 취득한다.
제1 오디오 데이터는 제1 오디오 신호에 대해 디지털 처리를 수행한 후의 데이터이며, 여기서, 제1 오디오 신호는 음성 수집 컴포넌트를 통해 수집한 사용자에 의해 생성된 음성 신호일 수 있다.
단계 204에 있어서, 제1 오디오 데이터를 취득하는 과정에서, 제2 오디오 신호에 대응하는 제2 오디오 데이터가 검출되면, 제2 오디오 데이터를 취득한다.
단계 205에 있어서, 제1 오디오 데이터의 취득 종료와 제2 오디오 신호에 대응하는 제2 오디오 데이터의 취득 시작 사이의 시간차를 확정한다.
단계 206에 있어서, 제1 오디오 데이터의 취득 종료와 제2 오디오 데이터의 취득 시작 사이의 시간차가 제1 설정 시간보다 크거나 같은지 여부를 판단한다.
다른 실시예에 있어서, 제1 오디오 데이터의 취득 종료와 제2 오디오 데이터의 취득 시작 사이의 시간차가 제1 설정 시간보다 작으면, 제1 오디오 데이터와 제2 오디오 데이터를 직접 스플라이싱하여 목표 오디오 데이터로 한다.
제1 오디오 데이터의 취득 종료와 제2 오디오 데이터의 취득 시작 사이에 시간차가 있으나, 목표 애플리케이션 프로그램이 제1 오디오 데이터와 제2 오디오 데이터가 완전히 독립된 두 개의 데이터인지, 아니면 관련성을 갖는 두 개의 데이터인지를 확정할 수 없으면 정확한 응답을 출력할 수 없을 수도 있다.
본 개시의 실시예에 있어서, 목표 오디오 데이터를 얻기 전에, 먼저 제1 오디오 데이터의 취득 종료와 제2 오디오 데이터의 취득 시작 사이의 시간차에 대해 판정을 수행하며, 다시 제1 오디오 데이터와 제2 오디오 데이터에 대해 진일보의 처리를 수행할지 여부를 확정함으로써, 취득된 오디오 데이터에 대한 불필요한 처리 과정의 수행을 줄일 수 있을 뿐만 아니라, 더욱 정확한 응답 정보를 얻을 수 있다.
단계 207에 있어서, 시간차가 제1 설정 시간보다 크거나 같으면, 제1 오디오 데이터가 완전히 입력되었는지 여부를 검출한다.
여기서, NLP 기술을 통해 제1 오디오 데이터가 완전히 입력되었는지 여부를 검출할 수 있다. 제1 오디오 데이터의 입력이 완전한 것으로 검출되었을 경우, 제1 오디오 데이터에 대응하는 해당된 정보를 얻으며, 당해 응답 정보를 출력한다.
단계 208에 있어서, 제1 오디오 데이터가 완전히 입력되지 않은 경우, 제1 오디오 데이터와 제2 오디오 데이터를 스플라이싱 가능한지 여부를 판단한다.
단계 209에 있어서, 제1 오디오 데이터와 제2 오디오 데이터를 스플라이싱 가능하면, 제1 오디오 데이터와 제2 오디오 데이터를 스플라이싱하여 목표 오디오 데이터를 얻는다.
단계 210에 있어서, 제1 오디오 데이터가 완전히 입력된 경우, 제1 오디오 데이터와 제2 오디오 데이터를 각각 목표 오디오 데이터로 확정한다.
단계 211에 있어서, 목표 오디오 데이터에 기반하여 응답 정보를 얻는다.
단계 212에 있어서, 응답 정보를 출력한다.
다른 선택적인 실시예에 있어서, 수신된 대화 종료 명령에 기반하여 목표 애플리케이션 프로그램과 사용자 사이의 대화를 종료한다. 여기에서는 음성 방식을 통해 대화 종료 명령을 입력할 수도 있고, 아이콘, 바로 가기 키를 클릭하는 방식 등 다른 방식을 통해 대화 종료 명령을 입력할 수도 있다.
본 개시의 실시예에 있어서, 목표 애플리케이션 프로그램을 웨이크업 한 후, 사용자가 수시로 목표 애플리케이션 프로그램과 직접 대화를 진행할 수 있는 바, 이렇게 하여 목표 애플리케이션 프로그램과 연속 대화하는 과정에서도 사용자가 입력한 각 오디오 신호에 대해 적시에 응답할 수 있다. 예를 들면, 사용자가 음악을 듣는 과정에서, 사용자가 목표 애플리케이션 프로그램에 의해 제공된 음악 콘텐츠에 만족하지 않으면, 직접 “한 곡 바꿔주세요”라고 한마디 할 수 있으며; 사용자가 목표 애플리케이션 프로그램에 대해 연속으로 음성 신호를 생성할 시, 목표 애플리케이션 프로그램은 음성 신호를 연속으로 수신하여 해당하는 응답을 할 수 있으므로, 목표 애플리케이션 프로그램을 재차 웨이크업 할 필요가 없으며, 목표 애플리케이션 프로그램이 전에 수신한 음성 신호에 대해 응답 정보를 출력 완성시킬 때까지 대기할 필요도 없다.
도 3은 예시적인 일 실시예에 따른 오디오 처리 장치를 나타내는 블록도이다. 도 3에 나타낸 바와 같이, 당해 오디오 처리 장치(300)는 주요하게,
목표 애플리케이션 프로그램을 웨이크업 한 후, 제1 오디오 신호에 대응하는 제1 오디오 데이터를 취득하도록 구성되는 제1 오디오 취득 모듈(301);
제1 오디오 데이터를 취득하는 과정에서, 제2 오디오 신호에 대응하는 제2 오디오 데이터가 검출되면, 제2 오디오 데이터를 취득하도록 구성되는 제2 오디오 취득 모듈(302); 및
제1 오디오 데이터와 제2 오디오 데이터에 기반하여 목표 오디오 데이터를 얻도록 구성되는 제1 오디오 확정 모듈(303)을 구비한다.
다른 선택적인 실시예에 있어서, 장치(300)는,
제1 오디오 데이터의 취득 종료와 제2 오디오 데이터의 취득 시작 사이의 시간차를 확정하도록 구성되는 시간 확정 모듈을 더 구비하며,
제1 오디오 확정 모듈은,
시간차가 제1 설정 시간보다 크거나 같으면, 제1 오디오 데이터와 제2 오디오 데이터에 기반하여 목표 오디오 데이터를 얻도록 구성되는 오디오 확정 서브 모듈을 구비한다.
다른 선택적인 실시예에 있어서, 오디오 확정 서브 모듈은 구체적으로,
시간차가 제1 설정 시간보다 크거나 같으면, 제1 오디오 데이터가 완전히 입력되었는지 여부를 검출하고;
제1 오디오 데이터가 완전히 입력되지 않은 경우, 제1 오디오 데이터와 제2 오디오 데이터에 기반하여 목표 오디오 데이터를 얻도록 구성된다.
다른 선택적인 실시예에 있어서, 오디오 확정 서브 모듈은 또한 구체적으로,
제1 오디오 데이터가 완전히 입력되지 않은 경우, 제1 오디오 데이터와 제2 오디오 데이터를 스플라이싱 가능한지 여부를 판단하고;
제1 오디오 데이터와 제2 오디오 데이터를 스플라이싱 가능하면, 제1 오디오 데이터와 제2 오디오 데이터를 스플라이싱하여 목표 오디오 데이터를 얻도록 구성된다.
다른 선택적인 실시예에 있어서, 장치(300)는,
제1 오디오 데이터가 완전히 입력된 경우, 제1 오디오 데이터와 제2 오디오 데이터를 각각 목표 오디오 데이터로 확정하도록 구성되는 제2 오디오 확정 모듈을 더 구비한다.
다른 선택적인 실시예에 있어서, 장치(300)는,
목표 오디오 데이터에 대해 에코 제거 처리를 수행하도록 구성되는 에코 제거 모듈;
에코 제거 처리 후의 목표 오디오 데이터에 기반하여 응답 정보를 얻도록 구성되는 응답 모듈; 및
응답 정보를 출력하도록 구성되는 출력 모듈을 더 구비한다.
다른 선택적인 실시예에 있어서, 장치(300)는,
검출 대상 오디오 데이터를 취득하도록 구성되는 제3 오디오 취득 모듈;
검출 대상 오디오 데이터 중에 목표 애플리케이션 프로그램을 웨이크업 하기 위한 웨이크업 정보가 포함되어 있는지 여부를 확정하도록 구성되는 정보 확정 모듈; 및
검출 대상 오디오 데이터 중에 웨이크업 정보가 포함되어 있으면, 목표 애플리케이션 프로그램에 대해 웨이크업 처리를 수행하도록 구성되는 웨이크업 모듈을 더 구비하며,
여기서, 오디오 데이터는 음성 데이터를 포함한다.
상기 실시예의 장치에 관하여 각 모듈이 수행하는 동작의 구체적인 방식은 이미 관련된 당해 방법의 실시예에서 상세히 설명하였기에, 여기서는 다시 상세히 설명하지 않는다.
도 4는 예시적인 일 실시예에 따른 오디오 처리 장치(400)의 하드웨어 구조를 나타내는 블록도이다. 예를 들면, 장치(400)는, 멀티탭, 휴대 전화, 컴퓨터, 디지털 방송 단말기, 메시지 송수신 디바이스, 게임 콘솔, 태블릿 디바이스, 의료 디바이스, 피트니스 디바이스, 개인 디지털 보조, 등일 수 있다.
도 4 를 참조하면,장치(400)는 프로세스 컴포넌트(402), 메모리(404), 전원 컴포넌트(406), 멀티미디어 컴포넌트(408), 오디오 컴포넌트(410), 입출력(I/O) 인터페이스(410), 센서 컴포넌트(414) 및 통신 컴포넌트(416) 등 하나 또는 복수의 컴포넌트를 포함할 수 있다
프로세스 컴포넌트(402)는 통상적으로 장치(400)의 전체 조작을 제어하며, 예를 들면, 표시,전화 호출,데이터 통신,카메라 조작 및 기록 조작에 관련된 조작을 제어할 수 있다. 프로세스 컴포넌트(402)는 하나 또는 복수의 프로세서(420)를 구비하여 명령을 실행함으로써 상기 방법의 전부 혹은 일부 단계를 완성한다. 또한,프로세스 컴포넌트(402)는 하나 또는 복수의 모듈을 포함하고 있어 프로세스 컴포넌트(402)와 다른 컴포넌트 사이의 인터랙션에 편리하다. 예를 들면, 프로세스 컴포넌트(402)는 멀티미디어 모듈을 포함하고 있어 멀티미디어 컴포넌트(408)와 프로세스 컴포넌트(402) 사이의 인터랙션이 편리하게 된다.
메모리(404)에는 각종 유형의 데이터를 저장되어 장치(400)의 동작을 지원한다. 이러한 데이터의 예로서 장치(400)에서 동작하는 임의의 애플리케이션 프로그램 혹은 방법을 실행하기 위한 명령,연락인 데이터,전화번호부 데이터,메시지,이미지, 비디오 등을 포함한다. 메모리(404)는 임의의 유형의 휘발성 혹은 비휘발성 메모리 혹은 양자의 조합으로 실현될 수 있으며, 예를 들면 SRAM(Static Random Access Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory),EPROM(Erasable Programmable Read Only Memory), PROM(Programmable Read-Only Memory), ROM(Read-Only Memory),자기 메모리,플래시 메모리,자기 디스크 혹은 콤팩트 디스크 등으로 실현될 수 있다.
전력 컴포넌트(406)는 장치(400)의 각 컴포넌트에 전력을 공급하기 위한 것이다. 전력 컴포넌트(406)는 전원 관리 시스템,하나 또는 복수의 전원 및 장치(400)를 위하여 전력을 생성, 관리 및 할당하기 위한 다른 컴포넌트를 포함할 수 있다.
멀티미디어 컴포넌트(408)는 상기 장치(400)와 사용자 사이에 하나의 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시예에 있어서, 스크린은 액정 표시 장치(LCD)와 터치 패널(TP)을 포함할 수 있다. 스크린이 터치 패널을 포함할 경우, 스크린은 사용자가 입력한 신호를 수신할 수 있는 터치 스크린을 구현할 수 있다. 터치 패널은 하나 또는 복수의 터치 센서를 포함하고 있어 터치, 슬라이딩 및 터치 패널 위에서의 손 움직임을 감지할 수 있다. 상기 터치 센서는 터치 혹은 슬라이딩 동작의 경계위치를 감지할 수 있을 뿐만 아니라, 상기 터치 혹은 슬라이딩 조작에 관련된 지속시간 및 압력을 검출할 수 있다. 일부 실시예에 있어서,멀티미디어 컴포넌트(408)는 하나의 프론트 카메라 및/또는 리어 카메라를 포함한다. 장치(400)가 예를 들면 촬영 모드 혹은 비디오 모드 등 조작 모드 상태에 있을 경우, 프론트 카메라 및/또는 리어 카메라는 외부로부터의 멀티미디어 데이터를 수신할 수 있다. 프론트 카메라와 리어 카메라는 하나의 고정된 광학 렌즈 시스템일 수 있거나 또는 가변 초점거리와 광학 줌 기능을 구비할 수 있다.
오디오 컴포넌트(410)는 오디오 신호를 출력 및/또는 입력하기 위한 것이다. 예를 들면, 오디오 컴포넌트(410)는 마이크로폰(MIC)을 포함하며, 장치(400)가 예를 들면 호출 모드, 기록 모드 및 음성 인식 모드 등 조작 모드에 있을 경우, 마이크로폰은 외부의 오디오 신호를 수신한다. 수신된 오디오 신호는 진일보 메모리(404)에 저장되거나 혹은 통신 컴포넌트(416)를 통하여 송신될 수 있다. 일부 실시예에 있어서,오디오 컴포넌트(410)는 스피커를 더 포함할 수 있어 오디오 신호를 출력한다.
I/O 인터페이스(410)는 프로세스 컴포넌트(402)와 주변 인터페이스 모듈 사이에 인터페이스를 제공하기 위한 것이다. 상기 주변 인터페이스 모듈은 키보드,휠 키,버튼 등일 수 있다. 이러한 버튼은 홈 버튼, 음량 버튼, 작동 버튼 및 잠금 버튼 등을 포함하지만 이에 한정되지 않는다.
센서 컴포넌트(414)는 장치(400)에 각 방면의 상태평가를 제공하는 하나 또는 복수의 센서를 포함한다. 예를 들면,센서 컴포넌트(414)는 장치(400)의 온/오프 상태,컴포넌트의 상대위치결정을 검출할 수 있다. 예를 들면 상기 컴포넌트가 장치(400)의 디스플레이 및 키패드일 시,센서 컴포넌트(414)는 장치(400) 혹은 장치(400)의 일 컴포넌트의 위치변경,사용자와 장치(400) 사이의 접촉여부, 장치(400)의 방위 혹은 가속/감속 및 장치(400)의 온도 변화를 검출할 수 있다. 센서 컴포넌트(414)는 근접 센서를 포함할 수 있어, 임의의 물리적 접촉이 없는 정황하에서 근처 물체의 존재를 검출할 수 있다. 센서 컴포넌트(414)는 예를 들면 CMOS 혹은 CCD 이미지 센서 등 광 센서를 더 포함할 수 있으며, 이미징 애플리케이션에 사용된다. 일부 실시예에 있어서, 상기 센서 컴포넌트(414)는 가속 센서,자이로 센서,자기 센서,압력 센서 혹은 온도 센서를 포함할 수 있다.
통신 컴포넌트(416)는 장치(400)와 다른 설비 사이의 유선 혹은 무선 통신에 사용된다. 장치(400)는 예를 들면 WiFi,2G 혹은 3G,혹은 이들의 조합 등의 통신규격에 따른 무선 네트워크에 접속할 수 있다. 일 예시적 실시예에 있어서,통신 컴포넌트(416)는 방송 채널을 통하여 외부 방송 관리 시스템으로부터의 방송 신호 혹은 방송 관련 정보를 수신할 수 있다. 일 예시적 실시예에 있어서, 상기 통신 컴포넌트(416)는 근거리 무선 통신(NFC)모듈을 더 포함하고 있어, 단거리 통신을 촉진할 수 있다. 예를 들면, NFC 모듈은 RFID 기술, IrDA 기술, UWB 기술,블루투스(BT)기술 및 다른 기술에 기초하여 실현될 수 있다.
예시적 실시예에 있어서,장치(400)는 하나 또는 복수의 애플리케이션 전용 집적 회로(ASIC), 디지털 신호 프로세서(DSP), 디지털 신호 처리설비(DSPD), 프로그램 가능 논리 소자(PLD), 필드 프로그래머블 게이트 어레이(FPGA), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 혹은 다른 전자소자에 의하여 실현되어, 상기의 방법을 수행할 수 있다.
예시적 실시예에 있어서,명령을 포함하는 비 일시적인 컴퓨터 판독 가능한 기록 매체를 제공하는데, 예를 들면 명령을 포함하는 메모리(404) 등을 포함하며, 상기 명령은 장치(400)의 프로세서(420)에 의하여 실행되어 상기 방법을 실현할 수 있다. 예를 들면, 상기 비 일시적인 컴퓨터 판독 가능한 기록 매체는 ROM, RAM, CD-ROM, 자기테이프, 플로피디스크 및 광 데이터 저장 장치 등일 수 있다.
비 일시적인 컴퓨터 판독 가능한 기록 매체를 제공하는 바, 상기 기록 매체 내의 명령이 전자 기기의 프로세서에 의해 수행될 시, 전자 기기로 하여금 상기 오디오 처리 방법을 수행하도록 한다. 상기 방법은,
목표 애플리케이션 프로그램을 웨이크업 한 후, 제1 오디오 신호에 대응하는 제1 오디오 데이터를 취득하는 단계;
상기 제1 오디오 데이터를 취득하는 과정에서, 제2 오디오 신호에 대응하는 제2 오디오 데이터가 검출되면, 상기 제2 오디오 데이터를 취득하는 단계; 및
상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기반하여 목표 오디오 데이터를 얻는 단계를 포함한다.
당업자는 명세서를 검토하여 본 개시를 실현한 후, 본 개시의 다른 실시 방안을 용이하게 생각해낼 수 있다. 본원 발명은, 본 개시의 모든 변형, 용도, 또는 적응적 변경을 포함하며, 이러한 변형, 용도, 또는 적응적 변경은, 본 개시의 일반적 원리에 따르며, 본 개시는 개시되지 않은 본 분야의 공지의 지식 또는 통상적 기술수단을 포함한다. 명세서와 실시 예는 단지 예시일 뿐, 본 개시의 진정한 범위와 정신은 이하의 특허 청구의 범위에 기재된다.
본 개시는 상기에 기술되고 또 도면에 나타낸 정확한 구성에 한정되지 않으며, 그 범위를 초과하지 않는 한 다양한 수정과 변경을 실현할 수 있다는 것을 이해해야 할 것이다. 본 개시의 범위는 단지 첨부되는 특허 청구의 범위에 의해 한정된다.

Claims (16)

  1. 오디오 처리 방법으로서, 상기 방법은 전자 기기에 적용되며,
    상기 방법은,
    목표 애플리케이션 프로그램을 웨이크업(wake up)한 후, 제1 오디오 신호에 대응하는 제1 오디오 데이터를 취득하는 단계;
    상기 제1 오디오 데이터를 취득하는 과정에서, 제2 오디오 신호에 대응하는 제2 오디오 데이터가 검출되면, 상기 제2 오디오 데이터를 취득하는 단계; 및
    상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기반하여 목표 오디오 데이터를 얻는 단계를 포함하며,
    상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기반하여 목표 오디오 데이터를 얻는 단계는, 상기 제1 오디오 데이터의 제1 시맨틱 내용과 상기 제2 오디오 데이터의 제2 시맨틱 내용에 기반하여 상기 목표 오디오 데이터를 얻는 단계를 포함하며,
    여기서, 상기 제1 시맨틱 내용과 상기 제2 시맨틱 내용이 서로 보충하는 것일 경우 상기 제1 오디오 데이터와 상기 제2 오디오 데이터를 조합하여 상기 목표 오디오 데이터를 얻고, 상기 제1 시맨틱 내용과 상기 제2 시맨틱 내용이 상호 모순될 경우에는 상기 제2 오디오 데이터를 상기 목표 오디오 데이터로 하며, 상기 제1 시맨틱 내용과 상기 제2 시맨틱 내용이 상호 독립되어 시맨틱 상의 상호 보충과 모순이 없을 경우 상기 제1 오디오 데이터와 상기 제2 오디오 데이터를 두 개의 목표 오디오 데이터로 하는
    것을 특징으로 하는 방법.
  2. 제1항에 있어서,
    상기 제1 오디오 데이터의 취득 종료와 상기 제2 오디오 데이터의 취득 시작 사이의 시간차를 확정하는 단계를 더 포함하며,
    상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기반하여 목표 오디오 데이터를 얻는 단계는,
    상기 시간차가 제1 설정 시간보다 크거나 같으면, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기반하여 상기 목표 오디오 데이터를 얻는 단계를 포함하는
    것을 특징으로 하는 방법.
  3. 제2항에 있어서,
    상기 시간차가 제1 설정 시간보다 크거나 같으면, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기반하여 상기 목표 오디오 데이터를 얻는 단계는,
    상기 시간차가 제1 설정 시간보다 크거나 같으면, 상기 제1 오디오 데이터가 완전히 입력되었는지 여부를 검출하는 단계; 및
    상기 제1 오디오 데이터가 완전히 입력되지 않은 경우, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기반하여 상기 목표 오디오 데이터를 얻는 단계를 포함하는
    것을 특징으로 하는 방법.
  4. 제3항에 있어서,
    상기 제1 오디오 데이터가 완전히 입력되지 않은 경우, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기반하여 상기 목표 오디오 데이터를 얻는 단계는,
    제1 오디오 데이터가 완전히 입력되지 않은 경우, 상기 제1 오디오 데이터와 상기 제2 오디오 데이터를 스플라이싱 가능한지 여부를 판단하는 단계; 및
    상기 제1 오디오 데이터와 상기 제2 오디오 데이터를 스플라이싱 가능하면, 상기 제1 오디오 데이터와 상기 제2 오디오 데이터를 스플라이싱하여 목표 오디오 데이터를 얻는 단계를 포함하는
    것을 특징으로 하는 방법.
  5. 제3항에 있어서,
    상기 제1 오디오 데이터가 완전히 입력된 경우, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 각각 상기 목표 오디오 데이터로 확정하는 단계를 더 포함하는
    것을 특징으로 하는 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 목표 오디오 데이터에 대해 에코 제거 처리를 수행하는 단계;
    에코 제거 처리 후의 목표 오디오 데이터에 기반하여 응답 정보를 얻는 단계; 및
    상기 응답 정보를 출력하는 단계를 더 포함하는
    것을 특징으로 하는 방법.
  7. 제1항 내지 제5항 중 어느 한 항에 있어서,
    검출 대상 오디오 데이터를 취득하는 단계;
    상기 검출 대상 오디오 데이터 중에 목표 애플리케이션 프로그램을 웨이크업 하기 위한 웨이크업 정보가 포함되어 있는지 여부를 확정하는 단계; 및
    상기 검출 대상 오디오 데이터 중에 상기 웨이크업 정보가 포함되어 있으면, 상기 목표 애플리케이션 프로그램에 대해 웨이크업 처리를 수행하는 단계를 더 포함하며,
    여기서, 상기 오디오 데이터는 음성 데이터를 포함하는
    것을 특징으로 하는 방법.
  8. 오디오 처리 장치로서,
    목표 애플리케이션 프로그램을 웨이크업 한 후, 제1 오디오 신호에 대응하는 제1 오디오 데이터를 취득하도록 구성되는 제1 오디오 취득 모듈;
    상기 제1 오디오 데이터를 취득하는 과정에서, 제2 오디오 신호에 대응하는 제2 오디오 데이터가 검출되면, 상기 제2 오디오 데이터를 취득하도록 구성되는 제2 오디오 취득 모듈; 및
    상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기반하여 목표 오디오 데이터를 얻도록 구성되는 제1 오디오 확정 모듈을 구비하며,
    상기 제1 오디오 확정 모듈은 구체적으로, 상기 제1 오디오 데이터의 제1 시맨틱 내용과 상기 제2 오디오 데이터의 제2 시맨틱 내용에 기반하여 상기 목표 오디오 데이터를 얻도록 구성되며,
    여기서, 상기 제1 시맨틱 내용과 상기 제2 시맨틱 내용이 서로 보충하는 것일 경우 상기 제1 오디오 데이터와 상기 제2 오디오 데이터를 조합하여 상기 목표 오디오 데이터를 얻고, 상기 제1 시맨틱 내용과 상기 제2 시맨틱 내용이 상호 모순될 경우에는 상기 제2 오디오 데이터를 상기 목표 오디오 데이터로 하며, 상기 제1 시맨틱 내용과 상기 제2 시맨틱 내용이 상호 독립되어 시맨틱 상의 상호 보충과 모순이 없을 경우 상기 제1 오디오 데이터와 상기 제2 오디오 데이터를 두 개의 목표 오디오 데이터로 하는
    것을 특징으로 하는 장치.
  9. 제8항에 있어서,
    상기 제1 오디오 데이터의 취득 종료와 상기 제2 오디오 데이터의 취득 시작 사이의 시간차를 확정하도록 구성되는 시간 확정 모듈을 더 구비하며,
    상기 제1 오디오 확정 모듈은,
    상기 시간차가 제1 설정 시간보다 크거나 같으면, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기반하여 상기 목표 오디오 데이터를 얻도록 구성되는 오디오 확정 서브 모듈을 구비하는
    것을 특징으로 하는 장치.
  10. 제9항에 있어서,
    상기 오디오 확정 서브 모듈은 구체적으로,
    상기 시간차가 제1 설정 시간보다 크거나 같으면, 상기 제1 오디오 데이터가 완전히 입력되었는지 여부를 검출하고;
    상기 제1 오디오 데이터가 완전히 입력되지 않은 경우, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터에 기반하여 상기 목표 오디오 데이터를 얻도록 구성되는
    것을 특징으로 하는 장치.
  11. 제10항에 있어서,
    상기 오디오 확정 서브 모듈은 또한 구체적으로,
    제1 오디오 데이터가 완전히 입력되지 않은 경우, 상기 제1 오디오 데이터와 상기 제2 오디오 데이터를 스플라이싱 가능한지 여부를 판단하고;
    상기 제1 오디오 데이터와 상기 제2 오디오 데이터를 스플라이싱 가능하면, 상기 제1 오디오 데이터와 상기 제2 오디오 데이터를 스플라이싱하여 목표 오디오 데이터를 얻도록 구성되는
    것을 특징으로 하는 장치.
  12. 제10항에 있어서,
    상기 제1 오디오 데이터가 완전히 입력된 경우, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 각각 상기 목표 오디오 데이터로 확정하도록 구성되는 제2 오디오 확정 모듈을 더 구비하는
    것을 특징으로 하는 장치.
  13. 제9항 내지 제12항 중 어느 한 항에 있어서,
    상기 목표 오디오 데이터에 대해 에코 제거 처리를 수행하도록 구성되는 에코 제거 모듈;
    에코 제거 처리 후의 목표 오디오 데이터에 기반하여 응답 정보를 얻도록 구성되는 응답 모듈; 및
    상기 응답 정보를 출력하도록 구성되는 출력 모듈을 더 구비하는
    것을 특징으로 하는 장치.
  14. 제9항 내지 제12항 중 어느 한 항에 있어서,
    검출 대상 오디오 데이터를 취득하도록 구성되는 제3 오디오 취득 모듈;
    상기 검출 대상 오디오 데이터 중에 목표 애플리케이션 프로그램을 웨이크업 하기 위한 웨이크업 정보가 포함되어 있는지 여부를 확정하도록 구성되는 정보 확정 모듈; 및
    상기 검출 대상 오디오 데이터 중에 상기 웨이크업 정보가 포함되어 있으면, 상기 목표 애플리케이션 프로그램에 대해 웨이크업 처리를 수행하도록 구성되는 웨이크업 모듈을 더 구비하며,
    여기서, 상기 오디오 데이터는 음성 데이터를 포함하는
    것을 특징으로 하는 장치.
  15. 오디오 처리 장치로서,
    프로세서; 및
    프로세서 수행 가능 명령을 저장하도록 구성되는 메모리를 구비하며;
    상기 프로세서를 수행할 시, 제1항 내지 제5항 중 어느 한 항에 따른 오디오 처리 방법 중의 단계가 구현되는
    것을 특징으로 하는 장치.
  16. 비 일시적 컴퓨터 판독 가능한 저장 매체로서,
    상기 저장 매체 중의 명령이 오디오 처리 장치의 프로세서에 의해 수행될 시, 상기 장치로 하여금 제1항 내지 제5항 중 어느 한 항에 따른 오디오 처리 방법을 수행하도록 하는
    것을 특징으로 하는 저장 매체.
KR1020197033760A 2019-08-16 2019-10-09 오디오 처리 방법, 장치 및 저장 매체 KR102300257B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910760806.3A CN110619873A (zh) 2019-08-16 2019-08-16 音频处理方法、装置及存储介质
CN201910760806.3 2019-08-16
PCT/CN2019/110213 WO2021031308A1 (zh) 2019-08-16 2019-10-09 音频处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
KR20210024408A KR20210024408A (ko) 2021-03-05
KR102300257B1 true KR102300257B1 (ko) 2021-09-10

Family

ID=68731780

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197033760A KR102300257B1 (ko) 2019-08-16 2019-10-09 오디오 처리 방법, 장치 및 저장 매체

Country Status (7)

Country Link
US (1) US11264027B2 (ko)
EP (2) EP3779968A1 (ko)
JP (1) JP7166294B2 (ko)
KR (1) KR102300257B1 (ko)
CN (1) CN110619873A (ko)
RU (1) RU2735363C1 (ko)
WO (1) WO2021031308A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11431658B2 (en) * 2020-04-02 2022-08-30 Paymentus Corporation Systems and methods for aggregating user sessions for interactive transactions using virtual assistants
CN111583923B (zh) * 2020-04-28 2023-11-14 北京小米松果电子有限公司 信息控制方法及装置、存储介质
CN111598577B (zh) * 2020-07-24 2020-11-13 深圳市声扬科技有限公司 资源转移方法、装置、计算机设备和存储介质
CN112837694B (zh) * 2021-01-29 2022-12-06 青岛海尔科技有限公司 设备唤醒方法、装置、存储介质及电子装置
CN113113036B (zh) * 2021-03-12 2023-06-06 北京小米移动软件有限公司 音频信号处理方法及装置、终端及存储介质
CN113329372B (zh) * 2021-06-08 2023-04-28 阿波罗智联(北京)科技有限公司 用于车载通话的方法、装置、设备、介质和产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015060127A (ja) * 2013-09-19 2015-03-30 株式会社東芝 音声同時処理装置、方法およびプログラム
US20170213569A1 (en) 2016-01-26 2017-07-27 Samsung Electronics Co., Ltd. Electronic device and speech recognition method thereof

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5855000A (en) * 1995-09-08 1998-12-29 Carnegie Mellon University Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input
US7386454B2 (en) * 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition
US7200559B2 (en) * 2003-05-29 2007-04-03 Microsoft Corporation Semantic object synchronous understanding implemented with speech application language tags
JP4686160B2 (ja) * 2004-10-04 2011-05-18 沖コンサルティングソリューションズ株式会社 会話記録装置および会話記録方法
US7930168B2 (en) * 2005-10-04 2011-04-19 Robert Bosch Gmbh Natural language processing of disfluent sentences
JP5158174B2 (ja) * 2010-10-25 2013-03-06 株式会社デンソー 音声認識装置
US9123339B1 (en) * 2010-11-23 2015-09-01 Google Inc. Speech recognition using repeated utterances
US9799328B2 (en) * 2012-08-03 2017-10-24 Veveo, Inc. Method for using pauses detected in speech input to assist in interpreting the input during conversational interaction for information retrieval
US9437186B1 (en) * 2013-06-19 2016-09-06 Amazon Technologies, Inc. Enhanced endpoint detection for speech recognition
US10832005B1 (en) * 2013-11-21 2020-11-10 Soundhound, Inc. Parsing to determine interruptible state in an utterance by detecting pause duration and complete sentences
US8843369B1 (en) * 2013-12-27 2014-09-23 Google Inc. Speech endpointing based on voice profile
CN105934791B (zh) * 2014-01-31 2019-11-22 惠普发展公司,有限责任合伙企业 语音输入命令
US9607613B2 (en) 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons
DE102014017385B4 (de) * 2014-11-24 2016-06-23 Audi Ag Kraftfahrzeug-Gerätebedienung mit Bedienkorrektur
CN106409295B (zh) * 2015-07-31 2020-06-16 腾讯科技(深圳)有限公司 从自然语音信息中识别时间信息的方法和装置
US10331312B2 (en) * 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10269341B2 (en) 2015-10-19 2019-04-23 Google Llc Speech endpointing
KR101942521B1 (ko) 2015-10-19 2019-01-28 구글 엘엘씨 음성 엔드포인팅
US9659555B1 (en) * 2016-02-09 2017-05-23 Amazon Technologies, Inc. Multichannel acoustic echo cancellation
CN107665706B (zh) * 2016-07-29 2021-05-04 科大讯飞股份有限公司 快速语音交互方法及系统
US10013980B2 (en) * 2016-10-04 2018-07-03 Microsoft Technology Licensing, Llc Combined menu-based and natural-language-based communication with chatbots
CN106875945B (zh) * 2017-03-09 2020-06-26 广东美的制冷设备有限公司 语音控制方法、装置和空调器
CN107146602B (zh) * 2017-04-10 2020-10-02 北京猎户星空科技有限公司 一种语音识别方法、装置及电子设备
KR20180118470A (ko) * 2017-04-21 2018-10-31 엘지전자 주식회사 음성 인식 장치 및 음성 인식 방법
CN107195303B (zh) * 2017-06-16 2021-08-20 云知声智能科技股份有限公司 语音处理方法及装置
CN107146618A (zh) * 2017-06-16 2017-09-08 北京云知声信息技术有限公司 语音处理方法及装置
CN109215642A (zh) * 2017-07-04 2019-01-15 阿里巴巴集团控股有限公司 人机会话的处理方法、装置及电子设备
KR20190008663A (ko) * 2017-07-17 2019-01-25 삼성전자주식회사 음성 데이터 처리 방법 및 이를 지원하는 시스템
US20200219487A1 (en) 2017-08-09 2020-07-09 Sony Corporation Information processing apparatus and information processing method
US10586534B1 (en) * 2017-09-27 2020-03-10 Amazon Technologies, Inc. Voice-controlled device control using acoustic echo cancellation statistics
CN107863113A (zh) * 2017-11-08 2018-03-30 天脉聚源(北京)传媒科技有限公司 一种语音上传方法及装置
CN108172219B (zh) * 2017-11-14 2021-02-26 珠海格力电器股份有限公司 识别语音的方法和装置
US20200327890A1 (en) 2017-11-28 2020-10-15 Sony Corporation Information processing device and information processing method
CN108257616A (zh) * 2017-12-05 2018-07-06 苏州车萝卜汽车电子科技有限公司 人机对话的检测方法以及装置
JP2019101385A (ja) 2017-12-08 2019-06-24 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
CN108337362A (zh) 2017-12-26 2018-07-27 百度在线网络技术(北京)有限公司 语音交互方法、装置、设备和存储介质
US20190279623A1 (en) * 2018-03-08 2019-09-12 Kika Tech (Cayman) Holdings Co., Limited Method for speech recognition dictation and correction by spelling input, system and storage medium
JP7096707B2 (ja) 2018-05-29 2022-07-06 シャープ株式会社 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法
CN108737933A (zh) * 2018-05-30 2018-11-02 上海与德科技有限公司 一种基于智能音箱的对话方法、装置及电子设备
CN108932942A (zh) * 2018-06-26 2018-12-04 四川斐讯信息技术有限公司 一种实现智能音箱人机对话的系统及其方法
CN108737934B (zh) * 2018-08-10 2024-04-09 广东庆昇科技有限公司 一种智能音箱及其控制方法
CN109147779A (zh) * 2018-08-14 2019-01-04 苏州思必驰信息科技有限公司 语音数据处理方法和装置
CN108986814A (zh) * 2018-09-04 2018-12-11 出门问问信息科技有限公司 一种唤醒应用服务的方法及装置
CN109360551B (zh) * 2018-10-25 2021-02-05 珠海格力电器股份有限公司 一种语音识别方法及装置
CN109545206B (zh) * 2018-10-29 2024-01-30 百度在线网络技术(北京)有限公司 智能设备的语音交互处理方法、装置和智能设备
CN110503969B (zh) * 2018-11-23 2021-10-26 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置及存储介质
CN109599130B (zh) * 2018-12-10 2020-10-30 百度在线网络技术(北京)有限公司 收音方法、装置及存储介质
CN109410944B (zh) * 2018-12-12 2020-06-09 百度在线网络技术(北京)有限公司 语音交互方法、装置和终端
CN110111789B (zh) * 2019-05-07 2022-02-08 阿波罗智联(北京)科技有限公司 语音交互方法、装置、计算设备和计算机可读介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015060127A (ja) * 2013-09-19 2015-03-30 株式会社東芝 音声同時処理装置、方法およびプログラム
US20170213569A1 (en) 2016-01-26 2017-07-27 Samsung Electronics Co., Ltd. Electronic device and speech recognition method thereof

Also Published As

Publication number Publication date
WO2021031308A1 (zh) 2021-02-25
EP4184506A1 (en) 2023-05-24
JP7166294B2 (ja) 2022-11-07
JP2022501623A (ja) 2022-01-06
US20210050010A1 (en) 2021-02-18
US11264027B2 (en) 2022-03-01
KR20210024408A (ko) 2021-03-05
RU2735363C1 (ru) 2020-10-30
CN110619873A (zh) 2019-12-27
EP3779968A1 (en) 2021-02-17

Similar Documents

Publication Publication Date Title
KR102300257B1 (ko) 오디오 처리 방법, 장치 및 저장 매체
JP6811758B2 (ja) 音声対話方法、装置、デバイス及び記憶媒体
KR102178896B1 (ko) 선택적으로 조종 가능한 상태 머신을 갖는 개인 보조 모듈 제공
KR102380145B1 (ko) 디지털 어시스턴트를 위한 음성 트리거
CN111696553B (zh) 一种语音处理方法、装置及可读介质
CN111063354B (zh) 人机交互方法及装置
EP4203604A1 (en) Ranging capacity request method and apparatus, ranging capacity sending method and apparatus, and ranging capacity receiving method and apparatus
CN105354017B (zh) 信息处理方法及装置
CN110634488B (zh) 信息处理方法、装置和系统以及存储介质
US20220165258A1 (en) Voice processing method, electronic device, and storage medium
CN110349578A (zh) 设备唤醒处理方法及装置
CN112002320A (zh) 语音唤醒方法、装置、电子设备和存储介质
CN111583923A (zh) 信息控制方法及装置、存储介质
CN112489653A (zh) 语音识别的方法、装置及存储介质
US20170201479A1 (en) Group message display method, device and medium
US20220051667A1 (en) Method and device for controlling operation mode of terminal device, and medium
CN108874450A (zh) 唤醒语音助手的方法及装置
CN110428828B (zh) 一种语音识别方法、装置和用于语音识别的装置
CN111968680A (zh) 一种语音处理方法、装置及存储介质
CN112133302B (zh) 预唤醒终端的方法、装置及存储介质
CN113342302A (zh) 语音设备的控制方法及装置、语音设备及存储介质
CN116030804A (zh) 一种语音唤醒方法、语音唤醒装置及存储介质
CN111916076A (zh) 一种录音方法、装置和电子设备
CN117636893A (zh) 风噪检测方法、装置、可穿戴设备及可读储存介质
CN112133302A (zh) 预唤醒终端的方法、装置及存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right