KR102077411B1 - 음성 인식 방법 및 시스템 - Google Patents

음성 인식 방법 및 시스템 Download PDF

Info

Publication number
KR102077411B1
KR102077411B1 KR1020187008373A KR20187008373A KR102077411B1 KR 102077411 B1 KR102077411 B1 KR 102077411B1 KR 1020187008373 A KR1020187008373 A KR 1020187008373A KR 20187008373 A KR20187008373 A KR 20187008373A KR 102077411 B1 KR102077411 B1 KR 102077411B1
Authority
KR
South Korea
Prior art keywords
feature point
spectrogram
file
speech
feature
Prior art date
Application number
KR1020187008373A
Other languages
English (en)
Other versions
KR20180044957A (ko
Inventor
즈쥔 두
Original Assignee
알리바바 그룹 홀딩 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 알리바바 그룹 홀딩 리미티드 filed Critical 알리바바 그룹 홀딩 리미티드
Publication of KR20180044957A publication Critical patent/KR20180044957A/ko
Application granted granted Critical
Publication of KR102077411B1 publication Critical patent/KR102077411B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

음성 인식 방법 및 시스템이 개시된다. 음성 인식 방법은, 인식 대상 음성 파일의 스펙트로그램 내의 복수의 제1 특징점에 대하여 확산 처리를 수행하여 특징점 맵을 획득하는 단계(S110); 목표 음성 파일의 스펙트로그램을 검색하여 특징점 맵 내의 확산된 제1 특징점에 각각 대응하는 제2 특징점이 존재하는지의 여부를 판정하는 단계(S120); 및 제2 특징점이 존재하는 경우, 인식 대상 음성 파일의 스펙트로그램이 목표 음성 파일의 일부인 것으로 판정하는 단계(S130)를 포함한다. 상기 방법은 음성 인식에서 특징점의 매칭 성공률을 개선할 수 있다.

Description

음성 인식 방법 및 시스템
본 출원은 인터넷 기술 분야에 관한 것으로, 특히 음성 인식 방법 및 시스템에 관한 것이다.
인터넷 기술의 계속되는 개발에 따라, 인터넷은 일상 생활에서 불가결한 도구가 되어 있다. 새로운 추세의 애플리케이션은 인터넷 디바이스를 사용하여 미지의 음성 인식을 달성하고 음성 인식 기반 상호 작용을 수행하는 것이다.
음성 인식 기반 상호 작용을 위한 많은 유형의 애플리케이션이 존재한다. 예를 들면, 하나의 애플리케이션은 사용자가 노래를 듣지만, 노래의 제목을 알지 못하는 것이다. 이 노래의 음성의 세그먼트가 기록될 수 있고, 그런 다음 이 노래의 제목, 가수, 및 다른 정보가 음성 인식 기술을 이용하여 인식될 수 있다.
종래기술에 따르면, 인식은 통상적으로 인식 대상 음성의 특징점을 추출하고 사용함으로써 수행된다. 도 1에 나타낸 바와 같이, x축은 시간을 나타내고 y축은 주파수를 나타낸다. 추출된 특징점은 도면에서 "X"이다. 2개의 특징점은 특징점 쌍을 구성하고, 목표 영역에는 8개의 특징점 쌍이 있다. 인식은 특징점 쌍에 기초하여 데이터베이스에서 수행되며, 데이터베이스는 노래의 특징점 및 노래의 정보, 예를 들어 노래 제목, 가수 등을 저장한다. 동일한 특징점 쌍이 데이터베이스 내의 동일한 목표 구역에서 매칭될 수 있는 경우, 매칭은 성공적이고, 그런 다음 대응하는 노래 정보가 획득될 수 있다. 그러나, 음성 기록 동안 노이즈에 의한 불가피한 영향 하에서, 추출된 특징점은 반드시 정상 위치에서 발생하지 않을 수도 있다. 그 결과, 특징점 쌍의 매칭 성공 확률은 비교적 낮다.
요약하면, 기존의 기술은 음성 인식을 위한 특징점에 기초한 매칭 성공률이 낮다는 결점이 있다.
본 출원의 실시형태들의 목적은, 음성 인식에서 특징점의 매칭 성공률이 낮다는 종래기술의 문제점을 해결하기 위한 음성 인식 방법 및 시스템을 제공하는 것이다.
상기 기술적 문제를 해결하기 위해서, 본 출원의 실시형태에 따른 음성 인식 방법은, 인식 대상 음성 파일의 스펙트로그램(spectrogram) 내의 복수의 제1 특징점에 대하여 확산 처리를 수행하여 특징점 맵을 획득하는 단계; 목표 음성 파일의 스펙트로그램을 검색하여 특징점 맵 내의 확산된 제1 특징점에 각각 대응하는 제2 특징점이 존재하는지의 여부를 판정하는 단계; 및 제2 특징점이 존재하는 경우, 인식 대상 음성 파일이 목표 음성 파일의 일부인 것으로 판정하는 단계를 포함한다.
본 출원의 실시형태에 따른 음성 인식 시스템은, 인식 대상 음성 파일의 스펙트로그램 내의 복수의 제1 특징점에 대하여 확산 처리를 수행하여 특징점 맵을 획득하도록 구성된 확산 유닛; 목표 음성 파일의 스펙트로그램을 검색하여 특징점 맵 내의 확산된 제1 특징점에 각각 대응하는 제2 특징점이 존재하는지의 여부를 판정하도록 구성된 검색 유닛; 및 특징점 맵 내의 확산된 제1 특징점에 각각 대응하는 제2 특징점이 목표 음성 파일의 스펙트로그램에서 발견될 때에 인식 대상 음성 파일이 목표 음성 파일의 일부인 것으로 판정하도록 구성된 판정 유닛을 포함한다.
본 발명의 실시형태에 따른 음성 인식 방법 및 시스템은, 인식 대상 음성 파일의 스펙트로그램 내의 제1 특징점을 확산시키는 것을 통해 노이즈로 인한 제1 특징점의 편차 오류를 줄일 수 있고; 이에 따라 목표 음성 파일과 제1 특징점의 매칭률이 확산 처리 후에 개선되며, 즉 특징점의 매칭 성공률이 개선된다는 것을 본 출원의 실시형태에 따른 기술적 해결책으로부터 알 수 있다.
본 출원의 실시형태 또는 종래 기술에서의 기술적 해결책을 더욱 명백하게 설명하기 위해서, 실시형태 또는 종래기술의 설명에서 사용되는 첨부 도면이 다음과 같이 간략히 설명될 것이다. 다음의 설명에서 첨부 도면은 단지 본 출원에 기록된 일부 실시형태를 도시한다는 것이 분명할 것이다. 당 기술분야의 숙련자에게는, 독창적인 노력 없이 이들 도면에 따라 다른 도면이 더 얻어질 수 있다.
도 1은 종래기술에 따른 특징점 쌍으로 인식을 수행하는 개략도이고;
도 2는 본 출원의 실시형태에 따른 음성 인식 방법의 플로차트이고;
도 3은 인식 대상 음성 파일의 스펙트로그램의 개략도이고;
도 4a는 확산 처리 전의 제1 특징점의 개략도이고;
도 4b는 확산 처리 후의 제1 특징점의 개략도이고;
도 5는 도 2에서의 S120을 위한 단계들의 방법 순서도이고;
도 6은 특징점 맵 내의 확산된 제1 특징점에 각각 대응하는 제2 특징점에 대하여 목표 음성 파일의 스펙트로그램을 검색하는 개략도이고;
도 7은 본 출원의 실시형태에 따른 음성 인식 방법의 순서도이고;
도 8a는 스펙트로그램에서 판정된 제1 특징점의 개략도이고;
도 8b는 도 8a의 부분 확대도이고;
도 9는 본 출원의 실시형태에 따른 음성 인식 시스템의 모듈의 개략도이다.
당 기술분야의 숙련자가 본 출원에서의 기술적 해결책을 더 잘 이해할 수 있도록 하기 위해서, 이하에서는 본 출원의 실시형태에서의 기술적 해결책이 본 출원의 실시형태에서 첨부 도면을 참조하여 명백하고 완벽하게 설명될 것이다. 분명하게, 설명되는 실시형태는 본 출원의 실시형태의 전부가 아닌 단지 일부일 뿐이다. 본 출원의 실시형태에 기초하여 독창적인 노력 없이 당 기술분야의 숙련자에 의해 얻어질 수 있는 모든 다른 실시형태는 본 출원의 범위 내에 속하는 것으로 한다.
도 2는 본 출원의 실시형태에 따른 음성 인식 방법의 순서도이다. 본 실시형태에서, 음성 인식 방법은 다음의 단계들을 포함한다:
S110: 인식 대상 음성 파일의 스펙트로그램 내의 복수의 제1 특징점에 대하여 확산 처리를 수행하여 특징점 맵을 획득하는 단계.
스펙트로그램은 수신된 임시 신호를 처리함으로써 일반적으로 획득되는 음성 스펙트로그램이라고도 지칭된다. 통상적으로, 스펙트로그램의 x축은 시간을 나타내는데 사용되고, y축은 주파수를 나타내는데 사용되며, 좌표점의 값은 음성 데이터 에너지를 나타낸다. 2차원 평면은 일반적으로 3차원 정보를 표현하는데 사용될 수 있다. 따라서, 색은 좌표점의 값으로 나타내는 음성 데이터의 에너지 값의 크기를 나타내는데 사용될 수 있다. 예를 들면, 색의 스펙트럼이 사용될 수 있다. 색이 더 어두워지면, 좌표점의 음성 에너지가 더 강하다는 것을 표시하고; 반대로 더 밝은 색을 갖는 좌표점은 좌표점의 음성 에너지가 더 약하다는 것을 표시할 수 있다. 또한, 그레이스케일이 사용될 수 있다. 좌표점이 백색에 가까운 색을 가지면, 좌표점의 음성 에너지가 더 강하다는 것을 표시하고; 반대로 흑색에 가까운 색을 갖는 좌표점은 좌표점의 음성 에너지가 더 약하다는 것을 표시할 수 있다.
이와 같이, 스펙트로그램은 시간에 따라 변하는 음성 신호의 스펙트럼 특성을 직관적으로 나타낼 수 있다. 주어진 순간에서의 임의의 특정 주파수 성분의 강도는 대응하는 지점의 그레이스케일 또는 톤(tone)의 정도로 나타낼 수 있다.
예를 들면, 스펙트로그램은 다음의 단계를 통해 획득될 수 있다:
A1: 인식 대상 음성 파일을 사전 설정 시간에 따라 프레임으로 분할하는 단계.
사전 설정 시간은 과거 경험에 따라 사용자에 의해 획득된 경험값일 수 있다. 본 실시형태에서, 사전 설정된 시간은 32㎳를 포함한다. 즉, 인식 대상 음성 파일은 32㎳에 따라 프레임으로 분할되어 각 프레임마다 32㎳의 음성 세그먼트와 16㎳의 프레임 중첩을 얻을 수 있다.
A2: 프레임 분할 처리 후에 음성 세그먼트에 대하여 단시간 스펙트럼 분석을 수행하여 스펙트로그램을 획득하는 단계.
단시간 스펙트럼 분석은 고속 푸리에 변환(Fast Fourier Transformation: FFT)을 포함한다. FFT는 이산 푸리에 변환의 고속 알고리즘이고, FFT는 음성 신호를, 시간 도메인 및 주파수 도메인 내의 결합 분포 정보를 기록하는 스펙트로그램으로 변환하는데 사용될 수 있다.
프레임이 32㎳에서 분할되고 32㎳가 8,000hz 샘플링에 대응하기 때문에, 256 주파수 지점은 FFT 계산 후에 얻어질 수 있다.
도 3에 나타낸 바와 같이, x축은 프레임의 수, 즉 스펙트로그램의 폭에 대응하는, 프레임 분할 처리 후의 음성 파일의 프레임의 수를 나타낼 수 있고; y축은 주파수를 나타낼 수 있으며, 스펙트로그램의 높이에 대응하는 총 256개의 주파수 지점이 있고; 좌표점의 값은 제1 특징점의 에너지를 나타낸다.
바람직하게는, 프레임 분할 처리 후에 음성 세그먼트에 대한 단시간 스펙트럼 분석을 수행한 후, 상기 방법은 다음을 더 포함할 수 있다:
A3: 단시간 스펙트럼 분석 후에 300-2k hz의 주파수 세그먼트를 추출하는 단계.
일반 노래는 300-2k hz의 주파수 세그먼트에 클러스터링되는 주 주파수를 갖기 때문에, 본 실시형태는 300-2k hz의 주파수 세그먼트를 추출함으로써 주파수 세그먼트 상의 다른 주파수 세그먼트로부터의 노이즈의 악영향을 제거할 수 있다.
본 출원의 다른 실시형태에서, 단계 S110 전에, 상기 방법은 인식 대상 음성 파일의 스펙트로그램 내의 제1 특징점의 에너지 값을 제1 특징점의 그레이스케일 값으로 정규화(normalizing)하는 단계를 더 포함할 수 있다.
본 실시형태에서, FFT 후에 제1 특징점의 에너지 값의 범위는 비교적 광범위하고, 그 범위는 0-28 또는 심지어 0-216에 이를 수 있다(에너지 값의 범위는 음성 파일의 신호 강도에 비례한다). 그 결과, 에너지 값은, 0-255가 흑색을 나타내는 0과 백색을 나타내는 255를 갖는 그레이스케일 값에 대응할 수 있도록, 본 명세서에서 0-255의 범위로 정규화된다.
일반적인 정규화 방법은 다음을 포함한다: 전체 스펙트로그램 내의 제1 특징점의 에너지 값을 트래버싱(traversing)하여 최대값 및 최소값을 획득하는 단계;
제1 특징점을 정규화하는 단계:
Figure 112018029405250-pct00001
(2)
여기서, V는 제1 특징점의 에너지 값이고, Vmin은 최소값이며, Vmax는 최대값이다.
본 출원의 실시형태는 상기 일반적인 정규화 방법을 채택할 수 있다. 그러나, 이러한 정규화 방법으로 획득된 Vmin은 일부 약한 음이 존재할 때에 매우 낮을 수 있다. 예를 들면, Vmin은 정규화 식이
Figure 112018029405250-pct00002
가 되도록 0에 근사할 수 있다. 이와 같이, 상기 식은 Vmin과 무관하다. 이와 같이, Vmin은 대표적이지 않고, 전체의 정규화 결과에 영향을 미친다.
본 출원의 실시형태는, 윈도우로서 제1 사전 설정 길이를 이용하여 프레임 단위로 스펙트로그램을 트래버싱하는 단계; 윈도우 내의 제1 특징점의 에너지 값 중에서 극댓값 및 극솟값을 취득하는 단계; 및 극댓값 및 극솟값에 따라서, 제1 특징점의 에너지 값을 제1 특징점의 그레이스케일 값으로 정규화하는 단계를 포함할 수 있는 새로운 정규화 방법을 제공한다.
(2)에 나타낸 식이 사용되며, 여기서 V는 제1 특징점의 에너지 값이고, Vmin은 극솟값이며, Vmax는 극댓값이다.
본 실시형태는 프레임 분할 처리 후에 일어나는 것을 설명하며, 제1 사전 설정 길이는 현재 프레임에 선행하는 T 프레임 및 현재 프레임에 후행하는 T 프레임을 포함할 수 있다. 즉, 제1 사전 설정 길이는 2T 프레임이고, 2T+1 프레임은 1s보다 크다.
본 실시형태에 제공된 정규화 방법에 따르면, 일부 약한 소리는 이들이 위치하는 제1 사전 설정 길이 내의 정규화 결과에만 영향을 미칠 수 있지만, 제1 사전 설정 길이를 초과하는 정규화 결과에는 영향을 미칠 수 없다. 따라서, 이 정규화 방법은 전체 정규화 결과에 대한 약한 소리의 영향을 감소시킬 수 있다.
확산 처리는 가우스 함수 확산 처리를 포함할 수 있다. 즉, 가우스 함수는 제1 특징점에 대한 확산 처리를 위해 사용된다. 확산 처리는 증폭 처리를 더 포함할 수 있다. 즉, 제1 특징점은 수 배만큼 증폭되며, 예를 들어 10배만큼 증폭된다.
가우스 함수 확산 처리는 다음의 식을 사용하는 이하의 예로서 설명된다:
Figure 112018029405250-pct00003
(1)
여기서, a, b, 및 c는 상수이고, a>0이다.
즉, 식 (1)은 제1 특징점의 반경 또는 직경에 대한 가우스 함수 확산 처리를 수행하는데 사용된다.
제1 특징점의 증폭 처리는 이하의 예로서 사용되며, 여기서 제1 특징점의 반경 또는 직경은 증폭되고, 예를 들어, 반경 또는 직경은 10배만큼 증폭된다. 일부 실시형태에서, 물론 제1 특징점은 수 배만큼 증폭된 다음에, 원형, 마름모꼴, 직사각형 등 중 적어도 하나가 될 수 있다.
도 4a에 나타낸 바와 같이, 백색 도트(인식 대상 음성 파일의 제1 특징점) 및 흑색 도트(목표 음성 파일의 특징점)가 확산 처리 전에 동일한 위치에 있지 않고, 그 결과 매칭을 통해 궁극적으로 획득되는 제2 특징점은 많지 않다. 도 4b에 나타낸 바와 같이, 백색 도트는 확산 처리 후에 개별 도트 영역으로부터 구역으로 확산되고, 모든 구역은 흑색 도트와 중첩된다.
확산 처리는 제1 특징점이 도트로부터 구역으로 확산될 수 있게 한 다음에, 노이즈에 의한 간섭에 대하여 약간의 내성을 가질 수 있다. 예를 들면, 노이즈에 의한 간섭 때문에, 기록된 음성의 제1 특징점은 원 음성의 제1 특징점의 위치로부터 약간 달라질 수 있다. 이러한 차이는 확산 처리에서 무시될 수 있고, 매칭을 통해 획득된 제2 특징점의 수는 증가된다.
S120: 목표 음성 파일의 스펙트로그램을 검색하여 특징점 맵 내의 확산된 제1 특징점에 각각 대응하는 제2 특징점이 존재하는지의 여부를 판정하는 단계.
도 5에 나타낸 바와 같이, 단계 S120은 다음을 포함할 수 있다:
S121: 윈도우로서 특징점 맵을 이용하여 프레임 단위로 목표 음성 파일의 스펙트로그램을 트래버싱하는 단계;
S122: 각 트래버싱 처리에서, 확산 처리 후에 윈도우 내의 제1 특징점의 좌표 범위 내의 좌표를 갖는 윈도우 내측의 목표 음성 파일의 스펙트로그램 내의 특징점을 제2 특징점으로서 판정하는 단계;
S123: 윈도우 내측의 목표 음성 파일의 스펙트로그램을 검색하여 확산된 제1 특징점에 각각 대응하는 제2 특징점이 존재하는지의 여부를 판정하는 단계.
도 6은 특징점 맵 내의 확산된 제1 특징점에 각각 대응하는 제2 특징점에 대한 목표 음성 파일의 스펙트로그램을 검색하는 개략도이다. 특징점 맵의 프레임 수가 N인 것으로 가정하면, 목표 음성 파일의 스펙트로그램의 프레임의 수는 L이고, L은 N 이상이다. 처음에, 프레임의 수가 목표 음성 파일의 스펙트로그램 내의 [0, N]인 구역이 검색되고; 이어서, [1, N+1]의 구역이 검색되며; 이러한 프레임 단위 검색은 [L-N, L]이 트래버싱될 때까지 수행된다. 각 트래버싱 처리에서, 각 프레임의 [t, t+N]의 윈도우 내의 t는 프레임의 수이고, 확산 처리 후에 제1 특징점의 좌표 범위 내의 좌표를 갖는 목표 음성 파일의 스펙트로그램 내의 특징점은 제2 특징점으로서 판정된다. 검색은 확산된 제1 특징점에 각각 대응하는 제2 특징점에 대하여 목표 음성 파일에서 수행된다.
다른 실시형태에서는, 데이터베이스 내의 모든 음성 파일이 트래버싱될 수 있다. 이와 같이, 인식 대상 음성 파일의 음성 정보는 보다 정확하게 인식될 수 있다.
S130: 상기 제2 특징점이 존재하는 경우, 인식 대상 음성 파일의 스펙트로그램이 목표 음성 파일의 일부인 것으로 판정하는 단계.
확산된 제1 특징점에 각각 대응하는 제2 특징점이 인식 대상 음성 파일의 스펙트로그램에서 발견된 경우, 인식 대상 음성 파일이 목표 음성 파일의 일부인 것으로 판정될 수 있다.
본 실시형태에서 인식 대상 음성 파일의 스펙트로그램 내의 제1 특징점에 대하여 확산 처리를 수행함으로써, 노이즈에 기인한 제1 특징점의 편차가 감소될 수 있고; 이에 따라, 목표 음성 파일과 제1 특징점의 매칭률이 확산 처리 후에 개선되며, 즉 특징점의 매칭 성공률이 개선된다.
본 출원의 일 실시형태에서, 단계 S122는, 제1 특징점과, 확산 처리 후에 윈도우 내의 제1 특징점의 좌표 범위 내의 좌표를 갖는 윈도우 내측의 목표 음성 파일의 스펙트로그램 내의 특징점 간의 매칭 정도를 판정하는 단계; 및 제1 임계값보다 큰 매칭 정도를 갖는 특징점을 제2 특징점으로서 판정하는 단계를 포함할 수 있다.
매칭 정도는 확산된 제1 특징점의 좌표 범위 내에 있는 윈도우 내측의 스펙트로그램 내의 특징점의 수 대 제1 특징점의 수의 비율, 또는 확산된 제1 특징점의 좌표 범위 내에 있는 윈도우 내측의 스펙트로그램 내의 특징점에 대응하는 제1 특징점의 에너지 값 또는 그레이스케일 값의 합계를 포함한다. 제1 임계값은 포괄적인 관련 요인에 따른 사용자에 의한 통계 결과일 수 있다.
확산된 제1 특징점의 좌표 범위 내에 있는 윈도우 내측의 스펙트로그램 내의 특징점의 수 대 제1 특징점의 수의 비율을 예로 들면, 확산된 제1 특징점의 수가 100이고 특징점의 수가 60인 경우, 제1 특징점과 특징점 간의 매칭 정도는 60%이다. 제1 임계값이 80%인 경우, 특징점은 제2 특징점인 것으로 판정된다.
확산된 제1 특징점의 좌표 범위 내에 있는 윈도우 내측의 스펙트로그램 내의 특징점에 대응하는 제1 특징점의 에너지 값의 합계를 예로 들면, 특징점의 수가 10인 경우, 이들 10개의 특징점에 대응하는 10개의 제1 특징점의 에너지 값이 가산되어 에너지 값의 합계를 구한다. 에너지 값의 총합이 제1 임계값보다 큰 경우, 특징점은 제2 특징점인 것으로 판정된다.
확산된 제1 특징점의 좌표 범위 내에 있는 윈도우 내측의 스펙트로그램 내의 특징점에 대응하는 제1 특징점의 그레이스케일 값의 합계를 예로 들면, 특징점의 수가 10인 경우, 이들 10개의 특징점에 대응하는 10개의 제1 특징점의 그레이스케일 값이 가산되어 그레이스케일 값의 합계를 구한다. 그레이스케일 값의 합계가 제1 임계값보다 큰 경우, 특징점은 제2 특징점인 것으로 판정된다.
본 출원의 제1 실시형태에서, 단계 S110 전에, 상기 방법은 도 7에 나타낸 바와 같이 S101 및 S102를 더 포함할 수 있다:
S101: 제2 임계값보다 큰 에너지 값 또는 그레이스케일 값을 갖는 인식 대상 음성 파일의 스펙트로그램 내에 포함된 특징점을 핵심점로서 사용하는 단계.
제2 임계값은 포괄적인 관련 요인에 따른 사용자에 의한 통계 결과일 수 있다. 제2 임계값이 작을수록, 더 많은 핵심점이 추출될 수 있고, 그러면 후속하는 매칭 시간이 더 길어질 수 있다. 제2 임계값이 클수록, 더 적은 핵심점이 추출될 수 있고, 그러면 후속하는 매칭 성공 가능성이 지나치게 낮아질 수 있다.
S102: 핵심점의 에너지 값 또는 그레이스케일 값이 사전 설정 구역 내의 최대값인 경우, 핵심점을 제1 특징점으로서 판정하는 단계.
사전 설정 구역은 핵심점을 중심으로 하는 원형일 수 있고 사전 설정 반경에 따라 판정될 수 있거나, 또는 핵심점을 중심으로 하는 직사각형 구역일 수 있고 사전 설정 길이 및 폭에 따라 결정될 수 있다.
사전 설정 구역은 포괄적인 관련 요인에 따른 사용자에 의한 통계 결과일 수 있다. 사전 설정된 구역이 작을수록, 더 많은 제1 특징점이 결정될 수 있고, 그러면 후속하는 매칭 시간이 더 길어질 수 있다. 사전 설정된 구역이 클수록, 더 적은 제1 특징점이 판정될 수 있고, 그러면 후속하는 매칭 성공 가능성이 지나치게 낮아질 수 있다.
도 8a는 스펙트로그램에서 결정된 제1 특징점의 개략도이다. 도면에서의 백색 도트는 제1 특징점이다. 예를 들면, 제2 임계값이 30이고 사전 설정된 구역이 15*15인 것(핵심점을 중심으로 하면, 15 프레임이 x축 상에서 획득되고 15의 길이가 y축 상에서 획득되는 것)으로 가정하고, 도 8b는 도 8a의 부분 확대도이다. 도면에서의 백색 도트의 에너지 값 또는 그레이스케일 값이 30의 제2 임계값보다 크고 여전히 15*15의 사전 설정된 구역 내의 최대값일 때, 이러한 도트는 제1 특징점으로서 추출된다.
본 출원의 본 실시형태는, 스펙트로그램 내의 높은 에너지 값 또는 그레이스케일 값을 갖는 특징점이 제1 특징점으로서 추출된다는 점에서 이전 실시형태와 다르며, 이는 후속하는 매칭에 대하여 낮은 에너지를 갖는 특징점에 의한 간섭을 제거할 수 있고 확산 처리를 위한 데이터의 양을 크게 감소시킬 수 있어, 시스템 성능을 개선할 수 있다.
본 출원의 일 실시형태에서, 목표 음성 파일은 음성 정보를 반송할 수 있다. 본 출원이 노래 인식 시나리오에 적용될 때, 음성 정보는 곡명을 포함할 수 있다. 사용자는 미지의 곡명을 갖는 인식 대상 음성 파일 또는 미지의 곡명을 갖는 노래인 인식 대상 음성 파일을 기록한다. 인식 대상 음성 파일이 목표 음성 파일인 것으로 결정될 때에는, 인식 대상 음성 파일의 곡명이 인식될 수 있다.
도 9는 본 출원의 실시형태에 따른 음성 인식 시스템의 모듈의 개략도이다. 본 실시형태에서, 음성 인식 시스템은, 인식 대상 음성 파일의 스펙트로그램 내의 제1 특징점을 확산시켜 복수의 제1 특징점이 있는 특징점 맵을 획득하도록 구성된 확산 유닛(210); 목표 음성 파일의 스펙트로그램을 검색하여 특징점 맵 내의 확산된 제1 특징점에 각각 대응하는 제2 특징점이 존재하는지의 여부를 판정하도록 구성된 검색 유닛(220); 특징점 맵 내의 확산된 제1 특징점에 각각 대응하는 제2 특징점이 목표 음성 파일의 스펙트로그램 내에서 발견될 때에 인식 대상 음성 파일이 목표 음성 파일의 일부인 것으로 판정하도록 구성된 판정 유닛(230)을 포함한다.
바람직하게는, 확산 유닛(210) 전에, 음성 인식 시스템은, 인식 대상 음성 파일의 스펙트로그램 내의 제1 특징점의 에너지 값을 제1 특징점의 그레이스케일 값으로 정규화하도록 구성된 정규화 유닛을 더 포함할 수 있다.
바람직하게는, 확산 처리는 가우스 함수 확산 처리 또는 증폭 처리 중 적어도 하나를 포함한다.
바람직하게는, 정규화 유닛은, 윈도우로서 제1 사전 길이를 이용하여 프레임 단위로 스펙트로그램을 트래버싱하도록 구성된 제1 정규화 서브유닛; 윈도우 내의 제1 특징점의 에너지 값 중에서 극댓값 및 극솟값을 취득하도록 구성된 제2 정규화 서브유닛, 및 극댓값 및 극솟값에 따라서, 제1 특징점의 에너지 값을 제1 특징점의 그레이스케일 값으로 정규화하도록 구성된 제3 정규화 서브유닛을 포함할 수 있다.
바람직하게는, 검색 유닛(220)은, 윈도우로서 특징점 맵을 이용하여 프레임 단위로 목표 음성 파일의 스펙트로그램을 트래버싱하도록 구성된 제1 검색 서브유닛; 각 트래버싱 처리에서, 확산 처리 후에 윈도우 내의 제1 특징점의 좌표 범위 내의 좌표를 갖는 윈도우 내측의 목표 음성 파일의 스펙트로그램 내의 특징점을 제2 특징점으로서 판정하도록 구성된 제2 검색 서브유닛; 및 윈도우 내측의 목표 음성 파일의 스펙트로그램을 검색하여 확산된 제1 특징점에 각각 대응하는 제2 특징점이 존재하는지의 여부를 판정하도록 구성된 제3 검색 서브유닛을 포함할 수 있다.
바람직하게는, 제2 검색 서브유닛은, 제1 특징점과, 확산 처리 후에 윈도우 내의 제1 특징점의 좌표 범위 내의 좌표를 갖는 윈도우 내측의 목표 음성 파일의 스펙트로그램 내의 특징점 간의 매칭 정도를 판정하도록 구성된 제4 검색 서브유닛; 및 제1 임계값보다 큰 매칭 정도를 갖는 특징점을 제2 특징점으로서 판정하도록 구성된 제5 검색 서브유닛을 포함할 수 있다.
바람직하게는, 매칭 정도는 확산된 제1 특징점의 좌표 범위 내에 있는 윈도우 내측의 스펙트로그램 내의 특징점의 수 대 제1 특징점의 수의 비율, 또는 확산된 제1 특징점의 좌표 범위 내에 있는 윈도우 내측의 스펙트로그램 내의 특징점에 대응하는 제1 특징점의 에너지 값 또는 그레이스케일 값의 합계를 포함한다.
바람직하게는, 확산 처리 전에, 음성 인식 시스템은, 제2 임계값보다 큰 에너지 값 또는 그레이스케일 값을 갖는 인식 대상 음성 파일의 스펙트로그램 내에 포함되는 특징점을 핵심점으로서 사용하도록 구성된 제1 처리 유닛; 및 핵심점의 에너지 값 또는 그레이스케일 값이 사전 설정 영역 내의 최대값인 경우, 핵심점을 제1 특징점으로서 판정하도록 구성된 제2 처리 유닛을 더 포함할 수 있다.
바람직하게는, 목표 음성 파일은 음성 정보를 반송하고, 음성 정보는 곡명을 포함한다.
1990년대에는, 기술에 대한 개선이 하드웨어 개선(예컨대, 다이오드, 트랜지스터, 스위치 등과 같은 회로 구조에 대한 개선) 또는 소프트웨어 개선(방법의 플로우에 대한 개선)으로 명확히 구별될 수 있었다. 그러나, 기술 개발에 따라서, 방법 플로우에 대한 현재의 많은 개선은 하드웨어 회로 구조에 대한 직접적인 개선으로서 간주될 수 있다. 디자이너는 통상적으로 개선된 방법 플로우를 하드웨어 회로에 프로그래밍함으로써 대응하는 하드웨어 회로 구조를 얻는다. 따라서, 방법 흐름에 대한 개선은 하드웨어 모듈을 구현하는 것으로 실현될 수 있다. 예를 들면, 프로그래머블 로직 디바이스(Programmable Logic Device: PLD)(예컨대, 필드 프로그래머블 게이트 어레이(Field Programmable Gate Array: FPGA))는 디바이스를 프로그래밍하는 것을 통해 사용자에 의해 자신의 논리 기능이 결정되는 이러한 집적 회로이다. 디자이너는 전용 IC 칩을 설계 및 제조하기 위해 칩 제조사에 요청하지 않아도 디지털 시스템을 PLD의 한 부분에 집적하도록 프로그래밍할 수 있다. 또한, 현재, 이러한 유형의 프로그래밍은 IC 칩을 수동으로 제조하는 것이 아니라, 주로 "로직 컴파일러(logic compiler)" 소프트웨어를 통해 구현되고 있다. 로직 컴파일러 소프트웨어는 프로그램 개발 및 기록에 사용되는 소프트웨어 컴파일러와 유사한 반면에, 특정의 프로그래밍 언어는 하드웨어 기술 언어(Hardware Description Language: HDL)라고 지칭되는, 컴파일링 전에 소스 코드를 기록하기 위해 사용된다. ABEL(Advanced Boolean Expression Language), AHDL(Altera Hardware Description Language), 컨플루언스(Confluence), CUPL(Cornell University Programming Language), HDCal, JHDL(Java Hardware Description Language), Lava, Lola, MyHDL, PALASM, RHDL(Ruby Hardware Description Language) 등과 같은 하나의 유형뿐만 아니라, 많은 유형의 HDL이 존재한다. 현재 가장 흔히 사용되는 HDL은 VHDL(Very-High-Speed Integrated Circuit Hardware Description Language) 및 Verilog를 포함한다. 당 기술분야의 숙련자는 방법 플로우에 대한 일부 로직 프로그래밍을 수행하여 이것을 IC에 프로그래밍하기 위해 상기 HDL을 사용하여 로직 방법 플로우를 구현하는 하드웨어 회로를 얻는 것을 알고 있을 것이다.
컨트롤러는 임의의 적절한 방식으로 구현될 수 있다. 예를 들면, 컨트롤러는 마이크로프로세서 또는 프로세서의 형태일 뿐만 아니라, (마이크로)프로세서, 로직 게이트, 스위치, 응용 주문형 집적 회로(Application Specific Integrated Circuit: ASIC), 프로그래머블 로직 컨트롤러 및 내장형 마이크로컨트롤러에 의해 실행 가능한 컴퓨터 판독가능 프로그램 코드(예컨대, 소프트웨어 또는 펌웨어)를 저장하는 컴퓨터 판독가능 매체의 형태일 수 있다. 컨트롤러의 예는, 다음의 마이크로컨트롤러, 즉 ARC 625D, Atmel AT91SAM, Microchip PIC18F26K20 및 Silicone Labs C8051F320을 포함하지만, 이에 한정되지 않는다. 메모리 컨트롤러는 메모리의 제어 로직의 일부로서 또한 구현될 수 있다. 당 기술분야의 숙련자는 또한, 컨트롤러가 순수한 컴퓨터 판독가능 프로그램 코드의 방식으로 구현되는 것 이외에, 컨트롤러가 로직 게이트, 스위치, ASIC, 프로그래머블 로직 컨트롤러 및 내장형 마이크로컨트롤러의 형태로 동일한 기능을 구현할 수 게 하는 방법의 단계들 상에서 로직 프로그래밍을 수행하는 것이 전적으로 실현 가능하다는 것도 유의해야 한다. 따라서, 이러한 컨트롤러는 하드웨어 부분으로서 간주될 수 있는 한편, 그 내부에 포함되고 다양한 기능을 수행하도록 구성된 디바이스도 하드웨어 부분 내부의 구조로서 간주될 수 있다. 대안적으로, 다양한 기능을 수행하도록 구성된 디바이스는 심지어 방법을 구현하기 위한 소프트웨어 모듈 및 하드웨어 부분 내부의 구조 양쪽 모두로서 간주될 수도 있다.
상기 실시형태에서 설명된 시스템, 장치, 모듈 또는 유닛은 컴퓨터 칩 또는 엔티티에 의해 구현될 수 있거나, 또는 기능을 갖는 제품에 의해 구현될 수도 있다.
설명의 편의상, 상기 장치는 별도의 설명을 위해 기능에 따라 다양한 유닛으로 분할된다. 물론, 유닛의 기능은 본 출원을 구현할 때에 하나 또는 복수 부분의 소프트웨어 및/또는 하드웨어로 구현될 수도 있다.
당 기술분야의 숙련자는 본 발명의 실시형태가 방법, 시스템, 또는 컴퓨터 프로그램 제품으로서 제공될 수 있다는 것을 이해해야 한다. 따라서, 본 발명은 완벽한 하드웨어 실시형태, 완벽한 소프트웨어 실시형태, 또는 소프트웨어와 하드웨어를 조합한 실시형태로서 구현될 수 있다. 또한, 본 발명은 내부에 컴퓨터 사용가능 프로그램 코드를 포함하는 하나 이상의 컴퓨터 사용가능 저장 매체(자기 디스크 메모리, CD-ROM, 광학 메모리 등을 포함하지만, 이에 한정되지 않음) 상에서 구현되는 컴퓨터 프로그램 제품의 형태로 구현될 수 있다.
본 발명은 본 발명의 실시형태에 따른 방법, 디바이스(시스템) 및 컴퓨터 프로그램 제품의 순서도 및/또는 블록도를 참조하여 설명되어 있다. 순서도 및/또는 블록도에서의 각 처리 및/또는 블록과 순서도 및/또는 블록도에서의 처리 및/또는 블록의 조합을 구현하는데 컴퓨터 프로그램 명령어가 사용될 수 있다는 것이 이해되어야 한다. 이들 컴퓨터 프로그램 명령어는 범용 컴퓨터, 특수 목적용 컴퓨터, 내장형 프로세서, 또는 머신을 생성하기 위한 다른 프로그래머블 데이터 처리 디바이스의 프로세서에 제공되어, 컴퓨터 또는 다른 프로그래머블 데이터 처리 디바이스의 프로세서에 의해 실행되는 명령어가 순서도에서의 하나 이상의 처리 및/또는 블록도에서의 하나 이상의 블록에서 특정 기능을 구현하기 위한 장치를 생성할 수 있다.
이들 컴퓨터 프로그램 명령어는 또한 컴퓨터 또는 다른 프로그래머블 데이터 처리 디바이스가 특정 방식으로 작업하도록 지시할 수 있는 컴퓨터 판독가능 메모리 내에 저장되어, 컴퓨터 판독가능 메모리 내에 저장된 명령어는 명령어 장치를 포함하는 제조품을 생성할 수 있다. 명령어 장치는 순서도에서의 하나 이상의 처리 및/또는 블록도에서의 하나 이상의 블록에서 특정 기능을 구현한다.
이들 컴퓨터 프로그램 명령어는 또한 컴퓨터 또는 다른 프로그래머블 데이터 처리 디바이스 상에 로딩되어, 일련의 동작 단계가 컴퓨터 또는 다른 프로그래머블 디바이스 상에서 수행됨으로써, 컴퓨터로 구현되는 처리를 생성할 수 있다. 따라서, 컴퓨터 또는 다른 프로그래머블 디바이스 상에서 실행되는 명령어는 순서도에서의 하나 이상의 처리 및/또는 블록도에서의 하나 이상의 블록에서 특정 기능을 구현하기 위한 단계들을 제공한다.
통상적인 구성에서, 연산 디바이스는 하나 이상의 중앙 처리 유닛(CPU), 입력/출력 인터페이스, 네트워크 인터페이스, 및 메모리를 포함한다.
메모리는 휘발성 메모리, 랜덤 액세스 메모리(RAM), 및/또는 비휘발성 메모리, 예컨대 판독 전용 메모리(ROM) 또는 플래시 RAM과 같은 컴퓨터 판독가능 매체를 포함할 수 있다. 메모리는 컴퓨터 판독가능 매체의 일례이다.
컴퓨터 판독가능 매체는 임의의 방법 또는 기술을 통해 정보 저장을 구현할 수 있는 영구성, 휘발성, 이동성 및 비이동성 매체를 포함한다. 정보는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 다른 데이터일 수 있다. 컴퓨터의 저장 매체의 예는 컴퓨터 디바이스에 액세스 가능한 정보를 저장하기 위해 사용될 수 있는, 상변화 RAM(PRAM), 정적 RAM(SRAM), 동적 RAM(DRAM), 다른 유형의 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 전기적 소거가능 프로그래머블 판독 전용 메모리(EEPROM), 플래시 메모리 또는 다른 메모리 기술, 컴팩트 디스크 판독 전용 메모리(CD-ROM), 디지털 다기능 디스크(DVD) 또는 다른 광학 메모리, 카세트, 카세트 및 디스크 메모리 또는 다른 자기 메모리 디바이스 또는 임의의 다른 비전송 매체를 포함하지만, 이에 한정되지 않는다. 본 명세서에서의 정의에 따르면, 컴퓨터 판독가능 매체는 변조된 데이터 신호 및 반송파와 같은 일시적 매체를 포함하지 않는다.
"포함하는(including)", "구비하는(comprising)" 또는 이들의 임의의 다른 변형의 용어는, 일련의 요소를 구비하는 처리, 방법, 상품 또는 디바이스가 이들 요소를 구비할 뿐만 아니라, 열거되지 않은 다른 요소도 구비하거나, 또는 처리, 방법, 상품 또는 디바이스에 고유한 요소를 더 구비하도록, 비배타적인 포함을 망라한다는 것에 또한 유의해야 한다. 추가 제한이 없을 때, 지문 "…을 구비하는(comprising one…)"에 의해 정의되는 요소는 정의된 요소를 구비하는 처리, 방법, 상품, 또는 디바이스에서의 추가적인 유사 요소를 배제하지 않는다.
당 기술분야의 숙련자는 본 출원의 실시형태가 방법, 시스템, 또는 컴퓨터 프로그램 제품으로서 제공될 수 있다는 것이 이해되어야 한다. 따라서, 본 출원은 완벽한 하드웨어 실시형태, 완벽한 소프트웨어 실시형태, 또는 소프트웨어와 하드웨어를 조합한 실시형태로서 구현될 수 있다. 또한, 본 출원은 내부에 컴퓨터 사용가능 프로그램을 구비하는 하나 이상의 컴퓨터 사용가능 저장 매체(자기 디스크 메모리, CD-ROM, 광학 메모리 등을 포함하지만, 이에 한정되지 않음) 상에서 구현되는 컴퓨터 프로그램 제품의 형태일 수 있다.
본 출원은 프로그램 모듈과 같은 컴퓨터에 의해 실행되는 컴퓨터 실행가능 명령어의 일반적인 문맥으로 설명될 수 있다. 일반적으로, 프로그램 모듈은 특정의 작업을 실행하거나 특정의 추상 데이터 유형을 구현하기 위한 루틴, 프로그램, 오브젝트, 구성요소, 데이터 구조 등을 구비한다. 본 출원은 또한 분산형 컴퓨팅 환경에서도 실시될 수 있다. 이들 분산형 컴퓨팅 환경에서는, 통신 네트워크를 통해 연결된 원격 처리 디바이스가 작업을 수행한다. 분산형 컴퓨팅 환경에서는, 프로그램 모듈이 저장 디바이스를 포함하는 로컬 및 원격 컴퓨터 저장 매체 내에 배치될 수 있다.
이 설명에서의 실시형태들은 각 실시형태가 다른 실시형태와의 차이점에 초점을 맞추어 점진적으로 설명되며, 실시형태들은 그들과 동일 또는 유사한 부분에 대하여 상호 참조될 수 있다. 시스템 실시형태에 대하여, 특히 그의 설명은 방법 실시형태와 실질적으로 유사하므로 비교적 간단하다. 방법 실시형태의 설명은 그의 관련 부분에 대하여 참조될 수 있다.
전술한 본 출원의 실시형태는 단지 예시적인 것이며, 본 출원을 제한하는데 사용되지 않는다. 당 기술분야의 숙련자에게는, 본 출원이 다양한 방식으로 수정 또는 변경될 수 있다. 본 출원의 사상 및 원리 내에서 이루어지는 임의의 수정, 동등한 대체 또는 개량은 본 출원의 청구범위의 범위 내에 속하는 것으로 한다.

Claims (18)

  1. 음성 인식 방법으로서,
    인식 대상 음성 파일의 스펙트로그램(spectrogram) 내의 복수의 제1 특징점에 대하여 확산 처리를 수행하여 특징점 맵을 획득하는 단계;
    윈도우로서 상기 특징점 맵을 이용하여 프레임 단위로 목표 음성 파일의 스펙트로그램을 트래버싱하는 단계;
    각각의 프레임 단위의 트래버싱 동안에, 상기 윈도우 내측의 상기 목표 음성 파일의 상기 스펙트로그램 내의 특징점들이 확산 처리된 제1 특징점의 범위 내에 위치되는지 여부를 판정하는 단계;
    상기 목표 음성 파일의 상기 스펙트로그램 내의 상기 특징점들이 상기 확산 처리된 제1 특징점의 범위 내에 위치한다는 판정에 응답하여, 상기 인식 대상 음성 파일이 목표 음성 파일의 일부인 것으로 판정하는 단계를 포함하는, 음성 인식 방법.
  2. 제1항에 있어서, 상기 인식 대상 음성 파일의 스펙트로그램 내의 제1 특징점에 대하여 확산 처리를 수행하는 단계 전에,
    상기 인식 대상 음성 파일의 상기 스펙트로그램 내의 상기 제1 특징점의 에너지 값을 상기 제1 특징점의 그레이스케일 값으로 정규화하는 단계를 더 포함하는, 음성 인식 방법.
  3. 제1항 또는 제2항에 있어서, 상기 확산 처리는 가우스 함수 확산 처리 또는 증폭 처리 중 적어도 하나를 포함하는, 음성 인식 방법.
  4. 제2항에 있어서, 상기 인식 대상 음성 파일의 상기 스펙트로그램 내의 상기 제1 특징점의 에너지 값을 제1 특징점의 그레이스케일 값으로 정규화하는 단계는,
    상기 윈도우 내의 상기 제1 특징점의 상기 에너지 값 중에서 극댓값 및 극솟값을 취득하는 단계; 및
    상기 극댓값 및 상기 극솟값에 따라서, 상기 제1 특징점의 상기 에너지 값을 상기 제1 특징점의 그레이스케일 값으로 정규화하는 단계를 포함하는, 음성 인식 방법.
  5. 삭제
  6. 제1항 또는 제2항에 있어서, 상기 윈도우 내측의 상기 목표 음성 파일의 상기 스펙트로그램 내의 특징점들이 확산 처리된 제1 특징점의 범위 내에 위치되는지 여부를 판정하는 단계는,
    상기 제1 특징점과, 상기 확산 처리 후에 상기 윈도우 내의 상기 제1 특징점의 좌표 범위 내의 좌표를 갖는 상기 윈도우 내측의 상기 목표 음성 파일의 상기 스펙트로그램 내의 특징점 간의 매칭 정도를 판정하는 단계; 및
    제1 임계값보다 큰 매칭 정도를 갖는 특징점을 제2 특징점으로서 판정하는 단계를 포함하는, 음성 인식 방법.
  7. 제6항에 있어서, 상기 매칭 정도는 상기 확산된 제1 특징점의 좌표 범위 내에 있는 상기 윈도우 내측의 스펙트로그램 내의 특징점의 수 대 상기 제1 특징점의 수의 비율, 또는 상기 확산된 제1 특징점의 좌표 범위 내에 있는 상기 윈도우 내측의 상기 스펙트로그램 내의 상기 특징점에 대응하는 상기 제1 특징점의 에너지 값 또는 그레이스케일 값의 합계를 포함하는, 음성 인식 방법.
  8. 제1항 또는 제2항에 있어서, 상기 인식 대상 음성 파일의 스펙트로그램 내의 제1 특징점을 확산시키는 단계 전에,
    제2 임계값보다 큰 에너지 값 또는 그레이스케일 값을 갖는 인식 대상 음성 파일의 상기 스펙트로그램 내에 포함된 특징점을 핵심점(key point)로서 사용하는 단계; 및
    상기 핵심점의 상기 에너지 값 또는 그레이스케일 값이 사전 설정 구역 내의 최대값인 경우, 상기 핵심점을 상기 제1 특징점으로서 판정하는 단계를 더 포함하는, 음성 인식 방법.
  9. 제1항에 있어서, 상기 목표 음성 파일은 음성 정보를 반송하고, 상기 음성 정보는 곡명을 포함하는, 음성 인식 방법.
  10. 음성 인식 시스템으로서,
    인식 대상 음성 파일의 스펙트로그램 내의 복수의 특징점에 대하여 확산 처리를 수행하여 특징점 맵을 획득하도록 구성된 확산 유닛;
    윈도우로서 상기 특징점 맵을 이용하여 프레임 단위로 목표 음성 파일의 스펙트로그램을 트래버싱하고, 각각의 프레임 단위의 트래버싱 동안에, 상기 윈도우 내측의 상기 목표 음성 파일의 상기 스펙트로그램 내의 특징점들이 확산 처리된 제1 특징점의 범위 내에 위치되는지 여부를 판정하도록 구성된 검색 유닛; 및
    상기 목표 음성 파일의 상기 스펙트로그램 내의 상기 특징점들이 상기 확산 처리된 제1 특징점의 범위 내에 위치할 때에, 상기 인식 대상 음성 파일이 상기 목표 음성 파일의 일부인 것으로 판정하도록 구성된 판정 유닛을 포함하는, 음성 인식 시스템.
  11. 제10항에 있어서,
    상기 확산 처리를 수행하기 전에, 상기 인식 대상 음성 파일의 상기 스펙트로그램 내의 제1 특징점의 에너지 값을 상기 제1 특징점의 그레이스케일 값으로 정규화하도록 구성된 정규화 유닛을 더 포함하는, 음성 인식 시스템.
  12. 제10항 또는 제11항에 있어서, 상기 확산 처리는 가우스 함수 확산 처리 또는 증폭 처리 중 적어도 하나를 포함하는, 음성 인식 시스템.
  13. 제11항에 있어서, 상기 정규화 유닛은,
    상기 윈도우 내의 상기 제1 특징점의 에너지 값 중에서 극댓값 및 극솟값을 취득하고, 상기 극댓값 및 상기 극솟값에 따라서, 상기 제1 특징점의 상기 에너지 값을 상기 제1 특징점의 그레이스케일 값으로 정규화하도록 구성된 하나 이상의 정규화 서브유닛을 포함하는, 음성 인식 시스템.
  14. 삭제
  15. 제10항 또는 제11항에 있어서, 상기 검색 유닛은, 상기 제1 특징점과, 상기 확산 처리 후에 상기 윈도우 내의 상기 제1 특징점의 좌표 범위 내의 좌표를 갖는 상기 윈도우 내측의 상기 목표 음성 파일의 상기 스펙트로그램 내의 특징점 간의 매칭 정도를 판정하고, 제1 임계값보다 큰 매칭 정도를 갖는 특징점을 제2 특징점으로서 판정하도록 더 구성된 것인, 음성 인식 시스템.
  16. 제15항에 있어서, 상기 매칭 정도는 상기 확산된 제1 특징점의 좌표 범위 내에 있는 상기 윈도우 내측의 상기 스펙트로그램 내의 특징점의 수 대 상기 제1 특징점의 수의 비율, 또는 상기 확산된 제1 특징점의 좌표 범위 내에 있는 상기 윈도우 내측의 상기 스펙트로그램 내의 상기 특징점에 대응하는 상기 제1 특징점의 에너지 값 또는 그레이스케일 값의 합계를 포함하는, 음성 인식 시스템.
  17. 제10항 또는 제11항에 있어서, 상기 확산 처리 전에,
    제2 임계값보다 큰 에너지 값 또는 그레이스케일 값을 갖는 인식 대상 음성 파일의 상기 스펙트로그램 내에 포함된 특징점을 핵심점로서 사용하도록 구성된 제1 처리 유닛; 및
    상기 핵심점의 상기 에너지 값 또는 그레이스케일 값이 사전 설정 구역 내의 최대값인 경우, 상기 핵심점을 상기 제1 특징점으로서 판정하도록 구성된 제2 처리 유닛을 더 포함하는, 음성 인식 시스템.
  18. 제10항에 있어서, 상기 목표 음성 파일은 음성 정보를 반송하고, 상기 음성 정보는 곡명을 포함하는, 음성 인식 시스템.
KR1020187008373A 2015-09-24 2016-09-14 음성 인식 방법 및 시스템 KR102077411B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510618550.4 2015-09-24
CN201510618550.4A CN106558318B (zh) 2015-09-24 2015-09-24 音频识别方法和系统
PCT/CN2016/099053 WO2017050175A1 (zh) 2015-09-24 2016-09-14 音频识别方法和系统

Publications (2)

Publication Number Publication Date
KR20180044957A KR20180044957A (ko) 2018-05-03
KR102077411B1 true KR102077411B1 (ko) 2020-02-13

Family

ID=58385690

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187008373A KR102077411B1 (ko) 2015-09-24 2016-09-14 음성 인식 방법 및 시스템

Country Status (7)

Country Link
US (1) US10679647B2 (ko)
EP (1) EP3355302B1 (ko)
JP (1) JP6585835B2 (ko)
KR (1) KR102077411B1 (ko)
CN (1) CN106558318B (ko)
SG (1) SG11201801808RA (ko)
WO (1) WO2017050175A1 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10397663B2 (en) * 2016-04-08 2019-08-27 Source Digital, Inc. Synchronizing ancillary data to content including audio
CN108364661B (zh) * 2017-12-15 2020-11-24 海尔优家智能科技(北京)有限公司 可视化语音性能评估方法、装置、计算机设备及存储介质
CN108615006B (zh) * 2018-04-23 2020-04-17 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN109035419A (zh) * 2018-08-06 2018-12-18 深圳市果壳文化科技有限公司 一种基于ar技术的社交方法和系统
WO2020102979A1 (zh) * 2018-11-20 2020-05-28 深圳市欢太科技有限公司 语音信息的处理方法、装置、存储介质及电子设备
KR20210037229A (ko) 2019-09-27 2021-04-06 주식회사 케이티 다중 채널을 통해 멀티미디어 데이터를 전송하는 사용자 단말, 서버 및 방법
CN111444384B (zh) * 2020-03-31 2023-10-13 北京字节跳动网络技术有限公司 一种音频关键点确定方法、装置、设备及存储介质
CN111640421B (zh) * 2020-05-13 2023-06-16 广州国音智能科技有限公司 语音对比方法、装置、设备及计算机可读存储介质
CN112101301B (zh) * 2020-11-03 2021-02-26 武汉工程大学 一种螺杆水冷机组的好音稳定预警方法、装置及存储介质
US11929078B2 (en) * 2021-02-23 2024-03-12 Intuit, Inc. Method and system for user voice identification using ensembled deep learning algorithms
CN114255741B (zh) * 2022-02-28 2022-06-10 腾讯科技(深圳)有限公司 重复音频检测方法、设备、存储介质
CN115294947A (zh) * 2022-07-29 2022-11-04 腾讯科技(深圳)有限公司 音频数据处理方法、装置、电子设备及介质
CN117789706B (zh) * 2024-02-27 2024-05-03 富迪科技(南京)有限公司 一种音频信息内容识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012098360A (ja) * 2010-10-29 2012-05-24 Sony Corp 信号処理装置および方法、並びにプログラム
CN103729368A (zh) * 2012-10-13 2014-04-16 复旦大学 一种基于局部频谱图像描述子的鲁棒音频识别方法

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2969862B2 (ja) 1989-10-04 1999-11-02 松下電器産業株式会社 音声認識装置
US6990453B2 (en) 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
WO2003091990A1 (en) * 2002-04-25 2003-11-06 Shazam Entertainment, Ltd. Robust and invariant audio pattern matching
US20070195963A1 (en) 2006-02-21 2007-08-23 Nokia Corporation Measuring ear biometrics for sound optimization
KR20090083098A (ko) 2008-01-29 2009-08-03 삼성전자주식회사 하모닉 특징을 이용한 음악 인식 방법 및 음악 인식을이용한 이동 로봇의 동작 생성 방법
US8706276B2 (en) * 2009-10-09 2014-04-22 The Trustees Of Columbia University In The City Of New York Systems, methods, and media for identifying matching audio
CN101720048B (zh) * 2009-12-04 2011-06-01 山东大学 基于音频特征的收视率调查系统的收视信息检索方法
US8886531B2 (en) 2010-01-13 2014-11-11 Rovi Technologies Corporation Apparatus and method for generating an audio fingerprint and using a two-stage query
US20120296458A1 (en) 2011-05-18 2012-11-22 Microsoft Corporation Background Audio Listening for Content Recognition
US9461759B2 (en) 2011-08-30 2016-10-04 Iheartmedia Management Services, Inc. Identification of changed broadcast media items
US8586847B2 (en) 2011-12-02 2013-11-19 The Echo Nest Corporation Musical fingerprinting based on onset intervals
US8949872B2 (en) 2011-12-20 2015-02-03 Yahoo! Inc. Audio fingerprint for content identification
US9292894B2 (en) 2012-03-14 2016-03-22 Digimarc Corporation Content recognition and synchronization using local caching
US9113203B2 (en) 2012-06-28 2015-08-18 Google Inc. Generating a sequence of audio fingerprints at a set top box
US9661361B2 (en) 2012-09-19 2017-05-23 Google Inc. Systems and methods for live media content matching
US8867028B2 (en) * 2012-10-19 2014-10-21 Interfiber Analysis, LLC System and/or method for measuring waveguide modes
US9373336B2 (en) 2013-02-04 2016-06-21 Tencent Technology (Shenzhen) Company Limited Method and device for audio recognition
CN103971689B (zh) * 2013-02-04 2016-01-27 腾讯科技(深圳)有限公司 一种音频识别方法及装置
WO2014169238A1 (en) * 2013-04-11 2014-10-16 Digimarc Corporation Methods for object recognition and related arrangements
CN104125509B (zh) * 2013-04-28 2015-09-30 腾讯科技(深圳)有限公司 节目识别方法、装置及服务器
GB2518663A (en) * 2013-09-27 2015-04-01 Nokia Corp Audio analysis apparatus
JP2015103088A (ja) * 2013-11-26 2015-06-04 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
US10321842B2 (en) * 2014-04-22 2019-06-18 Interaxon Inc. System and method for associating music with brain-state data
CN103971676B (zh) * 2014-04-23 2017-07-14 上海师范大学 一种快速语音孤立词识别算法及其用途、语音识别系统
US9894413B2 (en) 2014-06-12 2018-02-13 Google Llc Systems and methods for locally detecting consumed video content
US9946769B2 (en) 2014-06-20 2018-04-17 Google Llc Displaying information related to spoken dialogue in content playing on a device
US9838759B2 (en) 2014-06-20 2017-12-05 Google Inc. Displaying information related to content playing on a device
US9805125B2 (en) 2014-06-20 2017-10-31 Google Inc. Displaying a summary of media content items
US9905233B1 (en) 2014-08-07 2018-02-27 Digimarc Corporation Methods and apparatus for facilitating ambient content recognition using digital watermarks, and related arrangements
JP6464650B2 (ja) 2014-10-03 2019-02-06 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム
US10750236B2 (en) 2015-04-23 2020-08-18 The Nielsen Company (Us), Llc Automatic content recognition with local matching
US9743138B2 (en) 2015-07-31 2017-08-22 Mutr Llc Method for sound recognition task trigger
US9913056B2 (en) 2015-08-06 2018-03-06 Dolby Laboratories Licensing Corporation System and method to enhance speakers connected to devices with microphones

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012098360A (ja) * 2010-10-29 2012-05-24 Sony Corp 信号処理装置および方法、並びにプログラム
CN103729368A (zh) * 2012-10-13 2014-04-16 复旦大学 一种基于局部频谱图像描述子的鲁棒音频识别方法

Also Published As

Publication number Publication date
KR20180044957A (ko) 2018-05-03
EP3355302A4 (en) 2019-06-05
EP3355302B1 (en) 2022-02-09
JP2018534609A (ja) 2018-11-22
SG11201801808RA (en) 2018-04-27
CN106558318B (zh) 2020-04-28
EP3355302A1 (en) 2018-08-01
JP6585835B2 (ja) 2019-10-02
US10679647B2 (en) 2020-06-09
CN106558318A (zh) 2017-04-05
WO2017050175A1 (zh) 2017-03-30
US20180174599A1 (en) 2018-06-21

Similar Documents

Publication Publication Date Title
KR102077411B1 (ko) 음성 인식 방법 및 시스템
CN109065044B (zh) 唤醒词识别方法、装置、电子设备及计算机可读存储介质
US20230245645A1 (en) Methods and Apparatus to Segment Audio and Determine Audio Segment Similarities
US9558741B2 (en) Systems and methods for speech recognition
US20150170643A1 (en) Verbal command processing based on speaker recognition
KR102441063B1 (ko) 끝점 검출 장치, 그를 포함한 시스템 및 그 방법
US9886947B2 (en) Speech recognition device and method, and semiconductor integrated circuit device
US20150364141A1 (en) Method and device for providing user interface using voice recognition
Wang et al. Digital audio tampering detection based on ENF consistency
CN103854661A (zh) 一种提取音乐特征的方法及装置
CN110767236A (zh) 一种语音识别方法和装置
CN111009240A (zh) 一种语音关键词筛选方法、装置、出行终端、设备及介质
CN104077336A (zh) 一种拖拽音频文件进行音频文件信息检索的方法和装置
TW201828285A (zh) 音頻識別方法和系統
CN109559733B (zh) 语音节奏处理方法和装置
US11748403B2 (en) Methods and apparatus to identify media that has been pitch shifted, time shifted, and/or resampled
WO2019174392A1 (zh) 针对rpc信息的向量处理
CN112397073B (zh) 一种音频数据处理方法及装置
KR102447554B1 (ko) 오디오 핑거프린트 매칭을 기반으로하는 음원 인식 방법 및 장치
KR101976986B1 (ko) 소리데이터 자동분할 장치
Ge et al. Design and Implementation of Intelligent Singer Recognition System
JP6992713B2 (ja) 連続発話推定装置、連続発話推定方法、およびプログラム
Biswas et al. Exploring Music Genre Classification: Algorithm Analysis and Deployment Architecture
JP6537996B2 (ja) 未知語検出装置、未知語検出方法、プログラム
CN117953871A (zh) 语音端点检测模型的训练方法、语音端点检测方法及装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right