KR101976986B1 - 소리데이터 자동분할 장치 - Google Patents

소리데이터 자동분할 장치 Download PDF

Info

Publication number
KR101976986B1
KR101976986B1 KR1020180062520A KR20180062520A KR101976986B1 KR 101976986 B1 KR101976986 B1 KR 101976986B1 KR 1020180062520 A KR1020180062520 A KR 1020180062520A KR 20180062520 A KR20180062520 A KR 20180062520A KR 101976986 B1 KR101976986 B1 KR 101976986B1
Authority
KR
South Korea
Prior art keywords
sound data
sound
silent
input
unit
Prior art date
Application number
KR1020180062520A
Other languages
English (en)
Other versions
KR20180064353A (ko
Inventor
김동윤
정문기
민아름
황윤호
이민희
Original Assignee
연세대학교 원주산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 원주산학협력단 filed Critical 연세대학교 원주산학협력단
Priority to KR1020180062520A priority Critical patent/KR101976986B1/ko
Publication of KR20180064353A publication Critical patent/KR20180064353A/ko
Application granted granted Critical
Publication of KR101976986B1 publication Critical patent/KR101976986B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/051Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or detection of onsets of musical sounds or notes, i.e. note attack timings

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 소리데이터 자동분할 장치 및 방법에 관한 것으로서 무음구간을 구별(판단)하여 무음구간이 존재하는 경우 독립된 소리데이터로 저장할 수 있게 만드는 소리데이터 자동분할 장치를 제공한다.

Description

소리데이터 자동분할 장치{AUTOMATIC DIVIDING APPARATUS OF SOUND DATA}
본 발명은 소리데이터 자동분할 장치에 관한 것으로서, 특정 구간(지문)만을 반복적으로 청취할 수 있도록 소리데이터를 자동으로 분할하여 저장하는 소리데이터 자동분할 장치에 관한 것이다.
일반적으로 소리데이터는 하나의 큰 데이터로 이루어지기 때문에 구간별 또는 지문별로 청취를 하고 싶을 때 사용자가 직접 제어하여 특정 지문을 찾아 청취해야만 하는 문제점이 있었다.
대한민국 공개특허 제10-2014-0015894호에 개시되어 있는 음원 위치 추정 방법은 음원 방향을 산출하고 추정하여 음원이 발생되는 위치를 추적하는 구성이 기재되어 있으나 구간별로 소리데이터를 자동으로 분할하여 저장할 수 있는 구성을 제공하지 못하는 문제점이 있었다.
대한민국 등록특허 제10-0404049호에 개시되어 있는 음성언어 분석방법은 구간 또는 지문별로 자동으로 분할하여 소리데이터를 저장할 수 있는 구성을 제공하지 못하는 문제점이 있었다.
대한민국 공개특허 제10-2014-0015894호 대한민국 등록특허 제10-0404049호
본 발명은 상기와 같은 문제점을 해결하기 위한 것으로, 소리데이터를 구간별 또는 지문별로 자동으로 분할하여 저장할 수 있게 만들어 사용자가 보다 편리하게 소리데이터를 사용할 수 있게 만드는 소리데이터 자동분할 장치를 제공하기 위한 것이다.
본 발명이 이루고자 하는 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진자에게 명확하게 이해될 수 있을 것이다.
이러한 과제를 해결하기 위한 본 발명의 소리데이터 자동분할 장치는 소리데이터(5)를 입력받는 소리입력부(10)와, 소리입력부(10)에 입력된 소리데이터(5)를 분석하는 분석부(20), 및 메모리부(30)를 포함하고, 상기 분석부(20)는 상기 소리데이터(5)를 분석하여 무음구간이 2초 이상인 경우 무음구간으로 판단하고, 상기 무음구간이 존재하는 경우 무음구간 끝나기 전의 -1 초 및 무음구간이 시작된 후의 +1 초 구간 사이의 소리데이터(5)를 별도의 독립된 소리데이터(5')로 상기 메모리부(30)에 저장하며, 상기 독립된 소리데이터(5')는 상기 소리입력부(10)에서 입력된 순서 및 상기 무음구간이 발생된 순서의 조합으로 이루어진 레퍼런스 번호를 부여받아 상기 메모리부(30)에 저장되고, 상기 메모리부(30)에 저장된 소리데이터(5')는 듣기 지문에 사용되게 구성함으로써 달성될 수 있다.
그리고 상기 입력된 순서는 상기 소리입력부(10)에 몇 번째 입력되었는지 순서를 나타내는 것으로서 4자리의 자리수로 이루어지고, 상기 무음구간이 발생된 순서는 소리데이터(5)에서 발생된 무음구간의 순서를 나타내는 것으로서 3자리 자리수로 이루어지게 구성한다.
본 발명에 따르면, 소리데이터 자동분할 장치는 분석부를 이용하여 무음구간을 구별(판단)하고 무음구간이 존재하는 경우 무음구간과 무음구간 사이의 소리데이터를 별도로 저장할 수 있게 만들어 사용자가 구간별 또는 지문별로 소리데이터를 이용할 수 있게 만드는 장점이 있다.
또한, 무음구간의 +1 초, -1초 구간을 저장하기 때문에 지문이 잘리거나 왜곡되는 등의 손실 없이 지문(소리데이터)을 저장할 수 있게 만드는 장점이 있다.
도 1은 본 발명의 일 실시예에 따른 소리데이터 자동분할 장치를 나타낸 블록 구성도이다.
도 2는 본 발명의 일 실시예에 따른 소리데이터 자동분할 과정을 나타낸 그림이다.
도 3은 본 발명의 일 실시예에 따른 소리데이터의 지문과 무음구간을 나나탠 그림이다.
도 4는 본 발명의 일 실시예에 따른 독립된 소리데이터의 저장구간을 나타낸 그림이다.
도 5는 본 발명의 일 실시예에 따른 소리데이터 자동분할 방법을 나타낸 플로어 차트이다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 실시예를 상세히 설명한다. 이 과정에서 도면에 도시된 구성요소의 크기나 형상 등은 설명의 명료성과 편의상 과장되게 도시될 수 있다. 또한, 본 발명의 구성 및 작용을 고려하여 특별히 정의된 용어들은 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 한다. 그리고 본 발명의 사상은 제시되는 실시예에 제한되지 아니하고 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서 다른 실시예를 용이하게 실시할 수 있을 것이나, 이 또한 본 발명의 범위 내에 속함은 물론이다.
도 1은 본 발명의 일 실시예에 따른 소리데이터 자동분할 장치(100)를 나타낸 블록 구성도이다. 이하 도 1을 기준으로 설명하고 도 1에 도시되지 않는 구성은 별도로 참조도면을 표시하였다.
본 발명의 일 양태에 따른 소리데이터 자동분할 장치(100)는 소리입력부(10), 분석부(20) 및 메모리부(30)로 구성된다.
본 발명의 일 양태에서 소리입력부(10)는 소리데이터(5)를 입력받을 수 있도록 구비될 수 있다. 소리입력부(10)는 mp3와 같은 소리데이터(음원)(5)를 입력받을 수 있고, 마이크와 같은 형태로 외부에서 출력되는 소리를 직접 입력받을 수 있도록 구비될 수 있다.
도 1 및 도 2를 참고하면, 분석부(20)는 소리입력부(10)에서 입력된 소리데이터(5)를 분석할 수 있도록 마련된다. 즉 소리입력부(10)에서 소리데이터(5)를 입력받으면 소리데이터(5)를 분석하여 무음구간을 구별(판단)하고 무음구간(소리가 없는 구간)이 존재하는 경우 무음구간과 무음구간 사이의 소리데이터(5)를 별도의 독립된 소리데이터(5')로 후술할 메모리부(30)에 저장할 수 있도록 만든다. 또한, 분석부(20)는 소리데이터 자동분할 장치(100)의 전반적인 제어를 수행할 수 있도록 구비될 수 있다. 분석부(20)는 초당 44100개(44100Hz)의 샘플레이트를 분석하여 무음구간을 구별(판단)할 수 있다.
메모리부(30)는 상기 분석부(20)에서 무음구간을 구별하여 독립된 소리데이터(5')를 추출하여 별도로 저장하는 경우 이를 저장할 수 있는 저장공간을 제공한다. 메모리부(30)는 플래시 메모리 타입, 하드디스크 타입, SSD, 멀티미디어 카드 마이크로 타입, 램, 롬, 자기 메모리, 자기 디스크, 광디스크, 웹 스토리지 중 적어도 하나의 타입의 저장매체를 포함하여 구비될 수 있다.
소리입력부(10), 분석부(20) 또는 메모리부(30)는 하드웨어 또는 소프트웨어로 구현이 가능하다.
본 발명의 다른 일 양태에서, 도 3 및 도 4를 참고하면, 분석부(20)는 무음구간 끝나기 전의 -1 초 및 무음구간이 시작된 후의 +1 초 구간을 독립된 소리데이터(5')로 저장할 수 있게 구비된다. 즉 본원발명은 지문이 손상 또는 왜곡되는 것을 방지하기 위하여 무음구간이 끝나기 전의 -1 초 및 시작 후의 +1 초를 독립된 소리데이터(5')로 저장하여 처음과 끝부분이 잘리는 것을 방지하여 손상되는 것을 방지할 수 있다. 무음구간을 구별하여 무음구간의 끝부터 무음구간의 시작까지를 저장하는 경우 소리데이터(5)의 유실로 인하여 데이터가 손상되는 문제가 발생될 수 있으나 본 발명은 -1 초, +1 초를 하여 소리데이터(5)를 저장할 수 있어 상기와 같은 문제점을 해결할 수 있게 만든다.
본 발명의 다른 일 양태에서, 무음구간이 2초 미만인 경우 연속된 소리데이터(5)로 판단하도록 구비된다. 즉 무음구간과 연결된 소리데이터(5)를 구별하기 위하여 무음구간의 최소조건을 제공하여 무음구간을 구별할 수 있게 만들어 보다 효과적으로 독립된 소리데이터(5')를 획득할 수 있게 만든다.
본 발명의 다른 일 양태에서, 소리데이터 자동분할 장치(100)는 듣기지문에 사용되도록 구비될 수 있다. 즉 지문 별로 자동 분할되는 구성은 듣기지문에 최적화된 것으로 영어듣기 지문과 같은 듣기지문에 사용되는 것이 바람직하다.
본 발명의 다른 일 양태에서, 독립된 소리데이터(5')로 저장되는 소리데이터(5)는 소리입력부(10)에서 입력된 순서 및 무음구간이 발생된 순서의 조합으로 이루어지는 레퍼런스 번호를 부여받아 메모리부(30)에 저장되도록 구비될 수 있다. 이는 자동으로 레퍼런스 번호를 부여할 수 있게 만들어 사용자가 보다 편리하게 독립된 소리데이터(5')를 관리할 수 있게 만들 수 있으며, 사용자가 레퍼런스 번호만으로 몇 번째 몇 번 지문인지를 간소하게 파악할 수 있게 만드는 장점이 있다. 구체적으로 입력된 순서는 소리입력부(10)에서 몇 번째 입력되었는지 순서를 나타내는 것으로서 4자리의 자리수로 이루어지고 무음구간이 발생된 순서는 소리데이터(5)에서 발생된 무음구간의 순서를 나타내는 것으로서 3자리의 자리수로 이루어지도록 구비될 수 있다. 즉 입력된 순서는 총 소리데이터(5)가 몇 번 입력이 되었는지 순서를 나타내는 것으로서, 예를 들면, 30번의 소리데이터가 소리입력부(10)를 통하여 입력이 되었으면 “0030”과 같은 레퍼런스 번호가 생성되고, 30번째 입력된 소리데이터(5)에서 10개의 무음국간이 존재하는 경우 마지막에 저장된 독립된 소리데이터(5')는 “0030 010”의 레퍼런스 번호를 부여받아 저장될 수 있게 구비된다. 이는 독립된 소리데이터(5')의 관리를 보다 간소하게 만드는 장점이 있다.
본 발명의 다른 일 양태에서, 소리데이터 자동분할 방법은 소리데이터를 입력받는 단계(S10), 분석하는 단계(S20) 및 저장하는 단계(S30)로 구성된다.
본 발명의 일 양태에서, 소리데이터(5)를 입력받는 단계(S10)는 소리입력부(10)를 이용하여 소리데이터(5)를 입력받는 단계(S10)이다. 소리데이터(5)를 입력받아 분석부(20)를 이용하여 무음구간을 판단할 수 있도록 소리데이터(5)를 입력받는다. 소리입력부(10)는 mp3와 같은 음원 파일에서 직접적으로 데이터를 입력받을 수 있으나 반드시 이에 한정되는 것은 아니고 외부 소리를 마이크와 같은 수단을 이용하여 입력받을 수 있도록 구비될 수 있다.
분석하는 단계(S20)는 입력받은 소리데이터(5)를 분석부(20)를 이용하여 분석하는 단계(S20)이다. 이 단계(S20)는 입력받은 소리데이터(5)의 무음구간을 판단하여 독립된 소리데이터(5')를 저장할 수 있도록 판단(구별)하는 단계(S20)이다. 무음구간은 소리가 발생되지 않는 구간으로 소리가 발생되지 않을 시 지문이 끝난 것으로 간주하고 무음구간을 기준으로 지문을 독립된 소리데이터(5')로 저장할 수 있게 만든다. 분석부(20)를 이용하여 무음구간을 판단하는 구성은 상기 기술한 내용을 이용한다.
저장하는 단계(S30)는 상기 분석하는 단계(S20)에서 무음구간을 이용하여 독립된 소리데이터(5')로 판단된 데이터를 메모리부(30)에 저장하는 단계(S30)이다. 사용자는 이 단계(S30)에서 저장된 독립된 소리데이터(5')를 이용하여 보다 간소하게 지문을 청취할 수 있다. 독립된 소리데이터(5')의 레퍼런스 번호를 부여받는 방법은 상기 기술한 내용을 이용한다.
본 발명은 본 발명의 요지와 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있음은 당업자에게 자명하다.
5 : 소리데이터, 5' : 독립된 소리데이터,
10 : 소리입력부, 20 : 분석부,
30 : 메모리부,
100 : 소리데이터 자동분할 장치,
S10 : 소리데이터를 입력받는 단계,
S20 : 분석하는 단계,
S30 : 저장하는 단계.

Claims (2)

  1. 삭제
  2. 소리데이터(5)를 입력받는 소리입력부(10);
    상기 소리입력부(10)에 입력된 소리데이터(5)를 분석하는 분석부(20); 및
    메모리부(30);를 포함하고,
    상기 분석부(20)는 상기 소리데이터(5)를 분석하여 무음구간이 2초 이상인 경우 무음구간으로 판단하고, 상기 무음구간이 존재하는 경우 무음구간 끝나기 전의 -1 초 및 무음구간이 시작된 후의 +1 초 구간 사이의 소리데이터(5)를 별도의 독립된 소리데이터(5')로 상기 메모리부(30)에 저장하며,
    상기 독립된 소리데이터(5')는 상기 소리입력부(10)에서 입력된 순서 및 상기 무음구간이 발생된 순서의 조합으로 이루어진 레퍼런스 번호를 부여받아 상기 메모리부(30)에 저장되고,
    상기 메모리부(30)에 저장된 소리데이터(5')는 듣기 지문에 사용되며 상기 입력된 순서는 상기 소리입력부(10)에 몇 번째 입력되었는지 순서를 나타내는 것으로서 4자리의 자리수로 이루어지고,
    상기 무음구간이 발생된 순서는 소리데이터(5)에서 발생된 무음구간의 순서를 나타내는 것으로서 3자리 자리수로 이루어지는 것을 특징으로 하고,
    상기 메모리부(30)에 저장되는 소리데이터(5')는 입력된 순서를 나타내는 4자리의 숫자와 무음구간의 순서를 나타내는 3자리의 숫자를 연속되는 7자리의 숫자로 표기하는 소리데이터 자동분할 장치.
KR1020180062520A 2018-05-31 2018-05-31 소리데이터 자동분할 장치 KR101976986B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180062520A KR101976986B1 (ko) 2018-05-31 2018-05-31 소리데이터 자동분할 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180062520A KR101976986B1 (ko) 2018-05-31 2018-05-31 소리데이터 자동분할 장치

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020160107439A Division KR20180038594A (ko) 2016-08-24 2016-08-24 소리데이터 자동분할 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20180064353A KR20180064353A (ko) 2018-06-14
KR101976986B1 true KR101976986B1 (ko) 2019-05-10

Family

ID=62629087

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180062520A KR101976986B1 (ko) 2018-05-31 2018-05-31 소리데이터 자동분할 장치

Country Status (1)

Country Link
KR (1) KR101976986B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010054991A (ja) * 2008-08-29 2010-03-11 Yamaha Corp 録音装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100404049B1 (ko) 2001-04-27 2003-11-03 한상용 음성언어 분석방법
KR101767928B1 (ko) 2012-07-26 2017-08-31 한화테크윈 주식회사 음원 위치 추정 장치 및 방법
KR20160026317A (ko) * 2014-08-29 2016-03-09 삼성전자주식회사 음성 녹음 방법 및 장치
KR102252665B1 (ko) * 2014-09-01 2021-05-17 삼성전자주식회사 오디오 파일 재생 방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010054991A (ja) * 2008-08-29 2010-03-11 Yamaha Corp 録音装置

Also Published As

Publication number Publication date
KR20180064353A (ko) 2018-06-14

Similar Documents

Publication Publication Date Title
US20200090660A1 (en) System and method of text zoning
EP3355302B1 (en) Audio recognition method and system
CN110557589B (zh) 用于整合记录的内容的系统和方法
US11227584B2 (en) System and method for determining the compliance of agent scripts
CN108039181B (zh) 一种声音信号的情感信息分析方法和装置
US11170763B2 (en) Voice interaction system, its processing method, and program therefor
CN108885869A (zh) 控制包含语音的音频数据的回放
US10776419B2 (en) Audio file quality and accuracy assessment
CN110289015B (zh) 一种音频处理方法、装置、服务器、存储介质及系统
US11270691B2 (en) Voice interaction system, its processing method, and program therefor
US8868419B2 (en) Generalizing text content summary from speech content
CN110807093A (zh) 语音处理方法、装置及终端设备
US20220238118A1 (en) Apparatus for processing an audio signal for the generation of a multimedia file with speech transcription
JP2020009440A (ja) 情報を生成するための方法と装置
CN107680584B (zh) 用于切分音频的方法和装置
JP2017058507A (ja) 音声認識装置、音声認識方法、プログラム
CN112346697A (zh) 一种对设备进行控制的方法、装置和存储介质
CN110853627A (zh) 用于语音标注的方法及系统
US20200075042A1 (en) Detection of music segment in audio signal
KR101976986B1 (ko) 소리데이터 자동분할 장치
US11004442B2 (en) Playback speed analysis for audio data
CN109559733B (zh) 语音节奏处理方法和装置
CN111261149B (zh) 语音信息识别方法和装置
WO2016110156A1 (zh) 语音搜索方法、装置、终端和计算机存储介质
KR20180038594A (ko) 소리데이터 자동분할 장치 및 방법

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)