KR101976986B1 - 소리데이터 자동분할 장치 - Google Patents
소리데이터 자동분할 장치 Download PDFInfo
- Publication number
- KR101976986B1 KR101976986B1 KR1020180062520A KR20180062520A KR101976986B1 KR 101976986 B1 KR101976986 B1 KR 101976986B1 KR 1020180062520 A KR1020180062520 A KR 1020180062520A KR 20180062520 A KR20180062520 A KR 20180062520A KR 101976986 B1 KR101976986 B1 KR 101976986B1
- Authority
- KR
- South Korea
- Prior art keywords
- sound data
- sound
- silent
- input
- unit
- Prior art date
Links
- 238000004458 analytical method Methods 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 2
- 238000000034 method Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/051—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or detection of onsets of musical sounds or notes, i.e. note attack timings
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 소리데이터 자동분할 장치 및 방법에 관한 것으로서 무음구간을 구별(판단)하여 무음구간이 존재하는 경우 독립된 소리데이터로 저장할 수 있게 만드는 소리데이터 자동분할 장치를 제공한다.
Description
본 발명은 소리데이터 자동분할 장치에 관한 것으로서, 특정 구간(지문)만을 반복적으로 청취할 수 있도록 소리데이터를 자동으로 분할하여 저장하는 소리데이터 자동분할 장치에 관한 것이다.
일반적으로 소리데이터는 하나의 큰 데이터로 이루어지기 때문에 구간별 또는 지문별로 청취를 하고 싶을 때 사용자가 직접 제어하여 특정 지문을 찾아 청취해야만 하는 문제점이 있었다.
대한민국 공개특허 제10-2014-0015894호에 개시되어 있는 음원 위치 추정 방법은 음원 방향을 산출하고 추정하여 음원이 발생되는 위치를 추적하는 구성이 기재되어 있으나 구간별로 소리데이터를 자동으로 분할하여 저장할 수 있는 구성을 제공하지 못하는 문제점이 있었다.
대한민국 등록특허 제10-0404049호에 개시되어 있는 음성언어 분석방법은 구간 또는 지문별로 자동으로 분할하여 소리데이터를 저장할 수 있는 구성을 제공하지 못하는 문제점이 있었다.
본 발명은 상기와 같은 문제점을 해결하기 위한 것으로, 소리데이터를 구간별 또는 지문별로 자동으로 분할하여 저장할 수 있게 만들어 사용자가 보다 편리하게 소리데이터를 사용할 수 있게 만드는 소리데이터 자동분할 장치를 제공하기 위한 것이다.
본 발명이 이루고자 하는 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진자에게 명확하게 이해될 수 있을 것이다.
이러한 과제를 해결하기 위한 본 발명의 소리데이터 자동분할 장치는 소리데이터(5)를 입력받는 소리입력부(10)와, 소리입력부(10)에 입력된 소리데이터(5)를 분석하는 분석부(20), 및 메모리부(30)를 포함하고, 상기 분석부(20)는 상기 소리데이터(5)를 분석하여 무음구간이 2초 이상인 경우 무음구간으로 판단하고, 상기 무음구간이 존재하는 경우 무음구간 끝나기 전의 -1 초 및 무음구간이 시작된 후의 +1 초 구간 사이의 소리데이터(5)를 별도의 독립된 소리데이터(5')로 상기 메모리부(30)에 저장하며, 상기 독립된 소리데이터(5')는 상기 소리입력부(10)에서 입력된 순서 및 상기 무음구간이 발생된 순서의 조합으로 이루어진 레퍼런스 번호를 부여받아 상기 메모리부(30)에 저장되고, 상기 메모리부(30)에 저장된 소리데이터(5')는 듣기 지문에 사용되게 구성함으로써 달성될 수 있다.
그리고 상기 입력된 순서는 상기 소리입력부(10)에 몇 번째 입력되었는지 순서를 나타내는 것으로서 4자리의 자리수로 이루어지고, 상기 무음구간이 발생된 순서는 소리데이터(5)에서 발생된 무음구간의 순서를 나타내는 것으로서 3자리 자리수로 이루어지게 구성한다.
본 발명에 따르면, 소리데이터 자동분할 장치는 분석부를 이용하여 무음구간을 구별(판단)하고 무음구간이 존재하는 경우 무음구간과 무음구간 사이의 소리데이터를 별도로 저장할 수 있게 만들어 사용자가 구간별 또는 지문별로 소리데이터를 이용할 수 있게 만드는 장점이 있다.
또한, 무음구간의 +1 초, -1초 구간을 저장하기 때문에 지문이 잘리거나 왜곡되는 등의 손실 없이 지문(소리데이터)을 저장할 수 있게 만드는 장점이 있다.
도 1은 본 발명의 일 실시예에 따른 소리데이터 자동분할 장치를 나타낸 블록 구성도이다.
도 2는 본 발명의 일 실시예에 따른 소리데이터 자동분할 과정을 나타낸 그림이다.
도 3은 본 발명의 일 실시예에 따른 소리데이터의 지문과 무음구간을 나나탠 그림이다.
도 4는 본 발명의 일 실시예에 따른 독립된 소리데이터의 저장구간을 나타낸 그림이다.
도 5는 본 발명의 일 실시예에 따른 소리데이터 자동분할 방법을 나타낸 플로어 차트이다.
도 2는 본 발명의 일 실시예에 따른 소리데이터 자동분할 과정을 나타낸 그림이다.
도 3은 본 발명의 일 실시예에 따른 소리데이터의 지문과 무음구간을 나나탠 그림이다.
도 4는 본 발명의 일 실시예에 따른 독립된 소리데이터의 저장구간을 나타낸 그림이다.
도 5는 본 발명의 일 실시예에 따른 소리데이터 자동분할 방법을 나타낸 플로어 차트이다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 실시예를 상세히 설명한다. 이 과정에서 도면에 도시된 구성요소의 크기나 형상 등은 설명의 명료성과 편의상 과장되게 도시될 수 있다. 또한, 본 발명의 구성 및 작용을 고려하여 특별히 정의된 용어들은 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 한다. 그리고 본 발명의 사상은 제시되는 실시예에 제한되지 아니하고 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서 다른 실시예를 용이하게 실시할 수 있을 것이나, 이 또한 본 발명의 범위 내에 속함은 물론이다.
도 1은 본 발명의 일 실시예에 따른 소리데이터 자동분할 장치(100)를 나타낸 블록 구성도이다. 이하 도 1을 기준으로 설명하고 도 1에 도시되지 않는 구성은 별도로 참조도면을 표시하였다.
본 발명의 일 양태에 따른 소리데이터 자동분할 장치(100)는 소리입력부(10), 분석부(20) 및 메모리부(30)로 구성된다.
본 발명의 일 양태에서 소리입력부(10)는 소리데이터(5)를 입력받을 수 있도록 구비될 수 있다. 소리입력부(10)는 mp3와 같은 소리데이터(음원)(5)를 입력받을 수 있고, 마이크와 같은 형태로 외부에서 출력되는 소리를 직접 입력받을 수 있도록 구비될 수 있다.
도 1 및 도 2를 참고하면, 분석부(20)는 소리입력부(10)에서 입력된 소리데이터(5)를 분석할 수 있도록 마련된다. 즉 소리입력부(10)에서 소리데이터(5)를 입력받으면 소리데이터(5)를 분석하여 무음구간을 구별(판단)하고 무음구간(소리가 없는 구간)이 존재하는 경우 무음구간과 무음구간 사이의 소리데이터(5)를 별도의 독립된 소리데이터(5')로 후술할 메모리부(30)에 저장할 수 있도록 만든다. 또한, 분석부(20)는 소리데이터 자동분할 장치(100)의 전반적인 제어를 수행할 수 있도록 구비될 수 있다. 분석부(20)는 초당 44100개(44100Hz)의 샘플레이트를 분석하여 무음구간을 구별(판단)할 수 있다.
메모리부(30)는 상기 분석부(20)에서 무음구간을 구별하여 독립된 소리데이터(5')를 추출하여 별도로 저장하는 경우 이를 저장할 수 있는 저장공간을 제공한다. 메모리부(30)는 플래시 메모리 타입, 하드디스크 타입, SSD, 멀티미디어 카드 마이크로 타입, 램, 롬, 자기 메모리, 자기 디스크, 광디스크, 웹 스토리지 중 적어도 하나의 타입의 저장매체를 포함하여 구비될 수 있다.
소리입력부(10), 분석부(20) 또는 메모리부(30)는 하드웨어 또는 소프트웨어로 구현이 가능하다.
본 발명의 다른 일 양태에서, 도 3 및 도 4를 참고하면, 분석부(20)는 무음구간 끝나기 전의 -1 초 및 무음구간이 시작된 후의 +1 초 구간을 독립된 소리데이터(5')로 저장할 수 있게 구비된다. 즉 본원발명은 지문이 손상 또는 왜곡되는 것을 방지하기 위하여 무음구간이 끝나기 전의 -1 초 및 시작 후의 +1 초를 독립된 소리데이터(5')로 저장하여 처음과 끝부분이 잘리는 것을 방지하여 손상되는 것을 방지할 수 있다. 무음구간을 구별하여 무음구간의 끝부터 무음구간의 시작까지를 저장하는 경우 소리데이터(5)의 유실로 인하여 데이터가 손상되는 문제가 발생될 수 있으나 본 발명은 -1 초, +1 초를 하여 소리데이터(5)를 저장할 수 있어 상기와 같은 문제점을 해결할 수 있게 만든다.
본 발명의 다른 일 양태에서, 무음구간이 2초 미만인 경우 연속된 소리데이터(5)로 판단하도록 구비된다. 즉 무음구간과 연결된 소리데이터(5)를 구별하기 위하여 무음구간의 최소조건을 제공하여 무음구간을 구별할 수 있게 만들어 보다 효과적으로 독립된 소리데이터(5')를 획득할 수 있게 만든다.
본 발명의 다른 일 양태에서, 소리데이터 자동분할 장치(100)는 듣기지문에 사용되도록 구비될 수 있다. 즉 지문 별로 자동 분할되는 구성은 듣기지문에 최적화된 것으로 영어듣기 지문과 같은 듣기지문에 사용되는 것이 바람직하다.
본 발명의 다른 일 양태에서, 독립된 소리데이터(5')로 저장되는 소리데이터(5)는 소리입력부(10)에서 입력된 순서 및 무음구간이 발생된 순서의 조합으로 이루어지는 레퍼런스 번호를 부여받아 메모리부(30)에 저장되도록 구비될 수 있다. 이는 자동으로 레퍼런스 번호를 부여할 수 있게 만들어 사용자가 보다 편리하게 독립된 소리데이터(5')를 관리할 수 있게 만들 수 있으며, 사용자가 레퍼런스 번호만으로 몇 번째 몇 번 지문인지를 간소하게 파악할 수 있게 만드는 장점이 있다. 구체적으로 입력된 순서는 소리입력부(10)에서 몇 번째 입력되었는지 순서를 나타내는 것으로서 4자리의 자리수로 이루어지고 무음구간이 발생된 순서는 소리데이터(5)에서 발생된 무음구간의 순서를 나타내는 것으로서 3자리의 자리수로 이루어지도록 구비될 수 있다. 즉 입력된 순서는 총 소리데이터(5)가 몇 번 입력이 되었는지 순서를 나타내는 것으로서, 예를 들면, 30번의 소리데이터가 소리입력부(10)를 통하여 입력이 되었으면 “0030”과 같은 레퍼런스 번호가 생성되고, 30번째 입력된 소리데이터(5)에서 10개의 무음국간이 존재하는 경우 마지막에 저장된 독립된 소리데이터(5')는 “0030 010”의 레퍼런스 번호를 부여받아 저장될 수 있게 구비된다. 이는 독립된 소리데이터(5')의 관리를 보다 간소하게 만드는 장점이 있다.
본 발명의 다른 일 양태에서, 소리데이터 자동분할 방법은 소리데이터를 입력받는 단계(S10), 분석하는 단계(S20) 및 저장하는 단계(S30)로 구성된다.
본 발명의 일 양태에서, 소리데이터(5)를 입력받는 단계(S10)는 소리입력부(10)를 이용하여 소리데이터(5)를 입력받는 단계(S10)이다. 소리데이터(5)를 입력받아 분석부(20)를 이용하여 무음구간을 판단할 수 있도록 소리데이터(5)를 입력받는다. 소리입력부(10)는 mp3와 같은 음원 파일에서 직접적으로 데이터를 입력받을 수 있으나 반드시 이에 한정되는 것은 아니고 외부 소리를 마이크와 같은 수단을 이용하여 입력받을 수 있도록 구비될 수 있다.
분석하는 단계(S20)는 입력받은 소리데이터(5)를 분석부(20)를 이용하여 분석하는 단계(S20)이다. 이 단계(S20)는 입력받은 소리데이터(5)의 무음구간을 판단하여 독립된 소리데이터(5')를 저장할 수 있도록 판단(구별)하는 단계(S20)이다. 무음구간은 소리가 발생되지 않는 구간으로 소리가 발생되지 않을 시 지문이 끝난 것으로 간주하고 무음구간을 기준으로 지문을 독립된 소리데이터(5')로 저장할 수 있게 만든다. 분석부(20)를 이용하여 무음구간을 판단하는 구성은 상기 기술한 내용을 이용한다.
저장하는 단계(S30)는 상기 분석하는 단계(S20)에서 무음구간을 이용하여 독립된 소리데이터(5')로 판단된 데이터를 메모리부(30)에 저장하는 단계(S30)이다. 사용자는 이 단계(S30)에서 저장된 독립된 소리데이터(5')를 이용하여 보다 간소하게 지문을 청취할 수 있다. 독립된 소리데이터(5')의 레퍼런스 번호를 부여받는 방법은 상기 기술한 내용을 이용한다.
본 발명은 본 발명의 요지와 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있음은 당업자에게 자명하다.
5 : 소리데이터, 5' : 독립된 소리데이터,
10 : 소리입력부, 20 : 분석부,
30 : 메모리부,
100 : 소리데이터 자동분할 장치,
S10 : 소리데이터를 입력받는 단계,
S20 : 분석하는 단계,
S30 : 저장하는 단계.
10 : 소리입력부, 20 : 분석부,
30 : 메모리부,
100 : 소리데이터 자동분할 장치,
S10 : 소리데이터를 입력받는 단계,
S20 : 분석하는 단계,
S30 : 저장하는 단계.
Claims (2)
- 삭제
- 소리데이터(5)를 입력받는 소리입력부(10);
상기 소리입력부(10)에 입력된 소리데이터(5)를 분석하는 분석부(20); 및
메모리부(30);를 포함하고,
상기 분석부(20)는 상기 소리데이터(5)를 분석하여 무음구간이 2초 이상인 경우 무음구간으로 판단하고, 상기 무음구간이 존재하는 경우 무음구간 끝나기 전의 -1 초 및 무음구간이 시작된 후의 +1 초 구간 사이의 소리데이터(5)를 별도의 독립된 소리데이터(5')로 상기 메모리부(30)에 저장하며,
상기 독립된 소리데이터(5')는 상기 소리입력부(10)에서 입력된 순서 및 상기 무음구간이 발생된 순서의 조합으로 이루어진 레퍼런스 번호를 부여받아 상기 메모리부(30)에 저장되고,
상기 메모리부(30)에 저장된 소리데이터(5')는 듣기 지문에 사용되며 상기 입력된 순서는 상기 소리입력부(10)에 몇 번째 입력되었는지 순서를 나타내는 것으로서 4자리의 자리수로 이루어지고,
상기 무음구간이 발생된 순서는 소리데이터(5)에서 발생된 무음구간의 순서를 나타내는 것으로서 3자리 자리수로 이루어지는 것을 특징으로 하고,
상기 메모리부(30)에 저장되는 소리데이터(5')는 입력된 순서를 나타내는 4자리의 숫자와 무음구간의 순서를 나타내는 3자리의 숫자를 연속되는 7자리의 숫자로 표기하는 소리데이터 자동분할 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180062520A KR101976986B1 (ko) | 2018-05-31 | 2018-05-31 | 소리데이터 자동분할 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180062520A KR101976986B1 (ko) | 2018-05-31 | 2018-05-31 | 소리데이터 자동분할 장치 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160107439A Division KR20180038594A (ko) | 2016-08-24 | 2016-08-24 | 소리데이터 자동분할 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20180064353A KR20180064353A (ko) | 2018-06-14 |
KR101976986B1 true KR101976986B1 (ko) | 2019-05-10 |
Family
ID=62629087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180062520A KR101976986B1 (ko) | 2018-05-31 | 2018-05-31 | 소리데이터 자동분할 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101976986B1 (ko) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010054991A (ja) * | 2008-08-29 | 2010-03-11 | Yamaha Corp | 録音装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100404049B1 (ko) | 2001-04-27 | 2003-11-03 | 한상용 | 음성언어 분석방법 |
KR101767928B1 (ko) | 2012-07-26 | 2017-08-31 | 한화테크윈 주식회사 | 음원 위치 추정 장치 및 방법 |
KR20160026317A (ko) * | 2014-08-29 | 2016-03-09 | 삼성전자주식회사 | 음성 녹음 방법 및 장치 |
KR102252665B1 (ko) * | 2014-09-01 | 2021-05-17 | 삼성전자주식회사 | 오디오 파일 재생 방법 및 장치 |
-
2018
- 2018-05-31 KR KR1020180062520A patent/KR101976986B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010054991A (ja) * | 2008-08-29 | 2010-03-11 | Yamaha Corp | 録音装置 |
Also Published As
Publication number | Publication date |
---|---|
KR20180064353A (ko) | 2018-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110557589B (zh) | 用于整合记录的内容的系统和方法 | |
US20200090660A1 (en) | System and method of text zoning | |
EP3355302B1 (en) | Audio recognition method and system | |
US11227584B2 (en) | System and method for determining the compliance of agent scripts | |
US10475484B2 (en) | Method and device for processing speech based on artificial intelligence | |
CN108039181B (zh) | 一种声音信号的情感信息分析方法和装置 | |
US10776419B2 (en) | Audio file quality and accuracy assessment | |
CN107680584B (zh) | 用于切分音频的方法和装置 | |
CN110322870B (zh) | 一种汉语语音信号切分方法和装置 | |
US11170763B2 (en) | Voice interaction system, its processing method, and program therefor | |
CN108885869A (zh) | 控制包含语音的音频数据的回放 | |
US20220238118A1 (en) | Apparatus for processing an audio signal for the generation of a multimedia file with speech transcription | |
US11270691B2 (en) | Voice interaction system, its processing method, and program therefor | |
CN110289015B (zh) | 一种音频处理方法、装置、服务器、存储介质及系统 | |
JP6495792B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
US8868419B2 (en) | Generalizing text content summary from speech content | |
CN110807093A (zh) | 语音处理方法、装置及终端设备 | |
JP2020009440A (ja) | 情報を生成するための方法と装置 | |
CN112346697A (zh) | 一种对设备进行控制的方法、装置和存储介质 | |
CN110853627B (zh) | 用于语音标注的方法及系统 | |
US20210249033A1 (en) | Speech processing method, information device, and computer program product | |
US20200075042A1 (en) | Detection of music segment in audio signal | |
KR101976986B1 (ko) | 소리데이터 자동분할 장치 | |
CN109559733B (zh) | 语音节奏处理方法和装置 | |
US20200243068A1 (en) | Playback speed analysis for audio data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) |