KR101590078B1 - Apparatus and method for voice archiving - Google Patents
Apparatus and method for voice archiving Download PDFInfo
- Publication number
- KR101590078B1 KR101590078B1 KR1020140182638A KR20140182638A KR101590078B1 KR 101590078 B1 KR101590078 B1 KR 101590078B1 KR 1020140182638 A KR1020140182638 A KR 1020140182638A KR 20140182638 A KR20140182638 A KR 20140182638A KR 101590078 B1 KR101590078 B1 KR 101590078B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- keyword
- voice file
- recording
- file
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000003550 marker Substances 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 claims abstract description 9
- 238000006243 chemical reaction Methods 0.000 claims description 23
- 239000000284 extract Substances 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 2
- 230000000877 morphologic effect Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 4
- 238000003672 processing method Methods 0.000 description 4
- 239000008186 active pharmaceutical agent Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/685—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/686—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
본 발명은 사용자의 음성을 녹음하여 기록하는 음성 아카이빙 장치 및 그 방법에 관한 것이다.BACKGROUND OF THE
일반적으로 온라인/모바일 메신저 및 문자 등을 통한 디지털 대화는 데이터의 저장이 용이하나, 오프라인에서의 실제 대화 시에는 화자가 대화 내용을 그대로 기억하는 것이 사실상 불가능하다. 이에 따라, 기억해야 하는 중요 내용을 휴대 단말기 등의 매체를 통해 직접 작성하거나 녹음하는 방식들이 사용되고 있다. 그러나 음성 대화의 녹음을 제외하고는 대화 내용을 저장하기 위한 행동으로 인해 대화에 집중이 어렵다는 문제점이 있으며, 이에 따라 중요한 대화 내용을 놓치는 경우 등이 종종 발생되고 있다. 뿐만 아니라, 대화 당시에는 사소하게 취급되었던 내용이 차후에 중요한 내용으로 부각될 수도 있어, 대화 내용을 효율적으로 저장 및 관리할 수 있는 방법이 필요한 실정이다.In general, digital conversation through online / mobile messenger and text is easy to store data, but it is virtually impossible for a speaker to memorize conversation contents in actual conversation in offline. Accordingly, methods of directly writing or recording important contents to be stored through a medium such as a portable terminal are used. However, there is a problem that it is difficult to concentrate on the conversation due to the action for storing the conversation contents, except for the recording of the voice conversation, and accordingly, important conversation contents are often missed. In addition, the content that has been handled trivially at the time of conversation may become important later, and a method for efficiently storing and managing conversation contents is needed.
이에 따라, 종래에는 보이스 레코더 등을 통해 음성 대화를 녹음하는 방식이 사용되고 있다. 그러나 기존의 음성 녹음 방식의 경우 파일 재생 시 원하는 정보를 바로 재생하기 위한 특정 위치로의 직접적인 접근이 불가능하다는 한계가 있었다. 또한, 기록된 음성 파일과 관련하여 제목, 날짜, 번호 등 기본적인 정보만 표시되어 원하는 정보를 검색할 때 효율적인 검색이 불가능하였다. 뿐만 아니라, 보이스 레코더 등의 음성 녹음 기기가 제공하는 기능에 비해 사용자 인터페이스(UI, User Interface)가 직관적이지 않았다. 즉, 사용자 인터페이스의 제어를 위해 기기 상의 한정된 버튼을 사용함으로써 하나의 버튼에 연관성이 없는 여러 가지 기능이 매칭되어 있는 경우가 많아, 사용자가 원하는 기능을 조작하는데 어려움이 있었다.Accordingly, conventionally, a method of recording a voice conversation through a voice recorder or the like is used. However, in the case of the conventional voice recording method, there is a limit in that direct access to a specific position for reproducing desired information immediately is not possible. In addition, only basic information such as title, date, and number is displayed in relation to the recorded voice file, making it impossible to efficiently search for desired information. In addition, the user interface (UI) is not intuitive as compared with the functions provided by a voice recording device such as a voice recorder. That is, by using a limited number of buttons on the device for controlling the user interface, many functions having no relevance to one button are often matched, so that it is difficult to manipulate the functions desired by the user.
이와 관련하여, 대한민국공개특허 제 10-2013-0134156 호(발명의 명칭 통화 대기 상태의 음성을 녹음하여 자동으로 전송하는 전자 장치 및 방법)에서는, 제1 전자 장치와 통화 대기 상태(call standby status)가 시작되었음을 확인하는 과정; 상기 통화 대기 상태를 확인함과 동시에 음성 녹음(voice recording)을 시작하는 과정; 및 통화 상태에 따라 상기 녹음된 음성을 상기 제1 전자 장치 또는 적어도 하나의 제2 전자 장치 중 어느 하나의 제2 전자 장치로 송신하는 과정을 포함하는 통화 대기 상태의 음성을 녹음하여 자동으로 전송하는 전자 장치 및 방법을 개시하고 있다.In this regard, Korean Patent Laid-Open Publication No. 10-2013-0134156 (an electronic apparatus and method for automatically recording a voice in a call standby state) and a call standby status with the first electronic device, The process of confirming that it has begun; Confirming the call waiting state and starting voice recording; And transmitting the recorded voice to the second electronic device of either the first electronic device or the at least one second electronic device according to a call state, Electronic devices and methods.
전술한 종래 기술의 문제점을 해결하기 위해, 본 발명의 일 실시예는 음성을 녹음하여 관련 정보와 함께 기록하되 음성 파일 제공 시 관련 정보를 함께 출력하여 음성 파일 내 특정 내용의 위치를 사용자가 직관적으로 판단할 수 있도록 하는 음성 아카이빙 장치 및 그 방법을 제공하고자 한다.In order to solve the problems of the related art described above, an embodiment of the present invention records a voice and records it together with related information, but also outputs related information when a voice file is provided so that a user can intuitively And to provide a voice archiving device and method therefor.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.It should be understood, however, that the technical scope of the present invention is not limited to the above-described technical problems, and other technical problems may exist.
상기와 같은 기술적 과제를 달성하기 위한 본 발명의 일 측면에 따른 음성 아카이빙 장치는, 음성을 녹음하는 녹음 처리부; 상기 녹음 처리부를 통해 녹음된 음성 데이터를 텍스트로 변환하는 음성-텍스트 변환부; 상기 텍스트로 변환된 음성 데이터로부터 적어도 하나의 키워드를 추출하는 키워드 추출부; 상기 녹음된 음성 데이터를 녹음 시작 시점부터 녹음 종료 시점까지를 포함하는 음성 파일로 저장하는 저장부; 및 상기 저장부에 저장된 음성 파일 중 선택된 음성 파일을 재생하는 음성 파일 플레이어를 제공하는 음성 파일 제공부를 포함하되, 상기 음성 파일 제공부는, 상기 음성 파일 플레이어의 실행 시, 상기 음성 파일 상의 적어도 하나의 위치에 상기 키워드를 마커로 출력하는 그래픽 사용자 인터페이스를 제공한다.According to an aspect of the present invention, there is provided a voice archiving apparatus comprising: a recording processor for recording a voice; A voice-to-text conversion unit for converting the voice data recorded through the recording processing unit into text; A keyword extracting unit for extracting at least one keyword from the speech data converted into the text; A storage unit for storing the recorded voice data as an audio file including a recording start time to a recording end time; And a voice file providing unit for providing a voice file player for reproducing a voice file selected from the voice files stored in the storage unit, wherein the voice file providing unit includes at least one position And outputting the keyword as a marker.
또한, 본 발명의 다른 측면에 따른 음성 아카이빙 장치를 통한 음성 아카이빙 방법은, 음성을 녹음하는 단계; 상기 녹음한 음성 데이터를 텍스트로 변환하는 단계; 상기 텍스트로부터 적어도 하나의 키워드를 추출하는 단계; 상기 음성 데이터를 녹음 시작 시점부터 녹음 종료 시점까지를 포함하는 음성 파일로 저장하되, 상기 키워드와 매칭하여 저장하는 단계; 및 상기 저장한 음성 파일을 재생하는 음성 파일 플레이어를 제공하는 단계를 포함하되, 상기 음성 파일 플레이어의 실행 시, 상기 음성 파일 상의 적어도 하나의 위치에 상기 키워드를 마커로 출력하는 그래픽 사용자 인터페이스가 제공된다.According to another aspect of the present invention, there is provided a voice archiving method using a voice archiving apparatus, comprising: recording voice; Converting the recorded voice data into text; Extracting at least one keyword from the text; Storing the speech data as a speech file including the speech data from the start of recording to the end of recording; And providing a voice file player for playing back the stored voice file, wherein, when the voice file player is executed, a graphical user interface is provided for outputting the keyword as a marker at at least one location on the voice file .
또한, 본 발명의 또 다른 측면에 따른 기록 매체는, 음성을 녹음하는 단계; 상기 녹음한 음성 데이터를 텍스트로 변환하는 단계; 상기 텍스트로부터 적어도 하나의 키워드를 추출하는 단계; 상기 음성 데이터를 녹음 시작 시점부터 녹음 종료 시점까지를 포함하는 음성 파일로 저장하되, 상기 키워드와 매칭하여 저장하는 단계; 및 상기 저장한 음성 파일을 재생하는 음성 파일 플레이어를 제공하는 단계를 컴퓨터가 수행하도록 하되, 상기 음성 파일 플레이어의 실행 시, 상기 음성 파일 상의 적어도 하나의 위치에 상기 키워드를 마커로 출력하는 그래픽 사용자 인터페이스를 컴퓨터가 제공하도록 하는 프로그램이 기록되어 있다.According to still another aspect of the present invention, there is provided a recording medium including: recording a voice; Converting the recorded voice data into text; Extracting at least one keyword from the text; Storing the speech data as a speech file including the speech data from the start of recording to the end of recording; And a voice file player for reproducing the stored voice file, wherein the voice file player comprises a graphical user interface for outputting the keyword as a marker at at least one position on the voice file when the voice file player is executed, A program for allowing the computer to provide the information is recorded.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 일상 생활 속에서 사용자 간의 대화를 간편하게 녹음할 수 있으며, 녹음된 음성 대화를 지능적으로 분류하여 정제된 정보의 제공이 가능하다.According to any one of the above-mentioned objects of the present invention, it is possible to easily record conversations between users in daily life, and to provide refined information by intelligently classifying recorded voice conversations.
또한, 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 스마트 디바이스등의 음성 아카이빙 장치를 통해 사용자가 단순 동작이나 예약어만으로 음성 녹음을 자동 시작할 수 있으며, 대화 종료를 자동으로 인식하여 음성 녹음을 종료 및 기록할 수 있어 편리하다.In addition, according to any one of the tasks of the present invention, a user can automatically start voice recording using a simple operation or a reserved word through a voice archiving device such as a smart device, automatically recognize the end of a conversation, It is convenient to record.
또한, 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 음성 파일의 구간마다 키워드를 마킹함으로써, 사용자가 음성 파일 내 특정 정보가 포함된 대화 위치를 직관적으로 알 수 있는 효과가 있다.Further, according to any one of the tasks of the present invention, there is an effect that the user can intuitively recognize the conversation position including specific information in the voice file by marking the keyword for each section of the voice file.
또한, 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 음성 파일 기록 시 사용자가 중요 관련 정보를 별도로 체크할 수 있으며, 음성 파일 검색 시 효과적으로 활용할 수 있다.In addition, according to any one of the tasks of the present invention, the user can separately check the important related information when recording a voice file, and can effectively utilize it when searching for a voice file.
또한, 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 녹음된 음성 대화를 음성 파일과 관련된 정보들과 매칭하여 데이터베이스화하여 아카이빙함으로써 대화 정보를 체계적으로 관리할 수 있는 효과가 있다.Further, according to any one of the tasks of the present invention, it is possible to systematically manage the conversation information by matching the recorded voice conversation with the information related to the voice file and archiving it in a database.
도 1은 본 발명의 일 실시예에 따른 음성 아카이빙 장치의 구성을 나타낸 블록도이다.
도 2는 본 발명의 일 실시예에 따른 음성 파일 데이터베이스의 구조를 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 녹음 종료 처리 방식을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 대화 공백 처리 방식을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 음성 파일 플레이어의 그래픽 사용자 인터페이스의 일례를 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 음성 아카이빙 방법을 설명하기 위한 순서도이다.1 is a block diagram showing a configuration of a voice archiving apparatus according to an embodiment of the present invention.
2 is a diagram for explaining a structure of a voice file database according to an embodiment of the present invention.
3 is a diagram for explaining a recording end processing method according to an embodiment of the present invention.
4 is a diagram for explaining a conversation space processing method according to an embodiment of the present invention.
5 is a diagram illustrating an example of a graphical user interface of a voice file player according to an embodiment of the present invention.
6 is a flowchart for explaining a voice archiving method according to an embodiment of the present invention.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings, which will be readily apparent to those skilled in the art. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. In order to clearly illustrate the present invention, parts not related to the description are omitted, and similar parts are denoted by like reference characters throughout the specification.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.Throughout the specification, when a part is referred to as being "connected" to another part, it includes not only "directly connected" but also "electrically connected" with another part in between . Also, when an element is referred to as "comprising ", it means that it can include other elements as well, without departing from the other elements unless specifically stated otherwise.
도 1은 본 발명의 일 실시예에 따른 음성 아카이빙 장치의 구성을 나타낸 블록도이다.1 is a block diagram showing a configuration of a voice archiving apparatus according to an embodiment of the present invention.
도 1에 도시한 바와 같이, 본 발명의 일 실시예에 따른 음성 아카이빙 장치(100)는 녹음 처리부(110), 음성-텍스트 변환부(120), 키워드 추출부(130), 저장부(140) 및 음성 파일 제공부(150)를 포함한다.1, the voice archiving
참고로, 본 발명의 실시예에 따른 도 1에 도시된 구성 요소들은 소프트웨어 또는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 형태로 구현될 수 있으며, 소정의 역할들을 수행할 수 있다. 그렇지만 '구성 요소들'은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 각 구성 요소는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 구성 요소는 소프트웨어 구성 요소들, 객체지향 소프트웨어 구성 요소들, 클래스 구성 요소들 및 태스크 구성 요소들과 같은 구성 요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성 요소들과 해당 구성 요소들 안에서 제공되는 기능은 더 작은 수의 구성 요소들로 결합되거나 추가적인 구성 요소들로 더 분리될 수 있다.1 may be implemented in hardware such as software or an FPGA (Field Programmable Gate Array) or ASIC (Application Specific Integrated Circuit), and may perform predetermined roles can do. However, 'components' are not meant to be limited to software or hardware, and each component may be configured to reside on an addressable storage medium and configured to play one or more processors. Thus, by way of example, an element may comprise components such as software components, object-oriented software components, class components and task components, processes, functions, attributes, procedures, Routines, segments of program code, drivers, firmware, microcode, circuitry, data, databases, data structures, tables, arrays, and variables. The components and functions provided within those components may be combined into a smaller number of components or further separated into additional components.
녹음 처리부(110)는 사용자의 음성을 녹음처리한다.The
녹음 처리부(110)는 기설정된 길이(즉, 시간)의 구간 단위로 음성(예를 들어, “적어도 한명 이상의 사용자 간 대화”)를 녹음하되, 연속된 구간을 녹음할 수 있다. 이때, 녹음 처리부(110)는 구간 단위의 음성 데이터를 음성-텍스트 변환부(120) 및 저장부(140)로 연속하여 전달한다. 참고로, 녹음 시작 시점부터 녹음 종료 시점까지의 구간 별 음성 데이터는 저장부(140)를 통해 하나의 음성 파일로 결합되어 저장된다.The
녹음 처리부(110)는 음성 녹음의 시작 및 종료를 자동 처리할 수 있다.The
구체적으로, 녹음 처리부(110)는 기설정된 녹음 명령 이벤트의 발생을 인식하여, 음성 녹음을 자동 시작 처리할 수 있다. 예를 들어, 녹음 처리부(110)는 음성 아카이빙 장치(110)에 포함된 적어도 하나의 종류의 센서(미도시)를 통해 센싱된 음성 또는 동작 정보를 획득하고, 사전에 약속된 예약어 또는 단순 동작이 인식되면 녹음 명령 이벤트가 발생한 것으로 판단하여 음성 녹음을 자동 시작할 수 있다.Specifically, the
그리고, 녹음 처리부(110)는 이하 설명할 음성-텍스트 변환부(120)를 통한 텍스트 변환 결과에 기초하여, 구간 내 음성 인식에 따른 텍스트 데이터의 유무 상태를 검출하며, 검출 결과에 기초하여 음성 녹음을 자동 종료할 수 있다.The
예를 들어, 도 3은 본 발명의 일 실시예에 따른 녹음 종료 처리 방식을 설명하기 위한 도면이다.For example, FIG. 3 illustrates a recording end processing method according to an embodiment of the present invention.
녹음 처리부(110)는 음성-데이터 변환부(120)를 통한 구간 별 음성 데이터에 대한 음성 인식 결과(즉, 텍스트 변환 결과)를 피드백 받는다. 그리고 도 3에 도시한 바와 같이, 녹음 처리부(110)는 연속된 적어도 둘 이상의 구간 내 음성 인식 결과가 존재하지 않는 경우(즉, 텍스트 데이터가 존재하지 않는 경우) 음성 녹음을 자동으로 종료 처리할 수 있다. 즉, 도 3에서와 같이, 제 1 구간부터 제 n+1 구간까지의 음성 인식 결과, 제 n 구간에서 텍스트 변환 결과 값이 포함되지 않은 후 제 n+1 구간에서도 텍스트 변환 결과 값이 포함되지 않으면, 음성 대화가 종료된 것으로 판단하여 자동 녹음 종료 처리를 할 수 있다.The
또한, 녹음 처리부(110)는 대화 공백이 존재하는 음성 파일을 전처리하여 하나의 음성 파일로서 저장부(140)를 통해 저장할 수 있다.In addition, the
예를 들어, 도 4는 본 발명의 일 실시예에 따른 대화 공백 처리 방식을 설명하기 위한 도면이다.For example, FIG. 4 is a diagram for explaining a conversation space processing method according to an embodiment of the present invention.
도 4에 도시한 바와 같이, 음성 녹음이 종료 처리된 이후, 기설정된 시간 내에 새로운 음성 파일에 대한 녹음 시작 처리가 실행되면, 녹음이 종료 처리된 제 1 음성 파일과 새롭게 녹음이 시작된 제 2 음성 파일을 하나의 음성 파일로 판단하여 결합한 후 저장부(140)를 통해 저장할 수 있다. 이때, 녹음 처리부(110)는 제1 및 제 2 음성 파일 각각의 종료 시점에 텍스트 변환 결과가 포함되지 않은 적어도 하나의 구간을 공백으로 판단하여 공백 제거 처리할 수 있다. 이를 통해, 사용자의 침묵 등에 따른 일시적인 음성 녹음 종료 시에도 관련된 음성 파일 간의 결합을 통해 하나의 음성 파일을 생성함으로써 효과적인 데이터 관리가 가능하다. 또한, 음성 파일 간의 결합 시 불필요한 데이터(즉, 공백 시간 등)를 제거함으로써 음성 아카이빙의 품질을 높일 수 있다.As shown in Fig. 4, when the recording start processing for the new voice file is executed within a predetermined time after the end of the voice recording, the first voice file whose recording has been completed and the second voice file May be determined as one voice file, combined and stored through the
한편, 녹음 처리부(110)는 음성 파일의 저장 시 음성 파일에 대한 적어도 하나의 종류의 관련 정보를 사용자가 입력할 수 있도록 하는 사용자 인터페이스(User Interface, UI)를 제공할 수 있다. 이때, 관련 정보는 음성 파일 이름, 화자 정보, 태그 정보, 녹음 장소 정보, 녹음 일시 정보 및 대화 내용 요약 정보 중 적어도 하나의 항목을 포함할 수 있다. 이처럼, 사용자를 통해 입력되는 관련 정보는, 저장부(140)를 통해 해당 음성 파일과 매칭되어 저장되며, 이후 설명할 음성 파일 제공부(150)가 제공하는 음성 파일 플레이어를 통해 적어도 하나의 항목이 해당 음성 파일과 매칭되어 표시될 수 있다. 이에 따라, 녹음한 음성 파일의 제목을 사용자가 지정 할 수 있으며, 대화에 참여한 화자, 음성 파일에 대한 태그, 대화 장소 및일시 및 대화 내용 등의 관련 정보를 음성 파일 별로 관리 및 표시할 수 있어, 향후 사용자가 듣고자 하는 음성 파일의 선택이 매우 용이해지는 효과가 있다.Meanwhile, the
다시 도 1로 돌아가서, 음성-텍스트 변환부(120)는 녹음 처리부(110)를 통해 녹음된 음성 데이터를 텍스트로 변환 처리한다.1, the voice-to-
이때, 음성-텍스트 변환부(120)는 녹음 처리부(110)로부터 일정 길이의 구간 단위로 음성 데이터를 수신하고, 수신한 음성 데이터를 기설정된 스피치 투 텍스트(STT, Speech to Text) 애플리케이션 프로그래밍 인터페이스(API, Application Programming Interface)를 통해 텍스트로 변환 처리한다.Here, the speech-to-
예를 들어, 음성-텍스트 변환부(120)는 STT API를 통해 사전에 연동된 공개/비공개형 음성 인식(Voice Recognition) 서버로 상기 음성 데이터를 전송한 후, 음성 인식 서버를 통해 텍스트 변환된 결과 데이터를 수신한다. 그리고 음성-텍스트 변환부(120)는 수신된 텍스트 변환 결과 데이터를 키워드 추출부(130) 및 녹음 처리부(110)로 전달한다. 참고로, 음성-텍스트 변환부(120)는 음성 데이터 구간 별 텍스트 변환 결과 유/무 여부 정보만을 녹음 처리부(110)로 전달하는 것도 가능하다.For example, the voice-to-
키워드 추출부(130)는 음성-텍스트 변환부(120)를 통해 수신된 텍스트 변화 결과 데이터(즉, 텍스트로 변환된 음성 데이터)로부터 적어도 하나의 키워드를 추출한다.The
구체적으로, 키워드 추출부(130)는 음성 데이터로부터 변환된 텍스트를 형태소 분석 처리하여 적어도 하나의 단어를 획득하고, 기설정된 조건에 따라 상기 획득한 단어 중 키워드를 결정한다. 이때, 기설정된 조건은 음성 파일의 구간마다 해당 단어의 출현 빈도로 설정될 수 있으며, 출현 빈도가 가장 높은 단어 또는 최고 빈도부터 일정 순위까지의 복수의 단어를 키워드로 결정할 수 있다.Specifically, the
저장부(140)는 녹음 처리부(110)를 통해 녹음된 음성 데이터를 녹음 시작 시점부터 녹음 종료 시점까지를 포함하는 음성 파일로 저장한다.The
구체적으로, 저장부(140)는 음성 파일 별로 음성 파일 아이디, 음성 파일 이름, 키워드 아이디, 키워드, 키워드 출현 구간 정보 및 구간 내 키워드 출현 빈도 정보 등의 정보를 서로 매칭하되, 매칭된 정보들을 데이터베이스화하여 저장할 수 있다.Specifically, the
예를 들어,도 2는 본 발명의 일 실시예에 따른 음성 파일 데이터베이스의 구조를 설명하기 위한 도면이다.For example, FIG. 2 illustrates a structure of a voice file database according to an embodiment of the present invention.
도 2에 도시한 바와 같이, 음성 파일과 키워드 사이의 관계를 표현하기 위한 테이블로 구성된 데이터베이스에는, 음성 파일을 식별하기 위한 고유 아이디(archive_id), 해당 음성 파일 내 포함된 키워드를 식별하기 위한 키워드 아이디(keyword_id), 해당 키워드가 해당 음성 파일에 몇 번째 조각(즉, 구간)에 위치하는지를 식별하기 위한 키워드 출현 구간(archive_fragment) 및 해당 키워드가 해당 구간 내 몇 번 출현하였는지를 식별하기 위한 구간 내 키워드 출현 빈도(keyword_weight) 항목이 포함된다.As shown in Fig. 2, the database configured with a table for expressing the relationship between the voice file and the keyword includes a unique ID (archive_id) for identifying the voice file, a keyword ID for identifying the keyword included in the voice file (keyword_id), a keyword appearance interval (archive_fragment) for identifying the number of pieces (i.e., sections) of the keyword in the corresponding voice file, and a keyword occurrence frequency in the section for identifying the number of times the keyword appeared in the corresponding section (keyword_weight) item is included.
참고로, 도 2에서와 같이, 저장부(140)는 사전에 복수의 단어 별로 고유한 아이디를 부여하여 매칭 저장해둘 수 있다. 참고로, 사전에 설정된 복수의 단어는 사전(dictionary) 상에 포함된 단어들을 의미할 수 있다. 또한, 저장부(140)는 각 음성 파일 아이디 별로 자동 입력 또는 사용자로부터 입력된 음성 파일 이름(archive_name)을 매칭 저장해둘 수 있다. 이에 따라, 이후 설명할 음성 파일 제공부(150)는 저장부(140)를 통해 저장된 상기 데이터베이스를 참조하여, 각 음성 파일 별 관련 정보를 검출 및 출력할 수 있다.As shown in FIG. 2, the
한편, 상술된 저장부(140)는 캐쉬, ROM(Read Only Memory), PROM(Programmable ROM), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM) 및 플래쉬 메모리(Flash memory)와 같은 비휘발성 메모리 소자 또는 RAM(Random Access Memory)과 같은 휘발성 메모리 소자 또는 하드디스크 드라이브(HDD, Hard Disk Drive), CD-ROM과 같은 저장 매체 중 적어도 하나로 구현될 수 있으나 이에 한정되지는 않는다.The
다시 도 1로 돌아가서, 음성 파일 제공부(150)는 저장부(140)에 저장된 음성 파일 중 사용자에 의해 선택된 음성 파일을 재생하는 음성 파일 플레이어를 제공한다.Referring back to FIG. 1, the voice
이때, 음성 파일 제공부(150)는 음성 파일 플레이어의 실행 시, 음성 파일 상의 적어도 하나의 위치에 상기 키워드 추출부(130)를 통해 추출된 적어도 하나의 키워드를 마커(marker)로 출력하는 그래픽 사용자 인터페이스(GUI, Graphical User Interface)를 제공한다.At this time, when the
구체적으로, 음성 파일 제공부(150)는 음성 파일 플레이어의 실행 시, 저장부(140)로부터 음성 파일 별 음성 파일 이름 및 키워드를 추출하고, 추출한 음성 파일 이름 및 키워드를 포함하는 음성 파일 목록을 GUI를 통해 표시한다. 이때, 음성 파일 제공부(150)는 해당 음성 파일에 매칭되어 저장되어 있던 관련 정보 중 적어도 하나의 정보를 상기 GUI를 통해 부가적으로 표시할 수 있다.Specifically, when executing the voice file player, the voice
상기 GUI를 통해 사용자가 어느 하나의 음성 파일을 선택하면, 음성 파일 제공부(150)는 저장부(140)로부터 상기 입력된 선택 정보에 따른 음성 파일에 대응된 키워드 및 키워드 출현 구간 정보를 추출하고, 추출한 결과에 기초하여 GUI를 통해 해당 음성 파일의 기설정된 길이의 구간마다 키워드를 표시한다.When the user selects one of the voice files through the GUI, the voice
예를 들어, 도 5는 본 발명의 일 실시예에 따른 음성 파일 플레이어의 그래픽 사용자 인터페이스의 일례를 나타낸 도면이다.For example, FIG. 5 illustrates an example of a graphical user interface of a voice file player according to an exemplary embodiment of the present invention.
도 5에 도시한 바와 같이, 음성 파일 제공부(150)를 통해 제공되는 GUI 상에는 기설정된 길이(예를 들어, ’15 초’) 단위의 구간 별로, 시작 시점 정보(P10) 및 적어도 하나의 키워드(P20)가 마커로 표시될 수 있다. 또한, GUI 상에는 음성 파일의 각 조각(즉, 구간)들을 사용자가 직관적으로 식별할 수 있도록, 구간 별 시작 시점을 표시하는 경계 라인(P30)이 더 표시될 수 있으며, 더불어 재생 바(bar)를 구간 별로 다른 색상으로 표시(P40)하는 것도 가능하다.5, on the GUI provided through the audio
참고로, 음성 파일 제공부(150)는 저장부(140)에 저장된 데이터베이스에서 구간 내 키워드 출현 빈도(keyword_weight) 항목을 참조하여 등장 빈도가 가장 높은 키워드부터 낮은 빈도 순서로 키워드를 정렬하여 표시하는 것도 가능하다.For reference, the voice
한편, 이상에서 도 1 내지 도 5를 통해 설명한 본 발명의 일 실시예에 따른 음성 아카이빙 장치(100)는 스마트폰(smart phone)과 같이 휴대 단말기에 인터넷 통신과 정보 검색 등 컴퓨터 지원 기능을 추가한 지능형 단말기로서 사용자가 원하는 애플리케이션을 설치할 수 있는 스마트 디바이스(smart device)로 구현될 수 있다. 즉, 본 발명이 적용되는 스마트 디바이스는 스마트 폰, 태플릿 PC 및 스마트 패드 등 기능이 제한되어 있지 않고 다수의 애플리케이션(application, App)이 설치되어 기능의 변경 및 확장이 가능한 디바이스이다. 이러한 스마트 디바이스는 화면을 출력하되 터치스크린 등으로 구성된 디스플레이부를 포함할 수 있다.The
이러한 스마트 디바이스(100)는 앞서 설명한 녹음 처리부(110), 음성-텍스트 변환부(120), 키워드 추출부(130), 저장부(140) 및 음성 파일 제공부(150)의 각 동작들을 실행시키는 프로그램이 저장된 메모리를 포함하며, 메모리에는 저장부(140)가 저장한 데이터들이 저장된다. 그리고, 스마트 디바이스(100)는 상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함한다. 이때, 프로세서가 상기 프로그램을 실행시킴에 따라, 음성 녹음의 시작 및 종료 동작, 음성 데이터의 텍스트 변환 동작, 변환된 텍스트로부터의 키워드 추출 동작, 및 음성 파일 플레이어를 통한 음성 파일 상의 구간 별 위치에 키워드 표시 및 음성 파일 재생 동작 등의 음성 아카이빙을 위한 모든 순차적 또는 병렬적 처리가 수행된다. 참고로, 스마트 디바이스(100)에서 실행되는 프로그램은 적어도 하나의 애플리케이션의 형태로 스마트 디바이스(100) 상에 탑재될 수 있다.The
이하, 도 6을 참조하여 본 발명의 일 실시예에 따른 음성 아카이빙 방법에 대해서 상세히 설명하도록 한다.Hereinafter, a voice archiving method according to an embodiment of the present invention will be described in detail with reference to FIG.
먼저, 어느 하나의 음성 파일을 구성하기 위한 음성 녹음을 시작한다(S610).First, voice recording for constituting one voice file is started (S610).
이때, 음성 녹음을 시작하는 단계에서는 사전에 설정된 녹음 명령 이벤트의 발생을 인식한 후, 해당 인식에 따라 자동으로 음성 녹음을 시작 처리할 수 있다.At this time, in the step of starting the voice recording, after the occurrence of the preset recording command event is recognized, the voice recording can be automatically started according to the recognition.
다음으로, 녹음된 음성 데이터를 텍스트로 변환 처리한다(S620).Next, the recorded voice data is converted into text (S620).
구체적으로, 상기 단계 (S610)를 통해 녹음된 기설정된 길이를 갖는 구간 단위의 음성 데이터를 수신하고, 수신한 음성 데이터를 기설정된 STT API를 통해 텍스트로 변환 처리한다.Specifically, the speech data of the interval unit having the predetermined length recorded through the step S610 is received, and the received speech data is converted into text through a predetermined STT API.
그런 다음, 텍스트로 변환된 음성 데이터로부터 기설정된 조건에 따라 적어도 하나의 키워드를 추출한다(S630).Then, at least one keyword is extracted from the speech data converted into the text according to predetermined conditions (S630).
구체적으로, 음성 데이터로부터 변환된 텍스트를 형태소 분석 처리하여 적어도 하나의 단어를 획득하고, 기설정된 조건에 따라 상기 획득한 단어 중 키워드를 결정한다. 이때, 기설정된 조건은 음성 파일의 구간마다 해당 단어의 출현 빈도로 설정될 수 있다.Specifically, morphological analysis processing is performed on the text converted from the speech data to acquire at least one word, and a keyword among the acquired words is determined according to a predetermined condition. At this time, the predetermined condition may be set as the occurrence frequency of the corresponding word for each section of the voice file.
그런 후, 녹음 시작 시점부터 종료 시점까지의 음성 데이터를 포함하는 음성 파일을 대응하는 키워드와 매칭하여 저장한다(S640).Then, an audio file including audio data from the recording start point to the end point is matched with the corresponding keyword and stored (S640).
이때, 음성 파일에 음성 파일 아이디, 음성 파일 이름, 키워드 아이디, 키워드, 키워드 출현 구간 정보 및 구간 내 키워드 출현 빈도 정보를 서로 매칭하여 저장할 수 있다. 또한, 상기 단계(S640)에서는, 음성 파일에 대한 적어도 하나의 종류의 관련 정보를 사용자가 입력할 수 있도록 하는 사용자 인터페이스를 제공할 수 있다. 참고로, 관련 정보는 음성 파일 이름, 화자 정보, 태그 정보, 녹음 장소 정보, 녹음 일시 정보 및 대화 내용 요약 정보 중 적어도 하나의 항목을 포함할 수 있다. 이에 따라 관련 정보는 음성 파일에 매칭되어 저장될 수 있으며, 하기 설명할 음성 파일 플레이어를 제공하는 단계에서 적어도 하나의 관련 정보 항목이 그래픽 사용자 인터페이스(GUI)를 통해 음성 파일과 매칭되어 표시될 수 있다.At this time, the voice file ID, the voice file name, the keyword ID, the keyword, the keyword appearance period information, and the keyword occurrence frequency information in the section can be stored in the voice file. In step S640, a user interface may be provided to allow the user to input at least one kind of related information for the voice file. For reference, the related information may include at least one of an audio file name, speaker information, tag information, recording place information, recording time information, and conversation contents summary information. Accordingly, the related information can be matched and stored in the voice file, and at the step of providing the voice file player to be described later, at least one related information item can be displayed by matching with the voice file through the graphical user interface (GUI) .
또한, 상기 단계 (S640)에서는, 상기 음성 데이터를 텍스트로 변환한 결과에 기초하여 구간 내 음성 인식에 따른 텍스트 데이터의 유무 상태를 검출하고, 연속된 적어도 둘 이상의 구간 내 음성 인식 결과가 존재하지 않는 경우 음성 녹음을 자동 종료 처리할 수 있다. 그리고, 음성 녹음이 자동 종료 처리된 이후 기설정된 시간 내 새로운 음성 파일의 시작 처리가 실행되면, 음성 녹음이 종료 처리된 음성 파일과 새로운 음성 파일을 결합하여 하나의 음성 파일로 저장할 수 있다. 참고로, 상기 결합 시 음성 녹음이 종료 처리된 음성 파일과 새로운 음성 파일 사이의 공백을 제거하여 저장하는 것도 가능하다.In the step S640, the presence or absence of the text data according to the speech recognition in the segment is detected based on the result of converting the speech data into text, and if there is no speech recognition result in at least two segments If the voice recording can be processed automatically. When the start processing of the new voice file is executed within a predetermined time after the voice recording is automatically terminated, the voice file whose voice recording has been completed can be combined with the new voice file and stored as one voice file. For reference, it is also possible to remove whitespace between a voice file and a new voice file in which voice recording has been completed during the combining process.
다음으로, 저장된 음성 파일 중 사용자가 선택한 음성 파일을 재생하는 음성 파일 플레이어를 제공하되, 음성 파일 플레이어 실행 시 음성 파일 상의 구간 별 위치에 해당 키워드를 마커로 출력한다(S650).Next, an audio file player for reproducing a voice file selected by a user from among the stored voice files is provided. In operation S650, the keyword is output as a marker to a position of each voice file on a section of the voice file.
구체적으로, 음성 파일 플레이어의 실행 시, 음성 파일 별로 저장된 음성 파일 이름 및 키워드를 추출하고, 추출한 음성 파일 이름 및 키워드를 포함하는 음성 파일 목록을 그래픽 사용자 인터페이스(GUI)를 통해 표시하고, 어느 하나의 음성 파일에 대한 선택 정보를 입력받고, 선택 정보에 따른 음성 파일에 대응된 키워드 및 키워드 출현 구간 정보를 추출하고, 추출한 결과에 기초하여 선택 정보에 따른 음성 파일의 기설정된 길이의 구간마다 키워드를 표시한다. 이때, 그래픽 사용자 인터페이스를 통해, 음성 파일에서 구간마다 시작 시점 및 키워드를 마커로 표시할 수 있다. Specifically, when executing the voice file player, a voice file name and a keyword stored for each voice file are extracted, a voice file list including the extracted voice file name and the keyword is displayed through a graphical user interface (GUI) Extracts keyword and keyword appearance period information corresponding to the voice file according to the selection information, and displays a keyword for each interval of a predetermined length of the voice file according to the selection information based on the extracted result do. At this time, through the graphical user interface, the start point and the keyword can be displayed as markers in the voice file for each section.
이상에서의 본 발명의 일 실시예에 따른 음성 아카이빙 방법은, 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.The above-described voice archiving method according to an embodiment of the present invention can also be implemented in the form of a recording medium including instructions executable by a computer such as a program module executed by a computer. Computer readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media. In addition, the computer-readable medium may include both computer storage media and communication media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data. Communication media typically includes any information delivery media, including computer readable instructions, data structures, program modules, or other data in a modulated data signal such as a carrier wave, or other transport mechanism.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.It will be understood by those skilled in the art that the foregoing description of the present invention is for illustrative purposes only and that those of ordinary skill in the art can readily understand that various changes and modifications may be made without departing from the spirit or essential characteristics of the present invention. will be. It is therefore to be understood that the above-described embodiments are illustrative in all aspects and not restrictive. For example, each component described as a single entity may be distributed and implemented, and components described as being distributed may also be implemented in a combined form.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is defined by the appended claims rather than the detailed description and all changes or modifications derived from the meaning and scope of the claims and their equivalents are to be construed as being included within the scope of the present invention do.
100: 음성 아카이빙 장치
110: 녹음 처리부
120: 음성-텍스트 변환부
130: 키워드 추출부
140: 저장부
150: 음성 파일 제공부100: Voice archiving device
110:
120: voice-to-text conversion unit
130:
140:
150: voice file provisioning
Claims (18)
음성을 녹음하는 녹음 처리부;
상기 녹음 처리부를 통해 녹음된 음성 데이터를 텍스트로 변환하는 음성-텍스트 변환부;
상기 텍스트로 변환된 음성 데이터로부터 적어도 하나의 키워드를 추출하는 키워드 추출부;
상기 녹음된 음성 데이터를 녹음 시작 시점부터 녹음 종료 시점까지를 포함하는 음성 파일로 저장하되, 상기 음성 파일을 상기 키워드와 매칭하여 저장하는 저장부; 및
상기 저장부에 저장된 음성 파일 중 선택된 음성 파일을 재생하는 음성 파일 플레이어를 제공하는 음성 파일 제공부를 포함하되,
상기 음성 파일 제공부는,
상기 음성 파일 플레이어의 실행 시, 상기 음성 파일 상의 적어도 하나의 위치에 상기 키워드를 마커로 출력하는 그래픽 사용자 인터페이스를 제공하고,
상기 녹음 처리부는,
상기 음성 아카이빙 장치에 포함된 하나 이상의 종류의 센서를 통해 센싱된 음성 또는 동작 정보에 기초하여 사전에 설정된 예약어 및 동작이 인식되면 기설정된 녹음 명령 이벤트가 발생된 것으로 판단하여 음성 녹음을 자동 시작하고,
상기 음성 데이터를 기설정된 길이의 구간 단위로 상기 음성-텍스트 변환부로 전달하고, 상기 음성-텍스트 변환부를 통한 텍스트 변환 결과에 기초하여 상기 구간 내 음성 인식에 따른 텍스트 데이터의 유무 상태를 검출하고, 연속된 적어도 둘 이상의 상기 구간 내 음성 인식 결과가 존재하지 않는 경우 음성 녹음을 자동 종료 처리하는 음성 아카이빙 장치.In the voice archiving device,
A recording processor for recording a voice;
A voice-to-text conversion unit for converting the voice data recorded through the recording processing unit into text;
A keyword extracting unit for extracting at least one keyword from the speech data converted into the text;
A storage unit for storing the recorded voice data as a voice file including a time from a start of recording to an end of voice recording, the voice file matching the voice file and storing the voice file; And
And a voice file player for providing a voice file player for playing back the selected voice file among the voice files stored in the storage unit,
The audio file providing unit,
And a graphical user interface for outputting the keyword as a marker at at least one position on the voice file when the voice file player is executed,
The recording processing unit,
When the preset word and operation set in advance are recognized based on the voice or operation information sensed by the one or more types of sensors included in the voice archiving device, it is determined that a predetermined recording command event has occurred and the voice recording is automatically started,
The speech data is transmitted to the speech-to-text conversion unit in units of intervals of a predetermined length, the presence or absence of the text data according to the speech recognition in the interval is detected based on the result of text conversion through the speech- Wherein the speech recognition apparatus automatically terminates the voice recording when there is no voice recognition result in at least two of the sections.
상기 음성-텍스트 변환 처리부는,
상기 녹음 처리부로부터 기설정된 길이를 갖는 구간 단위의 음성 데이터를 수신하고,
상기 수신한 음성 데이터를 기설정된 스피치 투 텍스트(STT, Speech to Text) 애플리케이션 프로그래밍 인터페이스를 통해 텍스트로 변환 처리하는 음성 아카이빙 장치.The method according to claim 1,
Wherein the voice-to-
Receiving audio data of a section unit having a predetermined length from the recording processing unit,
And converting the received voice data into text through a predetermined STT (Application to Speech to Text) application programming interface.
상기 음성 파일 제공부는,
상기 그래픽 사용자 인터페이스를 통해, 상기 음성 파일에서 상기 구간마다 시작 시점 및 상기 키워드를 마커로 표시하는 음성 아카이빙 장치.3. The method of claim 2,
The audio file providing unit,
And displays the starting point and the keyword by a marker in each of the sections in the voice file through the graphical user interface.
상기 키워드 추출부는,
상기 음성 데이터로부터 변환된 텍스트를 형태소 분석 처리하여 적어도 하나의 단어를 획득하고, 기설정된 조건에 따라 상기 획득한 단어 중 키워드를 결정하되,
상기 기설정된 조건은,
상기 음성 파일의 기설정된 길이 단위의 구간마다 단어의 출현 빈도로 설정된 음성 아카이빙 장치.The method according to claim 1,
The keyword extracting unit extracts,
A morphological analysis processing unit for morphing the converted text from the speech data to obtain at least one word and determining a keyword among the acquired words according to a predetermined condition,
Preferably,
And the frequency of appearance of words is set for each interval of a predetermined length unit of the voice file.
상기 저장부는,
상기 음성 파일 별로 음성 파일 아이디, 음성 파일 이름, 키워드 아이디, 키워드, 키워드 출현 구간 정보 및 구간 내 키워드 출현 빈도 정보를 서로 매칭한 데이터베이스를 저장하는 음성 아카이빙 장치.The method according to claim 1,
Wherein,
Wherein the database stores a voice file ID, a voice file name, a keyword ID, a keyword, a keyword appearance period information, and a keyword occurrence frequency information in each section of the voice file.
상기 음성 파일 제공부는,
상기 음성 파일 플레이어의 실행 시, 상기 저장부로부터 음성 파일 별 음성 파일 이름 및 키워드를 추출하고, 상기 추출한 음성 파일 이름 및 키워드를 포함하는 음성 파일 목록을 상기 그래픽 사용자 인터페이스를 통해 표시하고,
어느 하나의 음성 파일에 대한 선택 정보를 입력받으면, 상기 저장부로부터 상기 선택 정보에 따른 음성 파일에 대응된 키워드 및 키워드 출현 구간 정보를 추출하고, 상기 추출한 결과에 기초하여 상기 선택 정보에 따른 음성 파일의 기설정된 길이의 구간마다 상기 키워드를 표시하는 음성 아카이빙 장치.6. The method of claim 5,
The audio file providing unit,
Extracting a voice file name and a keyword for each voice file from the storage unit when the voice file player is executed, displaying a voice file list including the extracted voice file name and the keyword through the graphical user interface,
Extracting a keyword and keyword appearance period information corresponding to a voice file corresponding to the selection information from the storage unit, and outputting, based on the extracted result, a voice file corresponding to the selection information And said keyword is displayed for each section of a predetermined length of said keyword.
상기 녹음 처리부는,
상기 음성 파일의 저장 시 상기 음성 파일에 대한 적어도 하나의 종류의 관련 정보를 사용자가 입력할 수 있도록 하는 사용자 인터페이스를 제공하되,
상기 관련 정보는,
음성 파일 이름, 화자 정보, 태그 정보, 녹음 장소 정보, 녹음 일시 정보 및 대화 내용 요약 정보 중 적어도 하나의 항목을 포함하고,
상기 저장부를 통해 상기 음성 파일 매칭하여 저장되며,
적어도 하나의 상기 항목이 상기 그래픽 사용자 인터페이스를 통해 상기 음성 파일과 매칭되어 표시되는 음성 아카이빙 장치.The method according to claim 1,
The recording processing unit,
A user interface for allowing a user to input at least one kind of related information about the voice file when storing the voice file,
The above-
An audio file name, speaker information, tag information, recording place information, recording time information, and conversation contents summary information,
The voice file is matched and stored through the storage unit,
Wherein at least one item is displayed and matched with the voice file through the graphical user interface.
상기 녹음 처리부는,
상기 음성 녹음이 종료 처리된 이후 기설정된 시간 내 새로운 음성 파일에 대한 녹음 시작 처리가 실행되면, 상기 음성 녹음이 종료 처리된 음성 파일과 상기 새로운 음성 파일을 결합하여 하나의 음성 파일로 상기 저장부에 저장하는 음성 아카이빙 장치.The method according to claim 1,
The recording processing unit,
If a recording start process for a new voice file is performed within a predetermined time after the end of the voice recording, the voice file whose voice recording has been finished is combined with the new voice file to be stored as one voice file in the storage unit The voice archiving device storing the voice archiving device.
상기 녹음 처리부는,
상기 결합 시 상기 음성 녹음이 종료 처리된 음성 파일과 상기 새로운 음성 파일 사이의 공백을 제거하여 저장하는 음성 아카이빙 장치.11. The method of claim 10,
The recording processing unit,
Wherein the voice archiving apparatus removes spaces between the voice file whose voice recording is terminated and the new voice file at the time of combining.
음성을 녹음하는 단계;
상기 녹음한 음성 데이터를 텍스트로 변환하는 단계;
상기 텍스트로부터 적어도 하나의 키워드를 추출하는 단계;
상기 음성 데이터를 녹음 시작 시점부터 녹음 종료 시점까지를 포함하는 음성 파일로 저장하되, 상기 키워드와 매칭하여 저장하는 단계; 및
상기 저장한 음성 파일을 재생하는 음성 파일 플레이어를 제공하는 단계를 포함하되,
상기 음성 파일 플레이어의 실행 시, 상기 음성 파일 상의 적어도 하나의 위치에 상기 키워드를 마커로 출력하는 그래픽 사용자 인터페이스가 제공되며,
상기 음성을 녹음하는 단계는,
상기 음성 아카이빙 장치에 포함된 하나 이상의 종류의 센서를 통해 센싱된 음성 또는 동작 정보에 기초하여 사전에 설정된 예약어 및 동작이 인식되면 기설정된 녹음 명령 이벤트가 발생된 것으로 판단하는 단계; 및
상기 판단에 따라 음성 녹음을 자동 시작 처리하는 단계를 포함하고,
상기 저장하는 단계 이후에,
기설정된 길이의 구간 단위로 연속하여 녹음된 상기 음성 데이터를 텍스트로 변환한 결과에 기초하여, 상기 구간 내 음성 인식에 따른 텍스트 데이터의 유무 상태를 검출하는 단계; 및
연속된 적어도 둘 이상의 상기 구간 내 음성 인식 결과가 존재하지 않는 경우 음성 녹음을 자동 종료 처리하는 단계를 더 포함하는 음성 아카이빙 방법.A voice archiving method using a voice archiving device,
Recording a voice;
Converting the recorded voice data into text;
Extracting at least one keyword from the text;
Storing the speech data as a speech file including the speech data from the start of recording to the end of recording; And
And providing a voice file player for playing back the stored voice file,
And a graphical user interface for outputting the keyword as a marker at at least one position on the voice file when the voice file player is executed,
The step of recording the voice includes:
Determining that a predetermined recording command event is generated when a preset word and an operation set in advance are recognized based on voice or operation information sensed through one or more types of sensors included in the voice archiving device; And
And automatically starting the voice recording according to the determination,
After the storing step,
Detecting presence or absence of text data according to speech recognition in the section based on a result of converting the speech data continuously recorded in units of intervals of a predetermined length into text; And
And automatically terminating the voice recording when at least two consecutive voice recognition results in the section do not exist.
상기 음성 데이터를 텍스트로 변환하는 단계는,
상기 음성을 녹음하는 단계를 통해 기설정된 길이를 갖는 구간 단위의 음성 데이터를 수신하는 단계; 및
상기 수신한 음성 데이터를 기설정된 스피치 투 텍스트(STT, Speech to Text) 애플리케이션 프로그래밍 인터페이스를 통해 텍스트로 변환 처리하는 단계를 포함하는 음성 아카이빙 방법.13. The method of claim 12,
Wherein the step of converting the speech data into text comprises:
Receiving voice data of a predetermined interval in a unit of interval through voice recording; And
And converting the received speech data into text through a predetermined Speech to Text (STT) application programming interface.
상기 저장하는 단계는,
상기 음성 파일에 음성 파일 아이디, 음성 파일 이름, 키워드 아이디, 키워드, 키워드 출현 구간 정보 및 구간 내 키워드 출현 빈도 정보를 서로 매칭하여 저장하는 음성 아카이빙 방법.13. The method of claim 12,
Wherein the storing step comprises:
Wherein the voice file ID, voice file name, keyword ID, keyword, keyword appearance period information, and keyword occurrence frequency information are matched and stored in the voice file.
상기 음성 파일 플레이어를 제공하는 단계는,
상기 음성 파일 플레이어의 실행 시, 음성 파일 별로 상기 저장된 음성 파일 이름 및 키워드를 추출하는 단계;
상기 추출한 음성 파일 이름 및 키워드를 포함하는 음성 파일 목록을 상기 그래픽 사용자 인터페이스를 통해 표시하는 단계;
어느 하나의 음성 파일에 대한 선택 정보를 입력받는 단계;
상기 선택 정보에 따른 음성 파일에 대응된 상기 저장된 키워드 및 키워드 출현 구간 정보를 추출하는 단계; 및
상기 추출한 결과에 기초하여 상기 선택 정보에 따른 음성 파일의 기설정된 길이의 구간마다 상기 키워드를 표시하는 단계를 포함하는 음성 아카이빙 방법.15. The method of claim 14,
Wherein providing the voice file player comprises:
Extracting the stored voice file name and keyword for each voice file when the voice file player is executed;
Displaying a list of voice files including the extracted voice file names and keywords through the graphical user interface;
Receiving selection information for any one of the audio files;
Extracting the stored keyword and keyword appearance period information corresponding to the voice file according to the selection information; And
And displaying the keyword on a section of a predetermined length of an audio file according to the selection information based on the extracted result.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140167445 | 2014-11-27 | ||
KR20140167445 | 2014-11-27 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101590078B1 true KR101590078B1 (en) | 2016-02-01 |
Family
ID=55354146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020140182638A KR101590078B1 (en) | 2014-11-27 | 2014-12-17 | Apparatus and method for voice archiving |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101590078B1 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018174397A1 (en) * | 2017-03-20 | 2018-09-27 | 삼성전자 주식회사 | Electronic device and control method |
KR101902784B1 (en) * | 2017-11-28 | 2018-10-01 | 주식회사 와이즈넛 | Metohd and apparatus for managing audio data using tag data |
KR20180106817A (en) * | 2017-03-20 | 2018-10-01 | 삼성전자주식회사 | Electronic device and controlling method thereof |
CN110751950A (en) * | 2019-10-25 | 2020-02-04 | 武汉森哲地球空间信息技术有限公司 | Police conversation voice recognition method and system based on big data |
US11308952B2 (en) * | 2017-02-06 | 2022-04-19 | Huawei Technologies Co., Ltd. | Text and voice information processing method and terminal |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05344199A (en) * | 1992-06-05 | 1993-12-24 | Matsushita Graphic Commun Syst Inc | Recorder |
KR20090113801A (en) * | 2009-06-02 | 2009-11-02 | 엘지전자 주식회사 | A mobile terminal with motion sensor and a controlling method thereof |
KR20110037115A (en) * | 2009-10-05 | 2011-04-13 | 에스케이텔레콤 주식회사 | Method for creating and playing sound-recorded file with keyword and portable device thereof |
KR20130129749A (en) * | 2012-05-21 | 2013-11-29 | 엘지전자 주식회사 | Method and electronic device for easily searching for voice record |
-
2014
- 2014-12-17 KR KR1020140182638A patent/KR101590078B1/en active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05344199A (en) * | 1992-06-05 | 1993-12-24 | Matsushita Graphic Commun Syst Inc | Recorder |
KR20090113801A (en) * | 2009-06-02 | 2009-11-02 | 엘지전자 주식회사 | A mobile terminal with motion sensor and a controlling method thereof |
KR20110037115A (en) * | 2009-10-05 | 2011-04-13 | 에스케이텔레콤 주식회사 | Method for creating and playing sound-recorded file with keyword and portable device thereof |
KR20130129749A (en) * | 2012-05-21 | 2013-11-29 | 엘지전자 주식회사 | Method and electronic device for easily searching for voice record |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11308952B2 (en) * | 2017-02-06 | 2022-04-19 | Huawei Technologies Co., Ltd. | Text and voice information processing method and terminal |
WO2018174397A1 (en) * | 2017-03-20 | 2018-09-27 | 삼성전자 주식회사 | Electronic device and control method |
KR20180106817A (en) * | 2017-03-20 | 2018-10-01 | 삼성전자주식회사 | Electronic device and controlling method thereof |
US11257482B2 (en) | 2017-03-20 | 2022-02-22 | Samsung Electronics Co., Ltd. | Electronic device and control method |
KR102529262B1 (en) | 2017-03-20 | 2023-05-08 | 삼성전자주식회사 | Electronic device and controlling method thereof |
KR20230067587A (en) * | 2017-03-20 | 2023-05-16 | 삼성전자주식회사 | Electronic device and controlling method thereof |
US11881209B2 (en) | 2017-03-20 | 2024-01-23 | Samsung Electronics Co., Ltd. | Electronic device and control method |
KR102666316B1 (en) | 2017-03-20 | 2024-05-17 | 삼성전자주식회사 | Electronic device and controlling method thereof |
KR101902784B1 (en) * | 2017-11-28 | 2018-10-01 | 주식회사 와이즈넛 | Metohd and apparatus for managing audio data using tag data |
CN110751950A (en) * | 2019-10-25 | 2020-02-04 | 武汉森哲地球空间信息技术有限公司 | Police conversation voice recognition method and system based on big data |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101590078B1 (en) | Apparatus and method for voice archiving | |
US9202469B1 (en) | Capturing noteworthy portions of audio recordings | |
KR102069322B1 (en) | Method for operating program and an electronic device thereof | |
US8812498B2 (en) | Methods and systems for providing podcast content | |
US9734871B2 (en) | Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium | |
US9472209B2 (en) | Deep tagging background noises | |
US10402407B2 (en) | Contextual smart tags for content retrieval | |
CN110913241B (en) | Video retrieval method and device, electronic equipment and storage medium | |
US11496806B2 (en) | Content providing server, content providing terminal, and content providing method | |
JP2013020411A (en) | Information processing apparatus, information processing method and program | |
US20160072948A1 (en) | Electronic device and method for extracting incoming/outgoing information and managing contacts | |
US8782052B2 (en) | Tagging method and apparatus of portable terminal | |
EP2682931B1 (en) | Method and apparatus for recording and playing user voice in mobile terminal | |
JP2014513828A (en) | Automatic conversation support | |
CN113411516A (en) | Video processing method and device, electronic equipment and storage medium | |
US20210064327A1 (en) | Audio highlighter | |
KR20140060217A (en) | System and method for posting message by audio signal | |
US11899716B2 (en) | Content providing server, content providing terminal, and content providing method | |
US20140372455A1 (en) | Smart tags for content retrieval | |
JP5472960B2 (en) | Terminal device and program | |
WO2024093443A1 (en) | Information display method and apparatus based on voice interaction, and electronic device | |
US9922079B2 (en) | Information processing apparatus, for assisting user in setting an appropriate search condition | |
JP2008171173A (en) | Document search method, apparatus and program | |
CN111259181A (en) | Method and equipment for displaying information and providing information | |
KR102503586B1 (en) | Method, system, and computer readable record medium to search for words with similar pronunciation in speech-to-text records |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20181108 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20191119 Year of fee payment: 5 |