WO2016060296A1 - 음향 정보 녹음 장치 및 그 제어 방법 - Google Patents

음향 정보 녹음 장치 및 그 제어 방법 Download PDF

Info

Publication number
WO2016060296A1
WO2016060296A1 PCT/KR2014/009692 KR2014009692W WO2016060296A1 WO 2016060296 A1 WO2016060296 A1 WO 2016060296A1 KR 2014009692 W KR2014009692 W KR 2014009692W WO 2016060296 A1 WO2016060296 A1 WO 2016060296A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound information
information
sound
recorded
user
Prior art date
Application number
PCT/KR2014/009692
Other languages
English (en)
French (fr)
Inventor
이경하
김태호
김지연
황인영
김강민
조성일
이한나
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to PCT/KR2014/009692 priority Critical patent/WO2016060296A1/ko
Priority to US15/517,407 priority patent/US10409547B2/en
Publication of WO2016060296A1 publication Critical patent/WO2016060296A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/433Query formulation using audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • G06F16/636Filtering based on additional data, e.g. user or group profiles by using biological or physiological data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 

Definitions

  • the present invention relates to an apparatus capable of recording sound information and a method of controlling the apparatus.
  • multimedia players with complex functions such as taking pictures or videos, playing music or video files, playing games, and receiving broadcasts are emerging.
  • Such devices may have various functions to make users more convenient. For example, if a user wants to take note of important content, such as in a meeting, these devices can provide a more accurate and convenient voice memo function through the recording function.
  • the user can record the desired sound information anytime and anywhere, such as the contents of the meeting or the melody, and keep the recorded sound information. Therefore, a method for enabling a user to recognize and search recorded sound information more easily and quickly is currently being actively researched.
  • Another object of the present invention is to provide a sound information recording apparatus and a method of controlling the same so that a user can search and select only a desired portion from the recorded sound information.
  • the sound information recording apparatus according to an embodiment of the present invention, a display unit, an input unit for receiving the sound information, an output unit for outputting the sound information and A sensing unit for sensing at least one of a surrounding environment and a biosignal, recording input sound information, extracting a keyword from the recorded sound information, analyzing the recorded sound information, and detecting the sensing unit And a controller configured to generate image information based on at least one of the results, and to display tag information in which the keyword and the image information are combined to correspond to the recorded sound information.
  • the graphic object may include at least one human-shaped graphic object, or at least one speech bubble-shaped graphic object, or at least one frequency when the recorded sound information includes a plurality of human voices.
  • a graphic object having a waveform shape and the controller controls a voice of a person corresponding to the selected graphic object when any one of the human-shaped graphic object, the speech bubble-shaped graphic object, or the frequency waveform-shaped graphic object is selected. Only bays are extracted from the sound information and output.
  • the controller may distinguish subjects generating the sound signal from each other according to inherent tones and features among the plurality of sound signals included in the sound information, and the subject generating the sound signal may include the sound. At least one person or musical instrument that generates a distinctive voice or playing sound according to the unique tone and characteristics of the signal.
  • the controller may differently determine a method of extracting the keyword according to a type of the recorded sound information according to a result of analyzing the sound information.
  • the controller when the sound information includes a melody having a predetermined rhythm, extracts a title of the melody as a keyword of the sound information through music search. It features.
  • the controller may characterize the recorded sound information through a voice to text (VTT) process. And extracting the keyword through the recognized character string.
  • VTT voice to text
  • the controller may extract a word repeated more than a preset number of times from the recognized character string or a word most frequently repeated among the repeated words as the keyword.
  • the controller when the preset specific word or phrase is included in the recognized character string, the controller extracts the specific word or phrase as the keyword.
  • the controller when at least one word input in advance is included in the recognized character string, the controller extracts a representative word corresponding to the at least one word as the keyword.
  • the control unit may extract the keyword based on a time when the sound information was recorded and a current stored position information that matches the recording time and the current position as a result of detecting the current position. It features.
  • the controller may generate image information including at least one graphic object different from each other according to the type of the recorded sound information as a result of analyzing the sound information.
  • the sound information may be determined according to whether a plurality of human voices or a melody having a predetermined rhythm are included.
  • control unit if the recorded sound information includes a plurality of human voice, at least one human-shaped graphic object, or at least one speech-shaped graphic object, or at least one frequency waveform And generating the image information including the graphic object of the form.
  • the control unit may generate the image information including the graphic object corresponding to the number of subjects of the voice recognized from the recorded sound information.
  • the controller when there is a recognizable voice among a plurality of human voices included in the recorded sound information, the controller recognizes a person corresponding to the voice and displays an image corresponding to the recognized person. It is characterized by displaying.
  • the control unit may determine the emotional state of the user by using the detection result of the sensing unit while the sound information is recorded, and the image information may correspond to the graphic object corresponding to the determined emotional state of the user. Characterized in that it comprises a.
  • the controller when sound information is recorded, the controller detects a current location, extracts information related to the location as the keyword, and reads the tag information including a graphic object corresponding to the detected location. And display the corresponding sound information.
  • the controller when search information is input, the controller searches sound information including a portion corresponding to the input search information, wherein the search information includes text information, recorded sound information, and a user's emotional state. , Characterized in that one of the current position.
  • the search information may further include information on the number of human voices
  • the controller may include a specific number of pre-stored sound information including a plurality of human voices based on the search information. Search for sound information including only a human voice.
  • the image information may include a graphic object for indicating a recording volume level of the sound information.
  • a control method of a sound information recording apparatus in the device for recording sound information, recording sound information, the sound information Detecting at least one surrounding environment and a bio-signal of a recording device, extracting a keyword by analyzing the recorded sound information, recognizing subjects of generating a sound signal included in the sound information, and detecting the detected ambient Generating image information using at least one of an environment, the sensed biosignal, and the subjects of the recognized acoustic signal; and recording the tag information including the generated image information and the extracted keyword. Displaying corresponding sound information, and when one of the tag information is selected, corresponding sound information is displayed. And outputting the sound information, wherein the sound information includes extracting and outputting a sound signal corresponding to any one of the recognized sound signal generators from the sound information. do.
  • the present invention extracts a keyword from the recorded sound information, by generating the tag information of the recorded sound information using the image information and the keyword generated from the extracted keyword,
  • the present invention is advantageous in that the user can selectively listen to at least a part of the recorded sound information by dividing the recorded sound information according to a predetermined criterion. have.
  • FIG. 1 is a block diagram illustrating a sound information recording apparatus related to the present invention.
  • FIG. 2 is an exemplary diagram illustrating an example of recording sound information in a sound information recording apparatus according to an embodiment of the present invention and playing the sound information according to a user's selection.
  • FIG. 3 is a flowchart illustrating an operation of generating tag information of recorded sound information and reproducing sound information in the sound information recording apparatus according to an exemplary embodiment of the present invention.
  • FIG. 4 is a flowchart illustrating an operation of reproducing sound information selected by a user in the sound information recording apparatus according to an exemplary embodiment of the present invention.
  • FIG. 5 is a flowchart illustrating an operation process of searching for sound information according to input search information in the sound information recording apparatus according to an exemplary embodiment of the present invention.
  • FIG. 6 is an exemplary view illustrating an example in which recorded sound information is displayed together with image information in the sound information recording apparatus according to an embodiment of the present invention.
  • FIG. 7A, 7B, 7C, and 7D illustrate a graphic object corresponding to a part of recorded sound information in the sound information recording apparatus according to an embodiment of the present invention, and accordingly, a part of the recorded sound information Exemplary diagrams showing an example where playback is selected.
  • FIG. 8 is an exemplary view illustrating an example of search information input by a user in the sound information recording apparatus according to an embodiment of the present invention.
  • the sound information recording apparatus described herein includes a mobile phone, a smart phone, a laptop computer, a digital broadcasting terminal, a personal digital assistant, a portable multimedia player, a navigation, and a slate PC.
  • PCs, tablet PCs, ultrabooks, wearable devices (e.g., smartwatches, glass glasses, head mounted displays) May be included.
  • FIG. 1 is a block diagram illustrating a sound information recording apparatus related to the present invention.
  • the sound information recording apparatus 100 may include an input unit 120, a sensing unit 140, an output unit 150, a memory 170, and a controller 180.
  • the wireless communication unit 110 may be further included.
  • the components illustrated in FIG. 1A are not essential to implementing the acoustic information recording apparatus 100 according to the embodiment of the present invention, and thus may have more or fewer components than those listed above.
  • the sensing unit 140 of the components may include at least one sensor for sensing the user's biological signal.
  • the sensing unit 140 may include at least one of a heart rate sensor for measuring a user's heart rate, a thermometer for checking a user's body temperature, and a sensor such as a blood pressure monitor for measuring a blood flow of the user, such as blood pressure. Can be.
  • the controller 180 may combine and use information sensed by at least two or more sensors among the sensors of the sensing unit 140.
  • the output unit 150 is for generating output related to hearing and vision, and may include a display unit 151 and a sound output unit 152.
  • the display unit 151 forms a layer structure with or is integrally formed with the touch sensor, thereby implementing a touch screen.
  • the touch screen may function as a user input unit 123 that provides an input interface between the sound information recording apparatus 100 and the user, and may provide an output interface between the sound information recording apparatus 100 and the user.
  • the sound output unit 150 may include a component (for example, a speaker) for outputting sound information. When sound information is reproduced, the sound information may be output as an audible sound through the component.
  • the input unit 120 may include a microphone 122 for inputting an audio signal, or an audio input unit, a user input unit 123 for receiving information from a user, for example, a touch key and a mechanical key. ), Etc.).
  • the voice data or the image data collected by the input unit 120 may be analyzed and processed as a control command of the user.
  • the input unit 120 is for inputting sound information (or signal), data, or information input from a user, and the microphone 122 processes an external sound signal as electrical voice data.
  • the processed voice data may be variously used according to a function (or an application program being executed) performed by the sound information recording apparatus 100.
  • various noise reduction algorithms may be implemented in the microphone 122 to remove noise generated in the process of receiving an external sound signal.
  • the user input unit 123 is for receiving information from a user. When information is input through the user input unit 123, the controller 180 may control an operation of the sound information recording apparatus 100 to correspond to the input information. Can be.
  • the user input unit 123 may include a mechanical input means and a touch input means.
  • the memory 170 stores data supporting various functions of the sound information recording apparatus 100.
  • the memory 170 may store a plurality of application programs or applications that are driven by the sound information recording apparatus 100, data for operating the sound information recording apparatus 100, and instructions. At least some of these applications may be downloaded from an external server via wireless communication.
  • at least some of these application programs may exist on the acoustic information recording apparatus 100 from the time of shipment for the basic function (for example, the acoustic information recording function) of the acoustic information recording apparatus 100.
  • the application program is stored in the memory 170, installed on the sound information recording apparatus 100, and driven to perform an operation (or function) of the sound information recording apparatus 100 by the controller 180. Can be.
  • the controller 180 In addition to the operation related to the application program, the controller 180 typically controls the overall operation of the sound information recording apparatus 100.
  • the controller 180 processes the input or output signal, data, information, etc. through the above-described components, or by running an application program stored in the sound information recording apparatus 100, thereby recording the sound signal input for a user desired time Or provide appropriate information (e.g., pre-recorded sound information) or functions to the user.
  • controller 180 may control at least some of the components described with reference to FIG. 1 to drive an application program stored in the memory 170. Furthermore, the controller 180 may operate by combining at least two or more of the components included in the mobile terminal 100 to drive the application program.
  • the wireless communication unit 110 enables wireless communication between the mobile terminal 100 and the wireless communication system, between the mobile terminal 100 and another mobile terminal 100, or between the mobile terminal 100 and an external server. It may include one or more modules. In addition, the wireless communication unit 110 may include one or more modules for connecting the mobile terminal 100 to one or more networks. The wireless communication unit 110 may include at least one of the wireless internet module 113, the short range communication module 114, and the location information module 115.
  • the wireless internet module 113 refers to a module for wireless internet access and may be embedded or external to the mobile terminal 100.
  • the wireless internet module 113 is configured to transmit and receive wireless signals in a communication network according to wireless internet technologies.
  • Wireless Internet technologies include, for example, Wireless LAN (WLAN), Wireless-Fidelity (Wi-Fi), Wireless Fidelity (Wi-Fi) Direct, Digital Living Network Alliance (DLNA), and Wireless Broadband (WiBro).
  • the wireless internet module 113 transmits and receives data according to at least one wireless internet technology in a range including the internet technologies not listed above.
  • the location information module 115 is a module for obtaining a location (or current location) of a mobile terminal, and a representative example thereof is a Global Positioning System (GPS) module or a Wireless Fidelity (WiFi) module.
  • GPS Global Positioning System
  • Wi-Fi Wireless Fidelity
  • the mobile terminal may acquire the location of the mobile terminal using a signal transmitted from a GPS satellite.
  • the mobile terminal may acquire the location of the mobile terminal based on information of the wireless access point (AP) transmitting or receiving the Wi-Fi module and the wireless signal.
  • the location information module 115 may perform any function of other modules of the wireless communication unit 110 to substitute or additionally obtain data regarding the location of the mobile terminal.
  • the location information module 115 is a module used to obtain the location (or current location) of the mobile terminal, and is not limited to a module that directly calculates or obtains the location of the mobile terminal.
  • At least some of the components may operate in cooperation with each other to implement an operation, control, or control method of the sound information recording apparatus 100 according to various embodiments described below.
  • the operation, control, or control method of the sound information recording apparatus 100 may be implemented on the sound information recording apparatus 100 by driving at least one application program stored in the memory 170.
  • the controller 180 of the sound information recording apparatus 100 may record sound information input through the microphone 122 under the control of the user.
  • the recorded sound information may be analyzed to extract keywords and to generate image information corresponding to the extracted keywords.
  • the controller 180 may generate tag information including the image information and display the tag information corresponding to the recorded sound information.
  • FIG. 2 illustrates an example of recording sound information in the sound information recording apparatus according to an exemplary embodiment of the present invention and playing the sound information according to a user's selection.
  • the controller 180 uses the keyword extracted from the recorded sound information, as shown in FIG. Likewise, the recorded sound information may be displayed as keyword and image information.
  • the keyword may be extracted from text recognized through a text to voice (VTT) process of the recorded sound information.
  • the controller 180 extracts a word that is repeated a predetermined number or more as the keyword, or when the words preset by the user are included in the recognized text or more, a preset number is set to correspond to the words.
  • a representative word may be extracted as the keyword.
  • the controller 180 may be extracted from the schedule information.
  • the keyword information may be a title of the melody searched through a music search result when the recorded sound information is a melody having a constant beat and pitch.
  • the image information may be determined in various ways.
  • the image information may be related to the keyword.
  • the image information includes at least one graphic object corresponding to the 'meeting' or 'meeting' (eg, a graphic object in the form of a speech bubble) 212. It can be created in the form.
  • the image information may include a graphic object corresponding to the recorded sound information (for example, a graphic object in the form of a note and a wrong line) 216.
  • the image information may be determined according to a sensing result of sensing the periphery of the sound information recording apparatus 100.
  • the image information may correspond to a graphic object corresponding to an emotional state of the user determined by using a result of sensing of the sensing unit 140 of the sound information recording apparatus 100, that is, a result of detecting a user's biosignal (
  • the graphic object 214 may correspond to a smiling face.
  • the image information may include a graphic object corresponding to the location information of the current user.
  • Such image information may be generated according to a keyword extracted from the recorded sound information, or a type or preset priority of the sound information. For example, when a keyword is extracted from the recorded sound information, the controller 180 may search for a graphic object corresponding to the keyword and generate image information including the searched graphic object. The extracted keyword and the image information may be combined to generate tag information about the recorded sound information.
  • the controller 180 can generate image information including a speech bubble graphic object corresponding to the 'meeting', as shown in FIG. Can be.
  • the controller 180 may generate first tag information 212 including the keyword 'meeting' and the generated image information.
  • the controller 180 can extract the title 'Sunny Day' of the melody found through music search as a keyword.
  • the controller 180 may generate the image information including the sound information and the graphic object in the shape of a note displayed on the misleading position.
  • the controller 180 may generate third tag information 216 including the keyword 'Sunny day' and the generated image information.
  • the sound information recording apparatus 100 may display the emotional state of the user as image information corresponding to the recorded sound information.
  • the controller 180 may determine the emotional state of the user from the heart rate, the body temperature, and the blood flow of the user detected by the sensors of the sensing unit 140.
  • the controller 180 may use a graphic object corresponding to the most dominant emotional state (for example, the emotional state sensed for the most time) among the emotional states of the user determined while the sound information is recorded as image information. I can display it.
  • the controller 180 may determine the type of image information corresponding to the recorded sound information according to a preset priority or a user's selection. For example, the controller 180 may classify the sound information as a top priority according to a situation in which the sound information is recorded, and includes a melody when the situation in which the sound information is recorded is not a predetermined specific situation.
  • the type of the image information may be determined according to whether or not the emotional state of the user. In this case, the controller 180 analyzes the recorded sound information, and when the situation in which the sound information is recorded is 'meeting' or 'meeting', a melody is included or the user's emotional state is in a specific state. Even in the case, the keyword may be extracted as a 'meeting' with respect to the recorded sound information, and thus image information may be generated.
  • the controller 180 can detect whether or not a melody is included when the situation in which the sound information is recorded is not a specific situation (for example, during a meeting or a meeting). have.
  • the melody it may be determined that the recorded sound information is a melody.
  • the controller 180 may display image information such as that shown in the third tag information 216 corresponding to the recorded sound information.
  • the controller 180 determines that the melody is not included in the sound information, or even though the melody is included, the time in which the melody is included is less than a preset time or is included in comparison with other recorded sound signals. If the magnitude of the sound signal is weaker than the predetermined level, it may be determined that the sound information is not about the melody. In this case, as shown in the second tag information 214 of FIG. 2B, the controller 180 can display the graphic object corresponding to the emotional state of the user as image information.
  • the controller 180 may apply to the sound information based on more various criteria.
  • the type of image information to be displayed may be determined.
  • the controller 180 may analyze the sound information and classify the sound information according to various criteria. For example, the controller 180 may recognize the sound information by classifying each subject. That is, the controller 180 may classify the voices of the people attending the 'meeting' from the sound information for each participant of the meeting based on characteristics such as frequency and height of each voice. Similarly, the controller 180 may distinguish sounds of various instruments from the 'melody' by using inherent tones of various instruments previously stored. Alternatively, the controller 180 may classify the recorded sound information into a plurality of sections based on the emotional state of the user determined while recording the sound information.
  • the controller 180 may display the graphic objects included in the image information by reflecting the number of the recognized subjects. That is, for example, when there are two or more persons who participate in the 'meeting', that is, the subjects (agents) of the voice, the graphic information corresponding thereto, that is, the image information including two speech bubbles is shown in FIG. It may be displayed as shown in the first tag information 212 shown in FIG. Accordingly, even if the user only checks the tag information of the recorded sound information, the user can intuitively know the keyword and the number of people (agents) attending the 'meeting'.
  • the controller 180 can play the selected sound information.
  • the controller 180 may play the entire selected sound information or only a part of the sound information according to a user's selection.
  • some of the sound information may be sound information (for example, a voice of a specific person or a specific instrument) generated from a specific subject, or may be a section corresponding to a specific emotional state of the user.
  • 2 (c) and 2 (d) show an example in which sound information selected from a user is reproduced by sound information recorded in a 'meeting' situation.
  • the controller 180 selects the entire playback 222 or the partial playback 224 as shown in FIG.
  • the graphic object 226 is displayed on the display unit 151 in which the voices included in the sound information are distinguished from each other by subject, that is, by person 228 and 230. can do.
  • the controller 180 may receive only the voice of a specific subject from the user through the graphic object 226. In this case, the controller 180 may extract and reproduce only the voice of the person selected by the user from the sound information. .
  • FIG. 2D illustrates an example in which only the voice 230 corresponding to the specific person selected by the user is extracted and reproduced from the sound information corresponding to the first tag information 212 selected by the user in this case.
  • various embodiments of the present disclosure may be implemented in a recording medium readable by a computer or a similar device using, for example, software, hardware, or a combination thereof.
  • FIG. 3 is a flowchart illustrating an operation of generating tag information of recorded sound information and reproducing sound information in the sound information recording apparatus according to an exemplary embodiment of the present invention.
  • the controller 180 of the sound information recording apparatus 100 records sound information input when the recording of sound information is selected from a user and detects related information. (S300).
  • the related information may be various.
  • the related information may be about a current time and location.
  • the controller 180 may recognize the current user's situation from previously stored schedule information of the user, based on the current time and location information. That is, when the currently detected time and the location of the user correspond to the time and place corresponding to the schedule included in the schedule information, the controller 180 may determine that the user is in a situation according to the preset schedule. In this case, the controller 180 can detect the information related to the preset schedule as the related information.
  • the related information may be information related to a user's biosignal. That is, the related information may be at least one of a user's heart rate, body temperature, blood flow, respiratory strength, and respiratory rate, and the controller 180 may determine various emotional states of the user based on the detection result of the biosignal of the user. have. For example, the controller 180 may determine whether the user is in a pleasant state, in a depressed state, or in an excited or concentrated state, based on a result of detecting the biosignal of the user.
  • the controller 180 may analyze the sound information based on the related information (S302). For example, in step S300, the controller 180 can analyze the type of the recorded sound information. That is, the controller 180 may determine the sound information as a melody when the melody is included in the recorded sound information more than a preset level, and when the sound information determined by the human voice is included, the controller 180 may determine the melody. It can be judged as sound information recorded with voice such as a meeting or a meeting.
  • the controller 180 may classify the sound signals included in the sound information based on the generating subject of the sound signal. For example, when the sound information includes a plurality of human voices, the controller 180 may classify the voices based on a subject of generating a sound signal, that is, 'person', from the sound information. Alternatively, when the sound information is a melody, the controller 180 may classify a sound signal for each instrument by classifying a tone for each instrument playing the melody from the sound information. In this case, the information on the tone for each instrument may be stored in the memory 170.
  • the subject of the sound signal may be distinguished only for sound signals having a predetermined level or more of intensity in the recorded sound information.
  • the controller 180 may recognize only people corresponding to voices of a predetermined size or more among voices included in the sound information as the subjects of sound signals.
  • the controller 180 recognizes only the sound of the instrument included in the melody as having a predetermined time or loudness as the subject of the sound signal.
  • only the sounds for the recognized instruments can be recognized separately.
  • the controller 180 may classify the sound information into a plurality of sound information based on not only the subject of the sound signal generation but also the emotional state of the user determined while the sound information is recorded. That is, the controller 180 matches the emotion state of the user determined while recording the sound information to each time section of the sound information, and the sound information according to the emotion state of the user corresponding to each time section of the sound information. Can be recognized separately.
  • the related information may include location information of the user.
  • the controller 180 may match the position state of the user detected while recording the sound information with each time section of the sound information.
  • the position of the user is moved while the sound information is recorded, the position of the user corresponding to each time section of the sound information may be recognized.
  • the controller 180 may extract a keyword from the recorded sound information.
  • the keyword may be extracted in various ways.
  • the controller 180 may extract the keyword based on a voice to text (VTT) recognition result of the recorded sound information.
  • the controller 180 may extract the keyword based on words included in a character string generated as a result of VTT recognition of the sound information.
  • the controller 180 may extract a word that is repeated more than a preset number of times from the character string as the keyword or extract the most repeated word as the keyword.
  • the controller 180 is a predetermined word (for example, 'Hunhwa', 'Hunsi', 'boss', 'boss', etc.) If so, the specific word or specific phrase may be extracted as a keyword for the character string.
  • a predetermined word for example, 'Hunhwa', 'Hunsi', 'boss', 'boss', etc.
  • the controller 180 may extract the keyword of the character string as a representative word corresponding thereto. Examples of representative words corresponding to these words are as shown in Table 1 below.
  • the user may set specific words (invention, patent, inventor, etc.) in advance.
  • the representative word can set up a 'patent meeting'.
  • the controller 180 includes the words, that is, words such as an invention, a patent, an inventor, a patent, a claim, or the like in a string generated as a result of the VTT of the currently recorded sound information, or repeats a predetermined level or more.
  • the keyword corresponding to the sound information may be extracted as a 'patent meeting'.
  • the controller 180 may use predetermined user schedule information to extract a keyword of the sound information.
  • the controller 180 may determine that the user is in a schedule corresponding to the schedule information.
  • the controller 180 may extract a keyword corresponding to the recorded sound information based on the schedule information.
  • the controller 180 can generate image information corresponding to the extracted keyword (S306).
  • the image information may be determined according to the type of the recorded sound information. For example, if the sound information includes a plurality of human voices, the controller 180 may generate image information including a graphic object (eg, a speech bubble) corresponding to the voices of the people. Alternatively, if the sound information is a melody, the controller 180 may generate image information including graphic objects (for example, a line of paper and a plurality of notes) corresponding to the melody.
  • the image information may include at least one different graphic object, and the graphic object may reflect the number of subjects of generating different sound signals. For example, if the recorded sound information includes voices of a plurality of people, the graphic object included in the image information may be displayed as the subject of the voice, that is, the number of people. Accordingly, if the sound information is recorded in the content of the meeting of two people, the controller 180 may generate image information including two speech balloons.
  • the controller 180 can generate tag information corresponding to the recorded sound information by using the generated image information and the keyword (S308).
  • the controller 180 may include image information including two speech bubbles and keywords corresponding to the meeting contents (eg, For example, a 'patent meeting' may be generated as tag information corresponding to the recorded sound information.
  • the tag information may be displayed on the display unit 151 to correspond to the recorded sound information. An example in which tag information about the recorded sound information is generated and the tag information is displayed on the display unit 151 will be described with reference to FIG. 6.
  • the controller 180 can play sound information according to a user's selection.
  • the controller 180 may play not only the entirety of the recorded sound information but also some of the recorded sound information according to the user's selection (S310).
  • FIG. 4 illustrates in more detail an operation process in which sound information selected by a user is reproduced and step S310 in the sound information recording apparatus according to the embodiment of the present invention.
  • the controller 180 of the sound information recording apparatus 100 receives selection of reproduction of all or part of the selected sound information.
  • a menu screen may be displayed (S400).
  • the controller 180 may detect whether the user has selected partial reproduction of the selected sound information (S402).
  • the user may reproduce the entire recorded sound information (S406).
  • the controller 180 may receive a selection for the partial reproduction of the recorded sound information from the user, in this case a plurality of The graphic object may be displayed on the display unit 151.
  • a part of the recorded sound information may be reproduced according to the selected criterion through the displayed graphic object.
  • the controller 180 may select a subject of generating a specific sound signal as a reference for the partial reproduction from the user. That is, as shown in (c) of FIG. 2, the controller 180 determines at least a state classified according to a generation subject of each sound signal or according to a predetermined division criterion based on a result of analyzing the selected sound information. It can be displayed using one graphic object. The sound information corresponding to a part of the sound information may be reproduced based on a user's selection of at least one graphic object corresponding to the divided state.
  • the recorded sound information when the recorded sound information includes a plurality of human voices, only the voice of a specific person can be extracted and reproduced according to a user's selection.
  • the recorded sound information is a melody, only the sound information of a specific instrument among the instruments playing the melody may be selectively reproduced.
  • the controller 180 may receive a user's emotional state or a user's position detection result as a reference for the partial reproduction.
  • the controller 180 can display graphic objects corresponding to the emotional state of the user or the location information of the user determined while the sound information is recorded on the display unit 151.
  • the controller 180 may receive a specific emotional state or a specific position from the user through the graphic object.
  • the sound information of some sections recorded when the user is in a specific emotional state or the user is in a specific position may be reproduced.
  • the controller 180 may be able to reproduce some of the sound information on the basis of a plurality of words included in the sound information.
  • the controller 180 may display, on the display unit 151, at least one graphic object corresponding to a word repeated more than a preset number of times as a result of the analysis in step S302.
  • the controller 180 selects a predetermined section including a sound signal corresponding to the selected word from among the recorded sound information (for example, a sound signal corresponding to the word is recorded.
  • the section corresponding to each of 5 seconds before and after the viewpoint may be reproduced.
  • the user can listen to only the necessary part based on the voice of a specific person, a specific musical instrument or his specific emotional state, his position or specific words from the sound information.
  • a criterion for reproducing a part of the recorded sound information is selected by a user will be described in more detail with reference to FIGS. 7A, 7B, 7C, and 7D.
  • the controller 180 of the sound information recording apparatus 100 performs a search for the sound information according to the search information input from the user by using the analysis result of the recorded sound information. You may. In this case, the controller 180 may search for previously recorded sound information based on not only a keyword but also a specific instrument, a specific person, a specific emotional state, or a recorded melody.
  • FIG. 5 is a flowchart illustrating an operation of searching for sound information according to input search information in the sound information recording apparatus according to an exemplary embodiment of the present invention.
  • the controller 180 of the sound information recording apparatus 100 recognizes a type of search information input from a user (S500).
  • the search information may be a character string input from a user or sound information (for example, a melody) recorded according to a user's control. Or it may be information about a particular emotional state of the user or the number of people participating in the conversation.
  • the controller 180 may arrange the pre-stored sound information according to a result of recognizing a type in the input search information in step S500 (S502). For example, when the input search information is a character string, the controller 180 may sort the pre-stored sound information based on a keyword, and when the input search information is a recorded melody, among the sound information. Only sound information including a melody may be extracted.
  • the controller 180 may sort the pre-stored sound information according to the emotional state or location information of the user. For example, the controller 180 may arrange each of the acoustic information according to a dominant emotional state.
  • the dominant emotional state may mean an emotional state of the user sensed for the most time while the sound information is recorded. That is, for example, when the emotional state of the user determined at the time of recording the sound information corresponding to the 10-minute length is 8 minutes for the 'fun state' and 2 minutes for the 'depressed state', the dominant user corresponding to the sound information.
  • the emotional state of a person can be a 'fun state'.
  • the controller 180 may determine the main location of the user corresponding to the sound information based on the detected location of the user for the most time.
  • the controller 180 may sort the pre-stored sound information according to the dominant emotional state or the main position of the user.
  • the controller 180 may extract and display sound information including a portion corresponding to the search information from the sorted sound information (S504). Accordingly, the controller 180 may search for and display sound information including at least a part corresponding to the search information (keyword, number of people, musical instrument, emotional state, location, etc.) selected by the user and displayed on the display unit 151. have.
  • the controller 180 may also provide a person search function using the speech recognition function.
  • the controller 180 may search for the image of the person with respect to the recognized voice from the profile information pre-stored in the memory 170 or the directory or the phone book when the voice recognition for the voice of the specific person is possible.
  • the controller 180 may receive any one of the image information of the person extracted from the phone book or the directory or profile information as the search information from the user.
  • the voice information of the person may be searched and displayed on the display unit 151.
  • the sound information recording apparatus 100 in the sound information recording apparatus 100 according to an embodiment of the present invention, an example of displaying recorded sound information and an example of recording or reproducing the recorded sound information according to an embodiment of the present invention are illustrated. See this in more detail.
  • the sound information recording apparatus 100 according to an embodiment of the present invention is a mobile terminal such as a smart phone.
  • the present invention is not limited thereto. That is, the present invention may be implemented in any other mobile terminal as well as a smart phone, and of course, it can be implemented in a fixed terminal as well as a mobile terminal.
  • FIG. 6 is an exemplary view illustrating an example in which recorded sound information is displayed together with image information in the sound information recording apparatus according to an embodiment of the present invention.
  • the sound information recording apparatus 100 may record sound information received under the control of a user.
  • 6A illustrates an example of a screen displayed on the display unit 151 of the sound information recording apparatus 100 according to an embodiment of the present invention in this case.
  • the controller 180 can display the graphic object 600 related to the frequency waveform of the recorded sound information on the display unit 151.
  • the user The graphic object 602 related to the volume control may be displayed on the display unit 151 so that the user can adjust the volume of the recorded sound information.
  • the controller 180 may also sense various related information such as an emotional state or a location of the user.
  • the controller 180 can analyze the recorded sound information.
  • the controller 180 may display the screen 610 related to the analysis result of the recorded sound information on the display unit 151.
  • the result screen 610 may display a keyword extracted from current sound information and the number of agents generating sound signals recognized from the sound information.
  • the controller 180 may extract a keyword as 'Meeting' according to the recorded content, and the 'two people' as the subject of the sound signal. (2 People) 'can be recognized and displayed. 6 (b) shows such an example.
  • the result screen 610 may be selected by a user for displaying a subject of the sound signal.
  • the controller 180 displays the speech bubble graphic objects 612 and the person person graphic object as shown in (b) of FIG. 6 to the user. 614, a graphic object 616 including a plurality of waveforms corresponding to voices of different people may be selected by the user.
  • the graphic objects may reflect the number of actors of the acoustic signal. That is, as shown in (b) of FIG.
  • a graphic object including one or more speech bubbles, a person-shaped image, or a frequency waveform may be displayed on the display unit 151 and may be selected by a user.
  • the controller 180 may generate image information corresponding to the recorded sound information according to a method selected by the user.
  • 6 (c) and 6 (d) show examples of such a case.
  • the controller 180 may generate image information including at least one speech bubble graphic object. have.
  • the tag information 622 including the extracted keyword 'Meeting' and the generated image information may be generated and displayed to correspond to the currently recorded sound information. 6 (c) shows an example of such a case.
  • the controller 180 may further display a separate graphic object (volume graphic object) for displaying the volume level at which the sound information is recorded.
  • the controller 180 may display the volume graphic object around the generated tag information, and the volume graphic objects may be displayed in different forms according to the recording volume level of the sound information.
  • the volume graphic objects 632 and 634 respectively corresponding to the first tag information 622 and the second tag information 624 are different from each other, this is the first tag.
  • the recording volume levels of the sound information corresponding to the tag information 622 and the second tag information 624 may be different from each other. Accordingly, when it is displayed as shown in FIG. 6D, the user recognizes that the recording volume level of the sound information corresponding to the second tag information 624 is greater than the sound information corresponding to the first tag information 622. can do.
  • 7A, 7B, 7C, and 7D illustrate a graphic object corresponding to a part of the recorded sound information in the sound information recording apparatus according to an embodiment of the present invention, and accordingly a part of the recorded sound information. These are examples showing an example in which playback of is selected.
  • FIG. 7A illustrates a case in which a user selects a partial reproduction of sound information recorded during a meeting or a meeting among previously stored sound information.
  • the controller 180 As shown in (a) of FIG. 7A, when the user selects sound information recorded during a meeting or a meeting, that is, when selecting sound information including a plurality of human voices, the controller 180 As shown in (b) of FIG. 7A, a menu screen 710 for selecting all or part of the selected sound information may be displayed. If the user selects a part of all reproductions on the menu screen 710, the controller 180 controls the subjects recognized from the sound information, that is, the graphic objects corresponding to the people, respectively. 720, 722, and 724 may be displayed on the display unit 151.
  • the graphic objects 720, 722, and 724 may correspond to subjects of different sound signals, respectively. That is, if the currently selected sound information includes voices of three people (person A, person B, and person C), the controller 180 may display three different graphic objects 720, 722, and the like according to the subject of each voice. 724 may be displayed on the display unit 151. In this case, the controller 180 can receive any one graphic object from the user. When the first graphic object 720 is selected as shown in FIG. 7A, the controller 180 can control the first graphic object. Only the voice of the subject, ie, person A, corresponding to the object 720 may be extracted from the sound information and reproduced.
  • FIG. 7B illustrates an example in which a graphic object in which an emotional state of a user is displayed as image information is selected.
  • the controller 180 may display a menu screen 710 for selecting all or a part of the selected sound information as shown in FIG. 7B (b). If the user selects a part of all playback on the menu screen 710, the controller 180 may generate a graphic corresponding to each of the user's emotional states recognized while the sound information is recorded.
  • the objects 730, 732, and 734 may be displayed on the display unit 151.
  • the controller 180 can receive any one graphic object from the user.
  • the controller 180 determines that the emotional state of the user corresponding to the second graphic object 732, that is, the user's state is' Only a portion of the sound information matching the 'fun' state can be extracted and reproduced.
  • FIG. 7C illustrates a case in which the user selects a part of reproduction of sound information recorded with a melody among previously stored sound information.
  • the controller 180 controls the entirety of the selected sound information as shown in (b) of FIG. 7C.
  • a menu screen 710 for selecting a portion may be displayed. If the user selects the reproduction of a part of all on the menu screen 710, the controller 180 controls the graphic objects 740 and 742 corresponding to the subjects recognized from the sound information. , 744 may be displayed on the display unit 151.
  • the subject of the sound signal may be a musical instrument. Accordingly, graphic objects 740, 742, and 744 corresponding to different musical instruments are displayed on the display unit 151 as shown in (b) of FIG. 7C. May be displayed.
  • the controller 180 can receive any one graphic object from the user.
  • the controller 180 controls only the sound corresponding to the subject corresponding to the first graphic object 740, that is, the instrument A. It can be extracted from the information and played back.
  • the controller 180 may determine that the sound information includes words that are repeated more than a preset number of times or important words designated by the user in the sound information as a result of analyzing the recorded sound information. As is, it is possible to generate image information in the form of a list. In addition, the controller 180 may extract and reproduce only the words including the repeated words more than the preset number of times or the section including the specific word predefined by the user from the sound information.
  • FIG. 7D illustrates this example. That is, as shown in (b) of FIG. 7D, the controller 180 may display a menu screen 710 for selecting all or part of the selected sound information. If the user selects a part of all playback on the menu screen 710, the controller 180 displays specific words 750 recognized from the sound information on the display unit 151. Can be marked on. In this case, the controller 180 may receive one of the words from the user, and when one word is selected from the user, a part of the sound information based on the reproduction time of the sound signal corresponding to the selected word. The section can be extracted and reproduced. In this case, for example, sections corresponding to a preset time (for example, each 5 seconds before and after) may be reproduced before and after the reproduction time of the sound information corresponding to the word selected by the user.
  • a preset time for example, each 5 seconds before and after
  • FIG. 8 illustrates an example of search information input by a user in the sound information recording apparatus according to the embodiment of the present invention.
  • FIG. 8 illustrates examples of various search information that can be input by a user.
  • the search information may be text information as shown in FIG.
  • the controller 180 can search for pre-stored sound information including text information input from the user.
  • the controller 180 may search for sound information including text information input as the search information among keywords of pre-stored sound information.
  • the controller 180 may search for sound information including text information input as the search information from a character string recognized as a result of the VTT of the previously stored sound information.
  • a name of a specific person or a name such as a specific place may be input in the form of the text information.
  • the controller 180 may search for sound information corresponding to a name or place name of a specific person corresponding to the input text information.
  • the controller 180 may search for sound information recorded at a place corresponding to the text information by comparing the location information of the user, which is detected together with the sound information, with the input text information. to be.
  • the controller 180 may use not only text information but also sound signals recorded under the control of the user as the search information. 8 (b) shows such an example.
  • the controller 180 may record a sound signal input under the control of the user.
  • the controller 180 may search for information including the recorded sound signal from among previously stored sound information. That is, for example, when the sound signal recorded as the search information is a melody having a predetermined rhythm, the controller 180 includes a melody corresponding to the search information among sound information including previously stored melodies. You can search for information.
  • the controller 180 may use the result of VTT recognition of the recorded sound signal.
  • the controller 180 may search for sound information by using text information recognized from the recorded sound signal.
  • the process of searching for sound information using the text information may be similar to the case of directly receiving text characters from the user.
  • the controller 180 may search for sound information based on the emotional state of the user.
  • the controller 180 may display a menu screen 820 including graphic objects corresponding to various emotional states of the user on the display unit 151.
  • the sound information recorded in the emotional state of the user corresponding to the graphic object selected by the user may be searched among the previously stored sound information.
  • the controller 180 may determine a dominant emotional state for each of the pre-stored sound information, and perform the search by using the dominant emotional state.
  • the controller 180 may search based on the number of subjects of the sound signal included in the sound information.
  • the subject of the sound signal may be, for example, the number of people in the case of sound information including a plurality of human voices, such as a meeting or a meeting.
  • an instrument that plays the melody may be used. May be
  • the controller 180 may display a menu screen on the display unit 151 for receiving the number of subjects of the sound signal from the user. That is, for example, when the user selects the number of people, the menu screen 830 may include items including graphic objects each displaying a different number of people, as shown in FIG. 8D. Can be.
  • the controller 180 may determine the number of people corresponding to the second item 834, that is, two voices.
  • the search may include sound information including, from previously stored sound information.
  • the controller 180 may search for sound information recorded with melodies played by a specific number of instruments.
  • the controller 180 may recognize a voice of a person extracted from the sound information and recognize a subject of the voice.
  • the controller 180 may search for image information corresponding to the subject of the voice from a pre-stored directory, phone book or profile information, and display the retrieved information on the display unit 151.
  • an image of the participants of the conversation contents may be generated as image information corresponding to the recorded sound information. Accordingly, the user may more easily use the image information.
  • the recorded sound information can be quickly recognized.
  • the present invention described above can be embodied as computer readable codes on a medium in which a program is recorded.
  • the computer-readable medium includes all kinds of recording devices in which data that can be read by a computer system is stored. Examples of computer-readable media include hard disk drives (HDDs), solid state disks (SSDs), silicon disk drives (SDDs), ROMs, RAMs, CD-ROMs, magnetic tapes, floppy disks, optical data storage devices, and the like. This also includes implementations in the form of carrier waves (eg, transmission over the Internet).
  • the computer may include the controller 180 of the terminal.

Abstract

본 발명은 음향 정보를 녹음 할 수 있는 장치 및 그 장치의 제어 방법에 관한 것으로, 디스플레이부와, 음향 정보를 입력받는 입력부와, 주변 환경 및 생체 신호 중 적어도 하나를 감지하기 위한 감지부, 및, 입력된 음향 정보를 녹음 및, 녹음된 음향 정보로부터 키워드를 추출하고, 상기 녹음된 음향 정보를 분석한 결과 및 상기 감지부의 감지 결과 중 적어도 하나에 근거하여 이미지 정보를 생성하며, 상기 키워드와 상기 이미지 정보가 결합된 태그 정보를 상기 녹음된 음향 정보에 대응되도록 표시하는 제어부를 포함하는 것을 특징으로 한다.

Description

음향 정보 녹음 장치 및 그 제어 방법
본 발명은 음향 정보를 녹음 할 수 있는 장치 및 그 장치의 제어 방법에 관한 것이다.
현재에는 기술의 발달에 힘입어 다양한 멀티미디어 기능을 가지고 있는 다양한 기기들이 등장하고 있다. 예를 들어 사진이나 동영상의 촬영, 음악이나 동영상 파일의 재생, 게임, 방송의 수신 등의 복합적인 기능들을 갖춘 멀티미디어 기기(Multimedia player)들이 등장하고 있는 추세이다.
그리고 이러한 기기들은 사용자들을 보다 편리하게 하는 다양한 기능들을 가질 수 있다. 예를 들어 사용자가 회의등에서 중요한 내용을 메모하려고 하는 경우 이러한 기기들은 녹음 기능을 통해 사용자에게 보다 정확하고 편리한 음성 메모 기능을 제공할 수 있다.
이에 따라 사용자는 회의 내용이나 멜로디 등 언제 어디서건 자신이 원하는 음향 정보를 녹음 할 수 있으며, 녹음된 음향 정보를 보관할 수 있다. 따라서 사용자가, 보다 쉽고 빠르게 녹음된 음향 정보를 인식 및 검색할 수 있도록 하는 방법이 현재 활발하게 연구 중인 실정이다.
본 발명의 일 목적은, 사용자가, 녹음된 음향 정보의 내용을 직관적으로 인식하여 보다 빠르고 쉽게 사용자가 원하는 음향 정보를 검색할 수 있도록 하는 음향 정보 녹음 장치 및 그 장치의 제어 방법을 제공하는 것이다.
본 발명의 다른 목적은, 녹음된 음향 정보로부터 사용자가 원하는 부분만을 검색 및 선택하여 청취할 수 있도록 하는 음향 정보 녹음 장치 및 그 장치의 제어 방법을 제공하는 것이다.
상기 또는 다른 목적을 달성하기 위해 본 발명의 일 측면에 따르면, 본 발명의 실시 예에 따른 음향 정보 녹음 장치는, 디스플레이부와, 음향 정보를 입력받는 입력부와, 음향 정보를 출력하기 위한 출력부와, 주변 환경 및 생체 신호 중 적어도 하나를 감지하기 위한 감지부, 및, 입력된 음향 정보를 녹음 및, 녹음된 음향 정보로부터 키워드를 추출하고, 상기 녹음된 음향 정보를 분석한 결과 및 상기 감지부의 감지 결과 중 적어도 하나에 근거하여 이미지 정보를 생성하며, 상기 키워드와 상기 이미지 정보가 결합된 태그 정보를 상기 녹음된 음향 정보에 대응되도록 표시하는 제어부를 포함하며, 상기 제어부는, 상기 녹음된 음향 정보에 포함된 음향 신호를 발생시키는 주체들을 인식하고, 상기 음향 신호를 발생시키는 주체 별로 구분되는 적어도 하나의 서로 다른 그래픽 객체를 상기 디스플레이부 상에 표시 및, 상기 그래픽 객체들 중 선택된 어느 하나에 대응되는 주체로부터 발생되는 음향 신호를 상기 녹음된 음향 정보로부터 추출하여 출력하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 그래픽 객체는, 상기 녹음된 음향 정보가 복수의 사람 목소리를 포함하는 경우, 적어도 하나의 사람 모양의 그래픽 객체, 또는 적어도 하나의 말풍선 모양의 그래픽 객체, 또는 적어도 하나의 주파수 파형 형태의 그래픽 객체이며, 상기 제어부는, 상기 사람 모양의 그래픽 객체, 또는 상기 말풍선 모양의 그래픽 객체 또는 상기 주파수 파형 형태의 그래픽 객체 중 어느 하나가 선택되는 경우, 선택된 그래픽 객체에 대응되는 사람의 목소리만을 상기 음향 정보로부터 추출하여 출력하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 제어부는, 상기 음향 정보에 포함된 복수의 음향 신호 중 고유 음색 및 특징에 따라 상기 음향 신호를 발생시키는 주체를 서로 구분하고, 상기 음향 신호를 발생시키는 주체는, 상기 음향 신호의 고유 음색 음색 및 특징에 따라 각각 구분되는 목소리 또는 연주음을 발생시키는 적어도 하나의 사람 또는 악기임을 특징으로 한다.
일 실시 예에 있어서, 상기 제어부는, 상기 음향 정보를 분석한 결과에 따라 상기 녹음된 음향 정보의 유형에 따라 상기 키워드를 추출하는 방식을 서로 다르게 결정하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 제어부는, 상기 음향 정보를 분석한 결과, 상기 음향 정보가 일정한 리듬을 가지는 멜로디를 포함하는 경우, 음악 검색을 통해 상기 멜로디의 제목을 상기 음향 정보의 키워드로 추출하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 제어부는, 상기 음향 정보를 분석한 결과, 상기 음향 정보가 적어도 한 명의 사람 음성을 포함하는 경우, VTT(Voice To Text) 과정을 통해 상기 녹음된 음향 정보의 내용을 문자열로 인식하고, 상기 인식된 문자열을 통해 상기 키워드를 추출하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 제어부는, 상기 인식된 문자열 중 기 설정된 횟수 이상 반복된 단어 또는 상기 반복된 단어들 중 가장 많이 반복된 단어를 상기 키워드로 추출하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 제어부는, 기 설정된 특정 단어 또는 어구가 상기 인식된 문자열에 포함되어 있는 경우, 상기 특정 단어 또는 어구를 상기 키워드로 추출하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 제어부는, 미리 입력된 적어도 하나의 단어가 상기 인식된 문자열에 포함되어 있는 경우, 상기 적어도 하나의 단어에 대응되는 대표 단어를 상기 키워드로 추출하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 제어부는, 상기 음향 정보가 녹음된 시각과, 현재의 위치를 감지한 결과, 상기 녹음 시각 및 현재의 위치에 매칭되는 기 저장된 일정 정보에 근거하여 상기 키워드를 추출하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 제어부는, 상기 음향 정보를 분석한 결과, 상기 녹음된 음향 정보의 유형에 따라 서로 다른 적어도 하나의 그래픽 객체를 포함하는 이미지 정보를 생성하며, 상기 음향 정보의 유형은, 상기 음향 정보가 복수의 사람 음성을 포함하고 있는지 또는 일정한 리듬을 가지는 멜로디를 포함하고 있는지 여부에 따라 결정되는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 제어부는, 상기 녹음된 음향 정보가 복수의 사람 목소리를 포함하는 경우, 적어도 하나의 사람 모양의 그래픽 객체, 또는 적어도 하나의 말풍선 모양의 그래픽 객체, 또는 적어도 하나의 주파수 파형 형태의 그래픽 객체를 포함하는 상기 이미지 정보를 생성하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 제어부는, 상기 녹음된 음향 정보로부터 인식되는 목소리의 주체의 개수에 대응되는 개수의 상기 그래픽 객체를 포함하는 상기 이미지 정보를 생성하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 제어부는, 상기 녹음된 음향 정보에 포함된 복수의 사람 목소리 중 인식 가능한 목소리가 있는 경우, 해당 목소리에 대응되는 인물을 인식하고 인식된 인물에 대응되는 이미지를 상기 그래픽 객체로 표시하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 제어부는, 상기 음향 정보가 녹음되는 동안 상기 감지부의 감지 결과를 이용하여 사용자의 정서 상태를 판단하고, 상기 이미지 정보는, 상기 판단된 사용자의 정서 상태에 대응되는 그래픽 객체를 포함하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 제어부는, 음향 정보가 녹음되면 현재 위치를 감지하고, 상기 위치와 관련된 정보를 상기 키워드로 추출 및, 상기 감지된 위치에 대응되는 그래픽 객체를 포함하는 상기 태그 정보를 상기 녹음된 음향 정보에 대응되도록 표시하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 제어부는, 검색 정보가 입력되면, 입력된 검색 정보에 대응되는 부분을 포함하는 음향 정보를 검색하며, 상기 검색 정보는, 텍스트 정보, 녹음된 음향 정보, 사용자의 정서 상태, 현재의 위치 중 어느 하나임을 특징으로 한다.
일 실시 예에 있어서, 상기 검색 정보는, 사람 목소리의 개수에 대한 정보를 더 포함하며, 상기 제어부는, 복수의 사람 목소리를 포함하는 기 저장된 음향 정보들 중, 상기 검색 정보에 근거하여 특정 수의 사람 목소리만이 포함된 음향 정보들을 검색하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 이미지 정보는, 상기 음향 정보의 녹음 볼륨 레벨을 표시하기 위한 그래픽 객체를 포함하는 것을 특징으로 한다.
상기 또는 다른 목적을 달성하기 위해 본 발명의 일 측면에 따르면, 본 발명의 실시 예에 따른 음향 정보 녹음 장치의 제어 방법은, 음향 정보를 녹음하는 장치에 있어서, 음향 정보를 녹음하고, 상기 음향 정보 녹음 장치의 주변 환경 및 생체 신호를 적어도 하나 감지하는 단계와, 상기 녹음된 음향 정보를 분석하여 키워드를 추출 및, 상기 음향 정보에 포함된 음향 신호의 발생 주체들을 인식하는 단계와, 상기 감지된 주변 환경, 상기 감지된 생체 신호 및, 상기 인식된 음향 신호의 발생 주체들 중 적어도 하나를 이용하여 이미지 정보를 생성하는 단계와, 상기 생성된 이미지 정보와 상기 추출된 키워드를 포함하는 태그 정보를 상기 녹음된 음향 정보에 대응되게 표시하는 단계, 및, 상기 태그 정보 중 어느 하나가 선택되면, 그에 대응되는 음향 정보를 출력하는 단계를 포함하며, 상기 음향 정보를 출력하는 단계는, 상기 인식된 음향 신호 발생 주체들 중 선택된 어느 하나에 대응되는 음향 신호를 상기 음향 정보로부터 추출하여 출력하는 단계를 포함하는 단계임을 특징으로 한다.
본 발명에 따른 음향 정보 제공 장치 및 그 장치의 제어 방법의 효과에 대해 설명하면 다음과 같다.
본 발명의 실시 예들 중 적어도 하나에 의하면, 본 발명은 녹음된 음향 정보로부터 키워드를 추출하고, 추출된 키워드로부터 생성된 이미지 정보와 상기 키워드를 이용하여 상기 녹음된 음향 정보의 태그 정보를 생성함으로써, 사용자가 상기 녹음된 음향 정보를 직관적으로 인식할 수 있도록 한다는 장점이 있다.
또한, 본 발명의 실시예들 중 적어도 하나에 의하면, 본 발명은 녹음된 음향 정보를 기 설정된 기준에 따라 구분하여 사용자가 상기 녹음된 음향 정보로부터 원하는 적어도 일부만을 선택적으로 청취할 수 있도록 한다는 장점이 있다.
도 1은 본 발명과 관련된 음향 정보 녹음 장치를 설명하기 위한 블록도이다.
도 2는 본 발명의 실시 예에 따른 음향 정보 녹음 장치에서 음향 정보를 녹음하고, 사용자의 선택에 따라 재생하는 예를 도시한 예시도이다.
도 3은 본 발명의 실시 예에 따른 음향 정보 녹음 장치에서, 녹음된 음향 정보의 태그 정보를 생성 및 음향 정보를 재생하는 동작 과정을 도시한 흐름도이다.
도 4는 본 발명의 실시 예에 따른 음향 정보 녹음 장치에서, 사용자에 의해 선택된 음향 정보가 재생되는 동작 과정을 도시한 흐름도이다.
도 5는 본 발명의 실시 예에 따른 음향 정보 녹음 장치에서, 입력된 검색 정보에 따라 음향 정보가 검색되는 동작 과정을 도시한 흐름도이다.
도 6은 본 발명의 실시 예에 따른 음향 정보 녹음 장치에서, 녹음된 음향 정보가 이미지 정보와 함께 표시되는 예를 도시한 예시도이다.
도 7a, 도 7b, 도 7c 및 도 7d는 본 발명의 실시 예에 따른 음향 정보 녹음 장치에서, 녹음된 음향 정보의 일부분에 대응되는 그래픽 객체가 표시되고, 그에 따라 상기 녹음된 음향 정보의 일부의 재생이 선택되는 예를 도시한 예시도들이다.
도 8은 본 발명의 실시 예에 따른 음향 정보 녹음 장치에, 사용자에 의해 입력되는 검색 정보의 예를 도시한 예시도이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 동일하거나 유사한 구성요소에는 동일, 유사한 도면 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 명세서에서 설명되는 음향 정보 녹음 장치에는 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 디지털방송용 단말기, PDA(personal digital assistants), PMP(portable multimedia player), 네비게이션, 슬레이트 PC(slate PC), 태블릿 PC(tablet PC), 울트라북(ultrabook), 웨어러블 디바이스(wearable device, 예를 들어, 워치형 단말기 (smartwatch), 글래스형 단말기 (smart glass), HMD(head mounted display)) 등이 포함될 수 있다.
그러나 본 명세서에 기재된 실시 예에 따른 구성은 이동 단말기에만 적용 가능한 경우를 제외하면, 디지털 TV, 데스크탑 컴퓨터, 디지털 사이니지 등과 같은 고정 단말기에도 적용될 수도 있음을 본 기술분야의 당업자라면 쉽게 알 수 있을 것이다.
도 1은 본 발명과 관련된 음향 정보 녹음 장치를 설명하기 위한 블록도이다.
상기 음향 정보 녹음 장치(100)는 입력부(120), 감지부(140), 출력부(150), 메모리(170) 및 제어부(180) 등을 포함할 수 있다. 그리고 무선 통신부(110)를 더 포함하여 구성될 수도 있다. 도 1a에 도시된 구성요소들은 본 발명의 실시 예에 따른 음향 정보 녹음 장치(100)를 구현하는데 있어서 필수적인 것은 아니어서, 위에서 열거된 구성요소들 보다 많거나, 또는 적은 구성요소들을 가질 수 있다.
보다 구체적으로, 상기 구성요소들 중 센싱부(140)는, 사용자의 생체 신호를 센싱하기 위한 적어도 하나의 센서를 포함할 수 있다. 예를 들어, 센싱부(140)는 사용자의 심박수를 측정하기 위한 심박 센서, 사용자의 체온을 체크하기 위한 체온계 및, 혈압 등 사용자의 혈류량을 측정하기 위한 혈압계 등의 센서들 중 적어도 하나를 포함할 수 있다. 또한 제어부(180)는 상기 센싱부(140)의 센서들 중 적어도 둘 이상의 센서에서 센싱되는 정보들을 조합하여 활용할 수 있다.
출력부(150)는 청각 및 시각과 관련된 출력을 발생시키기 위한 것으로, 디스플레이부(151), 음향 출력부(152)를 포함할 수 있다. 디스플레이부(151)는 터치 센서와 상호 레이어 구조를 이루거나 일체형으로 형성됨으로써, 터치 스크린을 구현할 수 있다. 이러한 터치 스크린은, 음향 정보 녹음 장치(100)와 사용자 사이의 입력 인터페이스를 제공하는 사용자 입력부(123)로써 기능함과 동시에, 음향 정보 녹음 장치(100)와 사용자 사이의 출력 인터페이스를 제공할 수 있다. 그리고 음향 출력부(150)는 음향 정보를 출력하기 위한 구성 요소(예를 들어 스피커)를 포함할 수 있다. 그리고 음향 정보가 재생되는 경우, 상기 음향 정보를 상기 구성 요소를 통해 가청음으로 출력할 수 있다.
입력부(120)는, 오디오 신호 입력을 위한 마이크로폰(microphone, 122), 또는 오디오 입력부, 사용자로부터 정보를 입력받기 위한 사용자 입력부(123, 예를 들어, 터치키(touch key), 푸시키(mechanical key) 등)를 포함할 수 있다. 입력부(120)에서 수집한 음성 데이터나 이미지 데이터는 분석되어 사용자의 제어명령으로 처리될 수 있다.
또한 입력부(120)는 음향 정보(또는 신호), 데이터, 또는 사용자로부터 입력되는 정보의 입력을 위한 것으로서, 마이크로폰(122)은 외부의 음향 신호를 전기적인 음성 데이터로 처리한다. 처리된 음성 데이터는 음향 정보 녹음 장치(100)에서 수행 중인 기능(또는 실행 중인 응용 프로그램)에 따라 다양하게 활용될 수 있다. 한편, 마이크로폰(122)에는 외부의 음향 신호를 입력 받는 과정에서 발생되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘이 구현될 수 있다.
사용자 입력부(123)는 사용자로부터 정보를 입력받기 위한 것으로서, 사용자 입력부(123)를 통해 정보가 입력되면, 제어부(180)는 입력된 정보에 대응되도록 음향 정보 녹음 장치(100)의 동작을 제어할 수 있다. 이러한, 사용자 입력부(123)는 기계식 (mechanical) 입력수단 및 터치식 입력수단을 포함할 수 있다.
또한, 메모리(170)는 음향 정보 녹음 장치(100)의 다양한 기능을 지원하는 데이터를 저장한다. 메모리(170)는 음향 정보 녹음 장치(100)에서 구동되는 다수의 응용 프로그램(application program 또는 애플리케이션(application)), 음향 정보 녹음 장치(100)의 동작을 위한 데이터들, 명령어들을 저장할 수 있다. 이러한 응용 프로그램 중 적어도 일부는, 무선 통신을 통해 외부 서버로부터 다운로드 될 수 있다. 또한 이러한 응용 프로그램 중 적어도 일부는, 음향 정보 녹음 장치(100)의 기본적인 기능(예를 들어, 음향 정보 녹음 기능)을 위하여 출고 당시부터 음향 정보 녹음 장치(100)상에 존재할 수 있다. 한편, 응용 프로그램은, 메모리(170)에 저장되고, 음향 정보 녹음 장치(100) 상에 설치되어, 제어부(180)에 의하여 상기 음향 정보 녹음 장치(100)의 동작(또는 기능)을 수행하도록 구동될 수 있다.
제어부(180)는 상기 응용 프로그램과 관련된 동작 외에도, 통상적으로 음향 정보 녹음 장치(100)의 전반적인 동작을 제어한다. 제어부(180)는 위에서 살펴본 구성요소들을 통해 입력 또는 출력되는 신호, 데이터, 정보 등을 처리하거나 음향 정보 녹음 장치(100)에 저장된 응용 프로그램을 구동함으로써, 사용자가 원하는 시간 동안 입력되는 음향 신호를 녹음하거나 사용자에게 적절한 정보(예를 들어 기 녹음된 음향 정보) 또는 기능을 제공 또는 처리할 수 있다.
또한, 제어부(180)는 메모리(170)에 저장된 응용 프로그램을 구동하기 위하여, 도 1과 함께 살펴본 구성요소들 중 적어도 일부를 제어할 수 있다. 나아가, 제어부(180)는 상기 응용 프로그램의 구동을 위하여, 이동 단말기(100)에 포함된 구성요소들 중 적어도 둘 이상을 서로 조합하여 동작시킬 수 있다.
한편 무선 통신부(110)는, 이동 단말기(100)와 무선 통신 시스템 사이, 이동 단말기(100)와 다른 이동 단말기(100) 사이, 또는 이동 단말기(100)와 외부서버 사이의 무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 또한, 상기 무선 통신부(110)는, 이동 단말기(100)를 하나 이상의 네트워크에 연결하는 하나 이상의 모듈을 포함할 수 있다. 이러한 무선 통신부(110)는, 무선 인터넷 모듈(113), 근거리 통신 모듈(114), 위치정보 모듈(115) 중 적어도 하나를 포함할 수 있다.
여기서 무선 인터넷 모듈(113)은 무선 인터넷 접속을 위한 모듈을 말하는 것으로, 이동 단말기(100)에 내장되거나 외장될 수 있다. 무선 인터넷 모듈(113)은 무선 인터넷 기술들에 따른 통신망에서 무선 신호를 송수신하도록 이루어진다. 그리고 무선 인터넷 기술로는, 예를 들어 WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), Wi-Fi(Wireless Fidelity) Direct, DLNA(Digital Living Network Alliance), WiBro(Wireless Broadband) 등이 있으며, 상기 무선 인터넷 모듈(113)은 상기에서 나열되지 않은 인터넷 기술까지 포함한 범위에서 적어도 하나의 무선 인터넷 기술에 따라 데이터를 송수신하게 된다.
위치정보 모듈(115)은 이동 단말기의 위치(또는 현재 위치)를 획득하기 위한 모듈로서, 그의 대표적인 예로는 GPS(Global Positioning System) 모듈 또는 WiFi(Wireless Fidelity) 모듈이 있다. 예를 들어, 이동 단말기는 GPS모듈을 활용하면, GPS 위성에서 보내는 신호를 이용하여 이동 단말기의 위치를 획득할 수 있다. 다른 예로서, 이동 단말기는 Wi-Fi모듈을 활용하면, Wi-Fi모듈과 무선신호를 송신 또는 수신하는 무선 AP(Wireless Access Point)의 정보에 기반하여, 이동 단말기의 위치를 획득할 수 있다. 필요에 따라서, 위치정보모듈(115)은 치환 또는 부가적으로 이동 단말기의 위치에 관한 데이터를 얻기 위해 무선 통신부(110)의 다른 모듈 중 어느 기능을 수행할 수 있다. 위치정보모듈(115)은 이동 단말기의 위치(또는 현재 위치)를 획득하기 위해 이용되는 모듈로, 이동 단말기의 위치를 직접적으로 계산하거나 획득하는 모듈로 한정되지는 않는다.
상기 각 구성요소들 중 적어도 일부는, 이하에서 설명되는 다양한 실시 예들에 따른 음향 정보 녹음 장치(100)의 동작, 제어, 또는 제어방법을 구현하기 위하여 서로 협력하여 동작할 수 있다. 또한, 상기 음향 정보 녹음 장치(100)의 동작, 제어, 또는 제어방법은 상기 메모리(170)에 저장된 적어도 하나의 응용 프로그램의 구동에 의하여 음향 정보 녹음 장치(100) 상에서 구현될 수 있다.
한편 본 발명의 실시 예에 따른 음향 정보 녹음 장치(100)의 제어부(180)는 사용자의 제어에 따라 마이크(122)를 통해 입력되는 음향 정보를 녹음할 수 있다. 그리고 녹음된 음향 정보를 분석하여, 키워드를 추출하고 추출된 키워드에 대응되는 이미지 정보를 생성할 수 있다. 그리고 제어부(180)는 상기 이미지 정보를 포함하는 태그 정보를 생성하여 상기 녹음된 음향 정보에 대응되게 표시할 수 있다.
도 2는 이러한 본 발명의 실시 예에 따른 음향 정보 녹음 장치에서 음향 정보를 녹음하고, 사용자의 선택에 따라 재생하는 예를 보이고 있는 것이다.
도 2의 (a)에서 보이고 있는 것과 같이, 사용자의 제어에 따라 음향 정보가 녹음되면, 제어부(180)는 상기 녹음된 음향 정보로부터 추출된 키워드를 이용하여 도 2의 (b)에서 보이고 있는 것과 같이 키워드 및 이미지 정보로서 상기 녹음된 음향 정보를 표시할 수 있다.
예를 들어 상기 키워드는, 상기 녹음된 음향 정보의 텍스트 인식(VTT : Voice To Text) 과정을 통해 인식된 텍스트로부터 추출될 수 있다. 일 예로 제어부(180)는 일정 개수 이상 반복되는 단어를 상기 키워드로 추출하거나, 또는 사용자에 의해 미리 설정된 단어들이 상기 인식된 텍스트에 기 설정된 개수 이상 포함되어 있는 경우, 상기 단어들에 대응되도록 미리 설정된 대표 단어가 상기 키워드로 추출될 수도 있다. 또는 특정 단어가 포함되어 있는 경우 그에 대응되는 다른 단어가 상기 키워드로 추출될 수도 있다. 또는 제어부(180)는 기 설정된 사용자의 일정이 있는 경우, 그 일정 정보로부터 추출될 수도 있다. 뿐만 아니라 상기 키워드 정보는, 상기 녹음되는 음향 정보가 일정한 박자와 음정을 가지는 멜로디(melody)인 경우, 음악 검색 결과를 통해 검색되는 상기 멜로디의 제목일 수도 있다.
한편 이미지 정보는, 다양하게 결정될 수 있다. 예를 들어 상기 이미지 정보는, 상기 키워드와 관련된 것일 수 있다. 예를 들어 상기 키워드가 ‘미팅’ 또는 ‘회의’인 경우, 이미지 정보는 상기 ‘미팅’ 또는 ‘회의’에 대응되는 그래픽 객체들(예를 들어 말풍선 형태의 그래픽 객체 : 212)을 적어도 하나 포함하는 형태로 생성될 수 있다. 또는 상기 이미지 정보는 상기 녹음된 음향 정보가, 멜로디를 포함하고 있는 경우, 그에 대응되는 그래픽 객체(예를 들어 음표 및 오선지 형태의 그래픽 객체 : 216)를 포함할 수도 있다.
또는 상기 이미지 정보는, 음향 정보 녹음 장치(100)의 주변을 감지한 감지 결과에 따라 결정될 수도 있다. 예를 들어 상기 이미지 정보는 음향 정보 녹음 장치(100)의 센싱부(140)의 감지 결과, 즉, 사용자의 생체 신호를 감지한 결과를 이용하여, 판단되는 사용자의 정서 상태에 대응되는 그래픽 객체(예를 들어 웃는 얼굴에 대응되는 그래픽 객체 : 214)를 포함할 수 있다. 또는 상기 이미지 정보는 현재 사용자의 위치 정보에 대응되는 그래픽 객체를 포함할 수도 있음은 물론이다.
이러한 이미지 정보들은 녹음된 음향 정보로부터 추출된 키워드, 또는 음향 정보의 유형이나 기 설정된 우선순위 등에 따라 생성될 수 있다. 예를 들어 제어부(180)는 녹음된 음향 정보로부터 키워드가 추출되는 경우 그에 대응되는 그래픽 객체를 검색하고, 검색된 그래픽 객체를 포함하는 이미지 정보를 생성할 수 있다. 그리고 상기 추출된 키워드와 상기 이미지 정보를 결합하여 상기 녹음된 음향 정보에 대한 태그 정보를 생성할 수 있다.
따라서 만약 상기 추출된 키워드가 ‘미팅’인 경우, 제어부(180)는 도 2의 (b)에서 보이고 있는 것과 같이, 상기 ‘미팅’에 대응되는 말풍선 모양의 그래픽 객체를 포함하는 이미지 정보를 생성할 수 있다. 그리고 제어부(180)는 상기 키워드 ‘미팅’과 상기 생성된 이미지 정보를 포함하는 제1 태그 정보(212)를 생성할 수 있다.
한편, 상기 녹음된 음향 정보가 일정한 음정과 박자를 가지는 멜로디인 경우, 제어부(180)는 음악 검색을 통해 검색된 상기 멜로디의 제목‘Sunny Day’를 키워드로 추출할 수 있다. 이러한 경우 제어부(180)는 상기 음향 정보를 오선지 및 상기 오선지위에 표시되는 음표 모양의 그래픽 객체들을 포함하는 이미지 정보를 생성할 수 있다. 그리고 제어부(180)는 상기 키워드 ‘Sunny day’와 상기 생성된 이미지 정보를 포함하는 제3 태그 정보(216)를 생성할 수 있다.
한편 상술한 설명에 의하면, 본 발명의 실시 예에 따른 음향 정보 녹음 장치(100)는 상기 녹음된 음향 정보에 대응되는 이미지 정보로서, 사용자의 정서 상태를 표시할 수도 있음은 물론이다. 예를 들어 제어부(180)는 센싱부(140)의 센서들로부터 감지되는 사용자의 심박수와 체온, 그리고 혈류량 등으로부터 사용자가 정서 상태를 판단할 수 있다. 이러한 경우 제어부(180)는 상기 음향 정보가 녹음되는 동안 판단된 사용자의 정서 상태들 중, 가장 지배적인 정서 상태(예를 들어 가장 많은 시간동안 감지되었던 정서 상태)에 대응되는 그래픽 객체를 이미지 정보로 표시할 수 있다.
한편 제어부(180)는 기 설정된 우선순위 또는 사용자의 선택에 따라 상기 녹음된 음향 정보에 대응되는 이미지 정보의 유형이 결정되도록 할 수도 있다. 예를 들어 제어부(180)는 상기 음향 정보를, 상기 음향 정보가 녹음된 상황에 따라 최우선적으로 분류할 수 있고, 상기 음향 정보가 녹음된 상황이 기 설정된 특정 상황이 아닌 경우 멜로디를 포함하고 있는지 여부 또는 사용자의 정서 상태에 따라 상기 이미지 정보의 유형이 결정되도록 할 수도 있다. 이러한 경우 제어부(180)는 상기 녹음된 음향 정보를 분석한 결과, 상기 음향 정보가 녹음된 상황이 ‘미팅(Meeting)’ 이나 ‘회의’인 경우, 멜로디가 포함되거나, 사용자의 정서 상태가 특정 상태인 경우라고 할지라도, 상기 녹음된 음향 정보에 대해, 키워드를 ‘미팅’으로 추출할 수 있으며 그에 따른 이미지 정보를 생성할 수 있다.
반면, 제어부(180)는 상기 녹음된 음향 정보를 분석한 결과, 상기 음향 정보가 녹음된 상황이 특정 상황(예를 들어 미팅이나 회의 중)이 아닌 경우, 멜로디를 포함하고 있는지 여부를 검출할 수 있다. 그리고 멜로디를 포함하고 있는 경우에 상기 녹음된 음향 정보가 멜로디라고 판단할 수도 있다. 이러한 경우 제어부(180)는 상기 녹음된 음향 정보에 대해 상기 제3 태그 정보(216)에서 보이고 있는 것과 같은 이미지 정보가 대응되게 표시할 수도 있다.
그리고 제어부(180)는 상기 음향 정보에 멜로디도 포함되어 있지 않다고 판단되는 경우, 또는 비록 멜로디가 포함되어 있다 하더라도 멜로디가 포함된 시간이 기 설정된 시간 미만이거나, 녹음된 다른 음향 신호에 비해 포함된 멜로디 음향 신호의 크기가 기 설정된 수준미만으로 약할 경우, 상기 음향 정보가 멜로디에 대한 것이 아니라고 판단할 수 있다. 이러한 경우 제어부(180)는 도 2의 (b)의 제2 태그 정보(214)에서 보고 있는 것처럼 사용자의 정서 상태에 대응되는 그래픽 객체를 이미지 정보로 표시할 수 있다.
한편 위에서 설명한 바와 같이, 음향 정보가 녹음된 상황, 멜로디의 포함 여부, 음향 정보가 녹음될 당시의 감지된 사용자의 정서 상태 외에, 제어부(180)는 얼마든지 더 다양한 기준에 근거하여 상기 음향 정보에 표시할 이미지 정보의 유형을 결정할 수도 있음은 물론이다.
한편 제어부(180)는, 음향 정보가 녹음될 당시에, 상기 음향 정보를 분석하여 다양한 기준에 따라 분류할 수 있다. 예를 들어 제어부(180)는 상기 음향 정보를 주체별로 각각 구분하여 인식할 수 있다. 즉, 제어부(180)는 ‘미팅’에 참석한 사람들의 목소리를, 각각의 목소리의 주파수 및 목소리의 고저 등과 같은 특징을 기준으로 상기 음향 정보로부터 상기 미팅의 각 참석자들 별 목소리를 구분할 수 있다. 이와 유사하게 제어부(180)는 기 저장된 다양한 악기들의 고유 음색을 이용하여‘멜로디’로부터 다양한 악기들의 소리를 각각 구분할 수 있다. 또는 제어부(180)는 음향 정보를 녹음하는 동안 판단된 사용자의 정서 상태를 기준으로 상기 녹음된 음향 정보를 복수의 구간으로 구분하여 인식할 수도 있다.
이에 따라 제어부(180)는 상기 이미지 정보에 포함되는 그래픽 객체들을, 상기 인식된 주체들의 개수를 반영하여 표시할 수도 있다. 즉, 예를 들어 상기 ‘미팅’에 참가한 사람, 즉 목소리의 주체(에이전트)가 두 명이상인 경우, 그에 대응되는 그래픽 객체들, 즉 두 개의 말풍선을 포함하는 이미지 정보가, 도 2의 (b)에서 보이고 있는 제1 태그 정보(212)에서 보이고 있는 것과 같이 표시될 수 있다. 이에 따라 사용자는 녹음된 음향 정보의 태그 정보만 확인하더라도, 직관적으로 키워드 및, 상기 ‘미팅’에 참석한 사람들(에이전트)의 수를 알 수 있다.
한편 제어부(180)는 녹음된 음향 정보들 중 어느 하나가 선택되는 경우, 상기 선택된 음향 정보를 재생할 수 있다. 이러한 경우 제어부(180)는 사용자의 선택에 따라 선택된 음향 정보 전체를 재생하거나 또는 음향 정보의 일부만을 재생할 수도 있다. 여기서 음향 정보의 일부는, 특정 주체로부터 발생한 음향 정보(예를 들어 특정 사람의 목소리 또는 특정 악기)일 수도 있고, 또는 사용자의 특정 감정 상태에 대응되는 구간일 수도 있다.
도 2의 (c) 및 (d)는 사용자로부터 선택된 음향 정보가, ‘미팅’상황에서 녹음된 음향 정보가 재생되는 예를 보이고 있는 것이다. 예를 들어 제어부(180)는 상기 음향 정보의 재생이 선택되면, 도 2의 (c)에서 보이고 있는 것과 같이, 사용자가 전체 재생(222) 또는 일부의 재생(224)을 선택 및, 사용자가 일부의 재생(224)을 선택하는 경우에, 상기 음향 정보에 포함된 목소리들이 주체별로, 즉 사람별(228, 230)로 서로 구분되게 표시되는 그래픽 객체(226)를 디스플레이부(151) 상에 표시할 수 있다.
이러한 경우 제어부(180)는 상기 그래픽 객체(226)를 통해 사용자로부터 특정 주체의 목소리만을 선택받을 수 있으며, 이러한 경우 제어부(180)는 상기 음향 정보로부터 사용자가 선택한 사람의 목소리만 추출하여 재생할 수 있다. 도 2의 (d)는 이러한 경우에서 사용자로부터 선택된 특정 사람에 대응되는 목소리(230)만이, 사용자로부터 선택된 제1 태그 정보(212)에 대응되는 음향 정보로부터 추출되어 재생되는 예를 보이고 있는 것이다.
한편, 이하에서 다양한 실시 예는 예를 들어, 소프트웨어, 하드웨어 또는 이들의 조합된 것을 이용하여 컴퓨터 또는 이와 유사한 장치로 읽을 수 있는 기록매체 내에서 구현될 수 있다.
이하에서는 이와 같이 구성된 이동 단말기에서 구현될 수 있는 제어 방법과 관련된 실시 예들에 대해 첨부된 도면을 참조하여 살펴보겠다. 본 발명은 본 발명의 정신 및 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있음은 당업자에게 자명하다.
도 3은 본 발명의 실시 예에 따른 음향 정보 녹음 장치에서, 녹음된 음향 정보의 태그 정보를 생성 및 음향 정보를 재생하는 동작 과정을 도시한 흐름도이다.
도 3을 참조하여 살펴보면, 본 발명의 실시 예에 따른 음향 정보 녹음 장치(100)의 제어부(180)는 사용자로부터 음향 정보의 녹음이 선택되는 경우 입력되는 음향 정보를 녹음 및, 관련된 정보를 감지한다(S300). 여기서 상기 관련된 정보라는 것은 다양한 것이 될 수 있다.
예를 들어 상기 관련 정보는 현재의 시각 및 위치에 대한 것일 될 수 있다. 이러한 경우 제어부(180)는 현재의 시각 및 위치에 대한 정보에 근거하여, 기 저장된 사용자의 일정 정보로부터 현재 사용자의 상황을 인식할 수 있다. 즉, 현재 감지된 시각과 사용자의 위치가, 상기 일정 정보에 포함된 일정에 대응되는 시각 및 장소인 경우, 제어부(180)는 사용자가 상기 기 설정된 일정에 따른 상황에 있는 것으로 판단할 수 있다. 이러한 경우 제어부(180)는 상기 기 설정된 일정에 관련된 정보를 상기 관련 정보로서 감지할 수 있다.
한편 상기 관련 정보는, 사용자의 생체 신호에 관련된 정보일 수도 있다. 즉 상기 관련 정보는 사용자의 심박수, 체온, 혈류량, 호흡의 세기 및 호흡수 중 적어도 하나 일 수 있으며, 제어부(180)는 이러한 사용자의 생체 신호 감지 결과에 근거하여 사용자의 다양한 정서 상태를 판단할 수 있다. 예를 들어 제어부(180)는 이러한 사용자의 생체 신호를 감지한 결과에 근거하여, 사용자가 즐거워하는 상태인지, 침울해하는 상태인지, 또는 흥분 또는 집중하고 있는 상태인지를 판단할 수 있다.
한편 상기 S300 단계에서 음향 정보의 녹음과 함께 관련 정보가 감지되면, 제어부(180)는 상기 관련된 정보를 바탕으로 상기 음향 정보를 분석할 수 있다(S302). 예를 들어 상기 S300 단계에서 제어부(180)는 상기 녹음된 음향 정보의 유형을 분석할 수 있다. 즉, 제어부(180)는 상기 녹음된 음향 정보에 멜로디가 기 설정된 수준 이상 포함되어 있는 경우, 상기 음향 정보를 멜로디로 판단할 수 있으며, 사람의 목소리로 판별되는 음향 신호들이 포함되어 있는 경우 이를 회의, 미팅 등 음성을 녹음한 음향 정보라고 판단할 수 있다.
한편, 제어부(180)는 상기 S302 단계에서 상기 녹음된 음향 정보를 음향 신호의 발생 주체를 기준으로 상기 음향 정보에 포함된 음향 신호들을 분류할 수 있다. 예를 들어 상기 음향 정보가 복수의 사람 목소리를 포함하는 경우, 제어부(180)는 상기 음향 정보로부터 음향 신호의 발생 주체, 즉 ‘사람’을 기준으로 목소리들을 분류할 수 있다. 또는 제어부(180)는 상기 음향 정보가 멜로디인 경우, 상기 음향 정보로부터 상기 멜로디를 연주한 악기 별 음색을 구분하여 각 악기 별 음향 신호를 분류할 수도 있다. 여기서 상기 악기별 음색에 대한 정보는 메모리(170)에 기 저장되어 있을 수 있다.
이러한 음향 신호의 주체는, 상기 녹음된 음향 정보에 일정 수준 이상의 세기를 가진 음향 신호들에 한해 구분될 수도 있음은 물론이다. 예를 들어 제어부(180)는 대화 내용을 녹음한 음향 정보의 경우, 상기 음향 정보에 포함된 목소리들 중 기 설정된 크기 이상의 목소리에 대응되는 사람들만을 음향 신호의 발생 주체로 인식할 수도 있다. 또한 이와 유사하게 제어부(180)는 상기 음향 정보가 멜로디를 녹음한 것인 경우, 상기 멜로디에 포함된 악기 소리들 중 에 일정 수준 이상의 시간 또는 크기를 가지는 악기 소리만을 음향 신호의 발생 주체로 인식하고, 인식된 악기들에 대한 소리만을 따로 구분하여 인식할 수도 있음은 물론이다.
한편 제어부(180)는 음향 신호의 발생 주체 뿐만 아니라, 상기 음향 정보가 녹음되는 동안 판단된 사용자의 정서 상태에 근거하여 상기 음향 정보를 복수개의 음향 정보로 구분할 수도 있다. 즉, 제어부(180)는 상기 음향 정보가 녹음되는 동안 판단된 사용자의 정서 상태를 상기 음향 정보의 각 시간 구간에 매칭하여, 상기 음향 정보의 시간 구간마다 대응되는 사용자의 정서 상태에 따라 상기 음향 정보를 구분하여 인식할 수도 있다.
한편 상기 관련 정보는 사용자의 위치 정보를 포함할 수 있다. 이러한 경우, 제어부(180)는 상기 음향 정보가 녹음되는 동안 감지된 사용자의 위치 상태를 상기 음향 정보의 각 시간 구간에 매칭할 수 있다. 그리고 상기 음향 정보가 녹음되는 동안 사용자의 위치가 이동되는 경우, 상기 음향 정보의 시간 구간마다 대응되는 사용자의 위치를 인식할 수도 있음은 물론이다.
한편 S302 단계에서, 상기 감지된 관련 정보에 근거하여 상기 녹음된 음향 정보가 분석되면, 제어부(180)는 상기 녹음된 음향 정보로부터 키워드를 추출할 수 있다. 여기서 키워드는 다양한 방법으로 추출될 수 있다. 예를 들어 제어부(180)는 상기 녹음된 음향 정보의 VTT(Voice To Text) 인식 결과를 바탕으로 상기 키워드를 추출할 수 있다. 이러한 경우 제어부(180)는 상기 음향 정보의 VTT 인식 결과 생성된 문자열에 포함된 단어들을 기준으로 상기 키워드를 추출할 수도 있다. 일 예로 제어부(180)는 상기 문자열 중 기 설정된 횟수 이상 반복되는 단어가 있는 경우 이를 상기 키워드로 추출하거나, 또는 가장 많이 반복된 단어를 상기 키워드로 추출할 수도 있다. 또는 제어부(180)는 기 설정된 특정 단어(예를 들어 ‘훈화’, ‘훈시’, ‘사장님’, ‘소장님’ 등) 또는 어구(예를 들어 ‘사장님 훈화 말씀이 있겠습니다.’, ‘소장님 훈시 말씀이 있겠습니다.’) 있는 경우, 상기 특정 단어 또는 특정 어구를 상기 문자열에 대한 키워드로 추출할 수도 있다.
또는 제어부(180)는 사용자로부터 기 설정된 단어가 포함되어 있는 경우 이에 대응되는 대표 단어로 상기 문자열의 키워드를 추출할 수도 있다. 이러한 단어와 대응되는 대표 단어의 예는 하기 표 1에서 보이고 있는 것과 같다.
표 1
Figure PCTKR2014009692-appb-T000001
상기 표 1에서 보이고 있는 것과 같이, 사용자는 미리 특정 단어들(발명, 특허, 발명자 등)을 설정하여 둘 수 있다. 그리고 그 대표 단어로서 ‘특허 미팅’을 설정할 수 있다. 이러한 경우 제어부(180)는 현재 녹음된 음향 정보의 VTT 결과 생성된 문자열에, 상기 단어들, 즉 발명, 특허, 발명자, 특허권, 청구항 등의 단어가 포함 또는 일정 수준 이상 반복되는 경우, 상기 녹음된 음향 정보에 대응되는 키워드를 ‘특허 미팅’으로 추출할 수 있다.
또는 제어부(180)는 상기 음향 정보의 키워드를 추출하기 위해, 기 설정된 사용자의 일정 정보를 이용할 수도 있다. 이러한 경우 제어부(180)는 현재 시각 및 현재 사용자의 위치가 상기 일정 정보에 포함된 장소 및 시각 정보에 일치하는 경우, 사용자가 상기 일정 정보에 대응되는 일정 중에 있다고 판단할 수 있다. 그리고 제어부(180)는 상기 일정 정보에 근거하여 상기 녹음된 음향 정보에 대응되는 키워드를 추출할 수 있다.
한편 상기 S302 단계에서, 현재 녹음된 음향 정보에 대한 키워드가 추출되면, 제어부(180)는 상기 추출된 키워드에 대응되는 이미지 정보를 생성할 수 있다(S306). 그리고 이러한 이미지 정보는 상기 녹음된 음향 정보의 유형에 따라 결정될 수 있다. 예를 들어 상기 음향 정보가 복수의 사람 목소리를 포함하는 형태인 경우라면 제어부(180)는 상기 사람들의 목소리에 대응되는 그래픽 객체(예를 들어 말풍선)를 포함하는 이미지 정보를 생성할 수 있다. 또는 상기 음향 정보가 멜로디인 경우라면, 제어부(180)는 상기 멜로디에 대응되는 그래픽 객체(예를 들어 오선지, 및 복수의 음표)들을 포함하는 이미지 정보를 생성할 수 있다.
여기서 상기 이미지 정보는, 적어도 하나의 서로 다른 그래픽 객체를 포함할 수 있으며, 상기 그래픽 객체는, 각각 서로 다른 음향 신호의 발생 주체의 개수를 반영할 수 있다. 예를 들어 상기 녹음된 음향 정보가 복수의 사람들의 목소리를 포함하는 경우라면, 상기 이미지 정보에 포함되는 그래픽 객체는 상기 목소리의 주체, 즉 사람들의 수만큼 표시될 수 있다. 이에 따라 만약 상기 음향 정보가, 두 사람의 회의 내용을 녹음한 경우라면, 상기 제어부(180)는 두 개의 말풍선을 포함하는 이미지 정보가 생성될 수 있다.
한편 이러한 이미지 정보가 생성되면, 제어부(180)는 상기 생성된 이미지 정보와 상기 키워드를 이용하여 상기 녹음된 음향 정보에 대응되는 태그 정보를 생성할 수 있다(S308). 예를 들어 상술한 바와 같이, 상기 음향 정보가, 두 사람의 회의 내용을 녹음한 경우라면, 상기 제어부(180)는 두 개의 말풍선을 포함하는 이미지 정보와, 상기 회의 내용에 대응되는 키워드(예를 들어 ‘특허 미팅’)를 상기 녹음된 음향 정보에 대응되는 태그 정보로서 생성할 수 있다. 그리고 상기 태그 정보를 상기 녹음된 음향 정보에 대응되게 디스플레이부(151) 상에 표시할 수 있다. 이처럼 녹음된 음향 정보에 대한 태그 정보가 생성 및, 상기 태그 정보가 디스플레이부(151) 상에 표시되는 예를 하기 도 6을 참조하여 살펴보기로 한다.
이처럼 녹음된 음향 정보에 대응되는 태그 정보가 표시되면, 제어부(180)는 사용자의 선택에 따른 음향 정보를 재생할 수 있다. 이러한 경우 제어부(180)는 상기 사용자의 선택에 따라 상기 녹음된 음향 정보의 전체 뿐만 아니라 일부를 재생할 수도 있음은 물론이다(S310).
도 4는 이러한 본 발명의 실시 예에 따른 음향 정보 녹음 장치에서, 사용자에 의해 선택된 음향 정보가 재생되는 동작 과정, S310 단계를 보다 자세하게 도시한 것이다.
도 4를 참조하여 살펴보면, 본 발명의 실시 예에 따른 음향 정보 녹음 장치(100)의 제어부(180)는 사용자로부터 재생될 음향 정보가 선택되는 경우, 선택된 음향 정보의 전체 또는 일부의 재생을 선택받기 위한 메뉴 화면을 표시할 수 있다(S400). 그리고 제어부(180)는 사용자가 상기 선택된 음향 정보의 일부 재생을 선택하였는지를 감지할 수 있다(S402). 그리고 사용자가 상기 음향 정보의 전체 재생을 선택한 경우, 상기 녹음된 음향 정보의 전체를 재생할 수 있다(S406).
한편 만약 사용자가 상기 S402 단계에서 음향 정보의 일부 재생을 선택한 경우, 제어부(180)는 사용자로부터 상기 녹음된 음향 정보의 일부 재생을 위한 기준을 선택받을 수 있다, 이러한 경우 상기 선택된 기준과 관련된 복수의 그래픽 객체가 디스플레이부(151) 상에 표시될 수 있다. 그리고 상기 표시된 그래픽 객체를 통해 선택된 기준에 따라 상기 녹음된 음향 정보의 일부를 재생할 수 있다(S404).
예를 들어 제어부(180)는 사용자로부터 특정 음향 신호의 발생 주체를 상기 일부 재생을 위한 기준으로 선택받을 수 있다. 즉, 상기 도 2의 (c)에서 보이고 있는 것처럼, 제어부(180)는 상기 선택된 음향 정보를 분석한 결과에 근거하여 각 음향 신호의 발생 주체별로 또는, 기 설정된 구분 기준에 따라 구분된 상태를 적어도 하나의 그래픽 객체를 이용하여 표시할 수 있다. 그리고 상기 구분된 상태에 대응되는 적어도 하나의 그래픽 객체에 대한 사용자의 선택에 근거하여 상기 음향 정보의 일부에 대응되는 음향 정보를 재생할 수 있다.
이에 따라 본 발명에서는, 상기 녹음된 음향 정보가, 복수의 사람 목소리를 포함하는 경우, 사용자의 선택에 따라 특정 사람의 목소리만을 추출하여 재생되도록 할 수 있다. 또한 이와 유사하게, 상기 녹음된 음향 정보가 멜로디인 경우, 상기 멜로디를 연주한 악기들 중 특정 악기에 대한 음향 정보만이 선택적으로 재생되도록 할 수도 있다.
한편 이와는 달리, 제어부(180)는 어느 하나의 음향 정보가 선택되는 경우, 사용자의 정서 상태 또는 사용자의 위치 감지 결과를 상기 일부 재생을 위한 기준으로 선택받을 수도 있다. 이러한 경우 제어부(180)는 상기 음향 정보가 녹음되는 동안 판단된 사용자의 정서 상태 또는 사용자의 위치 정보에 대응되는 그래픽 객체들을 디스플레이부(151) 상에 표시할 수 있다. 그리고 제어부(180)는 특정 정서 상태 또는 특정 위치를 상기 그래픽 객체를 통해 사용자로부터 선택받을 수 있다. 이러한 경우 본 발명의 실시 예에 따른 음향 정보 녹음 장치(100)에서는 사용자가 특정 정서 상태에 있거나 또는 사용자가 특정 위치에 있을 때에 녹음된 일부 구간의 음향 정보가 재생될 수도 있다.
한편, 제어부(180)는 상기 음향 정보에 포함된 복수의 단어들을 기준으로 일부의 음향 정보가 재생되도록 할 수도 있음은 물론이다. 예를 들어 제어부(180)는 상기 S302 단계의 분석 결과, 기 설정된 횟수 이상 반복되는 단어에 대응되는 적어도 하나의 그래픽 객체들을 디스플레이부(151) 상에 표시할 수 있다. 그리고 제어부(180)는 상기 단어들 중 어느 하나가 선택되면, 상기 녹음된 음향 정보 중, 상기 선택된 단어에 대응되는 음향 신호가 포함된 일정 구간(예를 들어 상기 단어에 대응되는 음향 신호가 녹음된 시점을 기준으로 전후 각 5초에 대응되는 구간)이 재생되도록 할 수도 있다.
이에 따라 본 발명에서는 사용자가 상기 음향 정보로부터 특정 사람의 목소리나, 특정 악기 또는 자신의 특정 정서 상태나 자신의 위치 또는 특정 단어들을 기준으로 필요한 부분만을 청취할 수 있도록 한다. 이하 도 7a, 도 7b, 도 7c, 및 도 7d를 참조하여, 사용자로부터 상기 녹음된 음향 정보의 일부를 재생하기 위한 기준을 선택받는 예를 보다 자세히 살펴보기로 한다.
한편, 본 발명의 실시 예에 따른 음향 정보 녹음 장치(100)의 제어부(180)는 상기 녹음된 음향 정보의 분석 결과를 이용하여, 사용자로부터 입력되는 검색 정보에 따라 상기 음향 정보에 대한 검색을 수행할 수도 있다. 이러한 경우 제어부(180)는 키워드 뿐만 아니라, 특정 악기나 특정 사람, 또는 특정 정서 상태, 또는 녹음된 멜로디등에 근거하여 기 녹음된 음향 정보들에 대한 검색을 수행할 수도 있다.
도 5는 본 발명의 실시 예에 따른 음향 정보 녹음 장치에서, 입력된 검색 정보에 따라 음향 정보가 검색되는 동작 과정을 도시한 것이다.
도 5를 참조하여 살펴보면, 본 발명의 실시 예에 따른 음향 정보 녹음 장치(100)의 제어부(180)는 사용자로부터 입력된 검색 정보의 유형을 인식한다(S500). 여기서 상기 검색 정보는 사용자로부터 입력되는 문자열일 수 있으며, 또는 사용자의 제어에 따라 녹음된 음향 정보(예를 들어 멜로디)일 수 있다. 또는 사용자의 특정 정서 상태나, 대화에 참여한 사람 수에 대한 정보일 수도 있다.
제어부(180)는 S500 단계에서, 상기 입력된 검색 정보에 유형을 인식한 결과에 따라 기 저장된 음향 정보들을 정렬할 수 있다(S502). 예를 들어 제어부(180)는 상기 입력된 검색 정보가 문자열인 경우, 키워드를 중심으로 상기 기 저장된 음향 정보들을 정렬할 수 있으며, 상기 입력된 검색 정보가 녹음된 멜로디인 경우, 상기 음향 정보들 중 멜로디를 포함하는 음향 정보들만을 추출할 수도 있다.
또는 제어부(180)는 상기 입력된 검색 정보가, 사용자의 정서 상태나 또는 사용자의 위치 정보인 경우, 상기 기 저장된 음향 정보들을 사용자의 정서 상태 또는 위치 정보에 따라 정렬할 수 있다. 예를 들어 제어부(180)는 상기 음향 정보들 각각을 지배적인 정서 상태에 따라 정렬할 수 있다. 여기서 지배적인 정서 상태라는 것은, 상기 음향 정보들이 녹음되는 동안 가장 많은 시간 동안 감지된 사용자의 정서 상태를 의미할 수 있다. 즉, 예를 들어 10분 길이에 해당되는 음향 정보를 녹음할 당시에 판단된 사용자의 정서 상태가 ‘즐거운 상태’가 8분, ‘우울한 상태’가 2분인 경우, 상기 음향 정보에 대응되는 지배적인 사용자의 정서 상태는 ‘즐거운 상태’가 될 수 있다. 이와 유사하게 제어부(180)는 음향 정보가 녹음되는 동안 사용자의 위치가 변경된 경우, 가장 많은 시간동안 감지된 사용자의 위치를 기준으로 상기 음향 정보에 대응되는 사용자의 주요 위치를 결정할 수 있다. 그리고 제어부(180)는 상기 지배적인 정서 상태 또는 사용자의 주요 위치에 따라 상기 기 저장된 음향 정보들을 정렬할 수 있다.
이처럼 기 저장된 음향 정보들이 정렬되면, 제어부(180)는 상기 정렬된 음향 정보들로부터 상기 검색 정보에 대응되는 부분을 포함하는 음향 정보들을 추출 및 표시할 수 있다(S504). 이에 따라 제어부(180)는 사용자가 선택한 검색 정보(키워드, 사람 수, 악기, 정서 상태 또는 위치 등)에 대응되는 부분을 적어도 일부 포함하는 음향 정보가 검색되어 디스플레이부(151) 상에 표시될 수 있다.
한편, 제어부(180)는 음성 인식 기능을 이용한 인물 검색 기능을 제공할 수도 있음은 물론이다. 예를 들어 제어부(180)는 특정 인물의 음성에 대한 음성 인식이 가능한 경우, 메모리(170)에 기 저장된 프로파일 정보 또는 인명록이나 전화번호부 등으로부터 상기 인식된 음성에 대한 인물의 이미지를 검색할 수 있다. 이러한 경우 제어부(180)는 사용자로부터 전화번호부 또는 인명록이나 프로파일 정보등에서 추출된 인물의 이미지 정보들 중 어느 하나를 사용자로부터 상기 검색 정보로 입력받을 수 있다. 그리고 사용자로부터 특정 인물이 선택되는 경우, 그 인물의 음성이 녹음된 음향 정보를 검색하여 상기 디스플레이부(151) 상에 표시할 수도 있음은 물론이다.
한편 이상의 설명에서는 본 발명의 실시 예에 따른 음향 정보 녹음 장치(100)의 동작 과정을 흐름도를 참조하여 자세하게 살펴보았다.
이하의 설명에서는 본 발명의 실시 예에 따른 음향 정보 녹음 장치(100)에서, 본 발명의 실시 예에 따라 녹음된 음향 정보를 표시하는 예 및 녹음된 음향 정보가 재생 또는 검색되는 예를 예시도를 참조하여 보다 자세하게 살펴보기로 한다. 이하의 설명에서, 본 발명의 실시 예에 따른 음향 정보 녹음 장치(100)는 스마트 폰과 같은 이동 단말기임을 가정하여 설명하기로 한다. 그러나 본 발명이 이에 한정되는 것이 아님은 물론이다. 즉, 본 발명은스마트 폰이 아니라 다른 이동 단말기에서도 얼마든지 구현될 수 있음은 물론이며, 이동 단말기 뿐만 아니라 고정 단말기에서도 구현될 수 있음은 무론이다.
도 6은 본 발명의 실시 예에 따른 음향 정보 녹음 장치에서, 녹음된 음향 정보가 이미지 정보와 함께 표시되는 예를 도시한 예시도이다.
본 발명의 실시 예에 따른 음향 정보 녹음 장치(100)는 사용자의 제어에 따라 수신되는 음향 정보를 녹음할 수 있다. 도 6의 (a)는 이러한 경우에 본 발명의 실시 예에 따른 음향 정보 녹음 장치(100)의 디스플레이부(151) 상에 표시되는 화면의 예를 보이고 있는 것이다. 이러한 경우 제어부(180)는 도 6의 (a)에서 보이고 있는 것과 같이, 녹음되는 음향 정보의 주파수 파형 등에 관련된 그래픽 객체(600)를 디스플레이부(151) 상에 표시할 수 있으며, 이와 더불어, 사용자가 녹음되는 음향 정보의 볼륨을 조정할 수 있도록 볼륨 조절과 관련된 그래픽 객체(602)를 디스플레이부(151) 상에 표시할 수도 있다. 그리고 이처럼 음향 정보가 녹음되는 경우 제어부(180)는 사용자의 정서 상태나 위치등 다양한 관련 정보를 함께 감지할 수도 있음은 물론이다.
한편 이처럼 음향 정보가 녹음되면, 제어부(180)는 녹음된 음향 정보를 분석할 수 있다. 이러한 경우 제어부(180)는 도 6의 (b)에서 보이고 있는 것과 같이 상기 녹음된 음향 정보에 대해 분석된 결과에 관련된 화면(610)를 디스플레이부(151) 상에 표시할 수도 있다. 이 경우 상기 결과 화면(610)에는 현재 음향 정보로부터 추출된 키워드 및 상기 음향 정보로부터 인식된 음향 신호 발생 주체(agent)의 수 등이 표시될 수 있다. 예를 들어 상기 음향 정보가 두 명의 사람이 회의를 하던 중에 녹음된 경우, 제어부(180)는 상기 녹음된 내용에 따라 키워드를 ‘Meeting'으로 추출할 수 있으며, 음향 신호의 주체로서 ‘2명의 사람(2 People)’을 인식하여 표시할 수 있다. 도 6의 (b)는 이러한 예를 보이고 있는 것이다.
한편 상기 결과 화면(610)은, 상기 음향 신호의 주체를 표시하기 위한 방식을 사용자로부터 선택받을 수 있다. 예를 들어 상기 음향 신호의 주체가 2명의 사람인 경우라면, 제어부(180)는 사용자에게 도 6의 (b)에서 보이고 있는 것과 같이, 말풍선 모양의 그래픽 객체들(612), 사람 인물 모양의 그래픽 객체들(614), 서로 다른 사람의 목소리에 대응되는 복수의 파형을 포함하는 그래픽 객체(616) 중 어느 하나를 사용자로부터 선택받을 수 있다. 여기서 상기 그래픽 객체들은 상기 음향 신호의 행위 주체의 개수를 반영할 수도 있음은 물론이다. 즉, 상기 도 6의 (b)에서 보이고 있는 것과 같이 주체가 2인 경우, 말풍선이나 인물 이미지 또는 주파수 파형이 2개로 표시될 수 있으나, 상기 목소리의 주체가 한 명이거나, 또는 세 명 이상인 경우 이에 따라 하나 또는 셋 이상의 말 풍선, 인물 모양의 이미지, 또는 주파수 파형을 포함하는 그래픽 객체가 디스플레이부(151) 상에 표시되고, 사용자로부터 선택될 수 있음은 물론이다.
한편 이러한 그래픽 객체들(612, 614, 616) 중 어느 하나가 사용자로부터 선택되는 경우, 제어부(180)는 상기 사용자로부터 선택된 방식에 따라 상기 녹음된 음향 정보에 대응되는 이미지 정보를 생성할 수 있다. 도 6의 (c) 및 (d)는 이러한 경우의 예를 보이고 있는 것이다.
즉, 도 6의 (b)에서 보이고 있는 것과 같이, 사용자가 말풍선 모양의 그래픽 객체(612)를 선택하는 경우, 제어부(180)는 말풍선 모양의 그래픽 객체를 적어도 하나 포함하는 이미지 정보를 생성할 수 있다. 그리고 상기 추출된 키워드 'Meeting'와 상기 생성된 이미지 정보를 포함하는 태그 정보(622)를 생성하여 현재 녹음된 음향 정보에 대응되도록 표시할 수 있다. 도 6의 (c)는 이러한 경우의 예를 보이고 있는 것이다.
한편, 도 6의 (c)에서 보이고 있는 것과 같이 표시하는 것 외에, 제어부(180)는 상기 음향 정보가 녹음된 볼륨 레벨을 표시하기 위한 별도의 그래픽 객체(볼륨 그래픽 객체)를 더 표시할 수 있다. 이러한 경우 제어부(180)는 생성된 태그 정보의 주변에 볼륨 그래픽 객체를 표시할 수 있으며, 상기 볼륨 그래픽 객체들은 음향 정보의 녹음 볼륨 레벨에 따라 서로 다른 형태로 표시될 수 있다.
즉, 도 6의 (d)에서 보이고 있는 것처럼, 제1 태그 정보(622)와 제2 태그 정보(624)에 각각 대응되는 볼륨 그래픽 객체들(632, 634)이 서로 다른 경우, 이는 상기 제1 태그 정보(622)와 제2 태그 정보(624)에 대응되는 음향 정보의 녹음 볼륨 레벨이 서로 다른 것을 표시할 수 있다. 이에 따라 도 6의 (d)와 같이 표시되는 경우, 사용자는 제1 태그 정보(622)에 대응되는 음향 정보보다 제2 태그 정보(624)에 대응되는 음향 정보의 녹음 볼륨 레벨이 더 큰 것을 인식할 수 있다.
한편 도 7a, 도 7b, 도 7c 및 도 7d는 본 발명의 실시 예에 따른 음향 정보 녹음 장치에서, 녹음된 음향 정보의 일부분에 대응되는 그래픽 객체가 표시되고, 그에 따라 상기 녹음된 음향 정보의 일부의 재생이 선택되는 예를 도시한 예들이다.
우선 도 7a는 사용자가, 기 저장된 음향 정보들 중, 미팅 또는 회의 중에 녹음된 음향 정보의 일부 재생을 선택하는 경우를 보이고 있는 것이다. 예를 들어 도 7a의 (a)에서 보이고 있는 것과 같이, 사용자가 미팅 또는 회의 중에 녹음된 음향 정보를 선택하는 경우, 즉 복수의 사람 목소리를 포함하는 음향 정보를 선택하는 경우, 제어부(180)는 도 7a의 (b)에서 보이고 있는 것과 같이 상기 선택된 음향 정보의 전체 또는 일부를 선택받기 위한 메뉴 화면(710)을 표시할 수 있다. 그리고 만약 상기 메뉴 화면(710)에서 사용자가 일부(A part of all)의 재생을 선택하는 경우라면, 제어부(180)는 상기 음향 정보로부터 인식되는 각 주체들, 즉 사람들에 각각 대응되는 그래픽 객체들(720, 722, 724)을 디스플레이부(151) 상에 표시할 수 있다.
여기서 상기 그래픽 객체들(720, 722, 724)은 각각 서로 다른 음향 신호의 주체에 대응될 수 있다. 즉, 현재 선택된 음향 정보가 세 사람(사람 A, 사람 B, 사람 C)의 목소리가 포함된 것이라면, 제어부(180)는 각각의 목소리의 주체에 따라 서로 다른 3개의 그래픽 객체들(720, 722, 724)을 디스플레이부(151) 상에 표시할 수 있다. 이러한 경우 제어부(180)는 어느 하나의 그래픽 객체를 사용자로부터 선택받을 수 있으며, 도 7a의 (b)에서 보이고 있는 것과 같이 제1 그래픽 객체(720)가 선택되면 제어부(180)는 상기 제1 그래픽 객체(720)에 대응되는 주체, 즉 사람 A의 목소리만을 상기 음향 정보로부터 추출하여 재생할 수 있다.
한편 도 7b는 사용자의 정서 상태가 이미지 정보로 표시되는 그래픽 객체가 선택되는 예를 보이고 있는 것이다. 이러한 경우 제어부(180)는 도 7b의 (b)에서 보이고 있는 것과 같이 상기 선택된 음향 정보의 전체 또는 일부를 선택받기 위한 메뉴 화면(710)을 표시할 수 있다. 그리고 만약 상기 메뉴 화면(710)에서 사용자가 일부(A part of all)의 재생을 선택하는 경우라면, 제어부(180)는 상기 음향 정보가 녹음되는 동안 인식된 사용자의 정서 상태들에 각각 대응되는 그래픽 객체들(730, 732, 734)을 디스플레이부(151) 상에 표시할 수 있다.
이러한 경우 제어부(180)는 어느 하나의 그래픽 객체를 사용자로부터 선택받을 수 있다. 그리고 도 7b의 (b)에서 보이고 있는 것과 같이 제2 그래픽 객체(732)가 선택되면, 제어부(180)는 상기 제2 그래픽 객체(732)에 대응되는 사용자의 정서 상태, 즉 사용자의 상태가‘즐거움’상태에 매칭되는 상기 음향 정보의 일부의 구간만을 추출하여 재생할 수 있다.
한편 도 7c는 사용자가, 기 저장된 음향 정보들 중, 멜로디를 녹음한 음향 정보의 일부 재생을 선택하는 경우를 보이고 있는 것이다. 예를 들어 도 7c의 (a)에서 보이고 있는 것과 같이, 사용자가 멜로디가 녹음된 음향 정보를 선택하는 경우, 제어부(180)는 도 7c의 (b)에서 보이고 있는 것과 같이 상기 선택된 음향 정보의 전체 또는 일부를 선택받기 위한 메뉴 화면(710)을 표시할 수 있다. 그리고 만약 상기 메뉴 화면(710)에서 사용자가 일부(A part of all)의 재생을 선택하는 경우라면, 제어부(180)는 상기 음향 정보로부터 인식되는 각 주체들에 대응되는 그래픽 객체들(740, 742, 744)을 디스플레이부(151) 상에 표시할 수 있다. 여기서 상기 음향 신호의 주체는 악기가 될 수 있으며, 이에 따라 도 7c의 (b)에서 보이고 있는 것과 같이 각기 서로 다른 악기에 대응되는 그래픽 객체들(740, 742, 744)이 디스플레이부(151) 상에 표시될 수 있다.
이러한 경우 제어부(180)는 어느 하나의 그래픽 객체를 사용자로부터 선택받을 수 있다. 그리고 도 7c의 (b)에서 보이고 있는 것과 같이 제1 그래픽 객체(740)가 선택되면 제어부(180)는 상기 제1 그래픽 객체(740)에 대응되는 주체, 즉 악기 A에 대응되는 소리만을 상기 음향 정보로부터 추출하여 재생할 수 있다.
한편 도 7d는 목록 형태의 이미지 정보에 대응되는 음향 정보가 선택되는 예를 보이고 있는 것이다. 예를 들어 제어부(180)는 녹음된 음향 정보의 분석 결과, 기 설정된 횟수 이상 반복되는 단어들 또는 사용자가 미리 지정한 중요 단어가 상기 음향 정보에 포함되어 있는 경우, 도 7d의 (a)에서 보이고 있는 것처럼, 목록 형태의 이미지 정보를 생성할 수 있다. 그리고 제어부(180)는 상기 기 설정된 횟수 이상 반복된 단어들 또는 사용자가 미리 지정한 특정 단어가 포함된 구간들만을 음향 정보로부터 추출하여 재생할 수도 있다.
도 7d의 (b)는 이러한 예를 보이고 있는 것이다. 즉, 도 7d의 (b)에서 보이고 있는 것처럼, 제어부(180)는 선택된 음향 정보의 전체 또는 일부를 선택받기 위한 메뉴 화면(710)을 표시할 수 있다. 그리고 만약 상기 메뉴 화면(710)에서 사용자가 일부(A part of all)의 재생을 선택하는 경우라면, 제어부(180)는 상기 음향 정보로부터 인식되는 특정 단어들(750)을 디스플레이부(151) 상에 표시할 수 있다. 이러한 경우 제어부(180)는 상기 단어들 중 어느 하나를 사용자로부터 선택받을 수 있으며, 사용자로부터 어느 하나의 단어가 선택되는 경우, 선택된 단어에 대응되는 음향 신호의 재생 시점을 기준으로 상기 음향 정보의 일부 구간이 추출 및 재생될 수 있다. 이러한 경우 예를 들어 상기 사용자로부터 선택된 단어에 대응되는 음향 정보의 재생 시점을 전후로 기 설정된 시간(예를 들어 전후 각 5초)에 대응되는 구간들이 재생될 수 있다.
이에 따라 본 발명에서는 사용자에 의해 미리 설정되거나, 중요한 단어(예를 들어 기 설정된 횟수 이상 반복)의 경우, 해당 단어를 포함하는 음향 정보의 일부 구간들만을 선택적으로 사용자가 청취할 수 있다.
한편 도 8은 본 발명의 실시 예에 따른 음향 정보 녹음 장치에, 사용자에 의해 입력되는 검색 정보의 예를 도시한 것이다.
도 8을 참조하여 살펴보면, 도 8은 사용자가 입력할 수 있는 다양한 검색 정보의 예를 보이고 있다. 예를 들어 상기 검색 정보는 도 8의 (a)에서 보이고 있는 것과 같이 텍스트 정보일 수 있다. 이러한 경우 제어부(180)는 사용자로부터 입력된 텍스트 정보를 포함하는 기 저장된 음향 정보를 검색할 수 있다. 예를 들어 제어부(180)는 기 저장된 음향 정보의 키워드들 중 상기 검색 정보로 입력된 텍스트 정보를 포함하는 음향 정보를 검색할 수 있다. 또는 제어부(180)는 기 저장된 음향 정보의 VTT 결과 인식된 문자열 중에서 상기 검색 정보로 입력된 텍스트 정보를 포함하는 음향 정보를 검색할 수도 있다.
뿐만 아니라 특정인의 이름이나, 또는 특정 장소와 같은 명칭이 상기 텍스트 정보의 형태로 입력될 수도 있다. 이러한 경우 제어부(180)는 상기 입력된 텍스트 정보에 대응되는 특정인의 이름 또는 장소 명칭에 대응되는 음향 정보를 검색할 수도 있다. 이러한 경우 제어부(180)는 음향 정보와 관련된 정보로 함께 감지된 사용자의 위치 정보를, 상기 입력된 텍스트 정보와 비교하여, 상기 텍스트 정보에 대응되는 장소에서 녹음된 음향 정보를 검색할 수도 있음은 물론이다.
한편, 제어부(180)는 텍스트 정보 뿐만 아니라, 사용자의 제어에 따라 녹음된 음향 신호를 상기 검색 정보로 사용할 수도 있음은 물론이다. 도 8의 (b)는 이러한 예를 보이고 있는 것이다.
예를 들어 도 8의 (a)에서 보이고 있는 것과 같이, 제어부(180)는 사용자의 제어에 따라 입력되는 음향 신호를 녹음할 수 있다. 그리고 제어부(180)는 기 저장된 음향 정보들 중에서, 상기 녹음된 음향 신호를 포함하는 정보를 검색할 수 있다. 즉, 예를 들어 제어부(180)는, 상기 검색 정보로 녹음된 음향 신호가 일정한 리듬을 가지는 멜로디인 경우, 기 저장된 멜로디를 포함하는 음향 정보들 중에서, 상기 검색 정보에 해당되는 멜로디를 포함하는 음향 정보를 검색할 수 있다.
한편, 제어부(180)는 상기 녹음된 음향 신호를 VTT 인식한 결과를 이용할 수도 있음은 물론이다. 이러한 경우 제어부(180)는 상기 녹음된 음향 신호로부터 인식된 텍스트 정보를 이용하여 음향 정보를 검색할 수 있다. 여기서 상기 텍스트 정보를 이용하여 음향 정보를 검색하는 과정은, 상기 사용자로부터 직접 텍스트 문자를 입력받은 경우와 유사할 수 있다.
또한 제어부(180)는 사용자의 정서 상태를 기준으로 음향 정보를 검색할 수도 있음은 물론이다. 이러한 경우 제어부(180)는 도 8의 (c)에서 보이고 있는 것처럼, 사용자의 다양한 감정 상태에 각각 대응되는 그래픽 객체들을 포함하는 메뉴 화면(820)을 디스플레이부(151) 상에 표시할 수 있다. 그리고 기 저장된 음향 정보들 중, 사용자로부터 선택된 그래픽 객체에 대응되는 사용자의 감정 상태에서 녹음된 음향 정보를 검색할 수 있다. 예를 들어 제어부(180)는 기 저장된 음향 정보들 각각에 대해 지배적인 감정 상태를 판단하고, 상기 지배적인 감정 상태를 이용하여 상기 검색을 수행할 수 있다.
뿐만 아니라 제어부(180)는 음향 정보에 포함된 음향 신호의 주체의 개수를 기준으로 검색을 수행할 수도 있다. 여기서 상기 음향 신호의 주체는, 예를 들어 미팅 또는 회의와 같이 복수의 사람 목소리가 포함된 음향 정보의 경우에는 사람의 수가 될 수 있으며, 멜로디를 포함하는 음향 정보의 경우 상기 멜로디를 연주하는 악기가 될 수도 있다.
이러한 경우 제어부(180)는 음향 신호의 주체의 개수를 사용자로부터 선택받기 위한 메뉴 화면을 디스플레이부(151) 상에 표시할 수 있다. 즉, 예를 들어 사용자가 사람의 수를 선택하는 경우, 메뉴 화면(830)은 도 8의 (d)에서 보이고 있는 것과 같이, 각각 서로 다른 사람 수를 표시하는 그래픽 객체들을 포함하는 항목들을 포함할 수 있다.
즉, 도 8의 (d)에서 보이고 있는 것과 같이, 사람 모양의 그래픽 객체가 1개인 제1 항목(832)의 경우 한 사람을, 사람 모양의 그래픽 객체가 2개인 제2 항목(834)의 경우 두 사람을, 사람 모양의 그래픽 객체가 3개인 제3 항목(835)의 경우 세 사람을, 그리고 제4 항목(836)의 경우 네 사람 이상의 사람들을 표시하는 것일 수 있다. 이러한 경우에 만약 사용자가 상기 도 8의 (d)에서 보이고 있는 것과 같이 제2 항목(834)을 선택하는 경우 제어부(180)는 제 2 항목(834)에 대응되는 사람 수, 즉 두 사람의 목소리가 포함된 음향 정보를, 기 저장된 음향 정보들로부터 검색할 수 있다.
이에 따라 본 발명에서는 특정 수의 사람이 참석한 회의 또는 미팅에서 녹음된 음향 정보만을 보다 손쉽게 검색할 수 있다. 또한 이와 유사하게 제어부(180)는 특정 개수의 악기들로 연주되는 멜로디가 녹음된 음향 정보를 검색할 수도 있다.
한편 상술한 설명에서는, 상기 녹음된 음향 정보가 복수의 사람 목소리를 포함하고 있는 경우, ‘사람’별로 목소리를 추출하는 것만을 언급하였으나, 이 뿐만 아니라 상기 추출된 목소리를 인식하여 상기 목소리의 주체를 인식할 수도 있음은 물론이다. 예를 들어 제어부(180)는 상기 음향 정보로부터 추출된 사람의 음성을 인식하여, 상기 음성의 주체를 인식할 수 있다. 이러한 경우 제어부(180)는 기 저장된 인명록이나 전화번호부 또는 프로파일 정보등으로부터 상기 음성의 주체에 대응되는 이미지 정보를 검색하고, 상기 검색된 정보를 디스플레이부(151) 상에 표시할 수도 있음은 물론이다. 이러한 경우 본 발명에서는 대화 내용이 녹음되는 경우, 상기 대화 내용의 참가자들에 대한 이미지가 상기 녹음된 음향 정보에 대응되는 이미지 정보로 생성될 수 있으며, 이에 따라 사용자는 상기 이미지 정보를 이용하여 보다 쉽고 빠르게 상기 녹음된 음향 정보를 인식할 수 있다.
전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 상기 컴퓨터는 단말기의 제어부(180)를 포함할 수도 있다. 따라서 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims (20)

  1. 디스플레이부;
    음향 정보를 입력받는 입력부;
    음향 정보를 출력하기 위한 출력부;
    주변 환경 및 생체 신호 중 적어도 하나를 감지하기 위한 감지부; 및,
    입력된 음향 정보를 녹음 및, 녹음된 음향 정보로부터 키워드를 추출하고, 상기 녹음된 음향 정보를 분석한 결과 및 상기 감지부의 감지 결과 중 적어도 하나에 근거하여 이미지 정보를 생성하며, 상기 키워드와 상기 이미지 정보가 결합된 태그 정보를 상기 녹음된 음향 정보에 대응되도록 표시하는 제어부를 포함하며,
    상기 제어부는,
    상기 녹음된 음향 정보에 포함된 음향 신호를 발생시키는 주체들을 인식하고, 상기 음향 신호를 발생시키는 주체 별로 구분되는 적어도 하나의 서로 다른 그래픽 객체를 상기 디스플레이부 상에 표시 및, 상기 그래픽 객체들 중 선택된 어느 하나에 대응되는 주체로부터 발생되는 음향 신호를 상기 녹음된 음향 정보로부터 추출하여 출력하는 것을 특징으로 하는 음향 정보 녹음 장치.
  2. 제1항에 있어서,
    상기 그래픽 객체는,
    상기 녹음된 음향 정보가 복수의 사람 목소리를 포함하는 경우, 적어도 하나의 사람 모양의 그래픽 객체, 또는 적어도 하나의 말풍선 모양의 그래픽 객체, 또는 적어도 하나의 주파수 파형 형태의 그래픽 객체이며,
    상기 제어부는,
    상기 사람 모양의 그래픽 객체, 또는 상기 말풍선 모양의 그래픽 객체 또는 상기 주파수 파형 형태의 그래픽 객체 중 어느 하나가 선택되는 경우, 선택된 그래픽 객체에 대응되는 사람의 목소리만을 상기 음향 정보로부터 추출하여 출력하는 것을 특징으로 하는 음향 정보 녹음 장치.
  3. 제1항에 있어서,
    상기 제어부는,
    상기 음향 정보에 포함된 복수의 음향 신호 중 고유 음색 및 특징에 따라 상기 음향 신호를 발생시키는 주체를 서로 구분하고,
    상기 음향 신호를 발생시키는 주체는,
    상기 음향 신호의 고유 음색 음색 및 특징에 따라 각각 구분되는 목소리 또는 연주음을 발생시키는 적어도 하나의 사람 또는 악기임을 특징으로 하는 음향 정보 녹음 장치.
  4. 제1항에 있어서, 상기 제어부는,
    상기 음향 정보를 분석한 결과에 따라 상기 녹음된 음향 정보의 유형에 따라 상기 키워드를 추출하는 방식을 서로 다르게 결정하는 것을 특징으로 하는 음향 정보 녹음 장치.
  5. 제4항에 있어서, 상기 제어부는,
    상기 음향 정보를 분석한 결과, 상기 음향 정보가 일정한 리듬을 가지는 멜로디를 포함하는 경우, 음악 검색을 통해 상기 멜로디의 제목을 상기 음향 정보의 키워드로 추출하는 것을 특징으로 하는 음향 정보 녹음 장치.
  6. 제4항에 있어서, 상기 제어부는,
    상기 음향 정보를 분석한 결과, 상기 음향 정보가 적어도 한 명의 사람 음성을 포함하는 경우, VTT(Voice To Text) 과정을 통해 상기 녹음된 음향 정보의 내용을 문자열로 인식하고, 상기 인식된 문자열을 통해 상기 키워드를 추출하는 것을 특징으로 하는 음향 정보 녹음 장치.
  7. 제6항에 있어서, 상기 제어부는,
    상기 인식된 문자열 중 기 설정된 횟수 이상 반복된 단어 또는 상기 반복된 단어들 중 가장 많이 반복된 단어를 상기 키워드로 추출하는 것을 특징으로 하는 음향 정보 녹음 장치.
  8. 제6항에 있어서, 상기 제어부는,
    기 설정된 특정 단어 또는 어구가 상기 인식된 문자열에 포함되어 있는 경우, 상기 특정 단어 또는 어구를 상기 키워드로 추출하는 것을 특징으로 하는 음향 정보 녹음 장치.
  9. 제6항에 있어서, 상기 제어부는,
    미리 입력된 적어도 하나의 단어가 상기 인식된 문자열에 포함되어 있는 경우, 상기 적어도 하나의 단어에 대응되는 대표 단어를 상기 키워드로 추출하는 것을 특징으로 하는 음향 정보 녹음 장치.
  10. 제1항에 있어서, 상기 제어부는,
    상기 음향 정보가 녹음된 시각과, 현재의 위치를 감지한 결과, 상기 녹음 시각 및 현재의 위치에 매칭되는 기 저장된 일정 정보에 근거하여 상기 키워드를 추출하는 것을 특징으로 하는 음향 정보 녹음 장치.
  11. 제1항에 있어서, 상기 제어부는,
    상기 음향 정보를 분석한 결과, 상기 녹음된 음향 정보의 유형에 따라 서로 다른 적어도 하나의 그래픽 객체를 포함하는 이미지 정보를 생성하며,
    상기 음향 정보의 유형은,
    상기 음향 정보가 복수의 사람 음성을 포함하고 있는지 또는 일정한 리듬을 가지는 멜로디를 포함하고 있는지 여부에 따라 결정되는 것을 특징으로 하는 음향 정보 녹음 장치.
  12. 제11항에 있어서, 상기 제어부는,
    상기 녹음된 음향 정보가 복수의 사람 목소리를 포함하는 경우, 적어도 하나의 사람 모양의 그래픽 객체, 또는 적어도 하나의 말풍선 모양의 그래픽 객체, 또는 적어도 하나의 주파수 파형 형태의 그래픽 객체를 포함하는 상기 이미지 정보를 생성하는 것을 특징으로 하는 음향 정보 녹음 장치.
  13. 제12항에 있어서, 상기 제어부는,
    상기 녹음된 음향 정보로부터 인식되는 목소리의 주체의 개수에 대응되는 개수의 상기 그래픽 객체를 포함하는 상기 이미지 정보를 생성하는 것을 특징으로 하는 음향 정보 녹음 장치.
  14. 제12항에 있어서, 상기 제어부는,
    상기 녹음된 음향 정보에 포함된 복수의 사람 목소리 중 인식 가능한 목소리가 있는 경우, 해당 목소리에 대응되는 인물을 인식하고 인식된 인물에 대응되는 이미지를 상기 그래픽 객체로 표시하는 것을 특징으로 하는 음향 정보 녹음 장치.
  15. 제1항에 있어서,
    상기 제어부는,
    상기 음향 정보가 녹음되는 동안 상기 감지부의 감지 결과를 이용하여 사용자의 정서 상태를 판단하고,
    상기 이미지 정보는,
    상기 판단된 사용자의 정서 상태에 대응되는 그래픽 객체를 포함하는 것을 특징으로 하는 음향 정보 녹음 장치.
  16. 제1항에 있어서, 상기 제어부는,
    음향 정보가 녹음되면 현재 위치를 감지하고,
    상기 위치와 관련된 정보를 상기 키워드로 추출 및, 상기 감지된 위치에 대응되는 그래픽 객체를 포함하는 상기 태그 정보를 상기 녹음된 음향 정보에 대응되도록 표시하는 것을 특징으로 하는 음향 정보 녹음 장치.
  17. 제1항에 있어서, 상기 제어부는,
    검색 정보가 입력되면, 입력된 검색 정보에 대응되는 부분을 포함하는 음향 정보를 검색하며,
    상기 검색 정보는,
    텍스트 정보, 녹음된 음향 정보, 사용자의 정서 상태, 현재의 위치 중 어느 하나임을 특징으로 하는 음향 정보 녹음 장치.
  18. 제17항에 있어서,
    상기 검색 정보는,
    사람 목소리의 개수에 대한 정보를 더 포함하며,
    상기 제어부는,
    복수의 사람 목소리를 포함하는 기 저장된 음향 정보들 중, 상기 검색 정보에 근거하여 특정 수의 사람 목소리만이 포함된 음향 정보들을 검색하는 것을 특징으로 하는 음향 정보 녹음 장치.
  19. 제1항에 있어서, 상기 이미지 정보는,
    상기 음향 정보의 녹음 볼륨 레벨을 표시하기 위한 그래픽 객체를 포함하는 것을 특징으로 하는 음향 정보 녹음 장치.
  20. 음향 정보를 녹음하는 장치에 있어서,
    음향 정보를 녹음하고, 상기 음향 정보 녹음 장치의 주변 환경 및 생체 신호를 적어도 하나 감지하는 단계;
    상기 녹음된 음향 정보를 분석하여 키워드를 추출 및, 상기 음향 정보에 포함된 음향 신호의 발생 주체들을 인식하는 단계;
    상기 감지된 주변 환경, 상기 감지된 생체 신호 및, 상기 인식된 음향 신호의 발생 주체들 중 적어도 하나를 이용하여 이미지 정보를 생성하는 단계;
    상기 생성된 이미지 정보와 상기 추출된 키워드를 포함하는 태그 정보를 상기 녹음된 음향 정보에 대응되게 표시하는 단계; 및,
    상기 태그 정보 중 어느 하나가 선택되면, 그에 대응되는 음향 정보를 출력하는 단계를 포함하며,
    상기 음향 정보를 출력하는 단계는,
    상기 인식된 음향 신호 발생 주체들 중 선택된 어느 하나에 대응되는 음향 신호를 상기 음향 정보로부터 추출하여 출력하는 단계를 포함하는 단계임을 특징으로 하는 음향 정보 녹음 장치의 제어 방법.
PCT/KR2014/009692 2014-10-15 2014-10-15 음향 정보 녹음 장치 및 그 제어 방법 WO2016060296A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/KR2014/009692 WO2016060296A1 (ko) 2014-10-15 2014-10-15 음향 정보 녹음 장치 및 그 제어 방법
US15/517,407 US10409547B2 (en) 2014-10-15 2014-10-15 Apparatus for recording audio information and method for controlling same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2014/009692 WO2016060296A1 (ko) 2014-10-15 2014-10-15 음향 정보 녹음 장치 및 그 제어 방법

Publications (1)

Publication Number Publication Date
WO2016060296A1 true WO2016060296A1 (ko) 2016-04-21

Family

ID=55746825

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2014/009692 WO2016060296A1 (ko) 2014-10-15 2014-10-15 음향 정보 녹음 장치 및 그 제어 방법

Country Status (2)

Country Link
US (1) US10409547B2 (ko)
WO (1) WO2016060296A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018034406A1 (ko) * 2016-08-19 2018-02-22 엘지전자 주식회사 이동단말기 및 그 제어방법
CN112562687A (zh) * 2020-12-11 2021-03-26 天津讯飞极智科技有限公司 音视频处理方法、装置、录音笔和存储介质

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6977463B2 (ja) * 2017-10-06 2021-12-08 富士フイルムビジネスイノベーション株式会社 通信装置、通信システムおよびプログラム
KR102595790B1 (ko) * 2018-01-26 2023-10-30 삼성전자주식회사 전자 장치 및 그의 제어방법
WO2019177344A1 (en) * 2018-03-12 2019-09-19 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
US10872115B2 (en) 2018-03-19 2020-12-22 Motorola Mobility Llc Automatically associating an image with an audio track
WO2020032914A1 (en) * 2018-08-06 2020-02-13 Hewlett-Packard Development Company, L.P. Images generated based on emotions
CN110913242B (zh) * 2018-09-18 2021-12-10 阿基米德(上海)传媒有限公司 一种广播音频标签自动化生成方法
US11037576B2 (en) * 2018-11-15 2021-06-15 International Business Machines Corporation Distributed machine-learned emphatic communication for machine-to-human and machine-to-machine interactions
EP3660848A1 (en) * 2018-11-29 2020-06-03 Ricoh Company, Ltd. Apparatus, system, and method of display control, and carrier means
CN113377326B (zh) * 2021-06-08 2023-02-03 广州博冠信息科技有限公司 一种音频数据处理方法、装置、终端及存储介质
US11765115B2 (en) * 2021-07-29 2023-09-19 Snap Inc. Emoji recommendation system using user context and biosignals

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110037115A (ko) * 2009-10-05 2011-04-13 에스케이텔레콤 주식회사 키워드가 삽입된 녹음파일 생성 및 재생 방법과 그 휴대기기
KR20110095196A (ko) * 2010-02-16 2011-08-24 윤재민 음장표시 디지털 비디오 레코더 시스템 및 그것의 운용 방법
KR20130124863A (ko) * 2012-05-07 2013-11-15 엘지전자 주식회사 음성 파일과 관련된 텍스트의 표시 방법 및 이를 구현한 전자기기
KR20130129749A (ko) * 2012-05-21 2013-11-29 엘지전자 주식회사 녹음된 음성의 탐색을 용이하게 하는 방법 및 이를 구현한 전자기기
KR20140029894A (ko) * 2012-08-31 2014-03-11 엘지전자 주식회사 이동 단말기

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6567775B1 (en) * 2000-04-26 2003-05-20 International Business Machines Corporation Fusion of audio and video based speaker identification for multimedia information access
US6754373B1 (en) * 2000-07-14 2004-06-22 International Business Machines Corporation System and method for microphone activation using visual speech cues
US6959276B2 (en) * 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
US7457745B2 (en) * 2002-12-03 2008-11-25 Hrl Laboratories, Llc Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments
US20070038448A1 (en) * 2005-08-12 2007-02-15 Rini Sherony Objection detection by robot using sound localization and sound based object classification bayesian network
US8121837B2 (en) * 2008-04-24 2012-02-21 Nuance Communications, Inc. Adjusting a speech engine for a mobile computing device based on background noise
GB2466242B (en) * 2008-12-15 2013-01-02 Audio Analytic Ltd Sound identification systems
US11392975B2 (en) * 2013-03-22 2022-07-19 Audio Analytic Limited Brand sonification
US9769564B2 (en) * 2015-02-11 2017-09-19 Google Inc. Methods, systems, and media for ambient background noise modification based on mood and/or behavior information

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110037115A (ko) * 2009-10-05 2011-04-13 에스케이텔레콤 주식회사 키워드가 삽입된 녹음파일 생성 및 재생 방법과 그 휴대기기
KR20110095196A (ko) * 2010-02-16 2011-08-24 윤재민 음장표시 디지털 비디오 레코더 시스템 및 그것의 운용 방법
KR20130124863A (ko) * 2012-05-07 2013-11-15 엘지전자 주식회사 음성 파일과 관련된 텍스트의 표시 방법 및 이를 구현한 전자기기
KR20130129749A (ko) * 2012-05-21 2013-11-29 엘지전자 주식회사 녹음된 음성의 탐색을 용이하게 하는 방법 및 이를 구현한 전자기기
KR20140029894A (ko) * 2012-08-31 2014-03-11 엘지전자 주식회사 이동 단말기

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018034406A1 (ko) * 2016-08-19 2018-02-22 엘지전자 주식회사 이동단말기 및 그 제어방법
CN112562687A (zh) * 2020-12-11 2021-03-26 天津讯飞极智科技有限公司 音视频处理方法、装置、录音笔和存储介质

Also Published As

Publication number Publication date
US20170300291A1 (en) 2017-10-19
US10409547B2 (en) 2019-09-10

Similar Documents

Publication Publication Date Title
WO2016060296A1 (ko) 음향 정보 녹음 장치 및 그 제어 방법
US7779357B2 (en) Audio user interface for computing devices
JP2009510826A (ja) コンテンツ情報の提供を受けたユーザの感情状態を分析するための方法及び装置
US20110274406A1 (en) Information processing method, information processing device, scene metadata extraction device, loss recovery information generation device, and programs
KR101455090B1 (ko) 재생 음악과 연주 음악간의 자동 키 매칭 방법 및 장치 및그 오디오 재생 장치
WO2014061931A1 (ko) 음향 재생 장치 및 음향 재생 방법
JP2008032825A (ja) 発言者表示システム、発言者表示方法および発言者表示プログラム
CN108763475B (zh) 一种录制方法、录制装置及终端设备
JP4431507B2 (ja) カラオケシステム
JP2007256618A (ja) 検索装置
WO2015037871A1 (ko) 텍스트 인식을 이용한 음성재생 서비스 제공 시스템, 서버 및 단말
JP4423235B2 (ja) 利用者別楽曲別好適キー設定システム
JP2010078926A (ja) デュエット相手抽出システム
JP4390278B2 (ja) カラオケシステム
CN110890095A (zh) 语音检测方法、推荐方法、装置、存储介质和电子设备
JP4516944B2 (ja) カラオケ歌唱補助システム
JP4423212B2 (ja) カラオケシステム
JP6962849B2 (ja) 会議支援装置、会議支援制御方法およびプログラム
JP2007199574A (ja) 楽曲再生装置、楽曲テロップ検索サーバ
WO2012102424A1 (ko) 전자 그림책 편집 장치 및 방법
WO2017039102A1 (ko) 커뮤니케이션 방법 및 그를 위한 전자 장치
JP5262137B2 (ja) コンテンツ記憶再生装置およびネットワークシステム
JP2002278563A (ja) 情報処理装置および方法、配信システム、プログラム格納媒体、並びにプログラム
JP7423164B2 (ja) カラオケ装置
WO2023058789A1 (ko) 사용자 맞춤형 컨텐츠를 제공하는 인공지능 디바이스 및, 그 디바이스를 제어하는 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14903902

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15517407

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14903902

Country of ref document: EP

Kind code of ref document: A1