WO2015037871A1 - 텍스트 인식을 이용한 음성재생 서비스 제공 시스템, 서버 및 단말 - Google Patents

텍스트 인식을 이용한 음성재생 서비스 제공 시스템, 서버 및 단말 Download PDF

Info

Publication number
WO2015037871A1
WO2015037871A1 PCT/KR2014/008308 KR2014008308W WO2015037871A1 WO 2015037871 A1 WO2015037871 A1 WO 2015037871A1 KR 2014008308 W KR2014008308 W KR 2014008308W WO 2015037871 A1 WO2015037871 A1 WO 2015037871A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
voice
data
unit
user terminal
Prior art date
Application number
PCT/KR2014/008308
Other languages
English (en)
French (fr)
Inventor
김경철
Original Assignee
Kim Kyung-Cheol
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kim Kyung-Cheol filed Critical Kim Kyung-Cheol
Publication of WO2015037871A1 publication Critical patent/WO2015037871A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Definitions

  • the present invention relates to an apparatus and a system for providing a voice reproducing service. More particularly, the present invention relates to a device and a system for detecting a location of an operation means moving in a text area displayed on a display unit of a user terminal. The present invention relates to a system, an apparatus, and a terminal for providing a voice playback service.
  • user terminals capable of data communication can download contents, surf the web, participate in social networks (SNS), and images.
  • SNS social networks
  • Various kinds of services such as chat can be provided.
  • the service of converting and reproducing a specific text into voice is also one of services that a user using a user terminal can receive.
  • a specific service provider has a server to which a plurality of user terminals can be connected.
  • Such text-to-speech informs various messages and statements so that the system can be easily used by beginners. It is also used in voice e-mail, voice prompts, voice recognition, etc., and is used in pen-type text readers, ASCII text readers, and sound card substitute equipment.
  • 1 is a screen that appears when accessing a site that provides a text-to-speech service according to the prior art.
  • a setting list for the language and gender to be played by voice is generated, and a window for inputting text is provided below.
  • PLAY the play button
  • the above-described prior art is capable of reproducing only the entire input text, and does not provide a function of reproducing from a character of a specific part that the user wants to reproduce.
  • Embodiments of the present invention are to detect the position of the operation means in the entire text and to read the characters of the position, so that the user can selectively reproduce only the text of the specific portion that the user wants to play, not the entire displayed text.
  • embodiments of the present invention to provide a device and system that can automatically detect whether the words or vocabulary associated with onomatopoeia, emotions or situations in the text to be reproduced.
  • the embodiments of the present invention are intended to reproduce the sound by reflecting the change of the actual sound or intonation, rather than the pronunciation of the word or vocabulary related to onomatopoeia, emotions or situations in the text.
  • a communication unit connected to a user terminal through a wired or wireless network to receive or transmit data for voice reproduction, and when text information is received from the user terminal, search for a voice support DB and match the text information.
  • a voice reproduction service providing server including a data convergence unit for extracting voice data and a control unit for controlling data processing and operations between components including the communication unit and the data convergence unit.
  • the apparatus may further include a position sensing unit for sensing a position of the manipulation unit in a text window displayed on the user terminal, wherein the data convergence unit collects text information of a character in which the manipulation unit is located from the user terminal, and then the voice support DB. Search for and extract voice data matched with the text information.
  • the data convergence unit may collect text information of a character in which the manipulation means is located only when the manipulation means is in a stop state for a predetermined time or more.
  • the data convergence unit may divide the text information into at least one of a syllable, a word, a sentence, a paragraph, or a whole text, and convert the text information into voice data, or at least any one of language, gender, age, playback speed, and sound volume. Audio data corresponding to one playback mode can be converted.
  • the data convergence unit may check whether the designated text is included in the received text information, and if it is determined that the designated text is included, the data convergence may extract voice data matched with the designated text.
  • a text window a display unit for displaying the progress according to the movement of the operation means and data transmission and reception with the voice playback service providing server, an input unit for receiving a command or setting value for moving the operation means from the user
  • a text extraction unit for extracting text information of a character in which the operation means is located, a data transmission / reception unit connected to the voice reproducing service providing server through a wired / wireless network to transmit the extracted text information and to receive voice data;
  • An application driver for activating the application and activating the display unit and the data transmitter / receiver, a voice output unit for converting the voice data to reproduce the actual sound, and a memory for storing and managing the set value, text, application, and voice data. Including user Words are provided.
  • the setting value may include at least one of a playback section including at least one of a syllable, a word, a sentence, a paragraph, or an entire text for reproducing the text from a user, and at least one of language, gender, age, playing speed, or sound volume. It may include a playback mode that includes.
  • the application driving unit checks whether the designation character is included in the text, and if it is determined that the designation character is included, the identification code is inserted into the designation character, the data transmission and reception unit is the designation character into which the identification code is inserted Text information including the may be transmitted.
  • the apparatus may further include a virtual grid generating unit configured to generate a plurality of virtual grids in the text window, wherein the text extracting unit specifies a virtual grid in which the operation means is located among the plurality of virtual grids, and then the specified virtual grid is surrounded. Text information of characters can be extracted.
  • a virtual grid generating unit configured to generate a plurality of virtual grids in the text window, wherein the text extracting unit specifies a virtual grid in which the operation means is located among the plurality of virtual grids, and then the specified virtual grid is surrounded. Text information of characters can be extracted.
  • the application when the application is executed by the user's operation from the user terminal and the user terminal for transmitting the text information of the text in which the operation means is located over the wired or wireless network, and reproduces the received voice data by voice Receiving the text information, search the voice support DB to extract the voice data matched with the received text information, the text recognition service including a voice playback service providing server for transmitting the extracted voice data to the user terminal Provided is a voice playback service providing system.
  • Embodiments of the present invention by detecting the position of the operation means in the entire text and by converting the text information of the specific character of the specific position to the voice, the specific to selectively reproduce only the text of the specific portion that the user wants to play It is possible to overcome the problem of the prior art, which must delete the text before the part.
  • embodiments of the present invention by establishing a voice support DB that stores and manages voice data matched with words or vocabulary (hereinafter, designated letters) related to onomatopoeia and emotions or situations, the designated letters are displayed in the text to be reproduced by voice. It is possible to provide an apparatus and system that can automatically detect whether it is included.
  • embodiments of the present invention can search the voice support DB and call the voice data matched with the designated voice when the designated character is included in the text, so that the designated character can be reproduced as a voice reflecting a change in the actual sound or intonation. .
  • 1 is a screen that appears when accessing a site that provides a text-to-speech service according to the prior art.
  • FIG. 2 is a schematic structural diagram of a system for providing a voice playback service using text recognition according to an embodiment of the present invention.
  • FIG. 3 is a block diagram showing a detailed configuration of a service providing server according to another embodiment of the present invention.
  • FIG. 4 is a block diagram showing a detailed configuration of a user terminal according to another embodiment of the present invention.
  • FIG. 5 is a diagram illustrating an example of a display unit displayed as an application of a user terminal according to the present invention is driven.
  • FIG. 6 illustrates a state in which a specific text is displayed in the text window shown in FIG. 5.
  • FIG. 7 illustrates an example in which a virtual grid is generated according to text displayed in the text window shown in FIG. 5.
  • control unit 140 position detection unit
  • FIG. 2 is a schematic structural diagram of a system for providing a voice playback service using text recognition according to an embodiment of the present invention.
  • a system for providing a voice playback service using text recognition includes a voice playback service providing server 100 and at least one user terminal 300 connected through a wired or wireless network. .
  • the user terminal 300 is a device capable of downloading and installing an application (application), which is typically a smartphone, but is not limited to this means any device capable of transmitting and receiving data connected to an external server through a network. It should be interpreted.
  • the application may be driven independently or may be driven as a function of another application.
  • the user terminal 300 When the user terminal 300 executes the application by the user's operation, the user terminal 300 transmits text information of the text where the operation means is located through the wired / wireless network, and converts the voice data when the voice data is received from the voice reproduction service providing server 100 to actually convert the text data. Play with voice.
  • the operation means means a means for designating a starting point to be reproduced in text displayed on the display unit 310 of the user terminal 300 such as a cursor, a pointer, an icon, and the display unit 310 of the user terminal 300.
  • a touch screen it means a portion where a user's finger is touched.
  • the voice reproduction service providing server 100 receives text information from the user terminal 300, searches for the voice support DB 200, and extracts voice data matched with the received text information. In addition, the voice reproduction service providing server 100 may transmit the extracted voice data to the user terminal 300 in real time or at predetermined time intervals.
  • FIG. 3 is a block diagram showing a detailed configuration of a service providing server according to another embodiment of the present invention.
  • the service providing server includes a communication unit 110, a data convergence unit 120, and a controller 130.
  • the communication unit 110 is connected to the user terminal 300 through a wired or wireless network to receive or transmit data for voice reproduction. More specifically, the text information is used to transmit the text information to the voice reproduction service providing server 100 to convert the text into voice, or to receive the voice data converted from the data information from the voice reproduction service providing server 100.
  • the communication unit 110 may be implemented in one or more of various methods such as WLAN, Wi-Fi, WiBro, WiMAX, HSDPA, short-range wireless communication, infrared communication, UWB or short-range wired communication.
  • the data convergence unit 120 searches for the voice support DB 200 and extracts the voice data matched with the text information.
  • the voice support DB 200 maps and stores each text information and voice data.
  • the data convergence unit 120 and the voice support DB 200 may be implemented in one configuration, but may be separated and operated separately depending on the situation.
  • the controller 130 is a component that controls the overall operation of the voice reproduction service providing server 100.
  • the controller 130 manages data processing and operations between components including the communication unit 110 and the data convergence unit 120 according to each process. By linking data sequentially, data collisions can be avoided and computations can be reduced.
  • the voice playback service providing server 100 may further include a location sensor 140.
  • the voice reproduction service providing server 100 may not only receive data information manually from the user terminal 300 but also directly collect data information.
  • the position sensor 140 is a component for detecting the position of the manipulation means in the text window 30 displayed on the user terminal 300. In detail, the position of the manipulation means that is completed by the user is detected from the entire text input or loaded in the text window 30.
  • the position detecting unit 140 generates coordinate values at a predetermined interval in the text window 30 and then, if the manipulation means is located at a specific point of the text window 30 according to the user's manipulation, the coordinate value of the corresponding point. Can be extracted.
  • the data convergence unit 120 may collect text information of a character having a coordinate value corresponding to the extracted coordinate value.
  • the extracted coordinate value corresponds to a blank space between the text and the text
  • the text having the extracted coordinate value and the shortest coordinate value may be determined.
  • the position detector 140 may generate a plurality of virtual grids in the text window 30.
  • FIG. 7 illustrates an example in which a virtual grid is generated in accordance with the text displayed in the text window 30 shown in FIG. 5.
  • the virtual grid is matched one-to-one with all characters constituting the entire text and is one virtual.
  • the grid is created in such a way that it encloses a single character. Then, when the operation means is located in a particular virtual grid according to the user's operation, the data convergence unit 120 may collect text information from the characters surrounded by the virtual grid.
  • the data convergence unit 120 may be set to collect text information only when the operation means is stopped at a predetermined position of the text window 30 for a preset time (for example, 5 seconds). That is, in order to prevent a case in which all texts corresponding to coordinate values or virtual grids that change according to the movement of the operation means are reproduced differently from the user's intention, the reproduction means is reproduced from the user only when the operation means is stopped for a predetermined time or more. It is determined that the request has been entered.
  • a preset time for example, 5 seconds
  • the data convergence unit 120 may analyze the text information and convert the text information into voice data according to a playback section or a playback mode. In detail, it is checked whether the setting value input by the user is inserted in the received or collected text information. If the set value is inserted, the set value may be extracted to be divided into at least one playback section among syllables, words, sentences, paragraphs, or text in order to be converted into voice data. Alternatively, the audio data may be converted into voice data corresponding to at least one of the language, gender, age, playback speed, and sound volume.
  • the above-described embodiments of the present invention have an advantage of providing a function of selectively listening to a voice for a predetermined range of text among all texts.
  • the data convergence unit 120 may check whether the designated text is included in the received text information.
  • the designation letter means a word or vocabulary related to onomatopoeia and emotions or situations, for example, “ ⁇ (crash or explosion)”, “Homming (tiger)”, “Meow (cat)”, “ (Car sound) “,” TWEET (bird sound) “and the like, as well as” ⁇ ",”! “,” ⁇ "may be a string associated with various emotions or situations.
  • the voice data matched with the designated character is extracted and transmitted to the user terminal 300 so that the user can listen to the actual sound or the voice in which the intonation is reflected. do.
  • FIG 4 is a block diagram showing a detailed configuration of the user terminal 300 according to another embodiment of the present invention
  • Figure 5 is a view of the display unit 310 is displayed as the application of the user terminal 300 according to the present invention is driven It is a figure which shows an example.
  • the user terminal 300 may include a display unit 310, an input unit 320, a text extractor 330, a data transceiver 340, an application driver 350, An audio output unit 360 and a memory 370 are included.
  • the display unit 310 is a configuration for displaying the progress of the text window 30, the movement of the operation means and the data transmission and reception with the voice playback service providing server 100, LCD, TFT-LCD, LED, OLED, AMOLED, flexible A display, a 3D display, etc. may be a means for guiding a user to information.
  • the operation means refers to a means for designating a starting point to be played within the text displayed on the text window 30 such as a cursor, a pointer, an icon, and the like, when the display unit 310 of the user terminal 300 is a touch screen. Means a portion where a user's finger is touched.
  • the display unit 310 includes a text list 10 for selecting any one of a plurality of text contents, a setting list 20 for receiving various setting values, and selected text among the plurality of text contents.
  • the text window 30 is shown.
  • the input unit 320 is a configuration for receiving a command or setting value for moving the operation means from the user.
  • the input unit 320 may include one or more of various methods such as a button input, a touch input, an operation input, a voice input, and the like.
  • the button input generates a command corresponding to each of the plurality of buttons, and typically includes a keypad and a keyboard.
  • the touch input generates a command by sensing a touch operation, and may include a touch pad, a touch screen, and a touch sensor.
  • the motion input recognizes a command corresponding to a predetermined specific motion, such as a voice, a pointer movement, or an operation of tilting or shaking the user terminal 300, and includes a microphone, a mouse, a camera, an RGB sensor, and a proximity sensor.
  • a predetermined specific motion such as a voice, a pointer movement, or an operation of tilting or shaking the user terminal 300.
  • the set value may include a playback section and a playback mode in which detailed items are determined according to a user's selection.
  • the playback section may be one or more of a section to be played back, that is, a syllable, a word, a sentence, a paragraph, or the entire text.
  • the playback mode is for adding a specific effect to the voice to be played according to the playback section, and at least one of language, gender, age, playback speed, and sound volume may be applied.
  • the display unit 310 and the input unit 320 may be configured independently, but when the user terminal 300 employs a means for comprehensively performing input and output, such as a touch screen, combined integrally Of course it can be.
  • the text extraction unit 330 extracts text information of the character at the point where the operation means is located in the text window 30.
  • the text extraction unit 330 may further include a virtual grid generation unit 380 in order to easily determine the text at the point where the manipulation means is located.
  • the generation unit 380 generates a plurality of virtual grids in the text window 30.
  • the plurality of virtual grids are matched one-to-one with all the letters constituting the entire text, and one virtual grid is generated in a form surrounding one letter.
  • This virtual grid may be set to be invisible (FIG. 6) or visible (FIG. 7) in the text window.
  • the text extractor 330 may extract text information from the characters surrounded by the virtual grid.
  • the second text of the plurality of text contents "Ryu Hyun-jin is capable as a starting pitcher, but is capable of responding skillfully at bat. It has never been a sacrifice bunt attempted in the past" Assume that is selected and displayed in the text window 30.
  • the operation means eg, the pointer of FIG. 7
  • the text extraction unit 330 determines the virtual grid corresponding to the position of the operation means and then the virtual grid is determined. Data information is extracted from the surrounding character "he”.
  • the text extractor 330 generates coordinate values at a predetermined interval in the text window 30 and extracts the coordinate values of the corresponding points when the operation means is located at a specific point of the text window 30 according to the user's manipulation. can do. Thereafter, text information of a character corresponding to the extracted coordinate value may be collected. If the extracted coordinate value corresponds to a blank space between the text and the text, the text information may be extracted by determining the text having the extracted coordinate value and the shortest distance coordinate value.
  • the data transmission / reception unit 340 is connected to the voice reproduction service providing server 100 through a wired / wireless network and transmits the text information extracted by the text extraction unit 330. In addition, the data transmission / reception unit 340 receives the voice data converted from the transmitted text information from the voice reproduction service providing server 100.
  • the application driver 350 executes an application according to a user's operation and sets the user terminal 300 to enable text-to-speech conversion by activating the display 310 and the data transceiver 340.
  • the application driver 350 may check whether a designated character is included in the text.
  • the designation letter means a word or vocabulary related to onomatopoeia and emotions or situations.
  • the designation letter is " ⁇ (hit or explosive sound)", “hopping (tiger sound)”, “Meow (cat sound)”
  • ⁇ (hit or explosive sound) "hopping (tiger sound)”
  • Meow (cat sound) A variety of emotions or situations, such as “laugh”, "! (Surprise, urgent), and “ ⁇ (laugh)”
  • onomatopoeia such as "," Burne (car sound) "and” TWEET (bird sound) ". May be a string associated with.
  • the application driver 350 may highlight (eg, shade or color) the text portion being played at the voice playback speed. Accordingly, the user can accurately recognize the text portion of the displayed text that is reproduced with the current voice.
  • the application driver 350 may insert the identification code for each designation character. Thereafter, the data transmission / reception unit 340 transmits the text information including the designated character into which the identification code is inserted, to the voice reproduction service providing server 100.
  • the voice reproduction service providing server 100 may check whether the designated character is included in the data information by itself, but searches for the voice support DB 200 by receiving the designated character with the identification code inserted by the user terminal 300. Therefore, there is an advantage of reducing the amount of calculation for extracting the voice data matched with this and enabling a quick text-to-speech conversion.
  • the voice output unit 360 is a means for converting voice data and reproducing it into real sound.
  • the voice output unit 360 includes a speaker, and includes all means capable of generating vibration corresponding to the voice data and emitting it into the air.
  • the memory 370 stores and manages various data or programs including the above-described setting values, texts, applications, and voice data.
  • an operating system of the user terminal 300 or at least one or more application programs may be stored.
  • the memory 370 may include storage means such as a RAM, a ROM, a hard disk, a flash memory, a CD, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

텍스트 인식을 이용한 음성재생 서비스 제공 시스템, 장치 및 단말이 개시된다. 본 발명의 일 실시예에 따르면 사용자의 조작에 의해 애플리케이션을 실행되면 조작수단이 위치하는 텍스트의 텍스트 정보를 유무선 네트워크를 통해 송신하며, 수신된 음성데이터를 음성으로 재생하는 유저 단말; 및 유저 단말로부터 텍스트 정보를 수신하고, 음성지원 DB를 탐색하여 수신된 텍스트 정보와 매칭된 음성데이터를 추출하고, 추출된 음성데이터를 유저 단말로 송신하는 음성재생 서비스 제공 서버;를 포함하는 텍스트 인식을 이용한 음성재생 서비스 제공 시스템이 제공된다.

Description

텍스트 인식을 이용한 음성재생 서비스 제공 시스템, 서버 및 단말
본 발명은 음성재생 서비스를 제공하는 장치 및 시스템에 관한 것으로서, 보다 상세하게는 유저 단말의 표시부에 디스플레이되는 텍스트 영역에서 이동하는 조작수단의 위치를 감지하고, 해당 위치의 텍스트를 읽어들인 후 설정값을 적용하여 음성재생 서비스를 제공하기 위한 시스템, 장치 및 단말에 관한 것이다.
인터넷 등의 통신기술이 급속하게 발전함에 따라 데이터 통신이 가능한 PC, 스마트폰, 태플릿 등의 장치(이하, 유저 단말)를 사용하는 사용자들은 컨텐츠 다운로드, 웹 서핑, 소셜 네트워크(SNS) 참여, 화상 채팅 등 다양한 종류의 서비스를 제공받을 수 있게 되었다.
특정한 텍스트를 음성으로 변환하여 재생하는 서비스 역시 유저 단말을 이용하는 사용자가 제공받을 수 있는 서비스 중 하나로서, 최근에는 특정 사업자가 복수의 유저 단말이 접속가능한 서버를 갖추고 있으며, 사용자가 유저 단말에 특정 URL(Uniform Resource Locator)을 입력하거나 애플리케이션을 실행함으로써 서버에 접속하면 전술한 서비스를 제공하는 유료 또는 무료 온라인 사이트를 구축하는 사례가 점차 증가하는 추세인 바, 대표적으로는 "WWW.TEXT2SPEECH.ORG", "WWW.NEOSPEECH.COM" 등이 존재한다.
이러한 텍스트-음성변환은 각종 메시지 및 명령문을 소리로 알려줌으로써 초보자 등이 손쉽게 시스템을 이용할 수 있게 한다. 또한, 음성 이메일, 음성 프롬프트, 음성 인식 등에서 사용되며, 펜형 문자 판독기, 아스키 문자 판독기, 사운드 카드 대용 장비에 활용된다.
도 1은 종래기술에 따른 텍스트-음성변환 서비스를 제공하는 사이트에 접속하는 경우 나타나는 화면이다.
도 1을 참조하여 위 종래기술을 살펴보면, 음성으로 재생하고자 하는 언어 및 성별에 대한 설정리스트가 생성되며 아래에는 텍스트를 입력할 수 있는 창이 제공된다. 모든 입력사항이 완료된 후 사용자가 실행버튼(PLAY)을 클릭하면 입력된 텍스트에 설정값이 적용된 음성이 스피커를 통해 재생된다.
하지만, 전술한 종래기술은 입력된 전체 텍스트에 대한 재생만이 가능하고, 사용자가 재생을 원하는 특정 부분의 문자부터 재생하는 기능을 제공하고 있지 않았다.
예를 들어, 전체 텍스트로서 "①류현진이 선발투수로서 능력도 능력이지만 타석에서도 능숙하게 대응하는 걸 보면 기특하다. ②그동안 시도한 희생번트가 실패한 게 한 번도 없었다"가 입력된 경우를 가정할 수 있다.
이 경우, 사용자가 전체 텍스트의 처음부터가 아닌 특정부분("②그동안~")부터 재생하고자 하는 경우, 종래기술에 따르면 특정부분 이전의 텍스트(①)를 삭제해야만 하는 불편함이 있었다. 즉, "①류현진이 선발투수로서 능력도 능력이지만 타석에서도 능숙하게 대응하는 걸 보면 기특하다"를 삭제한 후에만 "②그동안 시도한 희생번트가 실패한 게 한 번도 없었다"에 해당하는 텍스트를 재생할 수 있어 사용자에게 별도의 조작을 강제하고 시간의 효율성을 저감시키는 문제가 있었다.
또한, 종래기술에 따르면 텍스트 내에 "ㅋㅋ", "!", "?", "^^" 등 다양한 감정 또는 상황에 관련된 텍스트와 상응하는 음성을 제공하지 못하고 있으며, "어흥", "야옹", "부르릉", "TWEET" 등의 의성어를 발음 그대로 재생할 뿐 실제 소리가 재생되는 것은 아니어서 사용자에게 보다 생생하고 실감나는 음성을 제공하는 데에 한계가 있었다.
따라서, 위와 같은 기존의 문제점들을 개선한 새로운 텍스트-음성변환 서비스를 제공할 수 있는 기술에 대한 개발이 요구되고 있다.
본 발명의 실시예들은 전체 텍스트에서 조작수단의 위치를 감지하고 해당 위치의 문자를 읽어들임으로써, 디스플레이되는 텍스트 전체가 아닌 사용자가 재생을 원하는 특정부분의 텍스트만을 선별적으로 재생할 수 있도록 하고자 한다.
또한, 본 발명의 실시예들은 재생대상 텍스트 내에 의성어, 감정 또는 상황과 관련된 단어 내지 어휘가 포함되어 있는지 자동적으로 검출할 수 있는 장치 및 시스템을 제공하고자 한다.
또한, 본 발명의 실시예들은 텍스트 내에 의성어, 감정 또는 상황과 관련된 단어 내지 어휘가 포함된 경우 발음 그대로 재생하는 것이 아닌 실제 소리 또는 억양의 변화를 반영하여 음성으로 재생시키고자 한다.
본 발명의 일 측면에 따르면, 유저 단말과 유무선 네트워크를 통해 연결되어 음성 재생을 위한 데이터를 수신 또는 송신하는 통신부, 상기 유저 단말로부터 텍스트 정보가 수신되면 음성지원 DB를 탐색하여 상기 텍스트 정보와 매칭된 음성데이터를 추출하는 데이터 컨버젼스부 및 상기 통신부 및 데이터 컨버젼스부를 포함하는 구성 상호간의 데이터 처리 및 동작을 제어하는 제어부를 포함하는 음성재생 서비스 제공 서버가 제공된다.
또한, 상기 유저 단말에 디스플레이되는 텍스트 창에서 조작수단의 위치를 감지하는 위치 감지부를 더 포함하고, 상기 데이터 컨버젼스부는 상기 유저 단말로부터 상기 조작수단이 위치한 문자의 텍스트 정보를 수집한 후 상기 음성지원 DB를 탐색하여 상기 텍스트 정보와 매칭된 음성데이터를 추출할 수 있다.
또한, 상기 데이터 컨버젼스부는 상기 조작수단이 기 설정된 시간 이상 정지상태인 경우에만 상기 조작수단이 위치한 문자의 텍스트 정보를 수집할 수 있다.
또한, 상기 데이터 컨버젼스부는 상기 텍스트 정보를 음절, 단어, 문장, 문단 또는 텍스트 전체 중 적어도 어느 하나의 재생구간으로 구획하여 음성데이터로 변환하거나, 언어, 성별, 나이, 재생속도 또는 소리크기 중 적어도 어느 하나의 재생모드에 상응하는 음성데이터로 변환할 수 있다.
또한, 상기 데이터 컨버젼스부는 상기 수신된 텍스트 정보에 지정문자가 포함되어 있는지 확인하고, 지정문자가 포함되어 있는 것으로 확인되면 상기 지정문자에 매칭된 음성데이터를 추출할 수 있다.
본 발명의 다른 측면에 의하면 텍스트 창, 조작수단의 이동 및 음성재생 서비스 제공 서버와의 데이터 송수신에 따른 진행 사항을 디스플레이하는 표시부, 사용자로부터 상기 조작수단을 이동시키기 위한 명령 또는 설정값을 입력받는 입력부, 상기 조작수단이 위치한 문자의 텍스트 정보를 추출하는 텍스트 추출부, 상기 음성재생 서비스 제공 서버와 유무선 네트워크를 통해 연결되어 상기 추출된 텍스트 정보를 송신하고 음성데이터를 수신하는 데이터 송수신부, 사용자의 조작에 따라 애플리케이션을 실행하고, 상기 표시부 및 데이터 송수신부를 활성화하는 애플리케이션 구동부, 상기 음성데이터를 변환하여 실제 음향으로 재생하는 음성 출력부 및 상기 설정값, 텍스트, 애플리케이션 및 음성데이터를 저장 및 관리하는 메모리를 포함하는 유저 단말이 제공된다.
또한, 상기 설정값은 사용자로부터 상기 텍스트를 재생하기 위한 음절, 단어, 문장, 문단 또는 텍스트 전체 중 적어도 어느 하나를 포함하는 재생구간 및 언어, 성별, 나이, 재생속도 또는 소리크기 중 적어도 어느 하나를 포함하는 재생모드를 포함할 수 있다.
또한, 상기 애플리케이션 구동부는, 상기 텍스트에 지정문자가 포함되어 있는지 확인하고, 지정문자가 포함되어 있는 것으로 확인되면 상기 지정문자에 식별코드를 삽입하며, 상기 데이터 송수신부는 상기 식별코드가 삽입된 지정문자를 포함하는 텍스트 정보를 송신할 수 있다.
또한, 상기 텍스트 창에 복수의 가상 격자를 생성하는 가상 격자 생성부를 더 포함하고, 상기 텍스트 추출부는 상기 복수의 가상 격자 중 상기 조작수단이 위치하는 가상 격자를 특정한 후 상기 특정된 가상 격자가 둘러싸고 있는 문자의 텍스트 정보를 추출할 수 있다.
본 발명의 또 다른 측면에 따르면 사용자의 조작에 의해 애플리케이션을 실행되면 조작수단이 위치하는 텍스트의 텍스트 정보를 유무선 네트워크를 통해 송신하며, 수신된 음성데이터를 음성으로 재생하는 유저 단말 및 상기 유저 단말로부터 상기 텍스트 정보를 수신하고, 음성지원 DB를 탐색하여 상기 수신된 텍스트 정보와 매칭된 음성데이터를 추출하고, 상기 추출된 음성데이터를 상기 유저 단말로 송신하는 음성재생 서비스 제공 서버를 포함하는 텍스트 인식을 이용한 음성재생 서비스 제공 시스템이 제공된다.
본 발명의 실시예들은 전체 텍스트에서 조작수단의 위치를 감지하고 해당 위치의 특정 문자의 텍스트 정보를 읽어들여 음성으로 변환함으로써, 사용자가 재생을 원하는 특정부분의 텍스트만을 선별적으로 재생하기 위하여 상기 특정부분 이전의 텍스트를 삭제하여야만 하는 종래기술의 문제점을 극복할 수 있다.
또한, 본 발명의 실시예들은 의성어 및 감정 또는 상황과 관련된 단어 내지 어휘(이하, 지정문자)와 매칭된 음성데이터가 저장 및 관리되는 음성지원 DB를 구축함으로써 음성으로 재생하고자 하는 텍스트 내에 지정문자가 포함되어 있는지 자동적으로 검출할 수 있는 장치 및 시스템을 제공할 수 있다.
또한, 본 발명의 실시예들은 텍스트 내에 지정문자가 포함된 경우 음성지원 DB를 탐색하여 이와 매칭된 음성데이터를 호출함으로써 지정문자를 발음 그대로가 아니라 실제 소리 또는 억양의 변화가 반영된 음성으로 재생할 수 있다.
도 1은 종래기술에 따른 텍스트-음성변환 서비스를 제공하는 사이트에 접속하는 경우 나타나는 화면이다.
도 2는 본 발명의 일 실시예에 따른 텍스트 인식을 이용한 음성재생 서비스 제공 시스템의 개략적인 구성도이다.
도 3은 본 발명의 다른 실시예에 따른 서비스 제공 서버의 세부 구성을 나타낸 블록도이다.
도 4는 본 발명의 다른 실시예에 따른 유저 단말의 세부 구성을 나타낸 블록도이다.
도 5는 본 발명에 의한 유저 단말의 애플리케이션이 구동됨에 따라 디스플레이되는 표시부의 일 예를 도시한 도면이다.
도 6은 도 5에 도시된 텍스트 창에 특정 텍스트가 디스플레이된 상태를 도시한 것이다.
도 7은 도 5에 도시된 텍스트 창에 디스플레이되는 텍스트에 맞춰 가상 격자가 생성된 일 예를 도시한 것이다.
[부호의 설명]
100 : 음성재생 서비스 제공 서버
110 : 통신부 120 : 데이터 컨버젼스부
130 : 제어부 140 : 위치 감지부
200 : 음성지원 DB
300 : 유저 단말
310 : 표시부 320 : 입력부
330 : 텍스트 추출부 340 : 데이터 송수신부
350 : 애플리케이션 구동부 360 : 음성 출력부
370 : 메모리 380 : 가상 격자 생성부
10 : 텍스트 리스트 20 : 설정 리스트
30 : 텍스트 창
본 명세서에서 개시되는 실시예들은 본 발명의 범위를 한정하는 것으로 해석되거나 이용되지 않아야 할 것이다. 이 분야의 통상의 기술자에게 본 명세서의 실시예를 포함한 설명은 다양한 응용을 갖는다는 것이 당연하다. 따라서, 특허청구범위에 의해 한정되지 않는 이상, 임의의 실시예는 본 발명을 보다 잘 설명하기 위한 예시적인 것이며 본 발명의 범위가 실시예들로 한정되는 것을 의도하지 않는다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 더욱 상세히 설명하기로 한다.
도 2는 본 발명의 일 실시예에 따른 텍스트 인식을 이용한 음성재생 서비스 제공 시스템의 개략적인 구성도이다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 텍스트 인식을 이용한 음성재생 서비스 제공 시스템은 음성재생 서비스 제공 서버(100) 및 이와 유무선 네트워크를 통해 연결된 적어도 하나 이상의 유저 단말(300)을 포함한다.
먼저 유저 단말(300)은 애플리케이션(application)을 다운로드 받아 설치 및 실행할 수 있는 기기로서, 대표적으로 스마트폰이 있으나 이에 한정되지 않고 외부 서버와 네트워크를 통해 연결되어 데이터 송수신이 가능한 모든 장치를 의미하는 것으로 해석되어야 할 것이다. 이 때, 상기 애플리케이션은 독립적으로 구동거나 타 애플리케이션의 일부 기능으로서 구동될 수도 있다.
유저 단말(300)은 사용자의 조작에 의해 애플리케이션을 실행되면 조작수단이 위치하는 텍스트의 텍스트 정보를 유무선 네트워크를 통해 송신하고, 음성재생 서비스 제공 서버(100)로부터 음성데이터가 수신되면 이를 변환하여 실제 음성으로 재생한다.
여기서 조작수단은 커서, 포인터, 아이콘 등 유저 단말(300)의 표시부(310)에 디스플레이되는 텍스트에서 재생하고자 하는 시작 지점을 지정할 수 있는 수단을 의미하며, 유저 단말(300)의 표시부(310)가 터치스크린인 경우에는 사용자의 손가락이 터치되는 부분을 의미한다.
음성재생 서비스 제공 서버(100)는 유저 단말(300)로부터 텍스트 정보를 수신하고, 음성지원 DB(200)를 탐색하여 수신되는 텍스트 정보와 매칭된 음성데이터를 추출한다. 또한, 음성재생 서비스 제공 서버(100)는 추출된 음성데이터를 실시간 또는 소정시간 간격으로 유저 단말(300)에 송신할 수 있다.
이하에서는 유저 단말(300) 및 음성재생 서비스 제공 서버(100)의 상세구성에 대하여 더욱 구체적으로 설명하기로 한다.
도 3은 본 발명의 다른 실시예에 따른 서비스 제공 서버의 세부 구성을 나타낸 블록도이다.
도 3을 참조하면, 본 발명의 다른 실시예에 따른 서비스 제공 서버는 통신부(110), 데이터 컨버젼스부(120) 및 제어부(130)를 포함한다.
통신부(110)는 유저 단말(300)과 유무선 네트워크를 통해 연결되어 음성 재생을 위한 데이터를 수신 또는 송신하는 역할을 수행한다. 보다 구체적으로는 텍스트를 음성으로 변환하기 위해서 텍스트 정보를 음성재생 서비스 제공 서버(100)에 전달하거나, 데이터 정보가 변환된 음성데이터를 음성재생 서비스 제공 서버(100)로부터 전달받기 위해 이용된다. 이 경우, 통신부(110)는 WLAN, 와이 파이, 와이브로, 와이맥스, HSDPA, 근거리 무선통신, 적외선 통신, UWB 또는 근거리 유선통신 등의 다양한 방식 중에서 하나 이상의 방식으로 구현될 수 있다.
데이터 컨버젼스부(120)는 유저 단말(300)로부터 텍스트 정보가 수신되면 음성지원 DB(200)를 탐색하여 상기 텍스트 정보와 매칭된 음성데이터를 추출하는 구성이다. 음성지원 DB(200)는 각 텍스트 정보와 음성데이터를 매핑하여 저장 및 관리한다. 한편, 데이터 컨버젼스부(120)와 음성지원 DB(200)는 하나의 구성으로 구현될 수 있으나, 상황에 따라 분리되어 별도로 운용될 수도 있다.
제어부(130)는 음성재생 서비스 제공 서버(100)의 동작 전반을 제어하는 구성으로서, 통신부(110) 및 데이터 컨버젼스부(120)를 포함하는 구성 상호간의 데이터 처리 및 동작을 관리하여 각 과정에 따라 데이터를 순차적으로 전달되도록 연결함으로써 데이터 충돌을 방지하고 연산량이 저감될 수 있도록 한다.
한편, 본 발명의 다른 실시예에 의하면 음성재생 서비스 제공 서버(100)는 위치 감지부(140)를 더 포함할 수 있다. 이로써, 음성재생 서비스 제공 서버(100)는 유저 단말(300)로부터 수동적으로 데이터 정보를 수신할 수 있음은 물론 직접 데이터 정보를 수집하는 것이 가능하다.
위치 감지부(140)는 유저 단말(300)에 디스플레이되는 텍스트 창(30)에서 조작수단의 위치를 감지하는 구성이다. 구체적으로 텍스트 창(30)에 입력되거나 로딩된 텍스트 전체 중에서 사용자에 의해 이동이 완료된 조작수단의 위치를 감지한다.
일 예로서, 위치 감지부(140)는 텍스트 창(30)에 일정 간격으로 좌표값을 생성한 후 사용자의 조작에 따라 조작수단이 텍스트 창(30)의 특정 지점에 위치하면 해당 지점의 좌표값을 추출할 수 있다. 다음으로 데이터 컨버젼스부(120)가 추출된 좌표값에 대응하는 좌표값을 갖는 문자의 텍스트 정보를 수집할 수 있다. 또한, 추출된 좌표값이 텍스트와 텍스트 사이의 빈 공간에 해당하는 경우에는, 상기 추출된 좌표값과 최단거리의 좌표값을 갖는 텍스트를 결정할 수 있다.
또 다른 예로서, 위치 감지부(140)는 텍스트 창(30)에 복수의 가상 격자를 생성할 수 있다. 도 7은 도 5에 도시된 텍스트 창(30)에 디스플레이되는 텍스트에 맞춰 가상 격자가 생성된 일 예를 도시한 것으로서, 가상 격자는 전체 텍스트를 구성하고 있는 모든 문자와 일대일로 매칭되어 하나의 가상 격자가 하나의 문자를 둘러싸는 형태로 생성된다. 이후, 사용자의 조작에 따라 조작수단이 특정 가상 격자에 위치하면, 데이터 컨버젼스부(120)는 해당 가상 격자가 둘러싸고 있는 문자부터 텍스트 정보를 수집할 수 있다.
여기서 데이터 컨버젼스부(120)는 상기 조작수단이 기 설정된 시간(예, 5초) 이상 텍스트 창(30)의 일정 위치에서 정지상태인 경우에만 텍스트 정보를 수집하도록 설정될 수 있다. 즉, 조작수단의 이동에 따라 변화하는 좌표값 또는 가상 격자에 대응하는 모든 텍스트가 사용자의 의도와는 다르게 재생되는 경우를 방지하기 위해서, 조작수단이 기 설정된 시간 이상 정지상태인 경우에만 사용자로부터 재생요청이 입력된 것으로 판단하는 것이다.
또한, 데이터 컨버젼스부(120)는 텍스트 정보를 수신 또는 수집하면 이를 분석하여 재생구간 또는 재생모드에 따라 음성데이터로 변환할 수 있다. 상세하게는, 수신 또는 수집된 텍스트 정보에 사용자에 의해 입력된 설정값이 삽입되어 있는지 확인한다. 만약, 설정값이 삽입되어 있다면 이를 추출함으로써 음절, 단어, 문장, 문단 또는 텍스트 전체 중 적어도 어느 하나의 재생구간으로 구획하여 음성데이터로 변환할 수 있다. 또는, 언어, 성별, 나이, 재생속도 또는 소리크기 중 적어도 어느 하나의 재생모드에 상응하는 음성데이터로 변환할 수도 있다.
전술한 본 발명의 실시예들은 종래기술과는 달리 사용자에게 전체 텍스트 중에서 소정범위의 텍스트에 대한 음성을 선별적으로 청취할 수 있는 기능을 제공할 수 있는 장점이 있다.
또한, 데이터 컨버젼스부(120)는 수신된 텍스트 정보에 지정문자가 포함되어 있는지 확인할 수 있다. 여기서 지정문자란 의성어 및 감정 또는 상황과 관련된 단어 내지 어휘를 의미하는 것으로서, 예를 들어 "쾅(부딪히거나 폭발음)", "어흥(호랑이 소리)", "야옹(고양이 소리)", "부르릉(자동차 소리)", "TWEET(새 소리)" 등의 의성어는 물론 "ㅋㅋ", "!", "^^" 등 다양한 감정 또는 상황에 관련된 문자열일 수 있다. 데이터 컨버젼스부(120)는 지정문자가 포함되어 있는 것으로 확인되면, 상기 지정문자에 매칭된 음성데이터를 추출하여 유저 단말(300)로 전송함으로써 실제 소리 또는 억양이 반영된 음성을 사용자가 청취할 수 있도록 한다.
도 4는 본 발명의 다른 실시예에 따른 유저 단말(300)의 세부 구성을 나타낸 블록도이고, 도 5는 본 발명에 의한 유저 단말(300)의 애플리케이션이 구동됨에 따라 디스플레이되는 표시부(310)의 일 예를 도시한 도면이다.
도 4를 참조하면, 본 발명의 다른 실시예에 따른 유저 단말(300)은 표시부(310), 입력부(320), 텍스트 추출부(330), 데이터 송수신부(340), 애플리케이션 구동부(350), 음성 출력부(360) 및 메모리(370)를 포함한다.
표시부(310)는 텍스트 창(30), 조작수단의 이동 및 음성재생 서비스 제공 서버(100)와의 데이터 송수신에 따른 진행 사항을 디스플레이하는 구성으로서, LCD, TFT-LCD, LED, OLED, AMOLED, 플렉시블 디스플레이, 3차원 디스플레이 등 사용자에게 정보를 안내해줄 수 있는 수단이면 무방하다. 여기서 조작수단이란 커서, 포인터, 아이콘 등 텍스트 창(30)에 디스플레이되는 텍스트 내에서 재생하고자 하는 시작 지점을 지정할 수 있는 수단을 의미하며, 유저 단말(300)의 표시부(310)가 터치스크린인 경우에는 사용자의 손가락이 터치되는 부분을 의미한다.
도 5를 참조하면, 표시부(310)에는 복수의 텍스트 컨텐츠 중 어느 하나를 선택할 수 있는 텍스트 리스트(10), 각종 설정값을 입력받을 수 있는 설정 리스트(20) 및 상기 복수의 텍스트 컨텐츠 중 선택된 텍스트가 디스플레이되는 텍스트 창(30)이 도시되어 있다.
입력부(320)는 사용자로부터 상기 조작수단을 이동시키기 위한 명령 또는 설정값을 입력받는 구성이다. 예를 들어, 입력부(320)는 버튼 입력, 터치 입력, 동작 입력, 음성 입력 등의 다양한 방식 중 하나 이상을 포함할 수 있다. 버튼 입력은 복수의 버튼 각각에 대응하는 명령을 생성하는 것으로서, 대표적으로 키패드, 키보드가 있다. 터치 입력은 터치하는 동작을 감지하여 명령을 생성하는 것으로서, 터치 패드, 터치 스크린, 터치 센서를 들 수 있다. 동작 입력은 목소리, 포인터 이동 또는 유저 단말(300)을 기울이거나 흔드는 동작 등 기 설정된 특정 동작과 대응하는 명령을 인식하는 것으로서 마이크, 마우스, 카메라, RGB 센서, 근접 센서 등이 있다.
또한, 상기 설정값에는 사용자에 선택에 따라 세부항목이 결정되는 재생구간 및 재생모드가 포함된다. 도 5를 참조하여 설명하면, 재생구간은 텍스트 전체 중 재생하고자 하는 구간 즉, 음절, 단어, 문장, 문단 또는 텍스트 전체 중 하나 이상일 수 있다. 재생모드는 상기 재생구간에 따라 재생될 음성에 특정 효과를 부가하기 위한 것으로서 언어, 성별, 나이, 재생속도 또는 소리크기 중 적어도 어느 하나가 적용될 수 있다.
한편, 상기 표시부(310)와 입력부(320)는 독립적으로 분리되어 구성될 수 있으나, 유저 단말(300)이 터치 스크린 등 입력 및 출력을 종합적으로 수행할 수 있는 수단을 채용하는 경우에는 일체로 결합될 수 있음은 물론이다.
텍스트 추출부(330)는 텍스트 창(30)에서 조작수단이 위치한 지점의 문자의 텍스트 정보를 추출한다. 본 발명의 다른 실시예에 따르면 텍스트 추출부(330)가 상기 조작수단이 위치한 지점의 텍스트를 용이하게 판단할 수 있도록 하기 위해서 가상 격자 생성부(380)를 더 포함할 수 있는 바, 이러한 가상 격자 생성부(380)는 텍스트 창(30)에 복수의 가상 격자를 생성한다.
즉, 도 7에 도시된 바와 같이 복수의 가상 격자는 전체 텍스트를 구성하고 있는 모든 문자와 일대일로 매칭되어 하나의 가상 격자가 하나의 문자를 둘러싸는 형태로 생성된다. 이러한 가상 격자는 텍스트 창에 비가시화(도 6) 또는 가시화(도 7) 되도록 설정될 수 있다. 이후, 사용자의 조작에 따라 조작수단이 특정 가상 격자에 위치하면, 텍스트 추출부(330)는 해당 가상 격자가 둘러싸고 있는 문자부터 텍스트 정보를 추출할 수 있다.
예를 들어 도 7을 참조하면, 복수의 텍스트 컨텐츠 중 제2 텍스트인 "류현진이 선발투수로서 능력도 능력이지만 타석에서도 능숙하게 대응하는 걸 보면 기특하다. 그동안 시도한 희생번트가 실패한 게 한 번도 없었다"가 선택되어 텍스트 창(30)에 디스플레이된 경우를 가정할 수 있다. 이 때, 조작수단(예, 도 7의 포인터)이 "그(음영 처리하여 도시)"에 위치하면, 텍스트 추출부(330)는 조작수단의 위치에 해당하는 가상 격자를 결정한 후 해당 가상 격자가 둘러싸고 있는 문자인 "그"부터 데이터 정보를 추출하게 된다.
또한, 텍스트 추출부(330)는 텍스트 창(30)에 일정 간격으로 좌표값을 생성한 후 사용자의 조작에 따라 조작수단이 텍스트 창(30)의 특정 지점에 위치하면 해당 지점의 좌표값을 추출할 수 있다. 이후, 추출된 좌표값에 대응하는 문자의 텍스트 정보를 수집할 수 있다. 만약, 추출된 좌표값이 텍스트와 텍스트 사이의 빈 공간에 해당하는 경우에는, 상기 추출된 좌표값과 최단거리의 좌표값을 갖는 텍스트를 결정하여 텍스트 정보를 추출할 수 있다.
데이터 송수신부(340)는 음성재생 서비스 제공 서버(100)와 유무선 네트워크를 통해 연결되어 텍스트 추출부(330)에 의해 추출된 텍스트 정보를 송신한다. 또한, 데이터 송수신부(340)는 송신된 텍스트 정보가 변환된 음성데이터를 음성재생 서비스 제공 서버(100)로부터 수신한다.
애플리케이션 구동부(350)는 사용자의 조작에 따라 애플리케이션을 실행하고, 상기 표시부(310) 및 데이터 송수신부(340)를 활성화하여 텍스트-음성 변환이 가능하도록 유저 단말(300)을 세팅하는 구성이다.
이러한 애플리케이션 구동부(350)는 텍스트 내에 지정문자가 포함되어 있는지 확인할 수 있다. 여기서 지정문자란 의성어 및 감정 또는 상황과 관련된 단어 내지 어휘를 의미하는 것으로서, 예를 들면, 지정문자는 "쾅(부딪히거나 폭발음)", "어흥(호랑이 소리)", "야옹(고양이 소리)", "부르릉(자동차 소리)", "TWEET(새 소리)" 등의 의성어는 물론 "ㅋㅋ(웃음)", "!(놀람, 긴급)", "^^(웃음)" 등 다양한 감정 또는 상황에 관련된 문자열일 수 있다.
또한, 애플리케이션 구동부(350)는 음성재생 속도에 맞춰 재생 중인 텍스트 부분에 하이라이트 처리(예, 음영 또는 색)할 수 있다. 이에 따라, 사용자는 디스플레이되는 텍스트 전체 중 현재 음성으로 재생되는 텍스트 부분을 정확하게 인지할 수 있다.
애플리케이션 구동부(350)는 텍스트 내에 상술한 지정문자가 포함되어 있는 것으로 확인되면 지정문자별로 식별코드를 삽입할 수 있다. 이후, 데이터 송수신부(340)는 식별코드가 삽입된 지정문자를 포함하는 텍스트 정보를 음성재생 서비스 제공 서버(100)에 송신한다. 음성재생 서비스 제공 서버(100)는 자체적으로 데이터 정보에 지정문자가 포함되어 있는지 확인할 수 있으나, 유저 단말(300)에 의해 식별코드가 삽입된 지정문자를 수신함으로써, 음성지원 DB(200)를 탐색하여 이와 매칭된 음성데이터를 추출하기 위한 연산량을 감소시키고 신속한 텍스트-음성 변환을 가능하게 하는 장점이 있다.
이에 따라, 지정문자를 발음 그대로 재생하는 것이 아니라 실제 소리 또는 억양이 반영된 음성으로 재생될 수 있으므로 사용자에게 보다 생생하고 실감나는 음성을 제공할 수 있다.
음성 출력부(360)는 음성데이터를 변환하여 실제 음향으로 재생하는 수단으로서, 대표적인 예로는 스피커를 들 수 있으며 음성데이터에 대응하는 진동을 발생시켜 공기 중으로 방출할 수 있는 모든 수단이 포함된다.
메모리(370)는 상술한 설정값, 텍스트, 애플리케이션 및 음성데이터를 비롯한 각종 데이터나 프로그램을 저장 및 관리하는 구성이다. 또한, 유저 단말(300)의 운영체제나 적어도 하나 이상의 응용 프로그램이 저장될 수 있다. 이러한 메모리(370)는 램(RAM), 롬(ROM), 하드디스크, 플래시 메모리, CD 등의 저장수단을 포함할 수도 있음은 물론이다.
위에서 설명된 본 발명의 실시예들은 예시의 목적을 위해 개시된 것이며, 이들에 의하여 본 발명이 한정되는 것은 아니다. 또한, 본 발명에 대한 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 사상과 범위 안에서 다양한 수정 및 변경을 가할 수 있을 것이며, 이러한 수정 및 변경은 본 발명의 범위에 속하는 것으로 보아야 할 것이다.

Claims (10)

  1. 유저 단말과 유무선 네트워크를 통해 연결되어 음성 재생을 위한 데이터를 수신 또는 송신하는 통신부;
    상기 유저 단말로부터 텍스트 정보가 수신되면 음성지원 DB를 탐색하여 상기 텍스트 정보와 매칭된 음성데이터를 추출하는 데이터 컨버젼스부; 및
    상기 통신부 및 데이터 컨버젼스부를 포함하는 구성 상호간의 데이터 처리 및 동작을 제어하는 제어부;
    를 포함하는 음성재생 서비스 제공 서버
  2. 제1항에 있어서,
    상기 유저 단말에 디스플레이되는 텍스트 창에서 조작수단의 위치를 감지하는 위치 감지부;
    를 더 포함하고,
    상기 데이터 컨버젼스부는,
    상기 유저 단말로부터 상기 조작수단이 위치한 문자의 텍스트 정보를 수집한 후 상기 음성지원 DB를 탐색하여 상기 텍스트 정보와 매칭된 음성데이터를 추출하는 것을 특징으로 하는 음성재생 서비스 제공 서버
  3. 제2항에 있어서,
    상기 데이터 컨버젼스부는,
    상기 조작수단이 기 설정된 시간 이상 정지상태인 경우에만 상기 조작수단이 위치한 문자의 텍스트 정보를 수집하는 것을 특징으로 하는 음성재생 서비스 제공 서버
  4. 제1항에 있어서,
    상기 데이터 컨버젼스부는,
    상기 텍스트 정보를 음절, 단어, 문장, 문단 또는 텍스트 전체 중 적어도 어느 하나의 재생구간으로 구획하여 음성데이터로 변환하거나,
    언어, 성별, 나이, 재생속도 또는 소리크기 중 적어도 어느 하나의 재생모드에 상응하는 음성데이터로 변환하는 것을 특징으로 하는 음성재생 서비스 제공 서버
  5. 제1항에 있어서,
    상기 데이터 컨버젼스부는,
    상기 수신된 텍스트 정보에 지정문자가 포함되어 있는지 확인하고, 지정문자가 포함되어 있는 것으로 확인되면 상기 지정문자에 매칭된 음성데이터를 추출하는 것을 특징으로 하는 음성재생 서비스 제공 서버
  6. 텍스트 창, 조작수단의 이동 및 음성재생 서비스 제공 서버와의 데이터 송수신에 따른 진행 사항을 디스플레이하는 표시부;
    사용자로부터 상기 조작수단을 이동시키기 위한 명령 또는 설정값을 입력받는 입력부;
    상기 조작수단이 위치한 문자의 텍스트 정보를 추출하는 텍스트 추출부;
    상기 음성재생 서비스 제공 서버와 유무선 네트워크를 통해 연결되어 상기 추출된 텍스트 정보를 송신하고 음성데이터를 수신하는 데이터 송수신부;
    사용자의 조작에 따라 애플리케이션을 실행하고, 상기 표시부 및 데이터 송수신부를 활성화하는 애플리케이션 구동부;
    상기 음성데이터를 변환하여 실제 음향으로 재생하는 음성 출력부; 및
    상기 설정값, 텍스트, 애플리케이션 및 음성데이터를 저장 및 관리하는 메모리;
    를 포함하는 유저 단말
  7. 제6항에 있어서,
    상기 설정값은,
    사용자로부터 상기 텍스트를 재생하기 위한 음절, 단어, 문장, 문단 또는 텍스트 전체 중 적어도 어느 하나를 포함하는 재생구간 및
    언어, 성별, 나이, 재생속도 또는 소리크기 중 적어도 어느 하나를 포함하는 재생모드를 포함하는 것을 특징으로 하는 유저 단말
  8. 제6항에 있어서,
    상기 애플리케이션 구동부는, 상기 텍스트에 지정문자가 포함되어 있는지 확인하고, 지정문자가 포함되어 있는 것으로 확인되면 상기 지정문자에 식별코드를 삽입하며,
    상기 데이터 송수신부는, 상기 식별코드가 삽입된 지정문자를 포함하는 텍스트 정보를 송신하는 것을 특징으로 하는 유저 단말
  9. 제6항에 있어서,
    상기 텍스트 창에 복수의 가상 격자를 생성하는 가상 격자 생성부;를 더 포함하고,
    상기 텍스트 추출부는,
    상기 복수의 가상 격자 중 상기 조작수단이 위치하는 가상 격자를 특정한 후 상기 특정된 가상 격자가 둘러싸고 있는 문자의 텍스트 정보를 추출하는 것을 특징으로 하는 유저 단말
  10. 사용자의 조작에 의해 애플리케이션을 실행되면 조작수단이 위치하는 문자의 텍스트 정보를 유무선 네트워크를 통해 송신하며, 수신된 음성데이터를 음성으로 재생하는 유저 단말; 및
    상기 유저 단말로부터 상기 텍스트 정보를 수신하고, 음성지원 DB를 탐색하여 상기 수신된 텍스트 정보와 매칭된 음성데이터를 추출하고, 상기 추출된 음성데이터를 상기 유저 단말로 송신하는 음성재생 서비스 제공 서버;
    를 포함하는 텍스트 인식을 이용한 음성재생 서비스 제공 시스템
PCT/KR2014/008308 2013-09-10 2014-09-04 텍스트 인식을 이용한 음성재생 서비스 제공 시스템, 서버 및 단말 WO2015037871A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020130108398A KR101406983B1 (ko) 2013-09-10 2013-09-10 텍스트 인식을 이용한 음성재생 서비스 제공 시스템, 서버 및 단말
KR10-2013-0108398 2013-09-10

Publications (1)

Publication Number Publication Date
WO2015037871A1 true WO2015037871A1 (ko) 2015-03-19

Family

ID=51132758

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2014/008308 WO2015037871A1 (ko) 2013-09-10 2014-09-04 텍스트 인식을 이용한 음성재생 서비스 제공 시스템, 서버 및 단말

Country Status (2)

Country Link
KR (1) KR101406983B1 (ko)
WO (1) WO2015037871A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115580742A (zh) * 2022-10-12 2023-01-06 广州市保伦电子有限公司 一种声文同步的广播方法及广播系统

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3690880B1 (en) * 2019-01-31 2023-11-29 MasterCard International Incorporated Method for communicating a non-speech message as audio
WO2020235712A1 (ko) * 2019-05-21 2020-11-26 엘지전자 주식회사 콘텐츠 기반의 스타일을 갖는 텍스트 또는 음성을 생성하는 인공 지능 장치 및 그 방법
KR102580354B1 (ko) * 2020-11-17 2023-09-20 하대석 비디오북 서비스 제공 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030053052A (ko) * 2001-12-21 2003-06-27 닛산 지도우샤 가부시키가이샤 텍스트 음성화 장치 및 그 방법과 이를 이용한 정보 제공시스템
KR20040067540A (ko) * 2003-01-24 2004-07-30 조미영 터치스크린을 이용한 영어학습방법 및 시스템
KR20070070821A (ko) * 2005-12-29 2007-07-04 이승선 음성인식 문자변환기기
KR20100131172A (ko) * 2009-06-05 2010-12-15 주식회사 보이스웨어 Tts 서버를 이용한 웹 리더 시스템 및 그 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030053052A (ko) * 2001-12-21 2003-06-27 닛산 지도우샤 가부시키가이샤 텍스트 음성화 장치 및 그 방법과 이를 이용한 정보 제공시스템
KR20040067540A (ko) * 2003-01-24 2004-07-30 조미영 터치스크린을 이용한 영어학습방법 및 시스템
KR20070070821A (ko) * 2005-12-29 2007-07-04 이승선 음성인식 문자변환기기
KR20100131172A (ko) * 2009-06-05 2010-12-15 주식회사 보이스웨어 Tts 서버를 이용한 웹 리더 시스템 및 그 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115580742A (zh) * 2022-10-12 2023-01-06 广州市保伦电子有限公司 一种声文同步的广播方法及广播系统
CN115580742B (zh) * 2022-10-12 2023-05-16 广东保伦电子股份有限公司 一种声文同步的广播方法及广播系统

Also Published As

Publication number Publication date
KR101406983B1 (ko) 2014-06-13

Similar Documents

Publication Publication Date Title
CN105074817B (zh) 用于使用手势来切换处理模式的系统和方法
US9437246B2 (en) Information processing device, information processing method and program
WO2012161359A1 (ko) 사용자 인터페이스 방법 및 장치
CN106104528A (zh) 用于屏幕上项目选择和消歧的基于模型的方法
CN110827826B (zh) 语音转换文字方法、电子设备
CN108763552B (zh) 一种基于家教机的学习方法及家教机
US10741172B2 (en) Conference system, conference system control method, and program
CN103377028A (zh) 用于以语音启动人机界面的方法和系统
WO2016060296A1 (ko) 음향 정보 녹음 장치 및 그 제어 방법
WO2014196790A1 (ko) 휴대단말기의 음성 이모티콘 제어방법
WO2015037871A1 (ko) 텍스트 인식을 이용한 음성재생 서비스 제공 시스템, 서버 및 단말
WO2014160316A2 (en) Device, method, and graphical user interface for a group reading environment
WO2014151884A2 (en) Device, method, and graphical user interface for a group reading environment
JP2014049140A (ja) 使用者デバイスで入力文字を利用した知能型サービス提供方法及び装置
US10540451B2 (en) Assisted language learning
CN110830362B (zh) 一种生成内容的方法、移动终端
KR101789057B1 (ko) 시각 장애인을 위한 자동 오디오 북 시스템 및 그 운영 방법
WO2019156536A1 (ko) 학습 데이터 중 식별 가능하지만 학습 가능성이 없는 데이터의 레이블화를 통한, 대화형 ai 에이전트 시스템을 위한 지식베이스 모델의 구축 또는 갱신 방법, 컴퓨터 장치, 및 컴퓨터 판독 가능 기록 매체
CN108073572A (zh) 信息处理方法及其装置、同声翻译系统
WO2021006538A1 (ko) 텍스트 메시지를 브이모지로 표현하는 아바타 비주얼 변환 장치 및 메시지 변환 방법
WO2021251539A1 (ko) 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치
CN104484370B (zh) 基于问答的答案信息发送方法、接收方法、装置及系统
CN101114283A (zh) 旅游机
WO2015102125A1 (ko) 문자형 대화 시스템 및 방법
WO2017065324A1 (ko) 수화교육 시스템, 방법 및 프로그램

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14843608

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS (EPO FORM 1205A DATED 28-06-2016)

122 Ep: pct application non-entry in european phase

Ref document number: 14843608

Country of ref document: EP

Kind code of ref document: A1