KR102361831B1 - 음성 인식에 기반하여 문서의 편집을 수행하는 방법 및 이를 이용한 장치 - Google Patents

음성 인식에 기반하여 문서의 편집을 수행하는 방법 및 이를 이용한 장치 Download PDF

Info

Publication number
KR102361831B1
KR102361831B1 KR1020210027245A KR20210027245A KR102361831B1 KR 102361831 B1 KR102361831 B1 KR 102361831B1 KR 1020210027245 A KR1020210027245 A KR 1020210027245A KR 20210027245 A KR20210027245 A KR 20210027245A KR 102361831 B1 KR102361831 B1 KR 102361831B1
Authority
KR
South Korea
Prior art keywords
command
document
word
voice data
voice
Prior art date
Application number
KR1020210027245A
Other languages
English (en)
Other versions
KR20210029177A (ko
Inventor
김상기
Original Assignee
주식회사 뷰노
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020180167691A external-priority patent/KR20200078103A/ko
Application filed by 주식회사 뷰노 filed Critical 주식회사 뷰노
Priority to KR1020210027245A priority Critical patent/KR102361831B1/ko
Publication of KR20210029177A publication Critical patent/KR20210029177A/ko
Application granted granted Critical
Publication of KR102361831B1 publication Critical patent/KR102361831B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Document Processing Apparatus (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 개시서에는 음성 인식에 기반하여 문서의 편집을 수행하는 방법 및 이를 이용한 장치가 개시된다. 구체적으로, 본 개시서의 방법에 의하면, 컴퓨팅 장치가, 음향 데이터를 획득하고, 획득된 상기 음향 데이터로부터 음성을 인식하며, 인식된 상기 음성에 따라 상기 문서의 작성 또는 편집을 수행하는 과정을 편집 종료시까지 지속적으로 반복한다.

Description

음성 인식에 기반하여 문서의 편집을 수행하는 방법 및 이를 이용한 장치{METHOD FOR PERFORMING DOCUMENT EDITING BASED ON SPEECH RECOGNITION AND APPARATUS USING THE SAME}
본 개시서에는 음성 인식에 기반하여 문서의 편집을 수행하는 방법 및 이를 이용한 장치가 개시된다. 구체적으로, 본 개시서의 방법에 의하면, 컴퓨팅 장치가, 음향 데이터를 획득하고, 획득된 상기 음향 데이터로부터 음성을 인식하며, 인식된 상기 음성에 따라 상기 문서의 작성 또는 편집을 수행하는 과정을 편집 종료시까지 지속적으로 반복한다.
자동 음성 인식 시스템이 음향 데이터로부터 문서, 즉 전사문을 생성하는 기술이 점차 보편화되고 있다. 문서 작성에 있어서 키보드와 같은 입력 장치를 이용하는 것이 일반적인 형태이지만, 작업 환경상 손이 부자유스러운 상황이 있을 수 있어 이를 극복하기 위한 수단으로서, 혹은 입력 속도를 높이기 위한 수단으로서 음성 인식을 이용하고자 하는 것이다.
그런데, 그러한 기술들에는 여전히 비효율적인 요소가 있는바, 음성 명령을 통한 편집시에는 편집을 위한 '명령' 음성과 문서의 내용으로 입력되어야 할 '텍스트' 음성의 구분이 모호하고, 문서의 내용이 편집되고 있는 현재의 위치를 지칭하는 편집 위치를 음성을 통하여 지정하는 것이 손쉽지 않기 때문이다. 이를 보조하기 위하여 키보드 등의 기타 입력 도구를 이용하는 것에도, 마이크로폰과 다른 도구 간에 사용 전환을 하여야 한다는 비효율성이 있고, 키보드 타이핑 등이 어려운 긴 전문용어를 입력하는 비효율성이 있다.
따라서 본 개시서에서는 문서를 편집, 작성함에 있어 문자화되어야 하는 음성이 아닌 편집 등을 위한 명령을 구별하여 이를 처리함으로써 효율적인 문서 작성 및 편집을 도모하는 장치를 제안하고자 한다.
본 개시서는 음성 인식을 통하여 문서를 효과적으로 작성 및 편집하는 방안을 제시하는 것을 목적으로 한다.
구체적으로, 본 발명은 문서의 내용으로 편입되어야 할 텍스트를 명령과 구분하고, 편집 위치를 손쉽게 지정할 수 있게 하는 것을 목적으로 한다.
본 발명은 녹음되어 있거나 실시간으로 입력되는 음성으로부터 문서를 만드는 효율을 높여 사용자로 하여금 품질 높은 문서를 신속하고 정확하게 생성할 수 있게 하는 데 조력하는 것을 목적으로 한다.
상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 효과를 실현하기 위한 본 발명의 특징적인 구성은 하기와 같다.
본 발명의 일 태양에 따르면, 음성 인식에 기반하여 문서의 편집을 수행하는 방법이 제공되는바, 그 방법은, (a) 컴퓨팅 장치가, 음향 데이터를 획득하거나 상기 컴퓨팅 장치에 연동되는 타 장치로 하여금 상기 음향 데이터를 획득하도록 지원하는 단계; (b) 상기 컴퓨팅 장치가, 획득된 상기 음향 데이터로부터 음성을 인식하거나 상기 타 장치로 하여금 상기 음향 데이터로부터 상기 음성을 인식하도록 지원하는 단계; 및 (c) 상기 컴퓨팅 장치가, 인식된 상기 음성에 따라 상기 문서의 작성 또는 편집을 수행하거나 상기 타 장치로 하여금 상기 작성 또는 상기 편집을 수행하는 단계를 포함하고, 상기 (a) 단계 내지 (c) 단계는 종료시까지 지속적으로 반복된다.
본 발명의 다른 태양에 따르면, 본 발명에 따른 방법을 수행하도록 구현된 인스트럭션들(instructions)을 포함하는 컴퓨터 프로그램도 제공된다.
본 발명의 또 다른 태양에 따르면, 음성 인식에 기반하여 문서의 편집을 수행하는 장치가 제공되는바, 그 장치는, 음향 데이터를 획득하는 통신부 및 프로세서를 포함하고, 상기 프로세서는, (i) 획득된 상기 음향 데이터로부터 음성을 인식하는 프로세스; 및 (ii) 인식된 상기 음성에 따라 상기 문서의 작성 또는 편집을 수행하는 프로세스를 수행하거나 상기 통신부를 통하여 연동되는 타 장치로 하여금 상기 (i) 가 종료시 및 상기 (ii) 프로세스를 수행하도록 지원하고, 상기 음향 데이터의 획득, 상기 (i) 프로세스 및 상기 (ii) 프로세스는 반복된다.
본 개시서의 예시적인 실시 예에 따르면, 음성 인식을 통하여 문서를 효과적으로 작성 및 편집할 수 있는 효과가 있는바, 이는 문서를 작성 및 편집하는 모든 분야에 적용 가능하다.
특히, 예시적인 실시 예에 따르면, 녹음된 화자로부터 판독된 음성을 문서화할 수 있는 효과가 있는바, 화자의 음성을 실시간으로 문서화해야 하는 데 적합하다.
또한, 예시적인 실시 예에 따르면, 특정 형식을 가지는 문서의 작성과 편집을 보조하기 위하여 템플릿(template)이 제공되는 효과도 있다.
본 발명의 실시 예의 설명에 이용되기 위하여 첨부된 아래 도면들은 본 발명의 실시 예들 중 단지 일부일 뿐이며, 본 발명이 속한 기술분야에서 통상의 지식을 가진 사람(이하 "통상의 기술자"라 함)에게 있어서는 발명에 이르는 노력 없이 이 도면들에 기초하여 다른 도면들이 얻어질 수 있다.
도 1은 본 발명의 일 실시 예에 따라, 음성 인식에 기반하여 문서의 편집을 수행하는 방법(이하 "음성 인식 기반 문서 편집 방법"이라 함)을 수행하는 컴퓨팅 장치의 예시적 구성을 개략적으로 도시한 개념도이다.
도 2는 본 발명의 일 실시 예에 따른 음성 인식 기반 문서 편집 방법을 수행하는 컴퓨팅 장치의 하드웨어 및 소프트웨어 아키텍처를 예시적으로 도시한 개념도이다.
도 3은 본 발명의 일 실시 예에 따른 음성 인식 기반 문서 편집 방법을 예시적으로 나타낸 흐름도이다.
도 4는 도 3에 예시된 단계(S300)를 구체화한 제1 실시 예 및 제2 실시 예를 설명하기 위하여 나타낸 도면이다.
도 5는 도 3에 예시된 단계(S300)를 구체화한 제3 실시 예를 설명하기 위하여 나타낸 도면이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명의 목적들, 기술적 해법들 및 장점들을 분명하게 하기 위하여 본 발명이 실시될 수 있는 특정 실시 예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시 예는 통상의 기술자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.
실시 예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시 예들은 특정한 개시형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
본 개시서의 상세한 설명 및 청구항들에 걸쳐 '음향 데이터' 또는 '음향 파일'은 음향의 정보를 나타낸 디지털 또는 아날로그 표현물을 지칭하는 용어이다. 예를 들어, 음향 데이터 또는 음향 파일에 관하여 통상의 기술자에게 알려진 어떠한 음향 또는 비디오 포맷이 이용될 수 있다. 몇몇 실시 예에서, 음향 파일은 하나의 오디오 코덱(audio codec)을 지원하는 포맷을 포함할 수 있고, 몇몇 실시 예에서는 음향 파일이 다수의 코덱을 지원하는 포맷을 포함할 수 있다. 몇몇 실시 예에서 음향 파일은, 압축되지 않은 오디오 포맷, 예컨대, WAV, AIFF, AU와 같은 포맷을 포함할 수 있다. 몇몇 실시 예에서 음향 파일의 포맷은 FLAC, 파일 확장자로 APE를 가지는 Monkey's Audio, 파일 확장자로 WV를 가지는 WayPack, Tom's losless Audio Kompressor(TAK), TTA, ATRAC Advanced Lossless, Apple Lossless 및 무손실 WINDOWS 미디어 오디오(WMA)와 같은 무손실 압축 방식을 포함할 수 있다. 몇몇 실시 예서는 음향 파일의 포맷은 MP3, Vorbis, Musepack, ATRAC, 손실 WINDOWS 미디어 오디오(WMA) 및 AAC와 같은 손실 압축 방식을 포함할 수 있다.
몇몇 실시 예에서, 음향 포맷은 WINDOWS 컴퓨터 판독 가능 매체를 위한 ".wav", MAC OS 컴퓨터 판독 가능 매체에서의 ".aiff"와 같은 무압축 PCM 포맷이다. 몇몇 실시 예에서 브로드캐스트 웨이브 포맷(Broadcast Wave Format; BWF)이 이용될 수 있는바, 메타데이터가 파일에 함께 저장될 수 있다. 몇몇 실시 예에서, 음향 포맷은 FLAC, WayPack, Monkey's Audio, ALAC/Apple Lossless와 같은 무손실 오디오 포맷이다. 몇몇 실시 예에서 상기 무손실 오디오 포맷은 약 2:1의 압축비를 제공한다. 몇몇 실시 예에서 오디오 포맷은, 예컨대 wav, ogg, mpc, flac, aiff, raw, au 또는 mid와 같이 무료로 열려 있는(free-and-open) 포맷이다. 몇몇 실시 예에서 오디오 포맷은, gsm, dct, vox, acc, mp4/m4a, 또는 mmf와 같이 공개된 파일 포맷이다. 몇몇 실시 예에서 오디오 포맷은 mp3, wma, atrac, ra, ram, dss, msv, dvg, IVS, m4p, iklax, mxp4 등등과 같은 적당한 포맷일 수 있다.
또한, 본 개시서의 상세한 설명 및 청구항들에 걸쳐 '학습' 혹은 '러닝'은 절차에 따른 컴퓨팅(computing)을 통하여 기계 학습(machine learning)을 수행함을 일컫는 용어인바, 인간의 교육 활동과 같은 정신적 작용을 지칭하도록 의도된 것이 아님을 통상의 기술자는 이해할 수 있을 것이다.
더욱이 본 발명은 본 명세서에 표시된 실시 예들의 모든 가능한 조합들을 망라한다. 본 발명의 다양한 실시 예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시 예에 관련하여 본 발명의 사상 및 범위를 벗어나지 않으면서 다른 실시 예로 구현될 수 있다. 또한, 각각의 개시된 실시 예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 사상 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
본 명세서에서 달리 표시되거나 분명히 문맥에 모순되지 않는 한, 단수로 지칭된 항목은, 그 문맥에서 달리 요구되지 않는 한, 복수의 것을 아우른다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
이하, 통상의 기술자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시 예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시 예에 따른 음성 인식 기반 문서 편집 방법을 수행하는 컴퓨팅 장치의 예시적 구성을 개략적으로 도시한 개념도이다.
도 1을 참조하면, 본 발명의 일 실시 예에 따른 컴퓨팅 장치(100)는, 통신부(110) 및 프로세서(120)를 포함하며, 상기 통신부(110)를 통하여 외부 컴퓨팅 장치(미도시)와 직간접적으로 통신할 수 있다.
구체적으로, 상기 컴퓨팅 장치(100)는, 전형적인 컴퓨터 하드웨어(예컨대, 컴퓨터, 프로세서, 메모리, 스토리지(storage), 입력 장치 및 출력 장치, 기타 기존의 컴퓨팅 장치의 구성요소들을 포함할 수 있는 장치; 라우터, 스위치 등과 같은 전자 통신 장치; 네트워크 부착 스토리지(NAS; network-attached storage) 및 스토리지 영역 네트워크(SAN; storage area network)와 같은 전자 정보 스토리지 시스템)와 컴퓨터 소프트웨어(즉, 컴퓨팅 장치로 하여금 특정의 방식으로 기능하게 하는 인스트럭션들)의 조합을 이용하여 원하는 시스템 성능을 달성하는 것일 수 있다. 상기 스토리지는 하드 디스크, USB(universal serial bus) 메모리와 같은 기억 장치뿐만 아니라 클라우드 서버와 같은 네트워크 연결 기반의 저장 장치의 형태를 포함할 수 있다.
이와 같은 컴퓨팅 장치의 통신부(110)는 연동되는 타 컴퓨팅 장치와의 사이에서 요청과 응답을 송수신할 수 있는바, 일 예시로서 그러한 요청과 응답은 동일한 TCP(transmission control protocol) 세션(session)에 의하여 이루어질 수 있지만, 이에 한정되지는 않는 바, 예컨대 UDP(user datagram protocol) 데이터그램(datagram)으로서 송수신될 수도 있을 것이다.
구체적으로, 통신부(110)는 통신 인터페이스를 포함하는 통신 모듈의 형태로 구현될 수 있다. 이를테면, 통신 인터페이스는 WLAN(wireless LAN), WiFi(wireless fidelity) Direct, DLNA(digital living network alliance), Wibro(wireless broadband), Wimax(world interoperability for microwave access), HSDPA(high speed downlink packet access) 등의 무선 인터넷 인터페이스와 블루투스(Bluetooth™), RFID(radio frequency identification), 적외선 통신(infrared data association; IrDA), UWB(ultra-wideband), ZigBee, NFC(near field communication) 등의 근거리 통신 인터페이스를 포함할 수 있다. 뿐만 아니라, 통신 인터페이스는 외부와 통신을 수행할 수 있는 모든 인터페이스(예를 들어, 유선 인터페이스)를 나타낼 수 있다.
예를 들어, 통신부(110)는 이와 같이 적합한 통신 인터페이스를 통해 외부로부터 음향 데이터를 획득할 수 있다. 예컨대 통신부(110)는 음향 입력 장치(예컨대, 마이크로폰 등)로부터 상기 음향 데이터를 획득할 수 있다. 덧붙여, 넓은 의미에서 상기 통신부(110)는 인스트럭션 또는 지시 등을 전달받기 위한 키보드, 마우스, 기타 외부 입력 장치, 인쇄 장치, 디스플레이, 기타 외부 출력 장치를 포함하거나 이들과 연동될 수 있다.
또한, 컴퓨팅 장치의 프로세서(120)는 MPU(micro processing unit), CPU(central processing unit), GPU(graphics processing unit), NPU(neural processing unit) 또는 TPU(tensor processing unit), 캐시 메모리(cache memory), 데이터 버스(data bus) 등의 하드웨어 구성을 포함할 수 있다. 또한, 운영체제, 특정 목적을 수행하는 애플리케이션의 소프트웨어 구성을 더 포함할 수도 있다.
도 2는 본 발명의 일 실시 예에 따른 음성 인식 기반 문서 편집 방법을 수행하는 컴퓨팅 장치의 하드웨어 및 소프트웨어 아키텍처를 예시적으로 도시한 개념도이다.
도 2을 참조하여 본 발명에 따른 방법 및 장치의 구성을 개관하면, 컴퓨팅 장치(100)는 그 일 구성요소로서 음향 데이터 입력부(210)를 포함할 수 있다. 이 음향 데이터 입력부(210)는 본 개시서의 방법에 따라 음향 데이터를 획득한다. 그리도 획득된 음향 데이터를 전달받은 음성 인식부(220)는 음향 데이터로부터 음성을 인식하도록 구성되는바, 음향 데이터 입력부(210) 및 음성 인식부(220)를 포함하는 도 2에 도시된 개별 모듈들은, 예컨대, 컴퓨팅 장치(100)에 포함된 통신부(110), 또는 상기 통신부(110) 및 프로세서(120)의 연동에 의하여 구현될 수 있음은 통상의 기술자가 이해할 수 있을 것이다.
상기 인식된 음성은 음향 데이터로부터 전사(transcription)된 결과이며, 이는 문서의 작성 또는 편집을 수행할 수 있도록 마련된 명령 및 그 명령에 의한 작성 또는 편집의 대상이 되는 텍스트를 검출하도록 구성되는, 명령 및 텍스트 검출부(230)에 전달될 수 있다. 그리고 명령 처리부(240)는 명령 및 텍스트 검출부(230)에 의하여 검출된 명령 및 텍스트 중 적어도 하나에 따라 문서의 작성 또는 편집을 수행하도록 구성된다.
여기에서 명령은 후술하는 바와 같이 외부 엔티티에 의한 문서의 편집, 수정 등을 용이하게 하기 위한 것인데, 여기에서 외부 엔티티라고 함은, 상기 컴퓨팅 장치(100)의 사용자, 예컨대, 관리자, 상기 문서의 편집을 담당하는 사람 등을 포함하나, 이 이외에도 문서의 편집을 필요로 하는 주체라면 어느 주체라도 포함되는 것으로 이해되어야 할 것이다.
이제 도 2에 예시적으로 나타난 구성요소들에 의하여 달성될 수 있는 구체적인 기능 및 효과에 관하여 도 3을 참조하여 상세히 후술하기로 한다. 도 2에 나타난 구성요소들은 설명의 편의상 하나의 컴퓨팅 장치에서 실현되는 것으로 예시되었으나, 본 개시서의 방법을 수행하는 컴퓨팅 장치(100)는 복수개의 장치들이 서로 연동되도록 구성될 수도 있다는 점이 이해될 것이다. 예를 들어, 음향 데이터 입력부(210), 음성 인식부(220)는 제1 컴퓨팅 장치인 서버에서 수행되고, 명령 및 텍스트 검출부(230), 명령 처리부(240)는 제1 컴퓨팅 장치에 연동되는 제2 컴퓨팅 장치인 클라이언트에서 수행될 수 있도록 구성할 수도 있을 것인바, 통상의 기술자는 다양한 방식으로 복수개의 장치들이 서로 연동하여 본 발명의 방법을 수행하도록 구성할 수 있을 것이다.
도 3은 본 발명의 일 실시 예에 따른 음성 인식 기반 문서 편집 방법을 예시적으로 나타낸 흐름도이다.
도 3을 참조하면, 본 발명에 따른 음성 인식 기반 문서 편집 방법은, 우선, 컴퓨팅 장치(100)에 의하여 구현되는 음향 데이터 입력부(210)가, 음향 데이터를 획득하는 단계(S100)를 포함한다.
다음으로, 본 발명에 따른 음성 인식 기반 문서 편집 방법은, 컴퓨팅 장치(100)에 의하여 구현되는 음성 인식부(220)가, 획득된 상기 음향 데이터로부터 음성을 인식하거나 상기 타 장치로 하여금 상기 음향 데이터로부터 상기 음성을 인식하도록 지원하는 단계(S200)를 더 포함한다.
이와 같은 음성의 인식은 기계 학습 모듈에 의하여 이루어질 수 있는바, 예컨대 심층 신경망이 이용될 수 있다. 심층 신경망은 음향 모델(acoustic model)가 언어 모델(language model)로 이루어질 수도 있음은 통상의 기술자에게 알려진 바와 같다. 음향 모델 및/또는 언어 모델의 구성에 관하여는 본 발명의 세부 사항을 흐리지 않기 위하여 그 상세한 설명을 생략하기로 한다.
단계(S200)에서 음성이 인식되면, 다음으로, 컴퓨팅 장치(100)의 프로세서(120)가, 인식된 상기 음성에 따라 상기 문서의 작성 또는 편집을 수행하거나 상기 타 장치로 하여금 상기 작성 또는 상기 편집을 수행하는 단계(S300)를 더 포함한다.
구체적으로, 단계(S300)에서는 다음과 같은 문서 작성 또는 편집을 위한 다양한 프로세스들이 수행될 수 있다.
도 4는 도 3에 예시된 단계(S300)를 구체화한 제1 실시 예 및 제2 실시 예를 설명하기 위하여 나타낸 도면이다.
단계(S300)의 제1 실시 예에서, 컴퓨팅 장치(100)에 의하여 구현되는 명령 및 텍스트 검출부(230)가, 상기 인식된 음성의 텍스트 중에서 연속되는 중복 단어들을 자동으로 검색하거나 상기 인식된 음성에 포함된 중복 제거 명령에 응하여 상기 텍스트 중에서 연속되는 상기 중복 단어들을 검색하여 검색되는 중복 단어들이 있으면, 컴퓨팅 장치(100)에 의하여 구현되는 명령 처리부(240)가, 상기 중복 단어들 중 하나 외의 단어들을 제거하는 프로세스가 수행될 수 있다.
제1 실시 예에서, 연속되는 중복 단어들을 자동으로 검색하고 이를 중복 제거하는 것은, 예를 들어, 화자인 사용자가 말을 더듬어 한 단어를 여러 번 말하는 경우를 해결하기 위한 것이다. 이에 따르면, 인접한 단어들의 첫 n개의 문자가 비슷한 경우에 n-1개의 문자가 제거될 수 있다.
그 예시는 도 4의 참조부호 410 내지 430으로 도시된 바와 같은바, 도 4를 참조하면, 참조부호 410로 예시된 인식된 음성의 텍스트 가운데, 'hemi hemi...', 'hepa hepa…'의 중복이 참조부호 430에 예시된 결과에서는 제거되어 있다. 이는 자동으로 이루어지거나 '다시', '중복 단어 삭제' 등과 같은 음성에서 검출되는 중복 제거 명령에 따라 이루어질 수 있다(420).
이 실시 예와 함께 또는 단독으로 실시될 수 있는, 단계(S300)의 다른 제2 실시 예에서는, 상기 명령 및 텍스트 검출부(230)가, 상기 인식된 음성에서 환언 명령을 감지하면, 상기 명령 처리부(240)가, 기 작성된 문서의 텍스트 중에서 상기 환언 명령에 이어지는 텍스트인 정정 텍스트와 중첩되는 구절이면서 상기 환언 명령에 최근접한 구절을 검출하고, 상기 최근접한 구절을 상기 정정 텍스트로 대치하는 프로세스가 수행될 수 있다.
도 4를 참조하면, 제2 실시 예에서 기 작성된 문서의 텍스트(440) 중에서 'pleural effusion이 있음' 부분은 환언 명령, 예컨대, '다시 말하겠습니다' 등과 같은 명령에 바로 이어지는, 즉 최근접하는 정정 텍스트인 'bilateral pleural effusion이 있음' 부분과 중첩되기 때문에, 이를 대치한 결과(460)인 'bilateral pleural effusion이 있음'이 얻어질 수 있다. 이에 따르면, 환언 명령 전후의 단어 n개를 서로 비교하여 문서의 수정이 이루어지게 된다.
여기에서 환언 명령에는 '다시 말하겠습니다' 외에 다양한 구절이 있을 수 있음은 물론이다.
다음으로, 도 5는 도 3에 예시된 단계(S300)를 구체화한 제3 실시 예를 설명하기 위하여 나타낸 도면이다.
전술한 실시 예들과 함께 또는 단독으로 실시될 수 있는, 단계(S300)의 제3 실시 예에서는, 상기 명령 및 텍스트 검출부(230)가, 상기 인식된 음성에서 기 작성된 문서의 텍스트 중의 편집 대상을 지시하는 위치 서술(positional description), 예컨대 행 번호 및 열 번호를 감지하고, 상기 위치 서술에 이어지는 텍스트인 편집 명령을 검출하면, 상기 명령 처리부(240)가, 상기 문서 텍스트 중 상기 위치 서술에 대응되는 표적 부분에 대하여 상기 편집 명령에 따른 편집을 수행하는 프로세스가 수행될 수 있다. 상기 위치 서술에는 행 번호 및 열 번호 외에 표적 부분을 특정할 수 있는 기타 좌표 지정의 형식도 포함될 수 있다.
도 5를 참조하면, 이 실시 예에서 먼저 문서 중에서 수정하고자 하는 부분인 상기 표적 부분이 있는 행 번호를 가리키는 음성(예컨대, '2번 줄에'와 같은 음성)이 인식되면, 그 행에 있는 단어들의 순서가 열 번호로서 나타나고(510), 그 행에서 상기 표적 부분의 열 번호를 가리키는 음성(예컨대, '4 번째 단어'와 같은 음성)이 인식되면, 표적 부분에 해당하는 2번째 줄의 4 번째가 선택되는(520) 것과 같은 방식으로 행 번호 및 열 번호가 감지될 수 있다. 바람직하게는 사용자 인터페이스 상에 나타나는 선택된 표적 부분을 강조하여 보여줄 수도 있을 것이다. 이 상태에서, '나쁘다로 바꿔주세요' 등과 같은 편집 명령이 검출되면, 표적 부분의 '좋다'가 '나쁘다'로 치환되는 등의 편집이 수행될 수 있다(530).
상기 편집 명령에는 치환(혹은 수정)뿐만 아니라, 삭제, 추가 등의 다양한 편집에 관한 명령이 포함될 수 있는바, 예를 들어, '2번 줄에 3번 단어 지워' 등과 같은 삭제 명령, '1번 줄 1번 단어 무더운 추가'와 같은 추가 명령도 편집 명령으로서 수정될 수 있다.
전술한 실시 예들과 함께 또는 단독으로 실시될 수 있는, 단계(S300)의 제4 실시 예에서는, 기 작성된 문서 텍스트의 부분에 대한 포인팅 디바이스{예컨대, 마우스, 음향 입력 장치에 부착된 스크롤 도구(scroll tool) 등}의 조작이 감지되고, 상기 명령 및 텍스트 검출부(230)가, 상기 인식된 음성에서 편집 명령을 검출하면, 상기 명령 처리부(240)가, 상기 조작에 대응되는 상기 부분에 대하여 상기 편집 명령에 따른 편집을 수행하는 프로세스가 수행될 수 있다.
구체적인 예시로서, 편집하고자 하는 표적 부분에 마우스를 클릭 혹은 스크롤하거나 마우스 커서를 가져가거나 혹은 다수의 단어를 선택하기 위하여 드래그(drag)할 수 있다. 이 상태에서, 제3 실시 예에 관하여 설명한 바와 같은 편집 명령이 검출되면, 명령 처리부(240)에 의한 편집이 수행될 수 있다.
다음으로, 전술한 실시 예들과 함께 또는 단독으로 실시될 수 있는, 단계(S300)의 제5 실시 예에서는, 지정된 소정의 조작에 응하여, 또는 상기 명령 및 텍스트 검출부(230)에 의하여 상기 인식된 음성에서 템플릿 적재(template loading) 명령이 검출되면, 상기 명령 처리부(240)가, 상기 문서의 텍스트에 상기 조작에 대응되도록 미리 마련된 텍스트를 템플릿(template)으로서 적재(load)하는 프로세스(S350)가 수행될 수 있다. 여기에서 상기 지정된 소정의 조작은 앞서 설명된 바와 같이, 예를 들어, 상기 키보드의 특정 키, 마이크로폰에 매설된 버튼 등을 누르는 동작 등일 수 있다. 또한, 음성에서 인식되는 템플릿 적재 명령은, 예를 들어, 'normal form에 16.8'일 수 있는데, 이는 통상적인 양식으로 16.8을 기입한다는 의미인바, 여기에서 템플릿 적재 명령은 'normal form에'이며, '16.8'은 후술하는 후행 텍스트이다.
이 실시 예에서는, 템플릿이 적재된 후, 그 템플릿에 텍스트를 채워넣을 수 있도록, 상기 인식된 음성으로부터 상기 프로세스(S350)에 후행하는 텍스트인 후행 텍스트를 상기 명령 및 텍스트 검출부(230)가 검출하면, 상기 명령 처리부(240)가, 상기 템플릿에 의하여 정해진 규칙에 따라 상기 후행 텍스트를 상기 문서 텍스트에 추가하는 프로세스가 더 수행될 수 있다.
그리고 전술한 실시 예들과 함께 또는 단독으로 실시될 수 있는 제6 실시 예에서는, 지정된 소정의 조작에 응하여, 상기 단계(S300)에서 상기 작성 또는 상기 편집이 수행되는 표적 위치(target position)인 편집 위치가 지정될 수도 있다. 여기에서 상기 지정된 소정의 조작은 앞서 설명된 바와 같이, 예를 들어, 상기 키보드의 특정 키, 마이크로폰에 매설된 버튼 등을 누르는 동작 등일 수 있다. 또한, 편집 위치는 상기 문서의 작성중인 행의 맨 앞 또는 맨 뒤, 그리고 작성중인 문단의 맨 앞 또는 맨 뒤 따위일 수 있다.
또한, 전술한 실시 예들과 함께 또는 단독으로 실시될 수 있는 제7 실시 예에서는, 작성 모드와 편집 모드 간의 전환이 이루어질 수 있는바, 명령 처리부(240)는, 상기 작성 모드에서는 상기 편집 모드로의 전환이 이루어지기 전까지 상기 인식된 음성에 포함된 텍스트를 상기 문서에 추가하고, 상기 편집 모드에서는 상기 작성 모드로의 전환이 이루어지기 전까지 상기 인식된 음성에 포함된 명령에 따른 상기 문서의 편집을 수행하는 상태 기계(state machine)로서의 기능을 수행할 수 있다. 즉, 그와 같은 작성 모드와 편집 모드 사이의 상호 전환은 사용자의 조작 및 음성으로부터 검출되는 소정의 명령 중 적어도 하나에 의하여 촉발될 수 있다.
상호 전환의 방식에 관한 일 예시로서, 음향 입력 장치에 일체화되거나 상기 음향 입력 장치와 소통하는 보조 장치에 일체화된 부품의 전환 조작(switching manipulation)에 응하여 상기 작성 모드와 상기 편집 모드 간의 전환이 이루어질 수 있다. 여기에서 음향 입력 장치는 하드웨어적으로 컴퓨팅 장치(100)에 일체화되어 있거나 통신부(110)를 통하여 소통되도록 구성될 수 있는바, 마이크로폰에 한정되지 않는다. 또한, 예를 들어, 상기 전환 조작의 대상이 되는 부품에는 마이크로폰에 매설된 버튼 등뿐만 아니라, 신호 입력이 가능한 다양한 장치가 포함될 수 있다.
또한, 상호 전환의 방식에 관한 다른 예시로서, 인식된 상기 음성의 텍스트에서 명령 및 텍스트 검출부(230)에 의하여 특정 문구가 검출되면, 상기 특정 문구에 따라 상기 작성 모드로부터 상기 편집 모드로의 전환 또는 상기 편집 모드로부터 상기 작성 모드로의 전환이 이루어질 수도 있다. 예를 들어, 여기에서의 특정 문구는 사용자에 의하여 발화된 '작성 모드', '편집 모드' 따위일 수 있다.
앞서 설명된 실시 예들(혹은 이에 대응되는 프로세스들)은 설명된 순서대로 수행되어야 함을 의미하는 것이 아니며, 각각의 실시 예들(혹은 대응되는 프로세스들)은 동시에 또는 이시(異時)에 이루어질 수 있다는 점을 통상의 기술자는 이해할 수 있을 것이다.
본 발명의 전술한 단계들의 수행에 의하여 음성 인식에 기반한 문서 작성 및 편집이 이루어질 수 있다. 단계들(S100 내지 S300)은 1회 수행될 여지도 있으나, 바람직하게는, 연속적으로 입력되는 음향 데이터의 시간 흐름에 따른 음성 인식에 대응할 수 있도록, 연속적으로 입력된 음향 데이터의 적어도 일부에 대하여 실시간(real-time)으로, 그리고/또는 반복적으로(iteratively) 수행될 수 있다. 다시 말하자면, 단계(S100) 내지 단계(S300)는 문서 작성의 종료시까지 지속적으로 반복될 수 있다.
또한, 본 발명의 전술한 단계들에 있어, 음성에서 검출된 명령이 불분명하거나, 음성으로부터 명령을 오인식한 것일 가능성이 있는 경우에, 명령 처리부(240)에 의한 명령의 처리 전에, 소정의 사용자 인터페이스{예컨대, '수정하시겠습니까? Yes or No'를 나타내는 다이얼로그 팝업(dialog popup)}를 통하여 사용자에게 확인을 구하는 단계가 더 포함될 수도 있는바, 이에 관하여는 본 발명의 세부 사항을 흐리지 않기 위하여 그 상세한 설명을 생략하기로 한다.
도 1 내지 도 5에 나타난 구성요소들은 설명의 편의상 하나의 컴퓨팅 장치, 예컨대, 서버에서 실현되는 것으로 예시되었으나, 본 발명의 방법을 수행하는 컴퓨팅 장치(100)는 복수개의 장치들이 서로 연동된 것으로 구성될 수도 있다는 점이 이해될 것이다. 따라서 전술한 본 발명 방법의 각 단계는, 하나의 컴퓨팅 장치가 직접 수행하거나 상기 하나의 컴퓨팅 장치가 상기 하나의 컴퓨팅 장치에 연동되는 타 컴퓨팅 장치로 하여금 수행하도록 지원(support)함으로써 수행될 수 있음이 자명하다.
지금까지 설명된 바와 같이 본 개시서의 방법 및 장치는 그 모든 실시 예 및 변형례에 걸쳐, 음성 명령 및 텍스트를 이용하여 원하는 적절한 문서를 신속하고 정확하게 완성할 수 있게 하는 효과가 있다. 특히, 본 발명에 따르면 편집 위치를 음성으로써 지정하기에 용이할 뿐만 아니라, 편집 위치의 지정을 용이하게 하기 위한 사용자 인터페이스 및 UX(user experience)가 추가 제공될 수 있으며, 필요에 따라 키보드와 같은 타 입력 도구로의 전환 사용을 배제할 수 있는 효율성이 있다. 또한, 템플릿과 같은 일정 형식을 가지는 문서도 음성을 가지고 작성하기에 용이하며, 전문 용어 등 직접 입력하기에 상당한 노고가 드는 단어도 음성을 통하여 용이하게 입력 가능한 장점이 있다.
이상, 본 개시서의 다양한 실시 예들에 관한 설명에 기초하여 해당 기술분야의 통상의 기술자는, 본 발명의 방법 및/또는 프로세스들, 그리고 그 단계들이 하드웨어, 소프트웨어 또는 특정 용례에 적합한 하드웨어 및 소프트웨어의 임의의 조합으로 실현될 수 있다는 점을 명확하게 이해할 수 있다. 상기 하드웨어는 범용 컴퓨터 및/또는 전용 컴퓨팅 장치 또는 특정 컴퓨팅 장치 또는 특정 컴퓨팅 장치의 특별한 모습 또는 구성요소를 포함할 수 있다. 상기 프로세스들은 내부 및/또는 외부 메모리를 가지는, 하나 이상의 프로세서, 예컨대, 마이크로프로세서, 컨트롤러, 예컨대, 마이크로컨트롤러, 임베디드 마이크로컨트롤러, 마이크로컴퓨터, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 예컨대, 프로그래머블 디지털 신호 프로세서 또는 기타 프로그래머블 장치에 의하여 실현될 수 있다. 게다가, 혹은 대안으로서, 상기 프로세스들은 주문형 집적회로(application specific integrated circuit; ASIC), 프로그래머블 게이트 어레이(programmable gate array), 예컨대, FPGA(field programmable gate array), PLU(programmable logic unit) 혹은 프로그래머블 어레이 로직(Programmable Array Logic; PAL) 또는 기타 인스트럭션(instruction)을 실행하고 응답할 수 있는 임의의 다른 장치, 전자 신호들을 처리하기 위해 구성될 수 있는 임의의 다른 장치 또는 장치들의 조합으로 실시될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 인스트럭션(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치에 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 인스트럭션 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 기계 판독 가능 기록 매체에 저장될 수 있다.
더욱이 본 발명의 기술적 해법의 대상물 또는 선행 기술들에 기여하는 부분들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 인스트럭션의 형태로 구현되어 기계 판독 가능 매체에 기록될 수 있다. 기계 판독 가능 매체는 프로그램 인스트럭션, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기계 판독 가능한 기록 매체에 기록되는 프로그램 인스트럭션은 실시 예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다. 기계 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD, Blu-ray와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 인스트럭션을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 인스트럭션의 예에는, 전술한 장치들 중 어느 하나뿐만 아니라 프로세서, 프로세서 아키텍처 또는 상이한 하드웨어 및 소프트웨어의 조합들의 이종 조합, 또는 다른 어떤 프로그램 인스트럭션들을 실행할 수 있는 기계 상에서 실행되기 위하여 저장 및 컴파일 또는 인터프리트될 수 있는, C와 같은 구조적 프로그래밍 언어, C++ 같은 객체지향적 프로그래밍 언어 또는 고급 또는 저급 프로그래밍 언어(어셈블리어, 하드웨어 기술 언어들 및 데이터베이스 프로그래밍 언어 및 기술들)를 사용하여 만들어질 수 있는 바, 기계어 코드, 바이트코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 이에 포함된다.
따라서 본 발명에 따른 일 태양에서는, 앞서 설명된 방법 및 그 조합들이 하나 이상의 컴퓨팅 장치들에 의하여 수행될 때, 그 방법 및 방법의 조합들이 각 단계들을 수행하는 실행 가능한 코드로서 실시될 수 있다. 다른 일 태양에서는, 상기 방법은 상기 단계들을 수행하는 시스템들로서 실시될 수 있고, 방법들은 장치들에 걸쳐 여러 가지 방법으로 분산되거나 모든 기능들이 하나의 전용, 독립형 장치 또는 다른 하드웨어에 통합될 수 있다. 또 다른 일 태양에서는, 위에서 설명한 프로세스들과 연관된 단계들을 수행하는 수단들은 앞서 설명한 임의의 하드웨어 및/또는 소프트웨어를 포함할 수 있다. 그러한 모든 순차 결합 및 조합들은 본 개시서의 범위 내에 속하도록 의도된 것이다.
예를 들어, 상기된 하드웨어 장치는 실시 예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다. 상기 하드웨어 장치는, 프로그램 인스트럭션을 저장하기 위한 ROM/RAM 등과 같은 메모리와 결합되고 상기 메모리에 저장된 인스트럭션들을 실행하도록 구성되는 MPU, CPU, GPU, TPU와 같은 프로세서를 포함할 수 있으며, 외부 장치와 신호를 주고받을 수 있는 통신부를 포함할 수 있다. 덧붙여, 상기 하드웨어 장치는 개발자들에 의하여 작성된 인스트럭션들을 전달받기 위한 키보드, 마우스, 기타 외부 입력 장치를 포함할 수 있다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시 예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시 예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 사람이라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시 예에 국한되어 정해져서는 아니되며, 본 개시서에 첨부된 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그와 같이 균등하게 또는 등가적으로 변형된 것에는, 예컨대 본 발명에 따른 방법을 실시한 것과 동일한 결과를 낼 수 있는, 논리적으로 동치(logically equivalent)인 방법이 포함될 것인 바, 본 발명의 진의 및 범위는 전술한 예시들에 의하여 제한되어서는 아니되며, 법률에 의하여 허용 가능한 가장 넓은 의미로 이해되어야 한다.

Claims (20)

  1. 컴퓨팅 장치에 의해 수행되는 방법에 있어서,
    외부로부터 제1 음성 데이터를 획득하는 단계;
    상기 제1 음성 데이터에 기반하여 작성된 문서를 외부로 표시하는 단계;
    상기 문서의 편집과 관련된 열 번호의 외부 표시를 위하여, 사용자로부터 상기 문서에 대한 제2 음성 데이터를 획득하는 단계;
    상기 제2 음성 데이터로부터 상기 문서 내의 텍스트에 대한 행 번호를 감지한 것에 기반하여, 상기 텍스트에서 상기 행 번호에 대응되는 행에 있는 단어들에 대해 복수의 열 번호들을 넘버링하고, 상기 텍스트에서 상기 복수의 열 번호들을 병기하여 외부로 표시하는 단계;
    상기 사용자로부터 상기 복수의 열 번호들 중 적어도 하나의 열 번호를 포함하는 제3 음성 데이터를 획득한 것에 기반하여, 상기 문서에 대한 편집 모드로 전환하는 단계; 및
    상기 사용자의 음성 명령에 기반하여 상기 적어도 하나의 열 번호에 대응하는 단어를 상기 음성 명령에 포함된 단어로 치환하는 편집 동작을 수행하는 단계를 포함하는 방법.
  2. 제1항에 있어서,
    상기 제1 음성 데이터에 기반하여 상기 문서를 작성하는 것은,
    상기 제1 음성 데이터에서 서로 인접한 제1 및 제2 단어에서 첫 n (>1)개 문자가 반복된 것에 기반하여, 상기 제1 단어를 삭제하되 상기 제2 단어는 유지하는 방법.
  3. 제2항에 있어서,
    상기 제1 단어의 문자 개수는 상기 제2 단어의 문자 개수보다 작은 방법.
  4. 제2항에 있어서,
    상기 n은 상기 제2 단어의 문자 개수보다 작은 방법.
  5. 제1항에 있어서,
    상기 제1 음성 데이터 내에 환언 명령이 포함된 것에 기반하여, 상기 환언 명령의 전후의 m(>1)개 단어를 서로 비교하여, 상기 환언 명령의 전에 위치한 복수의 제1 연속된 단어들을 상기 환언 명령의 후에 위치한 복수의 제2 연속된 단어들로 대체하는 방법.
  6. 삭제
  7. 컴퓨팅 장치로 하여금, 제1항 내지 제5항 중 어느 한 항의 방법을 수행하도록 구현된 명령어를 포함하는, 판독 가능한 매체에 저장된 컴퓨터 프로그램.
  8. 컴퓨팅 장치에 있어서,
    통신부; 및
    상기 통신부와 연결된 프로세서를 포함하고, 상기 프로세서는,
    외부로부터 제1 음성 데이터를 획득하고, 상기 제1 음성 데이터에 기반하여 작성된 문서를 외부로 표시하며, 상기 문서의 편집과 관련된 열 번호의 외부 표시를 위하여, 사용자로부터 상기 문서에 대한 제2 음성 데이터를 획득하고,상기 제2 음성 데이터로부터 상기 문서 내의 텍스트에 대한 행 번호를 감지한 것에 기반하여 상기 텍스트에서 상기 행 번호에 대응되는 행에 있는 단어들에 대해 복수의 열 번호들을 넘버링하고, 상기 텍스트에서 상기 복수의 열 번호들을 병기하여 외부로 표시하고, 상기 사용자로부터 상기 복수의 열 번호들 중 적어도 하나의 열 번호를 포함하는 제3 음성 데이터를 획득한 것에 기반하여 상기 문서에 대한 편집 모드로 전환하고, 상기 사용자의 음성 명령에 기반하여 상기 적어도 하나의 열 번호에 대응하는 단어를 상기 음성 명령에 포함된 단어로 치환하는 편집 동작을 수행하도록 구성된 컴퓨팅 장치.
  9. 제8항에 있어서,
    상기 제1 음성 데이터에 기반하여 상기 문서를 작성하는 것은,
    상기 제1 음성 데이터에서 서로 인접한 제1 및 제2 단어에서 첫 n (>1)개 문자가 반복된 것에 기반하여, 상기 제1 단어를 삭제하되 상기 제2 단어는 유지하는 컴퓨팅 장치.
  10. 제9항에 있어서,
    상기 제1 단어의 문자 개수는 상기 제2 단어의 문자 개수보다 작은 컴퓨팅 장치.
  11. 제9항에 있어서,
    상기 n은 상기 제2 단어의 문자 개수보다 작은 컴퓨팅 장치.
  12. 제8항에 있어서,
    상기 제1 음성 데이터 내에 환언 명령이 포함된 것에 기반하여, 상기 환언 명령의 전후의 m(>1)개 단어를 서로 비교하여, 상기 환언 명령의 전에 위치한 복수의 제1 연속된 단어들을 상기 환언 명령의 후에 위치한 복수의 제2 연속된 단어들로 대체하는 컴퓨팅 장치.
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
KR1020210027245A 2018-12-21 2021-03-02 음성 인식에 기반하여 문서의 편집을 수행하는 방법 및 이를 이용한 장치 KR102361831B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210027245A KR102361831B1 (ko) 2018-12-21 2021-03-02 음성 인식에 기반하여 문서의 편집을 수행하는 방법 및 이를 이용한 장치

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180167691A KR20200078103A (ko) 2018-12-21 2018-12-21 음성 인식에 기반하여 문서의 편집을 수행하는 방법 및 이를 이용한 장치
KR1020210027245A KR102361831B1 (ko) 2018-12-21 2021-03-02 음성 인식에 기반하여 문서의 편집을 수행하는 방법 및 이를 이용한 장치

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020180167691A Division KR20200078103A (ko) 2018-12-21 2018-12-21 음성 인식에 기반하여 문서의 편집을 수행하는 방법 및 이를 이용한 장치

Publications (2)

Publication Number Publication Date
KR20210029177A KR20210029177A (ko) 2021-03-15
KR102361831B1 true KR102361831B1 (ko) 2022-02-14

Family

ID=80254226

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210027245A KR102361831B1 (ko) 2018-12-21 2021-03-02 음성 인식에 기반하여 문서의 편집을 수행하는 방법 및 이를 이용한 장치

Country Status (1)

Country Link
KR (1) KR102361831B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102365538B1 (ko) * 2021-05-25 2022-02-23 주식회사 메이코더스 크로스보딩 이커머스 시스템에서의 자동 질의 대응 및 전자 서류 생성이 가능한 채팅 인터페이스 제공 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120323572A1 (en) 2011-06-19 2012-12-20 Detlef Koll Document Extension in Dictation-Based Document Generation Workflow
US20170263248A1 (en) 2016-03-14 2017-09-14 Apple Inc. Dictation that allows editing

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8886521B2 (en) * 2007-05-17 2014-11-11 Redstart Systems, Inc. System and method of dictation for a speech recognition command system
KR101756836B1 (ko) * 2010-11-12 2017-07-11 에스프린팅솔루션 주식회사 음성데이터를 이용한 문서생성 방법 및 시스템과, 이를 구비한 화상형성장치
KR101522837B1 (ko) * 2010-12-16 2015-05-26 한국전자통신연구원 대화 방법 및 이를 위한 시스템
KR102208822B1 (ko) * 2016-12-13 2021-01-27 주식회사 케이티 음성 인식 장치, 방법 그리고 이를 위한 사용자 인터페이스 표시 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120323572A1 (en) 2011-06-19 2012-12-20 Detlef Koll Document Extension in Dictation-Based Document Generation Workflow
US20170263248A1 (en) 2016-03-14 2017-09-14 Apple Inc. Dictation that allows editing

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Kumar et al. 2019 A comprehensive view of automatic speech recognition system-A systematic literature review
Manjutha et al. 2017 Automated speech recognition system-a literature review

Also Published As

Publication number Publication date
KR20210029177A (ko) 2021-03-15

Similar Documents

Publication Publication Date Title
US10453455B2 (en) Multiple turn conversational task assistance
US10235358B2 (en) Exploiting structured content for unsupervised natural language semantic parsing
US20160306783A1 (en) Method and apparatus for phonetically annotating text
US10664755B2 (en) Searching method and system based on multi-round inputs, and terminal
JP2017016131A (ja) 音声認識装置及び方法と電子装置
US10108698B2 (en) Common data repository for improving transactional efficiencies of user interactions with a computing device
KR20220000953A (ko) 터치스크린 상에 표시되는 조치 가능한 콘텐츠
US7567904B2 (en) Mobile listing system
US20170004820A1 (en) Method for building a speech feature library, and method, apparatus, device, and computer readable storage media for speech synthesis
WO2007015505A1 (ja) データ処理装置、データ処理方法、データ処理プログラム
WO2019169794A1 (zh) 教学系统中的注释内容显示方法以及装置
WO2017041377A1 (zh) 用于生成日历提醒信息的方法和装置
JP6487120B2 (ja) 音声クエリの検索結果のプリフェッチ処理
US20160275095A1 (en) Electronic device, method and storage medium
KR102361831B1 (ko) 음성 인식에 기반하여 문서의 편집을 수행하는 방법 및 이를 이용한 장치
WO2020037921A1 (zh) 表情图片提示方法、装置、计算机设备及存储介质
WO2015014157A1 (zh) 基于移动终端的歌曲推荐方法与装置
US9418148B2 (en) System and method to label unlabeled data
JP2019525233A (ja) 音声認識方法及び装置
US9898282B2 (en) Automatic comment creation for computer files
TW201506685A (zh) 以語音辨識來選擇控制客體的裝置及方法
US11354071B2 (en) Navigation printing with voice tagging
KR20200078103A (ko) 음성 인식에 기반하여 문서의 편집을 수행하는 방법 및 이를 이용한 장치
KR101923960B1 (ko) 음성 인식에 기반하여 음향 데이터로부터 전사문을 생성하는 방법 및 이를 이용한 장치
JP6840862B2 (ja) 発話文生成システム及び発話文生成プログラム

Legal Events

Date Code Title Description
A107 Divisional application of patent
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant