KR102379954B1 - 화상처리장치 및 방법 - Google Patents

화상처리장치 및 방법 Download PDF

Info

Publication number
KR102379954B1
KR102379954B1 KR1020197032702A KR20197032702A KR102379954B1 KR 102379954 B1 KR102379954 B1 KR 102379954B1 KR 1020197032702 A KR1020197032702 A KR 1020197032702A KR 20197032702 A KR20197032702 A KR 20197032702A KR 102379954 B1 KR102379954 B1 KR 102379954B1
Authority
KR
South Korea
Prior art keywords
image processing
image
command
target
model
Prior art date
Application number
KR1020197032702A
Other languages
English (en)
Other versions
KR20200049705A (ko
Inventor
티안시 첸
슈아이 후
샤오빙 첸
Original Assignee
상하이 캠브리콘 인포메이션 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN201710913272.4A external-priority patent/CN109584864B/zh
Priority claimed from CN201710913131.2A external-priority patent/CN109584862B/zh
Priority claimed from CN201711121244.5A external-priority patent/CN109785843B/zh
Application filed by 상하이 캠브리콘 인포메이션 테크놀로지 컴퍼니 리미티드 filed Critical 상하이 캠브리콘 인포메이션 테크놀로지 컴퍼니 리미티드
Publication of KR20200049705A publication Critical patent/KR20200049705A/ko
Application granted granted Critical
Publication of KR102379954B1 publication Critical patent/KR102379954B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

본 발명은, 음성신호와 처리대상화상을 수신하기 위한 수신모듈과, 목표음성명령변환모델에 따라 상기 음성신호를 화상처리명령 및 상기 처리대상화상의 처리영역인 목표영역으로 변환하기 위한 변환모듈과, 상기 화상처리명령 및 목표화상처리모델에 따라 상기 목표영역을 처리하기 위한 처리모듈을 포함하는 화상처리장치를 개시한다. 본 발명의 실시예에 따르면, 음성을 입력하면 화상을 처리할 수 있는 기능을 실현할 수 있고 사용자가 화상처리 전에 화상처리소프트웨어를 배우는 시간을 절약하고 사용자 경험을 제고할 수 있다.

Description

화상처리장치 및 방법{IMAGE PROCESSING APPARATUS AND METHOD}
본 발명은 화상처리분야에 관련되며, 특히 화상처리장치 및 방법에 관한 것이다.
사진을 찍은 후 사용자는 컴퓨터의 PS 소프트웨어 또는 휴대폰의 화상수정 소프트웨어를 통해 화상처리를 수행하여 더 좋은 화상효과를 나타낼 수 있다.
그러나 컴퓨터 중 PS소프트웨어 또는 휴대폰의 화상수정 소프트웨어를 이용하여 화상처리를 진행하기 전에 사용자는 소프트웨어의 사용방법을 배워야 하며 소프트웨어의 사용방법을 파악한 후 수동으로 명령을 입력하여 컴퓨터 또는 휴대폰을 제어하여 화상수정작업을 진행한다. 사용자들에게 이런 방식은 시간이 걸릴뿐만 아니라 사용자 경험도 나빴다.
본 발명 실시예는 음성을 입력하면 화상을 처리할 수 있는 기능을 실현하고 사용자가 화상처리 전에 화상처리 소프트웨어를 배우는 시간을 절약하고 사용자 경험을 제고시키는 화상처리장치 및 방법을 제공하는 것을 모적으로 하고 있다.
제1방면으로서 본 발명 실시예는, 음성신호와 처리대상화상을 수신하기 위한 수신모듈과, 목표음성명령변환모델에 따라 상기 음성신호를 화상처리명령 및 상기 처리대상화상의 처리영역인 목표영역으로 변환하기 위한 변환모듈과, 상기 화상처리명령 및 목표화상처리모델에 따라 상기 목표영역을 처리하기 위한 처리모듈을 포함하는 화상처리장치를 제공한다.
바람직한 일 실시예에서 상기 변환모듈은, 구체적으로 음성식별기술을 통해 상기 음성신호를 텍스트정보로 변환하며, 자연언어처리기술과 상기 목표음성명령변환모델을 통해 상기 텍스트정보를 상기 화상처리명령으로 변환하고, 상기 화상처리명령 중 어의(語義)영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 얻기 위한 것이다.
바람직한 일 실시예에서 상기 변환모듈은, 또한 구체적으로 음성식별기술, 어의이해기술 및 상기 목표음성명령변환모델을 통해 상기 음성신호를 상기 화상처리명령으로 변환하며, 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 얻기 위한 것이다.
또한 바람직한 일 실시예에서 상기 화상처리장치는 상기 텍스트정보 또는 상기 화상처리명령 또는 상기 목표영역을 기억하기 위한 기억모듈도 포함한다.
바람직한 일 실시예에서 상기 처리모듈은, 구체적으로 미리 설정된 시간창에서 상기 기억모듈에서 M(M은 1보다 큰 정수) 개의 화상처리명령을 얻고, 상기 M개의 화상처리명령 및 상기 목표화상처리모델을 기반으로 상기 목표영역을 처리하기 위한 것이다.
바람직한 일 실시예에서 상기 처리모듈은, 구체적으로 상기 M개의 화상처리명령에서 동일한 기능을 가진 화상처리명령을 삭제하여 N(N은 상기 M보다 작은 정수) 개의 화상처리명령을 얻고, 상기 N개의 화상처리명령 및 상기 목표화상처리모델을 기반으로 상기 목표영역을 처리하기 위한 것이다.
또한 바람직한 실시예에서 상기 변환모듈은 음성명령변환모델에 대해 자체적응훈련을 수행하여 상기 목표음성명령변환모델을 얻기 위한 것이다.
또한 바람직한 실시예에서 상기 음성명령변환모델에 대한 상기 변환모듈의 자체적응훈련은 오프라인 또는 온라인하여 수행한다.
또한 바람직한 실시예에서 상기 음성명령변환모델에 대한 상기 변환모듈의 자체적응훈련은 오프라인 또는 온라인하여 수행한다.
또한 바람직한 실시예에서 상기 음성명령변환모델에 대한 상기 변환모듈의 자체적응훈련은 모니터링하거나 모니터링하지 않는다.
또한 바람직한 실시예에서 상기 변환모듈은 상기 음성명령변환모델을 기반으로 상기 음성신호를 예측명령으로 변환하고, 상기 예측명령 및 그에 대응한 명령세트의 상관계수를 확정하며, 상기 예측명령 및 그에 대응한 명령세트의 상관계수에 따라 상기 음성명령변환모델을 최적화하여 상기 목표음성명령변환모델을 획득하기 위해 이용되기도 한다.
또한 바람직한 일 실시예에서 상기 화상처리장치는 상기 음성명령변환모델을 기반으로 상기 음성신호를 예측명령으로 변환하고 상기 예측명령 및 그에 대응한 명령세트의 상관계수를 확정하며 상기 예측명령 및 그에 대응한 명령세트의 상관계수에 따라 상기 음성명령변환모델을 최적화하여 상기 목표음성명령변환모델을 획득하기 위한 훈련모듈도 포함한다.
또한 바람직한 일 실시예에서 상기 처리모듈은 화상처리모델에 대해 자체적응훈련을 수행하여 상기 목표화상처리모델을 얻기 위한 것이다.
또한 바람직한 실시예에서 상기 화상처리모델에 대한 상기 처리모듈의 자체적응훈련은 오프라인 또는 온라인하여 수행한다.
또한 바람직한 실시예에서 상기 화상처리모델에 대한 상기 처리모듈의 자체적응훈련은 모니터링하거나 모니터링하지 않는다.
또한 바람직한 일 실시예에서 상기 처리모듈은 상기 처리대상화상에 대한 상기 화상처리모델의 처리에 따라 예측화상을 얻고, 상기 예측화상 및 그에 대응한 목표화상의 상관계수를 확정하며, 상기 예측화상 및 그에 대응한 목표화상의 상관계수에 따라 상기 화상처리모델을 최적화하여 상기 목표화상처리모델을 얻기 위한 것이기도 하다.
또한 바람직한 일 실시예에서 상기 훈련모듈은 상기 처리대상화상에 대한 상기 화상처리모델의 처리에 따라 예측화상을 얻고, 상기 예측화상 및 그에 대응한 목표화상의 상관계수를 확정하며, 상기 예측화상 및 그에 대응한 목표화상의 상관계수에 따라 상기 화상처리모델을 최적화하여 상기 목표화상처리모델을 얻기 위한 것이기도 하다.
제2방면으로서 본 발명 실시예는, 음성신호와 처리대상화상을 수신하는 단계, 목표음성명령변환모델에 따라 상기 음성신호를 화상처리명령 및 상기 처리대상화상의 처리영역인 목표영역으로 변환하는 단계, 및 상기 화상처리명령과 목표화상처리모델에 따라 상기 목표영역을 처리하는 단계를 포함하는 화상처리방법을 제공한다.
또한 바람직한 실시예에서 상기 목표음성명령변환모델에 따라 상기 음성신호를 화상처리명령 및 목표영역으로 변환하는 단계는, 음성식별기술을 통해 상기 음성신호를 텍스트정보로 변환하는 단계, 자연언어처리기술과 상기 목표음성명령변환모델을 통해 상기 텍스트정보를 상기 화상처리명령으로 변환하는 단계, 및 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 목표음성명령변환모델에 따라 상기 음성신호를 화상처리명령 및 목표영역으로 변환하는 단계는, 음성식별기술, 어의이해기술 및 상기 음성명령변환모델을 통해 상기 음성신호를 상기 화상처리명령으로 변환하는 단계, 및 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 처리대상화상의 처리대상영역을 획득하는 단계는, 상기 화상처리명령 중 어의영역의 입도에 따라 상기 처리대상화상을 입도가 같은 M 개의 영역으로 분할하는 단계, 및 상기 화상처리명령에 따라 상기 M 개의 영역에서 상기 목표영역을 획득하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 방법은 상기 텍스트정보 또는 상기 화상처리명령 또는 상기 목표영역을 기억하는 단계를 더 포함한다.
또한 바람직한 실시예에서 상기 화상처리명령에 따라 상기 목표영역을 처리하는 단계는, 미리 설정된 시간창에서 상기 기억모듈에서 M(M은 1보다 큰 정수) 개의 화상처리명령을 획득하는 단계, 및 상기 M개의 화상처리명령 및 상기 목표화상처리모델을 기반으로 상기 목표영역을 처리하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 M개의 화상처리명령 및 상기 목표화상처리모델을 기반으로 상기 목표영역을 처리하는 단계, 상기 M개의 화상처리명령에서 동일한 기능을 가진 화상처리명령을 삭제하여 N(N은 상기 M보다 작은 정수) 개의 화상처리명령을 획득하는 단계, 및 상기 N개의 화상처리명령 및 상기 목표화상처리모델을 기반으로 상기 목표영역을 처리하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 음성신호와 처리대상화상을 수신하는 단계 전에 상기 방법은 음성명령변환모델에 대해 자체적응훈련을 수행하여 상기 목표음성명령변환모델을 획득하는 단계를 더 포함한다.
또한 바람직한 일 실시예에서 상기 음성명령변환모델에 대한 자체적응훈련은 오프라인 또는 온라인하여 진행된다.
또한 바람직한 실시예에서 상기 음성명령변환모듈에 대한 자체적응훈련은 모니터링하거나 모니터링하지 않는다.
바람직한 일 실시예에서 상기 음성명령변환모델에 대해 자체적응훈련을 수행하여 상기 목표음성명령변환모델을 획득하는 단계는, 상기 음성명령변환모델을 기반으로 상기 음성신호를 예측명령으로 변환하는 단계, 상기 예측명령 및 그에 대응한 명령세트의 상관계수를 확정하는 단계, 및 상기 예측명령 및 그에 대응한 명령세트의 상관계수에 따라 상기 음성명령변환모델을 최적화하여 상기 목표음성명령변환모델을 획득하는 단계를 포함한다.
또한 바람직한 일 실시예에서 상기 음성신호와 처리대상화상을 수신하는 단계 전에 상기 방법은 화상처리모델에 대해 자체적응훈련을 수행하여 상기 목표화상처리모델을 획득하는 단계를 더 포함한다.
또한 바람직한 실시예에서 상기 화상처리모델에 대한 자체적응훈련은 오프라인 또는 온라인하여 수행한다.
또한 바람직한 실시예에서 상기 화상처리모델에 대한 자체적응훈련은 모니터링하거나 모니터링하지 않는다.
또한 바람직한 일 실시예에서 상기 화상처리모델에 대해 자체적응훈련을 수행하여 상기 목표화상처리모델을 획득하는 단계는, 상기 처리대상화상에 대한 상기 화상처리모델의 처리에 따라 예측화상을 획득하는 단계, 상기 예측화상 및 그에 대응한 목표화상의 상관계수를 확정하는 단계, 및 상기 예측화상 및 그에 대응한 목표화상의 상관계수에 따라 상기 화상처리모델을 최적화하여 상기 목표화상처리모델을 획득하는 단계를 포함한다.
이상으로부터 본 발명 실시예의 기술수단에서 화상처리장치의 수신모듈이 음성신호와 처리대상화상을 획득하고, 화상처리장치의 변환모듈이 목표음성명령변환모델에 따라 상기 음성신호를 화상처리명령과 상기 처리대상화상의 처리영역인 목표영역으로 변환하며, 화상처리장치의 처리모듈이 상기 화상처리명령 및 상기 목표음성명령변환모델에 따라 상기 목표영역을 처리하는 것을 이해할 수 있다. 종래의 화상처리기술과 비교해 볼 때 본 발명은 음성을 통해 화상처리를 수행함으로써 사용자가 화상처리를 수행하기 전에 화상처리 소프트웨어를 배우는 시간을 절약하고 사용자 경험을 제고한다.
제3방면으로서 본 발명 실시예는 사용자가 입력한 음성신호를 수집하는 음성수집장치, 목표음성명령변환모델에 따라 상기 음성신호를 화상처리명령 및 처리대상화상의 처리영역인 목표영역으로 변환하는 명령변환장치, 및 상기 화상처리명령 및 목표화상처리모델에 따라 상기 목표영역을 처리하는 화상프로세서를 포함하는 화상처리장치를 제공한다.
또한 바람직한 실시예에서 상기 명령변환장치는, 상기 음성식별기술을 통해 음성신호를 텍스트정보로 변환하는 제1 음성식별장치, 자연언어처리기술과 상기 목표음성명령변환모델에 근거하여 텍스트정보를 상기 화상처리명령으로 변환하는 음성텍스트변환장치, 및 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하는 제1 화상식별장치를 포함한다.
또한 바람직한 실시예에서 상기 명령변환장치는, 상기 음성식별기술, 어의이해기술 및 상기 목표음성명령변환모델에 근거하여 상기 음성신호를 상기 화상처리명령으로 변환하는 제2 음성식별장치, 및 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하는 제2 화상식별장치를 포함한다.
또한 바람직한 일 실시예에서 상기 화상처리장치는 상기 텍스트정보 또는 상기 화상처리명령 또는 상기 목표영역을 기억하기 위한 메모리를 더 포함한다.
또한 바람직한 일 실시예에서 상기 화상프로세서는, 미리 설정된 시간창에서 상기 메모리에서 M(M은 1보다 큰 정수) 개의 화상처리명령을 획득하기 위한 명령획득모듈, 및 상기 M개의 화상처리명령 및 상기 목표화상처리모델을 기반으로 상기 목표영역을 처리하는 처리모듈을 포함한다.
또한 바람직한 일 실시예에서 상기 처리모듈은, 상기 M개의 화상처리명령에서 동일한 기능을 가진 화상처리명령을 삭제하여 N(N은 상기 M보다 작은 정수) 개의 화상처리명령을 획득하고, 상기 N개의 화상처리명령 및 상기 목표화상처리모델을 기반으로 상기 목표영역을 처리하기 위한 것이다.
또한 바람직한 실시예에서 상기 명령변환장치는 음성명령변환모델에 대해 자체적응훈련을 수행하여 상기 목표음성명령변환모델을 획득하기 위한 것이다.
또한 바람직한 실시예에서 상기 음성명령변환모델에 대한 상기 명령변환장치의 자체적응훈련은 오프라인 또는 온라인하여 수행한다.
또한 바람직한 실시예에서 상기 음성명령변환모델에 대한 상기 명령변환장치의 자체적응훈련은 모니터링하거나 모니터링하지 않는다.
또한 바람직한 실시예에서 상기 명령변환장치는 상기 음성명령변환모델을 기반으로 상기 음성신호를 예측명령으로 변환하고, 상기 예측명령 및 그에 대응한 명령세트의 상관계수를 확정하며, 상기 예측명령 및 그에 대응한 명령세트의 상관계수에 따라 상기 음성명령변환모델을 최적화하여 상기 목표음성명령변환모델을 획득하기 위한 것이다.
또한 바람직한 일 실시예에서 상기 화상처리장치는, 상기 음성명령변환모델을 기반으로 상기 음성신호를 예측명령으로 변환하고 상기 예측명령 및 그에 대응하는 명령세트의 상관계수를 확정하며 상기 예측명령 및 그에 대응하는 명령세트의 상관계수에 따라 상기 음성명령변환모델을 최적화하여 상기 목표음성명령변환모델을 획득하기 위한 훈련장치를 더 포함한다.
또한 바람직한 일 실시예에서 상기 화상프로세서는 화상처리모델에 대해 자체적응훈련을 수행하여 상기 목표화상처리모델을 획득하기 위한 것이다.
또한 바람직한 일 실시예에서 상기 화상처리모델에 대한 상기 화상프로세서의 자체적응훈련은 오프라인 또는 온라인하여 수행한다.
또한 바람직한 일 실시예에서 상기 화상처리모델에 대한 상기 화상프로세서의 자체적응훈련은 모니터링하거나 모니터링하지 않는다.
또한 바람직한 일 실시예에서 상기 화상프로세서는, 상기 화상처리모델에 따라 상기 처리대상화상을 처리하여 예측화상을 획득하고, 상기 예측화상 및 그에 대응한 목표화상의 상관계수를 확정하며, 상기 예측화상 및 그에 대응한 목표화상의 상관계수에 따라 상기 화상처리모델을 최적화하여 상기 목표화상처리모델을 획득하기 위한 것이기도 하다.
또한 바람직한 일 실시예에서 상기 훈련장치는, 상기 화상처리모델에 따라 상기 처리대상화상을 처리하여 예측화상을 획득하고, 상기 예측화상 및 그에 대응한 목표화상의 상관계수를 확정하며, 상기 예측화상 및 그에 대응한 목표화상의 상관계수에 따라 화상처리모델을 최적화하여 상기 목표화상처리모델을 획득하기 위한 것이기도 하다.
제4방면으로서 본 발명 실시예는 사용자가 입력한 음성신호를 수집하는 단계, 목표음성명령변환모델에 따라 상기 음성신호를 화상처리명령 및 처리대상화상의 처리영역인 목표영역으로 변환하는 단계, 및 상기 화상처리명령과 목표화상처리모델에 따라 상기 목표영역을 처리하는 단계를 포함하는 화상처리방법을 제공한다.
또한 바람직한 실시예에서 상기 목표음성명령변환모델에 따라 상기 음성신호를 화상처리명령 및 목표영역으로 변환하는 단계는, 음성식별기술을 통해 상기 음성신호를 텍스트정보로 변환하는 단계, 자연언어처리기술과 상기 목표음성명령변환모델에 따라 상기 텍스트정보를 상기 화상처리명령으로 변환하는 단계, 및 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 목표음성명령변환모델에 따라 상기 음성신호를 화상처리명령 및 목표영역으로 변환하는 단계는, 음성식별기술, 어의이해기술 및 상기 음성명령변환모델에 근거하여 상기 음성신호를 상기 화상처리명령으로 변환하는 단계, 및 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 방법은 상기 텍스트정보 또는 상기 화상처리명령 또는 상기 목표영역을 기억하는 단계를 더 포함한다.
또한 바람직한 실시예에서 상기 화상처리명령 및 목표화상처리모델에 따라 상기 목표영역을 처리하는 단계는, 미리 설정된 시간창에서 상기 메모리에서 M(M은 1보다 큰 정수) 개의 화상처리명령을 획득하는 단계, 및 상기 M개의 화상처리명령 및 상기 목표화상처리모델을 기반으로 상기 목표영역을 처리하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 M 개의 화상처리명령 및 상기 목표화상처리모델을 기반으로 상기 목표영역을 처리하는 단계는, 상기 M개의 화상처리명령에서 동일한 기능을 가진 화상처리명령을 삭제하여 N(N은 상기 M보다 작은 정수) 개의 화상처리명령을 획득하는 단계, 및 상기 N개의 화상처리명령 및 상기 목표화상처리모델을 기반으로 상기 목표영역을 처리하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 음성신호와 처리대상화상을 수신하는 단계 전에 상기 방법은 음성명령변환모델에 대해 자체적응훈련을 수행하여 상기 목표음성명령변환모델을 획득하는 단계를 더 포함한다.
또한 바람직한 일 실시예에서 상기 음성명령변환모델에 대한 자체적응훈련은 오프라인 또는 온라인하여 수행한다.
또한 바람직한 실시예에서 상기 음성명령변환모델에 대한 자체적응훈련은 모니터링하거나 모니터링하지 않는다.
바람직한 일 실시예에서 상기 음성명령변환모델에 대해 자체적응훈련을 수행하여 상기 목표음성명령변환모델을 획득하는 단계는, 상기 음성명령변환모델을 기반으로 상기 음성신호를 예측명령으로 변환하는 단계, 상기 예측명령 및 그에 대응한 명령세트의 상관계수를 확정하는 단계, 및 상기 예측명령 및 그에 대응한 명령세트의 상관계수에 따라 상기 음성명령변환모델을 최적화하여 상기 목표음성명령변환모델을 획득하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 음성신호와 처리대상화상을 수신하는 단계 전에 상기 방법은 화상처리모델에 대해 자체적응훈련을 수행하여 상기 목표화상처리모델을 획득하는 단계를 더 포함한다.
또한 바람직한 실시예에서 상기 화상처리모델에 대한 자체적응훈련은 오프라인 또는 온라인하여 수행한다.
또한 바람직한 실시예에서 상기 화상처리모델에 대한 자체적응훈련은 모니터링하거나 모니터링하지 않는다.
또한 바람직한 일 실시예에서 상기 화상처리모델에 대해 자체적응훈련을 수행하여을 상기 목표화상처리모델을 획득하는 단계는, 상기 화상처리모델에 따라 상기 처리대상화상을 처리하여 예측화상을 획득하는 단계, 상기 예측화상 및 그에 대응한 목표화상의 상관계수를 확정하는 단계, 및 상기 예측화상 및 그에 대응한 목표화상의 상관계수에 따라 상기 화상처리모델을 최적화하여 상기 목표화상처리모델을 획득하는 단계를 포함한다.
제5방면으로서 본 발명 실시예는 본 발명 실시예의 제3방면에 따른 상기 화상처리장치를 포함하는 화상처리칩도 제공한다.
또한 바람직한 실시예에서 상기 칩에는 주요칩과 협력칩이 포함되며, 상기 협력칩은 본 발명 실시예의 제1방면에 따른 상기 장치를 구비하고, 상기 주요칩은 상기 협력칩에 시동신호를 제공하여 처리대상화상과 화상처리명령을 상기 협력칩에 전송하도록 제어하기 위한 것이다.
제6 방면으로서 본 발명 실시예는 본 발명 실시예의 제5 방면에 따른 화상처리칩을 포함한 칩패키지구조를 제공한다.
제7 방면으로서 본 발명 실시예는 인쇄회로판을 제공하는 바, 이 인쇄회로판에는 본 발명 실시예의 제6 방면에 따른 칩패키지구조가 포함된다.
제8방면으로서 본 발명 실시예는 전자기기를 제공하는 바, 이 전자기기는 본 발명 실시예의 제7방면에 따른 인쇄회로판을 포함한다.
이상으로부터 본 발명 실시예의 기술수단에서 음성수집장치는 사용자가 입력한 음성신호를 수집하고, 명령변환장치는 목표음성명령변환모델에 따라 상기 음성신호를 화상처리명령 및 처리대상화상의 처리영역인 목표영역으로 변환하며, 화상프로세서는 상기 화상처리명령 및 목표화상처리모델에 따라 상기 목표영역을 처리하는 것을 이해할 수 있다. 종래의 화상처리기술과 비교해 볼 때 본 발명은 음성을 통해 화상처리를 수행함으로써 사용자가 화상처리를 수행하기 전에 화상처리 소프트웨어를 배우는 시간을 절약하고 사용자 경험을 제고한다.
제9방면으로서 본 발명 실시예는, 음성신호와 처리대상화상을 입력하기 위한 입출력수단, 상기 음성신호와 상기 처리대상화상을 기억하기 위한 기억수단, 및 상기 음성신호를 화상처리명령 및 처리대상화상의 처리영역인 목표영역으로 변환하고 상기 화상처리명령에 따라 상기 목표영역을 처리하여 처리된 화상을 획득하고, 상기 처리대상화상을 상기 기억수단에 기억하기 위한 화상처리수단을 포함하며, 상기 입출력수단은 상기 처리된 화상을 출력하기 위한 것이기도 한 화상처리장치를 제공한다.
또한 바람직한 일 실시예에서 상기 기억수단은 뉴런기억수단과 가중치버퍼 스토리지수단을 포함하고, 상기 화상처리수단의 신경망연산수단은 신경망연산서브수단을 포함하며, 상기 뉴런기억수단은 상기 음성신호와 상기 처리대상화상을 기억하기 위한 것이고, 상기 가중치버퍼 스토리지수단은 목표음성명령변환모델과 목표화상처리모델을 기억할 때 사용되며, 상기 신경망연산서브수단은 상기 목표음성명령변환모델에 따라 상기 음성신호를 상기 화상처리명령 및 상기 목표영역으로 변환하기 위한 것이고, 상기 신경망연산서브수단은 또 상기 목표화상처리모델과 상기 화상처리명령에 따라 상기 목표영역을 처리하여 처리된 화상을 획득하기 위한 것이며, 상기 신경망연산서브수단은 또 상기 처리된 화상을 상기 뉴런기억수단에 기억하기 위한 것이기도 하다.
또한 바람직한 일 실시예에서 상기 기억수단은 범용데터버퍼 스토리지수단을 포함하고 상기 화상처리수단의 신경망연산수단은 범용연산서브수단을 포함하며, 상기 범용데이터버퍼 스토리지수단이 상기 음성신호와 상기 처리대상화상의 수신에 이용될 때 상기 범용연산서브수단은 상기 음성신호를 상기 화상처리명령 및 상기 목표영역으로 변환하는 데 사용되며, 상기 범용연산서브수단은 상기 화상처리명령에 따라 상기 목표영역을 처리하여 처리된 화상을 획득하는 데도 사용되고, 상기 범용연산서브수단은 상기 처리된 화상을 상기 범용데이터기억수단에 기억하는 데도 사용된다.
또한 바람직한 실시예에서 상기 신경망연산서브수단은 구체적으로 음성식별기술에 근거하여 상기 음성신호를 텍스트정보로 변환하고, 자연언어처리기술과 상기 목표음성명령변환모델에 근거하여 상기 텍스트정보를 상기 화상처리명령으로 변환하며, 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하기 위한 것이다.
또한 바람직한 실시예에서 상기 신경망연산서브수단은 구체적으로 음성식별기술, 어의이해기술 및 상기 목표음성명령변환모델에 근거하여 상기 음성신호를 상기 화상처리명령으로 변환하고, 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하기 위한 것이다.
또한 바람직한 실시예에서 상기 범용연산서브수단은 구체적으로 음성식별기술에 근거하여 상기 음성신호를 텍스트정보로 변환하고, 자연언어처리기술에 근거하여 상기 텍스트정보를 상기 화상처리명령으로 변환하며, 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 회득하기 위한 것이다.
또한 바람직한 실시예에서 상기 범용연산서브수단은 구체적으로 음성식별기술과 어의이해기술에 근거하여 상기 음성신호를 상기 화상처리명령으로 변환하고, 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하기 위한 것이다.
또한 바람직한 실시예에서 상기 뉴런기억수단은 상기 목표영역과 상기 화상처리명령을 기억하기 위한 것이다.
또한 바람직한 실시예에서 상기 범용데이터버퍼 스토리지수단은 상기 목표영역 및 상기 화상처리명령을 기억하기 위한 것이다.
또한 바람직한 실시예에서 상기 신경망연산서브수단은 미리 설정된 시간창에서 상기 뉴런기억수단에서 M(M은 1보다 큰 정수) 개의 화상처리명령을 획득하고, 상기 M개의 화상처리명령에서 동일한 기능을 가진 화상처리명령을 삭제하여 N(N은 상기 M보다 작은 정수) 개의 화상처리명령을 획득하며, 처리된 화상을 획득하기 위해 상기 N개의 화상처리명령 및 상기 목표화상처리모델을 기반으로 상기 목표영역을 처리하는 데 사용된다.
또한 바람직한 실시예에서 상기 범용연산서브수단은 미리 설정된 시간창에서 상기 범용데이터버퍼 스토리지수단에서 M(M은 1보다 큰 정수) 개의 화상처리명령을 획득하고, 상기 M개의 화상처리명령에서 동일한 기능을 가진 화상처리명령을 삭제하여 N(N은 상기 M보다 작은 정수) 개의 화상처리명령을 획득하며, 처리된 화상을 획득하기 위해 상기 N개의 화상처리명령에 따라 상기 목표영역을 처리하는 데 사용된다.
또한 바람직한 실시예에서 상기 신경망연산서브수단은 음성명령변환모델에 대해 자체적응훈련을 수행하여 상기 목표음성명령변환모델을 획득하기 위한 것이기도 하다.
또한 바람직한 실시예에서 상기 신경망연산서브수단은 상기 음성명령변환모델을 기반으로 상기 음성신호를 예측명령으로 변환하고, 상기 예측명령 및 그에 대응한 명령세트의 상관계수를 확정하며, 상기 예측명령 및 그에 대응한 명령세트의 상관계수에 따라 상기 음성명령변환모델을 최적화하여 상기 목표음성명령변환모델을 획득하는 데도 사용된다.
또한 바람직한 실시예에서 상기 신경망연산서브수단은 화상처리모델에 대해 자체적응훈련을 수행하여 상기 목표화상처리모델을 획득하는 데도 사용된다.
또한 바람직한 실시예에서 상기 신경망연산서브수단은 상기 화상처리모델에 따라 상기 처리대상화상을 처리하여 예측화상을 획듣하고, 상기 예측화상 및 그에 대응한 목표화상의 상관계수를 확정하며, 상기 예측화상 및 그에 대응한 목표화상의 상관계수에 따라 상기 화상처리모델을 최적화하여 상기 목표화상처리모델을 획득하는 데도 사용된다.
또한 바람직한 실시예에서 상기 화상처리장치의 화상처리수단은, 신경망연산명령과 범용연산명령이 포함된 실행해야 할 명령을 기억하기 위한 명령버퍼 스토리지수단, 및 상기 신경망연산명령을 상기 신경망연산서브수단에 전송하고 상기 범용연산명령을 상기 범용연산서브수단에 전송하기 위한 명령처리수단을 더 포함한다.
제10방면으로서 본 발명 실시예는, 음성신호와 처리대상화상을 입력하는 단계, 상기 음성신호와 상기 처리대상화상을 기억하는 단계, 상기 음성신호를 화상처리명령 및 처리대상화상의 처리영역인 목표영역으로 변환하고, 상기 화상처리명령에 따라 상기 목표영역을 처리하여 처리된 화상을 획득하며, 상기 처리대상화상을 상기 기억수단에 기억하는 단계, 및 상기 처리된 화상을 출력하는 단계를 포함하는 화상처리방법을 제공한다.
또한 바람직한 실시예에서 상기 음성신호를 화상처리명령과 목표영역으로 변환하는 단계는, 음성식별기술을 통해 상기 음성신호를 텍스트정보로 변환하는 단계, 자연언어처리기술과 목표음성명령변환모델을 기반으로 상기 텍스트정보를 상기 화상처리명령으로 변환하는 단계, 및 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 음성신호를 화상처리명령과 목표영역으로 변환하는 단계는, 음성식별기술, 어의이해기술 및 목표음성명령변환모델을 기반으로 상기 음성신호를 상기 화상처리명령으로 변환하는 단계, 및 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 음성신호를 화상처리명령과 목표영역으로 변환하는 단계는, 음성식별기술에 근거하여 상기 음성신호를 텍스트정보로 변환하는 단계, 자연언어처리기술을 기반으로 상기 텍스트정보를 상기 화상처리명령으로 변환하는 단계, 및 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 음성신호를 화상처리명령과 목표영역으로 변환하는 단계는, 음성식별기술과 어의이해기술에 근거하여 상기 음성신호를 상기 화상처리명령으로 변환하는 단계, 및 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 음성신호를 화상처리명령과 목표영역으로 변환하는 단계 뒤에, 상기 방법은 상기 화상처리명령 및 상기 목표영역을 기억하는 단계를 더 포함한다.
또한 바람직한 일 실시예에서 상기 화상처리명령에 따라 상기 목표영역을 처리하여 처리된 화상을 획득하는 단계는, 미리 설정된 시간창에서 상기 뉴런기억수단에서 M(M은 1보다 큰 정수) 개의 화상처리명령을 획득하는 단계, 상기 M개의 화상처리명령에서 동일한 기능을 가진 화상처리명령을 삭제하여 N(N은 상기 M보다 작은 정수) 개의 화상처리명령을 획득하는 단계, 및 처리된 화상을 획득하기 위해 상기 N개의 화상처리명령 및 목표화상처리모델을 기반으로 상기 목표영역을 처리하는 단계를 포함한다.
또한 바람직한 일 실시예에서 상기 화상처리명령에 따라 상기 목표영역을 처리하여 처리된 화상을 획득하는 단계는, 미리 설정된 시간창에서 상기 범용데이터버퍼 스토리지수단에서 M(M은 1보다 큰 정수) 개의 화상처리명령을 획득하는 단계, 상기 M개의 화상처리명령에서 동일한 기능을 가진 화상처리명령을 삭제하여 N(N은 상기 M보다 작은 정수) 개의 화상처리명령을 획득하는 단계, 및 처리된 화상을 획득하기 위해 상기 N개의 화상처리명령에 따라 상기 목표영역을 처리하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 방법은 음성명령변환모델에 대해 자체적응훈련을 수행하여 상기 목표음성명령변환모델을 획득하는 단계를 더 포함한다.
바람직한 일 실시예에서 상기 음성명령변환모델에 대해 자체적응훈련을 수행하여 상기 목표음성명령변환모델을 획득하는 단계는, 상기 음성명령변환모델을 기반으로 상기 음성신호를 예측명령으로 변환하는 단계, 상기 예측명령 및 그에 대응한 명령세트의 상관계수를 확정하는 단계, 및 상기 예측명령 및 그에 대응한 명령세트의 상관계수에 따라 상기 음성명령변환모델을 최적화하여 상기 목표음성명령변환모델을 획득하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 방법은 화상처리모델에 대해 자체적응훈련을 수행하여 상기 목표화상처리모델을 획득하는 단계를 더 포함한다.
또한 바람직한 일 실시예에서 상기 화상처리모델에 대해 자체적응훈련을 수행하는 단계는, 상기 화상처리모델에 따라 상기 처리대상화상을 처리하여 예측화상을 획득하는 단계, 상기 예측화상 및 그에 대응한 목표화상의 상관계수를 확정하는 단계, 및 상기 예측화상 및 그에 대응한 목표화상의 상관계수에 따라 상기 화상처리모델을 최적화하여 상기 목표화상처리모델을 획득하는 단계를 포함한다.
제11 방면으로서 본 발명 실시예는, 본 발명 실시예의 제1 방면에 따른 상기 화상처리장치를 포함한 화상처리칩을 제공하기도 한다.
또한 바람직한 실시예에서 상기 칩에는 주요칩과 협력칩이 포함되며, 상기 협력칩은 본 발명 실시예의 제1방면에 따른 상기 장치를 구비하고, 상기 주요칩은 상기 협력칩에 시동신호를 제공하여 처리대상화상과 화상처리명령을 상기 협력칩에 전송하도록 제어하기 위한 것이다.
제12 방면으로서 본 발명 실시예는, 본 발명 실시예의 제11 방면에 따른 화상처리칩을 포함하는 칩패키지구조를 제공한다.
제13 방면으로서 본 발명 실시예는 인쇄회로판을 제공하는 바, 이 인쇄회로판에는 본 발명 실시예의 제12 방면에 따른 칩패키지구조가 포함된다.
제14방면으로서 본 발명 실시예는 전자기기를 제공하는 바, 이 전자기기는 본 발명 실시예의 제13방면에 따른 인쇄회로판을 포함한다.
이상으로부터 본 발명 실시예의 기술수단에서 입출력수단이 음성신호와 처리대상화상을 입력하고, 기억수단이 상기 음성신호와 상기 처리대상화상을 기억하며, 화상처리수단이 상기 음성신호를 화상처리명령 및 처리대상화상의 처리영역인 목표영역으로 변환하고, 상기 화상처리명령에 따라 상기 목표영역을 처리하여 처리된 화상을 획득하며, 상기 처리대상화상을 상기 기억수단에 기억하고, 상기 입출력수단이 상기 처리된 화상을 출력하는 것을 이해할 수 있다. 종래의 화상처리기술과 비교해 볼 때 본 발명은 음성을 통해 화상처리를 수행함으로써 사용자가 화상처리를 수행하기 전에 화상처리 소프트웨어를 배우는 시간을 절약하고 사용자 경험을 제고한다.
이하에서, 본 발명 실시예 또는 종래기술의 기술수단을 보다 명료하게 설명하기 위해, 실시예 또는 종래기술에서 이용해야할 도면을 간단히 소개한다. 이하에서 서술하는 도면은 본 발명의 일 부분 실시예일 뿐이고, 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자라면, 창작능력을 발휘하지 않고서도 이러한 도면에 따라 다른 도면을 얻을 수 있다는 것이 분명하다.
도 1은 본 발명 실시예에서 제공한 화상처리장치의 구조모식도이고,
도 2는 본 발명 실시예에서 제공한 다른 화상처리장치의 부분구조모식도이고,
도 3은 본 발명 실시예에서 제공한 다른 화상처리장치의 부분구조모식도이고,
도 4는 본 발명 실시예에서 제공한 다른 화상처리장치의 부분구조모식도이고,
도 5는 본 발명 실시예에서 제공한 칩의 구조모식도이고,
도 6은 본 발명 실시예에서 제공한 다른 칩의 구조모식도이고,
도 7은 본 발명 실시예에서 제공한 화상처리방법의 흐름모식도이고,
도 8은 본 발명 실시예에서 제공한 화상처리장치의 구조모식도이고,
도 9은 본 발명 실시예에서 제공한 다른 화상처리장치의 부분구조모식도이고,
도 10은 본 발명 실시예에서 제공한 다른 화상처리장치의 부분구조모식도이고,
도 11은 본 발명 실시예에서 제공한 다른 화상처리장치의 부분구조모식도이고,
도 12는 본 발명 실시예에서 제공한 전자기기의 구조모식도이고,
도 13은 본 발명 실시예에서 제공한 화상처리방법의 흐름모식도이고,
도 14는 본 발명 실시예에서 제공한 화상처리장치의 구조모식도이고,
도 15는 본 발명 실시예에서 제공한 다른 화상처리장치의 부분구조모식도이고,
도 16은 본 발명 실시예에서 제공한 전자기기의 구조모식도이고,
도 17은 본 발명 실시예에서 제공한 화상처리방법의 흐름모식도이다.
이하에서 각각 상세히 설명한다.
본 발명의 명세서, 특허청구범위 및 상기 도면 중 "제1", " 제2", "제3" 및" 제4" 등 용어는 서로 다른 대상을 구분하기 위한 것이고 특정된 순서를 서술하기 위한 것이 아니다. 또한 "포함", "구비" 및 이들의 임의의 변형된 용어는 비 독점적으로 포함하는 것을 의도하고 있다. 예를 들어 일련의 단계 또는 수단의 과정, 방법, 시스템, 제품 또는 설비를 포함하는 것은 열거된 단계 또는 수단에 국한되지 않고 선택적으로 열거되지 않은 단계 또는 수단를 포함하거나 선택적으로 이러한 과정, 방법, 제품 또는 설비가 고유한 기타 단계 또는 수단를 더 포함할 수 있다.
본 명세서에서 언급한 "실시예"는 실시예와 결합하여 설명한 특정특징, 구조 또는 특성이 본 발명의 적어도 하나의 실시예에 포함될수 있다는 것을 의미한다. 명세서의 각 부분에 나타난 당해 단문은 반드시 동일한 실시예를 지칭하는 것이 아니고 기타 실시예와 상호 배제하는 독립 또는 후보의 실시예인 것도 아니다. 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자라면 본 명세서에서 설명한 실시예가 다른 실시예와 결합할 수 있음을 명시적 또는 은밀하게 이해할 수 있다.
제1 방면으로서 도 1에는 본 발명 실시예에서 제공한 화상처리장치의 구조모식도가 도시되어 있다. 도 1에 도시된 바와 같이, 당해 화상처리장치(100)는 다음과 같은 구성을 포함한다.
수신모듈(101)은 음성신호와 처리대상화상을 수신하기 위한 것이다.
바람직하게, 상기 화상처리장치(100)는 사전처리모듈을 더 포함하며 상기 수신모듈(101)이 상기 음성신호를 수신한 후 상기 사전처리모듈이 당해 음성신호에 대한 소음감소처리를 수행한다.
바람직하게, 수신모듈(101)에는 오디오수집수단이 포함되며 당해 오디오수집수단은 음성센서, 마이크, 습음기 또는 기타 오디오수집설비일 수 있다.
구체적으로 음성신호를 수신할 때 수신수단(101)은 또 환경음성신호도 수신한다. 상기 사전처리모듈은 상기 환경음성신호에 따라 상기 음성신호에 대한 소음감소처리를 수행한다. 당해 환경음성신호는 상기 음성신호에 있어서 소음이다.
또한 상기 오디오수집수단에는 상기 음성신호와 상기 환경음성신호를 수집할 수 있을 뿐만 아니라 소음저하처리도 실현할 수 있는 쌍 마이크 어레이를 포함할 수 있다.
바람직하게, 가능한 실시예에서 상기 화상처리장치는 제1 기억모듈과 제2 기억모듈이 포함한다. 상기 수신수단이 상기 음성신호와 처리대상화상을 수신하면 상기 화상처리장치는 상기 음성신호와 상기 처리대상화상을 제1 기억모듈과 제2 기억모듈에 각각 기억한다.
바람직하게, 상기 제1 기억모듈과 제2 기억모듈은 동일한 기억모듈일 수도 있고 서로 다른 기억모듈일 수도 있다.
변환모듈(102)은 목표음성명령변환모델을 기반으로 상기 음성신호를 화상처리명령 및 상기 처리대상화상의 처리영역인 목표영역으로 변환하기 위한 것이다.
바람직하게, 상기 변환모듈(102)은 음성식별기술, 자연언어처리기술 및 화상식별기술을 기반으로 상기 음성신호를 화상처리명령과 목표영역으로 변환하기 전에 제1기억모듈에서 상기 음성처리신호를 획득한다.
그중 상기 변환모듈(102)은, 음성식별기술을 통해 상기 음성신호를 텍스트정보로 변환하기 위한 제1 음성식별수단(1021), 자연언어처리기술과 상기 목표음성명령변환모델에 근거하여 상기 텍스트정보를 상기 화상처리명령으로 변환하기 위한 어의이해수단(1022), 및 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하기 위한 제1 화상식별수단(1023)을 포함한다.
또한 상기 변환모듈(102)은 상기 화상처리명령 중 어의영역의 입도를 획득하기 위한 획득수단(1026)을 더 포함한다.
예를 들어 상기 어의영역을 설명하면, 상기 화상처리장치(100)가 음성신호에 따라 상기 목표영역이 얼굴영역임을 확정한 경우 상기 어의영역이 상기 처리대상화상의 얼굴영역이며, 상기 화상처리장치는 얼굴을 입도로 하여 상기 처리대상화상 중 복수의 얼굴영역을 획득한다. 상기 목표영역이 배경인 경우 상기 화상처리장치는 상기 처리대상화상을 배경영역과 비배경영역으로 분할하며 상기 목표영역이 적색영역인 경우 상기 화상처리장치는 색상에 따라 상기 처리대상화상을 서로 다른 색상의 영역으로 분할한다.
구체적으로 본 발명이 사용하는 음성인식기술은 인공신경망(Artificial Neural Network, AN), 은닉 마르코프 모델(Hidden Markov Model, HMM) 등 모델을 포함하지만 이에 국한되지 않는다. 상기 제1 음성식별수단은 상기 음성식별기술에 근거하여 상기 음성신호를 처리할 수 있다. 상기 자연언어처리기술은 통계기계학습, ANN 등 방법을 포함하지만 이에 국한되지 않는다. 상기 어의이해수단은 상기 자연언어처리기술에 근거하여 어의정보를 추출할 수 있다. 상기 화상식별기술에는 에지검출에 의한 방법, 임계값분할방법, 영역성장 및 분수(分水嶺) 알고리즘, 계조적분투영곡선분석, 템플릿 정합, 변형 가능한 템플릿, Hough 변환, 스네이크 연산자, Gabor 소파변환에 의한 탄성화상정합기술 및 활성모양모델과 활성외관모델 등 방법과 같은 알고리즘을 포함하지만 이에 국한되지 않는다. 상기 화상식별수단은 상기 화상식별기술을 기반으로 상기 처리대상화상을 서로 다른 영역으로 나눌 수 있다.
바람직한 일 실시예에서 상기 음성식별수단(1021)은 상기 음성식별기술을 통해 상기 음성신호를 텍스트정보로 변환하고 당해 텍스트정보를 상기 제1 기억모듈에 저장한다. 상기 어의이해수단(1022)은 상기 제1 기억모듈에서 상기 텍스트정보를 획득하고, 자연언어처리기술과 상기 목표음성명령변환모델을 통해 당해 텍스트정보를 화상처리명령으로 변환하며, 화상처리명령을 상기 제1 기억모듈에 저장한다. 상기 제1 화상식별수단(1023)은 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하며 상기 구분결과 및 상기 목표영역을 상기 제2 기억모듈에 기억한다.
또한 바람직한 실시예에서 상기 변환모듈(102)은, 음성식별기술, 자연언어처리기술 및 상기 목표음성명령변환모델을 기반으로 상기 음성신호를 직접 상기 화상처리명령으로 변환시키고 이 화상처리명령을 제1기억모듈에 저장하기 위한 음성식별수단(1025), 및 상기 화상처리명령에서 상기 처리대상화상을 조작하는 어의영역의 입도를 기반으로 당해 어의영역의 입도에 따라 당해 처리대상화상을 구분하여 상기 처리대상화상을 처리한 영역인 목표영역을 획득하며 구분 후의 결과 및 상기 목표영역을 제2 기억모듈에 기억하는 제2 화상식별수단(1026)을 포함할 수도 있다.
바람직하게 상기 수신모듈(101)이 상기 음성신호와 상기 처리대상화상을 수신하기 전에 상기 변환모듈(102)은 음성명령변환모델에 대해 자체적응훈련을 수행하여 상기 목표음성명령변환모델을 획득한다.
또한 상기 음성명령변환모델에 대한 자체적응훈련은 오프라인 또는 온라인하여 수행한다.
구체적으로 상기 음성명령변환모델에 대한 자체적응훈련이 오프라인 상태에서 진행되는 것은 구체적으로 상기 변환모듈(102)이 그 하드웨어에 기초하여 상기 음성명령변환모델에 대해 자체적응훈련을 수행하여 목표음성명령변환모델을 획득한다는 것이다. 상기 음성명령변환모델에 대한 자체적응훈련이 온라인하여 수행된다는 것은 구체적으로 상기 변환모듈의 클라우드 서버가 상기 음성명령변환모델에 대해 자체적응훈련을 수행하여 목표음성명령변환모델을 획득하는 것과 다르다. 상기 변환모듈(102)이 상기 목표음성명령변환모델을 사용해야 하는 경우 당해 변환모듈(102)은 상기 클라우드 서버에서 당해 목표음성명령변환모델을 획득한다.
바람직하게 상기 음성명령변환모델에 대한 자체적응훈련은 모니터링하거나 모니터링하지 않는다.
구체적으로 말하면, 상기 음성명령변환모델에 대한 자체적응훈련을 모니터링한다는 것은 구체적으로 상기 변환모듈(102)이 상기 음성명령변환모델에 근거하여 상기 음성신호를 예측명령으로 변환한 후에 상기 예측명령 및 그에 대응한 명령세트의 상관계수를 확정하며 이 명령세트가 수동으로 음성신호에 근거하여 얻은 명령세트이고 상기 변환모듈(102)이 상기 예측명령 및 그에 대응한 명령세트의 상관계수에 따라 상기 음성명령변환모델을 최적화하여 상기 목표음성명령변환모델을 획득한다는 것이다.
또한 바람직한 실시예에서 상기 화상처리장치(100)는, 상기 음성명령변환모델을 기반으로 상기 음성신호를 예측명령으로 변환하고 상기 예측명령 및 그에 대응한 명령세트의 상관계수를 확정하며 상기 예측명령 및 그에 대응한 명령세트의 상관계수에 따라 상기 음성명령변환모델을 최적화하여 상기 목표음성명령변환모델을 획득하기 위한 훈련모듈(105)을 더 포함한다.
예를 들어 상기 음성명령변환모델에 대한 자체적응훈련을 모니터링한다는 것은 구체적으로 상기 변환모듈(102) 또는 훈련모듈(105)이 관련명령을 포함하는 음성신호를 수신한다는 것이다. 그 관련명령은 화상의 색상을 개변, 화상을 회전하는 것 등이다. 각 명령은 하나의 명령세트에 대응한다. 자체적응훈련에 사용되는 입력된 음성신호에 대해 대응되는 명령세트는 이미 알려진 것이며 상기 변환모듈(102) 또는 훈련모듈(105)은 이러한 음성신호를 음성명령변환모델의 입력데이터로 사용하여 출력 후 예측명령을 획득한다. 상기 변환모듈(102) 또는 훈련모듈(105)은 상기 예측명령 및 그에 대응하는 명령세트의 상관계수를 계산하고 상기 음성명령변환모델의 파라미터(가중치, 오프셋 등)를 자체적응적으로 업데이트하여 상기 음성명령변환모델의 성능을 향상시키고 상기 목표음성명령변환모델을 획득한다.
상기 화상처리장치(100)는 상기 텍스트정보 또는 상기 화상처리명령 또는 상기 목표영역을 기억하기 위한 기억모듈(104)을 더 포함한다.
또한 바람직한 실시예에서 상기 기억모듈(104)은 상기 제1 기억모듈 및 제2 기억모듈과 동일한 기억모듈일 수도 있고 서로 다른 기억모듈일 수도 있다.
처리모듈(103)은 상기 화상처리명령 및 목표화상처리모델을 기반으로 상기 처리대상화상을 처리하기 위한 것이다.
또한 상기 처리모듈(103)은 미리 설정된 시간창에서 상기 기억모듈에서 M(M은 1보다 큰 정수) 개의 화상처리명령을 얻기 위한 획득수단(1031), 및 상기 M개의 화상처리명령 및 상기 목표화상처리모델을 기반으로 상기 목표영역을 처리하기 위한 처리수단(1032)을 포함한다.
바람직하게 상기 처리수단(1032)은 상기 M개의 화상처리명령에서 동일한 기능을 가진 화상처리명령을 삭제하여 N(N은 상기 M보다 작은 정수) 개의 화상처리명령을 얻고, 상기 N개의 화상처리명령 및 상기 목표화상처리모델을 기반으로 상기 목표영역을 처리하기 위한 것이다.
구체적으로 상기 미리 설정된 시간창은 미리 설정된 시간 길이로 이해할 수 있다. 미리 설정된 시간 동안에 상기 획득수단(1031)은 상기 기억모듈(104)에서 M개의 화상처리명령을 획득한 후 상기 처리수단(1032)은 상기 M개의 화상처리명령을 2개씩 비교하여 당해 M개의 화상처리명령에서 동일한 기능을 가진 명령을 삭제하여 N개의 화상처리명령을 획득한다. 상기 처리수단(1032)은 상기 N개의 처리명령 및 상기 목표화상처리모델을 기반으로 상기 처리대상화상을 처리한다.
예를 들어 상기 처리수단(1032)은 상기 M개의 화상처리명령을 2개씩 비교한다. 화상처리명령 A와 화상처리명령 B가 동일한 경우, 상기 처리수단(1032)은 상기 화상처리명령 A와 B 중 오버헤드가 최대인 하나를 삭제하고, 화상처리명령 A와 화상처리명령 B가 다른 경우, 상기 처리수단(1032)은 상기 화상처리명령 A와 상기 화상처리명령 B의 유사도 계수를 획득한다. 유사도 계수가 유사도 임계값보다 클 때 상기 화상처리명령 A와 상기 화상처리명령 B의 기능이 동일함을 확정하며 상기 처리수단(1032)은 상기 화상처리명령 A와 B 중 오버헤드가 최대인 하나를 삭제한다. 상기 유사도 계수가 상기 유사도 임계값보다 작을 때 상기 처리수단(1032)은 상기 화상처리명령 A와 B의 기능이 서로 다르다는 것을 확정한다. 당해 화상처리명령 A와 B는 상기 M개의 처리명령 중 임의의 두 개이다.
구체적으로 상기 처리모듈(103)에 대해 그 입력과 출력은 모두 화상이다. 상기 처리모듈(103)은 ANN 또는 기존의 컴퓨터시각방법에 국한되지 않는 방법으로 상기 처리대상화상을 처리할 수 있다. 여기에는 몸체미용(예하면 다리미용, 유방확대), 얼굴변경, 얼굴미화, 대상변경(고양이와 개의 교환, 얼룩말을 말로 변경, 사과와 오렌지의 교환 등), 배경변경(뒤의 삼림을 밭으로 치환), 은폐물 제거(예를 들면 한쪽 눈이 얼굴에 가리운 경우 눈을 다시 구축), 스타일 변환(1초에 반 고흐 화풍으로 변경), 위치자세변환(예를 들어 서있는 자세를 앉은 자세로 변경, 얼굴의 정면을 측면으로 변경), 유화 이외의 것을 유화로 변경, 화상배경의 색상을 변경, 및 화상 중 물체가 있는 계정배경을 변경하는 것 등이 포함된다.
바람직하게 상기 수신모듈(101)이 상기 음성신호와 상기 처리대상화상을 수신하기 전에 상기 처리모듈(103)이 화상처리모델에 대해 자체적응훈련을 수행하여 상기 목표화상처리모델을 획득한다.
또한 상기 화상처리모델에 대한 자체적응훈련은 오프라인 또는 온라인하여 수행한다.
구체적으로 상기 화상처리모델에 대한 자체적응훈련이 오프라인 상태에서 수행한다는 것은 구체적으로 상기 처리모듈(103)이 그 하드웨어에 기초하여 상기 화상처리모델에 대해 자체적응훈련을 수행하여 목표음성명령변환모델을 획득한다는 것이다. 상기 화상처리모델에 대한 자체적응훈련이 온라인하여 수행된다는 것은 구체적으로 상기 변환모듈의 클라우드 서버가 상기 화상처리모델에 대해 자체적응훈련을 수행하여 목표화상처리모델을 획득하는 것과 다르다. 상기 처리모듈(103)이 상기 목표화상처리모델을 사용해야 하는 경우 당해 처리모듈(103)은 상기 클라우드 서버에서 당해 목표화상처리모델을 획득한다.
바람직하게 상기 화상처리모델에 대한 자체적응훈련은 모니터링하거나 모니터링하지 않는다.
구체적으로 말하면, 상기 화상처리모델에 대한 자체적응훈련을 모니터링한다는 것은 구체적으로 상기 처리모듈(103)이 상기 화상처리모델에 근거하여 상기 음성신호를 예측명령으로 변환한 후에 상기 예측명령 및 그에 대응한 목표화상의 상관계수를 확정하며 이 목표화상은 수동으로 음성신호에 근거하여 처리대상화상을 처리하여 얻은 화상이고 상기 처리모듈(103)이 상기 예측명령 및 그에 대응한 목표화상의 상관계수에 따라 상기 화상처리모델을 최적화하여 상기 목표화상처리모델을 획득한다는 것이다.
또한 바람직한 실시예에서 상기 화상처리장치(100)는, 상기 음성명령변환모델을 기반으로 상기 음성신호를 예측명령으로 변환하고 상기 예측명령 및 그에 대응한 명령세트의 상관계수를 확정하며 상기 예측명령 및 그에 대응한 명령세트의 상관계수에 따라 상기 음성명령변환모델을 최적화하여 상기 목표음성명령변환모델을 획득하기 위한 훈련모듈(105)을 더 포함한다.
예를 들어 상기 화상처리모델에 대한 자체적응훈련을 모니터링한다는 것은 구체적으로 상기 처리모듈(103) 또는 훈련모듈(105)이 관련명령을 포함하는 음성신호를 수신한다는 것이다. 그 관련명령은 화상의 색상을 개변, 화상을 회전하는 것 등이다. 각 명령은 하나의 목표화상에 대응한다. 자체적응훈련에 사용되는 입력된 음성신호에 대해 대응되는 목표화상은 이미 알려진 것이며 상기 처리모듈(103) 또는 훈련모듈(105)은 이러한 음성신호를 화상처리모델의 입력데이터로 사용하여 출력 후 예측화상을 획득한다. 상기 처리모듈(103) 또는 훈련모듈(105)은 상기 예측화상 및 그에 대응하는 목표화상의 상관계수를 계산하고 상기 화상처리모델의 파라미터(가중치, 오프셋 등)를 자체적응적으로 업데이트하여 상기 화상처리모델의 성능을 향상시키고 상기 목표화상처리모델을 획득한다.
또한 바람직한 실시예에서 상기 화상처리장치(100)의 변환모듈(102)은 변환모듈(102)의 음성명령변환모델에 대해 자체적응훈련을 수행하여 목표음성명령변환모델을 획득할 수 있다. 또한 상기 화상처리장치(100)의 처리모듈(103)은 처리모듈(103)의 화상처리모델에 대해 자체적응훈련을 수행하여 목표화상처리모델을 획득할 수 있다.
또한 바람직한 일 실시예에서 상기 화상처리장치(100)는 변환모듈(102)의 음성명령변환모델과 처리모듈(103)의 화상처리모델에 대해 자체적응훈련을 수행하여 목표음성명령변환모델과 목표화상처리모델을 획득하기 위한 훈련모듈(105)을 더 포함한다.
상기 훈련모듈(105)은 상기 음성명령변환모델이나 상기 화상처리모델의 구조 및 파라미터를 모니터링되거나 모니터링되지 않는 방법으로 조정하여 음성명령변환모델이나 화상처리모델의 성능을 향상시켜 최종적으로 목표음성명령변환모델이나 목표화상처리모델을 얻을 수 있다.
본 실시예에서 화상처리장치(100)는 모듈화로 구현된다. 본 명세서에서 "모듈"은 전용집적회로(application-specific integrated circuit,ASIC), 하나 이상의 소프트웨어 또는 펌웨어 프로그램을 수행할 수 있는 프로세서 및 메모리, 집적논리회로 및/또는 기타 상기 기능을 제공할 수 있는 장치일 수도 있다. 또한 상술한 수신모듈(101), 변환모듈(102), 처리모듈(103), 기억모듈(104) 및 훈련모듈(105)은 도 5, 도 6, 도 7에 도시된 인공신경망칩을 통해 구현될 수 있다.
바람직하게, 상기 화상처리장치(100)의 변환모듈(102) 또는 처리모듈(103)의 처리수단(1032)은 인공신경망칩이다. 즉 상기 변환모듈(102)과 상기 처리모듈(103)의 처리수단(1032)은 도 5와 도 6에 도시된 바와 같이 각각 독립적인 두 개의 인공신경망칩이다.
이 장치에서 변환모듈(102)과 처리모듈(103)은 직열 또는 소프트 플로우로 실행될 수 있다. 즉 처리모듈(103)이 이전 화상을 처리할 때 변환모듈(102)이 다음 화상을 처리할 수 있다. 따라서 하드웨어의 처리량을 높이고 화상처리효률을 높일 수 있다.
도 5를 참조하면 도 5는 인공신경망칩의 구조프레임모식도이다. 도 5에 도시된 바와 같이 당해 칩에는 제어수단(510), 기억수단(520), 입출력수단(530)이 포함된다.
또한 상기 제어수단(510)에는 다음과 같은 구성요소가 포함된다. 그 중 명령버퍼 스토리지수단(511)은 신경망연산명령과 범용연산명령이 포함된 실행해야 할 명령을 기억하기 위한 것이다.
일 실시예에서 명령버퍼 스토리지수단(511)은 다시 배열하는 캐시일 수 있다.
명령처리수단(512)은 명령버퍼 스토리지수단에서 신경망연산명령 또는 범용연산명령을 획득하고 이 명령을 처리하여 상기 신경망연산수단(519)에 제공하기 위한 것이다. 상기 명령처리수단(512)은 명령버퍼 스토리지수단에서 명령을 획득하기 위한 명령획득모듈(513), 획득한 명령을 디코드하기 위한 디코드모듈(514), 및 디코드된 명령을 순차적으로 기억하기 위한 명령대기열모듈(515)을 포함한다.
스칼라 저장모듈(516)은 상기 명령과 대응되는 명령코드와 피연산자를 기억하기 위한 것이다. 여기에는 신경망연산명령에 대응되는 신경망연산 명령코드와 피연산자 및 범용연산명령에 대응되는 범용연산명령코드와 피연산자가 포함된다.
의존관계처리모듈(517)은 상기 명령처리수단(512)에서 전송되는 명령 및 그에 대응하는 명령코드와 피연산자를 판단하기 위한 것이며, 이 명령이 이전 명령과 동일한 데이터에 액세스하는지 판단한다. 동일한 데이터에 액세스할 경우 당해 명령을 기억대기열수단(518)에 기억하고 이전 명령이 완료된 후 기억대기열수단의 당해 명령을 상기 신경망연산수단에 제공한다. 동일한 데이터에 액세스하지 않으면 당해 명령을 직접 상기 신경망연산수단(519)에 제공한다.
기억대기열수단(518)은 명령이 기억수단에 액세스할 때 동일한 기억공간에 액세스하는 두 개의 연속적인 명령을 기억한다.
구체적으로 상기 두 개의 연속적인 명령의 실행결과 정확성을 확보하기 위해 현재 명령이 이전 명령의 데이터와 의존관계가 존재함을 검출하면 당해 두 개의 연속적인 명령은 의존관계가 해제될 때까지 상기 기억대기열수단(518)에서 기다려야 한다. 그렇지 않으면 당해 두개의 연속적인 명령을 상기 신경망연산수단에 제공할 수 없다.
신경망연산수단(519)은 명령처리수단 또는 기억대기열수단에서 전송된 명령을 처리하는 데 사용된다.
기억수단(520)에는 뉴런버퍼 스토리지수단(521)과 가중치버퍼 스토리지수단(522)이 포함되며 신경망데이터모델은 상기 뉴런버퍼 스토리지수단(521)과 가중치버퍼 스토리지수단(522)에 기억된다.
입출력수단(530)은 음성신호를 입력하고 화상처리명령을 출력하는 데 사용된다.
일 실시예에서 기억수단(520)은 스크래치 패드 메모리일 수 있고, 입출력수단(530)은 IO 직접 메모리 액세스모듈일 수 있다.
구체적으로 상기 칩(500), 즉 상기 처리모듈(102)이 음성신호를 화상처리명령으로 변환하는 단계는 구체적으로 다음과 같은 단계를 포함한다.
단계(501)에서 명령획득모듈(513)은 명령버퍼 스토리지수단(511)에서 음성식별에 사용되는 연산명령을 취출하고, 연산명령을 디코드모듈(514)로 전송한다.
단계(502)에서 디코드모듈(514)는 연산명령을 디코드하고 디코드된 명령을 명령대기열수단(515)에 전송한다.
단계(503)에서 스칼라 저장모듈(516)에서 상기 명령에 대응하는 신경망연산 명령코드 및 신경망연산 피연산자를 획득한다.
단계(504)에서 명령은 의존관계처리모듈(517)로 보내지고, 의존관계처리모듈(517)은 명령에 대응하는 명령코드와 피연산자를 판단하며 명령과 이전 실행이 완료되지 않은 명령이 데이터에서 의존관계가 존재하는지 여부를 판단한다. 존재하지 않으면 상기 명령을 직접 신경망연산수단(519)으로 전송한다. 존재하는 경우 명령은 이전 실행이 완료되지 않은 명령과 데이터에서 더 이상 의존관계가 존재하지 않을 때까지 기억대기열수단(518)에서 기다려야 한다. 그 후에 상기 명령을 신경망연산수단(519)으로 전송한다.
단계(505)에서 신경망연산수단(519)은 명령에 대응하는 명령코드와 피연산자에 따라 필요한 데이터의 어드레스와 크기를 확정하고 기억수단(520)에서 음성명령변환모델 데이터 등을 포함한 필요한 데이터를 취출한다.
단계(506)에서 신경망연산수단(519)은 상기 명령에 대응하는 신경망연산을 수행하여 해당 처리를 완료하고 화상처리명령을 획득하며 화상처리명령을 기억수단(520)에 다시 기록한다.
도 6을 참조하면, 도 6은 다른 인공신경망칩의 구조프레임모식도이다. 도 6에 도시된 바와 같이, 당해 칩에는 제어수단(610), 기억수단(620), 입출력수단(630)이 포함된다.
또한 상기 제어수단(610)에는 다음과 같은 구성요소가 포함된다. 그 중 명령버퍼 스토리지수단(611)은 신경망연산명령과 범용연산명령이 포함된 실행해야 할 명령을 기억하기 위한 것이다.
일 실시예에서 명령버퍼 스토리지수단(611)은 다시 배열하는 캐시일 수 있다.
명령처리수단(612)은 명령버퍼 스토리지수단에서 신경망연산명령 또는 범용연산명령을 획득하고 이 명령을 처리하여 상기 신경망연산수단(619)에 제공하기 위한 것이다. 상기 명령처리수단(612)은 명령버퍼 스토리지수단에서 명령을 획득하기 위한 명령획득모듈(613), 획득한 명령을 디코드하기 위한 디코드모듈(614), 및 디코드된 명령을 순차적으로 기억하기 위한 명령대기열모듈(615)을 포함한다.
스칼라 저장모듈(616)은 상기 명령과 대응되는 명령코드와 피연산자를 기억하기 위한 것이다. 여기에는 신경망연산명령에 대응되는 신경망연산명령코드와 피연산자 및 범용연산명령에 대응되는 범용연산명령코드와 피연산자가 포함된다.
의존성관계처리모듈(617)은 상기 명령처리수단(612)에서 전송되는 명령 및 그에 대응하는 명령코드와 피연산자를 판단하기 위한 것이며, 이 명령이 이전 명령과 동일한 데이터에 액세스하는지 판단한다. 동일한 데이터에 액세스할 경우 당해 명령을 기억대기열수단(618)에 기억하고 이전 명령이 완료된 후 기억대기열수단의 당해 명령을 상기 신경망연산수단에 제공한다. 동일한 데이터에 액세스하지 않으면 당해 명령을 직접 상기 신경망연산수단(619)에 제공한다.
기억대기열수단(618)은 명령이 기억수단에 액세스할 때 동일한 기억공간에 액세스하는 두 개의 연속적인 명령을 기억한다.
구체적으로 상기 두 개의 연속적인 명령의 실행결과 정확성을 확보하기 위해 현재 명령이 이전 명령의 데이터와 의존관계가 존재함을 검출하면 당해 두 개의 연속적인 명령은 의존관계가 해제될 때까지 상기 기억대기열수단(618)에서 기다려야 한다. 그렇지 않으면 당해 두개의 연속적인 명령을 상기 신경망연산수단에 제공할 수 없다.
신경망연산수단(619)은 명령처리수단 또는 기억대기열수단에서 전송된 명령을 처리하는 데 사용된다.
기억수단(620)에는 뉴런버퍼 스토리지수단(621)과 가중치버퍼 스토리지수단(622)이 포함되며 신경망데이터모델은 상기 뉴런버퍼 스토리지수단(621)과 가중치버퍼 스토리지수단(622)에 기억된다.
입출력수단(630)은 화상처리명령 및 처리대상화상을 입력하고 처리된 화상을 출력하는 데 사용된다.
일 실시예에서 기억수단(620)은 스크래치 패드 메모리일 수 있고, 입출력수단(630)은 IO 직접 메모리 액세스모듈일 수 있다.
상기 칩, 즉 상기 처리모듈(103)의 처리수단(1032)이 진행하는 화상처리에는 구체적으로 다음과 같은 단계가 포함된다.
상기 칩, 즉 상기 처리모듈(103)의 처리수단(1032)이 진행하는 화상처리에는 구체적으로 다음과 같은 단계가 포함된다.
단계(601)에서 명령획득모듈(613)은 명령버퍼 기억수단(611)에서 변환모듈이 생성한 화상처리 명령을 취출하며 연산명령을 디코드모듈(614)로 전송한다.
단계(602)에서 디코드모듈(614)은 연산명령을 디코드하며 디코드된 명령을 명령대기열수단(815)으로 전송한다.
단계(603)에서 스칼라 저장모듈(616)에서 상기 명령에 대응하는 신경망연산 명령코드 및 신경망연산 피연산자를 획득한다.
단계(604)에서 명령은 의존관계처리모듈(617)로 보내지고, 의존관계처리모듈(617)은 명령에 대응하는 명령코드와 피연산자를 판단하며 명령과 이전 실행이 완료되지 않은 명령이 데이터에서 의존관계가 존재하는지 여부를 판단한다. 존재하지 않으면 상기 명령을 직접 신경망연산수단(619)으로 전송한다. 존재하는 경우 명령은 이전 실행이 완료되지 않은 명령과 데이터에서 더 이상 의존관계가 존재하지 않을 때까지 기억대기열수단(618)에서 기다려야 한다. 그 후에 상기 명령에 대응하는 마이크로 명령을 신경망연산수단(619)에 전송한다.
단계(605)에서 신경망연산수단(619)은 상기 명령에 대응하는 명령코드와 피연산자에 따라 필요한 데이터의 어드레스와 크기를 확정하고 기억수단(620)에서 처리대상화상, 화상처리모델 등을 포함하는 필요한 데이터를 취출한다.
단계(606)에서 신경망연산수단(619)은 상기 명령에 대응하는 신경망연산을 수행하여 해당 처리를 완료하고, 처리결과를 기억수단(620)에 다시 기록한다.
설명할 필요가 있는 것은, 상기 변환모듈(102)과 상기 처리모듈(103)의 처리수단(1032)은 모두 인공신경망칩 또는 범용처리칩일 수 있다. 또는 상기 변환모듈(102)과 상기 처리모듈(103)의 처리수단(1032) 중 어느 하나가 인공신경망칩이고 다른 하나가 범용처리칩일 수 있다.
바람직하게, 상기 화상처리장치는 데터처리장치, 로보트, 컴퓨터, 태블릿 컴퓨터, 지능단말기, 휴대폰, 클라우드 서버, 카메라, 비데오 카메라, 프로젝터, 손목시계, 이어폰, 휴대용 메모리 또는 웨어러블 설비일 수 있다.
이상으로부터 본 발명 실시예의 기술수단에서 수신모듈이 음성신호와 처리대상화상을 수신하여 획득하고, 변환모듈이 목표음성명령변환모델에 따라 상기 음성신호를 화상처리명령과 상기 처리대상화상의 처리영역으로 변환하며, 처리모듈이 상기 화상처리명령 및 목표화상처리모델에 따라 상기 처리대상화상의 처리영역을 처리하는 것을 이해할 수 있다. 종래의 화상처리기술과 비교해 볼 때 본 발명은 음성을 통해 화상처리를 수행함으로써 사용자가 화상처리를 수행하기 전에 화상처리 소프트웨어를 배우는 시간을 절약하고 사용자 경험을 제고한다.
제2 방면으로서 본 발명 실시예는, 음성신호와 처리대상화상을 수신하기 위한 수신모듈과, 목표음성명령변환모델에 따라 상기 음성신호를 화상처리명령 및 상기 처리대상화상의 처리영역인 목표영역으로 변환하기 위한 변환모듈과, 상기 화상처리명령 및 목표화상처리모델에 따라 상기 목표영역을 처리하기 위한 처리모듈을 포함하는 화상처리장치를 제공한다.
그 중, 상기 변환모듈은, 구체적으로 음성식별기술을 통해 상기 음성신호를 텍스트정보로 변환하며, 자연언어처리기술과 상기 목표음성명령변환모델을 통해 상기 텍스트정보를 상기 화상처리명령으로 변환하고, 상기 화상처리명령 중 어의(語義)영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 얻기 위한 것이다.
그 중, 상기 변환모듈은, 또한 구체적으로 음성식별기술, 어의이해기술 및 상기 목표음성명령변환모델을 통해 상기 음성신호를 상기 화상처리명령으로 변환하며, 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 얻기 위한 것이다.
그 중, 상기 화상처리장치는 상기 텍스트정보 또는 상기 화상처리명령 또는 상기 목표영역을 기억하기 위한 기억모듈을 더 포함한다.
또한, 상기 처리모듈은, 구체적으로 미리 설정된 시간창에서 상기 기억모듈에서 M(M은 1보다 큰 정수) 개의 화상처리명령을 얻고, 상기 M개의 화상처리명령 및 상기 목표화상처리모델을 기반으로 상기 목표영역을 처리하기 위한 것이다.
또한, 상기 처리모듈은, 구체적으로 상기 M개의 화상처리명령에서 동일한 기능을 가진 화상처리명령을 삭제하여 N개의 화상처리명령을 얻고, 상기 N개의 화상처리명령 및 상기 목표화상처리모델을 기반으로 상기 목표영역을 처리하기 위한 것이다.
또한, 상기 변환모듈은 음성명령변환모델에 대해 자체적응훈련을 수행하여 상기 목표음성명령변환모델을 얻기 위한 것이다.
또한, 상기 음성명령변환모델에 대한 상기 변환모듈의 자체적응훈련은 오프라인 또는 온라인하여 수행한다.
또한, 상기 음성명령변환모델에 대한 상기 변환모듈의 자체적응훈련은 모니터링하거나 모니터링하지 않는다.
또한, 상기 변환모듈은 상기 음성명령변환모델을 기반으로 상기 음성신호를 예측명령으로 변환하고, 상기 예측명령 및 그에 대응한 명령세트의 상관계수를 확정하며, 상기 예측명령 및 그에 대응한 명령세트의 상관계수에 따라 상기 음성명령변환모델을 최적화하여 상기 목표음성명령변환모델을 획득하기 위해 이용되기도 한다.
또한, 상기 화상처리장치는 상기 음성명령변환모델을 기반으로 상기 음성신호를 예측명령으로 변환하고 상기 예측명령 및 그에 대응한 명령세트의 상관계수를 확정하며 상기 예측명령 및 그에 대응한 명령세트의 상관계수에 따라 상기 음성명령변환모델을 최적화하여 상기 목표음성명령변환모델을 획득하기 위한 훈련모듈을 더 포함한다.
또한, 상기 처리모듈은 화상처리모델에 대해 자체적응훈련을 수행하여 상기 목표화상처리모델을 얻기 위한 것이다.
또한, 상기 화상처리모델에 대한 상기 처리모듈의 자체적응훈련은 오프라인 또는 온라인하여 수행한다.
또한, 상기 화상처리모델에 대한 상기 처리모듈의 자체적응훈련은 모니터링하거나 모니터링하지 않는다.
또한, 상기 처리모듈은 상기 처리대상화상에 대한 상기 화상처리모델의 처리에 따라 예측화상을 얻고, 상기 예측화상 및 그에 대응한 목표화상의 상관계수를 확정하며, 상기 예측화상 및 그에 대응한 목표화상의 상관계수에 따라 상기 화상처리모델을 최적화하여 상기 목표화상처리모델을 얻기 위한 것이기도 하다.
또한, 상기 훈련모듈은 상기 처리대상화상에 대한 상기 화상처리모델의 처리에 따라 예측화상을 얻고, 상기 예측화상 및 그에 대응한 목표화상의 상관계수를 확정하며, 상기 예측화상 및 그에 대응한 목표화상의 상관계수에 따라 상기 화상처리모델을 최적화하여 상기 목표화상처리모델을 얻기 위한 것이기도 하다.
또한 상기 화상처리장치의 실현과정은 도 1에 도시된 실시예의 구체적인 실현과정을 참조할 수 있으며 여기에서 더 자세히 설명하지 않는다.
제3 방면으로서, 본 발명 실시예는 화상처리방법을 제공하고 있다. 도 7에 도시된 바와 같이, 이 방법에는 다음과 같은 단계를 포함한다.
단계(S701)에서 화상처리장치가 음성신호와 처리대상화상을 수신한다.
단계(S702)에서 상기 화상처리장치가 목표음성명령변환모델에 따라 상기 음성신호를 화상처리명령 및 상기 처리대상화상의 처리영역인 목표영역으로 변환한다.
또한 바람직한 실시예에서 상기 목표음성명령변환모델에 따라 상기 음성신호를 화상처리명령 및 목표영역으로 변환하는 단계는, 음성식별기술을 통해 상기 음성신호를 텍스트정보로 변환하는 단계, 자연언어처리기술과 상기 목표음성명령변환모델을 통해 상기 텍스트정보를 상기 화상처리명령으로 변환하는 단계, 및 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 목표음성명령변환모델에 따라 상기 음성신호를 화상처리명령 및 목표영역으로 변환하는 단계는, 음성식별기술, 어의이해기술 및 상기 음성명령변환모델을 통해 상기 음성신호를 상기 화상처리명령으로 변환하는 단계, 및 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 방법은 상기 텍스트정보 또는 상기 화상처리명령 또는 상기 목표영역을 기억하는 단계를 더 포함한다.
단계(S703)에서 상기 화상처리장치가 상기 화상처리명령 및 목표화상처리모델에 따라 상기 목표영역을 처리한다.
또한 바람직한 실시예에서 상기 화상처리명령 및 목표화상처리모델에 따라 상기 목표영역을 처리하는 단계는, 미리 설정된 시간창에서 상기 메모리에서 M(M은 1보다 큰 정수) 개의 화상처리명령을 획득하는 단계, 및 상기 M개의 화상처리명령 및 상기 목표화상처리모델을 기반으로 상기 목표영역을 처리하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 M 개의 화상처리명령 및 상기 목표화상처리모델을 기반으로 상기 목표영역을 처리하는 단계는, 상기 M개의 화상처리명령에서 동일한 기능을 가진 화상처리명령을 삭제하여 N(N은 상기 M보다 작은 정수) 개의 화상처리명령을 획득하는 단계, 및 상기 N개의 화상처리명령 및 상기 목표화상처리모델을 기반으로 상기 목표영역을 처리하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 음성신호와 처리대상화상을 수신하는 단계 전에 상기 방법은 음성명령변환모델에 대해 자체적응훈련을 수행하여 상기 목표음성명령변환모델을 획득하는 단계를 더 포함한다.
또한 바람직한 일 실시예에서 상기 음성명령변환모델에 대한 자체적응훈련은 오프라인 또는 온라인하여 수행한다.
또한 바람직한 실시예에서 상기 음성명령변환모델에 대한 자체적응훈련은 모니터링하거나 모니터링하지 않는다.
바람직한 일 실시예에서 상기 음성명령변환모델에 대해 자체적응훈련을 수행하여 상기 목표음성명령변환모델을 획득하는 단계는, 상기 음성명령변환모델을 기반으로 상기 음성신호를 예측명령으로 변환하는 단계, 상기 예측명령 및 그에 대응한 명령세트의 상관계수를 확정하는 단계, 및 상기 예측명령 및 그에 대응한 명령세트의 상관계수에 따라 상기 음성명령변환모델을 최적화하여 상기 목표음성명령변환모델을 획득하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 음성신호와 처리대상화상을 수신하는 단계 전에 상기 방법은 화상처리모델에 대해 자체적응훈련을 수행하여 상기 목표화상처리모델을 획득하는 단계를 더 포함한다.
또한 바람직한 실시예에서 상기 화상처리모델에 대한 자체적응훈련은 오프라인 또는 온라인하여 수행한다.
또한 바람직한 실시예에서 상기 화상처리모델에 대한 자체적응훈련은 모니터링하거나 모니터링하지 않는다.
또한 바람직한 일 실시예에서 상기 화상처리모델에 대해 자체적응훈련을 수행하여을 상기 목표화상처리모델을 획득하는 단계는, 상기 화상처리모델에 따라 상기 처리대상화상을 처리하여 예측화상을 획득하는 단계, 상기 예측화상 및 그에 대응한 목표화상의 상관계수를 확정하는 단계, 및 상기 예측화상 및 그에 대응한 목표화상의 상관계수에 따라 상기 화상처리모델을 최적화하여 상기 목표화상처리모델을 획득하는 단계를 포함한다.
또한 도 7에 도시된 방법의 각 단계의 구체적인 실현과정은 상기 화상처리장치의 구체적인 실현과정을 참조할수 있으며 여기에서 더 설명을 가하지 않는다.
본 발명 실시예는 컴퓨터기억매체도 제공하는 바, 당해 컴퓨터기억매체에는 프로그람을 기억할 수 있다. 이 프로그램에는 실행 시 상기 방법 실시예에 기재된 상기 임의의 화상처리방법의 일부 또는 모든 단계가 포함한다.
도 8을 참조하면, 도 8은 본 발명 실시예에서 제공한 화상처리장치의 구조모식도이다. 도 8에 도시된 바와 같이, 화상처리장치(800)에는 다음과 같은 구성요소가 포함된다.
음성수집장치(801)는 사용자가 입력한 음성신호를 수집하기 위한 것이다.
바람직하게, 상기 화상처리장치(800)에는 소음여파기도 포함된다. 상기 음성수집장치(801)가 상기 음성신호를 수집한 후 상기 소음여파기는 당해 음성신호에 대해 소음감소처리를 진행한다.
바람직하게, 당해 음성수집장치는 음성센서, 마이크, 습음기 또는 기타 오디오수집장치일 수 있다.
구체적으로 상기 음성신호를 수신할 때 상기 음성수집장치(801)는 환경음성신호도 수신한다. 상기 소음여파기는 상기 환경음성신호에 따라 상기 음성신호에 대한 소음감소처리를 수행한다. 당해 환경음성신호는 상기 음성신호에 있어서 소음이다.
또한 상기 음성수집장치(801)에는 상기 음성신호와 상기 환경음성신호를 수집할 수 있을 뿐만 아니라 소음저하처리도 실현할 수 있는 쌍 마이크 어레이를 포함할 수 있다.
바람직하게, 가능한 실시예에서 상기 화상처리장치는 제1 메모리를 포함한다. 상기 음성수집장치가 상기 음성신호를 수집하면 상기 화상처리장치는 상기 음성신호를 제1 메모리에 기억한다.
명령변환장치(802)는 목표음성명령변환모델을 기반으로 상기 음성신호를 화상처리명령 및 처리대상화상의 처리영역인 목표영역으로 변환하기 위한 것이다.
바람직하게, 상기 명령변환장치(802)는 음성식별기술, 자연언어처리기술 및 화상식별기술을 기반으로 상기 음성신호를 화상처리명령과 목표영역으로 변환하기 전에 상기 제1 메모리에서 상기 음성신호를 획득한다.
또한 상기 명령변환장치(802)는, 음성식별기술을 통해 상기 음성신호를 텍스트정보로 변환하기 위한 제1 음성식별장치(8021), 자연언어처리기술과 상기 목표음성명령변환모델에 근거하여 상기 텍스트정보를 상기 화상처리명령으로 변환하기 위한 음성텍스트변환장치(8022), 및 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하기 위한 제1 화상식별장치(8023)를 포함한다.
또한 상기 명령변환장치(802)에는 상기 화상처리명령 중 어의영역의 입도를 획득하기 위한 획득모듈(8026)을 더 포함한다.
예를 들어 상기 어의영역을 설명하면, 상기 화상처리장치(800)가 음성신호에 따라 상기 목표영역이 얼굴영역임을 확정한 경우 상기 어의영역이 상기 처리대상화상의 얼굴영역이며, 상기 화상처리장치는 얼굴을 입도로 하여 상기 처리대상화상 중 복수의 얼굴영역을 획득한다. 상기 목표영역이 배경인 경우 상기 화상처리장치는 상기 처리대상화상을 배경영역과 비배경영역으로 분할하며 상기 목표영역이 적색영역인 경우 상기 화상처리장치는 색상에 따라 상기 처리대상화상을 서로 다른 색상의 영역으로 분할한다.
구체적으로 본 발명이 사용하는 음성인식기술은 인공신경망(Artificial Neural Network, AN), 은닉 마르코프 모델(Hidden Markov Model, HMM) 등 모델을 포함하지만 이에 국한되지 않는다. 상기 제1 음성식별수단은 상기 음성식별기술에 근거하여 상기 음성신호를 처리할 수 있다. 상기 자연언어처리기술은 통계기계학습, ANN 등 방법을 포함하지만 이에 국한되지 않는다. 상기 어의이해수단은 상기 자연언어처리기술에 근거하여 어의정보를 추출할 수 있다. 상기 화상식별기술에는 에지검출에 의한 방법, 임계값분할방법, 영역성장 및 분수(分水嶺) 알고리즘, 계조적분투영곡선분석, 템플릿 정합, 변형 가능한 템플릿, Hough 변환, 스네이크 연산자, Gabor 소파변환에 의한 탄성화상정합기술 및 활성모양모델과 활성외관모델 등 방법과 같은 알고리즘을 포함하지만 이에 국한되지 않는다. 상기 화상식별수단은 상기 화상식별기술을 기반으로 상기 처리대상화상을 서로 다른 영역으로 나눌 수 있다.
바람직한 일 실시예에서 상기 제1음성식별장치(8021)는 상기 음성식별기술을 통해 상기 음성신호를 텍스트정보로 변환하고 당해 텍스트정보를 상기 제1 메모리에 저장한다. 상기 음성텍스트변환장치(8022)는 상기 제1 메모리에서 상기 텍스트정보를 획득하고, 자연언어처리기술과 상기 목표음성명령변환모델을 통해 당해 텍스트정보를 화상처리명령으로 변환하며, 상기 화상처리명령을 상기 제1 메모리에 저장한다. 상기 제1 화상식별장치(8023)은 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하며 상기 구분결과 및 상기 목표영역을 상기 제2 메모리에 기억한다.
또한 바람직한 실시예에서 상기 명령변환장치(802)는, 음성식별기술, 자연언어처리기술 및 상기 목표음성명령변환모델을 기반으로 상기 음성신호를 직접 상기 화상처리명령으로 변환시키고 이 화상처리명령을 제1메모리에 저장하기 위한 제2 음성식별장치(8025), 및 상기 화상처리명령에서 상기 처리대상화상을 조작하는 어의영역의 입도를 기반으로 당해 어의영역의 입도에 따라 당해 처리대상화상을 구분하여 상기 처리대상화상을 처리한 영역인 목표영역을 획득하며 구분 후의 결과 및 상기 목표영역을 제2 메모리에 기억하는 제2 화상식별장치(8026)을 포함할 수도 있다.
바람직하게 상기 음성수집장치(801)가 상기 음성신호와 상기 처이대상화상을 수신하기 전에 상기 명령변환장치(802)는 음성명령변환모델에 대해 자체적응훈련을 수행하여 상기 목표음성명령변환모델을 획득한다.
또한 상기 음성명령변환모델에 대한 자체적응훈련은 오프라인 또는 온라인하여 수행한다.
구체적으로 상기 음성명령변환모델에 대한 자체적응훈련이 오프라인 상태에서 진행되는 것은 구체적으로 상기 명령변환장치(802)가 그 하드웨어에 기초하여 상기 음성명령변환모델에 대해 자체적응훈련을 수행하여 목표음성명령변환모델을 획득한다는 것이다. 상기 음성명령변환모델에 대한 자체적응훈련이 온라인하여 수행된다는 것은 구체적으로 상기 명령변환장치(802)의 클라우드 서버가 상기 음성명령변환모델에 대해 자체적응훈련을 수행하여 목표음성명령변환모델을 획득하는 것과 다르다. 상기 명령변환장치(802)가 상기 목표음성명령변환모델을 사용해야 하는 경우 당해 명령변환장치(802)는 상기 클라우드 서버에서 당해 목표음성명령변환모델을 획득한다.
바람직하게 상기 음성명령변환모델에 대한 자체적응훈련은 모니터링하거나 모니터링하지 않는다.
구체적으로 말하면, 상기 음성명령변환모델에 대한 자체적응훈련을 모니터링한다는 것은 구체적으로 상기 명령변환장치(802)가 상기 음성명령변환모델에 근거하여 상기 음성신호를 예측명령으로 변환한 후에 상기 예측명령 및 그에 대응한 명령세트의 상관계수를 확정하며 이 명령세트가 수동으로 음성신호에 근거하여 얻은 명령세트이고 상기 명령변환장치(802)가 상기 예측명령 및 그에 대응한 명령세트의 상관계수에 따라 상기 음성명령변환모델을 최적화하여 상기 목표음성명령변환모델을 획득한다는 것이다.
또한 바람직한 실시예에서 상기 화상처리장치(800)는, 상기 음성명령변환모델을 기반으로 상기 음성신호를 예측명령으로 변환하고 상기 예측명령 및 그에 대응한 명령세트의 상관계수를 확정하며 상기 예측명령 및 그에 대응한 명령세트의 상관계수에 따라 상기 음성명령변환모델을 최적화하여 상기 목표음성명령변환모델을 획득하기 위한 훈련장치(805)를 더 포함한다.
예를 들어 상기 음성명령변환모델에 대한 자체적응훈련을 모니터링한다는 것은 구체적으로 상기 명령변환장치(802) 또는 훈련장치(805)가 관련명령을 포함하는 음성신호를 수신한다는 것이다. 그 관련명령은 화상의 색상을 개변, 화상을 회전하는 것 등이다. 각 명령은 하나의 명령세트에 대응한다. 자체적응훈련에 사용되는 입력된 음성신호에 대해 대응되는 명령세트는 이미 알려진 것이며 상기 명령변환장치(802) 또는 훈련장치(805)는 이러한 음성신호를 음성명령변환모델의 입력데이터로 사용하여 출력 후 예측명령을 획득한다. 상기 명령변환장치(802) 또는 훈련장치(805)는 상기 예측명령 및 그에 대응하는 명령세트의 상관계수를 계산하고 상기 음성명령변환모델의 파라미터(가중치, 오프셋 등)를 자체적응적으로 업데이트하여 상기 음성명령변환모델의 성능을 향상시키고 상기 목표음성명령변환모델을 획득한다.
상기 화상처리장치(800)는 상기 텍스트정보 또는 상기 화상처리명령 또는 상기 목표영역을 기억하기 위한 메모리(804)를 더 포함한다.
또한 바람직한 실시예에서 상기 메모리(804)는 상기 제1 기억모듈 및 제2 기억모듈과 동일한 기억모듈일 수도 있고 서로 다른 기억모듈일 수도 있다.
화상프로세서(803)는 상기 화상처리명령 및 목표화상처리모델을 기반으로 상기 처리대상화상을 처리하기 위한 것이다.
또한 상기 화상프로세서(803)는 미리 설정된 시간창에서 상기 기억모듈에서 M(M은 1보다 큰 정수) 개의 화상처리명령을 얻기 위한 명령획득모듈(8031), 및 상기 M개의 화상처리명령 및 상기 목표화상처리모델을 기반으로 상기 목표영역을 처리하기 위한 처리모듈(8032)을 포함한다.
바람직하게 상기 처리모듈(8032)은 상기 M개의 화상처리명령에서 동일한 기능을 가진 화상처리명령을 삭제하여 N(N은 상기 M보다 작은 정수) 개의 화상처리명령을 얻고, 상기 N개의 화상처리명령 및 상기 목표화상처리모델을 기반으로 상기 목표영역을 처리하기 위한 것이다.
구체적으로 상기 미리 설정된 시간창은 미리 설정된 시간 길이로 이해할 수 있다. 미리 설정된 시간 동안에 상기 획득수단(8031)은 상기 기억모듈(804)에서 M개의 화상처리명령을 획득한 후 상기 처리모듈(8032)은 상기 M개의 화상처리명령을 2개씩 비교하여 당해 M개의 화상처리명령에서 동일한 기능을 가진 명령을 삭제하여 N개의 화상처리명령을 획득한다. 상기 처리모듈(8032)은 상기 N개의 처리명령 및 상기 목표화상처리모델을 기반으로 상기 처리대상화상을 처리한다.
예를 들어 상기 처리모듈(8032)은 상기 M개의 화상처리명령을 2개씩 비교한다. 화상처리명령 A와 화상처리명령 B가 동일한 경우, 상기 처리모듈(8032)은 상기 화상처리명령 A와 B 중 오버헤드가 최대인 하나를 삭제하고, 화상처리명령 A와 화상처리명령 B가 다른 경우, 상기 처리모듈(8032)은 상기 화상처리명령 A와 상기 화상처리명령 B의 유사도 계수를 획득한다. 유사도 계수가 유사도 임계값보다 클 때 상기 화상처리명령 A와 상기 화상처리명령 B의 기능이 동일함을 확정하며 상기 처리모듈(8032)은 상기 화상처리명령 A와 B 중 오버헤드가 최대인 하나를 삭제한다. 상기 유사도 계수가 상기 유사도 임계값보다 작을 때 상기 처리모듈(8032)은 상기 화상처리명령 A와 B의 기능이 서로 다르다는 것을 확정한다. 당해 화상처리명령 A와 B는 상기 M개의 처리명령 중 임의의 두 개이다.
구체적으로 상기 화상프로세서(803)에 대해 그 입력과 출력은 모두 화상이다. 상기 화상프로세서(803)은 ANN 또는 기존의 컴퓨터시각방법에 국한되지 않는 방법으로 상기 처리대상화상을 처리할 수 있다. 여기에는 몸체미용(예하면 다리미용, 유방확대), 얼굴변경, 얼굴미화, 대상변경(고양이와 개의 교환, 얼룩말을 말로 변경, 사과와 오렌지의 교환 등), 배경변경(뒤의 삼림을 밭으로 치환), 은폐물 제거(예를 들면 한쪽 눈이 얼굴에 가리운 경우 눈을 다시 구축), 스타일 변환(1초에 반 고흐 화풍으로 변경), 위치자세변환(예를 들어 서있는 자세를 앉은 자세로 변경, 얼굴의 정면을 측면으로 변경), 유화 이외의 것을 유화로 변경, 화상배경의 색상을 변경, 및 화상 중 물체가 있는 계정배경을 변경하는 것 등이 포함된다.
바람직하게 상기 음성수집장치(801)가 상기 음성신호를 수신하기 전에 상기 화상프로세서(803)가 화상처리모델에 대해 자체적응훈련을 수행하여 상기 목표화상처리모델을 획득한다.
또한 상기 화상처리모델에 대한 자체적응훈련은 오프라인 또는 온라인하여 수행한다.
구체적으로 상기 화상처리모델에 대한 자체적응훈련이 오프라인 상태에서 수행한다는 것은 구체적으로 상기 화상프로세서(8103)가 그 하드웨어에 기초하여 상기 화상처리모델에 대해 자체적응훈련을 수행하여 목표음성명령변환모델을 획득한다는 것이다. 상기 화상처리모델에 대한 자체적응훈련이 온라인하여 수행된다는 것은 구체적으로 상기 화상프로세서(803)의 클라우드 서버가 상기 화상처리모델에 대해 자체적응훈련을 수행하여 목표화상처리모델을 획득하는 것과 다르다. 상기 화상프로세서(803)가 상기 목표화상처리모델을 사용해야 하는 경우 당해 화상프로세서(803)는 상기 클라우드 서버에서 당해 목표화상처리모델을 획득한다.
바람직하게 상기 화상처리모델에 대한 자체적응훈련은 모니터링하거나 모니터링하지 않는다.
구체적으로 말하면, 상기 화상처리모델에 대한 자체적응훈련을 모니터링한다는 것은 구체적으로 상기 화상프로세서(803)가 상기 화상처리모델에 근거하여 상기 음성신호를 예측명령으로 변환한 후에 상기 예측명령 및 그에 대응한 목표화상의 상관계수를 확정하며 이 목표화상은 수동으로 음성신호에 근거하여 처리대상화상을 처리하여 얻은 화상이고 상기 화상프로세서(803)가 상기 예측명령 및 그에 대응한 목표화상의 상관계수에 따라 상기 화상처리모델을 최적화하여 상기 목표화상처리모델을 획득한다는 것이다.
또한 바람직한 실시예에서는 상기 화상처리장치(800)는, 상기 음성명령변환모델을 기반으로 상기 음성신호를 예측명령으로 변환하고 상기 예측명령 및 그에 대응한 명령세트의 상관계수를 확정하며 상기 예측명령 및 그에 대응한 명령세트의 상관계수에 따라 상기 음성명령변환모델을 최적화하여 상기 목표음성명령변환모델을 획득하기 위한 훈련장치(805)를 더 포함한다.
예를 들어 상기 화상처리모델에 대한 자체적응훈련을 모니터링한다는 것은 구체적으로 상기 화상프로세서(803) 또는 훈련장치(805)가 관련명령을 포함하는 음성신호를 수신한다는 것이다. 그 관련명령은 화상의 색상을 개변, 화상을 회전하는 것 등이다. 각 명령은 하나의 목표화상에 대응한다. 자체적응훈련에 사용되는 입력된 음성신호에 대해 대응되는 목표화상은 이미 알려진 것이며 상기 화상프로세서(803) 또는 훈련장치(805)는 이러한 음성신호를 화상처리모델의 입력데이터로 사용하여 출력 후 예측화상을 획득한다. 상기 화상프로세서(803) 또는 훈련장치(805)는 상기 예측화상 및 그에 대응하는 목표화상의 상관계수를 계산하고 상기 화상처리모델의 파라미터(가중치, 오프셋 등)를 자체적응적으로 업데이트하여 상기 화상처리모델의 성능을 향상시키고 상기 목표화상처리모델을 획득한다.
또한 바람직한 실시예에서 상기 화상처리장치(800)의 명령변환장치(802)는 명령변환장치(802)의 음성명령변환모델에 대해 자체적응훈련을 수행하여 목표음성명령변환모델을 획득할 수 있다. 또한 상기 화상처리장치(800)의 화상프로세서(803)는 화상프로세서(803)의 화상처리모델에 대해 자체적응훈련을 수행하여 목표화상처리모델을 획득할 수 있다.
또한 바람직한 일 실시예에서 상기 화상처리장치(800)는 명령변환장치(802)의 음성명령변환모델과 화상프로세서(803)의 화상처리모델에 대해 자체적응훈련을 수행하여 목표음성명령변환모델과 목표화상처리모델을 획득하기 위한 훈련장치(805)을 더 포함한다.
상기 훈련장치(805)는 상기 음성명령변환모델이나 상기 화상처리모델의 구조 및 파라미터를 모니터링되거나 모니터링되지 않는 방법으로 조정하여 음성명령변환모델이나 화상처리모델의 성능을 향상시켜 최종적으로 목표음성명령변환모델이나 목표화상처리모델을 얻을 수 있다.
본 실시예에서 화상처리장치(800)는 모듈화로 구현된다. 본 명세서에서 "모듈"은 전용집적회로(application-specific integrated circuit,ASIC), 하나 이상의 소프트웨어 또는 펌웨어 프로그램을 수행할 수 있는 프로세서 및 메모리, 집적논리회로 및/또는 기타 상기 기능을 제공할 수 있는 장치일 수도 있다. 또한 상술한 음성수집장치(801), 명령변환장치(802), 화상프로세서(803), 기억모듈(804) 및 훈련장치(805)는 도 5, 도 6, 도 12, 도 8에 도시된 인공신경망칩을 통해 실현될 수 있다.
바람직하게, 상기 화상처리장치(800)의 명령변환장치(802) 또는 화상프로세서(803)의 처리모듈(8032)은 인공신경망칩이다. 즉 상기 명령변환장치(802)와 상기 화상프로세서(803)의 처리모듈(8032) 은 도 5와 도 6에 도시된 바와 같이 각각 독립적인 두 개의 인공신경망칩이다.
이 장치에서 명령변환장치(802)와 화상프로세서(803)는 직열 또는 소프트 플로우로 실행될 수 있다. 즉 화상프로세서(803)가 이전 화상을 처리할 때 명령변환장치(802)가 다음 화상을 처리할 수 있다. 따라서 하드웨어의 처리량을 높이고 화상처리효률을 높일 수 있다.
도 5를 참조하면, 도 5는 인공신경망칩의 구조프레임모식도이다. 도 5에 도시된 바와 같이 당해 칩에는 제어수단(510), 기억수단(520), 입출력수단(530)이 포함된다.
또한 상기 제어수단(510)에는 다음과 같은 구성요소가 포함된다. 그 중 명령버퍼 스토리지수단(511)은 신경망연산명령과 범용연산명령이 포함된 실행해야 할 명령을 기억하기 위한 것이다.
일 실시예에서 명령버퍼 스토리지수단(511)은 다시 배열하는 캐시일 수 있다.
명령처리모듈(512)은 명령버퍼 스토리지수단에서 신경망연산명령 또는 범용연산명령을 획득하고 이 명령을 처리하여 상기 신경망연산수단(519)에 제공하기 위한 것이다. 상기 명령처리모듈(512)은 명령버퍼 스토리지수단에서 명령을 획득하기 위한 명령획득모듈(513), 획득한 명령을 디코드하기 위한 디코드모듈(514), 및 디코드된 명령을 순차적으로 기억하기 위한 명령대기열모듈(515)을 포함한다.
스칼라 저장모듈(516)은 상기 명령과 대응되는 명령코드와 피연산자를 기억하기 위한 것이다. 여기에는 신경망연산명령에 대응되는 신경망연산 명령코드와 피연산자 및 범용연산명령에 대응되는 범용연산명령코드와 피연산자가 포함된다.
의존관계처리모듈(517)은 상기 명령처리모듈(512)에서 전송되는 명령 및 그에 대응하는 명령코드와 피연산자를 판단하기 위한 것이며, 이 명령이 이전 명령과 동일한 데이터에 액세스하는지 판단한다. 동일한 데이터에 액세스할 경우 당해 명령을 기억대기열수단(518)에 기억하고 이전 명령이 완료된 후 기억대기열수단의 당해 명령을 상기 신경망연산수단(519)에 제공한다. 동일한 데이터에 액세스하지 않으면 당해 명령을 직접 상기 신경망연산수단(519)에 제공한다.
기억대기열수단(518)은 명령이 기억수단에 액세스할 때 동일한 기억공간에 액세스하는 두 개의 연속적인 명령을 기억한다.
구체적으로 상기 두 개의 연속적인 명령의 실행결과 정확성을 확보하기 위해 현재 명령이 이전 명령의 데이터와 의존관계가 존재함을 검출하면 당해 두 개의 연속적인 명령은 의존관계가 해제될 때까지 상기 기억대기열수단(518)에서 기다려야 한다. 그렇지 않으면 당해 두개의 연속적인 명령을 상기 신경망연산수단에 제공할 수 없다.
신경망연산수단(519)은 명령처리모듈 또는 기억대기열수단에서 전송된 명령을 처리하는 데 사용된다.
기억수단(520)에는 뉴런버퍼 스토리지수단(521)과 가중치버퍼 스토리지수단(522)이 포함되며 신경망데이터모델은 상기 뉴런버퍼 스토리지수단(521)과 가중치버퍼 스토리지수단(522)에 기억된다.
입출력수단(530)은 음성신호를 입력하고 화상처리명령을 출력하는 데 사용된다.
일 실시예에서 기억수단(520)은 스크래치 패드 메모리일 수 있고, 입출력수단(530)은 IO 직접 메모리 액세스모듈일 수 있다.
구체적으로 상기 칩(500), 즉 상기 명령변환장치(102)가 음성신호를 화상처리명령으로 변환하는 단계는 구체적으로 다음과 같은 단계를 포함한다.
단계(501)에서 명령획득모듈(513)은 명령버퍼 스토리지수단(511)에서 음성식별에 사용되는 연산명령을 취출하고, 연산명령을 디코드모듈(514)로 전송한다.
단계(502)에서 디코드모듈(514)는 연산명령을 디코드하고 디코드된 명령을 명령대기열수단(515)에 전송한다.
단계(503)에서 스칼라 저장모듈(516)에서 상기 명령에 대응하는 신경망연산 명령코드 및 신경망연산 피연산자를 획득한다.
단계(504)에서 명령은 의존관계처리모듈(517)로 보내지고, 의존관계처리모듈(517)은 명령에 대응하는 명령코드와 피연산자를 판단하며 명령과 이전 실행이 완료되지 않은 명령이 데이터에서 의존관계가 존재하는지 여부를 판단한다. 존재하지 않으면 상기 명령을 직접 신경망연산수단(519)으로 전송한다. 존재하는 경우 명령은 이전 실행이 완료되지 않은 명령과 데이터에서 더 이상 의존관계가 존재하지 않을 때까지 기억대기열수단(518)에서 기다려야 한다. 그 후에 상기 명령을 신경망연산수단(519)으로 전송한다.
단계(505)에서 신경망연산수단(519)은 명령에 대응하는 명령코드와 피연산자에 따라 필요한 데이터의 어드레스와 크기를 확정하고 기억수단(520)에서 음성명령변환모델 데이터 등을 포함한 필요한 데이터를 취출한다.
단계(506)에서 신경망연산수단(519)은 상기 명령에 대응하는 신경망연산을 수행하여 해당 처리를 완료하고 화상처리명령을 획득하며 화상처리명령을 기억수단(520)에 다시 기록한다.
또한 상기 기억수단(520)은 도 5에 도시된 칩의 칩 위 버퍼 스토리지수단이다.
도 6을 참조하면, 도 6은 다른 인공신경망칩의 구조프레임모식도이다. 도 6에 도시된 바와 같이, 당해 칩에는 제어수단(610), 기억수단(620), 입출력수단(630)이 포함된다.
또한 상기 제어수단(610)에는 다음과 같은 구성요소가 포함된다. 그 중 명령버퍼 스토리지수단(611) 은 신경망연산명령과 범용연산명령이 포함된 실행해야 할 명령을 기억하기 위한 것이다.
일 실시예에서 명령버퍼 스토리지수단(611)은 다시 배열하는 캐시일 수 있다.
명령처리수단(612)은 명령버퍼 스토리지수단에서 신경망연산명령 또는 범용연산명령을 획득하고 이 명령을 처리하여 상기 신경망연산수단(619)에 제공하기 위한 것이다. 상기 명령처리수단(612)은 명령버퍼 스토리지수단에서 명령을 획득하기 위한 명령획득모듈(613), 획득한 명령을 디코드하기 위한 디코드모듈(614), 및 디코드된 명령을 순차적으로 기억하기 위한 명령대기열모듈(615)을 포함한다.
스칼라 저장모듈(616)은 상기 명령과 대응되는 명령코드와 피연산자를 기억하기 위한 것이다. 여기에는 신경망연산명령에 대응되는 신경망연산명령코드와 피연산자 및 범용연산명령에 대응되는 범용연산명령코드와 피연산자가 포함된다.
의존성관계처리모듈(617)은 상기 명령처리수단(612)에서 전송되는 명령 및 그에 대응하는 명령코드와 피연산자를 판단하기 위한 것이며, 이 명령이 이전 명령과 동일한 데이터에 액세스하는지 판단한다. 동일한 데이터에 액세스할 경우 당해 명령을 기억대기열수단(618)에 기억하고 이전 명령이 완료된 후 기억대기열수단의 당해 명령을 상기 신경망연산수단에 제공한다. 동일한 데이터에 액세스하지 않으면 당해 명령을 직접 상기 신경망연산수단(619)에 제공한다.
기억대기열수단(618)은 명령이 기억수단에 액세스할 때 동일한 기억공간에 액세스하는 두 개의 연속적인 명령을 기억한다.
구체적으로 상기 두 개의 연속적인 명령의 실행결과 정확성을 확보하기 위해 현재 명령이 이전 명령의 데이터와 의존관계가 존재함을 검출하면 당해 두 개의 연속적인 명령은 의존관계가 해제될 때까지 상기 기억대기열수단(618)에서 기다려야 한다. 그렇지 않으면 당해 두개의 연속적인 명령을 상기 신경망연산수단에 제공할 수 없다.
신경망연산수단(619)은 명령처리모듈 또는 기억대기열수단에서 전송된 명령을 처리하는 데 사용된다.
기억수단(620)에는 뉴런버퍼 스토리지수단(621)과 가중치버퍼 스토리지수단(622)이 포함되며 신경망데이터모델은 상기 뉴런버퍼 스토리지수단(621)과 가중치버퍼 스토리지수단(622)에 기억된다.
입출력수단(630)은 화상처리명령 및 처리대상화상을 입력하고 처리된 화상을 출력하는 데 사용된다.
일 실시예에서 기억수단(620)은 스크래치 패드 메모리일 수 있고, 입출력수단(630)은 IO 직접 메모리 액세스모듈일 수 있다.
상기 칩, 즉 상기 화상프로세서(103)의 처리모듈(1032)이 진행하는 화상처리에는 구체적으로 다음과 같은 단계가 포함된다.
단계(601)에서 명령획득모듈(613)은 명령버퍼 기억수단(611)에서 변환모듈이 생성한 화상처리 명령을 취출하며 연산명령을 디코드모듈(614)로 전송한다.
단계(602)에서 디코드모듈(614)은 연산명령을 디코드하며 디코드된 명령을 명령대기열수단(815)으로 전송한다.
단계(603)에서 스칼라 저장모듈(616)에서 상기 명령에 대응하는 신경망연산 명령코드 및 신경망연산 피연산자를 획득한다.
단계(604)에서 명령은 의존관계처리모듈(617)로 보내지고, 의존관계처리모듈(617)은 명령에 대응하는 명령코드와 피연산자를 판단하며 명령과 이전 실행이 완료되지 않은 명령이 데이터에서 의존관계가 존재하는지 여부를 판단한다. 존재하지 않으면 상기 명령을 직접 신경망연산수단(619)으로 전송한다. 존재하는 경우 명령은 이전 실행이 완료되지 않은 명령과 데이터에서 더 이상 의존관계가 존재하지 않을 때까지 기억대기열수단(618)에서 기다려야 한다. 그 후에 상기 명령에 대응하는 마이크로 명령을 신경망연산수단(619)에 전송한다.
단계(605)에서 신경망연산수단(619)은 상기 명령에 대응하는 명령코드와 피연산자에 따라 필요한 데이터의 어드레스와 크기를 확정하고 기억수단(620)에서 처리대상화상, 화상처리모델 등을 포함하는 필요한 데이터를 취출한다.
단계(606)에서 신경망연산수단(619)은 상기 명령에 대응하는 신경망연산을 수행하여 해당 처리를 완료하고, 처리결과를 기억수단(620)에 다시 기록한다.
또한 상기 기억수단(520)은 도 6에 도시된 칩의 칩 위 버퍼 스토리지수단이다.
설명할 필요가 있는 것은, 상기 명령변환장치(102)와 상기 화상프로세서(103)의 처리모듈(1032)은 모두 인공신경망칩 또는 범용처리칩일 수 있다. 또는 상기 명령변환장치(102)와 상기 화상프로세서(103)의 처리모듈(1032) 중 어느 하나가 인공신경망칩이고 다른 하나가 범용처리칩일 수 있다.
바람직하게, 상기 화상처리장치는 데터처리장치, 로보트, 컴퓨터, 태블릿 컴퓨터, 지능단말기, 휴대폰, 클라우드 서버, 카메라, 비데오 카메라, 프로젝터, 손목시계, 이어폰, 휴대용 메모리 또는 웨어러블 설비일 수 있다.
이상으로부터 본 발명 실시예의 기술수단에서 음성수집장치는 사용자가 입력한 음성신호를 획득하고, 명령변환장치는 목표음성명령변환모델에 따라 상기 음성신호를 화상처리명령 및 상기 처리대상화상에 대한 처리대상영역으로 변환하며, 화상프로세서는 상기 화상처리명령 및 목표화상처리모델에 따라 상기 처리대상화상의 처리영역을 처리하는 것을 이해할 수 있다. 종래의 화상처리기술과 비교해 볼 때 본 발명은 음성을 통해 화상처리를 수행함으로써 사용자가 화상처리를 수행하기 전에 화상처리 소프트웨어를 배우는 시간을 절약하고 사용자 경험을 제고한다.
또한 바람직한 실시예에서 화상처리칩에는 상기 도 8에 도시된 화상처리장치가 포함된다.
또한 상기 칩에는 주요칩과 협력칩이 포함되며, 상기 협력칩은 본 발명 실시예의 제1방면에 따른 상기 장치를 구비하고, 상기 주요칩은 상기 협력칩에 시동신호를 제공하여 처리대상화상과 화상처리명령을 상기 협력칩에 전송하도록 제어하기 위한 것이다.
또한 상기 협력칩은 상기 도 5와 도 6에 도시된 칩을 포함한다.
바람직하게, 상기 화상처리칩은 카메라, 휴대폰, 컴퓨터, 노트북, 태블릿 또는 기타 화상처리장치에 적용할 수 있다.
또한 바람직한 실시예에서 본 발명 실시예는 상기 화상처리칩을 포함한 칩패키지구조를 제공한다.
또한 바람직한 실시예에서 본 발명 실시예는 상기 칩패키지구조를 포함한 인쇄회로판을 제공한다.
또한 바람직한 실시예에서 본 발명 실시예는 상기 인쇄회로판을 포함한 전자기기를 제공한다.
가능한 일 실시예에서 본 발명 실시예는 다른 전자기기를 제공하는 바, 당해 전자기기에는 상기 인쇄회로판, 대화식인터페이스, 제어수단과 음성수집장치가 포함된다.
도 8에 도시된 바와 같이 음성수집장치는 음성를 수신하고 음성과 처리대상화상을 입력데이터로 인쇄회로판 내부 칩에 전송하는 데 사용된다.
바람직하게, 상기 화상처리칩은 인공신경망처리칩일 수 있다.
바람직하게, 음성수집장치는 마이크나 멀티어레이 마이크일 수 있다.
또한 인쇄회로판 내부 칩에는 도 5 및 도 6에 도시된 실시예가 포함되어 있어 대응하는 출력데이터(즉 처리된 화상)를 획득하고 대화식인터페이스에 전송한다.
또한 대화식인터페이스는 상기 칩(인공신경망프로세서로 볼 수 있음)의 출력데이터를 수신하고 적절한 형식의 피드백정보로 변환하여 사용자에게 보여준다.
그 중, 제어수단은 사용자의 조작 또는 명령을 수신하고 전체 화상처리장치의 작업을 제어한다.
바람직하게, 상기 전자기기는 데터처리장치, 로보트, 컴퓨터, 태블릿 컴퓨터, 지능단말기, 휴대폰, 클라우드 서버, 카메라, 비데오 카메라, 프로젝터, 손목시계, 이어폰, 휴대용 메모리 또는 웨어러블 설비일 수 있다.
도 13을 참조하면, 도 13은 본 발명 실시예에서 제공한 화상처리방법의 흐름모식도이다. 도 13에 도시된 바와 같이 당해 방법에는 다음과 같은 단계가 포함된다.
단계(S1301)에서 화상처리장치는 사용자가 입력한 음성신호를 수집한다.
단계(S1302)에서 상기 화상처리장치는 목표음성명령변환모델에 따라 상기 음성신호를 화상처리명령 및 처리대상화상의 처리영역인 목표영역으로 변환한다.
또한 바람직한 실시예에서 상기 목표음성명령변환모델에 따라 상기 음성신호를 화상처리명령 및 목표영역으로 변환하는 단계는, 음성식별기술을 통해 상기 음성신호를 텍스트정보로 변환하는 단계, 자연언어처리기술과 상기 목표음성명령변환모델에 따라 상기 텍스트정보를 상기 화상처리명령으로 변환하는 단계, 및 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 목표음성명령변환모델에 따라 상기 음성신호를 화상처리명령 및 목표영역으로 변환하는 단계는, 음성식별기술, 어의이해기술 및 상기 음성명령변환모델에 근거하여 상기 음성신호를 상기 화상처리명령으로 변환하는 단계, 및 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 방법은 상기 텍스트정보 또는 상기 화상처리명령 또는 상기 목표영역을 기억하는 단계를 더 포함한다.
단계(S1303)에서 상기 화상처리장치는 상기 화상처리명령과 목표화상처리모델에 따라 상기 목표영역을 처리한다.
또한 바람직한 실시예에서 상기 화상처리명령 및 목표화상처리모델에 따라 상기 목표영역을 처리하는 단계는, 미리 설정된 시간창에서 상기 기억모듈에서 M(M은 1보다 큰 정수) 개의 화상처리명령을 획득하는 단계, 및 상기 M개의 화상처리명령 및 상기 목표화상처리모델을 기반으로 상기 목표영역을 처리하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 M 개의 화상처리명령 및 상기 목표화상처리모델을 기반으로 상기 목표영역을 처리하는 단계는, 상기 M개의 화상처리명령에서 동일한 기능을 가진 화상처리명령을 삭제하여 N(N은 상기 M보다 작은 정수) 개의 화상처리명령을 획득하는 단계, 및 상기 N개의 화상처리명령 및 상기 목표화상처리모델을 기반으로 상기 목표영역을 처리하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 음성신호와 처리대상화상을 수신하는 단계 전에 상기 방법은 음성명령변환모델에 대해 자체적응훈련을 수행하여 목표음성명령변환모델을 획득하는 단계를 더 포함한다.
또한 바람직한 일 실시예에서 상기 음성명령변환모델에 대한 자체적응훈련은 오프라인 또는 온라인하여 수행한다.
또한 바람직한 실시예에서 상기 음성명령변환모델에 대한 자체적응훈련은 모니터링하거나 모니터링하지 않는다.
바람직한 일 실시예에서 상기 음성명령변환모델에 대해 자체적응훈련을 수행하여 상기 목표음성명령변환모델을 획득하는 단계는, 상기 음성명령변환모델을 기반으로 상기 음성신호를 예측명령으로 변환하는 단계, 상기 예측명령 및 그에 대응한 명령세트의 상관계수를 확정하는 단계, 및 상기 예측명령 및 그에 대응한 명령세트의 상관계수에 따라 상기 음성명령변환모델을 최적화하여 상기 목표음성명령변환모델을 획득하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 음성신호와 처리대상화상을 수신하는 단계 전에 상기 방법은 화상처리모델에 대해 자체적응훈련을 수행하여 목표화상처리모델을 획득하는 단계를 더 포함한다.
또한 바람직한 실시예에서 상기 화상처리모델에 대한 자체적응훈련은 오프라인 또는 온라인하여 수행한다.
또한 바람직한 실시예에서 상기 화상처리모델에 대한 자체적응훈련은 모니터링하거나 모니터링하지 않는다.
또한 바람직한 일 실시예에서 상기 화상처리모델에 대해 자체적응훈련을 수행하여을 상기 목표화상처리모델을 획득하는 단계는, 상기 화상처리모델에 따라 상기 처리대상화상을 처리하여 예측화상을 획득하는 단계, 상기 예측화상 및 그에 대응한 목표화상의 상관계수를 확정하는 단계, 및 상기 예측화상 및 그에 대응한 목표화상의 상관계수에 따라 상기 화상처리모델을 최적화하여 상기 목표화상처리모델을 획득하는 단계를 포함한다.
또한 도 13에 도시된 방법의 각 단계의 구체적 실현과정은 상기 화상처리장치의 구체적 실현과정을 참조할 수 있으며, 여기에서는 상세한 설명을 하지 않는다.
도 14를 참조하면, 도 14는 본 발명 실시예에서 제공한 화상처리장치의 구조모식도이다. 도 14에 도시된 바와 같이 당해 화상처리장치에는 다음과 같은 구성요소가 포함된다.
입출력수단(130)은 음성신호와 처리대상화상을 입력하기 위한 것이다.
바람직하게, 상기 화상처리장치에는 소음여파기도 포함되며 상기 입출력수단(130)이 상기 음성신호를 획득한 후 상기 소음여파기는 당해 음성신호에 대해 소음감소처리를 진행한다.
바람직하게, 상기 입출력수단(130)은 음성센서, 마이크, 습음기 또는 기타 오디오수집장치일 수 있다.
구체적으로 상기 음성신호를 획득할 때 상기 입출력수단(130)은 환경음성신호도 획득한다. 상기 소음여파기는 상기 환경음성신호에 따라 상기 음성신호에 대한 소음감소처리를 수행한다. 당해 환경음성신호는 상기 음성신호에 있어서 소음이다.
또한 상기 입출력수단(130) 에는 상기 음성신호와 상기 환경음성신호를 수집할 수 있을 뿐만 아니라 소음저하처리도 실현할 수 있는 쌍 마이크 어레이를 포함할 수 있다.
기억수단(120)은 상기 음성신호와 상기 처리대상화상을 기억하는 데 사용된다.
화상처리수단(110)은 상기 음성신호를 화상처리명령 및 처리대상화상의 처리영역인 목표영역으로 변환하고, 상기 화상처리명령에 따라 상기 목표영역을 처리하여 처리된 화상을 얻으며 상기 처리대상화상을 상기 기억수단에 기억하는 데 사용된다.
바람직하게, 상기 기억수단(120)은 뉴런기억수단(121)과 가중치버퍼 스토리지수단(122)을 포함하며, 상기 화상처리수단(110)의 신경망연산수단(113)은 신경망연산서브수단(1131)을 포함한다.
상기 뉴런기억수단(121)이 상기 음성신호와 상기 처리대상화상을 기억하는 데 사용되고, 상기 가중치버퍼 스토리지수단(122)이 목표음성명령변환모델 및 목표화상처리모델을 기억하는 데 사용될 때, 상기 신경망연산서브수단(1131)은 상기 목표음성명령변환모델을 기반으로 상기 음성신호를 상기 화상처리명령 및 상기 목표영역으로 변환하는 데 사용된다.
그리고 상기 신경망연산서브수단(1131)은 또 상기 목표화상처리모델과 상기 화상처리명령에 따라 상기 목표영역을 처리하여 처리된 화상을 획득하기 위한 것이다.
또한 상기 신경망연산서브수단(1131)은 또 상기 처리된 화상을 상기 뉴런기억수단에 기억하기 위한 것이기도 하다.
또한 상기 신경망연산서브수단(1131)은 구체적으로 음성식별기술에 근거하여 상기 음성신호를 텍스트정보로 변환하고, 자연언어처리기술과 상기 목표음성명령변환모델에 근거하여 상기 텍스트정보를 상기 화상처리명령으로 변환하며, 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하기 위한 것이다.
또한 상기 신경망연산서브수단(1131)은 구체적으로 음성식별기술, 어의이해기술 및 상기 목표음성명령변환모델에 근거하여 상기 음성신호를 상기 화상처리명령으로 변환하고, 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하기 위한 것이다.
또한 상기 뉴런기억수단(121)은 상기 목표영역과 상기 화상처리명령을 기억하는 데 사용된다.
구체적으로 말하면 상기 신경망연산서브수단(1131)은 미리 설정된 시간창에서 상기 뉴런기억수단에서 M(M은 1보다 큰 정수) 개의 화상처리명령을 획득하고, 상기 M개의 화상처리명령에서 동일한 기능을 가진 화상처리명령을 삭제하여 N(N은 상기 M보다 작은 정수) 개의 화상처리명령을 획득하며, 처리된 화상을 획득하기 위해 상기 N개의 화상처리명령 및 상기 목표화상처리모델을 기반으로 상기 목표영역을 처리하는 데 사용된다.
구체적으로 말하면 상기 기억수단(120)의 뉴런기억수단(121)이 상기 음성신호와 상기 처리대상화상을 기억하고, 상기 가중치버퍼 스토리지수단(122)이 상기 목표음성명령변환모델을 기억할 때, 상기 신경망연산서브수단(1131)은 음성식별기술에 근거하여 상기 음성신호를 텍스트정보로 변환하고, 자연언어처리기술과 상기 목표음성명령변환모델에 근거하여 상기 텍스트정보를 상기 화상처리명령으로 변환하며, 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득한다.
혹은상기 신경망연산서브수단(1131)은 음성식별기술, 어의이해기술 및 상기 목표음성명령변환모델에 근거하여 상기 음성신호를 상기 화상처리명령으로 변환하고, 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득한다.
또한 상기 신경망연산서브수단(1131)은 상기 화상처리명령과 상기 목표영역을 상기 뉴런기억수단(121)에 기억한다. 상기 신경망연산서브수단(1131)은 상기 가중치버퍼 스토리지수단(122)에서 상기 목표음성명령변환모델을 획득하고, 미리 설정된 시간창에서 상기 뉴런기억수단(121)에서 M개의 화상처리명령 및 목표영역을 획득하고 상기 M개의 화상처리명령에서 동일한 기능을 가진 화상처리명령을 삭제하여 N개의 화상처리명령을 획득한다. 상기 신경망연산서브수단(1131)은 상기 N개의 화상처리명령 및 상기 목표화상처리모델을 기반으로 상기 목표영역을 처리하여 처리된 화상을 획득한다.
바람직하게, 상기 기억수단은 범용데터버퍼 스토리지수단을 포함하고 상기 화상처리수단의 신경망연산수단은 범용연산서브수단을 포함하며, 상기 범용데이터버퍼 스토리지수단이 상기 음성신호와 상기 처리대상화상의 수신에 이용될 때 상기 범용연산서브수단은 상기 음성신호를 상기 화상처리명령 및 상기 목표영역으로 변환하는 데 사용되며, 상기 범용연산서브수단은 상기 화상처리명령에 따라 상기 목표영역을 처리하여 처리된 화상을 획득하는 데도 사용되고, 상기 범용연산서브수단은 상기 처리된 화상을 상기 범용데이터기억수단에 기억하는 데도 사용된다.
또한 상기 범용연산서브수단은 구체적으로 음성식별기술에 근거하여 상기 음성신호를 텍스트정보로 변환하고, 자연언어처리기술에 근거하여 상기 텍스트정보를 상기 화상처리명령으로 변환하며, 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 회득하기 위한 것이다.
또한 상기 범용연산서브수단은 구체적으로 음성식별기술과 어의이해기술에 근거하여 상기 음성신호를 상기 화상처리명령으로 변환하고, 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하기 위한 것이다.
또한 상기 범용데이터버퍼 스토리지수단은 상기 목표영역 및 상기 화상처리명령을 기억하는 데 사용된다.
구체적으로 말하면 상기 범용연산서브수단은 미리 설정된 시간창에서 상기 범용데이터버퍼 스토리지수단에서 M(M은 1보다 큰 정수) 개의 화상처리명령을 획득하고, 상기 M개의 화상처리명령에서 동일한 기능을 가진 화상처리명령을 삭제하여 N(N은 상기 M보다 작은 정수) 개의 화상처리명령을 획득하며, 처리된 화상을 획득하기 위해 상기 N개의 화상처리명령에 따라 상기 목표영역을 처리하는 데 사용된다.
구체적으로 상기 기억수단(120)의 범용데이터버퍼 스토리지수단(123)이 상기 음성신호와 상기 처리대상화상을 기억할 때 상기 범용연산서브수단(1132)은 음성식별기술을 기반으로 상기 음성신호를 텍스트정보로 변환하고, 자연언어처리기술을 기반으로 상기 텍스트정보를 화상처리명령으로 변환하며, 상기 화상처리명령의 어의영역의 입도와 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득한다.
혹은 상기 범용연산서브수단(1132)은 음성식별기술과 어의이해기술에 근거하여 상기 음성신호를 상기 화상처리명령으로 변환하고, 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득한다.
또한 상기 범용연산서브수단(1132)은 상기 화상처리명령과 상기 목표영역을 상기 범용데이터버퍼 스토리지수단(123)에 기억한다. 상기 범용연산서브수단(1132)은 상기 범용데이터버퍼 스토리지수단으로부터 상기 목표영역을 획득하고, 미리 설정된 시간창에서 상기 범용데이터버퍼 스토리지수단으로부터 M개의 화상처리명령을 획득하며 해당 M개의 화상처리명령에서 동일한 기능을 가진 화상처리명령을 삭제하여 N개의 화상처리명령을 획득하고, 당해 N개의 화상처리명령에 따라 상기 목표영역을 처리하여 처리된 화상을 획득한다.
구체적으로 상기 미리 설정된 시간창은 미리 설정된 시간 길이로 이해할 수 있다. 미리 설정된 시간 동안에 상기 신경망연산서브수단(1131)은 상기 뉴런기억수단(121)에서 M개의 화상처리명령을 회득한다. 혹은 상기 범용연산서브수단(1132)이 상기 범용데이터버퍼 스토리지수단으로부터 M개의 화상처리명령을 획듣한 후 상기 신경망연산서브수단(1131) 또는 상기 범용연산서브수단(1132)은 상기 M개의 화상처리명령을 2개씩 비교하여 당해 M개의 화상처리명령에서 동일한 기능을 가진 명령을 삭제하여 N개의 화상처리명령을 획득한다. 상기 신경망연산서브수단(1131) 또는 상기 범용연산서브수단(1132)은 상기 N개의 처리명령 및 상기 목표화상처리모델을 기반으로 상기 처리대상화상을 처리한다.
예를 들어 상기 신경망연산서브수단(1131) 또는 상기 범용연산서브수단(1132)은 상기 M개의 화상처리명령을 2개씩 비교한다. 화상처리명령 A와 화상처리명령 B가 동일한 경우, 상기 신경망연산서브수단(1131) 또는 상기 범용연산서브수단(1132)은 상기 화상처리명령 A와 B 중 오버헤드가 최대인 하나를 삭제하고, 화상처리명령 A와 화상처리명령 B가 다른 경우, 상기 신경망연산서브수단(1131) 또는 상기 범용연산서브수단(1132)은 상기 화상처리명령 A와 상기 화상처리명령 B의 유사도 계수를 획득한다. 유사도 계수가 유사도 임계값보다 클 때 상기 화상처리명령 A와 상기 화상처리명령 B의 기능이 동일함을 확정하며 상기 신경망연산서브수단(1131) 또는 상기 범용연산서브수단(1132)은 상기 화상처리명령 A와 B 중 오버헤드가 최대인 하나를 삭제한다. 상기 유사도 계수가 상기 유사도 임계값보다 작을 때 상기 신경망연산서브수단(1131) 또는 상기 범용연산서브수단(1132)은 상기 화상처리명령 A와 B의 기능이 서로 다르다는 것을 확정한다. 당해 화상처리명령 A와 B는 상기 M개의 처리명령 중 임의의 두 개이다.
상기 입출력수단(104)은 상기 처리된 화상을 출력하는 데도 사용할 수 있다.
또한 상기 화상처리수단은 상기 음성신호에 따라 상기 처리대상화상을 처리하여, 처리된 화상을 얻은 후 상기 입출력수단을 통해 당해 처리된 화상을 출력한다.
예를 들어 상기 어의영역을 설명하면, 상기 화상처리장치가 음성신호에 따라 상기 목표영역이 얼굴영역임을 확정한 경우 상기 어의영역이 상기 처리대상화상의 얼굴영역이며, 상기 화상처리장치는 얼굴을 입도로 하여 상기 처리대상화상 중 복수의 얼굴영역을 획득한다. 상기 목표영역이 배경인 경우 상기 화상처리장치는 상기 처리대상화상을 배경영역과 비배경영역으로 분할하며 상기 목표영역이 적색영역인 경우 상기 화상처리장치는 색상에 따라 상기 처리대상화상을 서로 다른 색상의 영역으로 분할한다.
구체적으로 본 발명이 사용하는 음성인식기술은 인공신경망(Artificial Neural Network, AN), 은닉 마르코프 모델(Hidden Markov Model, HMM) 등 모델을 포함하지만 이에 국한되지 않는다. 상기 제1 음성식별수단은 상기 음성식별기술에 근거하여 상기 음성신호를 처리할 수 있다. 상기 자연언어처리기술은 통계기계학습, ANN 등 방법을 포함하지만 이에 국한되지 않는다. 상기 어의이해수단은 상기 자연언어처리기술에 근거하여 어의정보를 추출할 수 있다. 상기 화상식별기술에는 에지검출에 의한 방법, 임계값분할방법, 영역성장 및 분수(分水嶺) 알고리즘, 계조적분투영곡선분석, 템플릿 정합, 변형 가능한 템플릿, Hough 변환, 스네이크 연산자, Gabor 소파변환에 의한 탄성화상정합기술 및 활성모양모델과 활성외관모델 등 방법과 같은 알고리즘을 포함하지만 이에 국한되지 않는다. 상기 화상식별수단은 상기 화상식별기술을 기반으로 상기 처리대상화상을 서로 다른 영역으로 나눌 수 있다.
바람직하게, 상기 입출력수단(130)이 상기 음성신호와 상기 처리대상화상을 획득하기 전에 상기 신경망연산서브수단(1131)은 음성명령변환모델에 대해 자체적응훈련을 수행하여 상기 목표음성명령변환모델을 획득한다.
또한 상기 음성명령변환모델에 대한 상기 신경망연산서브수단(1131)의 자체적응훈련은 오프라인 또는 온라인하여 진행한다.
구체적으로 상기 음성명령변환모델에 대한 자체적응훈련이 오프라인 상태에서 진행되는 것은 구체적으로 상기 신경망연산서브수단(1131)이 그 하드웨어에 기초하여 상기 음성명령변환모델에 대해 자체적응훈련을 수행하여 목표음성명령변환모델을 획득한다는 것이다. 상기 음성명령변환모델에 대한 자체적응훈련이 온라인하여 수행된다는 것은 구체적으로 신경망연산서브수단(1131)의 클라우드 서버가 상기 음성명령변환모델에 대해 자체적응훈련을 수행하여 목표음성명령변환모델을 획득하는 것과 다르다. 상기 신경망연산서브수단(1131)이 상기 목표음성명령변환모델을 사용해야 하는 경우 당해 신경망연산서브수단(1131)은 상기 클라우드 서버에서 당해 목표음성명령변환모델을 획득한다.
바람직하게, 음성명령변환모델에 대한 상기 신경망연산서브수단(1131)의 자체적응훈련은 모니터링되거나 모니터링되지 않는다.
구체적으로 말하면, 상기 음성명령변환모델에 대한 자체적응훈련을 모니터링한다는 것은 구체적으로 상기 신경망연산서브수단(1131)이 상기 음성명령변환모델에 근거하여 상기 음성신호를 예측명령으로 변환한 후에 상기 예측명령 및 그에 대응한 명령세트의 상관계수를 확정하며 이 명령세트가 수동으로 음성신호에 근거하여 얻은 명령세트이고 상기 신경망연산서브수단(1131)이 상기 예측명령 및 그에 대응한 명령세트의 상관계수에 따라 상기 음성명령변환모델을 최적화하여 상기 목표음성명령변환모델을 획득한다는 것이다.
예를 들어 상기 음성명령변환모델에 대한 자체적응훈련을 모니터링한다는 것은 구체적으로 상기 신경망연산서브수단(1131)이 관련명령을 포함하는 음성신호를 획득한다는 것이다. 그 관련명령은 화상의 색상을 개변, 화상을 회전하는 것 등이다. 각 명령은 하나의 명령세트에 대응한다. 자체적응훈련에 사용되는 입력된 음성신호에 대해 대응되는 명령세트는 이미 알려진 것이며 상기 신경망연산서브수단(1131)은 이러한 음성신호를 음성명령변환모델의 입력데이터로 사용하여 출력 후 예측명령을 획득한다. 상기 신경망연산서브수단(1131)은 상기 예측명령 및 그에 대응하는 명령세트의 상관계수를 계산하고 상기 음성명령변환모델의 파라미터(가중치, 오프셋 등)를 자체적응적으로 업데이트하여 상기 음성명령변환모델의 성능을 향상시키고 상기 목표음성명령변환모델을 획득한다.
구체적으로 상기 화상처리수단(110)에 대해 그 입력과 출력은 모두 화상이다. 상기 화상(103)은 ANN 또는 기존의 컴퓨터시각방법에 국한되지 않는 방법으로 상기 처리대상화상을 처리할 수 있다. 여기에는 몸체미용(예하면 다리미용, 유방확대), 얼굴변경, 얼굴미화, 대상변경(고양이와 개의 교환, 얼룩말을 말로 변경, 사과와 오렌지의 교환 등), 배경변경(뒤의 삼림을 밭으로 치환), 은폐물 제거(예를 들면 한쪽 눈이 얼굴에 가리운 경우 눈을 다시 구축), 스타일 변환(1초에 반 고흐 화풍으로 변경), 위치자세변환(예를 들어 서있는 자세를 앉은 자세로 변경, 얼굴의 정면을 측면으로 변경), 유화 이외의 것을 유화로 변경, 화상배경의 색상을 변경, 및 화상 중 물체가 있는 계정배경을 변경하는 것 등이 포함된다.
바람직하게 상기 신경망연산서브수단(1131)이 상기 음성신호를 수신하기 전에 당해 신경망연산서브수단(1131)이 화상처리모델에 대해 자체적응훈련을 수행하여 상기 목표화상처리모델을 획득한다.
또한 화상처리모델에 대한 상기 신경망연산서브수단(1131)의 자체적응훈련은 오프라인 또는 온라인하여 수행한다.
구체적으로 상기 화상처리모델에 대한 자체적응훈련이 오프라인 상태에서 수행한다는 것은 구체적으로 상기 신경망연산서브수단(1131)이 그 하드웨어에 기초하여 상기 화상처리모델에 대해 자체적응훈련을 수행하여 목표음성명령변환모델을 획득한다는 것이다. 상기 화상처리모델에 대한 자체적응훈련이 온라인하여 수행된다는 것은 구체적으로 상기 신경망연산서브수단(1131)의 클라우드 서버가 상기 화상처리모델에 대해 자체적응훈련을 수행하여 목표화상처리모델을 획득하는 것과 다르다. 상기 신경망연산서브수단(1131)이 상기 목표화상처리모델을 사용해야 하는 경우 당해 신경망연산서브수단(1131)은 상기 클라우드 서버에서 당해 목표화상처리모델을 획득한다.
바람직하게, 화상처리모델에 대한 상기 신경망연산서브수단(1131)의 자체적응훈련은 모니터링되거나 모니터링되지 않는다.
구체적으로 말하면 상기 화상처리모델에 대한 상기 신경망연산서브수단(1131)의 자체적응훈련을 모니터링한다는 것은 구체적으로 상기 신경망연산서브수단(1131)이 상기 화상처리모델에 근거하여 상기 음성신호를 예측명령으로 변환한 후에 상기 예측명령 및 그에 대응한 목표화상의 상관계수를 확정하며 이 목표화상은 수동으로 음성신호에 근거하여 처리대상화상을 처리하여 얻은 화상이고 상기 신경망연산서브수단(1131)이 상기 예측명령 및 그에 대응한 목표화상의 상관계수에 따라 상기 화상처리모델을 최적화하여 상기 목표화상처리모델을 획득한다는 것이다.
예를 들어 상기 화상처리모델에 대한 자체적응훈련을 모니터링한다는 것은 구체적으로 상기 신경망연산서브수단(1131)이 관련명령을 포함하는 음성신호를 수신한다는 것이다. 그 관련명령은 화상의 색상을 개변, 화상을 회전하는 것 등이다. 각 명령은 하나의 목표화상에 대응한다. 자체적응훈련에 사용되는 입력된 음성신호에 대해 대응되는 목표화상은 이미 알려진 것이며 상기 신경망연산서브수단(1131)은 이러한 음성신호를 화상처리모델의 입력데이터로 사용하여 출력 후 예측화상을 획득한다. 상기 신경망연산서브수단(1131)은 상기 예측화상 및 그에 대응하는 목표화상의 상관계수를 계산하고 상기 화상처리모델의 파라미터(가중치, 오프셋 등)를 자체적응적으로 업데이트하여 상기 화상처리모델의 성능을 향상시키고 상기 목표화상처리모델을 획득한다.
또한 상기 화상처리장치의 화상처리수단(110)은, 신경망연산명령과 범용연산명령이 포함된 실행해야 할 명령을 기억하기 위한 명령버퍼 스토리지수단(111), 및 상기 신경망연산명령을 상기 신경망연산서브수단에 전송하고 상기 범용연산명령을 상기 범용연산서브수단에 전송하기 위한 명령처리수단(112)을 더 포함한다.
그리고 상기 화상처리장치의 화상처리수단(113) 중 신경망연산서브수단(1131)이 화상처리작업을 수행하거나, 상기 화상처리모델과 상기 음성명령변환모델에 대해 자체적응훈련을 수행하는 과정에서, 상기 명령처리수단(112)은 상기 명령버퍼 스토리지수단(111)에서 신경망연산명령을 획득하며 상기 신경망연산서브수단(1131)에 전송하여 당해 신경망연산서브수단(1131)을 구동한다. 상기 범용연산서브수단(1132)이 화상처리작업을 수행하는 동안 상기 명령처리수단(112)은 상기 명령버퍼 스토리지수단(111)에서 범용연산명령을 획득하고 상기 범용연산서브수단(1132)에 전송하여 당해 범용연산서브수단(1132)을 구동한다.
본 실시예에서 상기 화상처리장치는 수단의 형식으로 구현된다. 본 명세서에서 "수단"은 전용집적회로(application-specific integrated circuit,ASIC), 하나 이상의 소프트웨어 또는 펌웨어 프로그램을 수행할 수 있는 프로세서 및 메모리, 집적논리회로 및/또는 기타 상기 기능을 제공할 수 있는 장치일 수도 있다.
이상으로부터 본 발명 실시예의 기술수단에서 입출력수단이 음성신호와 처리대상화상을 입력하고, 기억수단이 상기 음성신호와 상기 처리대상화상을 기억하며, 화상처리수단이 상기 음성신호를 화상처리명령 및 처리대상화상의 처리영역인 목표영역으로 변환하고, 상기 화상처리명령에 따라 상기 목표영역을 처리하여 처리된 화상을 획득하며, 상기 처리대상화상을 상기 기억수단에 기억하고, 상기 입출력수단이 상기 처리된 화상을 출력하는 것을 이해할 수 있다. 종래의 화상처리기술과 비교해 볼 때 본 발명은 음성을 통해 화상처리를 수행함으로써 사용자가 화상처리를 수행하기 전에 화상처리 소프트웨어를 배우는 시간을 절약하고 사용자 경험을 제고한다.
도 15를 참조하면, 도 15는 본 발명 실시예에서 제공한 기타 화상처리장치의 구조프레임모식도이다. 도 15에 도시된 바와 같이 당해 칩에는 화상처리수단(210), 기억수단(220)과 입출력수단(230)이 포함된다.
또한 상기 화상처리수단(210)에는 다음과 같은 구성요소가 포함된다. 그 중 명령버퍼 스토리지수단(211)은 신경망연산명령과 범용연산명령이 포함된 실행해야 할 명령을 기억하기 위한 것이다.
일 실시예에서 상기 명령버퍼 스토리지수단(211)은 다시 배열하는 캐시일 수 있다.
명령처리수단(212)은 명령버퍼 스토리지수단에서 신경망연산명령 또는 범용연산명령을 획득하고 이 명령을 처리하여 상기 신경망연산수단(213)에 제공하기 위한 것이다. 상기 명령처리수단(212)은 명령버퍼 스토리지수단에서 명령을 획득하기 위한 명령획득모듈(214), 획득한 명령을 디코드하기 위한 디코드모듈(215), 및 디코드된 명령을 순차적으로 기억하기 위한 명령대기열모듈(216)을 포함한다.
스칼라 저장모듈(217)은 상기 명령과 대응되는 명령코드와 피연산자를 기억하기 위한 것이다. 여기에는 신경망연산명령에 대응되는 신경망연산 명령코드와 피연산자 및 범용연산명령에 대응되는 범용연산명령코드와 피연산자가 포함된다.
의존관계처리모듈(218)은 상기 명령처리수단(212)에서 전송되는 명령 및 그에 대응하는 명령코드와 피연산자를 판단하기 위한 것이며, 이 명령이 이전 명령과 동일한 데이터에 액세스하는지 판단한다. 동일한 데이터에 액세스할 경우 당해 명령을 기억대기열수단(219)에 기억하고 이전 명령이 완료된 후 기억대기열수단의 당해 명령을 상기 신경망연산수단(213)에 제공한다. 동일한 데이터에 액세스하지 않으면 당해 명령을 직접 상기 신경망연산수단(213)에 제공한다.
기억대기열수단(219)은 명령이 기억수단에 액세스할 때 동일한 기억공간에 액세스하는 두 개의 연속적인 명령을 기억한다.
구체적으로 상기 두 개의 연속적인 명령의 실행결과 정확성을 확보하기 위해 현재 명령이 이전 명령의 데이터와 의존관계가 존재함을 검출하면 당해 두 개의 연속적인 명령은 의존관계가 해제될 때까지 상기 기억대기열수단(219)에서 기다려야 한다. 그렇지 않으면 당해 두개의 연속적인 명령을 상기 신경망연산수단에 제공할 수 없다.
신경망연산수단(213)은 명령처리모듈 또는 기억대기열수단에서 전송된 명령을 처리하는 데 사용된다.
기억수단(220)에는 뉴런버퍼 스토리지수단(521)과 가중치버퍼 스토리지수단(522)이 포함되며 신경망데이터모델은 상기 뉴런버퍼 스토리지수단(221)과 가중치버퍼 스토리지수단(222)에 기억된다.
입출력수단(230)은 음성신호를 입력하고 화상처리명령을 출력하는 데 사용된다.
일 실시예에서 기억수단(220)은 스크래치 패드 메모리일 수 있고, 입출력수단(230)은 IO 직접 메모리 액세스모듈일 수 있다.
구체적으로 상기 화상처리장치의 신경망연산서브수단이 음성신호를 화상처리명령으로 변환하는 단계는 구체적으로 다음과 같은 단계를 포함한다.
단계(A)에서 명령획득모듈(214)은 명령버퍼 스토리지수단(211)에서 음성식별에 사용되는 신경망연산명령을 취출하고, 연산명령을 디코드모듈(215)로 전송한다.
단계(B)에서 디코드모듈(215)은 연산명령을 디코드하고 디코드된 명령을 명령대기열수단(216)으로 전송한다.
단계(C)에서 스칼라 저장모듈(217)에서 상기 명령에 대응하는 신경망연산 명령코드와 신경망연산 피연산자를 획득한다.
단계(D)에서 명령은 의존관계처리모듈(218)로 발송되고, 당해 의존관계처리모듈(218)은 명령에 대응되는 명령코드와 피연산자를 판단하며, 명령과 이전 실행이 완료되지 않은 명령이 데이터에서 의존관계가 존재하는지 여부를 판단한다. 존재하지 않는 경우 상기 명령을 직접 신경망연산수단(213)으로 전송한다. 존재하는 경우 명령은 이전 실행이 완료되지 않은 명령과 데이터에서 더 이상 의존관계가 존재하지 않을 때까지 기억대기열수단(219)에서 기다려야 한다. 그 후에 상기 명령을 신경망연산수단(213)으로 전송한다.
단계(E)에서 신경망연산서브수단(2131) 은 명령에 대응하는 명령코드와 피연산자에 따라 필요한 데이터의 어드레스와 크기를 확정하고 기억수단(220)에서 음성명령변환모델 데이터 등을 포함한 필요한 데이터를 취출한다.
단계(F)에서 신경망연산서브수단(2131)은 상기 명령에 대응하는 신경망연산을 수행하여 해당 처리를 완료하고 화상처리명령을 획득하며 화상처리명령을 기억수단(220)의 뉴런버퍼 스토리지수단(221)에 다시 기록한다.
구체적으로 말하면 상기 화상처리장치의 범용연산서브수단이 음성신호를 화상처리명령으로 변환하는 단계는 구체적으로 다음과 같은 단계를 포함한다.
단계(A')에서 명령획득모듈(214)은 명령버퍼 스토리지수단(211)에서 음성식별에 사용되는 범용연산명령을 취출하고, 연산명령을 디코드모듈(215)로 전송한다.
단계(B′)에서 디코드모듈(215)은 연산명령을 디코드하고 디코드된 명령을 명령대기열수단(216)으로 전송한다.
단계(C′)에서 스칼라 저장모듈(217)에서 상기 명령에 대응하는 범용연산 명령코드와 범용연산 피연산자를 획득한다.
단계(D′) 에서 명령은 의존관계처리모듈(218)로 발송되고, 당해 의존관계처리모듈(218)은 명령에 대응되는 명령코드와 피연산자를 판단하며, 명령과 이전 실행이 완료되지 않은 명령이 데이터에서 의존관계가 존재하는지 여부를 판단한다. 존재하지 않는 경우 상기 명령을 직접 신경망연산수단(213)으로 전송한다. 존재하는 경우 명령은 이전 실행이 완료되지 않은 명령과 데이터에서 더 이상 의존관계가 존재하지 않을 때까지 기억대기열수단(219)에서 기다려야 한다. 그 후에 상기 명령을 신경망연산수단(213)으로 전송한다.
단계(E′)에서 범용연산서브수단(2132) 은 명령에 대응하는 명령코드와 피연산자에 따라 필요한 데이터의 어드레스와 크기를 확정하고 기억수단(220)에서 음성명령변환모델 데이터 등을 포함한 필요한 데이터를 취출한다.
단계(F′)에서 범용연산서브수단(2132)은 상기 명령에 대응하는 범용연산을 수행하여 해당 처리를 완료하고 화상처리명령을 획득하며 화상처리명령을 기억수단(220)의 범용버퍼 스토리지수단(223)에 다시 기록한다.
또한 화상처리과정에서 상기 신경망연산서브수단(213)의 신경망연산서브수단(2131)과 범용연산서브수단(2132), 상기 기억수단(220)의 뉴런기억수단(221), 가중치버퍼 스토리지수단(222) 및 범용데이터버퍼 스토리지수단(223) 및 상기 입출력수단(230)의 구체적인 작업 프로세스는 도 14에 도시된 실시예에 대한 설명을 참조할 수 있다. 따라서 여기에서 더 이상 설명하지 않는다.
또한 상기 기억수단(220)은 도 15에 도시된 화상처리장치의 칩 위 버퍼 스토리지수단이다.
바람직하게, 상기 화상처리장치는 데터처리장치, 로보트, 컴퓨터, 태블릿 컴퓨터, 지능단말기, 휴대폰, 클라우드 서버, 카메라, 비데오 카메라, 프로젝터, 손목시계, 이어폰, 휴대용 메모리 또는 웨어러블 설비일 수 있다.
또한 바람직한 실시예에서 화상처리칩에는 상기 도 14에 도시된 화상처리장치가 포함된다.
또한 상기 칩에는 주요칩과 협력칩이 포함되며, 상기 협력칩은 본 발명 실시예의 제1방면에 따른 상기 장치를 구비하고, 상기 주요칩은 상기 협력칩에 시동신호를 제공하여 처리대상화상과 화상처리명령을 상기 협력칩에 전송하도록 제어하기 위한 것이다.
바람직하게, 상기 화상처리칩은 카메라, 휴대폰, 컴퓨터, 노트북, 태블릿 또는 기타 화상처리장치에 적용할 수 있다.
또한 바람직한 실시예에서 본 발명 실시예는 상기 화상처리칩을 포함한 칩패키지구조를 제공한다.
또한 바람직한 실시예에서 본 발명 실시예는 상기 칩패키지구조를 포함한 인쇄회로판을 제공한다.
또한 바람직한 실시예에서 본 발명 실시예는 상기 인쇄회로판을 포함한 전자기기를 제공한다.
가능한 일 실시예에서 본 발명 실시예는 다른 전자기기를 제공하는 바, 당해 전자기기에는 상기 인쇄회로판, 대화식인터페이스, 제어수단과 음성수집장치가 포함된다.
도 16에 도시된 바와 같이 상기 음성수집장치는 음성를 수신하고 음성과 처리대상화상을 입력데이터로 인쇄회로판 내부 화상처리칩에 전송하는 데 사용된다.
바람직하게, 상기 화상처리칩은 인공신경망처리칩일 수 있다.
바람직하게, 음성수집장치는 마이크나 멀티어레이 마이크일 수 있다.
또한 인쇄회로판 내부 칩에는 도 14 및 도 15에 도시된 실시예가 포함되어 있어 대응하는 출력데이터(즉 처리된 화상)를 획득하고 대화식인터페이스에 전송한다.
또한 대화식인터페이스는 상기 칩(인공신경망프로세서로 볼 수 있음)의 출력데이터를 수신하고 적절한 형식의 피드백정보로 변환하여 사용자에게 보여준다.
또한 화상처리수단은 사용자의 조작 또는 명령을 수신하고 전체 화상처리장치의 작업을 제어한다.
바람직하게, 상기 전자기기는 데터처리장치, 로보트, 컴퓨터, 태블릿 컴퓨터, 지능단말기, 휴대폰, 클라우드 서버, 카메라, 비데오 카메라, 프로젝터, 손목시계, 이어폰, 휴대용 메모리 또는 웨어러블 설비일 수 있다.
도 17을 참조하면, 도 17은 본 발명 실시예에서 제공한 화상처리방법의 흐름모식도이다. 도 17에 도시된 바와 같이 당해 방법에는 다음과 같은 단계가 포함된다.
단계(S1701)에서 화상처리장치는 음성신호와 처리대상화상을 입력한다.
단계(S1702)에서 화상처리장치는 상기 음성신호와 상기 처리대상화상을 기억한다.
단계(S1703)에서 화상처리장치는 상기 음성신호를 화상처리명령 및 처리대상화상의 처리영역인 목표영역으로 변환하고, 상기 화상처리명령에 따라 상기 목표영역을 처리하여 처리된 화상을 획득하며, 상기 처리대상화상을 상기 기억수단에 기억한다.
또한 바람직한 실시예에서 상기 음성신호를 화상처리명령과 목표영역으로 변환하는 단계는, 음성식별기술을 통해 상기 음성신호를 텍스트정보로 변환하는 단계, 자연언어처리기술과 목표음성명령변환모델을 기반으로 상기 텍스트정보를 상기 화상처리명령으로 변환하는 단계, 및 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 목표음성명령변환모델에 따라 상기 음성신호를 화상처리명령 및 목표영역으로 변환하는 단계는, 음성식별기술, 어의이해기술 및 상기 음성명령변환모델을 통해 상기 음성신호를 상기 화상처리명령으로 변환하는 단계, 및 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 음성신호를 화상처리명령과 목표영역으로 변환하는 단계는, 음성식별기술, 어의이해기술 및 목표음성명령변환모델을 기반으로 상기 음성신호를 상기 화상처리명령으로 변환하는 단계, 및 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 음성신호를 화상처리명령과 목표영역으로 변환하는 단계는, 음성식별기술에 근거하여 상기 음성신호를 텍스트정보로 변환하는 단계, 자연언어처리기술을 기반으로 상기 텍스트정보를 상기 화상처리명령으로 변환하는 단계, 및 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 음성신호를 화상처리명령과 목표영역으로 변환하는 단계는, 음성식별기술과 어의이해기술에 근거하여 상기 음성신호를 상기 화상처리명령으로 변환하는 단계, 및 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 음성신호를 화상처리명령과 목표영역으로 변환하는 단계 뒤에, 상기 방법은 상기 화상처리명령 및 상기 목표영역을 기억하는 단계를 더 포함한다.
또한 바람직한 일 실시예에서 상기 화상처리명령에 따라 상기 목표영역을 처리하여 처리된 화상을 획득하는 단계는, 미리 설정된 시간창에서 상기 뉴런기억수단에서 M(M은 1보다 큰 정수) 개의 화상처리명령을 획득하는 단계, 상기 M개의 화상처리명령에서 동일한 기능을 가진 화상처리명령을 삭제하여 N(N은 상기 M보다 작은 정수) 개의 화상처리명령을 획득하는 단계, 및 처리된 화상을 획득하기 위해 상기 N개의 화상처리명령 및 목표화상처리모델을 기반으로 상기 목표영역을 처리하는 단계를 포함한다.
또한 바람직한 일 실시예에서 상기 화상처리명령에 따라 상기 목표영역을 처리하여 처리된 화상을 획득하는 단계는, 미리 설정된 시간창에서 상기 범용데이터버퍼 스토리지수단에서 M(M은 1보다 큰 정수) 개의 화상처리명령을 획득하는 단계, 상기 M개의 화상처리명령에서 동일한 기능을 가진 화상처리명령을 삭제하여 N(N은 상기 M보다 작은 정수) 개의 화상처리명령을 획득하는 단계, 및 처리된 화상을 획득하기 위해 상기 N개의 화상처리명령에 따라 상기 목표영역을 처리하는 단계를 포함한다.
단계(S1704)에서 화상처리장치는 상기 처리된 화상을 출력한다.
또한 바람직한 실시예에서 상기 방법은 음성명령변환모델에 대해 자체적응훈련을 수행하여 상기 목표음성명령변환모델을 획득하는 단계를 더 포함한다.
또한 바람직한 일 실시예에서 상기 음성명령변환모델에 대한 자체적응훈련은 오프라인 또는 온라인하여 진행된다.
또한 바람직한 실시예에서 상기 음성명령변환모델에 대한 자체적응훈련은 모니터링하거나 모니터링하지 않는다.
바람직한 일 실시예에서 상기 음성명령변환모델에 대해 자체적응훈련을 수행하여 상기 목표음성명령변환모델을 획득하는 단계는, 상기 음성명령변환모델을 기반으로 상기 음성신호를 예측명령으로 변환하는 단계, 상기 예측명령 및 그에 대응한 명령세트의 상관계수를 확정하는 단계, 및 상기 예측명령 및 그에 대응한 명령세트의 상관계수에 따라 상기 음성명령변환모델을 최적화하여 상기 목표음성명령변환모델을 획득하는 단계를 포함한다.
또한 바람직한 실시예에서 상기 방법은 화상처리모델에 대해 자체적응훈련을 수행하여 상기 목표화상처리모델을 획득하는 단계를 더 포함한다.
또한 바람직한 실시예에서 상기 화상처리모델에 대한 자체적응훈련은 오프라인 또는 온라인하여 진행된다.
또한 바람직한 실시예에서 상기 화상처리모델에 대한 자체적응훈련은 모니터링하거나 모니터링하지 않는다.
또한 바람직한 일 실시예에서 상기 화상처리모델에 대해 자체적응훈련을 수행하는 단계는, 상기 화상처리모델에 따라 상기 처리대상화상을 처리하여 예측화상을 획득하는 단계, 상기 예측화상 및 그에 대응한 목표화상의 상관계수를 확정하는 단계, 및 상기 예측화상 및 그에 대응한 목표화상의 상관계수에 따라 상기 화상처리모델을 최적화하여 상기 목표화상처리모델을 획득하는 단계를 포함한다.
또한 도 17에 도시된 방법의 각 단계의 구체적 실현과정은 상기 화상처리장치의 구체적 실현과정을 참조할수 있으며 여기에서 더 이상 설명하지 않는다.
또한, 상술한 각 방법 실시예에 대하여 쉽게 설명하기 위해 그들을 일련의 동작의 조합으로 설명하였지만, 당업자라면 본 발명이 설명된 동작순서에 의해 제한되지 않는다는 것을 이해해야 한다. 그것은 본 발명에 의하면, 몇 단계는 다른 순서로 또는 동시에 실행될 수 있기 때문이다. 또한, 당업자라면 명세서에 설명된 실시예는 모두 바람직한 실시예이며, 관련 작업 및 모듈은 반드시 본 발명에 필요한 것이 아니라는 것을 이해하여야 한다.
상기 실시예에서, 각 실시예에 대한 설명은 모두 각각 중점이 있고 어느 실시예에서 설명하지 않는 부분은 다른 실시예에 대한 설명을 참조할 수 있다.
본원에서 제공되는 일부 실시예에서 개시된 장치는 다른 형태를 통해 이루어질 수 있음을 이해해야 한다. 예를 들어, 이상에 설명된 장치 실시예는 단지 예시적인 것이다. 예를 들어 상기 수단의 분할은 단순한 논리적 기능 분할이며, 실제 실현하는 경우에 다른 분할방식을 채용할 수 있다. 예를 들어 복수의 수단 또는 모듈은 조합할 수도 있고, 다른 시스템에 통합할 수도 있으며, 일부 특징을 무시하거나 또는 실행하지 않아도 된다. 한편, 표현 또는 검토하고 있는 구성요소 상호간의 결합 또는 직접결합 또는 통신연결은 일정한 인터페이스, 장치 또는 수단을 통해 간접적으로 결합 또는 통신연결될 수도 있고, 전기적 또는 다른 형식이어도 된다.
상기 별도의 구성 요소로 설명된 수단은 물리적으로 분리될 수도 되지 않을 수도 있다. 수단으로 나타나는 부재도 물리적 수단일 수도 않일 수도 있다. 즉, 한 곳에 위치하거나 복수의 네트워크 수단에 분포될 수도 있다. 또한, 실제 필요에 따라 그 중 일부 또는 전부 수단을 선택하여 본 실시예의 기술방안의 목적을 달성할 수 있다.
또한, 본 발명의 각 실시예 중 각 기능수단은 하나의 처리수단에 통합할 수도 있고, 각 수단이 물리적으로 독립하여 존재할 수도 있고, 하나의 수단에 2 또는 2 이상의 수단를 통합할 수도 있다. 상술한 통합된 수단은 하드웨어로 실현할 수도 있고, 소프트웨어 기능수단으로 실현할 수도 있다.
상기 통합된 수단은 소프트웨어 기능수단으로 실현되고, 또한 독립 제품으로 판매 또는 사용하는 경우 컴퓨터 판독 가능한 메모리에 저장할 수 있다. 이러한 이해를 바탕으로, 본 발명의 기술방안은 실질적으로 또는 종래기술에 공헌한 부분 또는 당해 기술방안의 전부 또는 일부를 소프트웨어 제품의 형태로 구체화할 수 있다. 해당 컴퓨터 소프트웨어 제품은 메모리에 저장되어 1 대의 컴퓨터 장치 (개인용 컴퓨터, 서버 또는 네트워크 장치 등 일 수있다)에서 본 발명의 각 실시예에 기재된 방법의 전부 또는 일부 단계를 수행하기 위해 여러 명령을 포함한다. 또한, 상기 메모리는 U 디스크, 읽기 전용 메모리 (ROM, Read-Only Memory), 랜덤 액세스 메모리 (RAM, Random Access Memory), 이동식 하드 디스크, 자기 디스크 또는 광디스크 등의 다양한 프로그램 코드를 저장 가능한 매체를 포함한다.
이상에서 본 발명의 실시예를 상세하게 설명하였며 구체적인 예를 이용하여 본 발명의 원리 및 실시예를 설명하였으나, 이상의 실시예의 설명은 단지 본 발명의 방법 및 그 핵심구상의 이해에 기여하기 위한 것이다. 동시에, 당업자라면 본 발명의 구상에 따라 구체적인 실시예 및 응용범위에서 변경할 수 있다. 따라서, 본 명세서의 내용을 본 발명의 제한이라고 이해해서는 안된다.

Claims (21)

  1. 음성신호와 처리대상화상을 입력하기 위한 입출력수단,
    상기 음성신호와 상기 처리대상화상을 기억하기 위한 기억수단, 및
    상기 음성신호를 화상처리명령으로 변환하고 상기 음성신호에 기초하여 처리대상화상의 처리영역인 목표영역을 식별하고, 상기 화상처리명령에 따라 상기 목표영역을 처리하여 처리된 화상을 획득하고, 상기 처리대상화상을 상기 기억수단에 기억하기 위한 화상처리수단을 포함하며,
    상기 입출력수단은 상기 처리된 화상을 출력하기 위한 것이며,
    상기 기억수단은 뉴런기억수단과 가중치버퍼 스토리지수단을 포함하고, 상기 화상처리수단의 신경망연산수단은 신경망연산서브수단을 포함하며,
    상기 뉴런기억수단은 상기 음성신호와 상기 처리대상화상을 기억하기 위한 것이고,
    상기 가중치버퍼 스토리지수단은 목표음성명령변환모델과 목표화상처리모델을 기억할 때 사용되며, 상기 신경망연산서브수단은 상기 목표음성명령변환모델에 따라 상기 음성신호를 상기 화상처리명령으로 변환하고 상기 음성신호에 기초하여 상기 목표영역을 식별하기 위한 것이고,
    상기 신경망연산서브수단은 또 상기 목표화상처리모델과 상기 화상처리명령에 따라 상기 목표영역을 처리하여 처리된 화상을 획득하기 위한 것이며,
    상기 신경망연산서브수단은 또 상기 처리된 화상을 상기 뉴런기억수단에 기억하기 위한 것이고,
    상기 신경망연산서브수단은 미리 설정된 시간창에서 상기 뉴런기억수단에서 M(M은 1보다 큰 정수) 개의 화상처리명령을 획득하고, 상기 M개의 화상처리명령에서 동일한 기능을 가진 화상처리명령을 삭제하여 N(N은 상기 M보다 작은 정수) 개의 화상처리명령을 획득하며, 처리된 화상을 획득하기 위해 상기 N개의 화상처리명령 및 상기 목표화상처리모델을 기반으로 상기 목표영역을 처리하는 데 사용되는 것
    을 특징으로 하는 화상처리장치.
  2. 삭제
  3. 제1항에 있어서,
    상기 기억수단은 범용데이터버퍼 스토리지수단을 포함하고 상기 화상처리수단의 신경망연산수단은 범용연산서브수단을 포함하며,
    상기 범용데이터버퍼 스토리지수단이 상기 음성신호와 상기 처리대상화상의 수신에 이용될 때 상기 범용연산서브수단은 상기 음성신호를 상기 화상처리명령 및 상기 목표영역으로 변환하는 데 사용되며,
    상기 범용연산서브수단은 상기 화상처리명령에 따라 상기 목표영역을 처리하여 처리된 화상을 획득하는 데도 사용되고,
    상기 범용연산서브수단은 상기 처리된 화상을 상기 범용데이터버퍼 스토리지수단에 기억하는 데도 사용되는 것을 특징으로 하는 화상처리장치.
  4. 제1항에 있어서,
    상기 신경망연산서브수단은 구체적으로 음성식별기술에 근거하여 상기 음성신호를 텍스트정보로 변환하고, 자연언어처리기술과 상기 목표음성명령변환모델에 근거하여 상기 텍스트정보를 상기 화상처리명령으로 변환하며, 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하기 위한 것을 특징으로 하는 화상처리장치.
  5. 제1항에 있어서,
    상기 신경망연산서브수단은 구체적으로 음성식별기술, 어의이해기술 및 상기 목표음성명령변환모델에 근거하여 상기 음성신호를 상기 화상처리명령으로 변환하고, 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하기 위한 것을 특징으로 하는 화상처리장치.
  6. 제3항에 있어서,
    상기 범용연산서브수단은 구체적으로 음성식별기술에 근거하여 상기 음성신호를 텍스트정보로 변환하고, 자연언어처리기술에 근거하여 상기 텍스트정보를 상기 화상처리명령으로 변환하며, 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 회득하기 위한 것을 특징으로 하는 화상처리장치.
  7. 제3항에 있어서,
    상기 범용연산서브수단은 구체적으로 음성식별기술과 어의이해기술에 근거하여 상기 음성신호를 상기 화상처리명령으로 변환하고, 상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하기 위한 것을 특징으로 하는 화상처리장치.
  8. 삭제
  9. 제3항에 있어서,
    상기 범용연산서브수단은 미리 설정된 시간창에서 상기 범용데이터버퍼 스토리지수단에서 M(M은 1보다 큰 정수) 개의 화상처리명령을 획득하고, 상기 M개의 화상처리명령에서 동일한 기능을 가진 화상처리명령을 삭제하여 N(N은 상기 M보다 작은 정수) 개의 화상처리명령을 획득하며, 처리된 화상을 획득하기 위해 상기 N개의 화상처리명령에 따라 상기 목표영역을 처리하는 데 사용되는 것을 특징으로 하는 화상처리장치.
  10. 제4항 또는 제5항에 있어서,
    상기 신경망연산서브수단은 음성명령변환모델에 대해 자체적응훈련을 수행하여 상기 목표음성명령변환모델을 획득하기 위한 것이며,
    상기 음성명령변환모델에 대해 자체적응훈련을 수행하여 상기 목표음성명령변환모델을 획득하는 것은,
    상기 음성명령변환모델을 기반으로 상기 음성신호를 예측명령으로 변환하고, 상기 예측명령 및 그에 대응한 명령세트의 상관계수를 확정하며, 상기 예측명령 및 그에 대응한 명령세트의 상관계수에 따라 상기 음성명령변환모델을 최적화하여 상기 목표음성명령변환모델을 획득하는 것을 포함하는 것을 특징으로 하는 화상처리장치.
  11. 제1항에 있어서,
    상기 신경망연산서브수단은 화상처리모델에 대해 자체적응훈련을 수행하여 상기 목표화상처리모델을 획득하는 데도 사용되며,
    상기 화상처리모델에 대해 자체적응훈련을 수행하여 상기 목표화상처리모델을 획득하는 것은,
    상기 화상처리모델에 따라 상기 처리대상화상을 처리하여 예측화상을 획듣하고, 상기 예측화상 및 그에 대응한 목표화상의 상관계수를 확정하며, 상기 예측화상 및 그에 대응한 목표화상의 상관계수에 따라 상기 화상처리모델을 최적화하여 상기 목표화상처리모델을 획득하는 것을 포함하는 것을 특징으로 하는 화상처리장치.
  12. 제3항에 있어서,
    상기 화상처리장치의 화상처리수단은,
    신경망연산명령과 범용연산명령이 포함된 실행해야 할 명령을 기억하기 위한 명령버퍼 스토리지수단, 및
    상기 신경망연산명령을 상기 화상처리수단의 신경망연산수단의 신경망연산서브수단에 전송하고 상기 범용연산명령을 상기 범용연산서브수단에 전송하기 위한 명령처리수단을 더 포함하는 것을 특징으로 하는 화상처리장치.
  13. 음성신호와 처리대상화상을 입력하는 단계,
    상기 음성신호와 상기 처리대상화상을 기억하는 단계,
    상기 음성신호를 화상처리명령으로 변환하고 상기 음성신호에 기초하여 처리대상화상의 처리영역인 목표영역을 식별하고, 상기 화상처리명령에 따라 상기 목표영역을 처리하여 처리된 화상을 획득하며, 상기 처리대상화상을 기억수단에 기억하는 단계, 및
    상기 처리된 화상을 출력하는 단계를 포함하고,
    상기 화상처리명령에 따라 상기 목표영역을 처리하여 처리된 화상을 획득하는 단계는,
    미리 설정된 시간창에서 뉴런기억수단에서 M(M은 1보다 큰 정수) 개의 화상처리명령을 획득하는 단계,
    상기 M개의 화상처리명령에서 동일한 기능을 가진 화상처리명령을 삭제하여 N(N은 상기 M보다 작은 정수) 개의 화상처리명령을 획득하는 단계, 및
    처리된 화상을 획득하기 위해 상기 N개의 화상처리명령 및 목표화상처리모델을 기반으로 상기 목표영역을 처리하는 단계를 포함하는 것
    을 특징으로 하는 화상처리방법.
  14. 제13항에 있어서,
    상기 음성신호를 상기 화상처리명령으로 변환하고 상기 음성신호에 기초하여 상기 목표영역을 식별하는 단계는,
    음성식별기술을 통해 상기 음성신호를 텍스트정보로 변환하는 단계,
    자연언어처리기술과 목표음성명령변환모델을 기반으로 상기 텍스트정보를 상기 화상처리명령으로 변환하는 단계, 및
    상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하는 단계를 포함하는 것을 특징으로 하는 화상처리방법.
  15. 제13항에 있어서,
    상기 음성신호를 상기 화상처리명령으로 변환하고 상기 음성신호에 기초하여 상기 목표영역을 식별하는 단계는,
    음성식별기술, 어의이해기술 및 목표음성명령변환모델을 기반으로 상기 음성신호를 상기 화상처리명령으로 변환하는 단계, 및
    상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하는 단계를 포함하는 것을 특징으로 하는 화상처리방법.
  16. 제13항에 있어서,
    상기 음성신호를 상기 화상처리명령으로 변환하고 상기 음성신호에 기초하여 상기 목표영역을 식별하는 단계는,
    음성식별기술에 근거하여 상기 음성신호를 텍스트정보로 변환하는 단계,
    자연언어처리기술을 기반으로 상기 텍스트정보를 상기 화상처리명령으로 변환하는 단계, 및
    상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하는 단계를 포함하는 것을 특징으로 하는 화상처리방법.
  17. 제13항에 있어서,
    상기 음성신호를 상기 화상처리명령으로 변환하고 상기 음성신호에 기초하여 상기 목표영역을 식별하는 단계는,
    음성식별기술과 어의이해기술에 근거하여 상기 음성신호를 상기 화상처리명령으로 변환하는 단계, 및
    상기 화상처리명령 중 어의영역의 입도 및 화상식별기술을 기반으로 상기 처리대상화상을 영역구분하여 상기 목표영역을 획득하는 단계를 포함하는 것을 특징으로 하는 화상처리방법.
  18. 삭제
  19. 제13항 내지 제17항 중 어느 한 항에 있어서,
    상기 화상처리명령에 따라 상기 목표영역을 처리하여 처리된 화상을 획득하는 단계는,
    미리 설정된 시간창에서 범용데이터버퍼 스토리지수단에서 M(M은 1보다 큰 정수) 개의 화상처리명령을 획득하는 단계,
    상기 M개의 화상처리명령에서 동일한 기능을 가진 화상처리명령을 삭제하여 N(N은 상기 M보다 작은 정수) 개의 화상처리명령을 획득하는 단계, 및
    처리된 화상을 획득하기 위해 상기 N개의 화상처리명령에 따라 상기 목표영역을 처리하는 단계를 포함하는 것을 특징으로 하는 화상처리방법.
  20. 제14항 또는 제15항에 있어서,
    음성명령변환모델에 대해 자체적응훈련을 수행하여 상기 목표음성명령변환모델을 획득하는 단계를 더 포함하며,
    상기 음성명령변환모델에 대해 자체적응훈련을 수행하여 상기 목표음성명령변환모델을 획득하는 단계는,
    상기 음성명령변환모델을 기반으로 상기 음성신호를 예측명령으로 변환하는 단계,
    상기 예측명령 및 그에 대응한 명령세트의 상관계수를 확정하는 단계, 및
    상기 예측명령 및 그에 대응한 명령세트의 상관계수에 따라 상기 음성명령변환모델을 최적화하여 상기 목표음성명령변환모델을 획득하는 단계를 포함하는 것을 특징으로 하는 화상처리방법.
  21. 제13항에 있어서,
    화상처리모델에 대해 자체적응훈련을 수행하여 상기 목표화상처리모델을 획득하는 단계를 더 포함하며,
    상기 화상처리모델에 대해 자체적응훈련을 수행하는 단계는,
    상기 화상처리모델에 따라 상기 처리대상화상을 처리하여 예측화상을 획득하는 단계,
    상기 예측화상 및 그에 대응한 목표화상의 상관계수를 확정하는 단계, 및
    상기 예측화상 및 그에 대응한 목표화상의 상관계수에 따라 상기 화상처리모델을 최적화하여 상기 목표화상처리모델을 획득하는 단계를 포함하는 것을 특징으로 하는 화상처리방법.
KR1020197032702A 2017-09-29 2018-09-29 화상처리장치 및 방법 KR102379954B1 (ko)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
CN201710913131.2 2017-09-29
CN201710913272.4 2017-09-29
CN201710913272.4A CN109584864B (zh) 2017-09-29 2017-09-29 图像处理装置和方法
CN201710913131.2A CN109584862B (zh) 2017-09-29 2017-09-29 图像处理装置和方法
CN201711121244.5 2017-11-14
CN201711121244.5A CN109785843B (zh) 2017-11-14 2017-11-14 图像处理装置和方法
PCT/CN2018/108696 WO2019062931A1 (zh) 2017-09-29 2018-09-29 图像处理装置及方法
KR1020197028486A KR102317958B1 (ko) 2017-09-29 2018-09-29 화상처리장치 및 방법

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020197028486A Division KR102317958B1 (ko) 2017-09-29 2018-09-29 화상처리장치 및 방법

Publications (2)

Publication Number Publication Date
KR20200049705A KR20200049705A (ko) 2020-05-08
KR102379954B1 true KR102379954B1 (ko) 2022-03-28

Family

ID=65900827

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020197032701A KR102380494B1 (ko) 2017-09-29 2018-09-29 화상처리장치 및 방법
KR1020197028486A KR102317958B1 (ko) 2017-09-29 2018-09-29 화상처리장치 및 방법
KR1020197032702A KR102379954B1 (ko) 2017-09-29 2018-09-29 화상처리장치 및 방법

Family Applications Before (2)

Application Number Title Priority Date Filing Date
KR1020197032701A KR102380494B1 (ko) 2017-09-29 2018-09-29 화상처리장치 및 방법
KR1020197028486A KR102317958B1 (ko) 2017-09-29 2018-09-29 화상처리장치 및 방법

Country Status (5)

Country Link
US (1) US11532307B2 (ko)
EP (3) EP3667488B1 (ko)
JP (3) JP6810283B2 (ko)
KR (3) KR102380494B1 (ko)
WO (1) WO2019062931A1 (ko)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11437032B2 (en) 2017-09-29 2022-09-06 Shanghai Cambricon Information Technology Co., Ltd Image processing apparatus and method
US11630666B2 (en) 2018-02-13 2023-04-18 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
EP3651070B1 (en) 2018-02-13 2021-07-28 Shanghai Cambricon Information Technology Co., Ltd Computation device and method
US11704125B2 (en) 2018-02-13 2023-07-18 Cambricon (Xi'an) Semiconductor Co., Ltd. Computing device and method
CN110162162B (zh) 2018-02-14 2023-08-18 上海寒武纪信息科技有限公司 处理器的控制装置、方法及设备
EP3624020A4 (en) 2018-05-18 2021-05-05 Shanghai Cambricon Information Technology Co., Ltd CALCULATION PROCEDURES AND RELATED PRODUCTS
WO2020001438A1 (zh) 2018-06-27 2020-01-02 上海寒武纪信息科技有限公司 片上代码断点调试方法、片上处理器及芯片断点调试系统
JP6867518B2 (ja) 2018-08-28 2021-04-28 カンブリコン テクノロジーズ コーポレイション リミティド データ前処理方法、装置、コンピュータ機器及び記憶媒体
US11703939B2 (en) * 2018-09-28 2023-07-18 Shanghai Cambricon Information Technology Co., Ltd Signal processing device and related products
CN111383638A (zh) 2018-12-28 2020-07-07 上海寒武纪信息科技有限公司 信号处理装置、信号处理方法及相关产品
CN111832739B (zh) 2019-04-18 2024-01-09 中科寒武纪科技股份有限公司 一种数据处理方法及相关产品
US11934940B2 (en) 2019-04-18 2024-03-19 Cambricon Technologies Corporation Limited AI processor simulation
US11676028B2 (en) 2019-06-12 2023-06-13 Shanghai Cambricon Information Technology Co., Ltd Neural network quantization parameter determination method and related products
EP3998554A4 (en) 2019-06-12 2023-11-15 Shanghai Cambricon Information Technology Co., Ltd METHOD FOR DETERMINING QUANTIZATION PARAMETERS IN A NEURONAL NETWORK AND ASSOCIATED PRODUCTS
WO2021229926A1 (ja) * 2020-05-15 2021-11-18 ソニーグループ株式会社 情報処理装置及び情報処理方法、コンピュータプログラム、並びに撮像装置
CN111803128A (zh) * 2020-07-15 2020-10-23 深圳大学 一种乳腺组织弹性成像方法、装置、设备和介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170142327A1 (en) * 2015-11-17 2017-05-18 Eman Bayani Digital image capturing device system and method

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0375860A (ja) 1989-08-18 1991-03-29 Hitachi Ltd パーソナライズド端末
US5777614A (en) * 1994-10-14 1998-07-07 Hitachi, Ltd. Editing support system including an interactive interface
GB9602701D0 (en) * 1996-02-09 1996-04-10 Canon Kk Image manipulation
JP2002175540A (ja) * 2000-12-05 2002-06-21 Victor Co Of Japan Ltd 画像デッサン装置
JP2005202567A (ja) * 2004-01-14 2005-07-28 Konica Minolta Photo Imaging Inc 画像処理方法、画像処理装置及び画像処理プログラム
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
JP4998794B2 (ja) 2007-11-29 2012-08-15 Nkワークス株式会社 画像補正方法と画像補正装置
US9412366B2 (en) 2012-09-18 2016-08-09 Adobe Systems Incorporated Natural language image spatial and tonal localization
JP2014170295A (ja) * 2013-03-01 2014-09-18 Honda Motor Co Ltd 物体認識システム及び物体認識方法
KR20160011302A (ko) * 2014-07-21 2016-02-01 넥시스 주식회사 글라스형 웨어러블 디바이스의 영상 또는 이미지 처리시스템 및 처리방법
US10048934B2 (en) * 2015-02-16 2018-08-14 International Business Machines Corporation Learning intended user actions
CN106814639A (zh) 2015-11-27 2017-06-09 富泰华工业(深圳)有限公司 语音控制系统及方法
CN105869198A (zh) * 2015-12-14 2016-08-17 乐视移动智能信息技术(北京)有限公司 多媒体照片生成方法、装置、设备及手机
JP2017156511A (ja) * 2016-03-01 2017-09-07 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US10187568B1 (en) * 2016-05-02 2019-01-22 Bao Tran Video smart phone
CN205692213U (zh) * 2016-05-27 2016-11-16 王韦帆 计算机图形图像处理器
CN107545889B (zh) * 2016-06-23 2020-10-23 华为终端有限公司 适用于模式识别的模型的优化方法、装置及终端设备
CN105979035B (zh) 2016-06-28 2019-08-27 Oppo广东移动通信有限公司 一种增强现实ar图像处理方法、装置及智能终端
CN106156310A (zh) * 2016-06-30 2016-11-23 努比亚技术有限公司 一种图片处理装置和方法
CN107025629B (zh) * 2017-04-27 2021-03-26 维沃移动通信有限公司 一种图像处理方法及移动终端
US10427306B1 (en) * 2017-07-06 2019-10-01 X Development Llc Multimodal object identification

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170142327A1 (en) * 2015-11-17 2017-05-18 Eman Bayani Digital image capturing device system and method

Also Published As

Publication number Publication date
JP2020064638A (ja) 2020-04-23
EP3667488B1 (en) 2023-06-28
KR102317958B1 (ko) 2021-10-27
KR102380494B1 (ko) 2022-03-29
WO2019062931A1 (zh) 2019-04-04
JP2020519923A (ja) 2020-07-02
KR20200049705A (ko) 2020-05-08
KR20190128658A (ko) 2019-11-18
EP3667487B1 (en) 2023-11-15
JP6893968B2 (ja) 2021-06-23
EP3667487A1 (en) 2020-06-17
EP3667488A1 (en) 2020-06-17
EP3627499A1 (en) 2020-03-25
JP6810283B2 (ja) 2021-01-06
EP3627499A4 (en) 2021-04-14
JP2020067665A (ja) 2020-04-30
US11532307B2 (en) 2022-12-20
EP3627499B1 (en) 2023-07-05
KR20200049704A (ko) 2020-05-08
US20200168227A1 (en) 2020-05-28
JP6810232B2 (ja) 2021-01-06

Similar Documents

Publication Publication Date Title
KR102379954B1 (ko) 화상처리장치 및 방법
US11437032B2 (en) Image processing apparatus and method
US11450319B2 (en) Image processing apparatus and method
US11703939B2 (en) Signal processing device and related products
WO2021082941A1 (zh) 视频人物识别方法、装置、存储介质与电子设备
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
US20200241874A1 (en) Signal processing device, signal processing method and related products
US20200005673A1 (en) Method, apparatus, device and system for sign language translation
CN113421547B (zh) 一种语音处理方法及相关设备
CN109584864B (zh) 图像处理装置和方法
KR20210052036A (ko) 복수 의도어 획득을 위한 합성곱 신경망을 가진 장치 및 그 방법
CN109785843B (zh) 图像处理装置和方法
CN116052714A (zh) 一种数据处理方法及其装置
KR101171047B1 (ko) 음성 및 영상 인식 기능을 갖는 로봇 시스템 및 그의 인식 방법
CN109584862B (zh) 图像处理装置和方法
CN110969246A (zh) 信号处理装置及相关产品
CN116954364A (zh) 肢体动作交互方法、装置、电子设备及存储介质
CN116486829A (zh) 语音提取方法、电子设备和存储介质
CN116542289A (zh) 一种数据处理方法及其装置
CN110968285A (zh) 信号处理装置及相关产品

Legal Events

Date Code Title Description
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant