KR20230029547A - 이미지의 객체 감지들을 결정하기 위한 방법 및 장치 - Google Patents

이미지의 객체 감지들을 결정하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR20230029547A
KR20230029547A KR1020220105266A KR20220105266A KR20230029547A KR 20230029547 A KR20230029547 A KR 20230029547A KR 1020220105266 A KR1020220105266 A KR 1020220105266A KR 20220105266 A KR20220105266 A KR 20220105266A KR 20230029547 A KR20230029547 A KR 20230029547A
Authority
KR
South Korea
Prior art keywords
cluster
node
graph
determined
image
Prior art date
Application number
KR1020220105266A
Other languages
English (en)
Inventor
다니엘 포토츠키
Original Assignee
로베르트 보쉬 게엠베하
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 로베르트 보쉬 게엠베하 filed Critical 로베르트 보쉬 게엠베하
Publication of KR20230029547A publication Critical patent/KR20230029547A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/7635Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks based on graphs, e.g. graph cuts or spectral clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은, 이미지의 객체의 객체 감지를 특성화하는 출력 신호를 결정하기 위한 컴퓨터 구현 방법(100)에 관한 것이며, 이러한 방법은 하기 단계들, 즉
a. 이미지와 관련된 복수의 객체 감지들을 결정하는 단계(101);
b. 복수의 객체 감지들에 기반하여 그래프를 결정하는 단계로서, 복수의 객체 감지들 중 객체 감지들이 그래프의 노드를 통해 특성화되고, 각각 2개의 객체 감지들 사이의 중첩들이 그래프의 에지들을 통해 특성화되는 단계(102);
c. 밀도 기반 클러스터링 방법을 이용하여 그래프의 노드들 및 에지들에 기반하여 그래프의 클러스터를 결정하는 단계(103);
d. 클러스터에 기반하여 객체 감지를 결정하고, 출력 신호 내의 객체 감지를 제공하는 단계(104);를 포함한다.

Description

이미지의 객체 감지들을 결정하기 위한 방법 및 장치{METHOD AND DEVICE FOR DETERMINING OBJECT DETECTIONS OF AN IMAGE}
2018년, Conference on Computer Vision and Pattern Recognition(CVPR)에서의, Radosavovic 외 저 "Data Distillation: Towards Omni-Supervised Learning"은 이미지의 객체 감지들을 결정하기 위한 방법을 공개한다.
이미지들 내의 객체들을 감지하기 위하여 머신 러닝 시스템들이 사용되는 일이 점점 더 빈번해지고 있다. 이러한 시스템들 중 최고 성능의 시스템들, 즉 최고의 감지 성능을 갖는 시스템들은 전형적으로 주석 달린(annotated) 이미지들에 기반하여 지도되는 상태로 훈련된다[지도 학습(supervised learning)]. 이러한 머신 러닝 시스템들의 훈련은 훈련을 위한 많은 수의 주석 달린 이미지들을 전제 조건으로 하는데, 이는 전형적으로 머신 러닝 시스템의 성능이 훈련에서의 주석 달린 이미지의 수에 의해 증가하기 때문이다.
이미지들 내의 객체들의 주석 달기가 시간 및 비용이 많이 드는 일이기 때문에, 머신 러닝 시스템들의 준 지도 학습(semi-supervised learning)을 위한 훈련 방법들이 점점 더 중요해지고 있다. 이러한 유형의 훈련에서는, 머신 러닝 시스템에 주석 달린 이미지들 뿐만 아니라 주석 달리지 않은 이미지들도 제공된다. 이 경우, 주석을 가능한 한 정확하게 구성하는 것이 바람직하다.
이러한 배경 하에, 본 발명은 이미지의 객체의 객체 감지를 특성화하는 출력 신호를 결정하기 위한 컴퓨터 구현 방법에 관한 것이며, 이러한 방법은 하기 단계들, 즉
a. 이미지와 관련된 복수의 객체 감지들을 결정하는 단계;
b. 복수의 객체 감지들에 기반하여 그래프를 결정하는 단계로서, 복수의 객체 감지들 중 객체 감지들이 그래프의 노드를 통해 특성화되고, 각각 2개의 객체 감지들 사이의 중첩들이 그래프의 에지들을 통해 특성화되는 단계;
c. 밀도 기반 클러스터링(density-based clustering) 방법을 이용하여 그래프의 노드들 및 에지들에 기반하여 그래프의 클러스터를 결정하는 단계;
d. 클러스터에 기반하여 객체 감지를 결정하고, 출력 신호 내의 객체 감지를 제공하는 단계;를 포함한다.
결정된 출력 신호는, 하나 이상의 객체 감지를 특성화하는 이미지의 주석을 의미할 수 있다. 이 경우, 이미지는 특히 광학 센서, 예를 들어 카메라 센서, LIDAR 센서, 레이더 센서, 초음파 센서 또는 열 카메라에 의해 기록되었을 수 있다.
특히, 본원의 방법의 단계(c. 및 d.)들은 출력 신호 내에서 복수의 객체 감지들을 제공할 수 있도록 하기 위해 여러 번 실행될 수 있다.
객체 감지는 특히 경계 박스(Bounding Box)를 통해 특성화될 수 있다. 따라서, 출력 신호는 특히 하나 이상의 경계 박스를 포함할 수 있다. 그러나, 객체 감지들이 일반적으로 응집 영역, 예를 들어 폴리곤들을 통해 특성화되는 것도 가능하다.
이미지와 관련된 복수의 객체 감지들을 결정하기 위하여, 특히 이미 훈련된 객체 감지기가 사용될 수 있다. 예를 들어, 이미지에는 준 지도 훈련(semi-supervised learning) 방법의 일부로서 주석이 달리고, 복수의 객체 감지들은, 이미 주석 달린 이미지들에 대해 사전에 훈련된 객체 감지기에 의해 결정되는 것이 가능하다. 일반적으로, 객체 감지기는 특히 신경망을 포함할 수 있고, 객체 감지들은 신경망의 출력에 기반하여 결정될 수 있다. 객체 감지기가 신경망인 것도 가능하다.
특히, 객체 감지기는, 이미지를 처리하고, 복수의 객체 감지들을 예측하도록 구성될 수 있다. 바람직하게, 객체 감지기는, 이미지의 객체의 경계 박스가 관련되는 신뢰도 값을 각각의 경계 박스에 대해 결정하는 방식으로 구성될 수 있다. 이러한 신뢰도 값은 예를 들어 백분율일 수 있다.
본원의 방법의 바람직한 실시예에서는, 복수의 객체 감지들이 이미지의 복수의 상이한 전처리들에 기반하여 결정되는 것이 가능하다.
이미지의 전처리는 예를 들어, 이미지가 상이한 스케일들에 상응하게 스케일링되고 그리고/또는 이미지가 미러링되고[수평 뒤집기(horizontal flip)] 그리고/또는 이미지의 테두리들이 잘라내어지는[크로핑(cropping)] 방식으로 구성될 수 있다. 이러한 전처리 유형들 중 하나 이상의 전처리 유형은 전처리된 이미지를 결정하기 위해 사용될 수 있다. 이 경우, 복수의 객체 감지들은 특히, 이미지와 관련된 객체 감지들 및 전처리된 이미지의 객체 감지들로 구성될 수 있다. 바람직하게, 전처리된 복수의 이미지들은 전처리 유형들의 상이한 적용예들 또는 매개변수화들을 통해 결정될 수 있고, 이러한 전처리된 복수의 이미지들과 관련된 객체 감지들은 복수의 객체 감지들의 일부로서 사용될 수 있다.
특히 이미지의 전처리된 상이한 버전들의 사용 시에 동일한 객체들과 관련한 객체 감지들을 필터링할 수 있도록 하기 위해, 본원의 방법에서는 바람직하게 밀도 기반 군집 분석 방법[클러스터링 방법(clustering method)]이 사용된다. 이러한 방법의 목적은 이미지의 객체의 충분히 유사한 위치들 및 범위들을 특성화하는 객체 감지들이 통합되는 것일 수 있다. 바람직하게, 객체 감지들의 클러스터들을 결정하기 위한 제안된 방법에서는 비최대 억제(non-maximum suppression) 또는 경계 박스 투표(bounding box voting)가 사용되지 않고, 밀도 기반 클러스터링 방법이 사용된다. 본원의 발명자들은, 이와 같이 결정된 복수의 객체 감지들이, 다른 방법들 중 하나의 방법을 사용하는 방법에 비해 더 정확함을 알아낼 수 있었다.
객체 감지들을 클러스터링하기 위해, 결정된 복수의 객체 감지들로부터 특히 그래프가 결정될 수 있다. 이를 위해, 복수의 객체 감지들 중 객체 감지들은 각각 그래프의 노드를 의미할 수 있으며, 이러한 노드들은 에지들에 의해 연결되고, 이러한 에지들의 가중치는 에지를 통해 연결되는 노드들의 중첩(그리고 이에 따라 객체 감지들 사이의 중첩)을 각각 특성화한다. 중첩으로서는, 특히 교집합-합집합 비(Intersection Over Union: IoU)와 같은 메트릭이, 에지를 통해 연결된 노드들과 이에 따라 객체 감지들 사이에서 사용될 수 있다.
하기에 노드와, 노드를 통해 특성화되는 객체 감지는 동의어를 의미할 수 있다. 특히, 객체 감지를 위한 객체 감지기를 통해 결정되는 신뢰도는 노드의 신뢰도를 의미할 수 있다.
2개의 객체 감지들 사이의 중첩이, 사전 결정 가능한 임계값 이하인 경우, 본원의 방법에서는 그래프 내에서 2개의 객체 감지들 사이에 에지가 존재하지 않는 것이 제공될 수도 있다. 객체 감지기에 의해 결정된 신뢰도가 사전 결정 가능한 임계값을 초과하는 객체 감지들만이 그래프들 내에 함께 기록되는 것도 가능하다.
바람직하게는, 이미지 상의 상이한 클래스들의 객체들이 본원의 방법에 의해 주석이 달리는 것이 가능하다. 이러한 경우, 클래스 당 하나의 별도 그래프가 생성되고, 이와 같이 결정된 각각의 그래프에 대해 밀도 기반 클러스터링 방법이 실행되는 것이 가능하다. 이는, 하나의 그래프에 대한 복수의 객체 감지들 중, 동일한 클래스에 속하는 객체 감지들만이 고려되는 것을 의미할 수 있다.
바람직하게, 클러스터링 방법은 클러스터의 밀도 척도를 기반으로 그리고 클러스터의 연결 척도를 기반으로 실행된다.
이러한 접근 방식의 장점은, 클러스터 수와, 이에 따라 이미지 내 객체 수를 알아야할 필요가 없고, 본원의 방법에 의해 자동으로 결정될 수 있다는 것이다. 이를 통해, 출력 신호의 객체 감지들의 정확도가 더욱 향상된다.
클러스터링 방법의 적용 결과는 하나 이상의 클러스터일 수 있다. 각각의 클러스터는 바람직하게는 복수의 객체 감지들(예를 들어, 복수의 경계 박스들)을 포함한다. 클러스터는 특히 클러스터의 중심을 포함할 수 있다. 바람직하게, 노드는 클러스터의 중심을 특성화할 수 있다. 바람직하게, 클러스터의 노드는, 클러스터의 노드들의 신뢰도들 중 가장 큰 신뢰도를 갖는 중심을 특성화한다. 클러스터링 방법이 클러스터를 결정하는 경우, 이러한 중심은 출력 신호 내의 객체 감지로서 제공될 수 있다. 클러스터의 노드들이 자신들의 신뢰도에 상응하게 가중되고 결합될 수 있는 것도 가능하다. 예를 들어, 클러스터의 객체 감지들은 각각 중심점과, 경계 박스의 높이 및 폭을 통해 특성화될 수 있다. 중심점, 높이 및 폭은 특히 벡터로서 표시될 수 있으며, 객체 감지들의 결합은 벡터들의 가중된 가산을 통해 실행될 수 있다. 특히, 클러스터에 기반하여 객체 감지를 결정하기 위하여, 이러한 가산의 결과는 클러스터의 노드들의 신뢰도들의 합으로 나눠질 수 있다.
본원의 방법의 추가 실시예들에서는, 중심점 대신에 경계 박스의 다른 점, 예를 들어 경계 박스의 모퉁이가 선택되는 것도 가능하다.
그러나, 본원의 발명자들은, 단 하나의 객체 감지만을 포함하는 클러스터들의 객체 감지들을 출력 신호 내 객체 감지들로서 제공하지 않는 것이 물론 적용될 수 있다는 것을 알아낼 수 있었다. 이러한 중심들의 제외는, 출력 신호의 객체 감지들의 정확도 향상을 유도한다.
출력 신호의 결정을 위한 방법의 바람직한 일 실시예에서, 밀도 기반 클러스터링 방법은 하기 단계들, 즉
e. 그래프 내의 각각의 노드들의 에지 가중치들의 합에 기반하여 시작 노드를 결정하고, 시작 노드를 클러스터의 노드로서 제공하는 단계;
f. 클러스터에 대한 연결이 가장 큰 그래프의 노드를 결정하는 단계이며, 이러한 노드는 클러스터 내에 포함되어 있지 않은 단계;
g. 노드의 추가가, 노드만큼 확장된 클러스터의 밀도 척도를 사전 결정 가능한 제1 임계값 아래로 떨어뜨리지 않고, 이러한 추가가, 노드만큼 확장된 클러스터의 연결 척도를 사전 결정 가능한 제2 임계값 아래로 떨어뜨리지 않는 경우, 클러스터에 노드를 추가하는 단계;
h. 그렇지 않은 경우, 클러스터를 제공하는 단계;를 포함할 수 있다.
시작 노드의 결정을 위하여, 먼저 그래프 내의 각각의 노드에 대해, 각각의 노드와 연결되는 에지들의 합이 결정될 수 있다. 이와 같이, 각각의 노드에 대하여 지표가 결정될 수 있으며, 가장 높은 지표를 갖는 노드가 시작 노드로서 사용된다. 또한, 시작 노드는, 클러스터링 방법의 하기 단계들에서 추가 노드만큼 확장될 수 있는 클러스터의 중심을 의미할 수 있다.
이어서, 클러스터와의 연결이 수치 상 가장 크고 이미 클러스터의 일부인 것은 아닌 그래프의 노드가 결정된다. 클러스터에 대한 노드의 연결은 특히, 노드를 클러스터의 노드와 연결하는 모든 에지들 중에서 가장 높은 가중치를 갖는 에지가 노드에 대해 결정되는 것을 의미할 수 있다. 이어서, 이러한 에지의 가중치는 클러스터에 대한 노드의 연결을 의미할 수 있다. 이때, 클러스터에 속하지 않은 노드들 중에서 가장 큰 연결을 갖는 노드, 즉 클러스터에 대한 연결이 수치 상 가장 큰 노드가 결정될 수 있다.
노드의 추가가, 노드만큼 확장된 클러스터의 밀도 척도를 사전 결정 가능한 제1 임계값 아래로 떨어뜨리지 않고, 이러한 추가가, 노드만큼 확장된 클러스터의 연결 척도를 사전 결정 가능한 제2 임계값 아래로 떨어뜨리지 않는 경우, 노드는 클러스터에 추가될 수 있다. 이러한 단계는, 클러스터 내에 노드가 기록되는 것이 클러스터에 대한 영향을 위하여 어떤 영향을 미칠 것인지가 먼저 조사되는 것을 의미할 수 있다. 영향을 결정하기 위한 지표들로서, 밀도 척도 및 연결 척도가 사용될 수 있다.
밀도 척도는, 노드의 기록이 기록 이후의 클러스터의 모든 노드들이 여전히 서로 충분히 연결되는 것을 보장하는지 여부를 특성화하는 것을 의미할 수 있으며, 이러한 충분한 연결은 제1 임계값에 의해 검사된다. 바람직하게, 밀도 척도는 하기 공식, 즉
Figure pat00001
을 통해 특성화될 수 있고, WZ는 클러스터(Z)의 노드들 사이의 에지들의 모든 가중치들의 합을 특성화하고, WZk는 클러스터의 노드에 대한 노드의 에지들의 모든 가중치들의 합이고, n은 클러스터 내의 노드들의 수, 즉 클러스터 내에 노드가 기록될 수도 있기 이전의 클러스터 내의 노드들의 수이다.
연결 척도는, 노드의 기록이 노드 자체가 클러스터의 노드들에 대한 충분한 연결을 갖는 것을 보장하는지 여부를 특성화하는 것을 의미할 수 있으며, 이러한 충분한 연결은 제2 임계값에 의해 검사된다. 바람직하게, 연결 척도는 하기 공식, 즉
Figure pat00002
을 통해 특성화될 수 있다.
바람직하게, 본원의 방법에서는, 단계(f.)에서 노드들이 반복적으로 결정되고, 단계(g.)로부터의 조건들 중 하나 이상의 조건이 더 이상 충족되지 않을 때까지 클러스터에 추가되는 것이 제공될 수 있으며, 하나 이상의 조건이 더 이상 충족되지 않을 경우, 클러스터가 제공되고, 클러스터의 노드들은 그래프로부터 제거된다.
이는, 탐욕 알고리즘(greedy algorithm)을 통해 점차 클러스터들이 결정되는 것을 의미할 수 있다. 각각의 반복에서, 신규 시작 노드가 먼저 선택되고, 이로 인하여 이어서 노드의 반복적 추가를 통해 클러스터가 형성된다. 특히, 단계(e. 내지 h.)들은 노드가 더 이상 그래프 내에 존재하지 않을 때까지 반복적으로 되풀이될 수 있다. 예를 들어 비최대 억제를 기초로 하는 다른 방법들과는 대조적으로, 본원의 발명자들은, 이와 같이 획득된 클러스터와, 그에 따라 출력 신호 내에 제공되는 객체 감지들이 더 정확함을 알아낼 수 있었다.
또한, 클러스터가 시작 노드로만 구성되는 경우, 클러스터에 기반하여 결정된 객체 감지가 출력 신호 내에 제공되지 않는 것이 제공될 수 있다. 본원의 발명자들은, 단지 하나의 객체 감지로 구성된 클러스터들이 전형적으로는 객체 감지기의 위양성 객체 감지들에 기인할 수 있다는 것(false positives)을 확인할 수 있었다. 이에 따라, 단지 하나의 노드, 즉 시작 노드만 포함하는 클러스터들의 제외는, 결과들의 추가 개선을 유도한다.
일반적으로, 그래프는 객체 감지기에 의해 인식될 수 있는 객체 감지들의 모든 클래스들을 포함하는 것이 가능하다. 예를 들어, 객체 감지기는 차량 주변의 이미지들에서 차량들, 보행자들, 자전거 운전자들 및 신호등들을 인식할 수 있도록 형성될 수 있다. 그러나, 바람직하게는 객체 감지들의 클래스와 관련하여 그래프가 결정되는 것도 가능하다. 환언하면, 그래프의 결정 시에 동일한 클래스에 속하는 객체 감지들만 고려될 수도 있다. 상기 예시에서는, 이에 상응하게 차량들 클래스의 객체 감지들에 대한 그래프, 보행자들 클래스의 객체 감지들에 대한 그래프, 자전거 운전자들 클래스의 객체 감지들에 대한 그래프 및 신호등들 클래스의 객체 감지들에 대한 그래프가 각각 결정될 수 있다.
특히, 객체 감지기에 의해 분류될 수 있는 객체들의 각각 하나의 클래스에 대하여, 바람직하게는 객체 감지기에 의해 분류될 수 있는 객체들의 클래스들 중 각각의 클래스에 대하여, 설명된 실시예들 중 하나의 실시예에서의 상술한 방법이 실행되는 것이 제공될 수 있다. 이와 같이 결정된, 상이한 클래스들에 대한 객체 감지들은 이후에 출력 신호 내에 제공될 수 있다.
추가의 일 양태에서, 본 발명은 하기 단계들, 즉
i. 이미지와 관련된 출력 신호를, 출력 신호의 결정을 위한 방법의 일 실시예에 의해 결정하는 단계;
j. 머신 러닝 시스템을 훈련시키는 단계이며, 이미지가 머신 러닝 시스템의 입력 신호로서 사용되고, 결정된 출력 신호가 원하는 출력 신호로서 사용되는 단계;를 포함하는, 머신 러닝 시스템의 훈련을 위한 컴퓨터 구현 방법에 관한 것이다.
특히, 이러한 훈련 방법은 준 지도 훈련 방법의 일부로서 사용될 수 있다. 특히, 머신 러닝 시스템은, 복수의 객체 감지들을 결정하는 객체 감지기일 수 있다. 결정된 출력 신호에 기반하여, 머신 러닝 시스템은 이후 추가로 훈련될 수 있다. 바람직하게, 이러한 단계는 각각 상이한 이미지들에 대하여 여러 번 실행된다. 이를 통해, 특히 이미지들의 데이터 세트에 주석이 달릴 수 있고, 즉 머신 러닝 시스템에 의해 이미지에 대해 예측될 원하는 출력 신호들에 의해 데이터 세트 내의 이미지들이 풍부해진다. 이후, 머신 러닝 시스템은, 최초에 머신 러닝 시스템의 훈련을 위해 주석이 달리는 이미지들과, 결정된 출력 신호들과 결합된 데이터 세트의 이미지들에 대해 훈련될 수 있다. 자가 지도(self supervised) 훈련을 통하여, 머신 러닝 시스템의 예측 정확도가 향상된다.
또한, 하나 이상의 이미지에 대한 출력 신호를 결정하기 위한 방법에 의하여 제1 출력 신호가 결정되고, 제2 머신 러닝 시스템이 제2 출력 신호를 결정한 다음, 제1 출력 신호가 제2 출력 신호와 어느 정도로 일치하는지가 조사되는 것이 가능하다. 환언하면, 제2 머신 러닝 시스템은 출력 신호를 결정하기 위한 방법에 의해 테스트될 수 있다. 이러한 일치 상태를 조사하기 위하여, 종래의 척도, 예를 들어 평균 예상 정밀도(mean average precision)가 사용될 수 있다.
본 발명의 실시예들은 첨부 도면들을 참조하여 하기에 더 구체적으로 설명된다.
도 1은 주석을 결정하기 위한 방법의 순서를 개략적으로 도시한 도면이다.
도 2는 분류기의 훈련을 위한 훈련 시스템을 개략적으로 도시한 도면이다.
도 3은 액추에이터의 제어를 위한 제어 시스템의 구조를 개략적으로 도시한 도면이다.
도 4는 적어도 부분 자율형인 로봇을 제어하기 위한 일 실시예를 개략적으로 도시한 도면이다.
도 5는 제조 시스템을 제어하기 위한 일 실시예를 개략적으로 도시한 도면이다.
도 6은 액세스 시스템을 제어하기 위한 일 실시예를 개략적으로 도시한 도면이다.
도 7은 모니터링 시스템을 제어하기 위한 일 실시예를 개략적으로 도시한 도면이다.
도 8은 개인용 어시스턴트를 제어하기 위한 일 실시예를 개략적으로 도시한 도면이다.
도 9는 의료 영상 시스템을 제어하기 위한 일 실시예를 개략적으로 도시한 도면이다.
도 1은 주석들을 결정하기 위한 방법(100)의 순서를 개략적으로 도시하고, 이러한 방법에서는 복수의 이미지들과 관련한 주석들이 반복적으로 결정되고, 이러한 주석들은 이미지들의 객체들의 객체 감지들을 각각 특성화한다. 바람직하게, 이미지들 및 결정된 주석들은 이러한 방법의 종료 시에, 예를 들어 모든 이미지들 또는 원하는 수의 이미지들에 주석이 달린 경우에, 훈련 데이터 세트(T)로서 제공된다.
제1 단계(101)에서, 이미지와 관련된 복수의 객체 감지들 중 하나의 객체 감지가 결정된다. 이를 위해 특히, 하나의 이미지에 대하여 이러한 이미지 내에 나타나는 객체들의 객체 감지들을 결정하도록 형성되는 객체 감지기가 사용될 수 있다. 바람직하게, 이러한 객체 감지기는 또한, 각각의 객체 감지에 대하여 각각의 객체 감지가 이미지의 객체를 특성화할 가능성을 특성화하는 신뢰도를 결정하도록 형성된다. 바람직하게, 이미지는 전처리 방법에 의해 처리되고, 이와 같이, 전처리된 이미지가 결정된다. 객체 감지기는 전처리된 이미지에 적용되고, 이와 같이 결정된 객체 감지들은 복수의 객체 감지들 내에 함께 기록된다. 전처리가 이미지의 미러링을 특성화하는 경우, 전처리된 이미지에 대해 결정된 객체 감지들은 바람직하게는 복수의 객체 감지들 내에 기록되기 이전에 다시 미러링될 수 있다. 바람직하게는, 각각 상이한 전처리 방법들에 의해 그리고/또는 전처리 방법의 더욱 상이한 매개변수화들에 의해, 각각 객체 감지기에 의해 처리되는 전처리된 복수의 이미지들이 결정될 수 있고, 얻어지는 객체 감지들은 복수의 객체 감지들 내에 기록될 수 있다.
방법(100)의 제2 단계(102)에서는, 복수의 객체 감지들에 기반하여 그래프가 결정되고, 복수의 객체 감지들 중 객체 감지들이 그래프의 노드를 통해 특성화되고, 각각 2개의 객체 감지들 사이의 중첩들이 그래프의 에지들을 통해 특성화된다. 따라서, 복수의 객체 감지들의 각각 하나의 객체 감지와 그래프의 각각 하나의 노드의 일대일 관계가 존재한다. 이러한 일대일 관계는, 각각 하나의 노드가 각각 하나의 객체 감지와 대응하는 것을 의미할 수도 있다. 바람직하게는, 그래프 내의 각각의 노드가 에지를 통해 그래프 내의 다른 각각의 노드와 연결되는 것이 제공될 수 있다. 에지의 가중치로서는 특히, 에지를 통해 연결되는 대응하는 노드들을 갖는 객체 감지들의 중첩의 척도가 사용될 수 있다. 바람직하게는, 에지의 가중치가 사전 정의된 임계값에 도달하거나 그를 초과하는 경우에만 이러한 에지가 그래프 내에 삽입되는 것도 제공될 수 있다. 또한, 그래프가 객체 감지들의 하나의 클래스와 관련해서만 결정되는 것이 제공될 수 있다.
제3 단계(103)에서는, 밀도 기반 클러스터링 방법을 사용하여 그래프의 노드 및 에지에 기반하여 클러스터들이 결정된다. 바람직한 일 실시예에서, 제3 단계(103)는, 먼저 클러스터의 시작 노드가 결정되는 제1 하위 단계(103a)를 포함한다. 시작 노드의 결정을 위해서는, 바람직하게 하기 방법이 선택될 수 있으며, 즉 먼저 그래프 내의 각각의 노드에 대해, 이러한 노드와 연결되는 에지들의 가중치들의 합이 결정된다. 이를 통해, 각각의 노드에 대해 지표가 결정된다. 이후, 수치 상 가장 큰 지표가 결정된 노드가 시작 노드로서 선택된다.
이후, 제3 단계(103)의 제2 하위 단계(103b)에서, 클러스터 내에 이미 포함된 것은 아니고 클러스터에 대한 연결이 가장 큰 그래프의 노드가 결정될 수 있다. 클러스터에 대한 노드의 연결은 특히, 노드를 클러스터의 노드와 연결하는 모든 에지들 중에서 가장 높은 가중치를 갖는 에지가 노드에 대해 결정되는 것을 의미할 수 있다. 이어서, 이러한 에지의 가중치는 클러스터에 대한 노드의 연결을 의미할 수 있다. 이때, 클러스터에 속하지 않은 노드들 중에서 가장 큰 연결을 갖는 노드, 즉 클러스터에 대한 연결이 수치 상 가장 큰 노드가 결정될 수 있다.
제3 하위 단계(103c)에서는, 제2 하위 단계에서 결정된 노드에 대하여 이 경우, 노드의 추가가, 노드만큼 확장된 클러스터의 밀도 척도를 사전 결정 가능한 제1 임계값 아래로 떨어뜨리지 않는지 여부가 검사될 수 있다. 또한, 이러한 추가가, 노드만큼 확장된 클러스터의 연결 척도를 사전 결정 가능한 제2 임계값 아래로 떨어뜨리지 않는지 여부가 검사될 수 있다. 이러한 두 가지 검사들이 긍정적인 응답을 얻을 수 있는 경우, 노드는 클러스터에 추가될 수 있다. 제3 하위 단계(103c)는, 클러스터 내에 노드가 기록되는 것이 클러스터에 대한 영향을 위하여 어떤 영향을 미칠 것인지가 먼저 조사되는 것을 의미할 수 있다. 영향을 결정하기 위한 지표들로서, 밀도 척도 및 연결 척도가 사용될 수 있다.
밀도 척도는, 노드의 기록이 기록 이후의 클러스터의 모든 노드들이 여전히 서로 충분히 연결되는 것을 보장하는지 여부를 특성화하는 것을 의미할 수 있으며, 이러한 충분한 연결은 제1 임계값에 의해 검사된다. 바람직하게, 밀도 척도는 하기 공식, 즉
Figure pat00003
을 통해 특성화될 수 있고, WZ는 클러스터(Z)의 노드들 사이의 에지들의 모든 가중치들의 합을 특성화하고, WZk는 클러스터의 노드에 대한 노드의 에지들의 모든 가중치들의 합이고, n은 클러스터 내의 노드들의 수, 즉 클러스터 내에 노드가 기록될 수도 있기 이전의 클러스터 내의 노드들의 수이다.
연결 척도는, 노드의 기록이 노드 자체가 클러스터의 노드들에 대한 충분한 연결을 갖는 것을 보장하는지 여부를 특성화하는 것을 의미할 수 있으며, 이러한 충분한 연결은 제2 임계값에 의해 검사된다. 바람직하게, 연결 척도는 하기 공식, 즉
Figure pat00004
을 통해 특성화될 수 있다.
노드가 클러스터 내에 기록된 경우, 본원의 방법에서는 바람직하게 제2 하위 단계(103b)로 복귀될 수 있고, 그래프의 신규 노드가 결정될 수 있으며, 이러한 신규 노드에 대해서는, 이러한 신규 노드가 클러스터 내에 기록될 것인지 아닌지 여부가 다시 상술한 바와 같이 검사될 수 있다.
이러한 복귀를 통해 생성된 본원의 방법(100)의 루프는, 클러스터 내에 기록되지 않은 노드가 결정되거나, 클러스터 내에 이미 포함된 것은 아닌 추가 노드들이 그래프 내에 더 이상 존재하지 않을 때까지 실행될 수 있다. 이러한 경우, 이후 제4 하위 단계(103d)에서는 클러스터 내에 포함된 모든 노드들이 그래프로부터 제거될 수 있으며, 클러스터가 제공될 수 있다. 그래프 내에 여전히 노드들이 존재하는 경우, 바람직하게는 제1 하위 단계로 복귀될 수 있고, 신규 클러스터가 결정될 수 있다. 그래프가 비어 있는 경우, 제3 단계(103)가 종료될 수 있다.
제3 단계(103)에서 결정된 클러스터들에 기반하여 이 경우, 제4 단계(104)에서는 각각 하나의 클러스터에 대해 객체 감지가 결정될 수 있다. 이를 위해, 클러스터의 노드들에 대응하는 객체 감지들이 결합될 수 있다. 바람직하게, 이는 객체 감지들의 표현식들의 가중 합을 통해 실행될 수 있다. 표현식은 예를 들어 객체 감지의 벡터 표현일 수 있다. 예를 들어, 벡터를 통해 중심점과, 높이 및 폭이 표시될 수 있고, 벡터는 객체 감지 박스의 표현식이다. 이 경우, 결합은 벡터들의 가중 합에 의해 실행될 수 있다. 예를 들어, 벡터들은 각각 자신들에 대응하는 객체 감지들의 신뢰도에 따라 가중될 수 있다. 바람직하게, 클러스터에 대해 객체 감지를 결정하기 위하여, 합의 결과는 신뢰도들의 합으로 나눠질 수 있다.
이와 같이, 제3 단계(103)에서 결정된 클러스터들에 대해 하나 이상의 객체 감지가 결정될 수 있다. 아직 이미지들에 주석이 달려야 하는 경우, 제4 단계(104) 이후에 다시 제1 단계(101)가 계속될 수 있으며, 아직 주석이 달리지 않은 이미지가 사용될 수 있다. 모든 이미지들 또는 원하는 수의 이미지들에 주석이 달린 경우, 이러한 이미지들 및 관련 주석들은 훈련 데이터 세트(T)로서 제공될 수 있다.
도 2는 훈련 데이터 세트(T)에 의한 제어 시스템(40)의 분류기(60)의 훈련을 위한 훈련 시스템(140)의 일 실시예를 도시한다. 훈련 데이터 세트(T)는 분류기(60)의 훈련을 위해 사용되는 복수의 입력 신호(xi)들을 포함하고, 훈련 데이터 세트(T)는 또한 각각의 입력 신호(xi)에 대하여, 입력 신호(xi)에 대응하고 입력 신호(xi)의 분류를 특성화하는 원하는 출력 신호(ti)를 포함한다.
훈련을 위해, 훈련 데이터 유닛(150)이 컴퓨터 구현 데이터 베이스(St2)에 액세스하고, 데이터 베이스(St2)는 훈련 데이터 세트(T)를 제공한다. 훈련 데이터 유닛(150)은 훈련 데이터 세트(T)로부터, 바람직하게는 무작위로 하나 이상의 입력 신호(xi) 및 이러한 입력 신호(xi)에 대응하는 원하는 출력 신호(ti)를 결정하고, 입력 신호(xi)를 분류기(60)로 전송한다. 분류기(60)는 입력 신호(xi)에 기반하여 출력 신호(yi)를 결정한다.
원하는 출력 신호(ti) 및 결정된 출력 신호(yi)는 변경 유닛(180)으로 전송된다.
이후, 원하는 출력 신호(ti) 및 결정된 출력 신호(yi)에 기반하여, 변경 유닛(180)에 의해 분류기(60)에 대한 신규 매개변수(Φ')가 결정된다. 이를 위해, 변경 유닛(180)은 원하는 출력 신호(ti)와, 결정된 출력 신호(yi)를 손실 함수(Loss Function)에 의해 비교한다. 이러한 손실 함수는 결정된 출력 신호(yi)가 원하는 출력 신호(ti)로부터 어느 정도로 벗어나는지를 특성화하는 제1 손실값을 결정한다. 본 실시예에서, 손실 함수로서 음의 로그 가능도 함수(negative log-likehood function)가 선택된다. 대안적인 실시예들에서는 다른 손실 함수들도 고려 가능하다.
또한, 결정된 출력 신호(yi) 및 원하는 출력 신호(ti)가, 예를 들어 텐서들의 형태를 갖는 복수의 하위 신호들을 각각 포함하고, 원하는 출력 신호(ti)의 각각 하나의 하위 신호가, 결정된 출력 신호(yi)의 하위 신호에 대응하는 것이 제시 가능하다. 예를 들어, 분류기(60)는 객체 감지를 위해 형성되고, 제1 하위 신호는 입력 신호(xi)의 일부와 관련하여 객체의 발생 확률을 각각 특성화하고, 제2 하위 신호는 객체의 정확한 위치를 특성화하는 것이 제시 가능하다. 결정된 출력 신호(yi) 및 원하는 출력 신호(ti)가, 대응하는 복수의 하위 신호들을 포함하는 경우에 있어서, 바람직하게는 각각 대응하는 하위 신호들에 대하여, 적합한 손실 함수에 의해 제2 손실값이 결정되고, 결정된 제2 손실값들은 예를 들어 가중 합을 통해 제1 손실값에 적합하도록 결합된다.
변경 유닛(180)은 제1 손실값에 기초하여 신규 매개변수(Φ')들을 결정한다. 본 실시예에서, 이는 경사하강법, 바람직하게는 확률적 경사하강법(Stochastic Gradient Descent), Adam, 또는 AdamW에 의해 실행된다. 추가의 실시예들에서, 훈련은 진화 알고리즘 또는 2차 최적화(second-order optimization)에 기초할 수도 있다.
결정된 신규 매개변수(Φ')들은 모델 매개변수 메모리(St1) 내에 저장된다. 바람직하게는, 결정된 신규 매개변수(Φ')들이 매개변수(Φ)로서 분류기(60)에 제공된다.
바람직한 추가의 실시예들에서, 설명된 훈련은 사전 정의된 수의 반복 단계 동안 반복적으로 되풀이되거나, 제1 손실값이 사전 정의된 임계값에 미달할 때까지 반복적으로 되풀이된다. 대안적으로 또는 추가적으로, 테스트- 또는 검증 데이터 세트와 관련된 평균적인 제1 손실값이 사전 정의된 임계값에 미달할 때, 훈련이 종료되는 것도 제시 가능하다. 이러한 반복들 중 하나 이상의 반복에서는, 선행 반복에서 결정된 신규 매개변수(Φ')들이 분류기(60)의 매개변수(Φ)로서 사용된다.
또한, 훈련 시스템(140)은 하나 이상의 프로세서(145) 및 하나 이상의 머신 판독 가능한 저장 매체(146)를 포함할 수 있으며, 이러한 저장 매체는 프로세서(145)를 통해 실행될 때 훈련 시스템(140)으로 하여금 본 발명의 양태들 중 하나의 양태에 따른 훈련 방법을 실행하도록 하는 명령들을 포함한다.
도 3은 분류기(60)의 출력 신호(y)에 기반하여, 자신의 주변부(20)에 있는 액추에이터(10)를 제어하기 위한 제어 시스템(40)을 도시한다. 바람직하게는 일정한 시간 간격들로, 주변부(20)는 센서(30), 특히 복수의 센서들, 예를 들어 스테레오 카메라를 통해서도 제공될 수 있는 카메라 센서와 같은 이미징 센서 내에서 감지된다. 센서(30)의 센서 신호(S)[또는 복수의 센서들의 경우, 각각 하나의 센서 신호(S)]는 제어 시스템(40)으로 전송된다. 따라서, 제어 시스템(40)은 일련의 센서 신호(S)들을 수신한다. 이로부터, 제어 시스템(40)은, 액추에이터(10)에 전달되는 제어 신호(A)들을 결정한다.
제어 시스템(40)은 일련의 센서 신호(S)들을 일련의 입력 신호(x)들로 변환하는 선택적 수신 유닛(50) 내에서 센서(30)의 일련의 센서 신호(S)들을 수신한다[대안적으로는, 직접적으로 각각 센서 신호(S)가 입력 신호(x)로서 채택될 수도 있다]. 입력 신호(x)는 예를 들어 센서 신호(S)의 일부이거나 추가 처리물일 수 있다. 환언하면, 입력 신호(x)는 센서 신호(S)에 따라 결정된다. 일련의 입력 신호(x)들은 분류기(60)에 공급된다.
바람직하게, 분류기(60)는, 매개변수 메모리(P) 내에 저장되고 이로부터 제공되는 매개변수(Φ)들을 통해 매개변수화된다.
분류기(60)는 입력 신호(x)들로부터 출력 신호(y)들을 결정한다. 출력 신호(y)들은 선택적 변환 유닛(80)에 공급되고, 이러한 선택적 변환 유닛은, 액추에이터(10)를 상응하게 제어하기 위하여 액추에이터(10)에 공급되는 제어 신호(A)들을 이로부터 결정한다.
액추에이터(10)는 제어 신호(A)들을 수신하고, 그에 상응하게 제어되며, 상응하는 작용을 실행한다. 이 경우, 액추에이터(10)는 (구조적으로 통합될 필요는 없는) 제어 로직을 포함할 수 있으며, 이러한 제어 로직은 제어 신호(A)로부터 제2 제어 신호를 결정하고, 이후 제2 제어 신호에 의해 액추에이터(10)가 제어된다.
다른 실시예들에서, 제어 시스템(40)은 센서(30)를 포함한다. 또 다른 실시예들에서, 제어 시스템(40)은 대안적으로 또는 추가적으로 액추에이터(10)도 포함한다.
다른 바람직한 실시예들에서, 제어 시스템(40)은 하나 이상의 프로세서(45)와; 하나 이상의 프로세서(45)에서 실행될 때 제어 시스템(40)으로 하여금 본 발명에 따른 방법을 실행하도록 하는 명령들이 저장된 하나 이상의 머신 판독 가능한 저장 매체(46);를 포함한다.
대안적인 실시예들에서는, 액추에이터(10)에 대안적으로 또는 추가적으로 디스플레이 유닛(10a)이 제공된다.
도 4는, 어떻게 제어 시스템(40)이 적어도 부분 자율형인 로봇, 여기서는 적어도 부분 자율형인 자동차(100)를 제어하는데 사용될 수 있는지를 도시한다.
센서(30)는 예를 들어, 바람직하게는 자동차(100) 내에 배열되는 비디오 센서일 수 있다. 이러한 경우, 입력 신호(x)들은 입력 이미지들을 의미할 수 있고, 분류기(60)는 이미지 분류기를 의미할 수 있다.
이미지 분류기(60)는 입력 이미지(x)들에서 인식 가능한 객체들을 식별하도록 구성된다.
바람직하게 자동차(100) 내에 배열된 액추에이터(10)는 예를 들어 자동차(100)의 브레이크, 구동 장치 또는 조향 장치일 수 있다. 이때, 제어 신호(A)는, 자동차(100)가 예를 들어, 이미지 분류기(60)에 의해 식별된 객체들이 특히 특정 클래스들의 객체들, 예를 들어 보행자들인 경우, 이러한 객체들과의 충돌을 방지하는 방식으로 액추에이터(들)(10)가 제어되도록 결정될 수 있다.
대안적으로 또는 추가적으로, 제어 신호(A)에 의해 디스플레이 유닛(10a)은 제어될 수 있고, 예를 들어 식별된 객체들이 표시된다. 또한, 식별된 객체들 중 하나 이상의 객체와 자동차(100)가 충돌할 위험이 있다는 것이 결정될 때, 디스플레이 유닛(10a)이 시각 또는 음향 경고 신호를 출력하는 방식으로 이러한 디스플레이 유닛이 제어 신호(A)에 의해 제어되는 것도 고려 가능하다. 경고 신호에 의한 경고는 촉각 경고 신호에 의해, 예를 들어 자동차(100)의 스티어링 휠의 진동을 통해 실행될 수도 있다.
대안적으로, 적어도 부분 자율형인 로봇은 다른 이동형 로봇(도시되지 않음), 예를 들어 비행, 수영, 잠수 또는 보행에 의해 이동하는 이동형 로봇일 수도 있다. 이동형 로봇은 예를 들어 적어도 부분 자율형인 잔디 깎이 또는 적어도 부분 자율형인 청소 로봇일 수도 있다. 이러한 경우들에도, 제어 신호(A)는, 적어도 부분 자율형인 로봇이 예를 들어 이미지 분류기(60)에 의해 식별된 객체들과의 충돌을 방지하는 방식으로 이동형 로봇의 구동 장치 및/또는 조향 장치가 제어되도록 결정될 수 있다.
도 5는, 제조 기계(11)를 제어하는 액추에이터(10)가 제어됨으로써 제어 시스템(40)이 제조 시스템(200)의 제조 기계(11)를 제어하는데 사용되는 일 실시예를 도시한다. 제조 기계(11)는 예를 들어 펀칭, 소잉, 드릴링 및/또는 절단을 위한 기계일 수 있다. 또한, 제조 기계(11)가 그리퍼(gripper)에 의해 제조 생산품(12a, 12b)을 파지하도록 형성되는 것도 고려 가능하다.
이 경우, 센서(30)는, 예를 들어 컨베이어 벨트(13)의 이송면을 감지하는 비디오 센서일 수 있으며, 컨베이어 벨트(13) 상에는 제조 생산품(12a, 12b)들이 위치할 수 있다. 이러한 경우, 입력 신호(x)들은 입력 이미지(x)들이고, 분류기(60)는 이미지 분류기이다. 이미지 분류기(60)는 예를 들어 컨베이어 벨트 상의 제조 생산품(12a, 12b)들의 위치를 결정하도록 구성될 수 있다. 이 경우, 제조 기계(11)를 제어하는 액추에이터(10)는 제조 생산품(12a, 12b)들의 결정된 위치들에 따라 제어될 수 있다. 예를 들어, 액추에이터(10)는, 제조 생산품(12a, 12b)의 사전 결정된 지점에서 제조 생산품(12a, 12b)을 펀칭, 소잉, 드릴링 및/또는 절단하도록 제어될 수 있다.
또한, 이미지 분류기(60)가, 위치에 대안적으로 또는 추가적으로 제조 생산품(12a, 12b)의 추가 특성들을 결정하도록 형성되는 것도 고려 가능하다. 특히, 제조 생산품(12a, 12b)이 결함을 갖는지 그리고/또는 손상되었는지 여부를 이미지 분류기(60)가 결정하는 것이 제시 가능하다. 이러한 경우, 액추에이터(10)는, 결함을 갖는 그리고/또는 손상된 제조 생산품(12a, 12b)을 제조 기계(11)가 선별하는 방식으로 제어될 수 있다.
도 6은 제어 시스템(40)이 액세스 시스템(300)을 제어하는데 사용되는 일 실시예를 도시한다. 액세스 시스템(300)은 물리적 액세스 제어, 예를 들어 도어(401)를 포함할 수 있다. 센서(30)는 특히, 도어(401) 전방의 영역을 감지하도록 구성되는 비디오 센서 또는 열화상 센서일 수 있다. 따라서, 분류기(60)는 이미지 분류기를 의미할 수 있다. 이미지 분류기(60)에 의해서는, 감지된 이미지가 해석될 수 있다. 특히, 이미지 분류기(60)는 자신에게 전송되는 입력 이미지(x) 상의 사람들을 감지할 수 있다. 복수의 사람들이 동시에 감지된 경우, 사람들(즉 객체들)을 서로에 대해 할당함으로써, 예를 들어 사람들의 신원이 예를 들어 사람들의 움직임들의 분석을 통해 특히 신뢰 가능하게 결정될 수 있다.
액추에이터(10)는, 제어 신호(A)에 따라 액세스 제어를 해제하거나 해제하지 않는, 예를 들어 도어(401)를 개방하거나 개방하지 않는 로킹 장치일 수 있다. 이를 위해, 제어 신호(A)는, 입력 이미지(x)에 대한 이미지 분류기(60)에 의해 결정되는 출력 신호(y)에 따라 선택될 수 있다. 예를 들어, 출력 신호(y)는 이미지 분류기(60)에 의해 감지된 사람의 신원을 특성화하는 정보를 포함하고, 제어 신호(A)는 이러한 사람의 신원에 기반하여 선택되는 것이 고려 가능하다.
물리적 액세스 제어 대신 논리적 액세스 제어가 제공될 수도 있다.
도 7은 제어 시스템(40)이 모니터링 시스템(400)을 제어하는데 사용되는 일 실시예를 도시한다. 이러한 실시예는, 제어 시스템(40)에 의해 제어되는 디스플레이 유닛(10a)이 액추에이터(10) 대신 제공된다는 점에서 도 4에 도시된 실시예와는 상이하다. 예를 들어, 센서(30)는, 하나 이상의 사람이 인식될 수 있는 입력 이미지(x)를 기록할 수 있고, 하나 이상의 사람의 위치는 이미지 분류기(60)에 의해 감지될 수 있다. 이 경우, 입력 이미지(x)는 디스플레이 유닛(10a) 상에 표시될 수 있고, 감지된 사람들은 색상으로 강조 표시될 수 있다.
도 8은 제어 시스템(40)이 개인용 어시스턴트(250)를 제어하는데 사용되는 일 실시예를 도시한다. 센서(30)는 바람직하게는 사용자(249)의 제스처의 이미지들을 수신하는 광학 센서, 예를 들어 비디오 센서 또는 열화상 카메라이다. 이러한 경우, 분류기(60)는 이미지 분류기이다.
센서(30)의 신호들에 따라, 예를 들어 이미지 분류기(60)가 제스처 인식을 실행함으로써, 제어 시스템(40)은 개인용 어시스턴트(250)의 제어 신호(A)를 결정한다. 이때, 개인용 어시스턴트(250)에는 이러한 결정된 제어 신호(A)가 전송되고, 이에 따라 개인용 어시스턴트는 상응하게 제어된다. 이러한 결정된 제어 신호(A)는 특히, 사용자(249)를 통한 원하는 추정된 제어에 상응하도록 선택될 수 있다. 이러한 원하는 추정된 제어는, 이미지 분류기(60)에 의해 인식되는 제스처에 따라 결정될 수 있다. 이때, 제어 시스템(40)은 원하는 추정된 제어에 따라, 개인용 어시스턴트(250)로의 전송을 위한 제어 신호(A)를 선택할 수 있고 그리고/또는 개인용 어시스턴트로의 전송을 위한 제어 신호(A)를, 원하는 추정된 제어(250)에 상응하게 선택할 수 있다.
예를 들어, 이러한 상응하는 제어는, 개인용 어시스턴트(250)가 데이터 베이스로부터 정보를 호출하고 이를 사용자(249)가 이해 가능하도록 재현하는 것을 포함할 수 있다.
개인용 어시스턴트(250) 대신에, 가전 기기(도시되지 않음), 특히 세탁기, 레인지, 오븐, 전자 레인지 또는 식기 세척기가 상응하게 제어되도록 제공될 수도 있다.
도 9는 제어 시스템(40)이 의료 영상 시스템(500), 예를 들어 MRI 장치, X레이 장치 또는 초음파 장치를 제어하는데 사용되는 일 실시예를 도시한다. 센서(30)는 예를 들어 이미징 센서를 통해 제공될 수 있다. 따라서, 분류기(60)는 이미지 분류기를 의미할 수 있다. 제어 시스템(40)을 통해 디스플레이 유닛(10a)이 제어된다.
센서(30)는 환자의 이미지, 예를 들어 X레이 이미지, MRI 이미지 또는 초음파 이미지를 결정하도록 구성된다. 이미지의 적어도 일부는 입력 이미지(x)로서 이미지 분류기(60)에 전송된다. 이미지 분류기(60)는 예를 들어 의미론적인 세그먼트화를 통해, 입력 이미지(x) 상에서 인식될 상이한 유형의 조직을 분류하도록 구성될 수 있다.
이때, 제어 신호(A)는, 결정된 유형의 조직이 디스플레이 유닛(10a) 상에 색상으로 강조 표시되는 방식으로 선택될 수 있다.
추가의 실시예들에서(도시되지 않음), 영상 시스템(500)은 비의료적 목적들을 위해, 예를 들어 공작물의 재료 특성들을 결정하기 위해 사용될 수도 있다. 이러한 목적을 위해, 영상 시스템(500)은 공작물의 이미지를 기록할 수 있다. 이러한 경우, 이미지 분류기(60)는, 이미지의 적어도 일부를 입력 이미지(x)로서 받아들이고, 공작물의 재료 특성들과 관련하여 분류하도록 구성될 수 있다. 이는 예를 들어 입력 이미지(x)의 의미론적인 세그먼트화를 통해 실행될 수 있다. 이와 같이 결정된 분류는, 예를 들어 입력 영상과 함께 디스플레이 장치(10a) 상에 표시될 수 있다.
"컴퓨터"라는 용어는 사전 결정 가능한 연산 규칙들을 처리하기 위한 임의의 장치들을 포함한다. 이러한 연산 규칙들은 소프트웨어 형태로, 하드웨어 형태로 또는 소프트웨어와 하드웨어의 혼합 형태로도 존재할 수 있다.
일반적으로, 복수는 인덱싱된 것을 의미할 수 있다. 즉, 각각의 복수의 요소에는, 바람직하게는 복수에 포함된 요소에 연속적인 정수들을 할당함으로써 고유의 인덱스가 할당된다. 바람직하게, 복수가 N개의 요소를 포함할 때, N은 복수의 요소의 수이며, 이러한 요소들에는 1개 내지 N개의 정수가 할당된다.

Claims (15)

  1. 이미지의 객체의 객체 감지를 특성화하는 출력 신호를 결정하기 위한 컴퓨터 구현 방법(100)으로서, 하기 단계들, 즉
    a. 이미지와 관련된 복수의 객체 감지들을 결정하는 단계(101);
    b. 복수의 객체 감지들에 기반하여 그래프를 결정하는 단계로서, 복수의 객체 감지들 중 객체 감지들이 그래프의 노드를 통해 특성화되고, 각각 2개의 객체 감지들 사이의 중첩들이 그래프의 에지들을 통해 특성화되는 단계(102);
    c. 밀도 기반 클러스터링 방법을 이용하여 그래프의 노드들 및 에지들에 기반하여 그래프의 클러스터를 결정하는 단계(103);
    d. 클러스터에 기반하여 객체 감지를 결정하고, 출력 신호 내의 객체 감지를 제공하는 단계(104);를 포함하는, 방법(100).
  2. 제1항에 있어서, 클러스터링 방법은 클러스터의 밀도 척도를 기반으로 그리고 클러스터의 연결 척도를 기반으로 실행되는, 방법(100).
  3. 제2항에 있어서, 클러스터링 방법은 하기 단계들, 즉
    e. 그래프 내의 각각의 노드들의 에지 가중치들의 합에 기반하여 시작 노드를 결정하고, 시작 노드를 클러스터의 노드로서 제공하는 단계(103a);
    f. 클러스터에 대한 연결이 가장 큰 그래프의 노드를 결정하는 단계이며, 이러한 노드는 클러스터 내에 포함되어 있지 않은 단계(103b);
    g. 노드의 추가가, 노드만큼 확장된 클러스터의 밀도 척도를 사전 결정 가능한 제1 임계값 아래로 떨어뜨리지 않고, 이러한 추가가, 노드만큼 확장된 클러스터의 연결 척도를 사전 결정 가능한 제2 임계값 아래로 떨어뜨리지 않는 경우, 클러스터에 노드를 추가하는 단계(103c);
    h. 그렇지 않은 경우, 결정된 클러스터로서 클러스터를 제공하는 단계(103d);를 포함하는, 방법(100).
  4. 제3항에 있어서, 단계(f.)에서 노드들이 반복적으로 결정되고, 단계(g.)로부터의 조건들 중 하나 이상의 조건이 더 이상 충족되지 않을 때까지 클러스터에 추가되며, 하나 이상의 조건이 더 이상 충족되지 않을 경우, 클러스터가 제공되고, 클러스터의 노드들은 그래프로부터 제거되는, 방법(100).
  5. 제4항에 있어서, 단계(e. 내지 h.)들은 노드가 더 이상 그래프 내에 포함되지 않을 때까지 반복적으로 되풀이되는, 방법(100).
  6. 제4항 또는 제5항에 있어서, 클러스터가 시작 노드로만 구성되는 경우, 클러스터에 기반하여 결정된 객체 감지가 출력 신호 내에 제공되지 않는, 방법(100).
  7. 제1항 내지 제6항 중 어느 한 항에 있어서, 복수의 객체 감지들이 이미지의 복수의 상이한 전처리들에 기반하여 결정되는, 방법(100).
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 그래프는 객체 감지들의 클래스와 관련하여 결정되는, 방법(100).
  9. 머신 러닝 시스템(60)의 훈련을 위한 컴퓨터 구현 방법으로서, 하기 단계들, 즉
    i. 이미지와(xi) 관련된 출력 신호(ti)를, 제1항 내지 제8항 중 어느 한 항에 따른 방법에 의해 결정하는 단계;
    j. 머신 러닝 시스템을 훈련시키는 단계이며, 이미지(xi)는 머신 러닝 시스템의 입력 신호로서 사용되고, 결정된 출력 신호(ti)는 원하는 출력 신호로서 사용되는 단계(60);를 포함하는, 방법.
  10. 제9항에 있어서, 복수의 이미지들에 대하여 제1항 내지 제8항 중 어느 한 항에 따른 방법에 의해 각각 하나의 출력 신호가 결정되고, 머신 러닝 시스템은 복수의 이미지들 및 각각 결정된 출력 신호들에 기반하여 훈련되는, 방법.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서, 밀도 척도는 하기 공식, 즉
    Figure pat00005

    을 통해 특성화되는, 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서, 연결 척도는 하기 공식, 즉
    Figure pat00006

    을 통해 특성화되는, 방법.
  13. 제9항 내지 제12항 중 어느 한 항에 따른 방법을 실행하도록 구성된 훈련 장치(140).
  14. 프로세서(45, 145)를 통해 실행될 때 제1항 내지 제12항 중 어느 한 항에 따른 방법을 실행하도록 구성된 컴퓨터 프로그램.
  15. 제14항에 따른 컴퓨터 프로그램이 저장된 머신 판독 가능한 저장 매체(46, 146).
KR1020220105266A 2021-08-23 2022-08-23 이미지의 객체 감지들을 결정하기 위한 방법 및 장치 KR20230029547A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102021209212.8 2021-08-23
DE102021209212.8A DE102021209212A1 (de) 2021-08-23 2021-08-23 Verfahren und Vorrichtung zum Ermitteln von Objektdetektionen eines Bildes

Publications (1)

Publication Number Publication Date
KR20230029547A true KR20230029547A (ko) 2023-03-03

Family

ID=85132103

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220105266A KR20230029547A (ko) 2021-08-23 2022-08-23 이미지의 객체 감지들을 결정하기 위한 방법 및 장치

Country Status (5)

Country Link
US (1) US20230056387A1 (ko)
JP (1) JP2023031291A (ko)
KR (1) KR20230029547A (ko)
CN (1) CN115719427A (ko)
DE (1) DE102021209212A1 (ko)

Also Published As

Publication number Publication date
US20230056387A1 (en) 2023-02-23
JP2023031291A (ja) 2023-03-08
CN115719427A (zh) 2023-02-28
DE102021209212A1 (de) 2023-02-23

Similar Documents

Publication Publication Date Title
US20220222929A1 (en) Method and device for testing the robustness of an artificial neural network
US8923609B2 (en) Semantic representation module of a machine learning engine in a video analysis system
EP3644237A1 (en) Learning method and learning device using multiple labeled databases with different label sets and testing method and testing device using the same
CN112541520A (zh) 用于为神经网络生成反事实数据样本的设备和方法
US20170286779A1 (en) Object detection in crowded scenes using context-driven label propagation
KR20190120489A (ko) 영상 인식 장치 및 방법
US20220245932A1 (en) Method and device for training a machine learning system
CN112989328A (zh) 用于检测对抗性攻击的系统和方法
CN115471824A (zh) 眼部状态检测方法、装置、电子设备和存储介质
US20230260259A1 (en) Method and device for training a neural network
US11276285B2 (en) Artificial intelligence based motion detection
KR20230029547A (ko) 이미지의 객체 감지들을 결정하기 위한 방법 및 장치
US20230031755A1 (en) Generative adversarial network for processing and generating images and label maps
US11867593B2 (en) Method and device for detecting anomalies in sensor recordings of a technical system
US11536630B2 (en) Method and device for detecting anomalies in sensor recordings of a technical system
JP7006724B2 (ja) 分類装置、分類方法、及び、プログラム
US20220019890A1 (en) Method and device for creating a machine learning system
CN112149790A (zh) 用于检查人工神经网络的鲁棒性的方法和设备
Al-Din Driving Maneuvers Recognition and Classification Using A Hyprid Pattern Matching and Machine Learning
US20230351741A1 (en) Method and device for training a neural network
US20220327332A1 (en) Method and device for ascertaining a classification and/or a regression result when missing sensor data
EP4322062A1 (en) Method for automated monitoring of a deep neural network, computing system and vehicle
US20230186051A1 (en) Method and device for determining a coverage of a data set for a machine learning system with respect to trigger events
EP4145402A1 (en) Device and method for training a neural network for image analysis
WO2022243062A1 (en) In-cabin monitoring method and related pose pattern categorization method