KR20230132112A - 발열 관리 회로 및 그 동작 방법, 이를 포함하는 전자 장치 및 데이터 처리 장치 - Google Patents
발열 관리 회로 및 그 동작 방법, 이를 포함하는 전자 장치 및 데이터 처리 장치 Download PDFInfo
- Publication number
- KR20230132112A KR20230132112A KR1020220029242A KR20220029242A KR20230132112A KR 20230132112 A KR20230132112 A KR 20230132112A KR 1020220029242 A KR1020220029242 A KR 1020220029242A KR 20220029242 A KR20220029242 A KR 20220029242A KR 20230132112 A KR20230132112 A KR 20230132112A
- Authority
- KR
- South Korea
- Prior art keywords
- temperature
- temperature sensor
- threshold
- deviation
- heat
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims description 22
- 238000011017 operating method Methods 0.000 title description 2
- 238000004458 analytical method Methods 0.000 claims abstract description 36
- 238000001816 cooling Methods 0.000 claims abstract description 35
- 239000004065 semiconductor Substances 0.000 claims abstract description 11
- 238000007726 management method Methods 0.000 claims description 45
- 230000020169 heat generation Effects 0.000 claims description 30
- 230000002159 abnormal effect Effects 0.000 claims description 28
- 238000013500 data storage Methods 0.000 claims description 20
- 238000000034 method Methods 0.000 claims description 20
- 206010037660 Pyrexia Diseases 0.000 claims description 16
- 238000010438 heat treatment Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 25
- 238000010586 diagram Methods 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 9
- 102100023927 Asparagine synthetase [glutamine-hydrolyzing] Human genes 0.000 description 8
- 101100380329 Homo sapiens ASNS gene Proteins 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 229910000679 solder Inorganic materials 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/16—Constructional details or arrangements
- G06F1/20—Cooling means
- G06F1/206—Cooling means comprising thermal management
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D23/00—Control of temperature
- G05D23/19—Control of temperature characterised by the use of electric means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/324—Power saving characterised by the action undertaken by lowering clock frequency
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/3287—Power saving characterised by the action undertaken by switching off individual functional units in the computer system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/3296—Power saving characterised by the action undertaken by lowering the supply or operating voltage
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Automation & Control Theory (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Cooling Or The Like Of Electrical Apparatus (AREA)
Abstract
일 실시예에 의한 발열 관리 회로는 정해진 기능을 수행하도록 설계된 적어도 하나의 반도체 기능회로에 설치된 복수의 온도 센서 각각으로부터 각각 전송된 복수의 제 1 온도신호가 스로틀링 조건을 만족하는 경우 기능회로를 설정된 시간 동안 냉각시키는 스로틀링부 및, 설정된 시간 경과 후 복수의 온도 센서 각각으로부터 복수의 제 2 온도신호를 수신하여 냉각 성공 여부를 판단하며, 냉각에 실패한 경우 이상치를 출력한 온도 센서를 검출하도록 구성되는 분석부를 포함하도록 구성될 수 있다.
Description
본 기술은 반도체 집적 장치에 관한 것으로, 보다 구체적으로는 발열 관리 회로 및 그 동작 방법, 이를 포함하는 전자 장치 및 데이터 처리 장치 에 관한 것이다.
전자 장치의 성능 향상은 전력 소모량 증가 및 그로 인한 온도 상승을 유발한다.
이에 대응하여 전자 장치의 온도가 임계값 이상 상승하는 경우 전자 장치의 성능을 하락시키거나 기능을 제한하여 온도를 유지 또는 강하시키는 스로틀링(throttling) 기능이 채택되고 있다.
데이터 플랫폼, 데이터 센터 등 중앙 집중식 데이터 처리 서비스를 제공하는 시스템은 복수의 전자 장치가 독립적 또는 협력적으로 동작하도록 구축된다. 이 때, 어느 하나의 전자 장치의 온도 상승으로 전체 시스템이 정지할 수 있으므로, 각 전자 장치의 다양한 발열 상황에 적절히 대처할 수 있는 방안이 요구된다.
본 기술의 실시예는 발열 원인을 분석할 수 있는 발열 관리 회로 및 그 동작 방법, 이를 포함하는 전자 장치 및 데이터 처리 장치를 제공할 수 있다.
본 기술의 일 실시예에 의한 발열 관리 회로는 정해진 기능을 수행하도록 설계된 적어도 하나의 반도체 기능회로에 설치된 복수의 온도 센서 각각으로부터 각각 전송된 복수의 제 1 온도신호가 스로틀링 조건을 만족하는 경우 상기 기능회로를 설정된 시간 동안 냉각시키는 스로틀링부; 및 상기 설정된 시간 경과 후 상기 복수의 온도 센서 각각으로부터 복수의 제 2 온도신호를 수신하여 냉각 성공 여부를 판단하며, 냉각에 실패한 경우 이상치를 출력한 온도 센서를 검출하도록 구성되는 분석부;를 포함하도록 구성될 수 있다.
본 기술의 일 실시예에 의한 발열 관리 회로의 동작 방법은 정해진 기능을 수행하도록 설계된 적어도 하나의 반도체 기능회로에 설치된 복수의 온도 센서 각각으로부터 복수의 제 1 온도신호를 수신하는 단계; 상기 제 1 온도신호가 스로틀링 조건을 만족하는 경우 상기 기능회로를 설정된 시간 동안 냉각시키는 단계; 상기 설정된 시간 경과 후 상기 복수의 온도 센서 각각으로부터 복수의 제 2 온도신호를 수신하여 냉각 성공 여부를 판단하는 단계; 및 냉각에 실패한 경우 이상치를 출력한 온도 센서를 검출하는 단계;를 포함하도록 구성될 수 있다.
본 기술의 일 실시예에 의한 전자 장치는 정해진 기능을 수행하도록 설계된 적어도 하나의 반도체 기능회로; 상기 기능회로의 온도를 감지하는 복수의 온도 센서; 상기 복수의 온도 센서 각각으로부터 수신된 제 1 온도신호에 기초하여 산출한 제 1 대표온도가 제 1 임계값 이상인 경우, 제1 시간 동안 상기 기능회로의 동작을 제한하는 스로틀링부; 및 상기 제 1 시간 경과 후 상기 복수의 온도 센서 각각으로부터 수신한 제 2 온도신호에 기초하여 산출한 제 2 대표온도가 제 2 임계값 이상인 경우, 상기 제 2 온도신호의 편차에 기초하여 발열 원인을 판단하는 분석부;를 포함하도록 구성될 수 있다.
본 기술의 일 실시예에 의한 데이터 처리 장치는 적어도 메모리 장치를 포함하여 정해진 기능을 수행하도록 설계된 적어도 하나의 반도체 기능회로 및, 상기 기능회로 및 상기 메모리 장치의 온도를 감지하는 복수의 온도 센서를 포함하는 데이터 저장 장치; 및 상기 복수의 온도 센서 각각으로부터 수신된 제 1 온도신호에 기초하여 산출한 제 1 대표온도가 제 1 임계값 이상인 경우, 제1 시간 동안 상기 기능회로 및 상기 메모리 장치의 동작을 제한하고, 상기 제 1 시간 경과 후 상기 복수의 온도 센서 각각으로부터 수신한 제 2 온도신호에 기초하여 산출한 제 2 대표온도가 제 2 임계값 이상인 경우, 상기 제 2 온도신호의 편차에 기초하여 발열 원인을 판단하는 컨트롤러;를 포함하도록 구성될 수 있다.
본 기술에 의하면, 전자 장치의 발열 원인이 전자 장치 자체에 있는지, 온도 센서의 문제인지, 전자 장치 외부의 문제인지를 분석할 수 있으므로, 분석 결과에 적응적으로 발열 원인을 제거할 수 있다.
도 1은 일 실시예에 의한 전자 장치의 구성도이다.
도 2는 일 실시예에 의한 발열 관리 회로의 구성도이다.
도 3은 일 실시예에 의한 전자 장치의 동작 방법을 설명하기 위한 흐름도이다.
도 4는 일 실시예에 의한 전자 장치의 동작 방법을 설명하기 위한 흐름도이다.
도 5는 일 실시예에 의한 스토리지 시스템의 구성도이다.
도 6 및 도 7은 실시예들에 따른 데이터 처리 시스템의 구성도이다.
도 8은 일 실시예에 의한 데이터 저장 장치를 포함하는 네트워크 시스템의 구성도이다.
도 9는 일 실시예에 의한 데이터 처리 시스템을 도시한 도면이다.
도 10은 일 실시 예에 의한 컴퓨팅 랙의 구조를 개략적으로 도시한 도면이다.
도 11은 일 실시 예에 의한 컴퓨팅 랙의 블록 구성을 도시한 도면이다.
도 12는일 실시 예에 의한 연산 보드의 구성을 도시한 도면이다.
도 13은 일 실시 예에 의한 메모리 보드의 구성을 도시한 도면이다.
도 2는 일 실시예에 의한 발열 관리 회로의 구성도이다.
도 3은 일 실시예에 의한 전자 장치의 동작 방법을 설명하기 위한 흐름도이다.
도 4는 일 실시예에 의한 전자 장치의 동작 방법을 설명하기 위한 흐름도이다.
도 5는 일 실시예에 의한 스토리지 시스템의 구성도이다.
도 6 및 도 7은 실시예들에 따른 데이터 처리 시스템의 구성도이다.
도 8은 일 실시예에 의한 데이터 저장 장치를 포함하는 네트워크 시스템의 구성도이다.
도 9는 일 실시예에 의한 데이터 처리 시스템을 도시한 도면이다.
도 10은 일 실시 예에 의한 컴퓨팅 랙의 구조를 개략적으로 도시한 도면이다.
도 11은 일 실시 예에 의한 컴퓨팅 랙의 블록 구성을 도시한 도면이다.
도 12는일 실시 예에 의한 연산 보드의 구성을 도시한 도면이다.
도 13은 일 실시 예에 의한 메모리 보드의 구성을 도시한 도면이다.
이하, 첨부된 도면을 참조하여 본 기술의 실시예를 보다 구체적으로 설명한다.
도 1은 일 실시예에 의한 전자 장치의 구성도이다.
도 1을 참조하면, 일 실시예에 의한 전자 장치(100)는 컨트롤러(110) 및 기능 회로 그룹(120)을 포함할 수 있다.
기능 회로 그룹(120)은 복수의 기능 회로(120-0 ~ 120-n)를 포함하고, 각 기능 회로(120-0 ~ 120-n)는 정해진 기능을 수행하도록 설계되어 SoC(System on Chip)에 집적될 수 있는 회로(circuit), 로직(logic) 등으로 지칭될 수 있는 반도체 장치, 또는 이들의 조합을 의미한다.
각 기능 회로(120-0 ~ 120-n)에는 적어도 하나의 온도 센서(TS01/TS02/TS03/TS04, TS11/TS12, TSn)가 설치될 수 있다. 기능 회로(120-0 ~ 120-n)에 설치되는 온도 센서의 개수는 같거나 다를 수 있다. 온도 센서(TS01/TS02/TS03/TS04, TS11/TS12, TSn) 각각에는 고유의 식별자(ID)가 부여되며 대응하는 기능 회로(120-0 ~ 120-n) 또는 그 주변의 온도를 측정한 온도신호를 컨트롤러(110)로 전송할 수 있다.
일 실시예에서, 기능 회로(120-1 ~120-n) 중 적어도 하나는 데이터 저장 장치일 수 있고, 이 경우 전자 장치(100)는 데이터 처리 장치라 칭할 수 있다. 데이터 저장 장치는 휘발성 및/또는 비휘발성 메모리 장치로 구성될 수 있다. 일 실시예에서, 데이터 저장 장치는 EEPROM(Electrically Erasable and Programmable ROM), 낸드(NAND) 플래시 메모리, 노어(NOR) 플래시 메모리, PRAM(Phase-Change RAM), ReRAM(Resistive RAM) FRAM(Ferroelectric RAM), STT-MRAM(Spin Torque Transfer Magnetic RAM) 등과 같은 다양한 비휘발성 메모리 소자 중에서 선택된 메모리 소자를 이용하여 구현될 수 있다.
데이터 저장 장치는 복수의 다이들(Die 0~Die n), 또는 복수의 칩들, 또는 복수의 패키지들을 포함할 수 있고, 하나의 메모리 셀에 한 비트의 데이터를 저장하는 싱글 레벨 셀(Single-Level Cell), 또는 하나의 메모리 셀에 복수 비트의 데이터를 저장하는 멀티 레벨 셀(Multi-Level Cell)로 이루어질 수 있다. 이 때, 복수의 다이, 칩, 패키지 별로 각각 온도 센서가 구비될 수 있다.
컨트롤러(110)는 프로세서(111), ROM(113), RAM(115), 입출력 인터페이스(I/O IF, 117) 및 발열 관리 회로(130)를 포함하여, 기능 회로 그룹(120)을 구성하는 각 기능 회로(120-0~120-n)를 제어하도록 구성될 수 있다.
프로세서(111)는 기능 회로들(120-0~120-n)의 다양한 동작을 제어하기 위해 제공되는 펌웨어를 하드웨어 상에서 실행시킴에 따라 동작할 수 있다.
ROM(113)에는 컨트롤러(110)의 동작에 필요한 프로그램 코드, 예를 들어 펌웨어 또는 소프트웨어가 저장되고, 프로그램 코드들이 이용하는 코드 데이터 등이 저장될 수 있다.
RAM(115)은 컨트롤러(110)의 동작에 필요한 데이터 또는 컨트롤러(110)에 의해 생성된 데이터를 저장할 수 있다.
입출력 인터페이스(117)는 전자 장치(100)와 외부 장치, 예를 들어 전자 장치(100)가 마운트되는 호스트 장치 간의 물리적 연결을 제공하기 위한 외부 인터페이스 장치를 포함할 수 있다. 입출력 인터페이스(177)는 컨트롤러(110)와 기능 회로 그룹(120) 간의 물리적 연결을 제공하기 위한 기능 회로 인터페이스 장치를 더 포함할 수 있다.
일 실시예에서, 외부 인터페이스 장치는 외부 장치의 버스 포맷에 대응하여 전자 장치(100와의 인터페이싱을 제공할 수 있다. 외부 장치의 버스 포맷은 시큐어 디지털(secure digital), USB(universal serial bus), MMC(multi-media card), eMMC(embedded MMC), PCMCIA(personal computer memory card international association), PATA(parallel advanced technology attachment), SATA(serial advanced technology attachment), SCSI(small computer system interface), SAS(serial attached SCSI), PCI(peripheral component interconnection), PCI-E(PCI Express), UFS(universal flash storage)와 같은 표준 인터페이스 프로토콜들 중 적어도 어느 하나를 포함할 수 있다.
외부 인터페이스 장치는 SMBus(System Management Bus), I2C(Inter-Integrated Circuit), I3C(Improved Inter-Integrated Circuit) 프로토콜에 기반한 인터페이스 장치 중 적어도 어느 하나를 더 포함할 수 있다.
기능 회로 인터페이스 장치는 컨트롤러(110)와 기능 회로 그룹(120) 간의 신호 송수신을 위한 통신 채널을 제공할 수 있다.
발열 관리 회로(130)는 각 온도 센서(TS01/TS02/TS03/TS04, TS11/TS12, TSn)로부터 전송되는 온도신호에 기초하여 기능 회로 그룹(120)의 발열 상태를 제어할 수 있다. 일 실시예에서, 발열 관리 회로(130)는 각 온도 센서(TS01/TS02/TS03/TS04, TS11/TS12, TSn)로부터 전송되는 제 1 온도신호 세트로부터 산출한 제 1 대표온도, 예를 들어 평균 온도가 제 1 임계값 이상인 경우, 설정된 시간 동안 각 기능 회로(120-0 ~120-n)의 동작을 제한하여 냉각시키는 스로틀링 동작을 수행할 수 있다. 기능 회로(120-0 ~120-n)의 동작을 제한하기 위하여 발열 관리 회로(130)는 각 기능 회로(120-0 ~120-n)를 파워-오프시킬 수 있으나, 이에 한정되는 것은 아니다.
발열 관리 회로(130)는 스로틀링 동작을 통해 기능 회로 그룹(120)이 정상적으로 냉각되지 않은 경우 발열 원인을 분석할 수 있다. 일 실시예에서, 발열 관리 회로(130)는 설정된 시간 동안 기능 회로(120-0 ~120-n)를 냉각한 후 각 온도 센서(TS01/TS02/TS03/TS04, TS11/TS12, TSn)로부터 전송되는 제 2 온도신호 세트로부터 산출한 제 2 대표온도가 제 2 임계값 이상인 경우 스로틀링 동작 즉, 냉각에 실패한 것으로 판단할 수 있다. 냉각에 실패한 것으로 판단하면, 발열 관리 회로(130)는 발열의 원인이 전자 장치(100)의 내부 발열에 의한 것이 아닌 다른 데 있는 것으로 판단하고 발열 원인을 분석할 수 있다.
일 실시예에서, 발열 관리 회로(130)는 제 2 온도신호 세트 중 이상치(anomaly value)를 출력한 적어도 하나의 온도 센서(TS01/TS02/TS03/TS04, TS11/TS12, TSn)를 검출할 수 있다. 일 실시예에서, 제 2 온도신호 세트 중 편차가 문턱값 이상인 제 2 온도신호를 이상치로 판단하고, 이를 출력한 적어도 하나의 온도 센서(TS01/TS02/TS03/TS04, TS11/TS12, TSn)의 오류로 인해 발열 상황이 감지된 것으로 판단할 수 있다. 편차가 문턱값 이상인 제 2 온도신호가 검출되지 않는 경우, 발열 관리 회로(130)는 제 2 온도신호 세트 중 편차가 최대인 제 2 온도신호를 이상치로 판단하고, 이를 출력한 온도 센서(TS01/TS02/TS03/TS04, TS11/TS12, TSn) 주변 환경의 발열로 인해 발열 상황이 감지된 것으로 판단할 수 있다.
발열 관리 회로(130)는 발열 원인 분석 결과를 외부 장치로 전송할 수 있고, 외부 장치 운용자는 이에 상응하는 조처를 취할 수 있다.
도 2는 일 실시예에 의한 발열 관리 회로의 구성도이다.
도 2를 참조하면, 일 실시예에 의한 발열 관리 회로(130)는 온도 수집부(1310), 스로틀링부(1320) 및 분석부(1330)를 포함할 수 있다.
복수의 온도 센서(TS01 ~ TSn)각각은 설정된 주기로 온도신호(S01 ~Sn)를 출력할 수 있고, 온도 수집부(1310)는 온도신호(S01 ~Sn)를 수신하여 저장할 수 있다.
스로틀링부(1320)는 온도 수집부(1310)로부터 제 1 온도신호 세트(TEMP2)를 수신하여 스로틀링 필요 여부를 판단하고, 각 기능 회로(120-0~120-n)로 모드제어 신호(MODE0 ~MODEn)를 출력할 수 있다. 일 실시예에서, 제 1 온도신호 세트(TEMP1)는 복수의 온도 센서(TS01 ~ TSn)에서 전송된 제 1 온도신호(S01 ~Sn)를 포함할 수 있다. 스로틀링부(1320)는 제 1 온도신호 세트(TEMP1)로부터 제 1 대표온도를 산출하고 제 1 임계값과 비교함으로써 스로틀링 즉, 냉각 필요 여부를 판단할 수 있다. 제 1 대표온도는 제 1 온도신호 세트(TEMP1)에 포함된 제 1 온도신호(S01 ~Sn)의 평균 온도일 수 있으나, 이에 한정되는 것은 아니다.
제 1 대표온도가 제 1 임계값 이상인 경우, 스로틀링부(1320)는 각 기능 회로(120-0 ~120-m)의 성능을 제한하기 위하여 모드제어 신호(MODE0 ~MODEn)를 제 1 논리값으로 출력할 수 있다. 예를 들어, 제 1 논리값은 기능 회로(120-0 ~120-n)를 파워-오프하기 위한 신호일 수 있다. 기능 회로(120-0 ~120-n)를 파워-오프하여 동작을 제한함에 의해 기능 회로(120-0 ~120-n)의 전력 소모를 차단하여 더 이상의 발열을 억제하여 냉각시킬 수 있다.
스로틀링부(1320)는 기능 회로(120-0 ~120-n)로 제 1 논리값의 모드제어 신호(MODE0 ~MODEn)를 전송하고 설정된 제 1 시간 경과 후, 분석부(1330)로 발열 원인을 분석하도록 요청하기 위한 제어신호(CON)를 전송할 수 있다.
분석부(1330)는 제어신호(CON)에 응답하여 온도 수집부(1310)로부터 제 2 온도신호 세트(TEMP2)를 수신하여 발열 원인을 분석할 수 있다. 제 2 온도신호 세트(TEMP2)는 제 1 시간 경과 후 복수의 온도 센서(TS01 ~TSn) 각각에서 감지된 복수의 제 2 온도신호(S01~Sn)를 포함할 수 있다. 분석부(1330)는 제 2 온도신호 세트(TEMP2)에 기초하여 냉각 성공 여부를 판단하며, 냉각에 실패한 경우 이상치를 출력한 온도 센서를 검출할 수 있다.
일 실시예에서, 분석부(1330)는 냉각 여부 판단부(1331), 편차 계산부(1333), 센서 검출부(1335) 및 메시지 생성부(1337)를 포함할 수 있다.
냉각 여부 판단부(1331)는 제 2 온도신호 세트(TEMP2)로부터 제 2 대표온도, 예를 들어 평균 온도를 산출하고 제 2 임계값과 비교함으로써 냉각 성공 여부를 판단할 수 있다. 냉각 여부 판단부(1331)는 제 2 온도신호 신호(TEMP2)의 대표온도가 제 2 임계값보다 낮은 경우 냉각에 성공한 것으로 판단하고, 스로틀링 성공 신호(COOL)를 스로틀링부(1320)로 전송할 수 있다.
스로틀링부(1320)는 스로틀링 성공 신호(COOL)에 응답하여, 각 기능 회로(120-0 ~120-m)로 제 2 논리값의 모드제어 신호(MODE0 ~MODEn)를 전송할 수 있다. 제 2 논리값은 각 기능 회로(120-0 ~120-m)를 성능 제한 이전의 상태로 복원하도록 제어하기 위한 신호일 수 있다.
편차 계산부(1333)는 제 2 온도신호 세트(TEMP2)의 제 2 대표온도가 제 2 임계값 이상인 경우, 제 2 온도신호 세트(TEMP2)에 포함된 제 2 온도신호들(S01~Sn)의 평균 및 편차를 산출할 수 있다.
센서 검출부(1335)는 편차 계산부(1333)의 계산 결과에 기초하여, 편차가 제 3 임계값 이상인 제 2 온도신호를 출력한 온도 센서가 적어도 하나 검출되면, 이를 비정상 온도 센서로 특정하고 발열코드를 설정할 수 있다. 센서 검출부(1335)는 편차가 제 3 임계값 이상인 온도 센서가 검출되지 않으면, 편차가 최대인 제 2 온도신호를 출력한 온도 센서를 비정상 온도 센서로 특정하고 발열코드를 설정할 수 있다.
발열코드는 발열 원인을 설명하는 코드이다. 제 2 온도신호 세트(TEMP2) 중 편차가 제 3 임계값 이상인 온도 센서가 검출되는 경우, 발열코드는 발열 원인이 온도 센서에 있음을 나타내기 위해 사전에 정의된 제 1 값으로 설정될 수 있다. 제 2 온도신호 세트(TEMP2) 중 편차가 제 3 임계값 이상인 온도 센서가 검출되지 않고 최대 편차를 갖는 제 2 온도신호를 출력한 온도 센서가 검출되는 경우, 발열코드는 발열 원인이 주변 환경에 있음을 나타내기 위해 사전에 정의된 값으로 설정될 수 있다.
센서 검출부(1335)는 발열코드 및 비정상 온도 센서의 ID를 메시지 생성부(1337)로 전송할 수 있다.
메시지 생성부(1337)는 발열코드, 비정상 온도 센서의 ID. 비정상 온도 센서에서 전송된 제 2 온도신호 및 편차를 포함하는 분석 정보(HTSRC)를 생성하여 외부 장치로 전송할 수 있다. 일 실시예에서, 분석 정보(HTSRC)는 SMBus, I2C, I3C 프로토콜에 기반한 인터페이스 장치 중 적어도 하나를 통해 전송될 수 있다.
예를 들어, [표 1]과 같이 제 1 내지 제 12 온도 센서(TS0~TS12)로부터 제 2 온도신호 세트(TEMP2)가 전송된 경우를 가정한다.
[표 1]
냉각 여부 판단부(1331)는 제 2 온도신호 세트(TEMP2)의 제 2 대표온도(평균 온도=29.5℃)가 제 2 임계값(예를 들어, 29℃) 이상인 경우 스로틀링 동작에 실패한 것으로 판단한다. 이에 따라, 편차 계산부(1333)는 제 2 온도신호 세트(TEMP2)에 포함된 제 2 온도신호들(S0~Sn)의 평균 및 편차를 산출할 수 있다.
센서 검출부(1335)는 편차 계산부(1333)의 계산 결과에 기초하여, 편차가 제 3 임계값 이상(예를 들어, 10℃)인 제 2 온도신호를 출력한 온도 센서(TS3)를 검출할 수 있다. 센서 검출부(133)는 이를 비정상 온도 센서로 특정하고, 발열 원인이 온도 센서에 있음을 나타내는 발열코드(예를 들어, 0x0)를 설정할 수 있다.
이에 기초하여 메시지 생성부(1337)에서 생성한 분석 정보(HTSRC)는 예를 들어 [표 2]와 같다.
[표 2]
예를 들어, [표 3]과 같이 제 1 내지 제 12 온도 센서(TS0~TS12)로부터 제 2 온도신호 세트(TEMP2)가 전송된 경우를 가정한다.
[표 3]
냉각 여부 판단부(1331)는 제 2 온도신호 세트(TEMP2)의 제 2 대표온도(평균 온도=76℃)가 제 2 임계값(예를 들어, 29℃) 이상인 경우 스로틀링 동작에 실패한 것으로 판단한다. 이에 따라, 편차 계산부(1333)는 제 2 온도신호 세트(TEMP2)에 포함된 제 2 온도신호들(S0~Sn)의 평균 및 편차를 산출할 수 있다.
센서 검출부(1335)는 편차가 제 3 임계값 이상(예를 들어, 10℃)인 제 2 온도신호를 출력한 온도 센서가 존재하지 않으므로, 최대 편차를 갖는 온도 센서(TS9)를 검출하고 비정상 온도 센서로 특정한다. 아울러, 발열 원인이 주변 환경에 있음을 나타내는 발열코드(예를 들어, 0x1)를 설정할 수 있다.
이에 기초하여 메시지 생성부(1337)에서 생성한 분석 정보(HTSRC)는 예를 들어 [표 4]와 같다.
[표 4]
외부 장치는 분석 정보(HTSRC)를 운용자에게 제공할 수 있고, 운용자는 분석 정보(HTSRC)에 포함된 정보에 기초하여 센서를 교체 또는 수리하거나, 센서 주변으로부터 발열원인을 제거하는 등의 조처를 취할 수 있다.
도 3은 일 실시예에 의한 전자 장치의 동작 방법을 설명하기 위한 흐름도이다.
전자 장치(100) 내의 기능 회로 그룹(120)에 설치된 복수의 온도 센서(TS01 ~ TSn)각각은 설정된 주기로 온도신호(S01 ~Sn)를 출력할 수 있다. 발열 관리 회로(130)를 포함하는 컨트롤러(110)는 제 1 온도신호(S01 ~Sn) 를 수신하고(S101), 제 1 대표온도를 산출하여 제 1 임계값(TH1)과 비교할 수 있다(S103). 제 1 대표온도는 예를 들어 특정 시점에 수집된 온도신호 세트의 평균일 수 있으나 이에 한정되는 것은 아니다.
제 1 대표온도가 제 1 임계값(TH1)보다 작은 경우(S103:N), 컨트롤러(110)는 제 1 온도신호를 수신하여(S101), 발열 여부를 계속 모니터링한다.
제 1 대표온도가 제 제 1 임계값(TH1) 이상인 경우(S103:Y), 컨트롤러(110)는 기능 회로 그룹(120)을 냉각시킬 수 있다(S105). 일 실시예에서, 컨트롤러(110)는 기능 회로 그룹(120)을 냉각시키기 위해, 기능 회로 그룹(120)의 성능을 제한하기 위한 제 1 논리값의 모드제어 신호(MODE0 ~MODEn)를 력할 수 있다. 예를 들어, 제 1 논리값은 기능 회로 그룹(120)을 파워-오프하기 위한 신호일 수 있다.
컨트롤러(110)는 성능 제한을 위한 모드제어 신호(MODE0 ~MODEn) 전송 후 설정된 제 1 시간이 경과한 시점에, 복수의 온도 센서(TS01 ~ TSn)로부터 수신된 제 2 온도신호(S01 ~Sn)로부터 제 2 대표온도를 산출하여 제 2 임계값(TH2)과 비교할 수 있다(S107). 일 실시예에서, 제 2 임계값(TH1)은 제 1 임계값(TH2)보다 작은 값일 수 있다.
제 2 대표온도가 제 2 임계값(TH2) 이상인 경우(S107:Y), 컨트롤러(110)는 제 2 온도신호(S01~Sn)에 기초하여 발열 원인을 분석하고(S109), 분석 결과를 외부 장치로 전송할 수 있다(S111).
도 4는 일 실시예에 의한 전자 장치의 동작 방법을 설명하기 위한 흐름도로서, 도 3에 도시한 온도신호 분석 과정(S109)의 상세 흐름도이다.
컨트롤러(110)는 제 2 온도신호(S01~Sn)의 평균 및 편차를 산출하고(S201), 편차가 제 3 임계값(TH2) 이상인 온도신호를 출력한 온도 센서가 검출되는지 확인할 수 있다(S203).
편차가 제 3 임계값(TH2) 이상인 온도신호를 출력한 온도 센서가 검출되는 경우(S203:Y), 컨트롤러(110)는 이를 비정상 온도 센서로 특정하고, 발열코드 및 센서 ID를 포함하는 제 1 비정상 센서 정보를 생성할 수 있다(S205). 이 때, 발열코드는 발열 원인이 온도 센서에 있음을 나타내기 위해 사전에 정의된 제 1 값으로 설정될 수 있다.
편차가 제 3 임계값(TH2) 이상인 온도신호를 출력한 온도 센서가 검출되지 않는 경우(S203:N), 컨트롤러(110)는 최대 편차를 갖는 제 2 온도신호를 출력한 온도 센서를 검출하여 비정상 온도 센서로 특정하고(S207), 발열코드 및 센서 ID를 포함하는 제 2 비정상 센서 정보를 생성할 수 있다(S209). 이 때, 발열코드는 발열 원인이 주변 환경에 있음을 나타내기 위해 사전에 정의된 값으로 설정될 수 있다.
이에 따라, 도 3의 분석 정보 출력 과정(S111)에서 컨트롤러는, 발열코드, 비정상 온도 센서의 ID. 비정상 온도 센서에서 전송된 온도신호 및 편차를 포함하는 분석 정보(HTSRC)를 생성하여 외부 장치로 전송할 수 있다.
전자 장치(100)의 발열이 감지되어 파워-오프 스로틀링을 수행하였으나, 근본적인 요인이 기능 회로들(120-0 ~120-n)의 동작에 의한 것이 아닌 다른 데 있을 수 있다.
본 기술에 의하면, 발열 원인을 정확히 분석하고 대처할 수 있으므로, 전자 장치를 불필요하게 파워-오프시킬 필요가 없다. 따라서, 데이터 플랫폼이나 데이터 센터 전체의 동작이 중단되는 것을 방지할 수 있다.
도 5은 일 실시예에 의한 스토리지 시스템의 구성도이다.
도 5을 참조하면, 스토리지 시스템(1000)은 호스트 장치(1100)와 데이터 저장 장치(1200)를 포함할 수 있다. 일 실시예에서, 데이터 저장 장치(1200)는 솔리드 스테이트 드라이브(solid state drive)(SSD)로 구성될 수 있다.
호스트 장치(110)는 외부장치로 지칭될 수 있고, 데이터 저장 장치(1200)는 도 1 및 도 2에 도시한 전자 장치(100)일 수 있다.
데이터 저장 장치(1200)는 컨트롤러(1210), 비휘발성 메모리 장치들(1220-0 ~ 1220-n), 버퍼 메모리 장치(1230), 전원 공급기(1240), 신호 커넥터(1101) 및 전원 커넥터(1103)를 포함할 수 있다.
컨트롤러(1210)는 데이터 저장 장치(1200)의 제반 동작을 제어할 수 있다. 컨트롤러(1210)는 호스트 인터페이스 유닛, 컨트롤 유닛, 동작 메모리로서의 랜덤 액세스 메모리, 에러 정정 코드(ECC) 유닛 및 메모리 인터페이스 유닛을 포함할 수 있다. 예를 들어, 컨트롤러(1210)는 도 1 및 도 2에 도시한 발열 관리 회로(130)를 포함하여, 비휘발성 메모리 장치들(1220-0 ~ 1220-n)을 포함하는 기능 회로들의 발열 원인을 분석하고 분석 결과를 외부장치로 출력할 수 있다.
호스트 장치(1100)와 데이터 저장 장치(1200)는 신호 커넥터(1101)를 통해 신호를 송수신할 수 있다. 여기에서, 신호란 명령어, 어드레스, 데이터를 포함할 수 있다.
컨트롤러(1210)는 호스트 장치(1100)로부터 입력된 신호를 분석하고 처리할 수 있다. 컨트롤러(1210)는 데이터 저장 장치(1200)를 구동하기 위한 펌웨어 또는 소프트웨어에 따라서 백그라운드 기능 블럭들의 동작을 제어할 수 있다
버퍼 메모리 장치(1230)는 비휘발성 메모리 장치들(1220-0 ~ 1220-n)에 저장될 데이터를 임시 저장할 수 있다. 또한, 버퍼 메모리 장치(1230)는 비휘발성 메모리 장치들(1220-0 ~ 1220-n)로부터 읽혀진 데이터를 임시 저장할 수 있다. 버퍼 메모리 장치(1230)에 임시 저장된 데이터는 컨트롤러(1210)의 제어에 따라 호스트 장치(1100) 또는 비휘발성 메모리 장치들(1220-0 ~ 1220-n)로 전송될 수 있다.
비휘발성 메모리 장치들(1220-0 ~ 1220-n)은 데이터 저장 장치(1200)의 저장 매체로 사용될 수 있다. 비휘발성 메모리 장치들(1220-0 ~ 1220-n) 각각은 복수의 채널들(CH0~CHn)을 통해 컨트롤러(1210)와 연결될 수 있다. 하나의 채널에는 하나 또는 그 이상의 비휘발성 메모리 장치가 연결될 수 있다. 하나의 채널에 연결되는 비휘발성 메모리 장치들은 동일한 신호 버스 및 데이터 버스에 연결될 수 있다.
전원 공급기(1240)는 전원 커넥터(1103)를 통해 입력된 전원을 데이터 저장 장치(1200)의 컨트롤러(1210), 비휘발성 메모리 장치들(1220-0 ~ 1220-n) 및 버퍼 메모리(1230)에 제공할 수 있다. 전원 공급기(1240)는 보조 전원 공급기(1241)를 포함할 수 있다. 보조 전원 공급기(1241)는 서든 파워 오프(sudden power off)가 발생되는 경우, 데이터 저장 장치(1200)가 정상적으로 종료될 수 있도록 전원을 공급할 수 있다. 보조 전원 공급기(1241)는 대용량 캐패시터들(capacitors)을 포함할 수 있으나 이에 한정되는 것은 아니다.
신호 커넥터(1101)는 호스트 장치(1100)와 데이터 저장 장치(1200)의 인터페이스 방식에 따라서 다양한 형태의 커넥터로 구성될 수 있음은 자명하다.
전원 커넥터(1103)는 호스트 장치(1100)의 전원 공급 방식에 따라서 다양한 형태의 커넥터로 구성될 수 있음은 물론이다.
도 6 및 도 7은 실시예들에 따른 데이터 처리 시스템의 구성도이다.
도 6을 참조하면, 데이터 처리 시스템(3000)은 호스트 장치(3100)와 메모리 시스템(3200)을 포함할 수 있다.
호스트 장치(3100)는 외부장치로 지칭될 수 있고, 메모리 시스템(3200)은 도 1 및 도 2에 전자 장치(100)일 수 있다.
호스트 장치(3100)는 인쇄 회로 기판(printed circuit board)과 같은 기판(board) 형태로 구성될 수 있다. 비록 도시되지 않았지만, 호스트 장치(3100)는 호스트 장치(3100)의 기능을 수행하기 위한 백그라운드 기능 블럭들을 포함할 수 있다.
호스트 장치(3100)는 소켓(socket), 슬롯(slot) 또는 커넥터(connector)와 같은 접속 터미널(3110)을 포함할 수 있다. 메모리 시스템(3200)은 접속 터미널(3110)에 마운트(mount)될 수 있다.
메모리 시스템(3200)은 인쇄 회로 기판과 같은 기판 형태로 구성될 수 있다. 메모리 시스템(3200)은 메모리 모듈 또는 메모리 카드로 불릴 수 있다. 메모리 시스템(3200)은 컨트롤러(3210), 버퍼 메모리 장치(3220), 비휘발성 메모리 장치(3231~3232), PMIC(power management integrated circuit)(3240) 및 접속 터미널(3250)을 포함할 수 있다.
컨트롤러(3210)는 메모리 시스템(3200)의 제반 동작을 제어할 수 있다.
컨트롤러(3210)는 도 1 및 도 2에 도시한 발열 관리 회로(130)를 포함하여, 비휘발성 메모리 장치(3231~3232)의 발열 원인을 분석하고, 분석 결과를 외부 장치로 출력할 수 있다.
버퍼 메모리 장치(3220)는 비휘발성 메모리 장치들(3231~3232)에 저장될 데이터를 임시 저장할 수 있다. 또한, 버퍼 메모리 장치(3220)는 비휘발성 메모리 장치들(3231~3232)로부터 읽혀진 데이터를 임시 저장할 수 있다. 버퍼 메모리 장치(3220)에 임시 저장된 데이터는 컨트롤러(3210)의 제어에 따라 호스트 장치(3100) 또는 비휘발성 메모리 장치들(3231~3232)로 전송될 수 있다.
비휘발성 메모리 장치들(3231~3232)은 메모리 시스템(3200)의 저장 매체로 사용될 수 있다.
PMIC(3240)는 접속 터미널(3250)을 통해 입력된 전원을 메모리 시스템(3200)에 제공할 수 있다. PMIC(3240)는, 컨트롤러(3210)의 제어에 따라서, 메모리 시스템(3200)의 전원을 관리할 수 있다.
접속 터미널(3250)은 호스트 장치의 접속 터미널(3110)에 연결될 수 있다. 접속 터미널(3250)을 통해서, 호스트 장치(3100)와 메모리 시스템(3200) 간에 커맨드, 어드레스, 데이터 등과 같은 신호와, 전원이 전달될 수 있다. 접속 터미널(3250)은 호스트 장치(3100)와 메모리 시스템(3200)의 인터페이스 방식에 따라 다양한 형태로 구성될 수 있다. 접속 터미널(3250)은 메모리 시스템(3200)의 어느 한 변에 배치될 수 있다.
도 7은 본 발명의 실시 예에 따른 메모리 시스템을 포함하는 데이터 처리 시스템을 예시적으로 도시하는 도면이다.
도 7을 참조하면, 데이터 처리 시스템(4000)은 호스트 장치(4100)와 메모리 시스템(4200)을 포함할 수 있다.
호스트 장치(4100)는 외부장치로 지칭될 수 있고, 메모리 시스템(4200)은 도 1 및 도 2에 도시한 전자 장치(100)일 수 있다.
호스트 장치(4100)는 인쇄 회로 기판(printed circuit board)과 같은 기판(board) 형태로 구성될 수 있다. 비록 도시되지 않았지만, 호스트 장치(4100)는 호스트 장치(4100)의 기능을 수행하기 위한 백그라운드 기능 블럭들을 포함할 수 있다.
메모리 시스템(4200)은 표면 실장형 패키지 형태로 구성될 수 있다. 메모리 시스템(4200)은 솔더 볼(solder ball)(4250)을 통해서 호스트 장치(4100)에 마운트될 수 있다. 메모리 시스템(4200)은 컨트롤러(4210), 버퍼 메모리 장치(4220) 및 비휘발성 메모리 장치(4230)를 포함할 수 있다.
컨트롤러(4210)는 메모리 시스템(4200)의 제반 동작을 제어할 수 있다. 컨트롤러(4210)는 도 1 및 도 2에 도시한 발열 관리 회로(130)를 포함하여, 비휘발성 메모리 장치(4230)를 포함하는 기능 회로의 발열 원인을 분석하고 분석 결과를 외부 장치로 출력할 수 있다.
버퍼 메모리 장치(4220)는 비휘발성 메모리 장치(4230)에 저장될 데이터를 임시 저장할 수 있다. 또한, 버퍼 메모리 장치(4220)는 비휘발성 메모리 장치들(4230)로부터 읽혀진 데이터를 임시 저장할 수 있다. 버퍼 메모리 장치(4220)에 임시 저장된 데이터는 컨트롤러(4210)의 제어에 따라 호스트 장치(4100) 또는 비휘발성 메모리 장치(4230)로 전송될 수 있다.
비휘발성 메모리 장치(4230)는 메모리 시스템(4200)의 저장 매체로 사용될 수 있다.
도 8은 일 실시예에 의한 데이터 저장 장치를 포함하는 네트워크 시스템의 구성도이다.
도 8을 참조하면, 네트워크 시스템(5000)은 네트워크(5500)를 통해서 연결된 서버 시스템(5300) 및 복수의 클라이언트 시스템들(5410~5430)을 포함할 수 있다.
서버 시스템(5300)은 복수의 클라이언트 시스템들(5410~5430)의 요청에 응답하여 데이터를 서비스할 수 있다. 예를 들면, 서버 시스템(5300)은 복수의 클라이언트 시스템들(5410~5430)로부터 제공된 데이터를 저장할 수 있다. 다른 예로서, 서버 시스템(5300)은 복수의 클라이언트 시스템들(5410~5430)로 데이터를 제공할 수 있다.
서버 시스템(5300)은 호스트 장치(5100) 및 메모리 시스템(5200)을 포함할 수 있다. 호스트 장치(5100)는 외부장치로 지칭될 수 있고, 메모리 시스템(5200)은 도 1 및 도 2에 발열 관리 회로(130)를 포함하는 컨트롤러(110) 및 메모리 장치를 포함하는 기능 회로 그룹(120)을 포함하여, 기능 회로의 발열 원인을 분석하고 분석 결과를 외부 장치로 출력할 수 있다.
도 9는 데이터 처리 시스템(10)을 도시하는 도면이다. 도 9를 참조하면, 데이터 처리 시스템(10)은 복수의 컴퓨팅 랙들(computing racks, 20)과 관리 인터페이스(management interface, 30), 그리고 이들 사이의 통신이 가능하도록 하는 네트워크(network, 40)을 포함할 수 있다. 이러한 랙스케일 구조(rack-scale architecture)의 데이터 처리 시스템(10)은 예를 들어 대용량 데이터 처리를 위한 데이터 센터 등에 사용될 수 있다.
복수의 컴퓨팅 랙(20)들 각각은 다른 컴퓨팅 랙(20)들과의 조합으로 하나의 컴퓨팅 시스템을 구현할 수 있다.
관리 인터페이스(30)는 사용자가 데이터 처리 시스템(10)을 조정, 운영 또는 관리할 수 있도록 하는 인터액티브 인터페이스(interactive interface)를 제공할 수 있다. 관리 인터페이스(30)는 컴퓨터, 멀티프로세서 시스템, 서버, 랙마운트(rack-mount) 서버, 보드(board) 서버, 랩탑(lap-top) 컴퓨터, 노트북 컴퓨터, 태블릿 컴퓨터, 웨어러블 컴퓨팅 시스템, 네트워크 기기, 웹 기기, 분산 컴퓨팅 시스템, 프로세서 기반 시스템, 및/또는 소비자 전자 기기를 포함하는, 임의 유형의 연산 디바이스로서 구현될 수 있다.
일부 실시 예들에서, 데이터 처리 시스템(10)은 컴퓨팅 랙(20)들에 의해 수행될 수 있는 연산 기능들이나, 관리 인터페이스(30)에 의해 수행될 수 있는 사용자 인터페이스 기능들을 가지는 분산 시스템으로 구현될 수 있다. 다른 일부 실시 예들에서, 데이터 처리 시스템(10)은 네트워크(40)를 통하여 분산된 다중 컴퓨팅 시스템들에 의해 구성되고 클라우드(cloud)로서 동작하는 가상 서버(virtual server)로 구현될 수 있다. 관리 인터페이스(30)는 프로세서, 입력/출력 서브시스템, 메모리, 데이터 스토리지 디바이스 및 통신 회로를 포함할 수 있다.
네트워크(40)는 컴퓨팅 랙들과 관리 인터페이스(30) 사이 및/또는 컴퓨팅 랙들 사이에서의 데이터를 송수신하는 채널일 수 있다. 네트워크(40)는 유선 및/또는 무선 네트워크들에 의해 구현될 수 있다. 예를 들어, 네트워크(40)는 유선 또는 무선 LAN(local area network), WAN(wide area network) 셀룰러 네트워크, 및/또는 인터넷과 같이 공개적으로 액세스 가능한 글로벌 네트워크(publicly-accessible, global network)에 의해 구현되거나 이를 포함할 수 있다. 추가적으로, 네트워크(40)은 보조적인 컴퓨터들, 라우터(router)들 및 스위치들과 같은 적어도 하나의 보조적인 네트워크 디바이스들을 포함할 수 있다. 또한, 네트워크(40)는 CCIX(Cache Coherent Interconnect for accelerators) 및 GEN-Z와 같은 인터페이스 규격에 기초한 인터페이스 네트워크를 포함할 수 있다.
도 10은 본 발명의 실시 예에 따른 컴퓨팅 랙 구조를 개략적으로 도시하는 도면이다.
도 10을 참조하면, 컴퓨팅 랙(20)은 구성요소들의 구조, 형태 및 호칭 등에 제한되는 것은 아니지만, 다양한 형태의 구성요소들을 포함할 수 있다. 예를 들어, 컴퓨팅 랙(20) 은 복수의 드로워(drawer)들(21 내지 29)를 포함할 수 있다. 복수의 드로워들 (21 내지 29) 각각은 복수의 보드(board)들을 포함할 수 있다.
다양한 실시 예들에 있어서, 컴퓨팅 랙(20)은 적절한 수의 연산 보드(COMPUTE), 메모리 보드(MEMORY) 및/또는 상호접속 보드(INTERCONNECT)의 조합에 의해 구현될 수 있다. 여기서는 컴퓨팅 랙(20)이 복수의 보드들의 조합에 의해 구현되는 것으로 정의되고 있지만, 이를 대신하여, 드로워들, 모듈들, 트레이들, 블레이드들, 샷시들 또는 유닛들 등의 다양한 이름으로 구현되는 것으로 정의될 수 있음에 유의하여야 한다. 이러한 컴퓨팅 랙(20)의 구성요소들은 구현의 편의상 기능별로 분류 및 구별되는 구조를 가질 수 있다. 제한되는 것은 아니지만, 컴퓨팅 랙(20)은 상단부터 상호접속 보드, 연산 보드, 메모리 보드의 순서로 분류된 구조를 가질 수 있다. 이러한 컴퓨팅 랙(20) 및 이에 의해 구현되는 컴퓨팅 시스템은 "랙스케일 시스템(rack-scale system)" 또는"분류(또는 분리된) 시스템(disaggregated system)"으로 명명될 수 있다. 메모리 보드는 메모리 시스템으로 지칭될 수 있고, 도 1 및 도 2에 발열 관리 회로(130)를 포함하는 컨트롤러 및 메모리 장치를 포함하는 기능 회로 그룹을 포함하여, 기능 회로 그룹의 발열 원인을 분석하고, 분석 결과를 외부 장치로 출력할 수 있다.
다양한 실시 예들에 있어서, 컴퓨팅 시스템은 하나의 컴퓨팅 랙(20)에 의해 구현될 수 있다. 이를 대신하여, 컴퓨팅 시스템은 2개 이상의 컴퓨팅 랙들에 포함되는 모든 구성요소들에 의해 구현되거나, 2개 이상의 컴퓨팅 랙들에 포함되는 일부 구성요소들의 조합에 의해 구현되거나, 하나의 컴퓨팅 랙(20)에 포함되는 일부 구성요소들에 의해 구현될 수 있다.
다양한 실시 예들에 있어서, 컴퓨팅 시스템은 컴퓨팅 랙(20)에 포함되는 적절한 수의 연산 보드, 메모리 보드 및 상호접속 보드(interconnect board)의 조합에 의해 구현될 수 있다. 예를 들어, 컴퓨팅 시스템(20A)는 2개의 연산 보드(COMPUTE)들, 3개의 메모리 보드(MEMORY)들 및 1개의 상호접속 보드(INTERCONNECT)에 의해 구현될 수 있다. 다른 예로, 컴퓨팅 시스템(20B)는 3개의 연산 보드(COMPUTE)들, 2개의 메모리 보드(MEMORY)들 및 1개의 상호접속 보드(INTERCONNECT)에 의해 구현될 수 있다. 또 다른 예로, 컴퓨팅 시스템(20C)는 1개의 연산 보드(COMPUTE)들, 4개의 메모리 보드(MEMORY)들 및 1개의 상호접속 보드(INTERCONNECT)에 의해 구현될 수 있다.
비록 도 10에서는 컴퓨팅 랙(20)이 적절한 수의 연산 보드, 메모리 보드 및/또는 상호접속 보드의 조합에 의해 구현되는 경우를 도시하고 있지만, 컴퓨팅 랙(20)은 통상의 서버 등에서 확인될 수 있는, 파워 시스템, 냉각 시스템, 입력/출력 디바이스들과 같은 추가적인 구성요소들을 포함할 수 있다.
이러한 중앙 집중식 컴퓨팅 시스템은 방대한 양의 연산을 고속으로 수행하므로, 발열 원인을 신속하게 규명하고 대응함으로써 보다 양질의 서비스를 제공할 수 있다.
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100 : 전자 장치
110 : 컨트롤러
120 : 기능회로 그룹
110 : 컨트롤러
120 : 기능회로 그룹
Claims (24)
- 정해진 기능을 수행하도록 설계된 적어도 하나의 반도체 기능회로에 설치된 복수의 온도 센서 각각으로부터 각각 전송된 복수의 제 1 온도신호가 스로틀링 조건을 만족하는 경우 상기 기능회로를 설정된 시간 동안 냉각시키는 스로틀링부; 및
상기 설정된 시간 경과 후 상기 복수의 온도 센서 각각으로부터 복수의 제 2 온도신호를 수신하여 냉각 성공 여부를 판단하며, 냉각에 실패한 경우 이상치를 출력한 온도 센서를 검출하도록 구성되는 분석부;
를 포함하도록 구성되는 발열 관리 회로. - 제 1 항에 있어서,
상기 스로틀링부는 상기 복수의 제 1 온도신호로부터 산출한 제 1 대표온도가 제 1 임계값 이상인 경우 상기 스로틀링 조건을 만족하는 것으로 판단하는 발열 관리 회로. - 제 1 항에 있어서,
상기 스로틀링부는, 상기 기능회로를 냉각시키기 위하여 상기 기능회로를 파워-오프시키는 발열 관리 회로. - 제 1 항에 있어서,
상기 분석부는, 상기 복수의 제 2 온도신호로부터 산출한 제 2 대표온도가 제 2 임계값 미만인 경우 냉각이 성공한 것으로 판단하고,
상기 스로틀링부는, 냉각이 성공한 경우 상기 기능 회로를 재기동하는 발열 관리 회로. - 제 1 항에 있어서,
상기 분석부는, 상기 복수의 제 2 온도신호로부터 산출한 제 2 대표온도가 제 2 임계값 이상인 경우 냉각이 실패한 것으로 판단하는 발열 관리 회로. - 제 1 항에 있어서,
상기 분석부는, 상기 복수의 제 2 온도신호의 평균 및 편차를 산출하여, 상기 편차가 제 3 임계값 이상인 제 2 온도신호를 전송한 온도 센서를 상기 이상치를 출력한 온도 센서로 검출하도록 구성되는 발열 관리 회로. - 제 6 항에 있어서,
상기 분석부는, 발열 원인이 상기 이상치를 출력한 온도 센서에 있는 것으로 결정하고, 상기 발열 원인을 외부 장치로 전송하도록 구성되는 발열 관리 회로. - 제 1 항에 있어서,
상기 분석부는, 상기 복수의 제 2 온도신호의 평균 및 편차를 산출하여, 상기 편차가 제 3 임계값 이상인 제 2 온도신호를 전송한 온도 센서가 검출되지 않는 경우, 상기 편차가 최대인 제 2 온도신호를 전송한 온도 센서를 상기 이상치를 출력한 온도 센서로 검출하도록 구성되는 발열 관리 회로. - 제 8 항에 있어서,
상기 분석부는, 발열 원인이 상기 이상치를 출력한 온도 센서 주변 환경에 있는 것으로 결정하고, 상기 발열 원인을 외부 장치로 전송하도록 구성되는 발열 관리 회로. - 정해진 기능을 수행하도록 설계된 적어도 하나의 반도체 기능회로에 설치된 복수의 온도 센서 각각으로부터 복수의 제 1 온도신호를 수신하는 단계;
상기 제 1 온도신호가 스로틀링 조건을 만족하는 경우 상기 기능회로를 설정된 시간 동안 냉각시키는 단계;
상기 설정된 시간 경과 후 상기 복수의 온도 센서 각각으로부터 복수의 제 2 온도신호를 수신하여 냉각 성공 여부를 판단하는 단계; 및
냉각에 실패한 경우 이상치를 출력한 온도 센서를 검출하는 단계;
를 포함하도록 구성되는 발열 관리 회로의 동작 방법. - 제 10 항에 있어서,
상기 복수의 제 1 온도신호로부터 산출한 제 1 대표온도가 제 1 임계값 이상인 경우 상기 스로틀링 조건을 만족하는 것으로 판단하는 단계를 더 포함하는 발열 관리 회로의 동작 방법. - 제 10 항에 있어서,
상기 냉각시키는 단계는, 상기 기능회로를 파워-오프시키는 단계를 포함하는 발열 관리 회로의 동작 방법. - 제 10 항에 있어서,
상기 냉각 성공 여부를 판단하는 단계는, 상기 복수의 제 2 온도신호로부터 산출한 제 2 대표온도가 제 2 임계값 미만인 경우 냉각이 성공한 것으로 판단하는 단계; 및
냉각이 성공한 경우 상기 기능 회로를 재기동하는 단계;
를 더 포함하는 발열 관리 회로의 동작 방법. - 제 10 항에 있어서,
상기 냉각 성공 여부를 판단하는 단계는, 상기 복수의 제 2 온도신호로부터 산출한 제 2 대표온도가 제 2 임계값 이상인 경우 냉각이 실패한 것으로 판단하는 단계를 더 포함하는 발열 관리 회로의 동작 방법. - 제 10 항에 있어서,
상기 이상치를 출력한 온도 센서를 검출하는 단계는, 상기 복수의 제 2 온도신호의 평균 및 편차를 산출하는 단계; 및
상기 편차가 제 3 임계값 이상인 제 2 온도신호를 전송한 온도 센서를 상기 이상치를 출력한 온도 센서로 검출하는 단계;
를 더 포함하도록 구성되는 발열 관리 회로의 동작 방법. - 제 15 항에 있어서,
발열 원인이 상기 이상치를 출력한 온도 센서에 있는 것으로 결정하고, 상기 발열 원인을 외부 장치로 전송하는 단계를 더 포함하도록 구성되는 발열 관리 회로의 동작 방법. - 제 10 항에 있어서,
상기 이상치를 출력한 온도 센서를 검출하는 단계는, 상기 복수의 제 2 온도신호의 평균 및 편차를 산출하는 단계; 및
상기 편차가 제 3 임계값 이상인 제 2 온도신호를 전송한 온도 센서가 검출되지 않는 경우, 상기 편차가 최대인 제 2 온도신호를 전송한 온도센서를 상기 이상치를 출력한 온도 센서로 검출하는 단계;
를 더 포함하도록 구성되는 발열 관리 회로의 동작 방법. - 제 17 항에 있어서,
발열 원인이 상기 이상치를 출력한 온도 센서 주변 환경에 있는 것으로 결정하고, 상기 발열 원인을 외부 장치로 전송하는 단계를 더 포함하도록 구성되는 발열 관리 회로의 동작 방법. - 정해진 기능을 수행하도록 설계된 적어도 하나의 반도체 기능회로;
상기 기능회로의 온도를 감지하는 복수의 온도 센서;
상기 복수의 온도 센서 각각으로부터 수신된 제 1 온도신호에 기초하여 산출한 제 1 대표온도가 제 1 임계값 이상인 경우, 제1 시간 동안 상기 기능회로의 동작을 제한하는 스로틀링부; 및
상기 제 1 시간 경과 후 상기 복수의 온도 센서 각각으로부터 수신한 제 2 온도신호에 기초하여 산출한 제 2 대표온도가 제 2 임계값 이상인 경우, 상기 제 2 온도신호의 편차에 기초하여 발열 원인을 판단하는 분석부;
를 포함하도록 구성되는 전자 장치. - 제 19 항에 있어서,
상기 분석부는, 상기 편차가 제 3 임계값 이상인 제 2 온도신호를 출력한 온도 센서를 검출하여 상기 발열 원인을 판단하도록 구성되는 전자 장치. - 제 19 항에 있어서,
상기 분석부는, 상기 편차가 제 3 임계값 이상인 제 2 온도신호를 전송한 온도 센서가 검출되지 않는 경우, 상기 편차가 최대인 제 2 온도신호를 출력한 온도 센서를 검출하여 상기 발열 원인을 판단하도록 구성되는 전자 장치. - 적어도 메모리 장치를 포함하여 정해진 기능을 수행하도록 설계된 적어도 하나의 반도체 기능회로 및, 상기 기능회로 및 상기 메모리 장치의 온도를 감지하는 복수의 온도 센서를 포함하는 데이터 저장 장치; 및
상기 복수의 온도 센서 각각으로부터 수신된 제 1 온도신호에 기초하여 산출한 제 1 대표온도가 제 1 임계값 이상인 경우, 제1 시간 동안 상기 기능회로 및 상기 메모리 장치의 동작을 제한하고, 상기 제 1 시간 경과 후 상기 복수의 온도 센서 각각으로부터 수신한 제 2 온도신호에 기초하여 산출한 제 2 대표온도가 제 2 임계값 이상인 경우, 상기 제 2 온도신호의 편차에 기초하여 발열 원인을 판단하는 컨트롤러;
를 포함하도록 구성되는 데이터 처리 장치. - 제 22 항에 있어서,
상기 컨트롤러는, 상기 편차가 제 3 임계값 이상인 제 2 온도신호를 출력한 온도 센서를 검출하여 상기 발열 원인을 판단하도록 구성되는 데이터 처리 장치. - 제 22 항에 있어서,
상기 컨트롤러는, 상기 편차가 제 3 임계값 이상인 제 2 온도신호를 전송한 온도 센서가 검출되지 않는 경우, 상기 편차가 최대인 제 2 온도신호를 출력한 온도 센서를 검출하여 상기 발열 원인을 판단하도록 구성되는 데이터 처리 장치.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220029242A KR20230132112A (ko) | 2022-03-08 | 2022-03-08 | 발열 관리 회로 및 그 동작 방법, 이를 포함하는 전자 장치 및 데이터 처리 장치 |
US17/958,521 US20230288971A1 (en) | 2022-03-08 | 2022-10-03 | Heat management circuit, method for operating the same, and electronic device and data processing apparatus including the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220029242A KR20230132112A (ko) | 2022-03-08 | 2022-03-08 | 발열 관리 회로 및 그 동작 방법, 이를 포함하는 전자 장치 및 데이터 처리 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20230132112A true KR20230132112A (ko) | 2023-09-15 |
Family
ID=87931654
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220029242A KR20230132112A (ko) | 2022-03-08 | 2022-03-08 | 발열 관리 회로 및 그 동작 방법, 이를 포함하는 전자 장치 및 데이터 처리 장치 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230288971A1 (ko) |
KR (1) | KR20230132112A (ko) |
-
2022
- 2022-03-08 KR KR1020220029242A patent/KR20230132112A/ko unknown
- 2022-10-03 US US17/958,521 patent/US20230288971A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230288971A1 (en) | 2023-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102414047B1 (ko) | 통합 메모리 디바이스 및 그의 동작 방법 | |
US11636014B2 (en) | Memory system and data processing system including the same | |
US8639963B2 (en) | System and method for indirect throttling of a system resource by a processor | |
US6892311B2 (en) | System and method for shutting down a host and storage enclosure if the status of the storage enclosure is in a first condition and is determined that the storage enclosure includes a critical storage volume | |
US20040027799A1 (en) | Computer system | |
US10409756B2 (en) | Multi-node server platform with modularly replaceable cards | |
TW201800952A (zh) | 機箱管理系統及機箱管理方法 | |
US10856441B1 (en) | System and method for bi-side heating vapor chamber structure in an information handling system | |
KR20090057006A (ko) | 프로세서 성능을 제한하기 위한 시스템 및 방법 | |
US10863653B2 (en) | Thermal testing system and method of thermal testing | |
US11754519B2 (en) | System and method to create an air flow map and detect air recirculation in an information handling system | |
US10437477B2 (en) | System and method to detect storage controller workloads and to dynamically split a backplane | |
US12050508B2 (en) | Data processing system and operating method thereof | |
US11659695B2 (en) | Telemetry system supporting identification of data center zones | |
CN113821091B (zh) | 风扇故障补偿 | |
TWI468922B (zh) | 電子裝置及其管理方法與機櫃伺服系統 | |
CN107533348B (zh) | 热管理高性能计算系统的方法和装置及计算机可读介质 | |
KR20210006664A (ko) | 메모리 시스템 및 그것의 동작방법 | |
US6697254B1 (en) | Computer system | |
KR20230132112A (ko) | 발열 관리 회로 및 그 동작 방법, 이를 포함하는 전자 장치 및 데이터 처리 장치 | |
US11507446B1 (en) | Hot-swap controller fault reporting system | |
US11809893B2 (en) | Systems and methods for collapsing resources used in cloud deployments | |
US11579074B2 (en) | Assessment of humidity and non-humidity driven corrosion risk | |
US11221656B2 (en) | Method and apparatus for selective fan control in an information handling system | |
KR102394695B1 (ko) | 메모리 시스템 및 그것의 동작방법 |