TWI784379B - 控制系統、控制方法 - Google Patents

控制系統、控制方法 Download PDF

Info

Publication number
TWI784379B
TWI784379B TW109146413A TW109146413A TWI784379B TW I784379 B TWI784379 B TW I784379B TW 109146413 A TW109146413 A TW 109146413A TW 109146413 A TW109146413 A TW 109146413A TW I784379 B TWI784379 B TW I784379B
Authority
TW
Taiwan
Prior art keywords
aforementioned
lan
series
survival
pair
Prior art date
Application number
TW109146413A
Other languages
English (en)
Other versions
TW202131185A (zh
Inventor
河合英宏
遲野井英樹
大宮英典
Original Assignee
日商日立製作所股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日商日立製作所股份有限公司 filed Critical 日商日立製作所股份有限公司
Publication of TW202131185A publication Critical patent/TW202131185A/zh
Application granted granted Critical
Publication of TWI784379B publication Critical patent/TWI784379B/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/40Bus networks
    • H04L12/40169Flexible bus arrangements
    • H04L12/40176Flexible bus arrangements involving redundancy
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/46Interconnection of networks
    • H04L12/4604LAN interconnection over a backbone network, e.g. Internet, Frame Relay
    • H04L12/462LAN interconnection over a bridge based backbone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0811Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Abstract

[課題] 以短時間來不會發生誤辨識地而檢測出路徑與裝置之障礙。 [解決手段] 多重系系統,係具備有:第1系,係具備構成對(pair)之一對的處理裝置;和第2系,係具備構成對之身為與第1系相異之處理裝置的1對之處理裝置,並具備有:第1對間LAN,係將第1系之一對的處理裝置直接作連結;和第2對間LAN,係將第2系之一對的處理裝置直接作連結;和第1系間LAN,係將第1系之一對的處理裝置中之其中一方之處理裝置與第2系之一對的處理裝置中之其中一方之處理裝置直接作連結;和第2系間LAN,係將第1系之一對的處理裝置中之另外一方之處理裝置與第2系之一對的處理裝置中之另外一方之處理裝置直接作連結;和內部LAN,係身為為了收訊從相對於多重系系統而被設置在內部側之計算節點而來之處理結果並進行特定之處理所被作連接的內部LAN,並將第1系以及第2系之一對的處理裝置之各者作連接;和外部LAN,係身為為了將從計算節點而來之處理結果送訊至相對於多重系系統而被設置在外部側之特定之終端處所被作連接的外部LAN,並將第1系以及第2系之一對的處理裝置之各者作連接,第1系以及第2系之各處理裝置,係具備有:生存監視部,係基於用以對於各處理裝置進行生存確認之裝置超時(time out)和被設定為較該裝置超時而更長的用以對於各LAN進行生存確認之路徑超時,來對於各處理裝置或各LAN之障礙作監視。

Description

控制系統、控制方法
本發明,係有關於多重系系統之控制系統、控制方法。
於先前技術中,係存在有「對於構成多重系系統之裝置間以及路徑的生存狀態作監視,並在檢測出異常時進行縮退(fall back)或者是對於系作切換」的技術。例如,在專利文獻1中,係基於從複數之路徑而來之生存通知,來判定障礙部位,並因應於部位而決定停止對象。
[先前技術文獻] [專利文獻]
[專利文獻1]WO2018/037535號公報
在專利文獻1中,係藉由複數之路徑來對於設施間進行生存監視,並收集各設施所管理的生存資訊,並且對於網路障礙與設施障礙作區分而進行障礙檢測,再 因應於障礙場所而使適當的設施停止。然而,該技術係以雲端環境作為前提,而並未針對以短時間來不會發生誤辨識地而檢測出路徑與裝置之障礙的方法有所提及。
本發明之其中一個側面,係以提供一種能夠以短時間來不會發生誤辨識地而檢測出路徑與裝置之障礙的控制系統、控制方法一事作為目的。
本發明之其中一個態樣之控制系統,係為多重系系統之控制系統,前述多重系系統,係具備有:第1系,係具備構成對(pair)之一對的處理裝置;和第2系,係具備構成對之身為與前述第1系相異之處理裝置的1對之處理裝置,並且,係具備有:第1對間LAN,係將前述第1系之一對的處理裝置直接作連結;和第2對間LAN,係將前述第2系之一對的處理裝置直接作連結;和第1系間LAN,係將前述第1系之一對的處理裝置中之其中一方之處理裝置與前述第2系之一對的處理裝置中之其中一方之處理裝置直接作連結;和第2系間LAN,係將前述第1系之一對的處理裝置中之另外一方之處理裝置與前述第2系之一對的處理裝置中之另外一方之處理裝置直接作連結;和內部LAN,係身為為了收訊從相對於前述多重系系統而被設置在內部側之計算節點而來之處理結果並進行特定之處理所被作連接的前述內部LAN,並將前述第1系以及前述第2系之一對的處理裝置之各者作連接;和外部LAN,係身為為 了將從前述計算節點而來之處理結果送訊至相對於前述多重系系統而被設置在外部側之特定之終端處所被作連接的前述外部LAN,並將前述第1系以及前述第2系之一對的處理裝置之各者作連接,前述第1系以及前述第2系之各處理裝置,係具備有:生存監視部,係基於用以對於各處理裝置進行生存確認之裝置超時(time out)和被設定為較該裝置超時而更長的用以對於各LAN進行生存確認之路徑超時,來對於前述各處理裝置或前述各LAN之障礙作監視。
若依據本發明之其中一個態樣,則係能夠以短時間來不會發生誤辨識地而檢測出路徑與裝置之障礙。
1000:控制系統
101,102:處理裝置(主系)
111,112:處理裝置(從系)
103:對(pair)間LAN(主系)
113:對(pair)間LAN(從系)
107:電源系統(主系)
117:電源系統(從系)
104:內部LAN
105:外部LAN
106,116:系間LAN
301:生存監視部
302:生存資訊收訊部
303:障礙檢測部
304:多重系控制部
[圖1]係為代表性的多重系系統之構成圖。
[圖2]係為圖1中之裝置的硬體構成圖。
[圖3]係為圖1中之裝置的軟體構成圖。
[圖4]係為對於生存資訊表的其中一例作展示之圖。
[圖5]係為對於經由各LAN而進行送收訊的生存資訊作展示之圖。
[圖6]係為生存監視部的處理之流程圖。
[圖7]係為生存資訊收訊部的處理之流程圖。
[圖8]係為對於代表障礙部位與在障礙時所採取的行 動之間之關係的表之其中一例作展示之圖。
[圖9]係為由斷鏈所致的斷電判定處理之流程圖。
[圖10]係為對於在生存監視中的生存資訊表之另外一例作展示之圖。
[圖11]係為生存監視部的處理之其他之流程圖。
以下,參考圖面,對本發明之實施形態作說明。以下之記載以及圖面,係為用以對於本發明作說明之例示,並為了說明之明確化而適宜進行有省略以及簡略化。本發明,係亦可藉由其他之各種的形態來實施。只要並未特別作限定,則各構成要素係可為單數,亦可為複數。
在圖面中所展示之各構成要素的位置、大小、形狀、範圍等,係為了容易對於發明作理解,而會有並未表現實際之位置、大小、形狀、範圍等的情況。因此,本發明,係並不被在圖面中所揭示之位置、大小、形狀、範圍等所限定。
在以下之說明中,係會有以「表」、「清單」等之表現來對於各種資訊作說明的情形,但是,各種資訊系亦可藉由此些以外的資料構造來作表現。為了對於並不依存於資料構造一事作表現,係會有將「XX表」、「XX清單」等稱作「XX資訊」的情形。在針對辨識資訊作說明時,當使用有「辨識資訊」、「識別符」、「名 稱」、「ID」、「編號」等之表現的情況時,係可針對此些而相互作置換。
當具備有同一或者是同樣之功能的構成要素為存在有複數的情況時,係會有對於同一之元件符號而附加相異的追加字元並作說明的情形。但是,在並不需要對於此些之複數之構成要素作區別的情況時,係會有將追加字元省略而作說明的情形。
又,在以下之說明中,係會有對於實行程式而進行的處理作說明的情況,但是,程式,由於係藉由處理器(例如CPU(Central Processing Unit)、GPU(Graphics Processing Unit))而被實行,並藉由此來一面適宜使用記憶資源(例如記憶體)及/或介面裝置(例如通訊埠)等一面進行所被制定之處理,因此,處理之主體係亦可被設為處理器。同樣的,實行程式所進行的處理之主體,係亦可為具備有處理器之控制器、裝置、系統、計算機、節點。實行程式所進行的處理之主體,係只要是身為演算部即可,而亦可包含有進行特定之處理的專用電路(例如FPGA(Field-Programmable Gate Array)或ASIC(Application Specific Integrated Circuit))。
程式,係亦可從程式來源而被安裝至像是計算機一般之裝置中。程式來源,例如,係亦可為程式發佈伺服器、或者是計算機可讀取之記錄媒體。當程式來源係為程式發佈伺服器的情況時,係亦可構成為:程式發佈伺服器係包含有處理器和記憶發佈對象之程式之記憶資源,程式發佈伺服器之處理器係將發佈對象之程式發佈至其他 之計算機處。又,在以下之說明中,係亦可將2以上的程式作為1個的程式來實現之,亦可將1個的程式作為2以上之程式來實現之。
[實施例1]
圖1,係為對於在本實施例中之多重系系統的控制系統1000之例作展示之圖。如同圖1中所示一般,控制系統1000,係具備有身為被多重化為2系統的系統之主系系統100和從系系統110。以下,雖係針對藉由4台的處理裝置來構成控制系統1000的情況作例示,但是,係並不被限定於此,亦可作為具備有更多的台數之處理裝置之系統來構成之。
主系系統100,係具備有構成1對的對(pair)之處理裝置101和處理裝置102,並藉由將兩者作連接之對間LAN(Local Area Network)103而被作連接,並且具備有對於此些之裝置而供給電源之電源系統107。又,處理裝置101以及處理裝置102之各者,係被與相對於控制系統1000而為內部側的網路之內部LAN104作連接。處理裝置101以及處理裝置102之各者,係從被與內部LAN104作連接的被多重化後之計算節點N而收訊處理結果,並針對所收訊的各個的處理結果而進行多數決處理。處理裝置101以及處理裝置102之各者,係將多數決處理之結果,在組成對的裝置間而相互作交換,並將交換後的多數決處理之結果與在自身裝置處所進行的多數決處理之結果相互作對 照。而,若是在兩者間係並不存在有不一致,則係將從成為多數(Majority)的計算節點N而來之處理結果,經由身為相對於控制系統1000而被在外部側作連接的網路之外部LAN105來送訊至身為外部裝置之終端T處。
對間LAN103,係被使用於多數決處理之結果之交換以及構成對的處理裝置之強制停止中。系間LAN106,係被使用於其他系之生存監視、強制停止以及斷電的檢測中。強制停止,一般而言,係存在有使用BMC(Baseboard Management Controller)之方法和使用如同在日本特開2007-58708號公報中所記載一般之LXP(系切換控制)之方法。在強制停止中,係存在有由NMI(Non-Maskable Interrupt)之輸入所致之記憶體傾印採取或者是硬體重置輸入,特別是前者,由於係能夠留下在障礙原因解析中所必要之資訊,因此係為有用。
對間LAN103、系間LAN106,由於係身為直接連結之LAN,因此,就算是施加有通訊負載,也不會對於其他的網路造成影響,又,障礙點亦為少,因此,係成為信賴性為較高的構成。如同以下所說明一般,基於「在對間而對於多數決處理之結果作對照」的特性,於障礙時之縮退或者是系切換,係以「對」單位來進行。例如,若是處理裝置102檢測出自身裝置之障礙,則係使該處理裝置102和身為其之成對裝置的處理裝置101停止。此時,由於停止的裝置係身為主系100之裝置,因此係使從系110變遷為新的主系。基於相同的理由,針對電源系統,亦係將 其雙重化,在主系系統100中,係具備有電源系統107。以下,雖係以在各系統處而被設置有1個的電源系統之前提來作說明,但是,係亦可在各裝置處設置電源系統。
系間LAN106,雖然係僅在與其他系之中之單方面的處理裝置(例如,主系系統100之處理裝置101、和從系系統110之處理裝置111)之間而被作連接,但是,基於「縮退係絕對以「對」來進行」之規則,若是自身裝置為正常,則可以說成對之處理裝置亦為正常。故而,系內之各處理裝置之各者,若是能夠使用系間LAN106或者是系間LAN116來進行強制停止,則系能夠使成對的其他系之處理裝置之各者作停止。另外,在圖1中,內部LAN104、外部LAN105雖係分別作為各1條的網路而被構成,但是,係亦可設為多重化之構成。
圖2,係為對於各處理裝置之硬體構成之例作展示之圖。如同圖2中所示一般,各處理裝置,係由像是PC(Personal Computer)或伺服器一般之作為硬體而言為一般性的資訊處理裝置所構成,並具備有CPU201、和記憶體202、和記憶裝置203、和通訊裝置204、以及計時裝置205,此些係經由匯流排206而被作連接。
CPU201,作為硬體,係身為一般性的處理器,並主要藉由從記憶體202而讀出程式並實行,來實現在本系統中之各種功能。
記憶體202,作為硬體,係身為一般性的記憶媒體,並主要記憶藉由CPU201所實行之程式和在程式 之實行中所需要的各種資料。
記憶裝置203,作為硬體,係身為一般性的碟片,並主要記憶以實行上述程式所輸出的資料和成為上述程式之輸入的資料為首之在本系統中所被使用的各種資料。
通訊裝置204,作為硬體,係身為一般性的通訊機器,並主要經由對間LAN103、內部LAN104、外部LAN105、系間LAN106來在自身與處理裝置之間進行各種資料之送收訊。
計時裝置205,作為硬體,係身為一般性之計時器,並主要對於處理裝置之生存時刻和超時作計數。
圖3,係為對於各處理裝置之功能性構成例作展示之圖。如同圖3中所示一般,各處理裝置,功能性而言,係具備有生存監視部301、和生存資訊收訊部302、和障礙檢測部303、和多重系控制部304,而構成之。
生存監視部301,係身為對於自身裝置和成為監視對象之處理裝置以及LAN的生存作監視之處理部。針對生存監視部301所進行之具體性的處理,使用圖6而於後再作敘述。
生存資訊收訊部302,係身為從成為監視對象之處理裝置以及LAN而收訊生存資訊之處理部。針對生存資訊收訊部302所進行之具體性的處理,使用圖7而於後再作敘述。
障礙檢測部303,係身為檢測出自身裝置之 硬體障礙、軟體障礙的處理部。具體內容雖係於後再作詳述,但是,當檢測出無法繼續進行處理裝置之動作之障礙的情況時,係使自系之對停止。
多重系控制部304,係身為因應於障礙部位而實行行動之處理部。當在自身裝置處發生障礙並使其停止時,係使該自身裝置和與其成對之處理裝置停止,當發生障礙的處理裝置乃身為隸屬於從系之處理裝置的情況時,係將該從系切換為主系。針對多重系控制部304所進行之具體性的處理,使用圖8而於後再作敘述。
各處理裝置所具有的上述各部之功能,例如,係藉由「使CPU201,從構成記憶體202之ROM(Read Only Memory)來將程式讀出,並對於構成記憶體202之RAM(Random access memory)進行讀寫,而實行處理」一事,而被實現。上述程式,係亦可被從USB(Universal Serial Bus)記憶體等之記憶媒體而被讀出,或者是經由網路而從其他之電腦下載等,而被提供。
圖4,係為對於被記憶在各處理裝置之記憶裝置中的生存資訊表401之例作展示之圖。生存資訊表401,係身為對於用以判定成為監視對象之各處理裝置以及LAN是否為生存的條件作制定之表。在圖4中,作為其中一例,係對於被記憶在處理裝置101處的生存資訊表401作展示,但是,係針對構成本系統之所有的處理裝置以及LAN而同樣的有所記憶。
如同圖4中所示一般,生存資訊表401,係將 「監視對象」和「身為用以判定監視對象是否為生存的時間性之計數值之生存時刻」和「對於對監視對象作監視之周期作制定的監視周期」以及「身為用以判定在監視對象處係發生有障礙的臨限值之超時計數」相互附加有對應地而作記憶。在圖4中,例如,係對於身為「身為自身裝置之處理裝置101」的生存時刻之現在的計數器值係為「10」一事有所展示。該計數器值,係藉由生存監視部301而被作計數。
又,關於與處理裝置101成對的處理裝置102,係針對該處理裝置102、處理裝置102與處理裝置101之間之對間LAN103、內部LAN104、外部LAN105之各者,而對於身為該些之生存時刻的現在之計數器值乃分別為「8」、「8」、「5」、「5」一事有所展示。進而,係對於「對此些之裝置和LAN進行監視之周期乃分別為「2」、「2」、「5」、「10」一事有所展示。
如同後述一般,生存監視部301,係將代表生存時刻之計數值1次增加1地作增數,並將包含有增數後之新的生存時刻之生存資訊,作為自身裝置仍為生存的證據,而於每特定之監視周期對於監視對象作送訊。例如,自身裝置101,係對於監視對象之裝置102之對間LAN103,而在自身裝置101之生存時刻成為「10」、「12」、「14」、...時,送訊包含該生存時刻之生存資訊。同樣的,係對於內部LAN104,而在生存時刻成為「10」、「15」、「20」、...時,送訊生存資訊。
進而,係對於「對此些之裝置和LAN進行監視之超時計數器,其初期值乃分別為「14」、「20」、「40」、「80」,而現在值乃分別為「12」、「18」、「35」、「75」一事有所展示。如同後述一般,生存資訊收訊部302,在針對監視對象之處理裝置或LAN而收訊有新的生存時刻之生存資訊時,係將所對應的超時計數器重置為初期值。另一方面,生存監視部301,當判定監視對象之超時計數器係並非為「0」的情況時,係將該超時計數器1次減少「1」地作減數。亦即是,生存監視部301,當並未收訊「包含有被更新為最新的值之新的生存時刻之生存資訊」的情況時,係若是時間經過越長則越將超時計數器之值減少。而,若是該值到達「0」,則係視為在監視對象處發生有障礙,並藉由多重系控制部304來進行有與障礙部位相對應之行動。
另外,生存時刻,若是計時裝置205乃身為單調性(Monotonic)的時鐘,則係可為實際時間,亦可為虛擬性的時刻(例如,以一定周期而增加之計數器)。又,如同後述一般,生存監視部301,係將自身裝置之「生存時刻」以監視周期而隨時作更新,並將更新後的「生存時刻」儲存在圖5中所示之生存資訊中,並且將所儲存的生存資訊經由各LAN來送訊至其他之處理裝置處。
圖5,係為對於被記憶在各處理裝置之記憶裝置中的生存資訊501之例作展示之圖。如同圖5中所示一般,在生存資訊501中,係將「成為該生存資訊之送訊源 頭的處理裝置」和「身為生存時刻之現在之計數器值」相互附加對應地作記憶。在圖5中,作為其中一例,係對於處理裝置101所送訊的生存資訊501作展示,但是,係針對構成本系統之所有的處理裝置而同樣的有所送訊。
在圖5中,例如,係記憶有「身為送訊源頭之處理裝置101」和「正被記憶在該處理裝置101之生存資訊表401中的現在時間點之生存時刻「10」,並被送訊至其他之處理裝置處。
另外,在圖4所示之生存資訊表401中,針對成為監視對象之外部LAN,係能夠為了抑制起因於為了對於生存作監視所需之通訊而導致的網路負載之影響,而將監視周期設定為較長。又,關於生存資訊表401之各超時計數器之值,藉由「相較於成對之處理裝置之超時計數器之值,而將與成對之處理裝置作連接的各LAN之超時計數器之值設定為更大,並相較於其他系之處理裝置之超時計數器之值,而將與其他系之處理裝置作連接的各LAN之超時計數器之值設定為更大」,係能夠避免將LAN障礙誤辨識為裝置障礙的情形。藉由此,係成為能夠因應於是身為LAN障礙還是身為裝置障礙一事來採取適當的行動。又,係相較於成對之處理裝置之超時計數器之值,而將其他系之處理裝置之超時計數器之值設定為更大,來以「對單位」之障礙檢測和縮退以及系的切換處理作為優先。如同後述一般,用以對於隸屬於其他系的處理裝置之生存作監視之超時,係會伴隨構成其他系之對之各處理裝置的強制 停止。若是被強制停止,則會有導致各種日誌(log)之保存等的對於障礙解析而言為必要的資訊消失的情形,為了盡量避免此種狀況,係以「對單位」之縮退為優先。藉由此種控制,至少針對縮退之對之中的正常之一方之裝置,係能夠不發生問題地而進行日誌之保存。
圖6,係為對於各處理裝置之生存監視部301所進行之生存監視處理的處理程序作展示之流程圖。如同圖6中所示一般,生存監視部301,係對於自身裝置之計時裝置205所增數(例如,+1)後的生存時刻作讀取(S601),並針對成為監視對象之各構成,而實行S602~S608之各步驟。
生存監視部301,係判定在S601處而增數後的自身裝置之生存時刻是否成為監視對象之監視周期之倍數(S603)。例如,在圖4所示之生存資訊表401中,在處理裝置101之生存時刻被增數至「10」的情況時,係判定其乃變成成為監視對象的處理裝置102之監視周期「2」之倍數(5倍)。
生存監視部301,當判定在S601處而增數後的自身裝置之生存時刻係成為了監視對象之監視周期之倍數的情況時(S603,YES),係對於監視對象而送訊增數後的自身裝置之生存資訊(圖5)(S604)。另一方面,生存監視部301,當判定在S601處而增數後的自身裝置之生存時刻並未成為監視對象之監視周期之倍數的情況時(S603,NO),係並不進行任何處理地而前進至S605。
進而,生存監視部301,係判定被記憶在生存資訊表401中之監視對象之超時計數器的現在值是否為「0」(S605)。生存監視部301,當判定被記憶在生存資訊表401中之監視對象之超時計數器的現在值乃為「0」的情況時(S605,YES),係判斷為有檢測出監視對象之超時,並實行該監視對象之超時處理(圖8)(S606)。若是超時處理被實行,則係被進行有系的切換。
另一方面,生存監視部301,當判定被記憶在生存資訊表401中之監視對象之超時計數器的現在值係並非為「0」的情況時(S605,NO),係將監視對象之超時計數器之值從現在值而作減數(例如,-1)(S607)。
生存監視部301,若是針對各監視對象而實行S602~S608之處理,則在直到成為單位時刻的下一個的生存時刻為止之期間中,係進行休眠(待機)(S609)。若是結束S609之處理,則係回到S601,並反覆進行後續之處理。
圖7,係為對於各處理裝置之生存資訊收訊部302所進行之生存資訊收訊處理的處理程序作展示之流程圖。如同圖7中所示一般,生存資訊收訊部302,係基於所收訊的生存資訊,來取得在與成為監視對象之處理裝置以及LAN相對應的生存資訊表401中所記憶之記錄(record)(S701)。
生存資訊收訊部302,係針對在所取得的記錄中所包含之監視對象,來判定在所收訊的生存資訊中所 包含之處理裝置之生存時刻是否為較被記憶在生存資訊表401中之生存時刻而更為新(S702),當判定在所收訊的生存資訊中所包含之處理裝置之生存時刻乃為較被記憶在生存資訊表401中之生存時刻而更為新的情況時(S702,YES),係將與監視對象相對應的處理裝置之超時計數器之現在值設定為初期值,並且將被記憶在生存資訊表401中之該監視對象之生存時刻,更新為在所收訊的生存資訊中所包含之生存時刻(S703)。另一方面,生存資訊收訊部302,當判定在所收訊的生存資訊中所包含之處理裝置之生存時刻係並非為較被記憶在生存資訊表401中之生存時刻而更為新的情況時(S702,NO),係並不進行任何處理地而前進至S704。
進而,生存資訊收訊部302,係針對在所取得的記錄中所包含之監視對象,來判定在所收訊的生存資訊中所包含之路徑(LAN)之生存時刻是否為較被記憶在生存資訊表401中之生存時刻而更為新(S704),當判定在所收訊的生存資訊中所包含之LAN之生存時刻乃為較被記憶在生存資訊表401中之生存時刻而更為新的情況時(S704,YES),係將與監視對象相對應的LAN之超時計數器之現在值設定為初期值,並且將被記憶在生存資訊表401中之該監視對象之生存時刻,更新為在所收訊的生存資訊中所包含之生存時刻(S705)。另一方面,生存資訊收訊部302,當判定在所收訊的生存資訊中所包含之LAN之生存時刻係並非為較被記憶在生存資訊表401中之生存時刻而更為新 的情況時(S704,NO),係並不進行任何處理地而結束本處理。
圖8,係為對於被記憶在各處理裝置之記憶裝置中的與障礙部位相對應之行動判定表801之例作展示之圖。如同圖8中所示一般,行動判定表801,係將「障礙部位」和「在該部位之障礙發生時所應採取之行動」相互附加有對應地而作記憶。在圖8所示之LAN障礙中,係包含有「檢測出斷鏈等之明示性之障礙」的情況和「基於生存監視超時而檢測出障礙」的情況之雙方。又,各LAN障礙發生時之行動,由於係基於LAN之用途而有所不同,因此,在圖8中係對於其中一例作展示。
身為自身裝置的處理裝置之多重系控制部304,在該自身裝置之障礙檢測部303檢測出自身裝置之障礙部位的情況時,係參照行動判定表801之自身裝置記錄8011,來作為與身為障礙部位之自身裝置相對應的行動,而使自系之對停止。例如,在身為自身裝置之處理裝置101的障礙檢測部303檢測出自身裝置之障礙部位的情況時,該處理裝置101之多重系控制部304,係使構成自系之對的處理裝置102和處理裝置101停止。
又,身為自身裝置的處理裝置之多重系控制部304,在檢測出與該自身裝置構成對的處理裝置之障礙部位的情況時,係參照行動判定表801之成對裝置記錄8012,來作為與身為障礙部位之成對裝置相對應的行動,而使成對之裝置強制停止,並且使自身裝置停止。例如, 在身為自身裝置之處理裝置101的障礙檢測部303檢測出與其成對之處理裝置102之超時的情況時,該處理裝置101之多重系控制部304,係使與其成對之處理裝置102強制停止,並且使身為自身裝置之處理裝置101自主停止。
又,身為自身裝置的處理裝置之多重系控制部304,在檢測出自身和與該自身裝置構成對的處理裝置之間之對間LAN之障礙部位的情況時,係參照行動判定表801之成對裝置記錄8012,來作為與身為障礙部位之對間LAN相對應的行動,而使自身裝置以及與其成對之處理裝置停止。例如,在身為自身裝置之處理裝置101的障礙檢測部303或者是身為與其成對之處理裝置之處理裝置102的障礙檢測部303檢測出兩者間之對間LAN103之障礙的情況時,該處理裝置101以及與其成對之處理裝置102之多重系控制部304,係分別使自身裝置自主停止。
又,身為自身裝置的處理裝置之多重系控制部304,在檢測出自身和與該自身裝置構成對的處理裝置之間之內部LAN、外部LAN之障礙部位的情況時,亦係與上述之與對間LAN相對應的行動同樣地,而使自身裝置以及與其成對之處理裝置停止。
進而,身為自身裝置的處理裝置之多重系控制部304,在檢測出「身為包含與該自身裝置構成對的處理裝置之系以外的系」之其他系之處理裝置之障礙部位的情況時,係參照行動判定表801之其他系裝置記錄8013,來作為與身為障礙部位之其他系裝置相對應的行動,而使 其他系之一對裝置強制停止。例如,在從系之處理裝置111或者是與該處理裝置111構成對之處理裝置112的障礙檢測部303檢測出構成主系之對的處理裝置中之處理裝置101之超時的情況時,從系之處理裝置111之多重系控制部304,係使主系之處理裝置101強制停止,另一方面,從系之處理裝置112之多重系控制部304,係使主系之處理裝置102強制停止。
又,身為自身裝置的處理裝置之多重系控制部304,在檢測出自身與上述其他系之處理裝置之間之系間LAN之障礙部位的情況時,係參照行動判定表801之其他系裝置記錄8013。但是,由於在該記錄中,係記憶有代表並不進行任何對策之「-」,因此,係並不進行對於該障礙的對策。例如,當在系間LAN106處發生有斷線,而主系之處理裝置101和從系之處理裝置111之任一者之障礙檢測部303檢測出斷鏈的情況時,係並不立即進行縮退或系的切換。其理由係在於:當主系之處理裝置101之生存監視部301檢測出從系之處理裝置111之生存監視超時的情況時,伴隨著上述斷線,係無法從主系之處理裝置101而進行從系之處理裝置111之強制停止,例如,在進行系之切換的情況時,係可能會產生兩系均成為主系的風險。
因此,在檢測出上述斷鏈的情況時,為了避免此種風險,主系之處理裝置101之多重系控制部304,係使自身裝置自主停止。
於此情況,若是從系之對之某一方的處理裝 置(例如,處理裝置112)為生存,則藉由圖4中所示之生存資訊表401之設定,上述某一方之處理裝置係會先檢測出與其成對之處理裝置(例如,處理裝置111)之生存監視超時,並進行由對間LAN(例如,對間LAN113)所致之強制停止。故而,可以說發生為了避免上述之兩系均成為主系的風險而導致的自主停止之機率係為充分低。
又,身為自身裝置的處理裝置之多重系控制部304,在檢測出與上述其他系之處理裝置之間之內部LAN之障礙部位的情況時,係參照行動判定表801之其他系裝置記錄8013,來作為與身為障礙部位之內部LAN相對應的行動,而使其他系之成對裝置強制停止或自主停止。例如,在主系之處理裝置101之生存監視部301檢測出自身與從系之處理裝置111之間之內部LAN104之生存監視超時的情況時,係對於從系之成對裝置而經由任意之LAN(例如,經由外部LAN105)來輸出停止要求,並依循於該停止要求,而使構成從系之對的處理裝置111以及處理裝置112自主停止。或者是,在從系之處理裝置111檢測出自身與主系之處理裝置101之間之內部LAN104之生存監視超時的情況時,從系之處理裝置111係對於構成對之處理裝置112而發出停止要求,並且使自身裝置自主停止。
另外,身為自身裝置的處理裝置之多重系控制部304,在檢測出自身與上述其他系之處理裝置之間之外部LAN之障礙部位的情況時,係參照行動判定表801之其他系裝置記錄8013。但是,由於在該記錄中,係記憶有 代表並不進行任何對策之「-」,因此,係並不進行對於該障礙的對策,然而,係亦可進行與上述內部LAN的情況時相同之對策。
如此這般,在本系統中,由於係藉由使用內部LAN來將各處理裝置之生存資訊相互作送收訊,而使系之切換時的處理之繼續成為可能,因此,在內部LAN之障礙時,係作為縮退/系切換之對象。又,在系間LAN障礙的情況時,雖然不論是何者之系均能夠正常動作,但是,係構成為使影響為較少的從系停止。又,針對如同外部LAN一般之不會對於各處理裝置之動作直接造成影響的LAN障礙,係以並不實施縮退/系切換的方式來作控制。
另外,在圖8所示之行動判定表801中,雖係以各LAN乃分別為各1條一事作為前提,而進行說明,但是,係亦可將各者之LAN作多重化。例如,在將內部LAN104雙重化的情況時,就算是在僅於其中之1個系統的LAN處而檢測出障礙的情況時,亦由於能夠使用另外之1個系統的LAN,因此係並不需要採取行動。當在2個系統之LAN處均檢測出障礙的情況時,係只要採取如同圖8中所示一般之行動即可。
又,在「與自身成對之處理裝置」或者是「其他系之處理裝置」檢測出「自身裝置」之障礙,並自主性地功能停止的情況時,係將使功能停止一事經由各LAN來進行通知,另一方面,在檢測出「與自身成對之處理裝置」或者是「其他系之處理裝置」之生存監視超時的 情況時,係並不存在此種通知,而成為無回應。於此情況,由於並不清楚是完全地停止還是一部分之功能仍為有效,因此,為了避免像是兩系均成為主系的分腦(split-brain)等之誤動作,係如同圖8中所示一般地先進行強制停止再進行系切換。與此相反地,在收訊有自主性之功能停止之通知的情況時,係以並不進行強制停止的方式來作控制。其理由係在於,在強制停止的情況時,係連OS均會停止,而會有變得難以進行用以查明障礙原因的資訊收集之虞之故。
另外,係亦可經由任意之LAN來對於成為對象的處理裝置送訊停止要求,並使強制停止暫時等待直到從該處理裝置而收訊有代表使功能停止的內容之通知為止。藉由此,會有能夠避免無謂之強制停止的情況。於此情況,若是上述成為對象之處理裝置係身為無法受理停止要求的狀態,則上述代表使功能停止的內容之通知之收訊等待時間會超時,之後成為進行強制停止,直到進行系切換為止所需的時間係會延長,因此,在能夠容許此種狀況的情況時,係亦能夠進行該控制。
圖9,係為對於各處理裝置之障礙檢測部303檢測出系間LAN之斷鏈並使多重系控制部304將系作切換的斷鏈檢測處理之處理程序作展示之流程圖。一般而言,在斷鏈之檢測中,係會耗費數百ms的時間。於此,係基於「相較於其他系之處理裝置之生存監視超時,斷鏈檢測時間係為充分短」的前提,來早期性地檢測出其他系之處理 裝置之斷電,並實施系切換。
如同圖9中所示一般,各控制部之多重系控制部304,在藉由障礙檢測部303而被檢測出有系間LAN之斷鏈的時間之期間中,係判定生存資訊收訊部302是否從其他系之處理裝置而收訊有生存資訊(S901)。例如,主系之處理裝置101之多重系控制部304,在藉由障礙檢測部303而被檢測出有系間LAN106之斷鏈的情況時,係判定在被檢測出有該斷鏈的時間之期間中,生存資訊收訊部302是否經由系間LAN106以外之內部LAN104或外部LAN105而收訊有其他系之處理裝置111之生存資訊。
之後,各處理裝置之多重系控制部304,當判定在藉由障礙檢測部303而被檢測出有系間LAN之斷鏈的時間之期間中,生存資訊收訊部302係有從其他系之處理裝置而收訊有生存資訊的情況時(S901,YES),由於係經由其他之LAN而收訊有生存資訊,因此,係暫且並不進行其他系之處理裝置之斷電的判斷(S903),並結束處理。例如,主系之處理裝置101之多重系控制部304,當判定在藉由障礙檢測部303而被檢測出有系間LAN106之斷鏈的時間之期間中,生存資訊收訊部302係有經由內部LAN104或外部LAN105而收訊有其他系之處理裝置111之生存資訊的情況時,由於該處理裝置111係仍為生存,因此係將斷電之判斷暫緩。
另一方面,各處理裝置之多重系控制部304,當判定在藉由障礙檢測部303而被檢測出有系間LAN 之斷鏈的時間之期間中,生存資訊收訊部302係並未從其他系之處理裝置而收訊有生存資訊的情況時(S901,NO),係判斷為其他系之處理裝置乃身為斷電的狀態,並進行系之切換(S902),而結束處理。
另外,在系間LAN為存在有複數的情況時、或者是在被周期性地檢測出有斷鏈的情況時,藉由以系間LAN之斷鏈被檢測出來的時間中之最長之時間作為基準,而判定生存資訊收訊部302是否從其他系之處理裝置而收訊有生存資訊,係能夠將其他系之處理裝置的斷電之誤檢測更進一步降低。亦即是,由於係以斷鏈為最長之時間作為基準,而只要是在該時間內至少收訊有1個的生存資訊,便可判斷出成為該系間LAN之連接目標的系並非為斷電,因此,相較於以斷鏈為短之時間作為基準的情況,係能夠以良好精確度來檢測出斷電。
又,當在S903中而將其他系之處理裝置之斷電的判斷暫緩的情況時,係亦能夠於經過特定之期間之後,再度實行本處理,並確認是否發生有該裝置之斷電。此係因為,在實際發生有斷電的情況時,S901之「條件」(S901,NO)係終究會成立,並被判斷為斷電,另一方面,若是僅單純為系間LAN之障礙,則生存監視部301係終究會檢測出系間LAN之生存監視超時之故。如同上述一般,在被判定為其他系之處理裝置乃為斷電的情況時,係成為能夠並不等待其他系之處理裝置之生存監視超時或強制停止地而在S902處進行系的切換。藉由此,係能夠將系的切 換時間縮短。另外,在圖9中,雖係針對斷鏈被檢測出來的情況作例示,但是,除此之外,在藉由PoE(Power over Ether)而檢測出電源供給中斷的情況時,亦可同樣地作適用。
如此這般,由於在多重系系統之控制系統1000中,多重系系統,係具備有:第1系(例如,主系系統100),係具備構成對(pair)之一對的處理裝置(例如,處理裝置101、處理裝置102);和第2系(例如,從系系統110),係具備構成對之身為與第1系相異之處理裝置之一對的處理裝置(例如,處理裝置111、處理裝置112),並且,係具備有:第1對間LAN(例如,對間LAN103),係將第1系之一對的處理裝置直接作連結;和第2對間LAN(例如,對間LAN113),係將第2系之一對的處理裝置直接作連結;和第1系間LAN(例如,系間LAN106),係將第1系之一對的處理裝置中之其中一方之處理裝置(例如,處理裝置101)與第2系之一對的處理裝置中之其中一方之處理裝置(例如,處理裝置111)直接作連結;和第2系間LAN(例如,系間LAN116),係將第1系之一對的處理裝置中之另外一方之處理裝置(例如,處理裝置102)與第2系之一對的處理裝置中之另外一方之處理裝置(例如,處理裝置112)直接作連結;和內部LAN(例如,內部LAN104),係身為為了收訊從相對於多重系系統而被設置在內部側之計算節點(例如,計算節點N)而來之處理結果並進行特定之處理(例如,多數決處理)所被作連接的內部LAN,並將第1系以及第2系 之一對的處理裝置之各者作連接;和外部LAN(例如,外部LAN105),係身為為了將從計算節點而來之處理結果送訊至相對於多重系系統而被設置在外部側之特定之終端(例如,終端T)處所被作連接的前述外部LAN,並將第1系以及第2系之一對的處理裝置之各者作連接,而,第1系以及第2系之各處理裝置,係使生存監視部301,基於用以對於各處理裝置進行生存確認之裝置超時(time out)和被設定為較該裝置超時而更長(值為更大)的用以對於各LAN進行生存確認之路徑超時,來對於各處理裝置或各LAN之障礙作監視,因此,係能夠以短時間而並不發生誤辨識地來檢測出路徑與裝置之障礙。
又,第1系以及第2系之各處理裝置,由於係具備有:生存資訊收訊部302,係從其他之處理裝置,而收訊用以判定上述裝置超時或者是上述路徑超時之包含有自身裝置的生存時刻之生存資訊(例如,生存資訊501),並將在所收訊的該生存資訊中所包含之其他之處理裝置或者是各LAN之生存時刻更新為最新的值,生存監視部301,係將包含有自身裝置的生存時刻(例如,生存資訊表401之生存時刻)之生存資訊,經由各LAN來對於各處理裝置作送訊,並基於在生存資訊收訊部302所收訊的生存資訊中所包含之其他之處理裝置或者是各LAN之生存時刻並未被更新為最新的值一事,來判斷障礙之發生,因此,各處理裝置係能夠以短時間且被動性地來並不發生誤辨識地而檢測出路徑與裝置之障礙。
又,在第1系以及第2系中的藉由第1系間LAN而被直接作連結之各個的處理裝置,由於係具備有檢測出第1系間LAN之斷鏈(link-down)之第1障礙檢測部(例如,障礙檢測部303),在第1系以及第2系中的藉由第2系間LAN而被直接作連結之各個的處理裝置,係具備有檢測出第2系間LAN之斷鏈之第2障礙檢測部(例如,障礙檢測部303),並且,例如如同圖9中所示一般,多重系控制部304,係在藉由第1障礙檢測部或者是第2障礙檢測部而被檢測出有斷鏈的時間之期間中,判定生存資訊收訊部302是否經由被檢測出有斷鏈之LAN以外的LAN而收訊有其他系之處理裝置之生存資訊,當在上述時間之期間中,判定為係並未經由被檢測出有斷鏈之LAN以外的LAN而收訊有上述生存資訊的情況時,係判斷為其他系之處理裝置乃身為斷電之狀態,並將系作切換,因此,係能夠使斷電之誤檢測的情形降低。
在至此為止之例中,在檢測出斷鏈的情況時所被送訊之生存資訊,係構成為在檢測出斷鏈的時間點處而使各處理裝置作送訊。但是,依存於LAN之通訊狀況,係會有與生存資訊之送訊時序或其他之資料的通訊相互重疊並賦予過大之負載的情況。因此,以下,係針對對於LAN所賦予的負載有所考慮地來收訊生存資訊之例作說明。
圖10,係為對於在針對對於LAN所賦予的負載有所考慮的情況時之生存資訊表1001之例作展示之圖。 如同圖10中所示一般,生存資訊表1001,係相對於圖4中所示之生存資訊表401,而被追加有偏位值(offset)。偏位值,係為代表為了將生存資訊以相異之時序來作送訊所需的時間差之資訊。例如,針對在斷鏈的檢測中會耗費300ms,並且作為送訊生存資訊之通路(pass)而存在有5個的LAN的情況作考慮。於此情況,係將在斷鏈的檢測中所耗費之時間300ms作五等分,而各作60ms之偏移,並從各處理裝置而送訊生存資訊。亦即是,各LAN之初次的生存資訊之送訊時刻,係分別成為0ms(偏位值0)、60ms(偏位值1)、120ms(偏位值2)、180ms(偏位值3)、240ms(偏位值4),之後,係以各LAN之各別的監視周期來送訊生存資訊。另外,在本例中,雖係針對將在斷鏈之檢測中所耗費之時間均等地分配的情況來作例示,但是,係亦可因應於各LAN之通訊狀況來作比例性分配並制定偏位值。
圖11,係為對於各處理裝置之生存監視部301使用圖10中所示之生存資訊表1001所進行之生存監視處理的處理程序作展示之流程圖。在圖11中,由於送訊生存資訊時的判定步驟係與圖6相異,因此,係針對此步驟進行說明,其他之步驟,則係附加相同之元件符號並將其說明省略。
在S1001中,生存監視部301,係判定於「在S601處而增數後的自身裝置之生存時刻」處而加上上述偏位值後之值是否成為監視對象之監視周期之倍數(S1101)。生存監視部301,當判定於「在S601處而增數後 的自身裝置之生存時刻」處而加上上述偏位值後之值係成為監視對象之監視周期之倍數的情況時(S1101,YES),係對於監視對象而送訊增數後的自身裝置之生存資訊(圖5)(S604)。另一方面,生存監視部301,當判定於「在S601處而增數後的自身裝置之生存時刻」處而加上上述偏位值後之值並未成為監視對象之監視周期之倍數的情況時(S1101,NO),係並不進行任何處理地而前進至S605。
如此這般,由於係使生存監視部301,基於在自身裝置之生存時刻處而加上代表為了將生存資訊以相異之時序來作送訊所需的時間差之偏位值後之值,來將生存資訊經由各LAN而對於各處理裝置作送訊,因此,係並不會賦予多餘的通訊負載,而使「將系間LAN之障礙物辨識為其他系之斷電」的風險降低。亦即是,就算是在發生有些許的封包遺失或送收訊之延遲的情況時,亦能夠將在系間LAN之斷鏈檢測時間之期間中而能夠從任意之LAN收訊生存資訊的可能性提高。
1000:控制系統
100:主系系統
110:從系系統
101,102:處理裝置(主系)
111,112:處理裝置(從系)
103:對(pair)間LAN(主系)
113:對(pair)間LAN(從系)
107:電源系統(主系)
117:電源系統(從系)
104:內部LAN
105:外部LAN
106,116:系間LAN
N:計算節點
T:終端

Claims (8)

  1. 一種控制系統,係為多重系系統之控制系統,前述多重系系統,係具備有:第1系,係具備構成對(pair)之一對的處理裝置;和第2系,係具備構成對之身為與前述第1系相異之處理裝置的1對之處理裝置,並且,係具備有:第1對間LAN,係將前述第1系之一對的處理裝置直接作連結;和第2對間LAN,係將前述第2系之一對的處理裝置直接作連結;和第1系間LAN,係將前述第1系之一對的處理裝置中之其中一方之處理裝置與前述第2系之一對的處理裝置中之其中一方之處理裝置直接作連結;和第2系間LAN,係將前述第1系之一對的處理裝置中之另外一方之處理裝置與前述第2系之一對的處理裝置中之另外一方之處理裝置直接作連結;和內部LAN,係身為為了收訊從相對於前述多重系系統而被設置在內部側之計算節點而來之處理結果並進行特定之處理所被作連接的前述內部LAN,並將前述第1系以及前述第2系之一對的處理裝置之各者作連接;和外部LAN,係身為為了將從前述計算節點而來之處理結果送訊至相對於前述多重系系統而被設置在外部側之特 定之終端處所被作連接的前述外部LAN,並將前述第1系以及前述第2系之一對的處理裝置之各者作連接,前述第1系以及前述第2系之各處理裝置,係具備有:生存監視部,係基於用以對於各處理裝置進行生存確認之裝置超時(time out)和被設定為較該裝置超時而更長的用以對於各LAN進行生存確認之路徑超時,來對於前述各處理裝置或前述各LAN之障礙作監視。
  2. 如請求項1所記載之控制系統,其中,前述第1系以及前述第2系之各處理裝置,係具備有:生存資訊收訊部,係從其他之處理裝置,而收訊用以判定前述裝置超時或者是前述路徑超時之包含有自身裝置的生存時刻之生存資訊,並將在所收訊的該生存資訊中所包含之前述其他之處理裝置或者是前述各LAN之生存時刻更新為最新的值,前述生存監視部,係將包含有前述自身裝置的生存時刻之生存資訊,經由前述各LAN來對於前述各處理裝置作送訊,並基於在前述生存資訊收訊部所收訊的生存資訊中所包含之前述其他之處理裝置或者是前述各LAN之生存時刻並未被更新為最新的值一事,來判斷障礙之發生。
  3. 如請求項2所記載之控制系統,其中,在前述第1系以及前述第2系中的藉由前述第1系間LAN而被直接作連結之各個的處理裝置,係具備有檢測出前述第1系間LAN之斷鏈(link-down)之第1障礙檢測部,在前述第1系以及前述第2系中的藉由前述第2系間 LAN而被直接作連結之各個的處理裝置,係具備有檢測出前述第2系間LAN之斷鏈之第2障礙檢測部,該控制系統,係具備有:多重系控制部,係在藉由前述第1障礙檢測部或者是前述第2障礙檢測部而被檢測出有斷鏈的時間之期間中,判定前述生存資訊收訊部是否經由被檢測出有斷鏈之LAN以外的LAN而收訊有其他系之處理裝置之生存資訊,當在前述時間之期間中,判定為係並未經由被檢測出有前述斷鏈之LAN以外的LAN而收訊有前述生存資訊的情況時,係判斷為前述其他系之處理裝置乃身為斷電之狀態,並將系作切換。
  4. 如請求項2所記載之控制系統,其中,前述生存監視部,係基於在自身裝置之生存時刻處而加上代表為了將前述生存資訊以相異之時序來作送訊所需的時間差之偏位值後之值,來將前述生存資訊經由前述各LAN而對於前述各處理裝置作送訊。
  5. 一種控制方法,係為藉由多重系系統之控制系統所進行之控制方法,在前述多重系系統中,具備構成對(pair)之一對的處理裝置之第1系以及具備構成對之身為與前述第1系相異之處理裝置的1對之處理裝置之第2系的各處理裝置,係具備有生存監視部,使前述生存監視部,經由(1)第1對間LAN,係將前述第1系之一對的處理裝置直 接作連結、以及第2對間LAN,係將前述第2系之一對的處理裝置直接作連結;和(2)第1系間LAN,係將前述第1系之一對的處理裝置中之其中一方之處理裝置與前述第2系之一對的處理裝置中之其中一方之處理裝置直接作連結、以及第2系間LAN,係將前述第1系之一對的處理裝置中之另外一方之處理裝置與前述第2系之一對的處理裝置中之另外一方之處理裝置直接作連結;和(3)內部LAN,係身為為了收訊從相對於前述多重系系統而被設置在內部側之計算節點而來之處理結果並進行特定之處理所被作連接的前述內部LAN,並將前述第1系以及前述第2系之一對的處理裝置之各者作連接;和(4)外部LAN,係身為為了將從前述計算節點而來之處理結果送訊至相對於前述多重系系統而被設置在外部側之特定之終端處所被作連接的前述外部LAN,並將前述第1系以及前述第2系之一對的處理裝置之各者作連接,此些之LAN之任一者,來基於用以對於各處理裝置進行生存確認之裝置超時(time out)和被設定為較該裝置超時而更長的用以對於各LAN進行生存確認之路徑超時,而對於前述各處理裝置或前述各LAN之障礙作監視。
  6. 如請求項5所記載之控制方法,其中,前述第1系以及前述第2系之各處理裝置,係分別更進而具備有生存資訊收訊部, 使前述生存監視部,將用以判定前述裝置超時或者是前述路徑超時之包含有自身裝置的生存時刻之生存資訊,經由前述各LAN而對於前述各處理裝置作送訊,使前述生存資訊收訊部,從其他之處理裝置而收訊包含有前述自身裝置之生存時刻之生存資訊,使前述生存資訊收訊部,將在所收訊的該生存資訊中所包含之前述其他之處理裝置或者是前述各LAN之生存時刻,更新為最新的值,使前述生存監視部,基於在前述生存資訊收訊部所收訊的生存資訊中所包含之前述其他之處理裝置或者是前述各LAN之生存時刻並未被更新為最新的值一事,來判斷障礙之發生。
  7. 如請求項6所記載之控制方法,其中,前述多重系系統之控制系統,係更進而具備有第1障礙檢測部和第2障礙檢測部以及多重系控制部,使前述第1障礙檢測部,使在前述第1系以及前述第2系中的藉由前述第1系間LAN而被直接作連結之各個的處理裝置,檢測出前述第1系間LAN之斷鏈,並使前述第2障礙檢測部,使在前述第1系以及前述第2系中的藉由前述第2系間LAN而被直接作連結之各個的處理裝置,檢測出前述第2系間LAN之斷鏈,並使前述多重系控制部,在藉由前述第1障礙檢測部或者是前述第2障礙檢測部而被檢測出有斷鏈的時間之期間中,判定前述生存資訊收訊部是否經由被檢測出有斷鏈 之LAN以外的LAN而收訊有其他系之處理裝置之生存資訊,並且使前述多重系控制部,當在前述時間之期間中,判定為係並未經由被檢測出有前述斷鏈之LAN以外的LAN而收訊有前述生存資訊的情況時,判斷為前述其他系之處理裝置乃身為斷電之狀態,並將系作切換。
  8. 如請求項6所記載之控制方法,其中,係使前述生存監視部,基於在自身裝置之生存時刻處而加上代表為了將前述生存資訊以相異之時序來作送訊所需的時間差之偏位值後之值,來將前述生存資訊經由前述各LAN而對於前述各處理裝置作送訊。
TW109146413A 2020-01-31 2020-12-28 控制系統、控制方法 TWI784379B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020014243A JP7328907B2 (ja) 2020-01-31 2020-01-31 制御システム、制御方法
JP2020-014243 2020-01-31

Publications (2)

Publication Number Publication Date
TW202131185A TW202131185A (zh) 2021-08-16
TWI784379B true TWI784379B (zh) 2022-11-21

Family

ID=77062439

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109146413A TWI784379B (zh) 2020-01-31 2020-12-28 控制系統、控制方法

Country Status (3)

Country Link
US (1) US11349705B2 (zh)
JP (1) JP7328907B2 (zh)
TW (1) TWI784379B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7328907B2 (ja) * 2020-01-31 2023-08-17 株式会社日立製作所 制御システム、制御方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5526358A (en) * 1994-08-19 1996-06-11 Peerlogic, Inc. Node management in scalable distributed computing enviroment
US6304546B1 (en) * 1996-12-19 2001-10-16 Cisco Technology, Inc. End-to-end bidirectional keep-alive using virtual circuits
CN1123838C (zh) * 1996-10-28 2003-10-08 三菱电机株式会社 群集控制系统
US20060262762A1 (en) * 2005-04-25 2006-11-23 Samsung Electronics Co., Ltd. Method and apparatus for distributing mobile station information in wireless mesh network
TW201826124A (zh) * 2016-10-03 2018-07-16 美商唯景公司 站點監測系統

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11353255A (ja) 1998-06-04 1999-12-24 Hitachi Ltd 異常部位検知方法
US20070273509A1 (en) * 2006-05-26 2007-11-29 Cooper Technologies Company System for controlling the operation of a lamp in multiple operational modes
JP5463738B2 (ja) * 2008-09-22 2014-04-09 沖電気工業株式会社 無線通信システム、アクセスポイント、コントローラ、ネットワーク管理装置及びアクセスポイントのネットワーク識別子設定方法
JP5503512B2 (ja) 2010-11-25 2014-05-28 株式会社日立製作所 計算機システムおよびその障害発生時制御方法
JP2012222656A (ja) 2011-04-11 2012-11-12 Hitachi Ltd コンピュータネットワーク通信システムにおけるノードコンピュータ、ネットワーク切替方法およびプログラム
US10102088B2 (en) 2013-12-25 2018-10-16 Nec Solution Innovators, Ltd. Cluster system, server device, cluster system management method, and computer-readable recording medium
US9936009B2 (en) * 2014-05-22 2018-04-03 Qualcomm Incorporated Systems and methods of operating a device of a data path group network
WO2018037535A1 (ja) * 2016-08-25 2018-03-01 富士通株式会社 生存管理プログラム、生存管理方法、および生存管理装置
WO2018056044A1 (ja) 2016-09-21 2018-03-29 日本電気株式会社 計算機並びにクラスタ管理システム、方法及び非一時的なコンピュータ可読媒体
CN109104349B (zh) * 2017-06-21 2020-11-20 比亚迪股份有限公司 基于CANopen协议的列车网络数据传输方法、系统及其装置
CN109104351B (zh) * 2017-06-21 2020-08-25 比亚迪股份有限公司 列车网络节点和基于CANopen协议的列车网络节点监测方法
EP3617887B1 (en) * 2018-08-27 2021-07-07 Ovh Method and system for providing service redundancy between a master server and a slave server
JP7328907B2 (ja) * 2020-01-31 2023-08-17 株式会社日立製作所 制御システム、制御方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5526358A (en) * 1994-08-19 1996-06-11 Peerlogic, Inc. Node management in scalable distributed computing enviroment
CN1123838C (zh) * 1996-10-28 2003-10-08 三菱电机株式会社 群集控制系统
US6304546B1 (en) * 1996-12-19 2001-10-16 Cisco Technology, Inc. End-to-end bidirectional keep-alive using virtual circuits
US20060262762A1 (en) * 2005-04-25 2006-11-23 Samsung Electronics Co., Ltd. Method and apparatus for distributing mobile station information in wireless mesh network
TW201826124A (zh) * 2016-10-03 2018-07-16 美商唯景公司 站點監測系統

Also Published As

Publication number Publication date
US11349705B2 (en) 2022-05-31
TW202131185A (zh) 2021-08-16
US20210243071A1 (en) 2021-08-05
JP2021120827A (ja) 2021-08-19
JP7328907B2 (ja) 2023-08-17

Similar Documents

Publication Publication Date Title
US10560315B2 (en) Method and device for processing failure in at least one distributed cluster, and system
JP6076373B2 (ja) 相互接続ノードの状態変化に対応する技術
WO2021073105A1 (zh) 一种双机热备系统
CN106330475B (zh) 一种通信系统中管理主备节点的方法和装置及高可用集群
US11334468B2 (en) Checking a correct operation of an application in a cloud environment
TWI784379B (zh) 控制系統、控制方法
CN104065569A (zh) 信息处理系统和设备及其控制方法以及数据传输设备
CN105549696A (zh) 具有机箱管理功能的机架式服务器系统
KR20130071346A (ko) 정보 처리 장치 및 동작 상태 감시 방법
JP5625605B2 (ja) Os動作状態確認システム、確認対象装置、os動作状態確認装置、os動作状態確認方法およびプログラム
CN114168071A (zh) 一种分布式集群扩容方法、分布式集群扩容装置及介质
JP2021120827A5 (zh)
CN114296995B (zh) 一种服务器自主修复bmc的方法、系统、设备及存储介质
CN114115053B (zh) 拟态工业控制器中裁决模块间主备模式确认及切换方法
JP2011023983A (ja) ネットワークノード
US11954509B2 (en) Service continuation system and service continuation method between active and standby virtual servers
CN110601972A (zh) 一种报文传输方法、装置及智能弹性架构系统
KR20200101117A (ko) 노드장애를 감지할 수 있는 네트워크 시스템 및 노드장애 감지방법
CN104683153A (zh) 一种集群路由器主备mpu控制方法及其系统
CN111666231B (zh) 于丛集式系统中维持存储器共享方法
WO2024082471A1 (zh) 节点间链路状态监测方法和装置
JP5819881B2 (ja) 通信装置、通信システム、通信方法、および、プログラム
CN112540884B (zh) 热备份效果检测方法、装置、系统和计算机可读介质
JP2012113545A (ja) 計算機システムおよびその障害発生時制御方法
JP6301750B2 (ja) 中継装置