WO2017010103A1

WO2017010103A1 - データ分析装置、データ分析方法、およびデータ分析プログラムを格納した記憶媒体

Info

Publication number: WO2017010103A1
Application number: PCT/JP2016/003332
Authority: WO
Inventors: 勇気小阪; 広晃福西; 博典田中; 将司中道; 悠佳岡本
Original assignee: 日本電気株式会社; Ｎｅｃソリューションイノベータ株式会社
Priority date: 2015-07-16
Filing date: 2016-07-14
Publication date: 2017-01-19
Also published as: CN107851295A; JPWO2017010103A1; US20180225634A1; CN107851295B; JP6105825B1

Abstract

アドバイザーが着目した任意の項目に関連のある、勤怠データを含む従業員の健康状態に関連するデータに含まれる具体的なフィールドの情報を提供する。データ分析装置は、２以上の従業員の健康状態データおよび勤怠データとを取得するデータ取得手段５１と、従業員の各々について、勤怠データの所定のフィールドに対して、予め定められた時間分解能、時間範囲および集計方法を用いて属性データを生成する属性データ生成手段５２と、指定された対象フィールドを目的変数とし、属性データのフィールドの各々を説明変数とする多項式で表されるモデルを学習するモデル学習手段５３と、学習済みモデルに基づき、対象フィールドと関連のある属性データのフィールドを抽出する関連フィールド抽出手段５４と、抽出されたフィールドの情報を基に、指定された従業員の勤怠データを要約して出力する要約手段５５とを備える。

Description

データ分析装置、データ分析方法、およびデータ分析プログラムを格納した記憶媒体

　本発明は、企業等の保健指導を支援するためのデータ分析装置、データ分析方法およびデータ分析プログラムを格納した記憶媒体に関する。

　従業員や業務遂行のための組織に属する者（以下、単に「従業員」という）の健康の維持または増進を図ることは、事業主や組織を管理する者（以下、単に「事業主」という）にとって極めて重要な役割の一つである。このため、事業主は、産業医や保健師などの医療従事者を配備して、従業員に対して、健康診断や保健指導に関する多くの施策を実施している。

　これまで、保健指導として、従業員の健康診断結果や、食事、運動習慣、睡眠習慣、喫煙習慣等の生活習慣に関する問診結果に基づいて、医療従事者が、従業員に対して健康増進のためのアドバイスをする、といったことが行われている。

　近年、医療従事者が従業員に行っていた保健指導の効率化を目的として、従業員の健康診断結果や生活習慣に関する問診結果から、その従業員の健康上や生活習慣上の特徴を抽出する装置が考案されている。

　例えば、特許文献１には、アドバイスを求める複数の個人の健康診断結果と生活習慣の問診結果とに基づいて個人をグループ化し、グループごとに抽出される健康状態および生活習慣の特徴に基づいて、健康維持・増進のためのアドバイスを行う健康サポートシステムが記載されている。

　特許文献１に記載の技術を利用すれば、例えば、他のグループに比べて血圧の値が高いグループに属する個人に対して、医学的見地に基づき、血圧を下げるために塩分を抑えた食事をとるように、といったアドバイスを行うことができる。

特開２０１０－１７０５３４号公報

　従業員の健康状態は生活習慣に依存している部分も多いことから、効果的な保健指導の実施のためには、生活習慣の乱れの要因を把握することが重要である。

　生活習慣の乱れが起きる要因として、従業員の食事、運動、睡眠などの生活上の基本的事項（主に生活の状態に関する事項）の乱れが挙げられる。しかし、職場での長時間労働などの過重労働や不規則な勤務形態が、生活習慣の乱れに関係している場合がある。例えば、業務や職場環境での心的ストレスが引き金となり、従業員の身体にいつの間にか深刻な疾病を引き起こすことが考えられる。

　そのため、従業員に効果的にアドバイスを行うためには、従業員の健康診断結果や食事、運動、睡眠などの生活習慣に関する問診結果だけでなく、日々の残業時間、休暇取得頻度、休日出勤の頻度といった勤務状況も的確に把握・理解することが重要である。

　なお、医療従事者等の保健指導を行うアドバイザーは、従業員の勤務状況を確認する重要な情報源として、従業員ごとの日々の出社時刻、退社時刻、勤務の有無、休暇の有無、残業時間といった勤務状況に関する事項が時系列で並べられた情報である勤怠データを活用している場合が多い。

　しかし、一般に勤怠データには数十ものフィールドが含まれており、またその多くは１日１レコードずつデータが記録されて増えていく。このように、勤怠データはフィールド数に加えてレコード数も多くなる傾向にあるが、各従業員の保健指導の時間は限られているため、アドバイザーが限られた時間内にこれらの情報を全て確認することは難しい。

　このように、見るべき勤怠データの量が多いために、アドバイザーが、健康状態に関連のある具体的な勤務状況（例えば、過重労働や不規則な勤務状態等の有無またはその度合い）を、勤怠データから容易に得ることができないという問題があった。

　なお、特許文献１には、健康状態とその管理に関するデータから共分散構造分析によって複数の健康状態グループを生成し、それら健康状態グループに属する者に特徴的な特性を、該グループに留まるもしくは他のグループに移行するための推奨項目データとして提示することが記載されている。これにより、健康指導者は、提示された推奨項目データを基に、推奨行動情報を提示するなどのアドバイスを行うことができる。

　しかし、特許文献１に記載の方法は、各グループに属する特徴的な特性を示す項目を抽出するだけであって、アドバイザーの目的に合うような項目や該項目の関連度等を抽出することはできない。例えば、アドバイザーが、ある症状に着目しており、勤怠データの中からその症状と特に関連のあるフィールドだけを残して他のフィールドは提示されないことを望んでいたとする。このような場合に、特許文献１に記載の方法を適用しても、その症状の有無や程度によってグループ化がされる保証はない。また、アドバイザーは、別のタイミングでは、別の症状に着目して、勤怠データの中からその症状と特に関連のあるフィールドだけを残して他のフィールドは提示されないことを望むことも考えられる。しかし、特許文献１には、アドバイザーの目的に合わせて勤怠データを適切に要約（情報を取捨選択および加工等）して提示する方法については何ら記載されていない。

　そこで、本発明は、上述した課題に鑑みて、アドバイザーが、着目した任意の項目に関連のある、勤怠データを含む従業員の健康状態に関連するデータに含まれる具体的なフィールドの情報を容易に得ることができるデータ分析装置、データ分析方法およびデータ分析プログラムを提供することを目的とする。

　本発明によるデータ分析装置は、従業員の健康状態に関する情報である健康状態データが有するフィールドのうち関連性の抽出対象とするフィールドである対象フィールドの指定と、２以上の従業員についての健康状態データおよび勤務状況に関する情報である勤怠データと、を少なくとも取得するデータ取得手段と、従業員の各々について、勤怠データが有する所定のフィールドに対して、予め定められた時間分解能、時間範囲および集計方法を用いて集計を行い、集計結果の各々を属性フィールドとして有する属性データを生成する属性データ生成手段と、対象フィールドを目的変数とし、属性データが有する属性フィールドの各々を説明変数とするモデルであって多項式で表されるモデルを、２以上の従業員の、健康状態データにおける対象フィールドの内容と、属性データの内容とを用いて学習するモデル学習手段と、学習済みのモデルによって示される、対象フィールドと関連のある属性フィールドを抽出する関連フィールド抽出手段と、抽出された属性フィールドの情報を基に、指定された従業員の勤怠データを要約して出力する要約手段とを備えたことを特徴とする。

　本発明によるデータ分析方法は、情報処理装置が、従業員の健康状態に関する情報である健康状態データが有するフィールドのうち関連性の抽出対象とするフィールドである対象フィールドの指定と、２以上の従業員についての健康状態データおよび勤務状況に関する情報である勤怠データと、を少なくとも取得し、情報処理装置が、従業員の各々について、勤怠データが有する所定のフィールドに対して、予め定められた時間分解能、時間範囲および集計方法を用いて集計を行い、集計結果の各々を属性フィールドとして有する属性データを生成し、情報処理装置が、対象フィールドを目的変数とし、属性データが有する属性フィールドの各々を説明変数とするモデルであって多項式で表されるモデルを、２以上の従業員の、健康状態データにおける対象フィールドの内容と、属性データの内容とを用いて学習し、情報処理装置が、学習済みのモデルによって示される、対象フィールドと関連のある属性フィールドを抽出し、情報処理装置が、抽出された属性フィールドの情報を基に、指定された従業員の勤怠データを要約して出力することを特徴とする。

　本発明による記憶媒体に格納されたデータ分析プログラムは、コンピュータに、従業員の健康状態に関する情報である健康状態データが有するフィールドのうち関連性の抽出対象とするフィールドである対象フィールドの指定と、２以上の従業員についての健康状態データおよび勤務状況に関する情報である勤怠データと、を少なくとも取得する処理、従業員の各々について、勤怠データが有する所定のフィールドに対して、予め定められた時間分解能、時間範囲および集計方法を用いて集計を行い、集計結果の各々を属性フィールドとして有する属性データを生成する処理、対象フィールドを目的変数とし、属性データが有する属性フィールドの各々を説明変数とするモデルであって多項式で表されるモデルを、２以上の従業員の、健康状態データにおける対象フィールドの内容と、属性データの内容とを用いて学習する処理、学習済みのモデルによって示される、対象フィールドと関連のある属性フィールドを抽出する処理、および抽出された属性フィールドの情報を基に、指定された従業員の勤怠データを要約して出力する処理を実行させることを特徴とする。

　本発明によれば、アドバイザーが、着目した任意の項目に関連のある、勤怠データを含む従業員の健康状態に関連するデータに含まれる具体的なフィールドの情報を容易に得ることができる。

第１の実施形態のデータ分析装置の構成例を示すブロック図である。データ分析装置１０のハードウェア構成の一例を示す構成図である。第１の実施形態のデータ分析装置１０の動作の一例を示すフローチャートである。勤怠データと該勤怠データに対する時間分解能の時系列上の関係を示す説明図である。勤怠データの例を示す説明図である。属性データ設定情報の例を示す説明図である。属性データの例を示す説明図である。学習の結果得られたモデルパラメータを含む属性表の例を示す説明図である。勤怠データの要約結果の例を示す説明図である。第１の変形例の勤怠データの例を示す説明図である。第１の変形例の勤怠データの他の例を示す説明図である。第２の変形例のデータ分析装置の構成例を示すブロック図である。第２の変形例のデータ分析装置の動作の一例を示すフローチャートである。第３の変形例の属性データ設定情報の例を示す説明図である。第３の変形例の属性データの例を示す説明図である。属性表の他の例を示す説明図である。勤怠データおよび健診データの要約結果の例を示す説明図である。第３の変形例の勤怠データと健診検査日との関係を示す説明図である。第４の変形例のデータ分析装置の構成例を示すブロック図である。第４の変形例のグループ分けの例を示す説明図である。本発明によるデータ分析装置の概要を示すブロック図である。

実施形態１．
　以下、本発明の実施形態を図面を参照して説明する。図１は、本発明の第１の実施形態のデータ分析装置の構成例を示すブロック図である。

　図１に示すデータ分析装置１０は、データ入力部１１と、属性データ生成部１２と、モデル学習部１３と、関連フィールド抽出部１４と、要約部１５とを備えている。

　データ入力部１１は、データ分析装置１０の各処理部で必要とされる情報を入力する。
入力情報は、例えば、従業員の健康状態に関するデータである健康状態データに含まれるフィールドのうち関連性の抽出対象とするフィールドである対象フィールドの指定と、過去の健康状態データと、該健康状態データが計測等された日であるデータ計測日よりも過去の所定期間分のデータを有する勤怠データと、が含まれていてもよい。

　以下では、健康状態データが、従業員の健診、検査または健康に関する問診の結果を示す健診データであり、データ計測日が健診データを取得した日である健診検査日（複数ある場合はそのいずれか）である場合を例に用いて説明するが、健康状態データおよびデータ計測日はこれらに限られない。また、広義の健康状態データには、勤怠データも含まれる。

　また、データ入力部１１は、上記の情報以外に、例えば、後述するような属性データの生成方法を示す情報を入力してもよい。

　ここで、対象フィールドは、健康状態データに含まれるフィールドであればいずれでもよく、また、複数であってもよい。

　属性データ生成部１２は、入力された勤怠データを基に、各従業員の勤務状況の種々の特徴を示す属性データを生成する。より具体的には、属性データ生成部１２は、勤怠データのフィールドごとに、１ヶ月ごと、四半期ごと、半年ごと、１年ごと等の予め定められた時間分解能で、従業員の各々の様々な時間範囲の情報を集計した属性データを生成する。ここで、集計方法すなわち集計に用いる計算方法は１つに限られず、複数の計算方法を用いてもよい。また、１つの勤怠フィールドに対して、複数の時間分解能および時間範囲を用いて集計が行われることが好ましい。

　モデル学習部１３は、対象フィールドを目的変数とし、属性データのフィールド（以下、属性フィールドという）の各々を説明変数とする多項式であって、各説明変数の値から目的変数の値を算出する多項式で表されるモデルを、入力された複数の従業員の健診データと勤怠データとを用いて学習する。モデル学習部１３は、具体的には、該多項式における各説明変数の係数を学習する。

　関連フィールド抽出部１４は、学習されたモデルによって示される、対象フィールドと関連のある属性フィールドを抽出する。関連フィールド抽出部１４は、具体的には、係数がゼロ以外の値をとる説明変数に対応する属性フィールドを抽出すればよい。また、関連フィールド抽出部１４は、抽出した属性フィールドの情報として、該属性フィールドの生成に用いた勤怠フィールドおよび該フィールドに対する要約方法に関する情報（該勤怠フィールドに対する時間分解能、時間範囲、集約方法等）を抽出してもよい。加えて、関連フィールド抽出部１４は、関連性の度合いを示す情報として、係数の値を抽出してもよい。

　要約部１５は、関連フィールド抽出部１４による抽出結果を基に、勤怠データを要約して出力する。例えば、要約部１５は、指定された従業員の勤怠データのうち、抽出された属性フィールドの生成に用いた勤怠フィールド以外のフィールドを除外して出力してもよい。また、例えば、要約部１５は、指定された従業員の勤怠データのうち、抽出された属性フィールドの生成に用いた勤怠フィールドに対して、抽出された時間分解能、時間範囲、集計方法を用いて集計を行った結果を、係数の値とともに出力してもよい。

　なお、時間分解能が１日である場合等、元のデータをそのまま出力する場合も、「集計」に含まれるものとする。また、集計結果は、既に属性フィールドの属性値として保持されている場合がある。この場合、要約部１５は集計処理を省略してもよい。

　また、図２は、データ分析装置１０のハードウェア構成の一例を示す構成図である。図２に示すデータ分析装置１０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１００１、メモリ１００２、出力装置１００３、入力装置１００４およびネットワークインタフェース１００５を含む。

　メモリ１００２は、例えば、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、補助記憶装置（ハードディスク等）等である。出力装置１００３は、例えば、ディスプレイ装置やプリンタ等のように、情報を出力する装置である。入力装置１００４は、例えば、キーボードやマウス等のように、ユーザ操作の入力を受け付ける装置である。ネットワークインタフェース１００５は、例えば、インターネット、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、公衆回線網、無線通信網またはこれらの組合せ等によって構成されるネットワークに接続するインタフェースである。

　例えば、図１に示したデータ分析装置１０の上記機能ブロックの各々は、メモリ１００２に格納されるコンピュータ・プログラムを読み込んで実行するとともに他の各部を制御するＣＰＵ１００１によって構成される。なお、データ分析装置１０およびその各機能ブロックのハードウェア構成は、上記の構成に限定されない。

　なお、データ入力部１１は、上述した入力情報を外部から入力する以外にも、メモリ１００２から読み出してもよい。

　次に、本実施形態の動作について説明する。図３は、本実施形態のデータ分析装置１０の動作の一例を示すフローチャートである。図３に示す例では、まず、データ入力部１１が、対象フィールドの指定と、従業員の各々の健診データおよび勤怠データを入力する（ステップＳ１１）。

　図４は、入力情報としての勤怠データと該勤怠データに対する時間分解能の時系列上の関係を示す説明図である。図４（ａ）に示すように、勤怠データは、判断時点（例えば、アドバイスを行う時点）以前の直近の健診検査日より過去の所定期間（例えば、１年）分のレコードを含んだものであってもよい。なお、図４（ａ）では、上記の所定期間の末日が健診検査日となる例を示しているが、勤怠データの収集期間となる所定期間と健診検査日との間に任意の日数の開きがあってもよい。例えば、図４（ｂ）に示すように、勤怠データは、直近の健診検査日より過去の任意の時点（例えば、年度末等）を第１の時点として、当該第１の時点以前の所定期間分のレコードを含んだものであってもよい。また、健診検査日は直近のものに限られない。換言すると、勤怠データは、関係性の抽出対象とされる対象フィールドの内容を取得した日（健診検査日）を超えない、所定期間を含む時間範囲のレコードを含んでいればよい。また、属性データの生成に用いられる時間分解能は、勤怠データ全体の時間範囲よりも短い期間であれば特に問わない。

　また、図５は、勤怠データの構成例を示す説明図である。図５に示すように、勤怠データは、従業員ごとの日々の出社時刻、退社時刻、勤務の有無、休暇の有無、残業時間といった勤務状況に関する事項が時系列で並べられた情報であってもよい。本実施形態では、勤怠データに含まれる、勤務状況に関する事項の各々をフィールド、すなわち勤怠フィールドと呼んでいる。また、勤怠データに含まれる、ある時点における各勤怠フィールドの値の集合を、勤怠データのレコードと呼んでいる。なお、図５には、社員番号＝１０の従業員の勤怠データの例が示されているが、他の従業員についても同様の勤怠データが入力される。

　次に、属性データ生成部１２は、勤怠データが有する所定のフィールドに対して、任意の時間分解能、時間範囲、集計方法を用いて集計を行って、属性データを生成する（ステップＳ１２）。

　図６は、属性データ設定情報の例を示す説明図である。属性データ生成部１２は、例えば図６に示すような、属性データの生成方法を示す属性データ設定情報に従って、勤怠フィールドに対して集計処理を行い、属性データを生成してもよい。図６には、属性フィールドの各々について、識別子と、概要と、集計対象とする勤怠フィールドと、該勤怠フィールドの時間分解能と、該勤怠フィールドの時間範囲と、該勤怠フィールドに対する集計方法とを含む属性データ設定情報の例が示されている。属性データ生成部１２は、このような属性データ設定情報によって示される、時間分解能、時間範囲および集計方法に基づき、指定された勤怠フィールドに対して集計処理を行って、集計結果の各々を属性フィールドとして含む属性データを生成してもよい。ここで、１つの属性フィールドの値は、複数の勤怠フィールドを用いて算出されてもよい。一例として、複数の勤怠フィールドの値を用いて算出される比などが挙げられる。その場合、属性データ設定情報には、集計対象とされる勤怠フィールドとして、複数の勤怠フィールドが登録される。

　図７は、属性データの例を示す説明図である。図７に示すように、属性データ生成部１２は、従業員毎に、各属性フィールドの値（集計結果）を属性値として含む属性データを生成してもよい。

　次に、モデル学習部１３は、対象フィールドを目的変数、ステップＳ１２で生成された属性データが有する属性フィールドの各々を説明変数とする多項式からなるモデルを、複数の従業員についての健診データ（特に対象フィールドの値）および属性データ（特に属性フィールドの各々の値）を用いて学習する（ステップＳ１３）。

　次に、関連フィールド抽出部１４は、ステップＳ１３で学習されたモデルによって示される、対象フィールドと関連のある属性フィールドを抽出する（ステップＳ１４）。ここで、関連フィールド抽出部１４は、例えば、モデルのパラメータ（多項式の係数）が０以外の値をとる説明変数に対応する属性フィールドの情報を抽出すればよい。

　次に、要約部１５は、ステップＳ１４で抽出された情報に基づいて、指定された従業員の勤怠データを要約して、指定された対象フィールドと関連のある勤怠データの情報として出力する（ステップＳ１５）。ここで、従業員の指定は１人に限らず、複数（全員を含む）であってもよい。その場合、要約部１５は、指定された従業員の各々について、勤怠データを要約して、指定された対象フィールドと関連のある勤怠データの情報として出力すればよい。

　なお、対象フィールドが複数設定されている場合には、対象フィールドそれぞれについて、ステップＳ１３～ステップＳ１５の動作を繰り返せばよい。

　続いて、ステップＳ１２～ステップＳ１５における動作をより詳細に説明する。

（１）属性データ生成フェーズ（ステップＳ１２）の動作のより詳細な一例
　本例では、Ｎ人の従業員の勤怠データが入力されたとする。なお、Ｎは１以上の整数である。また、ｎ番目の従業員の属性データをＸ＿ｎと表す。ここで、ｎ＝１，・・・，Ｎである。本例の属性データＸ＿ｎは、複数個の要素からなるベクトルとして表される。例えば、属性データの要素数（フィールド数）が７であるとする。この場合、属性データ生成部１２は、１番目の従業員の属性データとして、Ｘ＿１＝（０，０，３，２，１，０，０）と表されるようなデータを生成してもよい。これは、１番目の従業員について、１番目の属性フィールドの値が０、２番目の属性フィールドの値が０、３番目の属性フィールドの値が３、４番目の属性フィールドの値が２、５番目の属性フィールドの値が１、６番目の属性フィールドの値が０、７番目の属性フィールドの値が０、であることを表している。属性データ生成部１２は、従業員ごとに属性データを生成し、生成された属性データをメモリ１００２に格納する。

　例えば、図６に示す例の場合、１番目の属性フィールドの要素（属性値）には、その従業員の２０１４年１月１日～２０１４年１月３１日における休暇取得回数を計数した結果、より具体的には、指定された１ヶ月間の時間範囲における、勤怠フィールド＝“休暇取得”の値を加算した結果値が入る。なお、図７によれば、社員番号＝１の従業員の属性データにおける当該属性値が１であることがわかる。

　ここで、ある従業員の属性データの要素（属性フィールド）の１つは、その従業員の勤怠データにおいて、任意の時間分解能を用いて集計処理された勤怠データの休暇取得日や勤務時間、連続休暇の回数、遅刻回数等であってもよい。例えば、月ごとの休暇取得回数であれば、当該月において休暇を取得した日の合計日数が当該属性フィールドの属性値として算出される。また、月ごとの平均勤務時間であれば、（当該月の合計勤務時間／当該月の実働日の日数）が当該属性フィールドの属性値として算出される。なお、図７には、属性データの要素として、社員番号＝１の従業員について、１ヶ月ごとの休暇取得回数、四半期の平均休暇取得回数、半年の平均休暇取得回数、１年の平均休暇取得回数、１ヶ月ごとの平均勤務時間を少なくとも含む例が示されている。

（２）モデル学習フェーズ（ステップＳ１３）の動作のより詳細な一例
　以下、従業員ｎの属性データのｊ番目の要素を、Ｘ＿ｎｊと表す。ここで、ｊ＝１，・・・，Ｍ（Ｍは属性データの要素数である）。また、従業員ｎの健診データのうち、対象フィールドの値をＹ＿ｎと表す。以下の式（１）は、Ｙ＿ｎとＸ＿ｎの関係を示す式である。

Ｙ＿ｎ＝ｆ（Ｘ＿ｎ）　・・・（１）

　モデル学習部１３は、上記の式（１）で示される関数ｆ（）を表現するために必要となるパラメータを学習する。本例では、ｆ（）は、説明変数と説明変数毎の係数とから構成される多項式で表現される関数であるとする。

　ここで、Ｘ＿ｎを、属性データに対応するＭ次元の説明変数とし、Ｙ＿ｎを数値とする。また、Ｗを、Ｍ次元の重みベクトルとすると、上記の式（１）は式（２）のように表される。なお、Ｍ次ベクトルのＷに、多項式の切片を表すための１次元を追加して、Ｍ＋１次元の重みベクトルＷとしてもよい。以下、Ｍ次元ベクトルかＭ＋１次元ベクトルのどちらかに限定しない限りは、重みベクトルＷはＭ次元ベクトルとして扱う。

　ここで、上付きのＴは、ベクトルの転置を表す。

　例えば、複数の従業員について、対象フィールドの値と属性データの組、すなわち｛Ｘ＿ｎ，Ｙ＿ｎ｝（ｎ＝１，・・・，Ｎ）が与えられたとする。この場合、次式（３）の目的関数を最適化することによって、パラメータＷの値を算出できる。

　ここで、λは、二乗和誤差（右辺第１項）と、罰則項（右辺第２項）とのバランスを調整するパラメータである。また、｜｜Ｗ｜｜は、Ｗのノルムである。通常は、Ｌ１ノルムまたはＬ２ノルムが用いられる。また、Ｌ（Ｗ）は、Ｗに関する凸関数であり、勾配法に準じた方法によって最大化することが可能である。

　モデル学習部１３は、例えば、モデル学習処理として、上記の式（３）のＬ（Ｗ）を最大化するパラメータＷの値を求めてもよい。以下、ここで求められたパラメータＷの値を、Ｗ_ｃと表す場合がある。モデル学習部１３は、求めたＷ_ｃをメモリ１００２に記憶する。

　図８は、学習の結果得られたモデルパラメータＷ_ｃを含む属性表の例を示す説明図である。図８には、１４番目と２０番目の属性フィールドの係数に相当するパラメータＷ_ｃ＿１４およびＷ_ｃ＿２０が０以外の値であり、それ以外のパラメータＷ_ｃ＿１～Ｗ_ｃ＿１３，Ｗ_ｃ＿１５～Ｗ_ｃ＿１９，Ｗ_ｃ＿２１～が０である例が示されている。モデル学習部１３は、例えば、図８に示すような、属性フィールドの識別子と、当該属性フィールドの係数として求めたパラメータＷ_ｃ＿ｊとを対応づけた属性表を、メモリ１００２に記憶してもよい。

（３）関連フィールド抽出フェーズ（ステップＳ１４）の動作のより詳細な一例
　関連フィールド抽出部１４は、例えば、メモリ１００２に記憶されている属性表から、多項式の係数に相当する各モデルパラメータＷ_ｃ＿ｊ（ｊ＝１，・・・，Ｍ）の値を読み出す。

　そして、関連フィールド抽出部１４は、読みだしたＷ_ｃ＿ｊのうち、値が０以外のＷ_ｃ＿ｊに対応する属性フィールドの識別子を抽出してもよい。そして、抽出した識別子を基に、当該属性フィールドの生成に用いた、勤怠フィールド、時間分解能、時間範囲および集計方法の組を抽出してもよい。

　例えば、関連フィールド抽出部１４は、Ｗ_ｃ＿ｊ（ｊ＝１，・・・，Ｍ）のうち、絶対値である｜Ｗ_ｃ＿ｊ｜の値が０より大きいｊについて、属性データ設定情報に基づき、当該ｊ番目の属性フィールドの生成に用いた勤怠フィールド、当該勤怠フィールドに対する時間分解能、時間範囲および集計方法の組を抽出してもよい。

　ここで、Ｗ_ｃ＿ｊが負の値の場合、対象フィールドと当該ｊ番目の属性フィールドとの間に負の相関があることを表している。また、Ｗ_ｃ＿ｊが正の値の場合、対象フィールドと当該ｊ番目の属性フィールドとの間に正の相関があることを表している。なお、Ｗ_ｃ＿ｊが０の場合、対象フィールドと当該ｊ番目の属性フィールドとの間には相関がないことを表している。

　関連フィールド抽出部１４は、モデル学習部１３によるモデル学習の結果、０以外の値となったＷ_ｃ＿ｊに対応する属性フィールド全てについて、勤怠フィールド、当該勤怠フィールドに対する時間分解能、時間範囲および集計方法の組を抽出してもよい。また、関連フィールド抽出部１４は、抽出した情報をメモリ１００２に記憶してもよい。

　例えば、図８に示す属性表の例の場合、１４番目と２０番目の属性フィールドの係数に相当するパラメータＷ_ｃ＿１４およびＷ_ｃ＿２０が０以外の値であることから、１４番目と２０番目の属性フィールドについて、勤怠フィールド、当該勤怠フィールドに対する時間分解能、時間範囲および集計方法の組が抽出され、メモリ１００２に記憶される。

（４）要約フェーズ（ステップＳ１５）の動作のより詳細な一例
　要約部１５は、メモリ１００２から、対象フィールドと関連のある属性フィールドの情報として記憶された、勤怠フィールド、時間分解能、時間範囲および集計方法の組を読み出す。そして、要約部１５は、読みだした情報に基づいて、指定された従業員の勤怠データを要約して、その結果を出力する。出力先は、メモリ１００２、出力装置１００３またはネットワークインタフェース１００５を介して接続される他の装置等であってもよい。

　図９は、要約部１５が出力する勤怠データの要約結果の例を示す説明図である。図９に示すように、要約部１５は、対象フィールドと正または負の相関のある属性フィールド全てについて、当該属性フィールドの概要や、生成に用いた勤怠フィールド、正負の相関の度合いとともに、指定された従業員の属性値を出力してもよい。ここでは、この属性値が、当該従業員の勤怠データの要約結果に相当する。また、モデルパラメータＷ_ｃ＿ｊが、正負の相関の度合いを示す情報に相当する。なお、図９には、上記に加えて、全従業員の該属性値の平均も併せて出力する例が示されている。また、図９では図示省略しているが、要約方法（時間分解能や時間範囲や集計方法等）の情報も併せて出力してもよい。

　全従業員の属性値の平均を出力することにより、例えば、アドバイザーは、指導対象の従業員（この場合、社員番号＝１の従業員）の属性値が、他の従業員と比較して大きいか小さいかを容易に理解でき、保健指導に活用できる。

　例えば、図９に示す例において、社員番号＝１の従業員は、勤怠データの収集期間における第２四半期の平均休暇取得回数が２．７回となっており、全従業員の平均値２．３回と比べて大きい。また、当該属性フィールドの係数であるモデルパラメータＷ_ｃ＿ｊの値から、当該属性フィールドの属性値すなわち第２四半期の平均休暇取得回数は、対象フィールドに対して正の相関があることがわかる。このことから当該属性値が大きいほど、対象フィールドの値も大きくなると解釈できる。具体例をあげると、例えば、対象フィールドが血糖値であったとすると、当該属性フィールドの属性値が大きいほど、血糖値の値が大きくなると解釈できる。アドバイザーは、例えば、当該従業員の対象フィールドの値が高い要因の１つとして、第２四半期の平均休暇取得回数が多いことを挙げることができる。なお、１月平均勤務時間についても同様である。

　このように、対象フィールドと勤怠データとの間の関連性が容易にかつ具体的に理解されるので、アドバイザーは、的確なアドバイスを行うことができる。上述した例によれば、アドバイザーは、社員番号＝１の従業員に対して、第２四半期の平均休暇取得回数および１月平均勤務時間に着目して、健康増進の観点から、勤務状況に関するアドバイスを行うことができる。

　以上のように、本実施形態によれば、アドバイザーに、指定された任意の健診フィールドに関連のある勤怠フィールドを提示だけでなく、その勤怠フィールドに対する的確な時間分解能、時間範囲、集計方法等の情報や、実際にそれらの方法で要約した勤怠データを提供することができる。このため、アドバイザーはこれらの情報を基に、適切なアドバイスを行うことができる。また、勤怠データを要約して提示するだけでなく、それら要約された勤怠データに含まれる勤怠フィールドが対象フィールドとどのような関連性を有しているか、またその度合い（正または負の相関度合い）も提供することができるので、アドバイザーはこれらの情報を基に、より適切なアドバイスを行うことができる。

　次に、本実施形態の変形例をいくつか説明する。

［変形例１］
　図１に示したデータ分析装置は、アドバイザーが、従業員の、判断時点での健康状態に関連のある勤務状況の有無等を勤怠データから容易に把握、理解可能にすることを目的としている。このため、該データ分析装置は、判断時点以前の健診データと、その健診データを得た健診検査日より過去の所定の期間分の勤怠データとの間の関連性を多項式モデルの係数で表し、該モデルを学習して得られる各係数の値を基に、上記の所定の期間分の各従業員の勤怠データを要約して出力する。

　一方で、アドバイザーにとっては、判断時点での従業員の健康状態を維持・増進することを目的とした保健指導だけでなく、例えば、健診データが得られない半年後や１年後や３年後といった将来の従業員の健康状態を維持・増進することを目的として、早期に将来の健康増進を図る保健指導も重要である。

　そこで、第１の変形例では、将来の時点での対象フィールドに関連のある、現時点で取得済みの勤怠データの情報を出力可能にする。

　より具体的には、入力情報に、次の情報を追加する。すなわち、勤怠データとして、学習に用いる第１の勤怠データと、将来の時点における対象フィールドとの関連性を提示する対象とする第２の勤怠データとを入力する。

　図１０は、第１の変形例において入力される勤怠データの例を示す説明図である。図１０に示すように、本例のデータ入力部１１は、勤怠データとして、例えば、判断時点より過去の所定の第１の時点以前の第１の期間分のレコードを含む第１の勤怠データと、直近の健診検査日（第１の健診検査日）よりも予め定めた第２の期間以上遡った所定の時点である第２の時点以前の第１の期間分のレコードを含む第２の勤怠データとを入力してもよい。なお、図１０に示す例では、第１の健診検査日が第１の時点よりも将来の日として示されているが、第１の検視検査日と第１の時点との関係はこの限りではない。すなわち、第１の検視検査日は第１の時点よりも過去であってもよい（後述の図１１参照）。

　本例では、第１の健診検査日における健診データの対象フィールドの内容を目的変数として、第２の勤怠データを用いて生成される第２の属性データの属性フィールドの各々の内容を説明変数として学習を行う。そして、学習した内容を基に、第１の勤怠データを用いて生成される第１の属性データの各々の内容と将来の時点である予想時点における対象フィールドの内容との間の関連性を提示する。換言すると、第２の時点以前の第１の期間を学習に使う期間とし、第１の時点以前の第１の期間を予測に使う期間としている。より具体的には、第１の勤怠データを、予想時点の対象フィールドとの関連性を導出する対象、すなわち予測に用いる勤怠データとして使用し、第２の勤怠データを、予測のための学習に用いる勤怠データとして使用する。

　また、図１１は、第１の変形例において入力される勤怠データの他の例を示す説明図である。データ入力部１１は、例えば、図１１に示すように、予想時点より第２の期間分以上遡った過去の所定の時点を第１の時点として、該第１の時点以前の第１の期間分のレコードを含む第１の勤怠データを入力するとともに、判断時点より過去の直近の健診検査日（図中の第１の健診検査日）よりも第２の期間分以上遡った所定の時点を第２の時点として、該第２の時点以前の第１の期間分のレコードを含む第２の勤怠データを入力してもよい。この場合、予想時点は、判断時点より過去の任意の第１の時点から第２の期間先の将来の時点とされてもよい。なお、本例において第１の時点は、判断時点より過去であればよく、必ずしも第１の健診検査日より過去でなくてもよい。また、第２の時点は、判断時点よりも過去の第１の健診検査日よりも第２の期間以上過去の日であればよい。なお、第１の勤怠データの収集期間と第２の勤怠データの収集期間とは必ずしも連続していたり、重なっていなくてもよい。すなわち、第１の勤怠データの収集期間と第２の勤怠データの収集期間との間に任意の日数の開きがあってもよい。

　以下、判断時点以前の直近の健診データを第１の健診データという場合がある。また、以下、第１の期間を収集期間といい、第２の期間を遡り期間という場合がある。なお、第２の期間は、第１の健診検査日と第２の時点との間が、ある一定以上、より具体的には第１の時点から所望する予想時点までの期間以上、離れるように設定されればよく、第１の期間との間の大小関係は特に問わない。すなわち、第２の期間は、第１の期間と同じであってもよいし、第１の期間よりも短くてもまたは長くてもよい。なお、第１の勤怠データと第２の勤怠データとを特に区別せず、第１の勤怠データの収集期間と、第２の勤怠データの収集期間の両方の期間を含む期間分のレコードを含む１つの勤怠データを入力してもよい。そのような場合であっても、以下では、説明の便宜上、第１の勤怠データと第２の勤怠データとを区別して表現する。

　本変形例の構成は、基本的に図１に示した第１の実施形態の構成と同様でよい。

　本変形例において、データ入力部１１は、上述した第１の実施形態における入力情報に加えて、従業員の各々の第２の勤怠データを入力する。

　また、属性データ生成部１２は、従業員の各々について、入力された第２の勤怠データを基に、属性データを生成する。なお、属性データの生成方法は、第１の実施形態と同様でよい。以下、第２の勤怠データを用いて生成される属性データを第２の属性データといい、第１の勤怠データを用いて生成される属性データを第１の属性データという場合がある。属性データ生成部１２は、第２の属性データに加えて、第１の属性データを生成してもよい。

　なお、図６に示した属性データ設定情報の例では、時間範囲が具体的な日付等で示されていたが、本例の属性データ設定情報の時間範囲には、集計対象とされる勤怠データの収集開始時点（例えば、第２の健診検査日より第１の期間分遡った過去の時点）を基準に、「開始時点の年の１月分」といった内容が設定されているものとする。

　また、モデル学習部１３は、第１の健診データの対象フィールドを目的変数とし、第２の属性データの属性フィールドの各々を説明変数とする多項式モデルを、複数の従業員についての第１の健診データおよび第２の属性データを用いて学習する。なお、上述した第１の実施形態と比べて、第１の属性データではなく、第２の属性データを用いている点が異なる。当該モデルは、第１の健診検査日において取得される対象フィールドの値に、それよりも第２の期間以上遡った時点（第２の時点）以前の勤怠データが与える影響を表わしたモデルと言える。

　関連フィールド抽出部１４は、上述した第１の実施形態と同様でよい。すなわち、関連フィールド抽出部１４は、学習されたモデルによって示される、対象フィールドと関連のある属性フィールドを抽出する。

　要約部１５は、関連フィールド抽出部１４が抽出した情報に基づいて、例えば、第１の勤怠データを要約して出力する。要約処理については、第１の実施形態と同様でよい。要約部１５は、例えば、モデル学習によって対象フィールドと相関があると認められた属性フィールド全てについて、該属性フィールドの情報（勤怠フィールド、要約方法、関連度合い等）とともに、指定された従業員の第１の属性データの属性値を出力してもよい。また、要約部１５は、第１の属性データが既に生成済みの場合は、要約処理を省略して第１の属性データの属性値を利用することも可能である。

　これにより、アドバイザーは、予想時点での対象フィールドと関連のある勤怠データの情報を得ることができる。アドバイザーは、例えば、このような要約された第１の勤怠データに基づいて、従業員の各々について、第１の健診検査日から第２の期間以上将来（例えば、半年後や１年後等）の健診データにおける対象フィールドの値に影響すると予想される、勤務状況の有無等を容易に把握・理解することができる。

　ここで、関連フィールド抽出部１４が抽出した情報によって示される、第１の健診データにおける対象フィールドと第２の勤怠データとの間の関連性は、判断時点から過去のデータ、より具体的には第１の健診検査日における健診データを目的変数とし、それよりも第２の期間以上遡った第２の時点で収集可能な第２の勤怠データから生成される属性フィールドの各々を説明変数として用いて求めたものである。したがって、各従業員について、将来の予想時点における健診データと、それよりも第２の期間以上遡った第１の時点で収集可能な第１の勤怠データとの間の関連性を直接求めたわけではない。しかし、本変形例では、判断時点から過去の第１の健診検査日における対象フィールドの値と、第２の勤怠データとの間の関係性と、判断時点から将来の予想時点における対象フィールドの値と、第１の勤怠データとの間の関係性に、大きな変化は生じないという仮定をおく。これにより、アドバイザーが、第２の勤怠データから生成される第２の属性データを学習データとして用いて学習したモデルによって特定される要約方法により要約された第１の勤怠データを基に、任意の従業員について、予想時点とされた将来の健診検査日における対象フィールドと関連のある過重労働や不規則な勤務状態の有無を容易に把握・理解することが可能となる。

［変形例２］
　本変形例では、第１の変形例の機能に加えて、さらに、アドバイザーに対して、将来の時点における健診データの対象フィールドの予測値を提供する。

　図１２は、本変形例のデータ分析装置の構成例を示すブロック図である。図１２に示すデータ分析装置１０は、第１の変形例の構成に加えて、さらに、予測部１６を備えている。

　なお、データ入力部１１、属性データ生成部１２、モデル学習部１３、関連フィールド抽出部１４は、第１の変形例と同様でよい。

　予測部１６は、学習済みのモデルと、指定された従業員の第１の属性データとを用いて、所定の予想時点における対象フィールドの値を予測する。

　例えば、予測部１６は、学習済みのモデルのパラメータＷ_ｃと、第１の属性データとを用いて、予想時点における対象フィールドの値を、次式（４）により算出してもよい。なお、本変形例では、予測に用いる、指定の従業員の第１の属性データをＸ’＿ｎと表している。ここで、予想時点は、第１の健診検査日から第２の期間以上将来の直近の健診検査日とされてもよい。

　Ｙ’＿ｎ＝Ｗ_ｃ ^Ｔ・Ｘ’＿ｎ　・・・（４）

　予測部１６は、計算したＹ’＿ｎを、メモリ１００２に記憶する。ここで、Ｙ’＿ｎは、従業員ｎについて、予想時点における対象フィールドの予測値を表している。

　要約部１５は、例えば、第１の変形例における要約部１５の機能に加えて、さらに、予測部１６が予測した対象フィールドの予測値を出力する。

　図１３は、本変形例のデータ分析装置の動作の一例を示すフローチャートである。図１３に示す例では、まず、データ入力部１１が、必要な情報を入力する（ステップＳ２１）。本例では、データ入力部１１は、対象フィールドの指定と、従業員の各々の第１の健診データ、第１の勤怠データおよび第２の勤怠データを入力する。

　次いで、属性データ生成部１２が、第２の勤怠データを基に、第２の属性データを生成する（ステップＳ２２）。

　次いで、モデル学習部１３が、複数の従業員の、第１の健診データにおける対象フィールドの値と第２の属性データの内容とを用いて、モデルを学習する（ステップＳ２３）。

　次いで、関連フィールド抽出部１４が、学習されたモデルによって示される、対象フィールドと関連のある属性フィールドの情報を抽出する（ステップＳ２４）。

　次いで、予測部１６が、学習済みのモデルと、指定された従業員の第１の属性データとを用いて、予想時点における該従業員の対象フィールドの予測値を算出する（ステップＳ２５）。

　最後に、要約部１５が、ステップＳ２４で抽出された情報に基づいて、指定された従業員の第１の勤怠データを要約し、要約結果とともにステップＳ２５で算出された予測値を出力する（ステップＳ２６）。

　これにより、アドバイザーは、着目した任意の従業員の将来の健診検査結果と関連のある現状の過重労働や不規則な勤務状況の有無等を把握・理解しつつ、将来の健診検査結果の良し悪しに基づいて、該従業員への健康増進アドバイスができるようになる。

　例えば、予想された将来の健診検査値が異常範囲に入ってしまう従業員には、予想時点における当該項目に関連する過重労働や不規則な勤務状態を改善するために、より保健指導のための時間を確保したり、より厳しく勤務状態の改善アドバイスをするなどが考えられる。

［変形例３］
　本変形例では、属性データを生成する際に、勤怠データだけでなく、健診データも用いる。

　属性データ生成部１２は、例えば、健診データにおける所定の健診フィールドの値、例えば、血圧、血糖（ＨｂＡ１ｃ等）、脂質（ＨＤＬ、ＬＤＬ等）、身長、体重や、問診結果（喫煙習慣、睡眠習慣、食事習慣に関する質問への回答等）の値に対し、所定の方法を用いて集計処理を行った結果を、属性データの属性フィールドに含ませてもよい。

　例えば、上記の実施形態および各変形例において、属性データ生成部１２は、従業員ｎの健診データの健診フィールドも含めて、Ｘ＿ｎｊ（ｊ＝１，・・・，Ｍ＋Ｋ）としてもよい。ここで、Ｋは、Ｘ＿ｎｊに追加する健診フィールド数を示す。ただし、対象フィールドは、Ｋの中に含めない。なお、将来の時点における対象フィールドとの関係性を求める場合、既存の健診データにおける対象フィールドについてはＫに含めてもよい。以下では、実際に関連性の抽出対象とされる健診データにおける対象フィールドを、「対象フィールド」と呼ぶ。

　図１４は、本変形例における属性データ設定情報の例を示す説明図である。図１４に示すように、属性データ生成部１２は、例えば、勤怠データだけなく健診データを含む入力情報を対象に、属性データの生成方法を示す属性データ設定情報を予め記憶しておいてもよい。図１４には、健診データのフィールドのうち、血糖（ＨｂＡ１ｃ）、体重、脂質（ＨＤＬ）の値が、属性データの要素すなわち属性フィールドとして用いられる例が示されている。

　なお、図１４に示す例では、データフィールドとして、勤怠データ以外に、健診結果データの指定ができるようになっている。例えば、図１４において、データフィールド＝“勤．休暇取得”は、集計対象とされるデータフィールドが、勤怠データの休暇取得フィールドであることを示している。また、例えば、データフィールド＝“健．血糖”は、集計対象とされるデータフィールドが、健診データの血糖フィールドであることを示している。また、集計方法＝“なし”は、そのままの値を用いることを示している。

　また、図１５は、図１４に示した属性データ設定情報に基づき生成される属性データの例を示す説明図である。図１５に示す例では、少なくとも５０番目～５２番目の属性フィールドの値が、健診フィールドの値となっている。

　なお、属性フィールドが増えれば、モデルパラメータＷ＿ｊの数が増える。

　例えば、本変形例を上記の第１の実施形態と組み合わせることを考える。その場合、属性データ生成部１２は、属性データ設定情報に基づき、各従業員について、入力された勤怠データと健診データとから、属性データを生成する。

　また、関連フィールド抽出部１４は、学習されたモデルによって示される対象フィールドに対して関連のある属性フィールドの情報として、生成に用いた勤怠フィールドおよび／または健診フィールドの識別子や要約に関する情報等を抽出してもよい。

　また、要約部１５は、関連フィールド抽出部１４によって抽出された情報に基づき、勤怠データおよび健診データを要約して出力する。

　図１６は、属性表の他の例を示す説明図である。図１６によれば、モデル学習の結果、１４番目と２０番目と５０番目の属性フィールドの係数に相当するパラメータＷ_ｃ＿１４、Ｗ_ｃ＿２０およびＷ_ｃ＿５０が０以外の値であることがわかる。

　また、図１７は、要約部１５が出力する勤怠データおよび健診データの要約結果の例を示す説明図である。図１７に示すように、要約結果には、属性フィールドの識別子、概要、元となる勤怠データまたは健診データのフィールド名、時間範囲、関連性の度合い（モデルパラメータＷ_ｃ＿ｊ）、平均値、集計結果（属性値）とが含まれていてもよい。この他、要約結果には、さらに時間分解能や、集計方法の情報が含まれていてもよい。

　また、例えば、本変形例を上記の第２の変形例と組み合わせることを考える。その場合、データ入力部１１は、対象フィールドの指定と、従業員の各々についての、第１の健診データ、第１の勤怠データ、第２の勤怠データに加えて、第２の勤怠データの収集期間に含まれるもしくは該収集期間から所定日以内（例えば、所定の日数が経過するまで）に収集される第２の健診データとを入力する。

　図１８は、本変形例における勤怠データと健診データ（より具体的には、健診検査日）との関係を示す説明図である。図１８（ａ）に示すように、データ入力部１１は、例えば、第１の勤怠データの収集期間の末日よりも将来の直近の健診検査日を第１の健診検査日とし、当該第１の健診検査日における健診データを第１の健診データとして入力するとともに、第２の勤怠データの収集期間の末日よりも将来の直近の健診検査日を第２の健診検査日とし、当該第２の健診検査日における健診データを第２の健診データとして入力してもよい。また、データ入力部１１は、例えば、図１８（ｂ）に示すように、例えば、第１の勤怠データの収集期間中に行われた健診検査日を第１の健診検査日とし、当該第１の健診検査日における健診データを第１の健診データとして入力するとともに、第２の勤怠データの収集期間中に行われた健診検査日を第２の健診検査日とし、当該第２の健診検査日における健診データを第２の健診データとして入力してもよい。

　属性データ生成部１２は、属性データ設定情報に基づき、従業員の各々について、入力された第２の勤怠データと第２の健診データとから、第２の属性データを生成する。また、属性データ生成部１２は、さらに、従業員の各々について、入力された第１の勤怠データと第１の健診データとから、第１の属性データを生成してもよい。

　モデル学習部１３は、第１の健診データに含まれる対象フィールドを目的変数とし、該目的変数の値を算出するモデルを、第２の属性データを用いて学習する。

　関連フィールド抽出部１４は、学習されたモデルによって示される対象フィールドに対して関連のある属性フィールドの情報として、生成に用いた勤怠フィールドおよび／または健診フィールドの識別子や要約に関する情報等を抽出してもよい。

　予測部１６は、学習済みのモデルと、指定された従業員の第１の属性データとを用いて、予想時点における対象フィールドの値を予測する。

　要約部１５は、関連フィールド抽出部１４によって抽出された情報に基づき、第１の勤怠データおよび第１の健診データを要約し、要約結果とともに、対象フィールドの予測値を出力する。

　本変形例によれば、アドバイザーは、着目した健康状態に関する任意の項目に関連のある過重労働や不規則な勤務状況の有無等を容易に把握・理解できるだけではなく、該項目に関連のある他の検査値や問診結果の有無等も容易に把握・理解できるようになり、保健指導のさらなる効率化を実現することができる。

［変形例４］
　次に、第４の変形例について説明する。保健指導では、従業員の職種や事業所ごとの特性も加味した上で、各従業員の特性に応じた的確なアドバイスをすることが求められている。例えば、職種や事業所が異なる従業員では、出社時間が異なったり、休憩時間が異なったり、平均残業時間等が異なったりすると考えられる。

　そこで、従業員の職種や事業所などの違いを考慮して、従業員をグループに分け、グループごとに、上記の実施形態や各変形例の処理を行うように変形してもよい。

　すなわち、本変形例では、グループごとにモデルを学習して、対象フィールドと関連のある属性フィールドの情報を抽出する処理を行う。また、要約する際は、指定された従業員が属するグループごとに抽出された属性フィールドの情報等に基づいて、勤怠データと必要であれば健診データとを要約する。また、対象フィールドの予測値を算出する際も、指定された従業員が属するグループごとのモデルを用いて、算出する。

　従業員をグループに分ける方法として、予め各従業員がどのグループに属するかを定めておいてもよいし、予め定めておいた条件に基づいて各従業員をグループ分けしてもよい。また、属性データ生成部１２が生成した属性データを基に各従業員をグループ分けしてもよい。また、健診データを基に各従業員をグループ分けすることも可能である。

　図１９は、本変形例のデータ分析装置の構成例を示すブロック図である。図１９には、第３の変形例に第４の変形例を組み合わせた構成例が示されている。図１９に示すデータ分析装置１０は、第３の変形例の構成に加えて、さらに、グループ化部１７を備えている。

　グループ化部１７は、例えば、予め定めておいた条件に基づいて各従業員をグループ分けする場合、例えば、従業員の事業所、所属部署、職種、年代、性別などの項目を用いて、同じまたは類似の内容を有する従業員を同じグループに振り分けてもよい。

　また、グループ化部１７は、例えば各従業員の属性データを用いてグループ分けする場合、Ｋ－ＭＥＡＮＳクラスタリング技術等の一般的なグループ化方法を用いて、属性データが類似する従業員を同じグループに振り分けてもよい。

　また、グループ化部１７は、図２０（ａ）に示すように、属性データの値により示される予め定められた条件やアドバイザーが指定した条件に基づいて、各従業員をグループ分けしてもよい。

　従業員をグループ化した場合、グループごとに対象フィールドの予測値を算出するための予測式が設けられる（図２０（ｂ）参照）。なお、図２０（ｂ）において、α１～α４は、各予測式の切片を表している。

　そのような場合において、予測部１６は、従業員の属するグループの予測式を用いて、該従業員の対象フィールドの予測値を算出するだけでなく、他のグループの予測式を用いて、該従業員の対象フィールドの予測値を算出してもよい。そのようにすれば、アドバイザーは、各グループの対象フィールドの予測値とグループ分けの条件とに基づいて、対象フィールドの予測値が目標範囲となるグループの中で該従業員が移行しやすいグループを容易に認識することができるので、勤務状況等の改善項目を挙げる際に利用することができる。なお、予測部１６は、他のグループ分け方法の場合においても、各グループの対象フィールドの予測値を算出する処理を行ってもよい。

　また、グループ化部１７は、各従業員の健診データを用いてグループ分けする場合、例えば、Ｋ－ＭＥＡＮＳクラスタリング技術等の一般的なグループ化方法を用いて、健診データの内容が類似する従業員を同じグループに振り分けてもよい。また、例えば、第１の変形例のように、２種類の健診データがある場合、各従業員の第１の健診データと第２の健診データの差分を求めて、差分の大きさが類似する従業員を同じグループに振り分けてもよい。

　次に、本発明の概要を説明する。図２１は、本発明によるデータ分析装置の概要を示すブロック図である。図２１に示すように、本発明によるデータ分析装置５０は、データ取得手段５１と、属性データ生成手段５２と、モデル学習手段５３と、関連フィールド抽出手段５４と、要約手段５５とを備える。

　データ取得手段５１（例えば、データ入力部１１）は、従業員の健康状態に関する情報である健康状態データが有するフィールドのうち関連性の抽出対象とするフィールドである対象フィールドの指定と、２以上の従業員についての健康状態データおよび勤務状況に関する情報である勤怠データと、を少なくとも取得する。

　属性データ生成手段５２（例えば、属性データ生成部１２）は、従業員の各々について、勤怠データが有する所定のフィールドに対して、予め定められた時間分解能、時間範囲および集計方法を用いて集計を行い、集計結果の各々を属性フィールドとして有する属性データを生成する。

　モデル学習手段５３（例えば、モデル学習部１３）は、対象フィールドを目的変数とし、属性データが有する属性フィールドの各々を説明変数とするモデルであって多項式で表されるモデルを、２以上の従業員の、健康状態データにおける対象フィールドの内容と、属性データの内容とを用いて学習する。

　関連フィールド抽出手段５４（例えば、関連フィールド抽出部１４）は、学習済みのモデルによって示される、対象フィールドと関連のある属性フィールドを抽出する。

　要約手段５５（例えば、要約部１５）は、抽出された属性フィールドの情報を基に、指定された従業員の勤怠データを要約して出力する。

　このような構成によれば、勤怠データ内のフィールドに対して、適切な時間分解能、時間範囲、集計方法を特に指定しなくても、指定フィールドと関連がある具体的フィールドの情報を得ることができる。

　また、モデル学習手段は、モデルパラメータとして、多項式に含まれる説明変数の各々の係数を学習し、関連フィールド抽出手段は、係数がゼロ以外の値をとる説明変数に対応する属性フィールドを、対象フィールドと関連のある属性フィールドとして抽出してもよい。

　また、属性データ生成手段は、勤怠データの１つのフィールドに対して、複数の時間分解能、複数の時間範囲または複数の集計方法を用いて集計を行ってもよい。

　データ取得手段は、２以上の対象フィールドの指定を取得し、モデル学習手段は、指定された２以上の対象フィールドの各々について、当該対象フィールドを目的変数とし、属性データが有する属性フィールドの各々を説明変数とするモデルであって多項式で表されるモデルを、２以上の従業員の、健康状態データにおける当該対象フィールドの内容と、属性データの内容とを用いて学習してもよい。

　また、勤怠データは、所定の将来の時点である予想時点よりも予め定めた第２の期間遡った過去の所定の時点である第１の時点以前の第１の期間分のレコードと、直近の健康状態データを取得した日より第２の期間以上遡った所定の時点である第２の時点以前の第１の期間分のレコードとを含み、属性データ生成手段は、従業員の各々について、第２の時点以前の第１の期間分のレコードからなる第２の勤怠データが有する所定フィールドに対して、予め定められた時間分解能、時間範囲および集計方法を用いて集計を行い、集計結果の各々を属性フィールドとして有する第２の属性データを生成し、モデル学習手段は、直近の健康状態データにおける対象フィールドを目的変数とし、第２の属性データが有する属性フィールドの各々を説明変数とするモデルであって多項式で表されるモデルを、２以上の従業員の、直近の健康状態データにおける対象フィールドの内容と、第２の属性データの内容とを用いて学習し、要約手段は、抽出された属性フィールドの情報を基に、指定された従業員の第１の時点以前の第１の期間分のレコードからなる第１の勤怠データを要約し、要約結果を予想時点における対象フィールドと関連のある勤怠データの情報として出力してもよい。

　また、データ分析装置５０は、学習済みのモデルと、指定された従業員の第１の勤怠データを用いて生成される属性データである第１の属性データとに基づいて、従業員の予想時点における対象フィールドの値を予測する予測手段（図示省略。例えば、予測部１６）を備えていてもよい。

　また、データ分析装置５０は、従業員を、予め定められた条件、健康状態データ、勤怠データもしくは属性データに基づいてグループ化するグループ化手段（図示省略。例えば、グループ化部１７）を備え、モデル学習手段は、従業員のグループごとに、当該グループに属する従業員の、健康状態データにおける対象フィールドの内容と属性データの内容とを用いてモデルを学習してもよい。

　また、データ分析装置５０において、属性データは、健康状態データが有するフィールドであって対象フィールド以外の所定のフィールドに対する集計結果が登録される属性フィールドを有していてもよい。そのような場合に、属性データ生成手段は、従業員の各々について、勤怠データが有する所定のフィールドおよび健康状態データが有するフィールドであって対象フィールド以外の所定のフィールドに対して、予め定められた時間分解能、時間範囲および集計方法を用いて集計を行い、集計結果の各々を属性フィールドとして有する属性データを生成し、要約手段は、抽出された属性フィールドの情報を基に、指定された従業員の勤怠データおよび健康状態データを要約して出力してもよい。

　以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　本発明は、保健指導を目的として、勤怠データにおいて任意の健診検査結果に関連するフィールドの情報を提供する用途に限らず、多くのフィールドおよびレコードを有するデータと任意の項目との関連性を分析する用途に好適に適用可能である。
この出願は、２０１５年７月１６日に出願された日本出願特願２０１５－１４２４０４を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　１０　データ分析装置
　１１　データ入力部
　１２　属性データ生成部
　１３　モデル学習部
　１４　関連フィールド抽出部
　１５　要約部
　１６　予測部
　１７　グループ化部
　５０　データ分析装置
　５１　データ取得手段
　５２　属性データ生成手段
　５３　モデル学習手段
　５４　関連フィールド抽出手段
　５５　要約手段
　１００１　ＣＰＵ
　１００２　メモリ
　１００３　出力装置
　１００４　入力装置
　１００５　ネットワークインタフェース

Claims

　従業員の健康状態に関する情報である健康状態データが有するフィールドのうち関連性の抽出対象とするフィールドである対象フィールドの指定と、２以上の従業員についての前記健康状態データおよび勤務状況に関する情報である勤怠データと、を少なくとも取得するデータ取得手段と、
　前記従業員の各々について、前記勤怠データが有する所定のフィールドに対して、予め定められた時間分解能、時間範囲および集計方法を用いて集計を行い、集計結果の各々を属性フィールドとして有する属性データを生成する属性データ生成手段と、
　前記対象フィールドを目的変数とし、前記属性データが有する属性フィールドの各々を説明変数とするモデルであって多項式で表されるモデルを、前記２以上の従業員の、前記健康状態データにおける前記対象フィールドの内容と、前記属性データの内容とを用いて学習するモデル学習手段と、
　学習済みのモデルによって示される、前記対象フィールドと関連のある属性フィールドを抽出する関連フィールド抽出手段と、
　抽出された前記属性フィールドの情報を基に、指定された従業員の勤怠データを要約して出力する要約手段を備えるデータ分析装置。
　前記モデル学習手段は、モデルパラメータとして、前記多項式に含まれる説明変数の各々の係数を学習し、
　前記関連フィールド抽出手段は、前記係数がゼロ以外の値をとる説明変数に対応する属性フィールドを、前記対象フィールドと関連のある属性フィールドとして抽出する
　請求項１に記載のデータ分析装置。
　前記属性データ生成手段は、前記勤怠データの１つのフィールドに対して、複数の時間分解能、複数の時間範囲または複数の集計方法を用いて集計を行う
　請求項１または請求項２に記載のデータ分析装置。
　前記データ取得手段は、２以上の対象フィールドの指定を取得し、
　前記モデル学習手段は、指定された２以上の対象フィールドの各々について、当該対象フィールドを目的変数とし、前記属性データが有する前記属性フィールドの各々を説明変数とするモデルであって多項式で表されるモデルを、前記２以上の従業員の、健康状態データにおける当該対象フィールドの内容と、前記属性データの内容とを用いて学習する
　請求項１から請求項３のうちのいずれか１項に記載のデータ分析装置。
　前記勤怠データは、所定の将来の時点である予想時点よりも予め定めた第２の期間遡った過去の所定の時点である第１の時点以前の第１の期間分のレコードと、直近の健康状態データを取得した日より前記第２の期間以上遡った所定の時点である第２の時点以前の第１の期間分のレコードとを含み、
　前記属性データ生成手段は、前記従業員の各々について、前記第２の時点以前の第１の期間分のレコードからなる第２の勤怠データが有する所定フィールドに対して、予め定められた時間分解能、時間範囲および集計方法を用いて集計を行い、集計結果の各々を属性フィールドとして有する第２の属性データを生成し、
　前記モデル学習手段は、前記直近の健康状態データにおける対象フィールドを目的変数とし、前記第２の属性データが有する属性フィールドの各々を説明変数とするモデルであって多項式で表されるモデルを、２以上の従業員の、前記直近の健康状態データにおける対象フィールドの内容と、前記第２の属性データの内容とを用いて学習し、
　前記要約手段は、抽出された属性フィールドの情報を基に、指定された従業員の第１の時点以前の第１の期間分のレコードからなる第１の勤怠データを要約し、要約結果を前記予想時点における対象フィールドと関連のある勤怠データの情報として出力する
　請求項１から請求項４のうちのいずれか１項に記載のデータ分析装置。
　前記学習済みのモデルと、指定された従業員の第１の勤怠データを用いて生成される属性データである第１の属性データとに基づいて、前記従業員の予想時点における対象フィールドの値を予測する予測手段を備えた
　請求項５に記載のデータ分析装置。
　前記従業員を、予め定められた条件、健康状態データ、勤怠データもしくは属性データに基づいてグループ化するグループ化手段を備え、
　前記モデル学習手段は、前記従業員のグループごとに、当該グループに属する従業員の、健康状態データにおける対象フィールドの内容と、属性データの内容とを用いてモデルを学習する
　請求項１から請求項６のうちのいずれか１項に記載のデータ分析装置。
　前記属性データは、健康状態データが有するフィールドであって対象フィールド以外の所定のフィールドに対する集計結果が登録される属性フィールドを有し、
　前記属性データ生成手段は、前記従業員の各々について、前記勤怠データが有する所定のフィールドおよび前記健康状態データが有するフィールドであって対象フィールド以外の所定のフィールドに対して、予め定められた時間分解能、時間範囲および集計方法を用いて集計を行い、集計結果の各々を属性フィールドとして有する属性データを生成し、
　前記要約手段は、抽出された属性フィールドの情報を基に、前記指定された従業員の勤怠データおよび前記健康状態データを要約して出力する
　請求項１から請求項７のうちのいずれか１項に記載のデータ分析装置。
　情報処理装置が、従業員の健康状態に関する情報である健康状態データが有するフィールドのうち関連性の抽出対象とするフィールドである対象フィールドの指定と、２以上の従業員についての前記健康状態データおよび勤務状況に関する情報である勤怠データと、を少なくとも取得し、
　前記情報処理装置が、前記従業員の各々について、前記勤怠データが有する所定のフィールドに対して、予め定められた時間分解能、時間範囲および集計方法を用いて集計を行い、集計結果の各々を属性フィールドとして有する属性データを生成し、
　前記情報処理装置が、前記対象フィールドを目的変数とし、前記属性データが有する属性フィールドの各々を説明変数とするモデルであって多項式で表されるモデルを、前記２以上の従業員の、前記健康状態データにおける前記対象フィールドの内容と、前記属性データの内容とを用いて学習し、
　前記情報処理装置が、学習済みのモデルによって示される、前記対象フィールドと関連のある属性フィールドを抽出し、
　前記情報処理装置が、抽出された前記属性フィールドの情報を基に、指定された従業員の勤怠データを要約して出力する、
データ分析方法。
　コンピュータに、
　従業員の健康状態に関する情報である健康状態データが有するフィールドのうち関連性の抽出対象とするフィールドである対象フィールドの指定と、２以上の従業員についての前記健康状態データおよび勤務状況に関する情報である勤怠データと、を少なくとも取得する処理、
　前記従業員の各々について、前記勤怠データが有する所定のフィールドに対して、予め定められた時間分解能、時間範囲および集計方法を用いて集計を行い、集計結果の各々を属性フィールドとして有する属性データを生成する処理、
　前記対象フィールドを目的変数とし、前記属性データが有する属性フィールドの各々を説明変数とするモデルであって多項式で表されるモデルを、前記２以上の従業員の、前記健康状態データにおける前記対象フィールドの内容と、前記属性データの内容とを用いて学習する処理、
　学習済みのモデルによって示される、前記対象フィールドと関連のある属性フィールドを抽出する処理、および
　抽出された前記属性フィールドの情報を基に、指定された従業員の勤怠データを要約して出力する処理
を実行させるためのデータ分析プログラムを格納した記憶媒体。