CData-Data-Robot Driverを使って簡単ー予測値ゲット!

皆様こんにちは! 今回はCData Software さんより提供が開始される、「CData DataRobot ODBC Driver」を使って見ましたので、こちらをご紹介します。

CData Software さんはデータ連携ソリューションのリーディングプロバイダーで、2019年3月に日本でもTableau との協業を開始しkintone、Dynamics 365、NetSuite などTableau のデータ連携ソリューションを提供しています。

今回新たにDataRobotに接続しデータを送って予測値をまるっと取ってきてくれる超便利なドライバーを開発されたということで利用させていただきました。

イメージとしては予測の元となるテストデータを準備して、Tableau から「CData DataRobot ODBC Driver」を利用してDataRobot に接続すると、DataRobotにデプロイ済みの予測モデルを使って、予測値を算出し、テストデータに予測値の情報を追加して返してくれます。一回接続を定義してしまえば一般利用者はバックエンドでDataRobotが動いているということを気にせずに予測値が取れてしまいます。

今までは手動でDataRobotにテストデータをアップロードし、予測された結果をダウンロードし、IDをキーとしてJOIN する必要がありましたが、そういった作業を自動化してくれるのでスムーズです。

大まかな作業ステップは以下のようになります。

準備

① DataRobotに訓練データをアップロード、予測モデルの候補を作成する

② 推奨される予測モデルを選択してデプロイする

③ CData DataRobot ODBC Driver で接続先DataRobot情報とテストデータの場所を定義する

接続

④ Tableau から、定義済みのODBC経由でテストデータに接続する

→ 自動的にテストデータがDataRobotに送られ予測値が得られる

⑤ Tableau で可視化する!

—————————————————————————————————————————

それでは早速やってみましょう!

① DataRobotに訓練データをアップロード、予測モデルの候補を作成する

 

 

まずは教師データをアップロードして、モデル作成の「開始」ボタンをクリックします。今回はオートパイロットモードで作成します。

パラレルで学習し予測モデルが作成されます。

② 推奨される予測モデルを選択してデプロイする

出来上がったモデルの中からデプロイ推奨モデルを選びます。

モデルを選択して、「予測 > デプロイ API」から「モデルをデプロイ」ボタンをクリックしてデプロイメントを作成します。

デプロイに成功します。

③ CData DataRobot ODBC Driver で接続先DataRobot情報とテストデータの場所を定義する

初回はまず、CData DataRobot ODBC Driver をインストールしましょう。CData DataRobot ODBC Driverの製品ページにアクセスしてODBCドライバをダウンロードします。30日間ご試用頂ける評価版もあるということです。

f:id:kuwazzy:20190605190321j:plain

(補足)インストール途中にオンラインによるライセンスアクティベーションが必要となります。プロキシサーバーなどでCDataのライセンスサーバにアクセス出来ない場合は、オフラインでのアクティベーション手順をお伝えしますので、その旨をCData Software Japanのテクニカルサポート窓口までお問い合わせください。 とのことです。

インストールが完了すると、ODBC Driver の構成画面が表示されるので、以下の情報を入力します。

再度設定する際には、ODBCアドミニストレータ―を起動します。Windowsの場合、検索ボックスから「ODBC」と打つと「64bit ODBC Administrator」が起動できます。

入力が必要な情報:(値はあくまでサンプルです。)

項目 値(例) あくまでサンプルです。 備考
User name@tableau.com DataRobot アカウントのユーザー名。
Password password DataRobot アカウントのパスワード。
Data Robot Key 99daba9a-a275-0000-9999-9a999999999 Predictions API で使用されるDataRobotKey。
Prediction Instance https://xxxxx.orm.datarobot.com 接続する専用の予測インスタンスのURL。Predictions API を呼び出すために必要です。
Data File C:\data\与信リスクのデータ(100件).csv Predictions API に送信するデータファイル。CSV フォーマット。Predictions API のガイドラインによると、ファイルサイズは50MB 未満でなければなりません。
ファイル形式はUTF-8 BOM無し形式とします。(SakuraEditorなどで形式を指定できます。)
Data File Encoding UTF-8 指定したデータファイルのエンコーディング。値には、UTF-8、SHIFT_JIS、ISO8859_9 が含まれます。

(補足)各接続プロパティの詳細な情報は製品マニュアルをご覧ください。

Data Robot Key とPrediction Instance は、DataRobotの画面から「デプロイ」→「インテグレーション」→「JSON」を選択し、「headers = 」の後ろを参照します。

設定が完了したら「接続のテスト」ボタンをクリックして成功した旨のメッセージダイアログが表示されたらDSN設定を保存して閉じてください。

以上でCData DataRobot ODBC Driver製品の設定は完了です。

④ Tableau から定義済みのODBC経由でテストデータに接続する

それではTableauから接続してみましょう! Tableau の接続画面から「その他のデータベース(ODBC)」を選択します。

DNSで「CData DataRobot Source」を選択→「接続」→「サインイン」

データベース=「CData」、スキーマの選択=「DataRobot」を選択します。(検索のマークを押すと選択できるようになります。)

表の選択でデプロイした予測モデルを選択します。データの読み込みを行うと、テストデータ予測値の情報が追加されていることが確認できます。ここで、「predictionValues.0.value」が予測したい値、つまり「貸し倒れする確率」となります。

上記のように、自動的にテストデータがDataRobotに送られ予測値が追加された状態で得ることができます。(手動での結合処理は不要です。)

⑤ Tableau で可視化する!

Tableau で可視化しましょう。

「利率」と「貸し倒れ確率」で散布図を作成し、「グレード」で色分けします。「利率」が増えると、「貸し倒れ確率」も増えること、グレードによって貸し倒れ確率がきっぱり分かれることが可視化によって分かります。

ローン目的の違いによって貸し倒れの確率が顧客のIDごとにどのように分布するか箱ひげ図で可視化します。small_business は箱ひげのが高い位置にあるので、貸し倒れ率の分布が全体的に高いことが分かりますね。

DataRobotのコンソールからも small_business の貸倒率が高いことが分かりますが、Tableau で可視化するとより直感的に理解できますし、飛び抜けて高い貸倒率を示すポイントの顧客IDを確認するのも、ポイントにマウスオーバーするだけで可能です。

一回ファイルを定義すれば、ファイルの内容が更新されても、Tableau からデータソースを更新するだけで新しい予測値が得られるので便利ですね

以上、CDataより提供が開始される、「CData DataRobot ODBC Driver」を使って見たレポートでした! 皆さんも是非トライしてみてくださいね! なお、こちらのODBCドライバーのサポートはTableau テクニカルサポートではなく、CData テクニカルサポート の方になりますのでご了承ください。

今回の記事作成に当っては、CData Software Japan 合同会社 の 桑島 義行 さん、疋田 圭介 さんにご協力いただきました。ご協力頂きありがとうございました。

(注意)当ブログ記事は、先進的な技術情報を共有することを目的としており、Tableau社、DataRobot社としての発表・アナウンスメントとは一切関係がありません。またTableau 社、DataRobot社からの正式なレビューを受けておりません。

CData社より提供されるドライバーの使用とお問い合わせについては、Tableau テクニカルサポートのサポート範囲外となります。お問い合わせについてはCData社サポートまでお問い合わせください。

返信を残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください