書籍:Tableauで始めるデータサイエンスのホームページ

2019年10月30日に書籍:「Tableauで始めるデータサイエンス」を出版いたしました。

今西 航平 ( 株式会社キカガク )
増田 啓志 ( Tableau Japan )
岩橋 智宏 ( Tableau Japan )
ISBN
9784798060255
こちらのページではこの本についてのアップデート情報を公開するとともに、内容の改善のためにご意見、修正の指摘などお待ちしております。
指摘、コメントなどございましたら、このページのコメント欄にご記入、ご協力ください。
この本をきっかけに新しい繋がりが生まれることを期待しております。
どうぞよろしくお願いいたします。

紹介

本書は、データビジュアライゼーションの「Tableau」とプログラミング言語「Python」の組み合わせで学ぶデータサイエンス入門書です。

「データから価値を見出したい!」 でも「何から手を付ければいいのかわからない!」と、データの山を前に立ちすくんでしまう・・・そんなこともありますよね?

「データサイエンスにチャレンジしたい!」 でもコーディングと数学で挫折してしまった! そんなこともありませんか?

もちろんPython のコーディングを一から勉強して、整備されていないデータと立ち向かい、データを理解して・・・ということもできるはずです。

しかし実際の現場ではそこまで時間をかけて勉強する時間がないくらい切迫しているのではないでしょうか?

この本では、Tableau という強力なツールを使って、コーディング無しにデータの準備、データの理解の作業を、考えるスピードと同じ速さでアウトプットを出していきます。

そして、予測モデルを作成する部分で現在のデータサイエンスの主流となっているPython を利用し、その評価とプレゼンテーションにもう一度Tableau を使う・・・というように、データサイエンスのサイクルをTableau を使って超高速で回していく事例を紹介しています。

第1章では、CRISP-DM(Cross-Industry Standard Process for Data Mining)の「6つのプロセス」に準したがってデータサイエンスのプロセスを紹介していきます(ので、データの樹海で迷子になりません。)

①ビジネスの理解
②データの理解
③データの準備
④モデリング
⑤評価
⑥共有・展開

図1.CRISP-DM概要図

本書の第2 章は「基礎体力編」と題し、CRISP-DMのステップの各要素にフォーカスします。
「データの理解」について、2.1「データ可視化の基礎」にて、Tableau Desktopを利用して学習します。

図2.Kobe Bryant (NBAプロバスケットボール)選手20年のシュートの軌跡より

「データの準備」について、2.2「データの準備の基礎」にて、Tableau Prep Builderを利用して学習します。

図3.Tableau Prep Builderを使って東京の気象を可視化する(データ準備)

図4.前準備をした結果をTableau Desktop で可視化する

「モデリング」については、2.3「予測モデル作成の基礎」にて、Python の基本的な構文から始めて予測モデルの作成、Pythonでの評価方法までを学習します。

第3 章は「実践編」と題して、CRISP-DMのステップを組み合わせ、東京の中古マンション価格予測や、電力需要を気象情報を加味して予測するなど、パブリックデータを元にデータサイエンスのプロセスを回し、ビジネス価値を産み出す実習に挑戦します。

図5.最寄り駅ごとの予測と実績の誤差

図6.JR中央線(東京)マンション価格予測ダッシュボード(Tabpyを使ったリアルタイム予測)

図7.電力需要と気温の関係(散布図)

図8.Prophet (Facebook) による時系列予測とイベント考慮

最後に第4 章は「展望編」では、構造化されたデータだけではなく、画像、音声、言語処理などの非構造データを対象とするAIにどのように取り組むか、データを取り巻くデータ人材がどのようにデータサイエンスの世界へキャリアパスを広げていけば良いのか、そのヒントで締めくくります。

 

目次

■第1章 Tableau「で」始めるデータサイエンスとは?
1.1 データサイエンスって何だろう?
1.2 データサイエンスのプロセスサイクルとTableauプロダクト
1.3 Tableau って何だろう?
1.4 Tableauをインストールしてみよう!
1.4.1 インストール手順
1.4.2 留意事項

■第2章 基礎体力編
2.1 可視化の基本
2.1.1 データ探索を始めよう:プロバスケット選手のショットデータを読み解く
2.1.2 データへの接続
2.1.3 時系列データの可視化
2.1.4 ショットタイプによる分析(ツリーマップ)
2.1.5 位置情報の可視化
2.2 データ準備の基本
2.2.1 データ準備の必要性
2.2.2 Tableau Prep Builder を使ってみよう
2.2.3 Tableau Prep Builder の基本的な使い方をアメダスデータを使って学ぶ
2.3 機械学習の基本
2.3.1 機械学習とは
2.3.2 Pythonの基礎
2.3.3 Pythonによるデータ操作
2.3.4 Pythonによる機械学習の実装
2.3.5 精度の検証とハイパーパラメータチューニング

■第3章 実践編:実データでデータサイエンスのサイクルを回してみる
3.1 銀行顧客の定期預金申し込みを推論してみよう
3.1.1 データの収集
3.1.2 データの理解
3.1.3 モデルの作成と評価
3.1.4 モデルの精度を可視化する
3.1.5 推論の実施
3.1.6 予測値の利用
3.2 東京23区のマンション価格を推論する
3.2.1 問題設定
3.2.2 データの収集
3.2.3 データの準備と理解
3.2.4 モデルの作成
3.2.5 モデルの評価
3.2.6 推論結果の利用
3.3 気象情報を考慮して電力需要を推論してみよう!
3.3.1 問題設定
3.3.2 データの収集
3.3.3 データの理解
3.3.4 時系列分析とは
3.3.5 Prophet による時系列解析
3.3.6 Prophet による時系列解析-Tableau Desktopを使った評価
3.3.7 精度向上の試行錯誤

■第4章 展望編
4.1 AIとBI 連携の重要性
4.2 データサイエンティストを目指す次のステップとは
4.2.1 画像
4.2.2 自然言語
4.3 データ活用の次のステージ:必要なスキルセットとは
4.3.1 ビジネス力
4.3.2 データサイエンス力
4.3.3 データエンジニアリング力
4.3.4 橋渡し力
4.4 この次にどこを目指していくべきか
4.4.1 横展開型:様々な領域を広く浅く学んでいく
4.4.2 縦展開型:1点集中型で深く突き進めていく

■付録
A.1 Pythonの環境構築
A.1.1 Windows の場合
A.1.2 Mac の場合
A.2 Tabpy Server インストール方法
A.2.1 Windows の場合
A.2.2 Mac の場合
A.3 Tabpy 利用方法の基礎
A.3.1 Tabpy Server の起動と接続確認
A.3.2 Tabpy DesktopからPython スクリプトを実行する
A.3.3 Pythonコードの中で何が行われているか確認する
A.4 Tabpy Client 実行の仕方
A.4.1 Tabpy を起動する
A.4.2 Jupyter Notebookで事前に関数を定義しTabpy Server にデプロイする
A.4.3 Tableau Desktopでの計算式の作成
A.4.4 Tabpy Server からの戻り値を可視化に利用
A.5 Graphvizのインストールについて
A.5.1 Windows の場合
A.5.2 Macまたは上の手順がうまく行かない場合

 

追加の注釈

A.1 Pythonの環境構築

■ Windows Power Shell / コマンドラインで python や conda が見つからない場合

→ Pathが通っていない可能性があります。

Windowsの検索「環境変数を編集」を開き、Pathを編集します。

以下を追加する

C:\Users\<Username>\AppData\Local\Continuum\anaconda3

C:\Users\<Username>\AppData\Local\Continuum\anaconda3\Scripts

 

Power Shell から「python –version」を実施してpython が実行できることを確認します。

 

誤記の訂正

記述の誤りについても皆様からのご指摘いただき誠に感謝いたします。

■ p335:
誤: y = pd.DataFrame(pred,columns=[“predict”])
正: y = pd.DataFrame(y,columns=[“predict”])
※ データフレームに追加する変数が”pred”ではなく、”y”

■ p350: フィールド名:predict_price

誤: 青色囲みの中身の計算式の記載が違う

正:以下の計算式が正しいです。

SCRIPT_REAL(
"return tabpy.query('housingprice',_arg1,_arg2,_arg3,_arg4,_arg5,_arg6,_arg7,_arg8,_arg9,_arg10,_arg11)['response']", 
MAX([p_years]), 
MAX([p_minutes]), 
MAX([p_sqrm]), 
MAX([p_distance]) , 
MAX([p_renovate]) , 
MAX([p_express]) , 
MAX([rooms_1k_1dk]),
MAX([rooms_1ldk]),
MAX([rooms_2k_2dk]),
MAX([rooms_2ldk]),
MAX([rooms_3dk_3ldk])
)

既に動作するTableau ワークブックが以下のリンクよりダウンロード可能ですので、手動で計算式を記載されるよりこちらで稼働確認いただくことをお勧めいたします。

ダウンロードサイト:

https://www.shuwasystem.co.jp/support/7980html/6025.html

 

 

2件のコメント

  1. Hi Tomoshiro,

    Your book looks really cool – love your combination of Data Science + Tableau!

    Hope it’s going to be hugely successful so that it will be published in English 🙂

    Franco

返信を残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください