可視化とAI・データ分析(前半)

 本コラムではデータ可視化について解説します。本コラムで登場する「データ分析」は、収集したデータを整理・加工して分析を行うことを指します。「AI開発」は、機械学習を用いて予測モデルを開発することを指します。

1.2つのデータ可視化

 2つのデータ可視化とは「入手したデータが分析等に使えるかどうかをチェックする際に必要なデータ可視化【チェック型のデータ可視化】」と「データ分析で業務課題を解決する際に必要なデータ可視化【解決型のデータ可視化】」です。

 データ可視化の話の前に、以下に挙げる4つの項目を確認して、「データ分析」と「AI開発」を使い分ける必要があります。

●業務課題の解決に必要な分析結果

 データ分析を使うケースは、分析者が業務の話を聞いた上でデータを可視化し、その結果を業務担当者に見せながらディスカッションを繰り返し行うことを通じて、「業務課題の解決に役立つ気付き」を得る必要がある場合です。
 AI開発を使うケースは、課題を解決するための施策に組み込む「重要な情報(予測結果)」を得る必要がある場合です。

●データ件数

 AI開発の場合、ケースによりますが、少なくとも数千行以上のデータがないと、業務に必要な精度を満たす予測モデルを得られないことが多いです。データ件数が少ない場合、対象業務のケースを網羅しきれないため、AI開発は適さない場合があります。
 一方、データ分析は、数百行のデータ行でも実施可能です。

●予測したいデータ項目

 開発したAIで予測結果を得たいケースでは、予測対象のデータ項目の実績値がデータに十分に含まれていなければなりません。
 一方、データ分析は基本的に統計をベースとしており、過去データを理解することに向いています。

●コスト

 AI開発はデータ分析よりも難易度が高く、数学的知識やプログラミングスキルがより必要となります。昨今台頭してきているAI自動作成ツールの導入により、これらの知識やスキルの学習量が少なくなりますが、ツールの導入やスキルの教育に費用がかかるため、投資対効果の視点から全社導入をベースに考えるべきです。例えば、課題解決時のビジネスインパクトが大きい全社レベルの改革プロジェクトや、小さくとも多数の業務改善プロジェクトがある状態が望ましいです。

 以降の章では、「チェック型のデータ可視化」と「解決型のデータ可視化」のやり方について説明します。

2.チェック型のデータ可視化のやり方

2-1.アプローチと視点

 データ分析やAI開発を実施する場合は、必要なデータを入手した後に、まず入手したデータが本当に使えるかどうかをチェックしなければなりません。このチェックにデータ可視化を用います。

 例えば、入手したデータが欠損している状態や、業務によって作られる本来のデータと入手したデータで差異がある(値や件数の点で乖離しているなど)状態が品質の低いデータと言えます。このような品質の低いデータをデータ分析やAI開発で使ってしまうと、分析者が誤った分析結果を導出し、業務担当者に誤った意思決定をさせてしまうことになりかねません。

 品質の低いデータの問題を発見するためには、「業務知見」と「データ可視化」をうまく組み合わせてアプローチする必要があります。
 このアプローチは「網羅性」と「妥当性」の視点で使う必要があります。網羅性とは、今回行う分析目的から見て入手したデータに大きな漏れがないかどうかです。妥当性とは、入手したデータが対象業務を適切に表現しているかどうかです。

 網羅性と妥当性の視点で、以下のようなチェックを行う例を考えます。

●網羅性

  • ①分析に必要なデータ項目が漏れなく収集できているか?
    (例: 営業効率を分析するにあたり、引き合い別の受注までの時間や労務費といった効率性の分母を表現するデータ項目があるか?)
  • ②分析に必要なボリュームを持つデータを収集できているか?
    (例: 季節変動がある需要を分析するにあたり、1年分のデータが揃っているか?)

●妥当性

  • ①業務によって作られる本来のデータと、入手したデータが乖離していないか?
    (例: 「金額」の項目の表示単位が千円/円で入り混じっていないか?)
  • ②欠損値が含まれていないか?
  • ③極端な偏りや異常値が含まれていないか?
    (例: スーパーマーケットの在庫を分析するにあたり、通常の週次入荷数が数個である品目であるにも関わらず、数百となっていないか?)

 これらのチェックを具体的に実施する手順について説明します。

2-2.手順

 まず業務知見をメインとするチェック(網羅性①、妥当性①)から始めて、次にデータ可視化をメインとするチェック(網羅性②、妥当性②③)を実施すると効率的です。業務知見をメインとするチェックは、データの確認範囲が狭いため、作業をクイックに終わらせることができます。そのため、業務知見をメインとするチェックを終わらせてから、データ可視化をメインとするチェックに進みましょう。

 まず、業務知見をメインとするチェックの手順について説明します。

 網羅性①【分析に必要なデータ項目が漏れなく収集できているか?】は、「データ項目名」の網羅性チェックです。業務知見を持った人と分析者が協力して、分析に必要なデータ項目を書き出します。そして書き出したデータ項目と、入手したデータ項目を付き合わせて、分析に必要なデータ項目が入手したデータに含まれていることを確認します。

 妥当性①【業務によって作られる本来のデータと、入手したデータが乖離していないか?】は、「データ項目名」の意味する内容が値に設定されているかどうかのチェックです。
 データ量が多い場合、このチェックは段階的に実施します。まず、業務知見をインプットに「先頭数十行のデータ」をチェックします。このチェックでは、業務知見を持った人と分析者が協力して、データ項目名が示す内容になっていることを確認します。次に、チェックで得られたポイントと業務知識をインプットに「データ全量」をチェックします。
 このチェックの良い点は、事前の想定と入手したデータ項目の乖離が先にわかるので、後続のデータ全量のチェックの回数を1回に近づけることが可能です。またデータ量が多い場合の全量チェックは、プログラムの作成等が必要になることがあります。

 次に、データ可視化をメインとするチェックについて説明します。

 網羅性②【分析に必要なデータの行が漏れなく収集できているか?】は、「データ行」の網羅性チェックです。まず、データ項目ごとにヒストグラムや棒グラフを作成します。次に、業務知見を持った人と分析者が協力してデータの傾向を確認します。確認するポイントの例を以下に挙げます。
●データ項目は、業務で取りうる連続値やカテゴリ値の範囲に収まっているか。
●季節変動がある需要を分析するにあたり、1年分のデータが揃っているか。

 妥当性②【欠損値が含まれていないか?】は、データに含まれる欠損値が、業務を適切に表現した結果かどうかを確認します。こちらは手順ではなく、シンプルな確認イメージを1つ挙げます。
 商談をイメージすると、商談開始時点で、商品や数量は未確定のため、データ的には欠損となりますが、これは業務上許容される欠損です。
 商談が進むにつれ、顧客が要望する商品や数量が決まっていくことで、これらの欠損は埋まっていきます。そして見積書を作る段階になりますが、この時は注文する商品や数量に欠損が残っていてはいけません。この欠損は、業務上許容されない欠損です。

 妥当性③【極端な偏りや異常値が含まれていないか?】は、「データ項目名」と「データ項目の値」の妥当性チェックです。
 まず、「データ項目ごとの基礎統計量(最大値・最小値・平均値・分散など)の計算」や、データの傾向を視覚的に確認するための「データ項目ごとのヒストグラムや棒グラフの作成」をチェックの準備として行います。
 次に、業務知見を持った人と分析者が協力して、アウトプットで妥当性をチェックします。チェックするポイントの例を以下に挙げます。
●基礎統計量を確認して、統計的に外れている値を持つデータ項目がないか?【分析者による実施】
●業務知見で認識している山の形(度数分布表)と、ヒストグラムで表現したデータの山の形を比較し、どのような差異があるか?【協力して実施】

3.解決型のデータ可視化のやり方

3-1.アプローチと視点

 「データからの気付きの獲得」や「施策(解決策)の根拠確認」のためには、解決型のデータ可視化が有効です。

 解決型のデータ可視化も、チェック型のデータ可視化と同様に「業務知見」と「データ可視化」をうまく組み合わせてアプローチする必要があります。ただしこちらのアプローチでは、「誰が」、「何をするか」ということがポイントになります。

 まず「誰が」という視点では、業務担当者と分析者が登場します。次に「何をするか」という視点では、「業務知見で解決策の仮説を立てる」、「データでの仮説検証結果およびデータからの気付きを獲得する」、「業務知見アプローチとデータ可視化アプローチの結果をぶつけるディスカッションを行う」が要素となります。図にまとめると以下のようなイメージです。

 解決策の仮説について補足します。一般的にデータ可視化から得られる情報は、解決策の粒度よりも細かいものとなります。解決策の仮説は、考える上で起点となる原因(例えば売り上げ低下の複数の原因候補など)にまでブレイクダウンしておくことが、解決型のデータ可視化をうまく進める上でのポイントです。

3-2.手順

 業務担当者の仮説は、長年業務に携わっておられる方の暗黙知が基になるため、網羅的ではありませんが、かなりの確からしさを備えています。しかし勘と経験に基づくため、判断の理由を他者に説明することが難しい場合が多く、その場合は属人性が高くなります。
 この属人性を解消するために用いるのが、データ可視化による客観的な検証です。データがある範囲であれば網羅的に差異を探索し、そこから気付きを得ることができます。

 まず業務担当者が業務知見を用いて、課題を解決する施策の仮説を立てます。次に業務と仮説のヒアリングを完了した分析者が、データ可視化を用いて仮説検証および気付きの獲得を進めます。(解決型①→解決型②)
 そして分析者は、データ可視化を用いて得た「検証結果および気付きに基づく仮説」を立案します。最後に、業務担当者と分析者で、業務知見アプローチとデータ可視化アプローチの仮説をぶつけるディスカッションを行います。(解決型②→解決型③→解決型④)
 ディスカッションを通じて、業務知見アプローチによる仮説の妥当性が検証され、データ可視化アプローチで得られた仮説は進化します。ディスカッションとデータ可視化は1回限りで終わるものではなく、繰り返し行うことで業務施策に利用できる仮説にもっていくことができます。

 本コラムではデータ分析やAI開発で重要となる「2つのデータ可視化」について説明しました。
 データ可視化は、業務知見とうまく組み合わせて活用することで、誤った分析結果の低減や、解決策の仮説検証・立案に利用できる重要なツールです。ぜひ、本コラムを参考に実業務に活用してみてください。

 当社が提供するサービスの「データ分析業務活用道場」「データ分析サービス」「DataRobot 機械学習を自動化するAIプラットフォーム」、「データエンジニアリングサービス」は、このような考え方をベースとし、お客様のビジネス成果獲得の可能性を最大限、高める形になっています。

DataRobot・データ利活用ソリューションに関する詳細資料

DataRobotの
トライアル・お問い合わせ

DataRobot活用支援の
ご相談

2024年2月9日公開
※この記事に掲載されている内容、および製品仕様、所属情報(会社名・部署名)は公開当時のものです。予告なく変更される場合がありますので、あらかじめご了承ください。

関連サービス

  • データ分析業務活用道場

    事業部門の業務改善・改革にAI・データ分析を利活用していく方法をワークショップと講習を通じて、身につけていただくコンサルティング・トレーニングサービスです。

  • DataRobot 機械学習を自動化するAIプラットフォーム

    DataRobotのAI プラットフォームには、世界をリードするトップデータサイエンティストの知識、経験、ベストプラクティスが組み込まれており、データプレパレーション、モデリング、モデルデプロイ、予測実行までのデータサイエンスプロセスをトータルで自動化します。