意思決定を支援する情報システム
■データウェアハウスとデータマイニング
■データウェアハウス
①データウェアハウスとは、言葉の通り「データの倉庫」である。
提唱者のウィリアム・H・インモンは、次のように定義している。
データウェアハウスは、「サブジェクト指向」で「統合化」されており、「時系列」で「恒常性」を持つ経営幹部の意思決定を支援するデータの集合体である。
サブジェクト指向 | 処理や機能では無く、例えば、「顧客」「商品」といったデータを対象に設計するという事 |
統合化 | データの名前や属性を一意的に決める事。例えば「性別はMとFで表現する」など |
時系列 | データの保有期間が5~10年と長い事。そして必ずしも現時点で最近ではない事を示している。データの量は、GBの上のTBやPBの単位 |
恒常性 | 格納されたデータは、参照されるのみであり、そのデータを更新する事はなく、よって更新の為の仕組みも不要であるという事。 |
②OLAP
データウェアハウスなどの業務システムから蓄積されたデータを分析する処理であり、また、様々な角度からデータ分析可能な多次元データベースを作成するツールの事を指す。
①ROLAP |
---|
業務システムで通常用いているデータベースのデータをその都度多次元データベース化して利用する手法である。多次元データベースの内容を変更する際の柔軟性はあるが、分析時の検索速度が遅くなる短所がある。 |
②MOLAP |
---|
あらかじめ、多次元データベースを作成しておく方法である。検索速度は速いが、データベースの内容を変更するのが困難であるという、ROLAPと反対の特徴を持っている。 |
OLAPでは、スライジング、ダイシング、ドリリングの操作が可能である。
①スライシング |
---|
スライシングは、1枚のテーブルを抜き出し集計表を作成する事であり、チーズの固まりからスライスして薄いチーズを取出すイメージである。 |
②ダイシング |
---|
ダイシングは、スライシングのテーブルの切り口を変えてみる事であり、サイコロを転がして見える面を変える様なイメージである。 |
③ドリリング |
---|
ドリリングは、データの集計レベルを変更し、階層の違う集計表を作成する事である。データを掘り下げるドリルダウンと括りを大きくするドリルアップがある。 |
■データウェアハウスに関するデータベース
①ODS
基幹系業務システムのオンライン処理においてデータを1時的に保持するデータベースであり、また、基幹係業務システムから、データウェアハウスへのデータをロードする際に、中間データベースとして使用される事もある。
短時間内で更新を許可する |
リアルタイムでデータを格納する |
詳細データのみを保持する |
1~2カ月程度の短期間なデータを保持する |
②データコート
データコートは、データウェアハウスの中から利用部門それぞれの目的に合わせて一部を取出したものである。データコートに対して全てのデータを保持するものをセントラルDWHと呼び区別する。
■データマイニング
データマイニングとは、様々な統計手法などを用いて、データウェアハウスのデータを分析し、隠れた関係性や意味を見つけ出す方法である。データマイニングは、小売業やクレジット業などで活用事例があるが、最も有名なのが「おむつとビール」の事例である。あるスーパーマーケットでは、「週末に紙おむつを買いに来る男性は、同時に缶ビールをケースごと買う」という規則性を発見した。今日では、このような活用はさらに進み、顧客情報との組み合わせを行い、ターゲットを絞り込んだダイレクトメールの発送など、CRM分野での効果的な活用に発展している。
データマイニングツールには、データ分析のアルゴリズムが組み込まれており、GUIを駆使した直感的な操作が出来るように工夫されている。
■意思決定のためのデータ分析手法
■データマイニングなどで用いられる手法
①デジションツリー
デジションツリーは、意思決定、選択、分類などを多段階に繰り返して行う場合に、分岐の繰り返しを階層化して木構造に描き表わしたものである。「もし、・・・ならば~」という形で表現されるので、意思決定の過程をわかりやすく表現できる。分析結果を評価・解決しやすい、などのメリットがある。
②マーケットバスケット分析
マーケットバスケット分析は、POSデータやECサイトでの取引データから顧客販売行動を予測するデータ分析手法である。一人の顧客が一度に購買するデータをマーケットバスケットデータといい、これを州や月単位に集計し、一緒に買われる商品の組み合わせを発見するためにデータ分析する。
③指数平滑法
指数平滑法は、時系列データから将来値を予測する時系列分析手法である。今回の事象が直前の事象に強く影響されるような場合の短期予測に適しており、短期の販売予測、定期発注方式での発注量予測、財務上の時系列予測などで利用される。
予測値=a×前回実績値+(1-a)×前回予測値 |
=前回予測値+a×(前回実績値‐前回予測値) |
この計算式では、前回において実績値が予測値からどれほど外れたかを算出し、それに一定の係数aを掛けて得た修正値を前回予測値に加減して今回の予測値を導き出している。係数aは、平滑定数と呼ばれ0<a<1 の範囲で設定される。aが1に近いほど前回実績値を重視し、0に近いほど前回予測値を重視する事になる。
■統計手法
①統計によるデータ分析
記述統計 | 収集したデータが持っている情報を、様々な角度から整理・集約して集団の特性や構造を数量的に記述する。 |
推測統計 | 収集したデータを母集団から抽出した標本と考え、標本データから母集団が持っているであろう情報を推測する。すべてのデータは、確率分布すると考えており、大きく推定と検定にわかれる。推定には、一つの値で推定する点推定と、信頼率と値の区分で示す区間推定がある。 |
②理論分布
ある変量がどのような値を取りやすいかを示したものを確立分布というが、その内、一定の性質を持ち、理論的に説明できるものを理論分布という。
正規分布 | 身長や体重、テストの点数などは身近な数多くのものが正規分布に近い確立分布になると考えられており、理論的にも実用的にも最も重要な分布である。 |
二項分布 | コインを投げた時の表裏。プロジェクトの成功失敗など。2つの結果しか得られない時に見られる分布が二項分布である。 |
ポワソン分布 | めったに起こらない事象を長時間観測して数え上げた時の分布がポワソン分布であり、二項分布に近似するとされている。 |
指数分布 | 二項分布やポワソン分布が人数等の離散的なデータを対象とするのに対し、指数分布は時間等の連続的なデータを対象にする。 |
③自由度
自由度とは、自由に値を決める事が出来る数であり、全データ数-1で求める事が出来る。
自由度 = 全データ数 - 1
④検定
検定とは、母集団の比率や平均などについての仮説を立て、その仮説が正しいかどうかを標本データから推測するものである。この仮説のうち、”2つの質的変数の間に関連性があるもの”を「帰無仮説」、”2つの質的変数の間に関連性がない”ものを「対立仮説」という。
t検定 | t検定は、2つの集団の平均に意味のある佐賀あるかどうかをけんていする方法である。例えば、ある販売施策の前後で売り上げが大きく変わった(帰無仮説)とか、店長の性別は売上に関連がない(対立仮説)などを検定する。 |
カイ2乗検定 | カイ2乗検定は、ある仮説のもとで、2つの事象について期待値と実際の観測値のズレを評価する事で関連性の有無を判定する手法である。 |
F検定 | F検定(分散分析)は、3つ以上あるグループ間の平均の差を検定する方法であり、実験計画法でも用いられる。 |
⑤多変量解析
多変量解析とは、多くの変量からなるデータを同時に分析し、変量間の関係を探る手法の総称である。
回帰分析 | 回帰分析は、気温、人口、宣伝など売上に影響を及ぼすいくつかの変量と売上の関連を調べるなど、予測や関連性の説明に用いる方法である。 |
判別分析 | 判別分析は、いくつかの変量のデータをもとにグループ分けをする方法であり、グループ分けの境界線を求める。 |
因子分析 | 因子分析は、数多くのデータの裏に潜む共通の要因を探り出し、これをもとにデータを説明する方法である。 |
クラスター分析 | クラスターは、ブドウの「房」や「集落」などの意味を持っており、クラスター分析は、類似性の指標をもとに、様々な特性ごとに似たものを集め、グループ(クラスター)に分類する方法であり、因子分析で見つけた因子をベースにグループ分けをすることも出来る。 |
主成分分析 | 主成分分析は、相関関係にある数多くの要因(変数)から大きな影響を与えているものを絞り込み、総合的な評価や特性を分析する手法である。 |
【裏ワザ】覚えやすいメールアドレスでEメール上級者の仲間入り!