データマイニングについて

データマイニングとは、膨大なデータの調査と分析により、有意のパターンや規則を見出す技術です。ここではデータマイニングの手法やツール、活用法をご紹介します。

データマイニングとは、何ですか?

データマイニングとは、大規模データの調査と分析によって有意のパターンや規則を見出すことをいいます。これはデータサイエンスの研究領域の一分野と見なされており、また過去のデータを説明する予測分析とは異なります。データマイニングは将来の結果を予測することを目的としています さらにデータマイニング技術は、検索エンジンアルゴリズムやレコメンデーションシステムといった現代の人工知能(AI)アプリケーションを強化する機械学習(ML)モデルを構築するために用いられます。

データマイニングの活用

Data Mining Applications

データベースマーケティングとターゲッティング

小売業者はデータマイニングを用いることで顧客への理解が深まります。データマイニングにより、市場グループをより適切に区分し、プロモーションを調整して、様々な消費者について効果的に掘り下げてカスタマイズされたプロモーションを提供することが可能になります。

信用リスク管理と信用スコアリング

銀行は、借り手の負債の担保能力や返済能力を予測するためにデータマイニングモデルを活用しています。このモデルは、さまざまな人口統計および個人情報を利用して、クライアントに割り当てられたリスクレベルに基づいて金利を自動的に選定するものです。このモデルは信用評価の一要因として信用スコアを用いるため、比較的良好な信用スコアを持つ申込者は一般に低めの金利が付与されることになります。

不正行為の摘発と防止

金融機関は、不正取引を自動的に検出して阻止するためにデータマイニングモデルを導入しています。この形式のコンピュータ・フォレンジックは各取引の水面下で行われ、消費者は往々にしてそのことに気づくことはありません。このモデルは、支出習慣を追跡することによって、異常な取引について顧客が購入を確認するまで、フラグを立て、直ちに支払いを保留します。データマイニングアルゴリズムは、購入確認の電子メールやテキスト通知により、消費者を不正取引から保護するために自律的に機能することができます。

ヘルスケアバイオインフォマティクス

医療従事者は統計モデルを使用して、リスク因子に基づき患者のさまざまな健康状態に関して可能性を予測します。人口統計データ、家族データ、および遺伝的データをモデル化して、患者のネガティブな健康状態の発現を予防または緩和するための患者による改善行動に寄与することができます。こうしたモデルは、医師が現場に駆けつけて治療行為を行う前に患者を診断し、優先順位付けできるようにするために、最近発展途上国で導入されました。

スパムフィルタリング

データマイニングは、電子メールのスパムやマルウェアの侵入に対抗するためにも利用されます。システムは何百万もの悪質なメッセージの共通の特徴を分析して、セキュリティソフトウェアの開発に情報をもたらすことができます。この特化したソフトウェアは、検知をする上に、さらに一歩前進し、ユーザーの受信箱に届く前にこれらのメッセージを削除することができるのです。

レコメンデーションシステム

レコメンデーションシステムは現在オンライン小売業者の間で広く利用されています。予測的な消費者行動モデリングは現在多くの企業の注目の的となっており、競争に不可欠なものと考えられています。AmazonやMacy’sといった企業は、あらゆるタッチポイントにわたって需要を予測し、カスタマーエクスペリエンスを向上させるために、独自のデータマイニングモデルを構築しました。Netflix は、レコメンデーションシステムの精度を大幅に向上させるアルゴリズムに対して、100万ドルの賞をオファーしたことで有名です。受賞したモデルはレコメンデーションの精度を8%以上向上させました。

心理分析

ソーシャルメディアデータによるセンチメント(感情)分析は、テキストマイニングと呼ばれる技術を利用したデータマイニングの一般的な活用方法です。これは、複数ユーザーの総体がトピックに対してどのように感じるかを理解するために用いる方法です。テキストマイニングには、統計的パターン認識からもたらされる重要な洞察を得るために、ソーシャルメディアチャネルまたは他の形態の公共コンテンツからの情報を利用することが含まれます。さらに一歩進めて、自然言語処理(NLP)技術を使用して、使われている言葉に潜む文脈上の意味を見出すことができます。

定性的データマイニング(QDM)

定性的研究は構造化されてから、テキストマイニング技術を使って分析され、大量の非構造化データを解明することができます。このことが児童福祉の研究にどのように利用されてきたかについての詳細な考察が、バークレーの研究者によって発表されました。

データマイニングの手法

承認されたデータマイニングプロセスには6つのステップがあります。

  1. ビジネスの理解

    最初のステップは、プロジェクトの目標と、データマイニングがその目標達成にどのように役立つことができるのかを設定することです。タイムライン、行動、役割分担を盛り込むために、この段階で計画を立てるべきです。

  2. データの理解

    このステップでは、該当するあらゆるデータソースからデータを収集します。この段階では、データビジュアリゼーションツールが多く用い、データの特性を調べて、確実にビジネス目標の達成に役立つようにします。

  3. データ準備

    その後、データは整備され、不足しているデータを盛り込んだ上でマイニングの準備完了を確認します。分析データ量とデータソース数によっては、データ処理に膨大な時間がかかることがあります。したがって、現代のデータベース管理システム(DBMS)では分散システムが用いられており、単一のシステムに負担をかけずにデータマイニングプロセスの速度を高めています。この方法はまた、組織のあらゆるデータを単一のデータウェアハウスに格納するよりも安全です。データが永久に失われることがないように、データ操作の段階でフェイルセーフ対策を取り入れることが重要です。

  4. データモデリング

    次に数理的モデルを用いて、高性能のデータツールを使用してデータ内のパターンを見つけます。

  5. 評価

    調査結果を評価し、ビジネス目標と照らし合わせて、組織全体で展開する必要があるかどうかを判断します。

  6. 展開

    最終段階では、データマイニングの調査結果を日常の業務運営すべてにわたって共有します。企業のビジネスインテリジェンス・プラットフォームを使用して、セルフサービスのデータ発見のために真正な単一の情報源を提供することができます。

Data Mining Process

データマイニングの利点

  • 意思決定の自動化

    データマイニングにより、組織は継続的にデータを分析し、人による判断によって遅延することなく日常的な決定と重要な決定の両方を自動化することができます。銀行は即座に不正取引を検出し、検証を求め、さらに顧客を個人情報窃盗の犯罪から守るために個人情報を保護することができます。組織の運用アルゴリズム内に展開されたこうしたモデルは、データを自主的に収集、分析、処理することにより、組織の意思決定を合理化し、日々のプロセスを強化することができます。

  • 正確な予測と見通し

    計画立案はあらゆる組織において重要なプロセスです。データマイニングは計画を容易にし、過去の傾向と現在の状況に基づいて信頼できる見通しを経営者にもたらします。Macy’sは、各店舗それぞれの衣料品カテゴリーの需要を予測し、市場のニーズを効率的に満たすために適切な在庫を発送するべく、需要予測モデルを導入しています。

  • コスト削減

    データマイニングにより、リソースをより効率的に活用し、配分することを可能になります。組織は、最大限のコスト削減につながる正確な予測によって計画し、自動化された意思決定を行うことができるのです。Deltaでは、乗客からの預かり手荷物にRFIDチップを埋め込み、データマイニングモデルを導入して、プロセスの欠陥を特定して荷物の取り扱いミスの数を削減しました。このプロセス改善により、乗客の満足度が向上し、紛失した手荷物を探して再発送するコストが削減されます。

  • 顧客インサイト

    企業は、顧客データからデータマイニングモデルを展開して、顧客間の主要な特性と相違点を明らかにします。データマイニングを使用してペルソナを作成し、各タッチポイントをパーソナライズすることにより、カスタマーエクスペリエンス全体を向上させることができます。2017年、ディズニーは「マジックバンド」を創り、導入するために10億ドル以上を投資しました。このバンドは消費者と共生関係にあります。リゾートでの彼らの全般的な体験を増やしつつ、ディズニーは、同時に彼らの活動に関するデータを集めて分析し、彼らのカスタマーエクスペリエンスの向上に役立てるのです。

データマイニングの課題

効果絶大なプロセスではあるものの、データマイニングはビッグデータの量と複雑さの増大化によって妨げられています。毎日膨大な量のデータが企業によって収集される場合、意思決定者は豊富なデータリポジトリから洞察を抽出、分析、獲得する方法を必要としています。

  • ビッグデータ

    ビッグデータの課題は多数あり、データを収集、保存、分析するあらゆる分野に及びます。ビッグデータは、数量、多様性、正確性、速度という4つの大きな課題により特徴付けられます。データマイニングの目標は、これらの課題を解決し、データの価値を引き出すことです。

    数量は、組織によって収集された膨大な量のデータを保存し処理するという難題のことを指します。この膨大な量のデータには2つの大きな課題があります。1つは正しいデータを見つけるのが難しいこと、もう1つはデータマイニングツールの処理速度が遅くなることです。

    多様性とは、多種多様なデータが収集され、保存されるということを指します。データマイニングツールは、さまざまなデータフォーマットを同時に処理するように装備されている必要があります。構造化データと非構造化データの両方の分析に集中を欠くと、データマイニングによる付加価値が阻害されてしまいます。

    速度とは、新しいデータが作成、収集、保存される速度が増すことを詳しく示しています。数量はストレージ要件の増加を意味し、多様性はデータの種類の増加を意味しますが、速度はデータ生成速度の急激な増加に伴う課題です。

    最後に、正確性は、すべてのデータが等しく正確というわけではないことを認識するものです。データは、いい加減で不完全なもの、不適切に収集されたもの、さらには偏っているものである可能性があります。往々にして、データが迅速に収集されればされるほど、データ内にはより多くのエラーが現れやすくなります。正確性の課題は、データ量とその品質のバランスをとることです。

  • 過剰適合モデル

    モデルが母集団の根本的な傾向ではなくサンプル内の自然誤差を表している場合に、過剰適合が発生します。過剰適合モデルは過度に複雑なものであることが多く、予測を導くために過剰な独立変数を用います。したがって、過剰適合のリスクは、データ数量の増加とデータの多様性によって高められるのです。変数が少なすぎると、的外れなモデルになります。一方で、変数が多すぎるとモデルが既知のサンプルデータに制限されてしまいます。この課題を解決するには、データマイニングモデルで使用される変数の数を控えめにし、その予測力と正確性のバランスをとることです。

Data Mining Challenges
  • 拡張コスト

    データ速度がデータ量と多様性を増やし続けるにつれて、企業はこれらのモデルを拡張し、組織全体にそれらを適用しなければならなくなります。これらのモデルでデータマイニングの利点を最大限に引き出すには、コンピューティング・インフラストラクチャーと処理能力に多大な投資が必要になります。規模を達成するには、組織は、企業の大量かつ多様なデータを処理するよう設計された強力なコンピューター、サーバー、およびソフトウェアを購入して維持する必要があります。

  • プライバシーとセキュリティ

    データのストレージ要件の増大により、多くの企業はクラウドコンピューティングとストレージに目を向けざるを得ませんでした。クラウドはデータマイニングにおける今日の多大なる進歩を可能にしましたが、一方ではこのサービスの性質上、プライバシーとセキュリティに関する重大な脅威を生み出します。組織は、パートナーや顧客の信頼を維持するために、悪意ある人物から保有するデータを保護する必要があります。

    データプライバシーの保護のために、組織には顧客データの利用と導入に関する内部規則と制限を整備する必要性が生じます。データマイニングは、消費者に関する説得力のある洞察をビジネスにもたらす強力なツールです。しかし、これらの洞察はどの時点で個人のプライバシーを侵害するのでしょうか。組織は、顧客とのこの関係性を検討し、消費者に利益となる方針を策定し、信頼される関係性を維持するためにこの方針を消費者に伝達しなければなりません。

データマイニングの類型

データマイニングには、主に2つのプロセスがあります。教師あり学習と教師なし学習です。

  • 教師あり学習

    教師あり学習の目的は予測または分類です。このプロセスを概念化する最も簡単な方法は、単一の出力変数を探すことです。モデルの目的が観測値を予測することである場合、プロセスは教師付き学習と見なされます。その一例がスパムフィルタです。これは教師あり学習を利用して、受信メールを不要なコンテンツとして分類し、これらのメッセージを受信トレイから自動的に削除するものです。

    教師ありデータマイニングアプローチで使用される一般的な分析モデルは次のとおりです。

    • 線形回帰。

      線形回帰は、1つ以上の独立した入力を使用して連続変数の値を予測するものです。不動産業者は、線形回帰を使用して、面積、ベッドルームとバスルームの比率、築年数、および郵便番号に基づいて住宅の価値を予測します。

    • ロジスティック回帰。

      ロジスティック回帰は、1つ以上の独立した入力を使用してカテゴリー変数の確率を予測するものです。銀行はロジスティック回帰を使用して、クレジットスコア、世帯収入、年齢、およびその他の個人的要因に基づいてローン申込者が債務不履行になる確率を予測します。

    • 時系列。

      時系列モデルは、時間を主な独立変数として使用する予測ツールです。Macy’sなどの小売業者は、時系列モデルを展開して時間の関数として製品の需要を予測し、その予測を用いて、必要な在庫レベルで正確な計画を立て、店舗に商品を置きます。

    • 分類ツリーまたは回帰ツリー。

      分類ツリーは、分類別ターゲット変数と連続ターゲット変数の両方の値を予測するために使用できる予測モデリング手法です。このモデルは、データに基づいて、最も高い割合の類似したターゲット変数をまとめて分割してグループ化するためのバイナリ規則のセットを作成します。これらの規則に従って、新しい観測値が属するグループがその予測値になります。

    • ニューラルネットワーク 。

      ニューラルネットワークは、脳の構造、そのニューロン、そしてそれらのつながりに着想を得た分析モデルです。このモデルはもともと1940年代に創出されたものですが、近年でも統計学者やデータ・サイエンティストたちの間で人気を集めています。ニューラルネットワークは入力を使用し、それらの大きさに応じて、閾値要件に基づきノードを「オン」または「オフ」にします。この信号、またはその欠如は、ネットワークの隠れ層で他の「オンになった」信号と結合され、そこで出力が作成されるまでそのプロセスが繰り返されます。ニューラルネットワークの利点の1つは、ほぼ瞬時の出力をすることにあります。そのため自動運転車ではデータを正確かつ効率的に処理して自律的に重要な決定を下すためにこのモデルを導入しています。

    • K近傍法 。

      K近傍法は、過去の観測値に基づいて新しい観測値を分類するために用いられます。以前の方法とは異なり、K近傍法はモデル駆動ではなくデータ駆動です。この方法は、データについての基礎的前提を立てることも、入力を解釈するために複雑なプロセスを使用することもありません。K近傍法モデルの基本的な考え方は、K近傍の隣接モデルを特定し、それに多数値を割り当てることによって新しい観測値を分類するというものです。多くのレコメンデーションシステムは、この方法をネストさせて類似のコンテンツを特定し分類します。これが後により大きなアルゴリズムによって引き出されることになります。

Types of Data Mining
  • 教師なし学習

    教師なしタスクは、データ内の基礎となるパターンを明らかにするためにデータの理解と記述に焦点を当てるものです。レコメンデーションシステムは、教師なし学習を使用してユーザパターンを追跡し、カスタマーエクスペリエンスを向上させるためのユーザ毎にカスタマイズした個別のレコメンデーションを提供します。

    教師なしデータマイニングアプローチで使用される一般的な分析モデルは次のとおりです。

    • クラスター化

      クラスタリングモデルは、類似したデータをまとめてグループ化するものです。このモデルは単一の実体を記述する複雑なデータセットで最もよく用いられます。その一例として、セグメント間の類似性をグループ化し、クラスターを識別し、既存のグループに類似する新しいグループをターゲットにする、類似モデリングがあります。

    • 連関分析

      連関分析はマーケットバスケット分析とも呼ばれ、頻繁に同時に発生する品目を識別するために用いられます。スーパーマーケットは通常、このツールを使用してペアとなる商品を識別し、それらを店舗に陳列して顧客がより多くの商品の傍を通りかかるようにして購入増加を仕向けます。

    • 主成分分析

      主成分分析は、入力変数間の隠れた相関関係を明示し、主成分と呼ばれる新しい変数を生成するために用いられます。この分析では元のデータに含まれていたものと同じ情報を捕捉しますが、変数は少なくなります。同レベルの情報を伝達するために使用される変数の数を減らすことによって、分析者は教師ありデータマイニングモデルの有用性と正確性を高めることができます。

  • 実務における教師あり・教師なしアプローチ

    それぞれのアプローチを単独で使用することはできますが、分析中に両方を使用することはよくあります。各アプローチには独自の利点があり、組み合わせることでデータマイニングモデルの堅牢性、安定性、全般的な有用性を高めます。教師ありモデルは、教師なし手法から派生した変数をネストさせることによって恩恵を受けることができます。たとえば、回帰モデル内のクラスター変数を使用すると、分析者はモデルから余分な変数を排除してその正確性を高めることができます。教師なしアプローチはデータ内の根本的な関係性を明らかにするので、教師あり分析を飛躍的に進歩させるために、分析者は教師なし学習からの洞察を用いるべきです。

データマイニングツール

データマイニングソリューションは急増していますが、具体的な目標を十分に理解し、それらを適切なツールやプラットフォームにマッチさせることが重要となります。

RapidMiner(ラピッドマイナー)

RapidMinerは、Javaで記述されたオープンソースソフトウェアです。RapidMinerは予測分析を行うのに最適なプラットフォームの1つで、ディープラーニング、テキストマイニング、および機械学習のための統合環境を提供します。このプラットフォームは、オンプレミスまたはクラウドベースのサーバーを利用でき、数多くのさまざまな組織で導入されています。RapidMinerはカスタムコーディング機能とユーザーフレンドリーなインターフェースの絶妙なバランスを提供します。これにより、コーディングとデータマイニングの強固な基盤を持つ組織がプラットフォームを最も効果的に活用できるようになります。

Orange(オレンジ)

Orangeは、Pythonで記述されたオープンソースのコンポーネントベースのソフトウェアです。Orangeは、作業が簡単なデータ前処理機能を誇り、基本的なデータマイニング分析に最適なプラットフォームの1つです。Orangeは、独自のユーザーフレンドリーなインターフェースを使用して、データマイニングにユーザー指向のアプローチを取り入れています。ただし、大きな欠点の1つは、その限られた一連の外部データコネクタです。Orangeは、ユーザーフレンドリーなデータマイニングを探していて、オンプレミスのストレージを使用している組織に最適です。

Mahout(マハウト)

Apache Foundationが開発したMahout(マハウト)は、教師なし学習プロセスに焦点を当てたオープンソースプラットフォームです。このソフトウェアは、クラスタリング、分類、および協調フィルタリングのための機械学習アルゴリズムの作成に優れています。Mahoutは、より高度なバックグラウンドを持つ個人を対象としています。このプログラムにより、数学者、統計学者、データ・サイエンティストらが独自のアルゴリズムを作成し、テストし、実行することができます。Mahoutには、レコメンダーのような、組織が最小限の労力で導入可能なターンキーアルゴリズムがいくつか含まれていますが、大規模プラットフォームでは、その全性能を活用するための特化された バックグラウンドが必要になります。

Microstrategy

MicroStrategyは、あらゆるデータマイニングモデルを補完するビジネスインテリジェンス・データ分析ソフトウェアです。このプラットフォームは、さまざまなネイティブゲートウェイとドライバを使用して、あらゆる企業リソースに接続し、そのデータを分析することができます。MicroStrategyは、複雑なデータをアクセスしやすい可視化状態に変換して組織全体に分配するのに優れています。このソフトウェアは、あらゆるデータマイニングモデルのパフォーマンスをリアルタイムで追跡および分析し、意思決定者のためにこれらの洞察を明確に表示することができます。MicroStrategyとデータマイニングツールを組み合わせることで、ユーザーは高度なデータマイニングモデルを作成し、組織全体にそれらを導入し、そこから得た洞察と市場でのパフォーマンスを参考にして意思決定を行うことができるようになります。

よくある質問

データマイニングの定義を教えてください。
そもそもなぜデータマイニングをするのですか?
データマイニングの例をいくつかおしえてください。
データマイニングのプロセスを教えてください。
データマイニング技術とは何ですか?
データマイニングの利点は何ですか?
データマイニングの課題について教えてください。
データマイニングとデータディスカバリーの違いは何ですか?
データマイニングの今後の傾向について教えてください。
ウェブマイニング゙とは、何ですか?
優れたデータマイニングツールにはどのようなものがありますか?
データマイニングモデルを評価する方法について教えてください。
リレーショナルデータマイニングとは何ですか?