AI活用で成功事例を生み出せる組織の作り方

近年、データ解析チームを社内で立ち上げる企業が増えているように感じられる。一方で、立ち上げたが期待した成果が上がらないという声もいくつか耳にしている。今回はその点に着目し、パフォーマンスの高いデータ解析チームの生み出し方を解説したい。

筆者は最先端のテクノロジー企業が集結するサンフランシスコでデータ解析の現場、またチーム運営のベストプラクティスを見てきた。例えば、Andreessen Horowitz(シリコンバレーでも一目置かれているベンチャーキャピタル)から投資を受けたOmada Healthというヘルステック企業でデータサイエンス研究員をしていたが、AI Driven(AI駆動形)経営が徹底している。驚くのが、Omada Healthだけではなく、シリコンバレーでは他のテクノロジー企業の多くがAIを事業に活用できている点だ。筆者は日本でも、ポイントさえつかめれば、どの企業もこの経営手法を実践できると確信している。今回はそのポイントを具体的に筆者の経験を踏まえながらご紹介する。

解析者の目線でデータを準備する

Gadgege in garbage out(ゴミを入れればゴミが出てくる)。データ解析界隈ではよく聞かれる言葉だ。日本語ではGIGOとも略されたりするが、高性能な機械学習モデルを開発しようとしてもデータの品質が悪ければ良いモデルは開発できない、ということを暗に意味している。データサイエンティストであればこの課題に一度は直面したことがあるだろう。
日常の業務で様々な業界のデータを拝見しているが、最初にぶつかる課題がデータサイエンティスト目線でデータ設計がされていない点である。特に大企業にこの傾向が見られる。しかしこれは誰の責任でもなく、これまではデータ解析者の目線が必要なかったということだ。ただ今後真剣にAIを活用するなら「データ・クオリティ」がどのようなAIのアルゴリズムよりも重要であることを知っていただきたい。そのためにまず、良いデータとはどのようなものだろうか。その定義から始めたい。

図1:

図1では、AIアルゴリズム別でデータ・クオリティの重要性を図化している。まずデータ・クオリティは「設計」と「量」に分解することができる。データ設計とはNull値を許すかなど、データ自体の設計はもちろんだが、収集するデータ項目、頻度、保管方法等も含む。そのため、データ量は設計を変えれば増減することになる。この2つがデータのクオリティを形造っている。
次に、AIは大きく分けて2種類に分類することができる。機械学習型とルールベース型のアルゴリズムだ。前者はデータからパターンや特徴を学習させる手法である。ちなみにディープラーニングも機械学習の一種である(ディープラーニング=AIではない)。例えば、自動車メーカーにて離反の予測モデルを開発する際に「データ解析者の目線でデータ設計をする」とはどういうことか解説したい。車両の購入日はDBに残るが、他社メーカーに乗り移る、もしくは廃車のログは誰かが必要性を訴えなければ残らないだろう。しかしこのログが機械学習をする上で非常に重要(教師データとして使えるため)なのである。強引に他のデータ(車検やメンテナンス記録の更新が途絶えた日時など)を使って「乗らなくなった日」を算出することは可能だが、データの質としては確実に劣化してしまう。
続いて後者のルールベース型は、ロジックに基づきモデルを開発するアプローチであるが、機械学習型と同様に、データ設計は日々最善なロジックを保つために欠かせない。例えば、対話型のシステムを想像してみてほしい。あらかじめ質問に対して答えを用意しておき、ユーザーがその質問をすると答えを返す。この手法でも、質問に応じて日々答えを追加したり、編集する必要があるため、最新のデータを解析に使える状態で維持管理する必要がある。これが「データ解析者の目線でデータを設計する」ということだ。
ちなみに、この2種類のアルゴリズムは共存していることも多い。例えば、対話型のシステムで質問 を自然言語で受け取る場合、自然言語処理(機械学習の一種)を行ない質問をマシンが理解できる状態にしてから、ルールベースにつなげる。
次にAIとデータ量の関係性を見ていきたい。まず機械学習アルゴリズムを開発する場合、基本的にはデータはあればあるほど良い。特にディープラーニング・アルゴリズムは多くのパラメターを持っており、そのチューニングの際に過学習を起こさないためにも、膨大なデータが必要となる。そのため、図1-②は濃青にすべきなのだが、薄青にした。その理由として、転移学習と呼ばれるディープラーニング・アルゴリズムの一種があげられる。この学習手法は予め学習済みのモデルを活用し、特定のデータに合わせたモデルを開発できるため、学習に膨大なデータを必要としない手法で、画像認識分野で成功している。他にも特に画像認識分野ではデータを増やすテクニックは存在する。
一方でルールベースは、上記で説明した通り、ロジックがアルゴリズムを形造るため、データ量はあまり重要な要素ではない(図1-④)。
このセクションではいかに「質の高いデータ作り」が重要か、またデータとAIの関係性を解説してきた。これを理解することがデータ解析で成功事例を生み出すための第一歩である。

組織として必要な要素と考え方を理解する

既に海外ではデータ解析が企業に圧倒的なインパクトを与えている。例えば、アマゾンは売上げの35%(※1)が、ネットフリックスでは視聴動画の75%(※2)が、レコメンデーションエンジンからの寄与であるし、Airbnbはスマートプライシング(民泊用物件の自動価格設定エンジン)によって物件主の価格の意思決定を最適化させ、Google翻訳は最新のディープラーニングを活用することで精度を飛躍的に向上させた(※3)ことは記憶に新しい。これらはデータ解析をうまく活用し事業に大きなインパクトを与えたAI Driven(AI駆動形)経営の成功事例である。筆者は日本のどの企業でもこのような成功事例を作ることは可能だと考えている。ここではそのために必要な要素と考え方を解説したい。

経営者のコミットメント

データサイエンティストを採用し、データ解析をする準備が整ったとしても、それだけで事業にインパクトの大きな成果は残すことは難しい。データサイエンスに投資するトップマネジメント層のコミットメントの有無が結果に直結する。経営課題の特定、他部署との連携、そのためのインセンティブ導入などを促進するのは、経営者の責務である。この事はマッキンゼーも触れている(※4)。

チーフ・データオフィサーとクロスファンクショナルな解析チームの体制

経営者のコミットメントが確実となれば、次に必要となるのはデータ解析チームのリーダーである。近年、企業の解析ニーズが認知されるにつれて、海外を始め国内でもチーフ・データオフィサー(以下、CDO)職の積極的な導入が見られるようになってきた。このCDOを中心とする解析チームは、営業、オペレーションなど各部門に横串を通した立ち位置(クロスファンクショナル)で運営するのが好ましい。そのため、データサイエンティストは社内コンサルタントのように、各部門の現場担当者から日々の課題をヒアリングし、解析イシューに落とし、経営課題に従いイシューをランク付けし各タスクを実行する。この体制にすることで、マネジメントと現場の声、その両方を把握することが可能となる。

データサイエンスは団体競技

データサイエンスと一言で言っても機械学習、統計、自然言語処理、データエンジニアリングなど様々な領域が存在する。そのため、データ解析チームは各分野のエキスパートが結集するチームを作れるかが重要となる。それができれば、異なる仮説、インサイトを見いだせるようになり、チームの総合力の向上に繋がる。一方で、最初はスモールスタートしたい、というニーズもあると思う。その際におすすめしたいのは、まずはデータサイエンティスト(CDOでも良い)とデータエンジニア(ビックデータを含めたデータ解析基盤開発の専門家)の2名から始めることだ。この2名がいれば大企業でも一定レベルの解析は問題なくこなせるだろう。ただ最終的には、様々なデータが入り交じる解析現場では、各分野の知見を結集することがハイパフォーマンスチームを生み出すための近道となる。

筆者の米国と日本での解析現場での経験から、上記の点を高いレベルで達成できれば自ずと成功事例はついてくると確信している。今回の投稿では、筆者がこれまで様々な業界にまたがり、企業のデータ解析の取り組みを見てきた中での「気づき」をまとめて解説してきた。現状、データ解析の成功事例は海外が先行しているように見受けられるが、上記で述べたポイントさえつかめれば日本のどの企業でも成功事例を作れると私は確信している。

最後に少し余談になるが、私が帰国した最大の理由は解析を通じて日本企業を強くしたい、日本で圧倒的な成功事例をつくりたいという想いからである。この投稿が企業のデータ解析の取り組みを前に進めるための材料になれば、それほど幸せなことはない。

※1:How retailers can keep up with consumers
(http://www.mckinsey.com/industries/retail/our-insights/how-retailers-can-keep-up-with-consumers)
※2:Netflix Recommendations: Beyond the 5 stars (Part 1)
(http://techblog.netflix.com/2012/04/netflix-recommendations-beyond-5-stars.html)
※3:A Neural Network for Machine Translation, at Production Scale
(https://research.googleblog.com/2016/09/a-neural-network-for-machine.html)
※4:Making data analytics work for you—instead of the other way around
(http://www.mckinsey.com/business-functions/digital-mckinsey/our-insights/making-data-analytics-work-for-you-instead-of-the-other-way-around)

MORE CONTENTS

形成しつつあるホームアシスタント市場

株式会社アドバンスト・メディア 森脇健

2017.05.18

”とっつきやすいAI”と”とっつきにくいAI”

株式会社アドバンスト・メディア 森脇健

2017.05.15