“ワンランク上”のデータサイエンティストになる方法とは？～Pythonによるデータ分析の担い手2人が徹底討論

2014.09.03 スキル

『PyCon JP 2014』で登壇するALBERTの池内孝啓氏（左）と、白ヤギコーポレーションCEOのシバタアキラ氏

あらゆる業種・分野でデータ分析へのニーズは高まる中、データサイエンティストと呼ばれる職種を耳にする機会が増えた。データサイエンティストとは、さまざまな統計手法を駆使して膨大なデータの中からビジネスに役立つ知見を引き出すスペシャリスト。エンジニアのキャリアパスとしても今、注目を集めている。

そこで今回、9月12日から3日間にわたって開催される年に1度のPython使いの祭典『PyCon JP 2014』に「Pythonを使ったデータ分析」をテーマに登壇する株式会社ALBERTの池内孝啓氏と、フォローメディアアプリ『カメリオ』の開発当初から膨大なデータの分析・解析を実施してきたという白ヤギコーポレーションのシバタアキラ氏に、「データサイエンティストに必要な資質やスキル」をテーマに語ってもらった。

株式会社ALBERT　執行役員システム開発・コンサルティング部部長
池内孝啓氏

ホスティング会社のサーバエンジニアを経て2011年にALBERTに入社。2013年よりDMP（データ・マネジメント・プラットフォーム）事業の拡大に従事。専門とする技術領域はPythonやLinuxサーバー構築、AWSのアーキテクチャ設計など

株式会社白ヤギコーポレーション代表取締役CEO
シバタアキラ氏

弊誌の連載記事「『カメリオ』のオープン・グロースハック」でおなじみのアントレプレナー。物理学博士。NYU研究員時代に開発した「驚きの指標化」フレームワークでヒッグスボゾン発見に貢献。ボストン・コンサルティング・グループなどを経て起業

「データ分析+α」2つ以上の軸を持て

――ALBERTではデータ分析をサービスとして提供するだけでなく、データサイエンティストの育成事業も行っているそうですね。ALBERTの「データサイエンティスト養成講座」にはやはり、データサイエンティストを目指すエンジニアが多いんですか？

池内　いえ、どちらかと言えば仕事でマーケティングを担当している方が多いですね。

シバタ　やっぱりデータ分析をマーケティングに活かしたいと考える企業や人が増えているんですね。

「データ分析というもう1つの軸を持ったエンジニアであればキャリアの幅を広げていける」と話す池内氏

―― データサイエンティストを目指すエンジニアも増えていると思いますが、まず必要となる資質や能力は何だと考えますか？

池内　漠然とした市場のニーズは「フルスタックエンジニア」なんだと思いますが、なかなかそれだけの知識やスキルを備えたエンジニアはいないですよね。ベースになる技術やスキルを持っていて、そこにデータ分析の知識やノウハウを身に付けていくというのが現実的でしょうか。

シバタ　逆に統計や分析・解析といったスキルをすでに持っていて、その上でサービスやビジネスの観点からマーケティングの手法を身に付けていくというパターンもいいと思います。

池内　いずれにしても1つ自分の軸を持っていて、そこにデータ分析というもう1つの軸を持ったエンジニアであれば、キャリアの幅を広げていけると思います。

シバタ　データ分析を新しいサービスやビジネスに活かしていくなら、技術力を使ってビジネスインサイトを引き出すために、2軸の強みを持っている必要がありますね。

―― エンジニアだけでなく、まずデータ分析を身に付けたいと考えるエンジニア志望の学生も増えているそうですが。

シバタ　慶應義塾大の森川（富昭）先生とお話する機会があったのですが、高校生や大学生を対象に「データビジネス創造コンテスト」というのを実施したりして、データ分析のすそ野はかなり広がっていますよ。

今までだと、「（マイクロソフトの）AccessとExcelでデータ分析を」なんて言ってましたけど、それじゃ膨大なデータは扱えない。特にエンジニアの方で、データ分析をサービスやビジネスに活かしたいとお考えならば、Pythonを試してみてほしいです。

池内　コンサルティングなどでも、これまではAccessやExcelといったツールを使っていたところが多かったと思いますが、使うデータが膨大かつ複雑になっていますから、やはりPythonなどを使って個々のニーズに合ったツールやシステムを作るのが現実的です。

―― IT関連でない一般の事業会社でも、データ分析の必要性、重要性は高まってきているんでしょうか？

池内　データの重要性という点でかなりニーズは高くなってきています。ただ、活用すべきデータがまだまだ整っていないというのが課題の1つです。Web経由でオーダーのあったお客さまに関するデータはあっても、コールセンター経由のデータをきちんと収集できていなかったり。そうすると、顧客の動向やニーズに関して定量的なデータ分析ができませんよね。

シバタ　客観的なデータ分析のためにも、ログの蓄積と活用は欠かせませんよね。

池内　顧客のニーズに応じて、こちらもまずはログの保存方法や基本的なデータ分析の提案を行うことが多いんですが、それでもまだ「稟議が通りませんでした」と断られたりします。データ分析をどうビジネスに活かしていくかが、経営トップにまで浸透しているとは言えない分野や業種もあります。

シバタ　コンサルタント時代の経験から言うと、多くのビジネスパーソンがデータ分析はたくさんある選択肢の一つととらえているので、「データこそ真実」というスタンスで挑むと温度差が感じられることが多かったです。

エンジニアがKPIを設定すると偏りがち

―― そうした現状を踏まえて、データ分析を手掛けるエンジニアにはどんなノウハウが必要だと思いますか？

シバタ　エンジニアtypeの連載記事でも言及していますけど、僕は適切なKPI（Key Performance Indicators＝重要業績評価指数）の設定こそが大事だと思いますね。

池内　KPIの設定は、データ分析の前提として重要ですね。

シバタ　適切なKPIを設定するには、短期的に達成したい成果や目標、それに中・長期的視野で取り組むべきビジョンやビジネスの目的が必要です。これら1つ1つを数値化、指標化していくプロセスを経ていくことで、データドリブン、データ分析の重要性も再認識できると思うんですよね。

池内　ですから我々も、データドリブンの重要性が浸透していないお客さまの場合には、試験的に導入していただくために短期でクリアしたい課題を解決するデータ分析サービスを提案することがあります。それが事例としてうまくいけば、次にデータ分析を中期や長期的にビジネスに活かしていく提案へと結び付けていきます。

―― 適切なKPIの設定以外に、データサイエンティストを目指すエンジニアが気を付ける点はありますか？

シバタ　商品に関するデータ、ユーザーに関するデータがサービスやビジネスの進化に役立つのは確実なんですけど、そのデータにどこかおかしいところはないか徹底的に検証する、疑ってみることは大事ですね。

池内　データの整合性の確認ですね。

シバタ　自分の仮説とデータの示している内容につじつまの合わないところがあったら、それがデータのクオリティーの問題なのか、仮説として置いている前提に盲点があったのかを精査する必要があります。特に後者であった場合は、まだ見つかっていなかったインサイトにつながる可能性があるからです。

池内　それには、やはりデータがきちんと整備されていないと、なかなか仮説を裏付ける根拠にならなかったりする……。

シバタ　そうなんです。ですからその原因がデータにあるのか、仮説にあるのかを考えて判断できるスキルを磨いていかないと、判断ミスにつながります。

池内　そのためにも、常に最適なKPIを設定しておくことが基本になりますね。

シバタ　注意しなきゃいけないのは、エンジニアがKPIを設定すると“偏る”ことなんですよ。

―― “偏ったKPI”とは？

シバタ　エンジニアって、どうしても質の高い結果を出したいと思うので、高くて理想的なレベルに指標を設定しがちなんです。でも、それが会社やビジネスが目指す方向性と違っていたら、適切なKPIにならないと思うんですよね。その“ズレ”に気付かないと、KPIも逆効果になっちゃいます。

池内　データドリブンといっても、データの分析や活用がビジネスの進化に貢献できるものでなければ意味ないですからね。

シバタ　それと分析メニューをシンプルすぎず、複雑すぎないレベルに設定すること。

池内　それは大事ですね。

シバタ　というのも、シンプルすぎるとエンジニアに限らず人間ってすぐ“ズル”するんですよ（笑）。本来の目的とは相反する行動をしてでも、その数字を上げようとしてしまうんです。逆に複雑すぎると、分析結果そのものが誰にも分からないものになっちゃう。だから、シンプルすぎず複雑すぎない分析メニューの設定も大事です。

池内　当社でも、まずどんな分析をすべきか決めかねている顧客には、ニーズに合わせて複数の分析メニューを提示してそれぞれのメリットを説明して選んでいただくこともありますね。

Pythonがデータ分析に役立つワケ

――今回の『PyCon JP 2014』で池内さんは「データ分析の世界へようこそ！～マーケティングに活かせるPythonライブラリ～」というテーマで講演をされる予定ですが、どのような内容になりそうですか？

池内　カンファレンスで話す内容はかなり入門的なものになると思いますが、データ分析に関連したPythonのライブラリを挙げて、これまで手掛けた事例を紹介していきたいと思っています。

―― データ分析にPythonが役立つ理由というのは、やはりライブラリがかなり充実している点ですか？

シバタ　ライブラリはかなり充実してますよ。まずNumPy（ナムパイ）、SciPy（サイパイ）は基本ですよね。あとPandasとか。

池内　今回のチュートリアルやカンファレンスでもそういったライブラリを紹介しますが、『カメリオ』の開発でもかなり活用されているんですか？

シバタ　僕は実験物理学を専門に研究してきたんですが、もともと学術の分野では膨大なデータの分析が求められるのでかなり以前から言語やツールの活用が進んでました。弊社がPythonを開発の中心に位置づけているのにも、そういった経緯があります。

―― 学術分野でもアプリ開発の分野でもデータ分析にはPythonが欠かせない？

シバタ　結局、標準的なライブラリも、独自に作成したモジュールもインポートできるっていうプラグインの自由度の高さこそが、Pythonの強みだと思うんです。分析から開発まで幅広く使えるだけでなく、FortranからC++まで、さまざまな言語で書かれたライブラリをインポートすることができるため、開発効率も動作効率も非常に高いですし。

池内　今は端末の性能が進化して、かなり膨大なデータでも処理可能になりましたからね。

シバタ　ホントそうですね。で、カメリオの場合は、アルゴリズムなど論理的処理の複雑な部分をPythonで開発し、APIサーバをNode.jsで開発しています。少し珍しい構成ですが、アルゴリズム側とAPIサーバが内部でHTTPでやり取りをしています。

池内　それはやっぱり検索やレコメンドに自然言語処理が使われるからですか？

シバタ　その通りです。分析・機械学習系ライブラリから検索ミドルウエアまで、すべてをつなぐことができるだけでなく、精度改善のためのデータ分析までを一つの言語で行えるのは、個人的にはPython以外に考えられません。

―― 最後に、『PyCon JP 2014』の参加者、参加を検討しているユーザーにメッセージを。

池内　特にチュートリアルでは、ホントにPythonを使ったデータ分析の基礎の基礎から参加者に試してもらえるプログラムを考えています。やってみれば、「こんなに簡単に分析結果が出るんだ」と驚かれると思います。たぶん多くのエンジニアが、とりあえず基本的なツールやライブラリをインストールしただけで“次のステップ”に進んでいないと思いますので、“ワンランク上のデータの使い手”になっていただけるようがんばります！

シバタ　いや、ワンランクじゃなくて“ツーランク上”のデータマイニングのノウハウが学べるはずです（笑）！

―― お2方とも、本日はお忙しいところ、どうもありがとうございました！

取材・文／浦野孝嗣　撮影／鈴木陸夫（編集部）

Xをフォローしよう

エンジニアtype をフォロー

この記事をシェア