ホーム > NSSOLテック・コラム > データ分析 > 権威あるデータ分析の大会「KDD Cup」で堂々の世界第2位! 決め手はリアルな現場で培った"アイデア力"

NSSOLテック・コラム

データ分析

2015/10/30

権威あるデータ分析の大会「KDD Cup」で堂々の世界第2位! 決め手はリアルな現場で培った"アイデア力"

今年7月、当社(NSSOL)と当社のグループ会社である株式会社金融エンジニアリング・グループ(FEG)の連合チーム「FEG&NSSOL@Data Varaci」が、データ分析の権威ある世界大会「KDD Cup」で第2位を獲得しました。

大会を主催する「SIGKDD」※1は、米国を中心とするコンピューター科学分野の国際学会「ACM」※2の分科会。ACMは、当該分野において最高峰の学会で、ACMチューリング賞でも有名です。
その分科会であるSIGKDDもGoogle社、Facebook社、IBM社やMicrosoft社といった世界的な企業の中枢社員が参加するようなハイレベルな分科会です。

そんなSIGKDDによる難易度の高い大会で、なぜ当社のチームが第2位という結果を残すことができたのでしょうか、そして、それはどのような道のりであったのか、チームメンバーの本橋智光さんにインタビューしました。

※1 SIGKDD:Special Interest Group Knowledge Discovery in Data
※2 ACM:Association for Computing Machinery

本橋 智光
ソリューション企画・コンサルティングセンター
エキスパート

データ分析者の天下一武道会「KDD Cup」とは?

本橋さんの専門は?

新しいデータ分析手法の研究やデータサイエンティストとしての実案件支援をしていました。
最近は、DataVeraci(ダータヴェラーチ)※3というデータ分析環境をそのままサービスとして提供する企画の推進もしました。
※3 Data Veraci(ダータヴェラーチ):データ分析統合環境サービス

今回KDDカップに参加したのはなぜ?

KDDカップは1997年から毎年開かれている大会で、権威と歴史があって世界的にもトップクラスのデータ分析者が集まる大会なのですが、そこで僕らの技術力をもっと広く知ってもらいたいと思って参加しました。
当社は日本でも有数の高い技術を持っている会社だと思うんですが、それを自分たちで言っても全然説得力がないので、実際にこうした大会に出て結果を残すことで、お客様に知ってもらえるというのが大きいですね。
NSSOLとしては今回初めて本格的に参加したのですが、FEGは以前、この大会で2位を獲ったことがあり、今回は本気で一位をめざしました。

KDD Cupに参加しているのはどんな人たちなんですか?

大学関係者が半数くらい、あとの半数は世にその名を轟かせたいと思っているベンチャー企業からの挑戦者や、大手企業の第一線で活躍しているデータ分析のプロ、「Kaggle」※4が主催するデータ分析の大会などで繋がった個人の参加者などだと思います。ちなみに、今年の大会への参加総数は821チーム、1,263人だそうです。
※4 Kaggle:世界最大のデータ分析コンペサイト

具体的にはどう戦うのでしょうか?

今回の課題は中国のオンライン学習講座(MOOC)の受講者の離脱確率を予測するというものでした。
最初にMOOCの受講者たちの1ヶ月分のアクセスログが渡されます。受講者の実際の講座脱落状況がわかるデータ(訓練用)とそうした情報がないデータ(評価用)の二種類あって、訓練用のデータから脱落予測をするモデルを組み立て、そのモデルに評価用のデータを入れると受講者の脱落予測が出る。このモデルを大会のサイトに投稿すると予測の精度に応じたスコアが発表され、この点数を競います。
KDDカップは毎回、時代を反映した課題と、スポンサー企業からリアルなデータが提供されるのですごく現実感があります。

分析ってどのようにするのですか?

例えば、平日の夜に1時間利用するユーザーと、そうでないユーザーのどちらが辞めてしまう確率が高いか、といった辞めてしまうことと密接な関係がある特徴を探します。僕らは、そうした「平日の夜に1時間利用」などのユーザーの特徴(それを「変数」と呼びます)を見つけ、その特徴を考慮したモデルをプログラムで作り上げます。

投稿のチャンスは一回だけですか?

2カ月くらいの期間があって、その間はいくらでもチャレンジできるんです。ただ、投稿は1日5回までといった制限はあります。投稿すると暫定スコアが出る。最終的な結果は最終日に発表されるのですが、暫定スコアではずっと僕らが1位だったんです。でも、最終日に抜かれてしまった。

SIGKDD会場で参加者とディスカッション

 

同じ目標に向かって団結した最終日の想い「まるで高校球児のよう」

作業は業務の合間をぬってやられたのですか?

平日の終業後や土日に作業を進めました。自宅に持ち帰っての作業なので、オンライン上でチームのメンバーとやり取りして。

チーム編成はどんなものでしたか?

メンバーは10名前後で、データ分析に強いFEGのメンバーと、プログラムにも強いNSSOLでチームを組みました。その中で、変数を作る人、モデルを作る人、アンサンブル※5をする人、と役割を分担して作業にあたっていました。
※5 アンサンブル:複数のモデルを抽出して、統合すること

チームプレイも相当強くなりましたね?

そうですね。優秀なデータ分析者はひとりで仕事することが多いんですけど、そういう人達が集まってひとつの物事に取り組むという経験は新鮮でした。データ分析者って、数学者チックに数学がわかっている人とか、中身がわからないものを俺は使えない、とかちょっと変わってる人が多いんですが(笑)、そうした人たちが集まると結構意気投合したりして、それも面白かったですね。

楽しかった瞬間はありますか?

おかしいかもしれないんですけど、キープしていた首位の座を、最終日に突然抜かれたときです。そのとき、残っている24時間でなんとかして絶対に取り戻そう!ってメンバーの心がひとつにまとまったんですよね。そこからはみんな「俺これやるよ」、「じゃあ俺はあれやるよ」って自主的にどんどん対抗策を打っていって。第一線でデータ分析者として活躍している人たちがこんなにも夢中になって、ひとつのゴールに向かって一緒に走れているっていうのがすごく楽しかったです。高校球児が、甲子園目指すってこういうことなのかな、みたいな。

それはすごく楽しそうですね!

はい。辛かったけど夜中までみんなで騒ぎながらやってたのは楽しかったです。

チャットで騒いでたんですか?

そうそう(笑)。今からいけー!みたいな。サマーウォーズの真似して「よろしくお願いしまーす!」って言いながらEnterキー押してみたりとか。
表彰式でいろんな人に会えたのも楽しかったですけど、一番最後にみんなで必死になってやってたのが楽しかったですね。ただ、燃えている中でもミスがないように、「ここはちゃんと確認して」と冷静さを保つタイプのメンバーもいてバランスが保ててましたね。

「リアルな現場での経験」が今回の結果につながった

惜しくも優勝は逃してしまいましたが、それでも第2位という成績を残せた勝因はなんだったと思いますか?

圧倒的に勝てた理由は変数作りの部分だと思います。逆に最後に負けてしまったのは、アンサンブルの部分で差をつけられてしまったからですね。僕らのチームは、アンサンブルはあまり強くないんです。
アンサンブルは複数のモデルを使うので、なぜその予測結果になったのかを人が理解することが難しくなります。また計算量が多くなったり、モデルの運用も難しかったりと、業務に使うのが難しくなる面もありますので、僕たちは日々の分析の仕事では、アンサンブル技術の代わりなるようなリアルな現場を表した変数を作り、アンサンブルを使わないモデルで高い精度を目指しています。ですので、業務をイメージして変数を作るアイデアが豊富な人が本当に多いです。実際優勝チームの人に、アンサンブルを使わなかった場合どのくらいのスコアになったかと聞かれて比べたのですが、僕らのチームが勝ってました。

オーストラリアでの表彰式はどうでしたか?

実感したのはデータ分析者が世界でものすごく必要とされていること。世界的な企業が高待遇で雇用している。あと、データ分析者が、みんなデータ分析で世界をよくしたいというモチベーションを持っている。それがカッコよくて刺激的でした。

この経験はこれからのクライアントワークにどのように影響するのでしょうか?

いざというときにこうしたチームで組んで大きな仕事も出来るんじゃないかなと思っています。例えば毎年、燃料費に数百億円かかっている企業があったとして、この費用をモデル化して分析した場合、石油の消費量を1%減らすだけで毎年数十億円のコスト削減できるとか、そういうインパクトのある仕事をチームを組んでできたらいいなと。そういったことができたら、この経験が活きてくるだろうな、とは感じています。

表彰式の様子

リンク

関連する記事