方正株式会社

      擁    抱    変    化        持    続    創    新

AI研究開発事例紹介(方正News別版 武漢特派員レポートその1)

18.05.08

 
 

今後「方正ニュース別版」として中国武漢AIチームに赴任中の岡田優士による「武漢特派員レポート」を不定期ですがお届けします。
 
 

ゲーム内アイテム課金最大化のためのAIによる広告最適化の研究開発

 

方正株式会社 武漢特派員:岡田優士

 

中国でも日本同様にスマホやネットのゲームが盛んであり大きな市場ですが、ゲームで利用される課金アイテムの売上を最大化させたいというご要望がゲーム運営会社からありました。中国武漢のR&Dセンターでは依頼を受け、AI強化学習によってゲームユーザーへ閲覧させる広告を最適化するという取り組みを開発テーマとして取り上げ、実践した実績がありましたので、弊社のAI開発の事例としてご紹介いたします。
 

従来手法(ビッグデータを用いたアルゴリズム手法)

従来の、いわゆるレコメンデーションについては、
1)消費能力(どれだけの金額を消費するか?)
2)消費習慣(どのような頻度で消費するか?)
3)消費傾向(どのようなものに消費するか?)
というゲームユーザーごとの過去実績情報とユーザーに付随する個人情報(年齢、性別等)を利用してアルゴリズムを設計し、より効果的であると思われるゲームアプリやゲーム内課金アイテムなどの広告をユーザーに提供していました。

 
AIを利用した強化学習を採用

今回、上記レコメンデーションによる広告効果を最大化するためにAIによる強化学習手法を採用し実践しました。AIの強化学習とは、AIが自ら行動を選択し、行動結果を報酬という形で評価し、その報酬をもとに次回の行動をAI自らが改善し、それを繰り返すことで、報酬を最大化していく手法です。
AIの強化学習としては、GoogleのAlphaGoが最も有名で、囲碁における「勝利」という報酬の最大化を目指して強化学習しております。ここで使用されているDeep Q-Network(DQN)という手法を今回の開発で利用しました。

 
AIの強化学習による手法(研究開発例)
AIに与える報酬として、例えばユーザーが広告をクリックすれば+1点、購入すればその金額に応じて+(10~50×個数)点というように設定しました。
AIがユーザーに広告を提供(行動)し、その行動の対価としての報酬を得た後、再度ユーザーに対してより報酬の高くなる行動を起こすことを繰り返すことで、報酬の最大値を求めていく結果、AIが自ら判断して各ユーザーにより効果的な広告を提供することが可能になりました。

 
ゲームユーザーの購買についての総合評価可視化イメージ


 

AIの強化学習で行うメリット
従来のアルゴリズムによる手法では、比較的単純な数理モデルにおいて、人間が設定したパラメータをもとに最適な割り当てを求めていくが、これには限度があります。
AIの強化学習による手法では、ニューラルネットワークの層が何層も重なり、パラメータ数が約数千万となるような、より複雑な数理モデルによって、AI自らが設定したパラメータをもとに最適な割り当てを求めていき、さらにAI自らが結果を評価しパラメータを更新していくことで最適解に近い結果が得られ、より高い効果が期待できるということです。

岡田優士 略歴
2016年 名古屋大学多元数理科学研究科修士課程修了。大手メーカーに勤務後、方正に入社。学生時代に北京大学留学経験もあり、入社直後に武漢子会社に赴任。現在日本向けAIの研究開発チームに所属。
 
 
▶方正ニュース一覧へ
▶他のAI研究開発事例へ
▶特派員レポートその2 【週次4万件、トラック数百台の家電製品ロジ計画を最適化】