Google Cloud Platform でのシステム構築・データ分析を強みとしているSIer企業です。
インタビュー: クラウドエース株式会社 | 導入事例 | Forkwell Jobs(フォークウェル ジョブズ)
国立研究所の研究調査を効率化するためのデータ基盤システムの開発・保守を行いました。具体的には、論文と特許データのXMLをXPATHを用いて要素を抽出し、BigQueryおよびElasticsearchに格納しつつ、JSON形式に変換して別ベンダー様のAzure BLOB Storageに転送するシステムです。処理対象のデータが大容量であるため、Apache Beamを用いたプログラムをGoogle CloudのDataflowで分散処理させました。
大手スーパーマーケットの商品在庫や売上などの情報を管理するシステムの開発を行いました。具体的には、Google Cloud StorageにCSV形式のファイルがアップロードされると、それをトリガーにCloud Runが起動しデータのバリデーションを行いデータをBigQueryに格納するプログラムが実行されます。
大手損害保険会社の照会データ分析のPoCを行いました。具体的には、照会内容から単語間の関係を可視化するためのワードマップの作成や、照会内容から該当する保険商品と紐づけるための機械学習モデルの作成およびLookerによるダッシュボードの作成を行いました。機械学習モデルにはそれぞれのカテゴリ内の保険商品の数に偏りがあるためNegation Naive Bayesを採用しました。
大手オフィス家具メーカーの社員アンケートと行動情報のデータ分析のPoCを行いました。具体的には、社員アンケートから総合パフォーマンスの高い社員を特定し、そのような社員はどのような行動を取る傾向にあるかを分析しました。
その結果、各作業スペースごとの作業時間によって総合パフォーマンスの高い人の作業時間の傾向を明らかにしました。
外資系水道会社のWeb APIの保守・監視を行いました。APIのボトルネックを検出するための分散トレーシングサービスとしてGoogle Cloud Traceを選定しました。監視にはGoogle Cloud TraceやCloud Loggingを用いました。また、API改修の際のコードレビューを行いました。
その結果、Google Cloud TraceやCloud Loggingを用いて監視をした結果APIサーバーに高負荷がかかっていることを検知してGoogle Cloud Traceのデータをもとにボトルネックを改修しました。
大手損害保険会社の様々な種類のデータをBigQueryに集約するためのデータパイプラインをGoogle Cloud Composerを用いて構築しました。
その結果、データドリブンの施策を検討するためのデータを格納するデータウェアハウス (BigQuery) にスケジュール通りにデータを集約するデータパイプラインを構築できました。
出版業界が抱えている書籍の無駄な発行・配本を減らすために、機械学習モデルによって適切な発行・配本数を予測するシステムのアップデートおよび保守をしました。
その結果、検証データを用いたところ予測モデルの中央値絶対パーセント誤差が0.028%を達成しました。また、Google Cloudのプロダクトを用いた分散処理によりデータ数の増加に自動で対応できるようにしました。
副業としてメールとZoom等のビデオ通話による小規模企業向け自然言語処理コンサルタント業を一人で行っています。これは企業が抱えている課題に対して、自然言語処理で出来るアプローチの提案や、自然言語処理よりもシンプルな方法で出来る方法の提案、あるいは現実的な制約下で満たせる課題であるかの判断などを対話を介して行うものです。
「カスタマーサポートの質問対応の効率を向上したい」という相談です。社内でFAQサイトを作っているものの、カスタマーサポートのスタッフが必ずしも商材に精通しているとは限らず、カスタマーからの質問に対する有効な検索クエリがわからない場合に時間がかかる為、プログラムによってカスタマーサポートをある程度自動化したい、あるいは対応マニュアルを作成したいとのことです。
事前のメールでのやり取りとZoom通話によって、相談相手の状況や要件を引き出し、自然言語処理によるアプローチと自然言語処理を用いないシンプルなアプローチを具体的なフローを込みで提案しました。それに付随して、自然言語処理に詳しい担当者がいない場合を考慮して、初心者にもわかりやすいWeb記事や技術書、さらにより深く理解するための書籍の紹介も行いました。これらはサマリーとして読みやすいように1つのファイルにまとめてメールに添付して返信しました。
AIによる質問応答システムを開発している外資系企業から「質問応答の精度を上げるためのデータセットが欲しい」という相談です。商用利用可能なライセンスの質問応答システム評価用データセットを3つ紹介しました。
スマホ用日本語入力 (IME) アプリ「flick」の開発に携わっていました。
かな漢字変換辞書のメンテナンス (新語の追加、不適切な語の削除、単語のコスト調整や致命的な変換ミスのないようコーパスをもとにした品質管理など) を行っています。このメンテナンス作業から共通点を見出してある程度の自動化を行いました。このかな漢字変換辞書のメンテナンスの結果、オリジナルのMozc (Google製OSSかな漢字変換器) と比較して解析済みブログコーパス (KNBC)と京都大学ウェブ文書リードコーパスをCaboChaによって文節単位に分割したデータセットにおける変換精度が62.1%から96.5%に改善されました。(2019年2月20日時点)
新語の追加に対して、様々なサイトのWebスクレイピング、用言の活用形の展開 (たとえば終止形から連体形や未然形などのあらゆる活用の可能性のある形に展開する)、ユーザーがサーバーへの送信を許可した辞書登録語からの検出、未知語識別モデルによる検出などを行っています.
他社アプリとの変換性能の差別化を目的として、クラウド単語予測入力機能 (通称AI変換) を開発しました。これは入力した文の次に来る単語を、Deep Learningの一手法であるLSTMによる言語モデルを用いて予測するものです。たとえば、「カレーをお店で」と入力すると「食べる」という単語が予測候補にあがります。このような主語の後に修飾語が来ると従来のn-gram言語モデルでの予測では述語の推定が困難なことですが、記憶をある程度保持できるLSTM言語モデルによって実現しました。ただし、LSTM言語モデルをアプリに直接組み込むとディスク消費量やメモリ使用量が大きくなってしまうため、AWSのクラウド上のサーバとWebSocket 通信しています。また、この成果をコンピューターサイエンス分野の国際会議で発表しました。
スマートフォンの文字入力がこれまでより賢く楽に!AIを使った予測変換が登場!|IO株式会社のプレスリリース
感情に合った人気の顔文字を上記AI変換の候補に出す機能を開発しました。たとえば「かなしい」と入力すると「(´・_・`)」という顔文字が予測候補にあがります。
スマートフォンの文字入力をもっと感情豊かに!感情に合った顔文字がサジェストされるようになりました|IO株式会社のプレスリリース
ASCII.jp:鉄板キーボードアプリ「flick」に“感情を読む”機能搭載!?【開発者インタビュー】 (1/3)|「みんなの顔文字キーボード」を使いたい男子の会
App Store 及び Google Play Storeにてアプリ検索する際に関連アプリの広告を表示する機能を開発しました。例えば「シューティング」と入力すると「アズールレーン」というシューティングゲームアプリの広告が表示されます。
スマートフォンに搭載されているメモリ空間は少なく、さらにキーボードアプリ (IME) は入力先のアプリよりも少ない僅かなメモリ空間しか使用できないという制限の下で、200万語を超える豊富な語彙を全てアプリ内辞書に含めることは困難なため、インターネット経由で大規模な辞書引きを行うネット変換機能を開発しました。高速に大規模な辞書引きを実現するためにトライ木データ構造を用いています。
スマートフォンの文字入力を楽しく!かしこく!大人気キーボードアプリ「flick」が大幅アップデート!
オンライン広告配信事業fluctにてデータマイニングや自然言語処理を用いたソフトウェア開発に携わりました。
Webサイトのデータを機械学習するために、Webサイト用本文抽出器boilerpipeを日本語対応しました。
機械学習用のデータを集めるため、Bing検索APIを用いたWebサイトクローラを設計・開発しました。
各カテゴリごとの学習データが不均衡になることを想定してNegation NaiveBayesを用いたWebサイトカテゴリ分類器を設計・開発しました。疎行列を用いることで学習や推論の高速化に成功しました。そして単語のスパース性、モデルの解釈の為のアクセスの容易性を考慮してRedisにパラメータを保存するようにしました。
Webコンテンツの内容がポジティブかネガティブかを判定するため、Deep Learningの一手法であるLSTMによるテキストのネガポジ分類器を設計・開発しました。例えば「飛行機墜落事故」について記述されているページに「航空関連の広告」を出さないことでブランディングイメージを守るといったような目的を想定して開発しました。
Webページ内に表示される各広告と相性のいい (何らかの関係がある) Webページの広告枠を分析するため、各広告枠と広告のクリックログを用いてG検定で分析しました。
データマイニングや自然言語処理を用いたソフトウェアおよび Data Management Platform (DMP) の開発などに携わりました。
なお、M&Aにより2015年7月からVOYAGE GROUPと吸収合併しました。
当時、日本では提供されていなかった確率的クロスデバイスターゲティング機能の開発を行いました。これは、機械学習 (k-means, 決定木) とルールベースの融合により、アクセスログの履歴から同一人物が使っていると思われる複数のデバイス (PC、iPhone、Androidなど) を同定する機能です。例えば、「このPCからのアクセスと、あのiPhoneからのアクセスは同一人物によるものである」と推定します。海外での確率的クロスデバイスターゲティングの既存サービスや関連文献の調査から設計・プロトタイプ作成・実装に至るまでリーダーとして主導していきました。
社内で気軽にHadoopを使えるようにするため、5台のマシンでHadoopクラスタを構築しました。
機械的に生成された悪質なWebサイト (コンテンツファーム) を検出するためのソフトウェアを設計・開発しました。多数の悪質なWebサイトを分析した結果、文字列面で類似しているケースとHTMLやCSSによる外観が類似しているケースの2種類のケースに分類出来ると判断し、テキスト情報と画像情報の2つの観点から悪質なWebサイトを検出するシステムを作りました。Webサイト内のテキスト同士に対しては高速に類似度計算するためにb-bit Minhashを用いました。また、画像情報としてSeleniumによるWebサイトのスクリーンショット画像からカラーヒストグラムやAverage Hashingによる類似度計算も行います。こうした特徴量をもとにモデルの解釈性の高い決定木で悪質なWebサイトか否かを2値分類しました。
Fluentdを用いて統計情報を出すためのデータ収集機能を開発しました。具体的には既存のシステムにデータ収集用のコードを追加しました。
テスト用モジュールをnosetestsからpy.testに乗り換えるためのリファクタリングを行いました。
データベースに直接アクセスせずにブラウザからオーディエンスの傾向を把握することを目的とした営業提案支援のための社内用Webインターフェースを開発しました。これはアクセスログの統計情報を視覚的に瞬時に把握するためのものです。
週2日勤務のアルバイトでした。ただし学業優先のため学会出張や大学の行事などの日は欠勤しました。
蓄積されたアクセスログからUserAgent情報の統計情報 (PC, iPhoneなど各デバイスの割合など) をレポートするソフトウェアを開発しました。
Amazon EMRで動く機械学習を用いてWebサイトのカテゴリ (ニュース、エンタメなど) を自動分類するソフトウェアを開発しました。主にMahoutのComplement Naive Bayesを追加学習できるように改善しました。また、Javaで学習したモデルをPythonで利用できるグルーコードも開発しました。
CakePHPによるSSP管理画面にてFLASH動画の広告をアップロードできるように改善しました。
アクセスログの集計処理を並列化することにより2倍以上の早さで完了するよう改善しました。
自然言語処理分野の論文調査/照応解析ソフトウェア作成/社内発表を行いました。そして、この成果を IEEE の人工知能系国際会議 SMC2013 にて発表しました。
ブログシステム Wordpress の記事投稿/更新を Twitter から行うことを可能にするモジュールを、御茶ノ水美術専門学校の特設サイト OCHAPEDIA (現在は公開終了) の更新用に開発しました。要望により Python 標準ライブラリのみを用いて実装しました。