池上有希乃職務経歴書

独立行政法人情報処理推進機構 2025年1月〜現在

データスペースやオープンデータに関することに携わっています。

クラウドエース株式会社 2021年10月〜2024年12月

Google Cloud Platform でのシステム構築・データ分析を強みとしているSIer企業です。

国立研究所の研究調査用データ基盤システムの開発・保守 2021年11月〜2023年3月

国立研究所の研究調査を効率化するためのデータ基盤システムの開発・保守を行いました。具体的には、論文と特許データのXMLをXPATHを用いて要素を抽出し、BigQueryおよびElasticsearchに格納しつつ、JSON形式に変換して別ベンダー様のAzure BLOB Storageに転送するシステムです。処理対象のデータが大容量であるため、Apache Beamを用いたプログラムをGoogle CloudのDataflowで分散処理させました。

プロジェクト要員: 15名
役割: 設計・開発者・テスター
プログラミング言語: Java, Python
キーワード: Apache Beam, Dataflow, BigQuery, Elasticsearch

大手スーパーマーケットの情報管理システム 2022年4月〜5月

大手スーパーマーケットの商品在庫や売上などの情報を管理するシステムの開発を行いました。具体的には、Google Cloud StorageにCSV形式のファイルがアップロードされると、それをトリガーにCloud Runが起動しデータのバリデーションを行いデータをBigQueryに格納するプログラムが実行されます。

プロジェクト要員: 3名
役割: 設計・開発者
プログラミング言語: Python
キーワード: Cloud Run, BigQuery, Google Cloud Storage

大手損害保険会社の照会データ分析 2022年5月〜6月

大手損害保険会社の照会データ分析のPoCを行いました。具体的には、照会内容から単語間の関係を可視化するためのワードマップの作成や、照会内容から該当する保険商品と紐づけるための機械学習モデルの作成およびLookerによるダッシュボードの作成を行いました。機械学習モデルにはそれぞれのカテゴリ内の保険商品の数に偏りがあるためNegation Naive Bayesを採用しました。

プロジェクト要員: 4名
役割: 設計・開発者
プログラミング言語: Python
キーワード: 自然言語可視化, ワードマップ, Negation Naive Bayes, Looker

大手オフィス家具メーカーのアンケートと行動情報・位置情報のデータ分析 2022年7月〜8月

大手オフィス家具メーカーの社員アンケートと行動情報のデータ分析のPoCを行いました。具体的には、社員アンケートから総合パフォーマンスの高い社員を特定し、そのような社員はどのような行動を取る傾向にあるかを分析しました。

その結果、各作業スペースごとの作業時間によって総合パフォーマンスの高い人の作業時間の傾向を明らかにしました。

プロジェクト要員: 5名
役割: 分析者
プログラミング言語: Python
キーワード: Pandas, EDA, LightGBM

外資系水道会社のWeb APIの保守・監視 2022年9月〜12月

外資系水道会社のWeb APIの保守・監視を行いました。APIのボトルネックを検出するための分散トレーシングサービスとしてGoogle Cloud Traceを選定しました。監視にはGoogle Cloud TraceやCloud Loggingを用いました。また、API改修の際のコードレビューを行いました。

その結果、Google Cloud TraceやCloud Loggingを用いて監視をした結果APIサーバーに高負荷がかかっていることを検知してGoogle Cloud Traceのデータをもとにボトルネックを改修しました。

プロジェクト要員: 3名
役割: 監視・レビュワー
プログラミング言語: Python
キーワード: Fast API, Cloud Trace, Cloud Logging

大手損害保険会社のデータパイプライン構築 2023年3月〜6月

大手損害保険会社の様々な種類のデータをBigQueryに集約するためのデータパイプラインをGoogle Cloud Composerを用いて構築しました。

その結果、データドリブンの施策を検討するためのデータを格納するデータウェアハウス (BigQuery) にスケジュール通りにデータを集約するデータパイプラインを構築できました。

プロジェクト要員: 4名
役割: 設計・開発者・テスター
プログラミング言語: Python
キーワード: Google Cloud Composer, Apache Airflow, BigQuery, Google Cloud Storage

出版業界企業の発行・配本予測システムの構築・保守 2023年3月〜2024年1月

出版業界が抱えている書籍の無駄な発行・配本を減らすために、機械学習モデルによって適切な発行・配本数を予測するシステムのアップデートおよび保守をしました。

その結果、検証データを用いたところ予測モデルの中央値絶対パーセント誤差が0.028%を達成しました。また、Google Cloudのプロダクトを用いた分散処理によりデータ数の増加に自動で対応できるようにしました。

プロジェクト要員: 6名
役割: 設計・開発者・テスター
プログラミング言語: Python
キーワード: Google Cloud Vertex AI, Google Cloud Run, Google Cloud Functions, flask, Google Cloud Composer, Apache Airflow, LightGBM, BigQuery

LLMを用いた知識管理ツールの開発 2024年1月〜12月

暗黙知を形式知としてまとめることで業務効率化をはかるために、LLMを用いた知識管理ツールの開発に携わっていました。

プロジェクト要員: 20名
役割: 設計・開発者・テスター
プログラミング言語: Python
キーワード: Google Cloud Run, Artifact Registry, Hasura, Slack API, FastAPI, LangChain, Langfuse

自然言語処理コンサルタント (副業) 2021年1月〜現在

副業としてメールとZoom等のビデオ通話による小規模企業向け自然言語処理コンサルタント業を一人で行っています。これは企業が抱えている課題に対して、自然言語処理で出来るアプローチの提案や、自然言語処理よりもシンプルな方法で出来る方法の提案、あるいは現実的な制約下で満たせる課題であるかの判断などを対話を介して行うものです。

Q&AサイトのURLによる質問応答システム 2021年1月

「カスタマーサポートの質問対応の効率を向上したい」という相談です。社内でFAQサイトを作っているものの、カスタマーサポートのスタッフが必ずしも商材に精通しているとは限らず、カスタマーからの質問に対する有効な検索クエリがわからない場合に時間がかかる為、プログラムによってカスタマーサポートをある程度自動化したい、あるいは対応マニュアルを作成したいとのことです。

事前のメールでのやり取りとZoom通話によって、相談相手の状況や要件を引き出し、自然言語処理によるアプローチと自然言語処理を用いないシンプルなアプローチを具体的なフローを込みで提案しました。それに付随して、自然言語処理に詳しい担当者がいない場合を考慮して、初心者にもわかりやすいWeb記事や技術書、さらにより深く理解するための書籍の紹介も行いました。これらはサマリーとして読みやすいように1つのファイルにまとめてメールに添付して返信しました。

質問応答システム学習用のデータセット情報提供 2022年4月

AIによる質問応答システムを開発している外資系企業から「質問応答の精度を上げるためのデータセットが欲しい」という相談です。商用利用可能なライセンスの質問応答システム評価用データセットを3つ紹介しました。

IO株式会社 2016年7月〜2021年7月

スマホ用日本語入力 (IME) アプリ「flick」の開発に携わっていました。

かな漢字変換辞書のメンテナンス 2016年7月〜2021年7月

かな漢字変換辞書のメンテナンス (新語の追加、不適切な語の削除、単語のコスト調整や致命的な変換ミスのないようコーパスをもとにした品質管理など) を行っています。このメンテナンス作業から共通点を見出してある程度の自動化を行いました。このかな漢字変換辞書のメンテナンスの結果、オリジナルのMozc (Google製OSSかな漢字変換器) と比較して解析済みブログコーパス (KNBC)と京都大学ウェブ文書リードコーパスをCaboChaによって文節単位に分割したデータセットにおける変換精度が62.1%から96.5%に改善されました。(2019年2月20日時点)

新語の追加に対して、様々なサイトのWebスクレイピング、用言の活用形の展開 (たとえば終止形から連体形や未然形などのあらゆる活用の可能性のある形に展開する)、ユーザーがサーバーへの送信を許可した辞書登録語からの検出、未知語識別モデルによる検出などを行っています.

プロジェクト要員: 2名
役割: リーダー・開発者
プログラミング言語: Python, Perl, Shell script
キーワード: AWS EMR, MySQL, MeCab, marisa-trie, Elasticsearch

クラウド予測変換機能 (AI変換) 2016年9月〜11月

他社アプリとの変換性能の差別化を目的として、クラウド単語予測入力機能 (通称AI変換) を開発しました。これは入力した文の次に来る単語を、Deep Learningの一手法であるLSTMによる言語モデルを用いて予測するものです。たとえば、「カレーをお店で」と入力すると「食べる」という単語が予測候補にあがります。このような主語の後に修飾語が来ると従来のn-gram言語モデルでの予測では述語の推定が困難なことですが、記憶をある程度保持できるLSTM言語モデルによって実現しました。ただし、LSTM言語モデルをアプリに直接組み込むとディスク消費量やメモリ使用量が大きくなってしまうため、AWSのクラウド上のサーバとWebSocket 通信しています。また、この成果をコンピューターサイエンス分野の国際会議で発表しました。

スマートフォンの文字入力がこれまでより賢く楽に！AIを使った予測変換が登場！｜IO株式会社のプレスリリース

プロジェクト要員: 2名
役割: リーダー・設計・開発者
プログラミング言語: Python
キーワード: Chainer, MeCab, LSTM言語モデル, WebSocket, AWS EC2, Nginx, MessagePack-RPC
- Yukino Ikegami, Yoshitaka Sakurai, Ernesto Damiani, Rainer Knauf, Setsuo Tsuruta.
  Flick: Japanese Input Method Editor Using N-Gram and Recurrent Neural Network Language Model Based Predictive Text Input.
  In 2017 13th International Conference on Signal Image Technology and Internet Based Systems (SITIS 2017), pp. 50–55, 2017.

感情予測顔文字入力機能 2017年3月

感情に合った人気の顔文字を上記AI変換の候補に出す機能を開発しました。たとえば「かなしい」と入力すると「(´･_･`)」という顔文字が予測候補にあがります。

スマートフォンの文字入力をもっと感情豊かに！感情に合った顔文字がサジェストされるようになりました｜IO株式会社のプレスリリース

ASCII.jp：鉄板キーボードアプリ「flick」に“感情を読む”機能搭載!?【開発者インタビュー】 (1/3)｜「みんなの顔文字キーボード」を使いたい男子の会

プロジェクト要員: 2名
役割: リーダー・設計・開発者
プログラミング言語: Python
キーワード: MeCab, ML-ASK, 感情分類

ネット変換機能の開発 2017年11〜12月

スマートフォンに搭載されているメモリ空間は少なく、さらにキーボードアプリ (IME) は入力先のアプリよりも少ない僅かなメモリ空間しか使用できないという制限の下で、200万語を超える豊富な語彙を全てアプリ内辞書に含めることは困難なため、インターネット経由で大規模な辞書引きを行うネット変換機能を開発しました。高速に大規模な辞書引きを実現するためにトライ木データ構造を用いています。

スマートフォンの文字入力を楽しく！かしこく！大人気キーボードアプリ「flick」が大幅アップデート！

プロジェクト要員: 2名
役割: リーダー・設計・開発者
プログラミング言語: Python
キーワード: MeCab, marisa_trie, WebSocket, AWS EC2, Nginx, MessagePack-RPC

株式会社VOYAGE GROUP 2015年7月〜2016年6月

オンライン広告配信事業fluctにてデータマイニングや自然言語処理を用いたソフトウェア開発に携わりました。

Webサイトの本文抽出器 2015年7月

Webサイトのデータを機械学習するために、Webサイト用本文抽出器boilerpipeを日本語対応しました。

プロジェクト要員: 2名
役割: 開発者
プログラミング言語: Java
キーワード: MeCab, boilerpipe

Webサイトクローラ 2015年8月

機械学習用のデータを集めるため、Bing検索APIを用いたWebサイトクローラを設計・開発しました。

プロジェクト要員: 2名
役割: 設計・開発者
プログラミング言語: Python, Webサイトクローラ

Webサイトカテゴリ分類器 2015年9月〜2016年1月

各カテゴリごとの学習データが不均衡になることを想定してNegation NaiveBayesを用いたWebサイトカテゴリ分類器を設計・開発しました。疎行列を用いることで学習や推論の高速化に成功しました。そして単語のスパース性、モデルの解釈の為のアクセスの容易性を考慮してRedisにパラメータを保存するようにしました。

プロジェクト要員: 1名
役割: リーダー・設計・開発者
プログラミング言語: Python
キーワード: Redis, scikit-learn, Negation NaiveBayes, Webサイトカテゴリ分類

ネガポジ分類器 2016年4月〜5月

Webコンテンツの内容がポジティブかネガティブかを判定するため、Deep Learningの一手法であるLSTMによるテキストのネガポジ分類器を設計・開発しました。例えば「飛行機墜落事故」について記述されているページに「航空関連の広告」を出さないことでブランディングイメージを守るといったような目的を想定して開発しました。

プロジェクト要員: 2名
役割: 設計・開発者
プログラミング言語: Python
キーワード: Keras, LSTM, Sentiment Analysis

広告と相性のいい広告枠の分析 2016年6月

Webページ内に表示される各広告と相性のいい (何らかの関係がある) Webページの広告枠を分析するため、各広告枠と広告のクリックログを用いてG検定で分析しました。

プロジェクト要員: 1名
役割: リーダー・設計・開発者
プログラミング言語: Python
キーワード: G検定, BigQuery

Kauli株式会社 (正社員) 2014年7月〜2015年6月

データマイニングや自然言語処理を用いたソフトウェアおよび Data Management Platform (DMP) の開発などに携わりました。

なお、M&Aにより2015年7月からVOYAGE GROUPと吸収合併しました。

確率的クロスデバイスターゲティングの開発 2014年7月〜2015年1月

当時、日本では提供されていなかった確率的クロスデバイスターゲティング機能の開発を行いました。これは、機械学習 (k-means, 決定木) とルールベースの融合により、アクセスログの履歴から同一人物が使っていると思われる複数のデバイス (PC、iPhone、Androidなど) を同定する機能です。例えば、「このPCからのアクセスと、あのiPhoneからのアクセスは同一人物によるものである」と推定します。海外での確率的クロスデバイスターゲティングの既存サービスや関連文献の調査から設計・プロトタイプ作成・実装に至るまでリーダーとして主導していきました。

プロジェクト要員: 2名
役割: リーダー・設計・開発者
プログラミング言語: Python, Java
キーワード: Hive, Mahout, scikit-learn

Hadoopクラスタの構築 2014年8月

社内で気軽にHadoopを使えるようにするため、5台のマシンでHadoopクラスタを構築しました。

プロジェクト要員: 2名
役割: 開発者
キーワード: Hadoop

言語と画像の特徴を用いた悪質サイト検出 2014年10月〜11月

機械的に生成された悪質なWebサイト (コンテンツファーム) を検出するためのソフトウェアを設計・開発しました。多数の悪質なWebサイトを分析した結果、文字列面で類似しているケースとHTMLやCSSによる外観が類似しているケースの2種類のケースに分類出来ると判断し、テキスト情報と画像情報の2つの観点から悪質なWebサイトを検出するシステムを作りました。Webサイト内のテキスト同士に対しては高速に類似度計算するためにb-bit Minhashを用いました。また、画像情報としてSeleniumによるWebサイトのスクリーンショット画像からカラーヒストグラムやAverage Hashingによる類似度計算も行います。こうした特徴量をもとにモデルの解釈性の高い決定木で悪質なWebサイトか否かを2値分類しました。

プロジェクト要員: 2名
役割: リーダー・設計・開発者
プログラミング言語: Python
キーワード: OpenCV, Selenium, MySQL, b-bit Minhash, Average Hashing, 決定木

データ収集 2015年2月

Fluentdを用いて統計情報を出すためのデータ収集機能を開発しました。具体的には既存のシステムにデータ収集用のコードを追加しました。

プロジェクト要員: 2名
役割: 開発者
プログラミング言語: Python
キーワード: Fluentd

Pythonコードのリファクタリング 2015年3月

テスト用モジュールをnosetestsからpy.testに乗り換えるためのリファクタリングを行いました。

プロジェクト要員: 2名
役割: 開発者
プログラミング言語: Python
キーワード: py.test

オーディエンスデータ可視化UI 2015年4月〜5月

データベースに直接アクセスせずにブラウザからオーディエンスの傾向を把握することを目的とした営業提案支援のための社内用Webインターフェースを開発しました。これはアクセスログの統計情報を視覚的に瞬時に把握するためのものです。

プロジェクト要員: 3名
役割: 開発者
プログラミング言語: Python, JavaScript
キーワード: MySQL, Redis, uWSGI, Flask, Nginx, Google Chart API

Kauli株式会社 (アルバイト) 2013年9月〜2014年6月

週2日勤務のアルバイトでした。ただし学業優先のため学会出張や大学の行事などの日は欠勤しました。

UserAgentから統計情報のレポート 2013年9月〜10月

蓄積されたアクセスログからUserAgent情報の統計情報 (PC, iPhoneなど各デバイスの割合など) をレポートするソフトウェアを開発しました。

プロジェクト要員: 2名
役割: 開発者
プログラミング言語: Python

Webサイトカテゴリ分類器 2013年11月〜2014年2月

Amazon EMRで動く機械学習を用いてWebサイトのカテゴリ (ニュース、エンタメなど) を自動分類するソフトウェアを開発しました。主にMahoutのComplement Naive Bayesを追加学習できるように改善しました。また、Javaで学習したモデルをPythonで利用できるグルーコードも開発しました。

プロジェクト要員: 2名
役割: 設計・開発者
プログラミング言語: Python, Java
キーワード: Mahout

その他の開発 2014年3月〜6月

CakePHPによるSSP管理画面にてFLASH動画の広告をアップロードできるように改善しました。

アクセスログの集計処理を並列化することにより2倍以上の早さで完了するよう改善しました。

役割: 開発者
プログラミング言語: Python, PHP

株式会社日立製作所横浜研究所 (インターン) 2012年8月

非構造データの分析アプリ開発 2012年8月

自然言語処理分野の論文調査/照応解析ソフトウェア作成/社内発表を行いました。そして、この成果を IEEE の人工知能系国際会議 SMC2013 にて発表しました。

Clause Anaphora Resolution for Japanese Demonstrative Determiner based on Semantic Similarity between Different Parts-of-Speech from Yukino Ikegami

プロジェクト要員: 4名
役割: リーダー・設計・開発者
プログラミング言語: Python
キーワード: MeCab
論文:
- Yukino Ikegami, Ernesto Damiani, Akihiro Urano, Setsuo Tsuruta.
  Clause Anaphora Resolution for Japanese Demonstrative Determiner Based on Semantic Similarity between Different Parts-of-Speech.
  SMC 2013, pp. 3067–3072, 2013.

業務委託 2012年2月

Wordpress 用 Twitter 連携モジュール 2012年2月

ブログシステム Wordpress の記事投稿/更新を Twitter から行うことを可能にするモジュールを、御茶ノ水美術専門学校の特設サイト OCHAPEDIA (現在は公開終了) の更新用に開発しました。要望により Python 標準ライブラリのみを用いて実装しました。

プロジェクト要員: 2名
役割: 設計・開発者
プログラミング言語: Python

池上 有希乃 職務経歴書

独立行政法人 情報処理推進機構 2025年1月〜現在