この度、メルカリAIチームのエンジニア・矢田宙生, 秋山翔, 渡邊諒, 上野湧太, Andre Rusli, 紫藤佑介による論文「Vision Language Modelを用いたEコマースプラットフォームにおける画像推薦の性能改善」が、画像の認識・理解シンポジウム MIRU2025の口頭発表に採択されたことをお知らせいたします。画像の認識・理解シンポジウム (MIRU)は、画像の認識と理解技術の分野で国内最大規模の会議であり、毎年開催されています。開催28回目である今年のシンポジウムは、京都市にて、2025年7月29日から8月1日まで開催されます。2025年度は、255本の投稿の中から88本の論文が口頭発表に採択されています(採択率34.5%)。
発表時間は、下記のスケジュールを予定しています。
2025年7月31日(木)15時00分 〜 16時20分
発表内容のポイント
今回の発表では、メルカリの商品ページ内の「見た目が近い商品」という推薦機能の裏側で動いている画像AIモデルを改善したプロジェクトについて報告します。
メルカリが保有する膨大な商品データを用いて学習したAIモデルを用いて、「見た目が近い商品」のレコメンド性能を大幅に向上させました。

研究の背景
お客さまからは「この服のデザインが気に入ったから似ているデザインの洋服が欲しい」「大好きなキャラクターの商品がメルカリで売られてないか」という具合に、ある商品の画像的な特徴を用いた発見体験に一定の需要が存在していました。
メルカリでは、これまでも画像検索/推薦をはじめとした画像的特徴を活用した発見機能を提供していました。しかし、その裏側のAIモデルは、メルカリの商品データを学習しておらず、画像の特徴を十分に捉えられていないという課題がありました。
研究概要
今回報告するプロジェクトでは、メルカリが保有する約100万件の商品データを用いて、Vision Language Modelと呼ばれる画像とテキストの両方の理解に優れたAIモデルの学習を行いました。
構築したAIモデルによって、
- 「見た目が近い商品」機能のクリック率が50%増加
- 商品ページのレコメンド経由での購入数が14%増加
という非常に顕著な改善が見られました。本発表で報告するAIモデルは後々、画像検索機能にも用いられています。
AI/LLM Teamについて
AI/LLM Teamでは、LLMやEmbeddingといった先端的なAI技術を活用したプロダクトの改善を通して、お客さま体験の向上に貢献することを目的としたチームです。画像検索やAI出品のような機能の開発をリードしています。