mercari AI

Blog

メルカリAIチームの研究「Zero-Shot Retrieval for Scalable Visual Search in a Two-Sided Marketplace」がKDD 2025のTSMO 2025ワークショップに採択されました

 概要

この度、メルカリAIチームのエンジニア/PMであるAndre Rusli、石本翔真、秋山翔、Aman Kumar Singhによる論文「Zero-Shot Retrieval for Scalable Visual Search in a Two-Sided Marketplace」が、データマイニング・知識発見分野の国際会議「KDD 2025」内のTSMO 2025ワークショップに採択されたことをお知らせいたします。

KDD(Knowledge Discovery and Data Mining)は、データサイエンスと機械学習の分野で最も権威ある国際会議の一つであり、世界中の研究者らによって毎年開催されています。KDD 2025は、カナダのトロントで2025年8月3日から7日まで開催されます。発表は、2025年8月4日に予定されています。

TSMO(Two-sided Marketplace Optimization)Workshopは、マーケットプレイスプラットフォームやオンラインエコシステムに関する研究に焦点を当てた専門ワークショップです。

発表内容のポイント

この研究は、エンドユーザーが買い手と売り手の両方として機能するC2Cプラットフォーム特有の課題に対処するための、メルカリでのスケーラブルな画像検索システムを紹介しています。革新的なポイントとして、最新のビジョン言語モデルをゼロショット画像検索に評価し、既存のベースラインに対する優位性を実証したことが挙げられます。

主な貢献:

  • リアルタイム推論とバックグラウンドインデックス化ワークフローを統合した本番対応の画像検索システムの開発
  • 多言語SigLIPモデルの包括的評価により、ベースラインに対してnDCG@5で13.3%の改善の実現
  • オンラインA/Bテストによる本番環境での検証で、画像検索経由の取引率が40.9%向上
  • ゼロショットモデルが本番利用において強力な実用的ベースラインとして機能することの実証

研究の背景

メルカリは、従来のB2Cプラットフォームと比較して、C2Cマーケットプレイス特有の課題に直面しています。
ほとんどの売り手は、専門的な事業者ではなく一般の個人のお客さまであるため、多様な商品が出品される上に、商品の命名規則・カテゴリ割り当て・商品写真の品質にばらつきが生じます。これにより、購入前のお客さまのみならず、また出品前の類似商品調査のために閲覧するお客さまにとっても困難が生じています。

商品を発見する一般的な手法として、テキストベースの検索エンジンがあります。しかし C2Cマーケットプレイスのような環境では、商品を発見するまでに苦戦することが多くあります。

多くの商品は、キーワードで正確に記述することが困難です。特にファッション・キャラクターグッズ・コレクションアイテムなどでは視覚的特徴が重要視されています。画像検索は直感的な商品検索手段であり、構造化されたテキスト情報を必要とせずに、エンドユーザーが視覚的に類似したアイテムを見つけるのに役立ちます。


画像検索に対する顧客ニーズの図解


提案された画像検索のUXフロー

研究概要

本研究は、大規模C2Cマーケットプレイス環境におけるゼロショット画像検索のために、最新のビジョン言語モデル、特に多言語SigLIPを評価しています。システムアーキテクチャは、リアルタイム推論とバックグラウンドインデックス化ワークフローを組み合わせ、768次元から128次元への次元削減により最適化された統一埋め込みパイプラインによってサポートされています。


お客さまが検索クエリ画像をアップロードする際のシステムフロー

主要な発見:

  • 多言語SigLIPがオフライン評価において複数の検索メトリクスで他のモデルを上回る性能を示した
  • オンラインA/Bテストにより、エンゲージメントとコンバージョンの大幅な向上という実際のユーザー体験への影響が確認された
  • 本システムは執筆時点で月間約150万人のお客さま(メルカリの月間アクティブユーザーの約7%)にサービスを提供しており、その数は現在も増加中
  • ゼロショットアプローチにより、分布シフトに対する堅牢性を提供しながら、広範な下流学習の必要性を排除できる

オフライン評価データセットにおける各種モデルの結果の比較

Model nDCG@5 Prec@5 Recall@5
baseline 0.510 0.190 0.551
clip-japanese-base 0.472 0.175 0.516
siglip-base-patch16-256-multilingual 0.578 0.212 0.634
dinov2-large 0.526 0.190 0.565

この研究は、最新のゼロショットモデルが本番利用において強力で実用的なベースラインとして機能し、チームがドメイン固有のニーズに基づく将来のファインチューニングの柔軟性を保持しながら、最小限のオーバーヘッドで効果的な画像検索システムを展開できることを実証しています。

所属チームについて

AI/LLMチーム:

メルカリの製品・サービス全体において人工知能と機械学習の能力向上に焦点を当てています。チームは、コンピュータビジョン、自然言語処理、大規模言語モデルの実験を行い、様々なプロダクトチームと密接に連携して最新のAI技術を実験・実装し、お客さまの体験を向上させ、複雑なマーケットプレイスの課題を解決することに取り組んでいます。

検索チーム:

メルカリのプラットフォーム全体でお客さまが効率的に商品を発見できるよう、検索システムの構築と継続的な改善に専念しています。チームは、テキストベース検索、画像検索など、さまざまな検索モダリティを開発・維持し、数百万のお客さまに最適な商品発見体験を提供しています。

MLプラットフォームチーム:

組織全体のプロダクトチームが機械学習システムを効果的に展開・運用できるよう、堅牢でスケーラブルなインフラストラクチャとプラットフォームの提供を専門としています。チームは、信頼性の高いMLインフラストラクチャの構築、パフォーマンスの最適化、本番環境へのAI機能のシームレスな統合に焦点を当てています。

謝辞

この研究の開発を通じて、Search、AI/LLM、MLプラットフォームチームのエンジニアリングメンバーによる卓越した貢献に心から感謝いたします。彼らの深い技術的専門知識、協力的な精神、スケーラビリティとパフォーマンスへの絶え間ない注力は、システムの構築と展開において不可欠でした。
また、デザイナー、プロダクトマネージャー、UXリサーチャーを含む機能横断的なパートナーにも心からの感謝を表します。彼らの思慮深い意見は、顧客にとってシームレスでユーザー中心の体験を確保するために重要でした。評価戦略の形成における分析支援を提供してくれたビジネスインテリジェンス(BI)チーム、厳格なテストと品質保証を行ってくれたQAチーム、認知度向上と採用推進に努めてくれたマーケティングチームに特別な感謝を表します。彼らの献身と専門知識は、この研究を実現するために重要な役割を果たしました。