APTOS-JSAIO 2025 ビッグデータコンペティション

  • 概要 本コンペティションでは、眼科手術(白内障手術)の動画から異なる手術フェーズを自動認識する ML モデルの構築が求められます。提供されるデータセットは、496件の白内障手術の映像と、35の手術フェーズの詳細なアノテーションを含みます。フェーズ認識技術の向上により、手術の標準化、医療資源の最適化、術者のトレーニング向上につながると期待されています。

  • 重要な日程

2025年4月1日:コンペティション開始

2025年4月7日:提出受付開始

2025年5月31日:エントリー締切&チーム統合期限

2025年6月15日:提出期限

2025年6月22日:上位5チームのコード提出締切(18:00 UTC+8)

2025年6月28日:賞金授与

  • 賞金

1位:$3,000

2位:$1,500

3位:$500 入賞者は、APTOSxJSAIO 2025 のクロージングセッションでアルゴリズム開発のポイントを共有することが条件となっています。


Baseline

TeCNO: Surgical Phase Recognition with Multi-Stage Temporal Convolutional Networks

TeCNO(Temporal Convolutional Network for surgical phase recognition)は、腹腔鏡手術などの動画に対して、各フレームが手術のどのフェーズかを分類するモデルです。

このタスクは「Surgical Phase Recognition」と呼ばれ、術中支援や教育、術後分析など多くの医療応用が期待されています。

本論文では、時間的情報(temporal context)を捉えることの重要性に着目し、Multi-Stage Temporal Convolutional Network(MS-TCN)をベースとしたモデル構造を提案しています。

  • 対象データセット: Cholec80(腹腔鏡下胆嚢摘出術の動画80件)
  • タスク: 各フレームを7つの手術フェーズに分類
  • 入力: 動画フレームから抽出した特徴列(ResNetなどのCNN出力)
  • 出力: 各タイムステップに対する手術フェーズの予測

TeCNOの特徴

TeCNOは、以下の2つの工夫により高い性能を達成しています。

  • ✅ 3.1 Multi-Stage構造

  • 一段目で粗い予測を行い、それを次の段階で段階的に洗練(refine)していく構造。
  • 通常のRNNや単一のTCNでは難しかった「誤予測の修正」が可能に。

  • ✅ 3.2 Dilated Temporal Convolution

  • 各ステージでは Dilated(膨張)1D畳み込み を用いて長期的な時系列依存を扱う。
  • これにより、LSTMやGRUのような再帰的構造なしで、並列計算が可能かつ高精度

  • ✅ 3.3 End-to-End 学習

  • 特徴抽出(CNN)と時系列分類(MS-TCN)を組み合わせる構成で、全体としてEnd-to-Endに学習可能。