マルチモーダル A
101 件中 61〜90 件目を表示
-
Vision-language models for chest radiography do not always need the image胸部X線の視覚言語モデルは画像を常に要しない医療の視覚言語モデルは画像とテキストを組み合わせて報告する。本研究は胸部放射線で、これらのモデルが必ずしも画像を必要とせず予測できる場合があることを示し、評価と臨床利用上の含意を論じる。
-
EnvRL: Learn from Environment Dynamics in Agentic Reinforcement LearningEnvRL、環境ダイナミクスから学ぶエージェント強化学習EnvRLはエージェント的強化学習において環境のダイナミクスから学ぶ手法で、環境との相互作用の構造を活用してエージェントの学習効率や性能向上を狙う。
-
MambaCount: Efficient Text-guided Open-vocabulary Object Counting with Spatial Sparse State Space Duality BlockMambaCount、状態空間双対ブロックで開語彙物体計数テキスト誘導の開語彙物体計数(TOOC)はスケール変動の大きい密なシーンで難しく、既存はTransformerの二次計算量に制約される。MambaCountは空間疎な状態空間双対ブロックにより効率的なTOOCを実現する。
-
Context-Aware RL for Agentic and Multimodal LLMs文脈選択を報酬化するRL手法ContextRLを提案長文・多モーダルでの根拠特定を改善する強化学習手法ContextRLを提案。最終回答だけでなく、クエリと回答を支持する文脈を選ばせて報酬を与える間接的な補助目的により、細かな根拠付けを促す。コーディングのトラジェクトリと画像の対照データで学習し、標準的なGRPOに対し平均+2.2%の向上を示した。
-
Geometric Action Model for Robot Policy Learning幾何基盤モデルを再利用するロボット操作方策GAMを提案3次元幾何を扱える事前学習済みの幾何基盤モデル(GFM)を、知覚・時間予測・行動デコードの共通基盤として再利用する言語条件付きロボット操作方策GAMを提案。GFMを中間層で分割し、浅い層を観測エンコーダとして用い、分割点に挿入した因果的予測器が言語や固有受容感覚・行動履歴から将来の潜在トークンを予測する構成とする。
-
DEEPRUBRIC: Evidence-Tree Rubric Supervision for Efficient Reinforcement Learning of Deep Research AgentsDeepRubric、評価基準を逆生成し深層リサーチエージェントのRLを効率化深層リサーチエージェントをルーブリック報酬で強化学習する際、評価基準が不完全だと効率が落ちる課題に対しDeepRubricを提案。クエリから基準を推定する従来手順を逆転し、まず証拠ツリーから「報告が何で評価されるべきか」を定め、整合したクエリ・ルーブリック対を合成することで、より信頼できる教師信号を構築しRL効率を高める。
-
Learning the Geometry of Data: A Mathematical Review of Shape Space Analysisデータの幾何学を学ぶ ─ 形状空間解析の数理を体系的にレビュー観測データが豊かな幾何形状を持つ「形状空間」を扱う研究を体系化した総説。生物・医療・人類学・CVなど多分野で重要となる微妙な幾何差を従来の機械学習が扱いにくい点を指摘し、微分幾何・統計・機械学習の知見を統合。形状の表現とパラメータ化や距離の構成など、共通の解析パイプラインに沿って急成長中の文献を整理する。
-
FusionRS: A Large-Scale RGB-Infrared Remote Sensing Dataset for Dual-Modal Vision-Language Foundation ModelsRGB・赤外を対応づけたリモセン向けデータセットFusionRSを公開リモートセンシングの視覚言語モデルがRGB画像中心で赤外情報の活用が乏しい点に着目し、RGB・赤外・テキストを対応づけた大規模データセットFusionRSを提案する論文。公開RGB画像を赤外風に変換して対の画像を作り、通常の説明文と赤外特有の性質を記す説明文を付与したとする。
-
ROVE: Unlocking Human Interventions for Humanoid Manipulation via Reinforcement LearningROVE、不完全な人手介入から学ぶヒューマノイド操作のRL枠組みVision-Language-Action(VLA)モデルの事後学習で重要な人手介入は、ヒューマノイドの全身運動や器用な手の制御の難しさから軌跡が最適でないことが多い。ROVEは介入データ収集パイプラインに加え、楽観的価値推定(OVE)で混合品質の軌跡から高価値な行動を優先し、さらにクロス身体の人間動画で価値推定を頑健化するRL枠組みを提案する。
-
From Tokens to Policy: Causal and Interpretable Heterogeneous Treatment Effects Identification因果的に解釈可能な異質処理効果を同定する手法NEXISを提案論文は、介入効果の異質性(HTE)を因果的に解釈する新手法NEXIS(Neural EXposure Interaction Search)を提案。多モーダル・多視点の事前測定とスケーラブルな表現学習を活用し、HTE同定を十分かつ整合的な事前表現上のマルコフブランケット探索問題として再定式化する。表現力と解釈性のトレードオフ緩和を狙うとする。
-
Bayesian Inference and Decision Audits for Public Archives of Frontier AI EvaluationsフロンティアAI評価の公開記録をベイズ推論と監査で分析LiveBenchやOpen LLM Leaderboard v2などの公開評価アーカイブを、確定的な順位表ではなく報告規則や欠測に左右される時系列とみなし、ベイズ推論問題として扱う論文。観測条件により行動指向の診断が異なり、選択バイアスを考慮しないフロンティアモデルが各種の検証に失敗する一方、固定的な監査ゲートが有効と論じる。
-
Task-Error Residual Learning for Real-Robot Five-Ball Juggling残差学習でロボットの5球ジャグリングを少数試行で安定実現既存の挙動を洗練する残差学習では、各ロールアウトが返す情報量とその利用効率がサンプル効率を左右する。標準的な強化学習のスカラー報酬は、タスクを定義する方向性のあるタスク誤差より情報が乏しい。本研究は方向性タスク誤差を教師信号とする残差学習と、サンプル選択を導くタスク誤差モデルにより、人型のBarrett WAMアームで3・4・5球の安定したジャグリングを達成。2回目の試行から収束し、初回以降はタスク誤差が単調に減少したとする。
-
Functional Gradient Descent with Adaptive Representations関数空間で勾配降下するFGDを適応的表現で実用化する手法を提案関数最適化は通常、神経網など固定表現のパラメータを最適化するため非凸な損失となり、学習と理論解析を難しくする。代替として関数空間で直接勾配降下する関数勾配降下(FGD)は強い収束結果と明快な理論を持つが、関数勾配が無限次元のため完全な計算も保存もできず実装が困難だった。本研究は適応的表現を用いてFGDを実用的に実装する手法を提案するとする。
-
RAID: Semantic Graph Diffusion for True Cold-Start and Cross-Lingual Forecastingコールドスタート・多言語予測向け検索拡張拡散フレームワーク RAID を提案時系列基盤モデルは履歴窓があれば高い転移性能を示すが、新規アイテムに過去観測が無い真のコールドスタートではその前提が崩れる。本研究は履歴ベースの相関学習に代えて、メタデータ駆動の意味検索とグラフ条件付き拡散を用いる RAID(Retrieval-Augmented Iterative Diffusion)を提案。凍結した多言語埋め込みでテキストメタデータを共有意味空間へ写像し、未見アイテムにも拡張する帰納的検索グラフを構築。意味的に近い近傍から基礎予測を作り反復的に精緻化すると述べる。
-
Binary Tracking for Spatial QA and Navigation with Open Vision-Language Modelsオープン VLM で動く空間質問応答・ナビ手法 Binary Tracking を提案サービスロボットが長い一人称視点の経路を移動する際の空間質問応答を扱う。「帰り道でクリーニング店はどこか」といった問いに対し、後段のナビが利用できる距離座標を返す。従来は GPT-4o 等のクローズドモデルに依存する検索拡張エージェントが主流だが、ネットワーク不安定・遅延・コストの面で実環境では信頼しにくい。本研究はロボット搭載で動作するオープンソースベースの空間質問応答を目指し、Binary Tracking を提案すると述べる。
-
Semantic Flip: Synthetic OOD Generation for Robust Refusal in Embodied Question Answering and Spatial Localization身体化エージェントの拒否応答を強化する合成 OOD 生成手法 Semantic Flip を提案実世界の身体化エージェントでは応答不能な質問の検出が信頼性確保に不可欠だが、現代の視覚言語モデル(VLM)は視覚記憶が裏付けない場合でも過信した回答を返しがちで、誤情報提供や誤った地点への物理的誘導などのリスクを生む。本研究は VLM が適切に「分からない」と答えるべき場面に着目し、合成的な分布外(OOD)サンプルを生成する簡便な手法 Semantic Flip を提案、頑健な拒否を実現すると述べる。
-
Data-Driven Decoding of Russell's Circumplex Model of AffectTransformer 埋め込みが感情の Russell 円環モデル幾何を再現するか検証テキストと音声で学習した Transformer の潜在空間が、感情を表す Russell の円環(circumplex)モデルの幾何的規則性を回復するかを、2 つの相補的実験を統合して検証する arxiv 論文。感情表現の深層学習が不透明な高次元ブラックボックスになりがちな点に対し、埋め込み構造の解釈可能性を論じる(abstract ベースの中立要約)。
-
A Perception vs. Distortion Perspective on Score-Based Generative Channel Estimationスコアベース通信路推定を知覚-歪みトレードオフの観点で理論解析無線物理層で広がるスコアベース生成モデルについて、識別学習に対する優位性の厳密な分析が乏しいとして、通信路推定を題材に知覚-歪みトレードオフの観点から理論的に解釈。スコアマッチングが有利な条件と限界を示し、歪み最小化が招く過剰リスクを定量化すると報告する。
-
Scaling LLM Reasoning from Minimal Labels: A Semi-Supervised Framework with a Lightweight Verifier少量ラベルで LLM 推論を拡張する半教師あり枠組みを提案少数のラベル付きサンプルだけで推論の正しさを判定する軽量分類器を用い、推論検証自体をデータ生成機構に変える半教師あり枠組みを提案する arxiv 論文。abstract ベースの中立要約で、数値や優劣の断定は回避。
-
Connecting Speech to Words through Images画像を介し音声と単語を対応づける手法を提案する論文テキストの明示的な教師なしで、画像とその音声説明のみから話し言葉の語彙を構築する視覚接地手法を提案する arxiv 論文。画像キャプションと教師なし単語発見を組み合わせる。abstract ベースの中立要約。
-
LabOSBench: Benchmarking Computer Use Agents for Scientific Instrument Control科学機器を操作するエージェント評価へ、模擬ベンチLabOSBenchを提案既存のcomputer-useベンチが仮想環境のソフト操作に偏る一方、科学機器の操作は複雑な界面の協調制御やフィードバックに基づくパラメータ調整を要する点に着目する論文。実機評価のコストや安全性、再現性の制約を避けつつ現実的な操作課題を保つ模擬テスト環境LabOSBenchを提案するとしている。
-
Decoupling Semantics from Distortions: Multi-Scale Two-Stream Vision-Language Alignment for AI-Generated Image Quality AssessmentAI生成画像の品質評価へ、意味と歪みを分離する二系統手法MST-CLIPIQAを提案視覚言語モデルを用いたAI生成画像の品質評価で、意味理解と低次の知覚的感度が単一表現に絡み合い微細な劣化を見落とす課題を指摘し、両者を明示的に分離する多スケール二系統枠組みMST-CLIPIQAを提案する論文。二つのCLIPエンコーダによる階層的な視覚言語アライメントを行うとしている。
-
We Need Explanation Cards to Connect Explanation Algorithms to the Real Worldアルゴリズム説明に頑健性・妥当性情報を添える「説明カード」を提案アルゴリズム的説明は専門知識なしには誤解されやすく、複雑な決定関数の挙動を十分に伝えないとの指摘を踏まえ、説明に頑健性・妥当性の補足情報と解釈手順を付す「説明カード」を提案。無情報な説明を実用化しつつ、有効でない場合の検出も助けると論じる。
-
Gen-VCoT: Generative Visual Chain-of-Thought Reasoning via Diffusion-Based RGB Intermediate RepresentationsGen-VCoT: 視覚的思考連鎖をRGB中間表現で生成する多モーダル推論枠組みテキスト依存のCoTに代え、SAMセグメンテーション・Marigold深度・Qwen2-VLを段階的に用いてRGB画像を推論の中間表現として生成するGen-VCoTを提案。空間25%・深度50%の質問で改善する一方、単純な事実問では精度が下がり、CLEVRではテキストCoTが優位と報告する。
-
Revealing Artifacts via Noise Amplification: A Novel Perspective for AI-Generated Video DetectionAI生成動画の検出へ、ノイズ増幅で不自然な痕跡を可視化する新視点を提案テキストから動画を生成するモデルの普及で本物との判別が難しくなる中、生成動画特有の微細な痕跡をノイズ増幅により際立たせて検出する新たな視点を提案する論文。既存研究が主にGAN由来サンプルの検出に偏っていた点を補い、text-to-video生成物の検出可能性を検討するとしている。
-
Multi-Turn Reflective Masking Elicits Reasoning in Mask Diffusion Modelsマスク拡散モデルに反復的な局所修正の推論力を引き出す手法を提案自己回帰モデルの逐次生成に対し、マスク拡散モデル(MDM)が持つ局所編集特性を活かす「Reflective Masking」を提案する論文とされる。軽量な後段学習で多ターンのマスク・再生成を可能にし、文脈に応じて出力を反復改良すると報告。手法・主張は原論文に基づく中立要約。
-
Pretrained to Imagine, Fine-Tuned to Act: The Rise of World-Action ModelsNVIDIA、ロボット制御の新潮流「World-Action Model」を解説NVIDIA が技術ブログで、事前学習で世界を「想像」し微調整で「行動」する World-Action Model (WAM) の台頭を紹介。視覚言語モデルを基盤に動作方策を学ぶ Vision-Language-Action (VLA) モデルとの関係を整理し、ロボティクスにおける生成 AI や強化学習の応用を概観する。
-
Uncertainty Is Not a Safety Net for Clinical VQA, but Can It Anticipate Model Failure?臨床 VQA で不確実性推定は安全網にならないと検証臨床向け視覚言語モデル (VLM) の安全な運用には、予測を信頼すべきか医師にエスカレすべきかを示す不確実性推定 (UE) が必要とされる。本論文は臨床的な視覚質問応答 (VQA) で 8 手法・12 モデルを評価し、UE の品質は手法固有の性質ではなくモデル精度に追随し、性能が最も弱い (=信頼性が最も必要な) 箇所でこそ劣化すると指摘。正解を選択肢から隠す摂動では精度が崩壊しても不確実性はほとんど変化しなかったと報告する。
-
Gaze Heads: How VLMs Look at What They DescribeVLMの「視線ヘッド」発見、注目領域の制御で説明を誘導視覚言語モデルが画像説明時に、説明中の領域を追跡する少数の注意ヘッド「gaze heads」を持つことを発見。上位約100ヘッドへの介入だけで、モデルの説明対象を任意の領域へ誘導できると示した。
-
CORA: Analyzing and bridging thinking-answer gap in Multimodal RLVR via Consistency-Oriented Reasoning AlignmentCORA、マルチモーダルRLVRの「思考と回答のずれ」を是正検証可能報酬による強化学習(RLVR)をマルチモーダルへ拡張する際の、推論内容と最終回答の不一致に着目。一貫性志向の推論整合(CORA)でそのギャップを分析・橋渡しする手法を提案する。