マルチモーダル A

101 件中 61〜90 件目を表示
  • arXiv cs.CL (Computation and Language) · EN マルチモーダル 抜粋
    Vision-language models for chest radiography do not always need the image
    胸部X線の視覚言語モデルは画像を常に要しない
    コンピュータビジョン 推論 (Inference) ソフトウェア工学
    医療の視覚言語モデルは画像とテキストを組み合わせて報告する。本研究は胸部放射線で、これらのモデルが必ずしも画像を必要とせず予測できる場合があることを示し、評価と臨床利用上の含意を論じる。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN マルチモーダル 抜粋
    EnvRL: Learn from Environment Dynamics in Agentic Reinforcement Learning
    EnvRL、環境ダイナミクスから学ぶエージェント強化学習
    AI エージェント 検索拡張生成 (RAG) 強化学習
    EnvRLはエージェント的強化学習において環境のダイナミクスから学ぶ手法で、環境との相互作用の構造を活用してエージェントの学習効率や性能向上を狙う。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    MambaCount: Efficient Text-guided Open-vocabulary Object Counting with Spatial Sparse State Space Duality Block
    MambaCount、状態空間双対ブロックで開語彙物体計数
    強化学習 Transformer
    テキスト誘導の開語彙物体計数(TOOC)はスケール変動の大きい密なシーンで難しく、既存はTransformerの二次計算量に制約される。MambaCountは空間疎な状態空間双対ブロックにより効率的なTOOCを実現する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN マルチモーダル 抜粋
    Context-Aware RL for Agentic and Multimodal LLMs
    文脈選択を報酬化するRL手法ContextRLを提案
    AI エージェント 検索拡張生成 (RAG) 強化学習 ソフトウェア工学
    長文・多モーダルでの根拠特定を改善する強化学習手法ContextRLを提案。最終回答だけでなく、クエリと回答を支持する文脈を選ばせて報酬を与える間接的な補助目的により、細かな根拠付けを促す。コーディングのトラジェクトリと画像の対照データで学習し、標準的なGRPOに対し平均+2.2%の向上を示した。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.LG (Machine Learning) · EN マルチモーダル 抜粋
    Geometric Action Model for Robot Policy Learning
    幾何基盤モデルを再利用するロボット操作方策GAMを提案
    コンピュータビジョン 強化学習
    3次元幾何を扱える事前学習済みの幾何基盤モデル(GFM)を、知覚・時間予測・行動デコードの共通基盤として再利用する言語条件付きロボット操作方策GAMを提案。GFMを中間層で分割し、浅い層を観測エンコーダとして用い、分割点に挿入した因果的予測器が言語や固有受容感覚・行動履歴から将来の潜在トークンを予測する構成とする。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    DEEPRUBRIC: Evidence-Tree Rubric Supervision for Efficient Reinforcement Learning of Deep Research Agents
    DeepRubric、評価基準を逆生成し深層リサーチエージェントのRLを効率化
    AI エージェント 強化学習
    深層リサーチエージェントをルーブリック報酬で強化学習する際、評価基準が不完全だと効率が落ちる課題に対しDeepRubricを提案。クエリから基準を推定する従来手順を逆転し、まず証拠ツリーから「報告が何で評価されるべきか」を定め、整合したクエリ・ルーブリック対を合成することで、より信頼できる教師信号を構築しRL効率を高める。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.LG (Machine Learning) · EN 開発者ツール 抜粋
    Learning the Geometry of Data: A Mathematical Review of Shape Space Analysis
    データの幾何学を学ぶ ─ 形状空間解析の数理を体系的にレビュー
    コンピュータビジョン 深層学習 機械学習 ニューラルネットワーク 強化学習
    観測データが豊かな幾何形状を持つ「形状空間」を扱う研究を体系化した総説。生物・医療・人類学・CVなど多分野で重要となる微妙な幾何差を従来の機械学習が扱いにくい点を指摘し、微分幾何・統計・機械学習の知見を統合。形状の表現とパラメータ化や距離の構成など、共通の解析パイプラインに沿って急成長中の文献を整理する。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN マルチモーダル 抜粋
    FusionRS: A Large-Scale RGB-Infrared Remote Sensing Dataset for Dual-Modal Vision-Language Foundation Models
    RGB・赤外を対応づけたリモセン向けデータセットFusionRSを公開
    コンピュータビジョン
    リモートセンシングの視覚言語モデルがRGB画像中心で赤外情報の活用が乏しい点に着目し、RGB・赤外・テキストを対応づけた大規模データセットFusionRSを提案する論文。公開RGB画像を赤外風に変換して対の画像を作り、通常の説明文と赤外特有の性質を記す説明文を付与したとする。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.LG (Machine Learning) · EN マルチモーダル 抜粋
    ROVE: Unlocking Human Interventions for Humanoid Manipulation via Reinforcement Learning
    ROVE、不完全な人手介入から学ぶヒューマノイド操作のRL枠組み
    コンピュータビジョン 機械学習 強化学習
    Vision-Language-Action(VLA)モデルの事後学習で重要な人手介入は、ヒューマノイドの全身運動や器用な手の制御の難しさから軌跡が最適でないことが多い。ROVEは介入データ収集パイプラインに加え、楽観的価値推定(OVE)で混合品質の軌跡から高価値な行動を優先し、さらにクロス身体の人間動画で価値推定を頑健化するRL枠組みを提案する。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.LG (Machine Learning) · EN 新モデル・リリース 抜粋
    From Tokens to Policy: Causal and Interpretable Heterogeneous Treatment Effects Identification
    因果的に解釈可能な異質処理効果を同定する手法NEXISを提案
    論文は、介入効果の異質性(HTE)を因果的に解釈する新手法NEXIS(Neural EXposure Interaction Search)を提案。多モーダル・多視点の事前測定とスケーラブルな表現学習を活用し、HTE同定を十分かつ整合的な事前表現上のマルコフブランケット探索問題として再定式化する。表現力と解釈性のトレードオフ緩和を狙うとする。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    Bayesian Inference and Decision Audits for Public Archives of Frontier AI Evaluations
    フロンティアAI評価の公開記録をベイズ推論と監査で分析
    推論 (Inference) 強化学習
    LiveBenchやOpen LLM Leaderboard v2などの公開評価アーカイブを、確定的な順位表ではなく報告規則や欠測に左右される時系列とみなし、ベイズ推論問題として扱う論文。観測条件により行動指向の診断が異なり、選択バイアスを考慮しないフロンティアモデルが各種の検証に失敗する一方、固定的な監査ゲートが有効と論じる。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.LG (Machine Learning) · EN 学習・ファインチューニング 抜粋
    Task-Error Residual Learning for Real-Robot Five-Ball Juggling
    残差学習でロボットの5球ジャグリングを少数試行で安定実現
    ニューラルネットワーク 強化学習
    既存の挙動を洗練する残差学習では、各ロールアウトが返す情報量とその利用効率がサンプル効率を左右する。標準的な強化学習のスカラー報酬は、タスクを定義する方向性のあるタスク誤差より情報が乏しい。本研究は方向性タスク誤差を教師信号とする残差学習と、サンプル選択を導くタスク誤差モデルにより、人型のBarrett WAMアームで3・4・5球の安定したジャグリングを達成。2回目の試行から収束し、初回以降はタスク誤差が単調に減少したとする。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.LG (Machine Learning) · EN 新モデル・リリース 抜粋
    Functional Gradient Descent with Adaptive Representations
    関数空間で勾配降下するFGDを適応的表現で実用化する手法を提案
    コンピュータビジョン 深層学習 ニューラルネットワーク
    関数最適化は通常、神経網など固定表現のパラメータを最適化するため非凸な損失となり、学習と理論解析を難しくする。代替として関数空間で直接勾配降下する関数勾配降下(FGD)は強い収束結果と明快な理論を持つが、関数勾配が無限次元のため完全な計算も保存もできず実装が困難だった。本研究は適応的表現を用いてFGDを実用的に実装する手法を提案するとする。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 推論・効率化 抜粋
    RAID: Semantic Graph Diffusion for True Cold-Start and Cross-Lingual Forecasting
    コールドスタート・多言語予測向け検索拡張拡散フレームワーク RAID を提案
    埋め込み (Embeddings) 推論 (Inference) Meta 検索拡張生成 (RAG)
    時系列基盤モデルは履歴窓があれば高い転移性能を示すが、新規アイテムに過去観測が無い真のコールドスタートではその前提が崩れる。本研究は履歴ベースの相関学習に代えて、メタデータ駆動の意味検索とグラフ条件付き拡散を用いる RAID(Retrieval-Augmented Iterative Diffusion)を提案。凍結した多言語埋め込みでテキストメタデータを共有意味空間へ写像し、未見アイテムにも拡張する帰納的検索グラフを構築。意味的に近い近傍から基礎予測を作り反復的に精緻化すると述べる。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 推論・効率化 抜粋
    Binary Tracking for Spatial QA and Navigation with Open Vision-Language Models
    オープン VLM で動く空間質問応答・ナビ手法 Binary Tracking を提案
    AI エージェント コンピュータビジョン GPT 推論 (Inference) 検索拡張生成 (RAG)
    サービスロボットが長い一人称視点の経路を移動する際の空間質問応答を扱う。「帰り道でクリーニング店はどこか」といった問いに対し、後段のナビが利用できる距離座標を返す。従来は GPT-4o 等のクローズドモデルに依存する検索拡張エージェントが主流だが、ネットワーク不安定・遅延・コストの面で実環境では信頼しにくい。本研究はロボット搭載で動作するオープンソースベースの空間質問応答を目指し、Binary Tracking を提案すると述べる。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN マルチモーダル 抜粋
    Semantic Flip: Synthetic OOD Generation for Robust Refusal in Embodied Question Answering and Spatial Localization
    身体化エージェントの拒否応答を強化する合成 OOD 生成手法 Semantic Flip を提案
    AI エージェント コンピュータビジョン ニューラルネットワーク 強化学習 ソフトウェア工学
    実世界の身体化エージェントでは応答不能な質問の検出が信頼性確保に不可欠だが、現代の視覚言語モデル(VLM)は視覚記憶が裏付けない場合でも過信した回答を返しがちで、誤情報提供や誤った地点への物理的誘導などのリスクを生む。本研究は VLM が適切に「分からない」と答えるべき場面に着目し、合成的な分布外(OOD)サンプルを生成する簡便な手法 Semantic Flip を提案、頑健な拒否を実現すると述べる。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN マルチモーダル 抜粋
    Data-Driven Decoding of Russell's Circumplex Model of Affect
    Transformer 埋め込みが感情の Russell 円環モデル幾何を再現するか検証
    深層学習 埋め込み (Embeddings) 音声処理 Transformer
    テキストと音声で学習した Transformer の潜在空間が、感情を表す Russell の円環(circumplex)モデルの幾何的規則性を回復するかを、2 つの相補的実験を統合して検証する arxiv 論文。感情表現の深層学習が不透明な高次元ブラックボックスになりがちな点に対し、埋め込み構造の解釈可能性を論じる(abstract ベースの中立要約)。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.LG (Machine Learning) · EN マルチモーダル 抜粋
    A Perception vs. Distortion Perspective on Score-Based Generative Channel Estimation
    スコアベース通信路推定を知覚-歪みトレードオフの観点で理論解析
    コンピュータビジョン ニューラルネットワーク
    無線物理層で広がるスコアベース生成モデルについて、識別学習に対する優位性の厳密な分析が乏しいとして、通信路推定を題材に知覚-歪みトレードオフの観点から理論的に解釈。スコアマッチングが有利な条件と限界を示し、歪み最小化が招く過剰リスクを定量化すると報告する。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.CL (Computation and Language) · EN マルチモーダル 抜粋
    Scaling LLM Reasoning from Minimal Labels: A Semi-Supervised Framework with a Lightweight Verifier
    少量ラベルで LLM 推論を拡張する半教師あり枠組みを提案
    ニューラルネットワーク ソフトウェア工学
    少数のラベル付きサンプルだけで推論の正しさを判定する軽量分類器を用い、推論検証自体をデータ生成機構に変える半教師あり枠組みを提案する arxiv 論文。abstract ベースの中立要約で、数値や優劣の断定は回避。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN マルチモーダル 抜粋
    Connecting Speech to Words through Images
    画像を介し音声と単語を対応づける手法を提案する論文
    ニューラルネットワーク 音声処理
    テキストの明示的な教師なしで、画像とその音声説明のみから話し言葉の語彙を構築する視覚接地手法を提案する arxiv 論文。画像キャプションと教師なし単語発見を組み合わせる。abstract ベースの中立要約。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    LabOSBench: Benchmarking Computer Use Agents for Scientific Instrument Control
    科学機器を操作するエージェント評価へ、模擬ベンチLabOSBenchを提案
    AI エージェント コンピュータビジョン
    既存のcomputer-useベンチが仮想環境のソフト操作に偏る一方、科学機器の操作は複雑な界面の協調制御やフィードバックに基づくパラメータ調整を要する点に着目する論文。実機評価のコストや安全性、再現性の制約を避けつつ現実的な操作課題を保つ模擬テスト環境LabOSBenchを提案するとしている。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    Decoupling Semantics from Distortions: Multi-Scale Two-Stream Vision-Language Alignment for AI-Generated Image Quality Assessment
    AI生成画像の品質評価へ、意味と歪みを分離する二系統手法MST-CLIPIQAを提案
    コンピュータビジョン 機械学習 検索拡張生成 (RAG)
    視覚言語モデルを用いたAI生成画像の品質評価で、意味理解と低次の知覚的感度が単一表現に絡み合い微細な劣化を見落とす課題を指摘し、両者を明示的に分離する多スケール二系統枠組みMST-CLIPIQAを提案する論文。二つのCLIPエンコーダによる階層的な視覚言語アライメントを行うとしている。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.LG (Machine Learning) · EN マルチモーダル 抜粋
    We Need Explanation Cards to Connect Explanation Algorithms to the Real World
    アルゴリズム説明に頑健性・妥当性情報を添える「説明カード」を提案
    アルゴリズム・理論 ニューラルネットワーク 強化学習
    アルゴリズム的説明は専門知識なしには誤解されやすく、複雑な決定関数の挙動を十分に伝えないとの指摘を踏まえ、説明に頑健性・妥当性の補足情報と解釈手順を付す「説明カード」を提案。無情報な説明を実用化しつつ、有効でない場合の検出も助けると論じる。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.LG (Machine Learning) · EN マルチモーダル 抜粋
    Gen-VCoT: Generative Visual Chain-of-Thought Reasoning via Diffusion-Based RGB Intermediate Representations
    Gen-VCoT: 視覚的思考連鎖をRGB中間表現で生成する多モーダル推論枠組み
    機械学習
    テキスト依存のCoTに代え、SAMセグメンテーション・Marigold深度・Qwen2-VLを段階的に用いてRGB画像を推論の中間表現として生成するGen-VCoTを提案。空間25%・深度50%の質問で改善する一方、単純な事実問では精度が下がり、CLEVRではテキストCoTが優位と報告する。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 開発者ツール 抜粋
    Revealing Artifacts via Noise Amplification: A Novel Perspective for AI-Generated Video Detection
    AI生成動画の検出へ、ノイズ増幅で不自然な痕跡を可視化する新視点を提案
    強化学習
    テキストから動画を生成するモデルの普及で本物との判別が難しくなる中、生成動画特有の微細な痕跡をノイズ増幅により際立たせて検出する新たな視点を提案する論文。既存研究が主にGAN由来サンプルの検出に偏っていた点を補い、text-to-video生成物の検出可能性を検討するとしている。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    Multi-Turn Reflective Masking Elicits Reasoning in Mask Diffusion Models
    マスク拡散モデルに反復的な局所修正の推論力を引き出す手法を提案
    検索拡張生成 (RAG) ソフトウェア工学
    自己回帰モデルの逐次生成に対し、マスク拡散モデル(MDM)が持つ局所編集特性を活かす「Reflective Masking」を提案する論文とされる。軽量な後段学習で多ターンのマスク・再生成を可能にし、文脈に応じて出力を反復改良すると報告。手法・主張は原論文に基づく中立要約。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • NVIDIA Developer Blog · EN マルチモーダル 抜粋
    Pretrained to Imagine, Fine-Tuned to Act: The Rise of World-Action Models
    NVIDIA、ロボット制御の新潮流「World-Action Model」を解説
    コンピュータビジョン 生成 AI NVIDIA 強化学習 ロボティクス
    NVIDIA が技術ブログで、事前学習で世界を「想像」し微調整で「行動」する World-Action Model (WAM) の台頭を紹介。視覚言語モデルを基盤に動作方策を学ぶ Vision-Language-Action (VLA) モデルとの関係を整理し、ロボティクスにおける生成 AI や強化学習の応用を概観する。
    元記事を読む (NVIDIA Developer Blog) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    Uncertainty Is Not a Safety Net for Clinical VQA, but Can It Anticipate Model Failure?
    臨床 VQA で不確実性推定は安全網にならないと検証
    コンピュータビジョン 検索拡張生成 (RAG) ソフトウェア工学
    臨床向け視覚言語モデル (VLM) の安全な運用には、予測を信頼すべきか医師にエスカレすべきかを示す不確実性推定 (UE) が必要とされる。本論文は臨床的な視覚質問応答 (VQA) で 8 手法・12 モデルを評価し、UE の品質は手法固有の性質ではなくモデル精度に追随し、性能が最も弱い (=信頼性が最も必要な) 箇所でこそ劣化すると指摘。正解を選択肢から隠す摂動では精度が崩壊しても不確実性はほとんど変化しなかったと報告する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN マルチモーダル 抜粋
    Gaze Heads: How VLMs Look at What They Describe
    VLMの「視線ヘッド」発見、注目領域の制御で説明を誘導
    コンピュータビジョン 深層学習 ソフトウェア工学
    視覚言語モデルが画像説明時に、説明中の領域を追跡する少数の注意ヘッド「gaze heads」を持つことを発見。上位約100ヘッドへの介入だけで、モデルの説明対象を任意の領域へ誘導できると示した。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    CORA: Analyzing and bridging thinking-answer gap in Multimodal RLVR via Consistency-Oriented Reasoning Alignment
    CORA、マルチモーダルRLVRの「思考と回答のずれ」を是正
    コンピュータビジョン 推論 (Inference) 検索拡張生成 (RAG) 強化学習 ソフトウェア工学
    検証可能報酬による強化学習(RLVR)をマルチモーダルへ拡張する際の、推論内容と最終回答の不一致に着目。一貫性志向の推論整合(CORA)でそのギャップを分析・橋渡しする手法を提案する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗