新モデル・リリース A
268 件中 181〜210 件目を表示
-
TokenPilot: Cache-Efficient Context Management for LLM AgentsTokenPilot、キャッシュを保つ文脈管理でLLMエージェントの推論コスト6割減長期セッションのLLMエージェントは文脈蓄積で推論コストが増すが、既存のテキスト剪定や記憶削除はレイアウトを変えキャッシュ無効化を招く。TokenPilotは二粒度の文脈管理で、取り込み時にプレフィックスを安定化する圧縮と、文脈断片の残存有用性を監視する退避を組み合わせ、PinchBench等で推論コストを最大61%削減すると報告する。
-
ROVE: Unlocking Human Interventions for Humanoid Manipulation via Reinforcement LearningROVE、不完全な人手介入から学ぶヒューマノイド操作のRL枠組みVision-Language-Action(VLA)モデルの事後学習で重要な人手介入は、ヒューマノイドの全身運動や器用な手の制御の難しさから軌跡が最適でないことが多い。ROVEは介入データ収集パイプラインに加え、楽観的価値推定(OVE)で混合品質の軌跡から高価値な行動を優先し、さらにクロス身体の人間動画で価値推定を頑健化するRL枠組みを提案する。
-
From Tokens to Policy: Causal and Interpretable Heterogeneous Treatment Effects Identification因果的に解釈可能な異質処理効果を同定する手法NEXISを提案論文は、介入効果の異質性(HTE)を因果的に解釈する新手法NEXIS(Neural EXposure Interaction Search)を提案。多モーダル・多視点の事前測定とスケーラブルな表現学習を活用し、HTE同定を十分かつ整合的な事前表現上のマルコフブランケット探索問題として再定式化する。表現力と解釈性のトレードオフ緩和を狙うとする。
-
TuneJury: An Open Metric for Improving Music Generation Preference Alignmentテキスト→音楽生成の選好を評価する公開報酬モデルTuneJuryを発表論文は、テキストから音楽を生成するモデルの選好を評価する公開報酬モデルTuneJuryを発表。テキストと音声クリップから選好スコアを予測し、公開済みの人手選好ラベルで学習する。スコア差は較正されておりデータのフィルタリングに利用でき、学習後に登場した生成器にもanchor calibrationで効率的に対応できると報告する。
-
ActiveSAM: Image-Conditional Class Pruning for Fast and Accurate Open-Vocabulary SegmentationSAM 3を活用した訓練不要の開語彙セグメンテーションActiveSAMを提案論文は、Segment Anything Model 3(SAM 3)の凍結バックボーンを用いた訓練不要・ゼロショットの開語彙セマンティックセグメンテーション手法ActiveSAMを提案。低解像度のプレビューで画像ごとに有効なクラス集合を推定し、該当クラスのみを高解像度でデコードすることで、語彙全体を処理する従来手法より効率化すると報告する。
-
A Multi-Center Benchmark for Abdominal Disease Diagnosis and Report Generation from Non-Contrast CT非造影CTから腹部疾患診断と読影レポート生成を行うベンチマークを提案論文は、単相の非造影CT(NCCT)から造影所見を合成し、多臓器の腹部疾患診断と読影レポート自動生成を学習する多施設ベンチマークを提案。造影剤のリスクや撮影負担、読影医の負荷の軽減を狙う。2施設のNCCT–CECT対データを整備し、胸部特化・腹部特化・汎用マルチモーダルの5つの深層学習構成を統一プロトコルで評価したと述べる。
-
Analytic Torsion and Spectral Gap Capture Persistent-Laplacian Performance持続ラプラシアンを3つの不変量に圧縮する固定長表現を提案論文は、持続ラプラシアン(PL)の全固有スペクトルを利用する際の高次元性と、フィルトレーション尺度ごとに「長さが変動する」問題に対し、ベッチ数・スペクトルギャップ・解析的トーションの3つの不変量へ蒸留する固定長の表現を提案。MNISTやQM-3Dなどのベンチマークで、計算量を抑えつつ全スペクトルと同等以上の予測性能を示したと報告する。
-
Agent trajectories as programs: fingerprinting and programming coding-agent behaviorコーディングエージェントを手続き的に同定する「指紋」手法を提案論文は、ベンチマーク得点では分からない「どう解いたか」に着目し、エージェントを手続き的に比較する手法を提案。10個のエージェントが行動上の癖(指紋)で識別可能であることを示し、未知の軌跡を85.7%の精度で正しいエージェントに帰属できたと報告する。SWE-Benchを対象に軌跡を圧縮的な表現へ符号化し、構造的な差異を分析する。
-
Dynestyx: A Probabilistic Programming Library for Dynamical Systems状態空間モデルを一級扱いする確率的プログラミング基盤dynestyxを提案状態空間モデル(SSM)は動的システムのベイズ的扱いの標準的枠組みだが、現代の確率的プログラミング言語(PPL)への組み込みが難しく、最先端手法の利用に摩擦があった。本研究は、SSMを一級市民として支援するライブラリdynestyxを提案する。離散時間・連続時間の動的システムに任意の事前分布を指定でき、混合効果データに対する推論や、原理的な不確実性定量化を伴う状態・パラメータ推定を、単一の統一インターフェースで行えるとする。
-
datasette-agent 0.3a0Simon Willison、datasette-agent 0.3a0を公開——承認制のDB書込ツールを追加Simon Willison氏が、Datasette向けエージェントツール「datasette-agent」のバージョン0.3a0を公開した。新たに追加された「execute_write_sql」ツールは、ユーザーの承認を求めたうえでデータベースへ書き込みを行い、ユーザー権限も考慮する仕組み。前バージョン0.2a0で導入した承認機構を拡張し、明示的な同意のもとでエージェントによる書き込み操作を可能にする。
-
Scalable Pairwise Kernel Learning with Stochastic Vec Trick大規模ペアワイズ学習を可能にするカーネル手法SPaiKを提案ペアワイズ学習は対象のペアに対する結果を予測する教師あり学習の一種である。本研究は、ペアワイズ設定向けの新たなスケーラブルなカーネル学習手法SPaiKを提案する。カーネル法の表現力を保ちつつ計算量とメモリ消費を大幅に削減し、その鍵となるのが疎なクロネッカー積乗算を確率的に拡張した確率的一般化vecトリック(sGVT)である。これにより従来は扱えなかった規模のデータに適用でき、創薬の薬剤–標的親和性データセット7種で最先端手法と比較評価したとする。
-
Sobolev Approximation by Fixed-Size Neural Networks with Arbitrary Accuracy固定サイズのニューラルネットで任意精度のソボレフ近似を実現本研究は、固定サイズのニューラルネットワークによる任意精度のソボレフ近似を可能にする新たな活性化関数を検討する。まずElementary Universal Activation Function(EUAF)を用い、W^{2,∞}空間の関数をW^{1,∞}ノルムで任意精度近似できることを示す。さらに微分可能なDUAF_∞を導入し、より高次のソボレフ空間W^{s,∞}の関数をW^{s-1,∞}ノルムで任意精度近似できることを証明し、シグモイド型の変種も構築したとする。
-
The embrace of open science: An analysis of a decade of AI research and 56 800 conference papersAI主要会議10年分の論文を分析、コード・データ公開が大幅増と報告5つの主要AI会議で過去10年に発表された56,800本の論文を対象に、再現性に関わる7変数を分析した研究。コードとデータの両方を公開する論文は2014年の11%から2024年に64%へと約6倍に増えたと報告。文書化慣行に基づく推定として、再現性も同期間に向上したとする。
-
How Much Do Reviews Really Contribute? A Study on Text-Enriched Matrix Factorization for Recommendationsレビュー文が推薦に本当に寄与するかを行列分解で体系的に検証テキストレビューを推薦システムに取り込み協調シグナルを意味情報で補強する手法が広まっているが、強い協調ベースライン下でのレビュー由来表現の実際の寄与は未解明である。本研究は共通の協調バックボーン上で 3 つの補強戦略を導入・比較し、行列分解へのテキスト情報の影響を体系的に調べる。まず訓練中に協調とテキストのシグナルを適応的に均衡させる学習可能なゲート機構を提案し、複数の異なるレビュー表現に適用すると述べる。
-
Phantoms and Disclosures: a Causal Framework for Auditing Synthetic Data合成データの情報漏洩を監査する因果フレームワークを提案生成AI・LLMの普及で、機微な実データの代替として合成データが注目される一方、訓練データの私的情報を記憶・再生するリスクが伴う。本研究は、システムが利用者情報を直接再生する「真の漏洩」と偶発的に生成する「幻影漏洩」を区別する、カスタマイズ可能な実証監査フレームワークを提案する。入力を訓練用とホールドアウトに分割し統計的仮説検定を適用することで、観測された漏洩がゼロ学習などの厳格なプライバシー基準と整合するかを判定するという。
-
A nonparametric two-sample test using a parametric integral probability metric単一ノード判別器のIPMに基づく新たなノンパラメトリック二標本検定を提案二つの独立標本の分布差検出は統計学と機械学習の基礎課題で、ノンパラメトリック二標本検定は分布形を仮定せず両標本が同一分布由来かを判定する原理的枠組みを与える。本研究は、ニューラルネットの単一ノードからなる特別設計のパラメトリック判別器クラスを用いた、新たな積分確率測度(IPM)に基づく検定統計量を提案し、得られる検定の性質を理論的に示すとする。
-
Functional Gradient Descent with Adaptive Representations関数空間で勾配降下するFGDを適応的表現で実用化する手法を提案関数最適化は通常、神経網など固定表現のパラメータを最適化するため非凸な損失となり、学習と理論解析を難しくする。代替として関数空間で直接勾配降下する関数勾配降下(FGD)は強い収束結果と明快な理論を持つが、関数勾配が無限次元のため完全な計算も保存もできず実装が困難だった。本研究は適応的表現を用いてFGDを実用的に実装する手法を提案するとする。
-
Binary Tracking for Spatial QA and Navigation with Open Vision-Language Modelsオープン VLM で動く空間質問応答・ナビ手法 Binary Tracking を提案サービスロボットが長い一人称視点の経路を移動する際の空間質問応答を扱う。「帰り道でクリーニング店はどこか」といった問いに対し、後段のナビが利用できる距離座標を返す。従来は GPT-4o 等のクローズドモデルに依存する検索拡張エージェントが主流だが、ネットワーク不安定・遅延・コストの面で実環境では信頼しにくい。本研究はロボット搭載で動作するオープンソースベースの空間質問応答を目指し、Binary Tracking を提案すると述べる。
-
Factorized Neural Operators Decompose Dynamic and Persistent Responses多スケール物理を捉える神経作用素FaNO、動的応答と持続応答を分解して提案物理系は急速に変化する動態と持続的な構造が共存する不均質な機構を示すことが多く、単一の支配的な帰納バイアスに依存する既存の神経作用素では異なる物理応答を共有表現に結合してしまう。本研究はドメイン横断の統一グリーン関数枠組みを導入し、スペクトル表現を同変な動的応答と不変な持続応答に分解する因子化神経作用素FaNOを提案。多スケールの物理挙動の表現性能向上を狙うとする。
-
Semantic Flip: Synthetic OOD Generation for Robust Refusal in Embodied Question Answering and Spatial Localization身体化エージェントの拒否応答を強化する合成 OOD 生成手法 Semantic Flip を提案実世界の身体化エージェントでは応答不能な質問の検出が信頼性確保に不可欠だが、現代の視覚言語モデル(VLM)は視覚記憶が裏付けない場合でも過信した回答を返しがちで、誤情報提供や誤った地点への物理的誘導などのリスクを生む。本研究は VLM が適切に「分からない」と答えるべき場面に着目し、合成的な分布外(OOD)サンプルを生成する簡便な手法 Semantic Flip を提案、頑健な拒否を実現すると述べる。
-
Beyond Weights and Gradients: A Taxonomy of Federated Learning Messages連合学習で交換される「メッセージ」を形式定義し3分類する体系を提案連合学習が従来の重み・勾配交換を超え合成データや連合分析へ広がる中、効用とプライバシーを捉える連合メッセージの形式的定義を提案。モデル構造・統計要約・データ条件付き表現の3カテゴリに整理し、計算量・通信コスト・プライバシーリスクで評価。202本のレビューから多様化の潮流を示す。
-
Compositional Reasoning Depth Predicts Clinical AI Failure: Empirical Evidence Consistent with Transformer Compositionality Limits in Electronic Health Record Question Answering推論ホップ数が臨床 AI の誤りを予測、Transformer の合成性限界を示唆電子カルテ(EHR)質問応答で、必要な推論ステップ(ホップ)が多い質問ほど LLM の誤りが不釣り合いに増える構造を、事前定義したホップ数分類で示す arxiv 論文。集約精度では隠れる失敗構造を、Transformer の合成性(compositionality)限界に関する理論と整合的に論じる(abstract ベースの中立要約)。
-
Stack Overflow、AIエージェント同士が掲示板で技術情報を共有する「Stack Overflow for Agents」ベータ公開Stack Overflow、AIエージェント向け情報共有サービスをベータ公開Stack Overflow が、AI エージェント同士がオープンな掲示板上で技術的な解決策などの情報を共有する新サービス「Stack Overflow for Agents」をベータ版として提供開始したと明らかにした。人間向け Q&A で蓄積した知見を、エージェント間の情報流通へ広げる狙いとみられる。
-
Federated Medical Image Segmentation under Real-World Label Noise: A Benchmark Suite for Noisy Label Learning Method Selection実環境ラベルノイズ下の連合医療画像セグメンテーション用ベンチマークを提案連合学習は機密データを集約せず医療画像のセグメンテーションを可能にするが、実運用ではサイト間の輪郭不一致や欠損・過剰な構造、ラベル混同といった不完全さが課題となる。既存の連合ノイズラベル学習(FNLL)研究は人工ノイズや簡略設定に偏ると指摘し、本研究は多様な実世界ノイズデータセット、配備想定のクライアントノイズ条件、ノイズ標的型の評価を組み合わせたベンチマーク群を導入し、手法選択を支援すると述べる。
-
HawkesNest: A Multi-Axis Synthetic Benchmark for Spatiotemporal Pattern ComplexityHawkesNest: 時空間点過程モデル評価の合成ベンチマークを提案時空間点過程(STPP)モデルの評価が不透明な実データに依存し失敗の原因特定が難しい問題に対し、多変量Hawkes基盤で複雑性を制御する合成ベンチマークHawkesNestを提案。時空間の絡みや背景の不均一性など4軸を潜在機構から決定論的に指標化し、診断的なストレステストを可能にすると報告する。
-
Follow the Latent Roadmap: Navigating Revocable Decoding for Diffusion LLMs with Anchor Tokens拡散 LLM のリボーカブル復号をアンカートークンで誘導し誤り伝播を抑制並列生成が可能な拡散大規模言語モデル(dLLM)で、復号速度と品質のトレードオフや誤り伝播・remask の課題に対し、アンカートークンで潜在的な「ロードマップ」をたどるリボーカブル復号手法を提案する arxiv 論文。混在品質コンテキストでの 2 つの失敗様式を緩和すると論じる(abstract ベースの中立要約)。
-
Robust Dual-Signal Fusion: Hybrid Neuro-Symbolic Gating with Compressed Chain-of-Thought Refinement for Irony Detection in Social Media Texts圧縮 CoT の神経記号ハイブリッドでゼロショット皮肉検出を強化LLM が字義通りの意味解釈に偏りゼロショットの皮肉検出が難しい課題に対し、教師ありファインチューニング(SFT)なしで Chain-of-Thought 推論を圧縮する神経記号ハイブリッド枠組み「RDS Fusion」を提案する arxiv 論文。TweetEval の held-out テスト集合(N=734)で評価したと報告(abstract ベースの中立要約、数値は論文側の主張)。
-
ATOM-Bench: A Real-World Benchmark for Atomic Skills and Compositional Generalization in Manipulation Policiesロボット操作方策の原子的技能と合成的汎化を測るATOM-Benchを提案汎用的な操作方策がロボット制御の基盤モデルとして注目される一方、実世界での汎化の診断が難しい課題に着目する論文。提示済みタスクで成功しても細かな原子的技能の実行や新たな構成での再結合に失敗しうる点を踏まえ、原子的技能と合成的汎化の双方を評価する実世界ベンチATOM-Benchを提案するとしている。
-
Tying the Loop -- Tied Expert Layers in Mixture-of-Experts Language ModelsMoE で専門家パラメータを層間共有する手法を提案する論文Mixture-of-Experts のメモリ負荷を抑えるため、連続する transformer 層で専門家パラメータを共有しつつ層ごとのルーティングと注意を保つ Expert Tying を提案する arxiv 論文。abstract ベースの中立要約。
-
How Much Can We Trust LLM Search Agents? Measuring Endorsement Vulnerability to Web Content ManipulationLLM 検索エージェントの推薦汚染耐性を測る枠組みを提案攻撃者が公開したページが LLM 検索エージェントによって推薦として承認されるリスクを測る評価枠組み SearchGEO を提案する arxiv 論文。複数の LLM バックエンドを攻撃類型で評価する。abstract ベースの中立要約で、固有名・数値の断定は回避。