推論・効率化 A
121 件中 61〜90 件目を表示
-
Trust the Right Teacher: Quality-Aware Self-Distillation for GUI GroundingGUI接地向けの品質考慮型自己蒸留手法を提案高解像度画面で小さな対象要素の座標を予測するGUI接地で、密な教師信号を与えるオンポリシー自己蒸留(OPSD)に着目する論文。素朴なOPSDが座標トークンの教師信号劣化を招く課題に対し、品質を考慮した自己蒸留を提案すると述べる。
-
S4oP: Operator-level Pruning of Structured State Space Models for Resource-Constrained DevicesS4oP、状態空間モデルを演算子単位で枝刈り軽量化S4などの構造化状態空間モデル(SSM)は長距離依存に強いが資源制約環境への展開は難しい。S4oPは演算子レベルの枝刈りにより、時間・資源が限られたデバイスでの効率的な展開を狙う。
-
NoiseTilt: Noise-Tilted Reverse Kernels for Diffusion Reward AlignmentNoiseTilt、雑音項に報酬勾配を注入する拡散整合NoiseTilt(NTRK)は報酬誘導の拡散サンプラーで、逆カーネルの雑音項を通じて報酬勾配を注入し、スコアカーネルを変えず1ステップ1サンプルで済む。事前学習済み拡散モデルの報酬整合を効率化する。
-
ConSA: Controllable Sparsity in Hybrid Attention via Learnable AllocationConSA、学習的配分でハイブリッド注意の疎性を制御全注意と滑動窓注意を組み合わせるハイブリッド構成は効率的LLM推論の有望策だが、既存手法は手作りの規則に依存しがち。ConSAは学習可能な配分により制御可能な疎性を実現する手法を提案する。
-
Catastrophic Forgetting is Low-Rank: A Function-Space Theory for Continual Adaptation破滅的忘却は低ランク、継続適応の関数空間理論継続適応における破滅的忘却は通常パラメータのドリフトや再生で論じられるが、どの出力方向が脆弱かは分からない。本研究はNTK領域で関数空間の説明を与え、新課題訓練が交差課題カーネルを介し旧課題予測を低ランクにずらすことを示す。
-
LoopCoder-v2: Only Loop Once for Efficient Test-Time Computation ScalingLoopCoder-v2、一度のループで効率的テスト時計算スケールループ型Transformerは共有ブロック反復で潜在計算を拡張するが、逐次ループは遅延とKVキャッシュを増やす。並列ループ手法を踏まえ、LoopCoder-v2はループ回数を実用的設計変数として効率的なテスト時計算スケーリングを狙う。
-
Recursive Scaling in Masked Diffusion Modelsマスク拡散モデルにおける再帰的スケーリングを検討マスク拡散モデル(MDM)は近年注目される生成手法である。本研究はMDMにおける再帰的スケーリングを検討し、その挙動や効率に関する知見を示す。
-
Half a Link can Be Enough to Predict a Whole Link: Understanding Generalization in Knowledge Graph Foundation Models半分のリンクで全リンク予測、KG基盤モデルの汎化を解明知識グラフ基盤モデル(KGFM)はゼロショット汎化器で、一度訓練すれば未見グラフのリンクを再訓練なく予測する。本研究はそれらが頑健に汎化する条件と仕組みに光を当てる。
-
VoidPadding: Let [VOID] Handle Padding in Masked Diffusion Language Models so that [EOS] Can Focus on Semantic TerminationVoidPadding、マスク拡散LMで[VOID]がパディングを担当マスク拡散言語モデルでパディングと意味的終端の役割が混ざる問題に対し、[VOID]トークンにパディングを担わせ[EOS]が意味的終端に集中できるようにする手法VoidPaddingを提案する。
-
Differential Privacy of Gaussian Process Posterior Samplingガウス過程の事後サンプリングの差分プライバシーを解析訓練集合全体が秘匿される設定でガウス過程の事後サンプル経路を公開する際のプライバシーを研究。外部ノイズを加える通常のDP機構と異なり、事後サンプリングが本来持つ確率性が差分プライバシー保証を生むことを示す。
-
SoftMoE: Soft Differentiable Routing for Mixture-of-Experts in LLMsSoftMoE、LLMの専門家混合に微分可能なソフトルーティング疎な専門家混合(MoE)はLLMのパラメータ拡張を可能にするが離散的ルーティングが学習を難しくする。SoftMoEは微分可能なソフトルーティングを導入し、MoEの安定した学習と効率を狙う。
-
Revisiting Structural Dependency in Autoregressive Multi-Task Table Recognition via Order-Independent Cell-Level Representations順序非依存のセル表現で自己回帰的表認識を再考多タスク表認識は表構造予測・セル位置特定・内容認識を統一枠で扱う。既存は自己回帰デコーダに依存し隠れ状態を再利用する。本研究は順序非依存のセルレベル表現により構造依存を見直す。
-
AnchorKV: Safety-Aware KV Cache Compression via Soft Penalty with a Refusal AnchorAnchorKV、安全性を考慮したソフト罰則でKVキャッシュ圧縮AnchorKVは安全性を考慮したKVキャッシュ圧縮手法で、ソフトな罰則(アンカー)を用いて重要なキー・バリューを保ちつつメモリを削減することを狙う。タイトルベースの中立要約で詳細は原論文ベース。
-
From Drift to Coherence: Stabilizing Beliefs in LLMsドリフトから整合へ、LLMの信念を安定化LLMは暗黙のベイズ推論を行うと仮定されるが、予測的信念のマルチンゲール性という整合条件が合成的な文脈内学習で破れることが示されてきた。本研究は多肢選択QAなど一般的な利用域で再検証し、信念を安定化する手法を論じる。
-
Improving low-resource ASR using bilingual fine-tuning with language identification: a cross-linguistic evaluation言語識別付き二言語微調整で低資源ASRを改善本研究は言語識別を併用した二言語ファインチューニングにより低資源言語の自動音声認識を改善する手法を、複数言語にまたがる横断的評価で検討する。
-
LLMs Infer Cultural Context but Fail to Apply It When RespondingLLMは文化的文脈を推測できても応答で適用できないLLMは支配的(特に西洋)文化を過剰表現し他を周縁化することが知られる。本研究はこれが文化適応応答の生成能力に及ぼす影響を評価し、モデルが文化的文脈を推測できても応答時に適用できないことを示す。
-
Beyond Domains: Reusing Web Skills via Transferable Interaction Patterns領域を超えて転移可能な相互作用パターンでWebスキルを再利用LLMのWebエージェントは多くツール呼び出し器として展開され、毎手で新たなページ観測を読み構造化行動を出す。本研究は領域を超えて転移可能な相互作用パターンによりWebスキルを再利用する手法を提案する。
-
OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy DistillationOPD-Evolver、オンポリシー蒸留で自己進化エージェントを育成記憶は自己進化エージェントの標準基盤だが、経験の保持と進化の仕方の学習は別物である。OPD-Evolverはオンポリシー蒸留により、有用な経験を選び行動し再利用可能な知識を書く全体的能力を備えたエージェント進化器を育成する。
-
Exact Posterior Score Estimation for Solving Linear Inverse Problems線形逆問題の厳密な事後スコアを閉形式で導出拡散・フローモデルを線形逆問題に用いる際の事後スコアを、一般的なガウス補間の下で閉形式により厳密に導出した研究。事後サンプリングが、異方性ノイズ下での演算子依存のシフト点におけるデノイジング問題に帰着することを示す。これを学習目的EPSとして定式化し、既存の事前学習構造を保ったままゼロからの学習や微調整が可能だとする。
-
KVEraser: Learning to Steer KV Cache for Efficient Localized Context ErasingKVキャッシュの局所消去を学習で効率化するKVEraserを提案長文脈LLMで、古い情報や誤ったツール出力、プロンプトインジェクションなどを事後的に消す際、KVキャッシュの局所編集が後続トークン全体へ波及するため厳密な消去は再計算コストが高い課題に対応。消去区間のKV状態だけを学習済みのステアリング状態に置き換え、残りのキャッシュを再利用する手法KVEraserを提案し、二段階の学習パイプラインで転用可能な消去機構を学ぶとする。
-
HAMON: Passive Optical Sequence Mixing for Long-Horizon ForecastingHAMON、受動的な光学回路で長期時系列予測 ─ デジタル混合層が不要長期時系列予測では単純な線形・周波数モデルが依然強い点に着目し、予測演算を光学で実装するHAMONを提案。履歴値を光学開口に符号化し、学習可能な位相マスクと自由空間回折で出力場に予測を直接形成する。推論は単一の受動的な光伝播のみで、デジタル系列混合層なしにETTm2などで強力なベースラインを上回ると報告する。
-
ExpRL: Exploratory RL for LLM Mid-TrainingExpRL、人手QAデータを「報酬足場」に使うLLM中間学習向けRLを提案疎報酬RLによるLLM推論強化はベースモデルの被覆に依存し、従来は中間学習で習得すべきスキルを人手で指定する必要があった。ExpRLは人間が書いたQAデータを模倣対象ではなく「報酬足場」として用い、参照解をポリシーから隠して問題ごとの採点ルーブリックを構成、オンポリシー推論を評価することでより自動化されたRLベース中間学習を実現する。
-
TokenPilot: Cache-Efficient Context Management for LLM AgentsTokenPilot、キャッシュを保つ文脈管理でLLMエージェントの推論コスト6割減長期セッションのLLMエージェントは文脈蓄積で推論コストが増すが、既存のテキスト剪定や記憶削除はレイアウトを変えキャッシュ無効化を招く。TokenPilotは二粒度の文脈管理で、取り込み時にプレフィックスを安定化する圧縮と、文脈断片の残存有用性を監視する退避を組み合わせ、PinchBench等で推論コストを最大61%削減すると報告する。
-
TuneJury: An Open Metric for Improving Music Generation Preference Alignmentテキスト→音楽生成の選好を評価する公開報酬モデルTuneJuryを発表論文は、テキストから音楽を生成するモデルの選好を評価する公開報酬モデルTuneJuryを発表。テキストと音声クリップから選好スコアを予測し、公開済みの人手選好ラベルで学習する。スコア差は較正されておりデータのフィルタリングに利用でき、学習後に登場した生成器にもanchor calibrationで効率的に対応できると報告する。
-
Bayesian Inference and Decision Audits for Public Archives of Frontier AI EvaluationsフロンティアAI評価の公開記録をベイズ推論と監査で分析LiveBenchやOpen LLM Leaderboard v2などの公開評価アーカイブを、確定的な順位表ではなく報告規則や欠測に左右される時系列とみなし、ベイズ推論問題として扱う論文。観測条件により行動指向の診断が異なり、選択バイアスを考慮しないフロンティアモデルが各種の検証に失敗する一方、固定的な監査ゲートが有効と論じる。
-
ActiveSAM: Image-Conditional Class Pruning for Fast and Accurate Open-Vocabulary SegmentationSAM 3を活用した訓練不要の開語彙セグメンテーションActiveSAMを提案論文は、Segment Anything Model 3(SAM 3)の凍結バックボーンを用いた訓練不要・ゼロショットの開語彙セマンティックセグメンテーション手法ActiveSAMを提案。低解像度のプレビューで画像ごとに有効なクラス集合を推定し、該当クラスのみを高解像度でデコードすることで、語彙全体を処理する従来手法より効率化すると報告する。
-
Agent trajectories as programs: fingerprinting and programming coding-agent behaviorコーディングエージェントを手続き的に同定する「指紋」手法を提案論文は、ベンチマーク得点では分からない「どう解いたか」に着目し、エージェントを手続き的に比較する手法を提案。10個のエージェントが行動上の癖(指紋)で識別可能であることを示し、未知の軌跡を85.7%の精度で正しいエージェントに帰属できたと報告する。SWE-Benchを対象に軌跡を圧縮的な表現へ符号化し、構造的な差異を分析する。
-
Dynestyx: A Probabilistic Programming Library for Dynamical Systems状態空間モデルを一級扱いする確率的プログラミング基盤dynestyxを提案状態空間モデル(SSM)は動的システムのベイズ的扱いの標準的枠組みだが、現代の確率的プログラミング言語(PPL)への組み込みが難しく、最先端手法の利用に摩擦があった。本研究は、SSMを一級市民として支援するライブラリdynestyxを提案する。離散時間・連続時間の動的システムに任意の事前分布を指定でき、混合効果データに対する推論や、原理的な不確実性定量化を伴う状態・パラメータ推定を、単一の統一インターフェースで行えるとする。
-
Decoupling Inference from State Updates in Low-Latency Feature Engines via Probabilistic ThinningストリーミングML向けに推論と状態更新を分離する確率的間引きを提案ストリーミングデータ系は、継続的に更新される多数の集約を保持する機械学習ワークフローを支える。本番環境では各イベントが永続ストレージへの読み書きを誘発し、高頻度の状態更新がレイテンシ・競合・運用コストの主因となる。本研究は確率的間引きにより推論と状態の永続化を分離し、全イベントをスコアリングしつつ情報量の多いイベントだけが永続更新を起こす設計を提案する。ディスク上の近似統計のみに依拠し、高頻度の制御面やワーカー間協調を不要とするという。
-
Probing Low Frame Rate Degradation in Neural Audio Codecsニューラル音声コーデックの低フレームレート劣化の原因を実験的に解明低フレームレートのニューラル音声コーデックは、生成コストが系列長に比例する自己回帰音声合成で魅力的である。先行研究は 12.5 Hz 以下での動作を示したが、低フレームレート劣化の機序は十分理解されていない。本研究は制御されたフレームレート除去実験でこれを調べ、6.25 Hz での品質崖を再現。音素衝突やコードブック飽和という候補説明には根本的障壁の証拠が無く、崖はむしろ訓練時の固定クリップ長など準最適な訓練設定に起因すると述べる。