学習・ファインチューニング A
99 件中 61〜90 件目を表示
-
From Drift to Coherence: Stabilizing Beliefs in LLMsドリフトから整合へ、LLMの信念を安定化LLMは暗黙のベイズ推論を行うと仮定されるが、予測的信念のマルチンゲール性という整合条件が合成的な文脈内学習で破れることが示されてきた。本研究は多肢選択QAなど一般的な利用域で再検証し、信念を安定化する手法を論じる。
-
Improving low-resource ASR using bilingual fine-tuning with language identification: a cross-linguistic evaluation言語識別付き二言語微調整で低資源ASRを改善本研究は言語識別を併用した二言語ファインチューニングにより低資源言語の自動音声認識を改善する手法を、複数言語にまたがる横断的評価で検討する。
-
Beyond Native Success: Auditing Deployment-Interface Exposure of CLIP BackdoorsCLIPバックドアの展開インターフェース露出を監査CLIPは特徴抽出・検索・再順位付け・選択など多様な下流インターフェースで再利用される。既存のCLIPバックドアは小さな攻撃固有課題で検証されがちで、本研究は本来の成功を超えた展開インターフェース露出を監査する。
-
SuCo: Sufficiency-guided Continuous Adaptive ReasoningSuCo、十分性に導かれた連続適応的推論SuCoは十分性に導かれた連続適応的推論の手法で、推論過程を必要十分な範囲に適応的に調整することで効率と精度の両立を狙う。タイトルベースの中立要約で詳細は原論文ベース。
-
Bridging Functional Correctness and Runtime Efficiency Gaps in LLM-Based Code TranslationLLMコード翻訳の機能正しさと実行効率の差を橋渡しLLMは自動コード翻訳の機能的正しさを大きく前進させたが、翻訳されたプログラムの実行効率は注目が薄かった。ムーアの法則の鈍化で効率が重要になる中、本研究は機能正しさと実行効率の差を橋渡しする手法を検討する。
-
Fine-Tuning Biological Foundation Models with LoRA Using NVIDIA BioNeMo RecipesNVIDIA、BioNeMo Recipes で生物基盤モデルの LoRA fine-tuning 手法を解説NVIDIA の開発者ブログが、タンパク質やゲノム配列の大規模コーパスで事前学習された生物基盤モデル(ESM2 等のタンパク質言語モデルを含む)を、LoRA を用いて効率的に fine-tuning する手法を、同社の BioNeMo Recipes を例に解説する。計算生物学における基盤モデル活用を扱った技術記事。
-
The Value Axis: Language Models Encode Whether They're on the Right TrackLLM内部に戦略の成否を符号化する「価値軸」を発見Qwen3-8Bの内部活性を分析し、現在の戦略が目標を達成できる見込みを表す「価値軸」が存在することを示した研究。この軸は確信度の高低、バックトラッキングの有無、正誤コードを区別する。価値を高める方向に操作すると自己修正が抑制され、低める方向では探索的な挙動が誘発される。DPOが報酬対象の行動の内部価値を高めることも確認した。
-
Exact Posterior Score Estimation for Solving Linear Inverse Problems線形逆問題の厳密な事後スコアを閉形式で導出拡散・フローモデルを線形逆問題に用いる際の事後スコアを、一般的なガウス補間の下で閉形式により厳密に導出した研究。事後サンプリングが、異方性ノイズ下での演算子依存のシフト点におけるデノイジング問題に帰着することを示す。これを学習目的EPSとして定式化し、既存の事前学習構造を保ったままゼロからの学習や微調整が可能だとする。
-
Hierarchical Advantage Weighting for Online RL Fine-Tuning of VLAs from Sparse Episode OutcomesVLAのオンラインRL微調整に階層的優位重み付けHABCを提案事前学習済みVLA方策をオンライン強化学習で微調整する際、各エピソードの二値結果だけでは到達可能性と効率を区別できず、自律区間と介入区間の混在が誤った信用割当を招く課題を指摘。これに対し、二つの目的それぞれに別個のクリティックヘッドを異なるデータ部分集合で学習する階層的優位重み付け行動クローニング(HABC)を提案する。
-
KVEraser: Learning to Steer KV Cache for Efficient Localized Context ErasingKVキャッシュの局所消去を学習で効率化するKVEraserを提案長文脈LLMで、古い情報や誤ったツール出力、プロンプトインジェクションなどを事後的に消す際、KVキャッシュの局所編集が後続トークン全体へ波及するため厳密な消去は再計算コストが高い課題に対応。消去区間のKV状態だけを学習済みのステアリング状態に置き換え、残りのキャッシュを再利用する手法KVEraserを提案し、二段階の学習パイプラインで転用可能な消去機構を学ぶとする。
-
ExpRL: Exploratory RL for LLM Mid-TrainingExpRL、人手QAデータを「報酬足場」に使うLLM中間学習向けRLを提案疎報酬RLによるLLM推論強化はベースモデルの被覆に依存し、従来は中間学習で習得すべきスキルを人手で指定する必要があった。ExpRLは人間が書いたQAデータを模倣対象ではなく「報酬足場」として用い、参照解をポリシーから隠して問題ごとの採点ルーブリックを構成、オンポリシー推論を評価することでより自動化されたRLベース中間学習を実現する。
-
Selection Without Signal, Recovery Through Expression: A Measurement Study of Post-Hoc Falsification Operators for Frozen Small Code Models凍結された小型コードモデル向け事後反証演算子の測定的研究論文タイトルによれば、追加学習を行わない凍結された小型コードモデルに対する「事後反証演算子(post-hoc falsification operators)」の測定的研究で、信号なしでの選択と表現を通じた回復という観点を扱うとされる。なおexportの本文抜粋はcontent filterによりブロックされたため、タイトルに基づく中立的な要約にとどめる。
-
Task-Error Residual Learning for Real-Robot Five-Ball Juggling残差学習でロボットの5球ジャグリングを少数試行で安定実現既存の挙動を洗練する残差学習では、各ロールアウトが返す情報量とその利用効率がサンプル効率を左右する。標準的な強化学習のスカラー報酬は、タスクを定義する方向性のあるタスク誤差より情報が乏しい。本研究は方向性タスク誤差を教師信号とする残差学習と、サンプル選択を導くタスク誤差モデルにより、人型のBarrett WAMアームで3・4・5球の安定したジャグリングを達成。2回目の試行から収束し、初回以降はタスク誤差が単調に減少したとする。
-
Exploring Extrinsic and Intrinsic Properties for Effective Reasoning with Code Interpreterコードインタープリタ推論を支える内在・外在特性を分析した論文コードインタープリタ(CI)を用いた LLM 推論について、外在特性(重要トークン)と内在特性(コード固有の認知的振る舞い)の二つの観点から分析した論文。著者らは、より強い CI 推論モデルほど重要トークンや、検証・バックトラッキング・後ろ向き連鎖といった認知的振る舞いが多く現れると報告し、これらを推論時・学習時に活用する方法を検討したと論じる。abstract ベースの中立要約。
-
Speaking the Language of Science: Toward a General-Purpose Generative Foundation Model for the Natural Sciences自然科学を統一する生成基盤モデル『LOGOS』を提案した報告自然科学の多様なタスクを単一の自己回帰フレームワークで統一する生成言語モデル『LOGOS』を提案した報告。共通の『科学の文法』に基づき、多様な科学的対象とその空間的相互作用をトークン列として表現し、座標や幾何ニューラルネットに依存せず構造的相互作用を逐次的に捉えるとする。多領域の継続事前学習と下流タスクを次トークン予測として整合させ、領域特化ベースラインに匹敵または上回ったと述べる。abstract ベースの中立要約。
-
Fantastic Pretraining Optimizers and Where to Find Them II: Hyperball Optimization行列ベース最適化器Muonの大規模時の効果減衰を補うラッパー手法Hyperballを提案Muon等の行列ベース最適化器は言語モデルの事前学習を高速化するが、標準的な定数分離型重み減衰ではモデルとデータの規模拡大に伴いAdamWに対する優位が縮小する。本研究は重み行列とその最適化更新のフロベニウスノルムを固定値に保つ簡素なラッパーHyperballを提案。Qwen3系の最大1.2BパラメータでMuon+Hyperballが重み減衰ベースラインに対しトークン換算20〜30%の高速化を達成したと報告する。
-
Stack Overflow、AIエージェント同士が掲示板で技術情報を共有する「Stack Overflow for Agents」ベータ公開Stack Overflow、AIエージェント向け情報共有サービスをベータ公開Stack Overflow が、AI エージェント同士がオープンな掲示板上で技術的な解決策などの情報を共有する新サービス「Stack Overflow for Agents」をベータ版として提供開始したと明らかにした。人間向け Q&A で蓄積した知見を、エージェント間の情報流通へ広げる狙いとみられる。
-
Deep Q-Learning on Hölder Spaces連続時間制御のBellman更新の正則性を解析しDeepONet構成を導出連続状態・行動の連続時間確率制御におけるQ学習の作用素論的な核を解析。一様楕円性とHölder正則性の下でBellman更新が状態を平滑化し行動にはLipschitz依存を残す異方的な正則性を持つことを示し、テンソル積DeepONet構成と近似・資源限界、剛性-複雑性のトレードオフを導く。
-
Robust Dual-Signal Fusion: Hybrid Neuro-Symbolic Gating with Compressed Chain-of-Thought Refinement for Irony Detection in Social Media Texts圧縮 CoT の神経記号ハイブリッドでゼロショット皮肉検出を強化LLM が字義通りの意味解釈に偏りゼロショットの皮肉検出が難しい課題に対し、教師ありファインチューニング(SFT)なしで Chain-of-Thought 推論を圧縮する神経記号ハイブリッド枠組み「RDS Fusion」を提案する arxiv 論文。TweetEval の held-out テスト集合(N=734)で評価したと報告(abstract ベースの中立要約、数値は論文側の主張)。
-
Tying the Loop -- Tied Expert Layers in Mixture-of-Experts Language ModelsMoE で専門家パラメータを層間共有する手法を提案する論文Mixture-of-Experts のメモリ負荷を抑えるため、連続する transformer 層で専門家パラメータを共有しつつ層ごとのルーティングと注意を保つ Expert Tying を提案する arxiv 論文。abstract ベースの中立要約。
-
Adaptive and Explicit safe: Triggering Latent Safety Awareness in Large Reasoning Models推論モデルの潜在的な安全認識を引き出し脱獄耐性を高める手法を提案大規模推論モデルが高度な脱獄や有害クエリに脆弱な課題に対し、外部の手動アノテーションへの依存を避け、モデル自身が元のクエリと自らの推論過程を再提示されると安全リスクを認識できる「潜在的安全認識」を活用する論文。教師ありファインチューニングで安全タグを誘発し安全分析を起動するとしている。
-
The Art of Mixology: Mixup-based Obfuscation for Privacy-Preserving Split Learning in Large Language ModelsLLMのスプリット学習向けプライバシー保護手法MIXGUARDを提案計算負荷の高い層をサーバへ委譲しつつ生データを手元に保つスプリット学習で、有用性・プライバシー・効率の両立を狙う mixup ベースの枠組み MIXGUARD を提案する論文とされる。トークン/表現レベルの難読化と適応的勾配摂動を併用すると報告。中立要約。
-
Decision-Weighted Flow Matching for Contextual Stochastic OptimizationDW-FM: 下流の意思決定の後悔に整合する重み付きフローマッチングを提案生成モデルをシナリオ生成器に使う確率的最適化で、一様な分布適合より下流の意思決定が重要との観点から、決定に敏感な終点情報で速度回帰目的を再重み付けするDecision-Weighted Flow Matching(DW-FM)を提案。後悔との理論的接続と保証を示すと報告する。
-
OpenClaw-Skill: Collective Skill Tree Search for Agentic Large Language Modelsエージェント向けに再利用可能スキルを木探索で構築するCSTSを提案LLMエージェントのツール利用や多段推論を強化するため、再利用可能なスキルを自動構築する木探索枠組み Collective Skill Tree Search(CSTS)を提案する論文とされる。複数モデルの集合知で候補スキルの生成と評価を反復すると報告。中立要約。
-
GD$^2$PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy OptimizationGD²PO: 多目的RLの報酬衝突を動的サンプリングで緩和する手法を提案LLMのRL後訓練で複数報酬が競合し正負のシグナルが相殺する問題に対し、報酬をグループに分割しつつDAPOに倣って効果の薄いロールアウトを動的に除外するGD²POを提案。報酬衝突を抑え学習効率を高めると報告する。
-
Skill-to-LoRA: From Using Skills to Learning Behaviors for Token-Efficient LLM AgentsSKILL.md文書をLoRAに置換しトークン効率を高める手法S2Lを提案エージェントのスキルがSKILL.md形式で配布され実行時に繰り返し文脈へ注入される非効率を踏まえ、実行時のスキル文書をスキル固有のLoRAアダプタへ置き換える行動中心の表現S2L(Skill-to-LoRA)を提案する論文。文書自体を圧縮するのではなく、スキル文が誘発する振る舞いの変化をモデル化するとしている。
-
SkillWiki: A Living Knowledge Infrastructure for Agent Skillsエージェントスキルの生きた知識基盤「SkillWiki」を提案知識はWikipedia、ソフトウェアはGitHubで管理される一方、エージェントのスキルには大規模な生産・統治・進化のための基盤が欠けていた。本研究のSkillWikiは、多様な知識を出所の証跡に紐づく再利用可能なスキル資産へ変換し、スキルの整理・接地・継続的進化を支える「生きた知識基盤」である。知識の取り込みからスキル生産、来歴を意識した探索、統治、実行駆動の進化まで、スキルのライフサイクル全体を提示する。デモとソースコードは公開されているとする。
-
daVinci-kernel: Co-Evolving Skill Selection, Summarization, and Utilization via RL for GPU Kernel OptimizationGPUカーネル最適化向けスキル共進化RL「daVinci-kernel」を提案GPUカーネル最適化は、機能的正しさを前提に実行効率を目的とする領域である。本研究は、スキルの発見と活用を動的に進化するスキルライブラリで結びつける強化学習フレームワークdaVinci-kernelを提案する。単一のLLMバックボーンを共有する3エージェント(BM25とLLM再ランクで技術を検索するスキル選択、CUDA/Tritonカーネルを生成するポリシー、成功例を再利用可能なスキルへ蒸留するスキル要約)を共同訓練し、実行検証で再現可能な高速化が確認されたスキルのみを追加するとする。
-
ChatGPT vs. Google検索──どっちで調べるのが学習効果が高い? 8日間の実験で検証した研究ChatGPTとGoogle検索、学習効果が高いのは?8日間の実験で検証米ジョージア工科大学やミシガン大学などの研究者が、生成AIのチャットボットと検索エンジンのどちらが学習効果が高いかを8日間の実験で検証した論文を発表した。情報探索と学習に生成AIが与える影響を調べ、調べ方の違いが理解や定着にどう作用するかを論じている。
-
2027年までにAIエージェントでコーディングを行うチームの65%が、IDEが必要不可欠だとは考えなくなる。ガートナーの予想ガートナー、2027年までにAIエージェント開発チームの65%がIDE不要と判断と予想調査会社ガートナーは、エンタープライズのAIコーディングエージェント市場が拡大と競争再編の新段階に入ったと分析。2027年までに、AIエージェントでコーディングを行うチームの65%がIDEを不可欠とは考えなくなると予想した。