学習・ファインチューニング A

99 件中 61〜90 件目を表示
  • arXiv cs.LG (Machine Learning) · EN 新モデル・リリース 抜粋
    From Drift to Coherence: Stabilizing Beliefs in LLMs
    ドリフトから整合へ、LLMの信念を安定化
    ファインチューニング 推論 (Inference) 強化学習 ソフトウェア工学
    LLMは暗黙のベイズ推論を行うと仮定されるが、予測的信念のマルチンゲール性という整合条件が合成的な文脈内学習で破れることが示されてきた。本研究は多肢選択QAなど一般的な利用域で再検証し、信念を安定化する手法を論じる。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.CL (Computation and Language) · EN 推論・効率化 抜粋
    Improving low-resource ASR using bilingual fine-tuning with language identification: a cross-linguistic evaluation
    言語識別付き二言語微調整で低資源ASRを改善
    ファインチューニング 推論 (Inference) 音声処理
    本研究は言語識別を併用した二言語ファインチューニングにより低資源言語の自動音声認識を改善する手法を、複数言語にまたがる横断的評価で検討する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 開発者ツール 抜粋
    Beyond Native Success: Auditing Deployment-Interface Exposure of CLIP Backdoors
    CLIPバックドアの展開インターフェース露出を監査
    ニューラルネットワーク 強化学習
    CLIPは特徴抽出・検索・再順位付け・選択など多様な下流インターフェースで再利用される。既存のCLIPバックドアは小さな攻撃固有課題で検証されがちで、本研究は本来の成功を超えた展開インターフェース露出を監査する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    SuCo: Sufficiency-guided Continuous Adaptive Reasoning
    SuCo、十分性に導かれた連続適応的推論
    ファインチューニング 強化学習 ソフトウェア工学
    SuCoは十分性に導かれた連続適応的推論の手法で、推論過程を必要十分な範囲に適応的に調整することで効率と精度の両立を狙う。タイトルベースの中立要約で詳細は原論文ベース。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    Bridging Functional Correctness and Runtime Efficiency Gaps in LLM-Based Code Translation
    LLMコード翻訳の機能正しさと実行効率の差を橋渡し
    ニューラルネットワーク 検索拡張生成 (RAG)
    LLMは自動コード翻訳の機能的正しさを大きく前進させたが、翻訳されたプログラムの実行効率は注目が薄かった。ムーアの法則の鈍化で効率が重要になる中、本研究は機能正しさと実行効率の差を橋渡しする手法を検討する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • NVIDIA Developer Blog · EN 学習・ファインチューニング 抜粋
    Fine-Tuning Biological Foundation Models with LoRA Using NVIDIA BioNeMo Recipes
    NVIDIA、BioNeMo Recipes で生物基盤モデルの LoRA fine-tuning 手法を解説
    ファインチューニング NVIDIA
    NVIDIA の開発者ブログが、タンパク質やゲノム配列の大規模コーパスで事前学習された生物基盤モデル(ESM2 等のタンパク質言語モデルを含む)を、LoRA を用いて効率的に fine-tuning する手法を、同社の BioNeMo Recipes を例に解説する。計算生物学における基盤モデル活用を扱った技術記事。
    元記事を読む (NVIDIA Developer Blog) ↗
  • arXiv cs.CL (Computation and Language) · EN 学習・ファインチューニング 抜粋
    The Value Axis: Language Models Encode Whether They're on the Right Track
    LLM内部に戦略の成否を符号化する「価値軸」を発見
    ファインチューニング 強化学習 人間のフィードバックによる強化学習 (RLHF)
    Qwen3-8Bの内部活性を分析し、現在の戦略が目標を達成できる見込みを表す「価値軸」が存在することを示した研究。この軸は確信度の高低、バックトラッキングの有無、正誤コードを区別する。価値を高める方向に操作すると自己修正が抑制され、低める方向では探索的な挙動が誘発される。DPOが報酬対象の行動の内部価値を高めることも確認した。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.LG (Machine Learning) · EN インフラ・ハードウェア 抜粋
    Exact Posterior Score Estimation for Solving Linear Inverse Problems
    線形逆問題の厳密な事後スコアを閉形式で導出
    推論 (Inference) 強化学習
    拡散・フローモデルを線形逆問題に用いる際の事後スコアを、一般的なガウス補間の下で閉形式により厳密に導出した研究。事後サンプリングが、異方性ノイズ下での演算子依存のシフト点におけるデノイジング問題に帰着することを示す。これを学習目的EPSとして定式化し、既存の事前学習構造を保ったままゼロからの学習や微調整が可能だとする。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.LG (Machine Learning) · EN インフラ・ハードウェア 抜粋
    Hierarchical Advantage Weighting for Online RL Fine-Tuning of VLAs from Sparse Episode Outcomes
    VLAのオンラインRL微調整に階層的優位重み付けHABCを提案
    ファインチューニング 強化学習
    事前学習済みVLA方策をオンライン強化学習で微調整する際、各エピソードの二値結果だけでは到達可能性と効率を区別できず、自律区間と介入区間の混在が誤った信用割当を招く課題を指摘。これに対し、二つの目的それぞれに別個のクリティックヘッドを異なるデータ部分集合で学習する階層的優位重み付け行動クローニング(HABC)を提案する。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.CL (Computation and Language) · EN 推論・効率化 抜粋
    KVEraser: Learning to Steer KV Cache for Efficient Localized Context Erasing
    KVキャッシュの局所消去を学習で効率化するKVEraserを提案
    ファインチューニング 強化学習
    長文脈LLMで、古い情報や誤ったツール出力、プロンプトインジェクションなどを事後的に消す際、KVキャッシュの局所編集が後続トークン全体へ波及するため厳密な消去は再計算コストが高い課題に対応。消去区間のKV状態だけを学習済みのステアリング状態に置き換え、残りのキャッシュを再利用する手法KVEraserを提案し、二段階の学習パイプラインで転用可能な消去機構を学ぶとする。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.LG (Machine Learning) · EN 学習・ファインチューニング 抜粋
    ExpRL: Exploratory RL for LLM Mid-Training
    ExpRL、人手QAデータを「報酬足場」に使うLLM中間学習向けRLを提案
    ファインチューニング 検索拡張生成 (RAG) 強化学習 ソフトウェア工学
    疎報酬RLによるLLM推論強化はベースモデルの被覆に依存し、従来は中間学習で習得すべきスキルを人手で指定する必要があった。ExpRLは人間が書いたQAデータを模倣対象ではなく「報酬足場」として用い、参照解をポリシーから隠して問題ごとの採点ルーブリックを構成、オンポリシー推論を評価することでより自動化されたRLベース中間学習を実現する。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    Selection Without Signal, Recovery Through Expression: A Measurement Study of Post-Hoc Falsification Operators for Frozen Small Code Models
    凍結された小型コードモデル向け事後反証演算子の測定的研究
    ファインチューニング ニューラルネットワーク 検索拡張生成 (RAG)
    論文タイトルによれば、追加学習を行わない凍結された小型コードモデルに対する「事後反証演算子(post-hoc falsification operators)」の測定的研究で、信号なしでの選択と表現を通じた回復という観点を扱うとされる。なおexportの本文抜粋はcontent filterによりブロックされたため、タイトルに基づく中立的な要約にとどめる。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.LG (Machine Learning) · EN 学習・ファインチューニング 抜粋
    Task-Error Residual Learning for Real-Robot Five-Ball Juggling
    残差学習でロボットの5球ジャグリングを少数試行で安定実現
    ニューラルネットワーク 強化学習
    既存の挙動を洗練する残差学習では、各ロールアウトが返す情報量とその利用効率がサンプル効率を左右する。標準的な強化学習のスカラー報酬は、タスクを定義する方向性のあるタスク誤差より情報が乏しい。本研究は方向性タスク誤差を教師信号とする残差学習と、サンプル選択を導くタスク誤差モデルにより、人型のBarrett WAMアームで3・4・5球の安定したジャグリングを達成。2回目の試行から収束し、初回以降はタスク誤差が単調に減少したとする。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.CL (Computation and Language) · EN 推論・効率化 抜粋
    Exploring Extrinsic and Intrinsic Properties for Effective Reasoning with Code Interpreter
    コードインタープリタ推論を支える内在・外在特性を分析した論文
    ファインチューニング 推論 (Inference) 検索拡張生成 (RAG) 強化学習
    コードインタープリタ(CI)を用いた LLM 推論について、外在特性(重要トークン)と内在特性(コード固有の認知的振る舞い)の二つの観点から分析した論文。著者らは、より強い CI 推論モデルほど重要トークンや、検証・バックトラッキング・後ろ向き連鎖といった認知的振る舞いが多く現れると報告し、これらを推論時・学習時に活用する方法を検討したと論じる。abstract ベースの中立要約。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 学習・ファインチューニング 抜粋
    Speaking the Language of Science: Toward a General-Purpose Generative Foundation Model for the Natural Sciences
    自然科学を統一する生成基盤モデル『LOGOS』を提案した報告
    ニューラルネットワーク
    自然科学の多様なタスクを単一の自己回帰フレームワークで統一する生成言語モデル『LOGOS』を提案した報告。共通の『科学の文法』に基づき、多様な科学的対象とその空間的相互作用をトークン列として表現し、座標や幾何ニューラルネットに依存せず構造的相互作用を逐次的に捉えるとする。多領域の継続事前学習と下流タスクを次トークン予測として整合させ、領域特化ベースラインに匹敵または上回ったと述べる。abstract ベースの中立要約。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.LG (Machine Learning) · EN 学習・ファインチューニング 抜粋
    Fantastic Pretraining Optimizers and Where to Find Them II: Hyperball Optimization
    行列ベース最適化器Muonの大規模時の効果減衰を補うラッパー手法Hyperballを提案
    Muon等の行列ベース最適化器は言語モデルの事前学習を高速化するが、標準的な定数分離型重み減衰ではモデルとデータの規模拡大に伴いAdamWに対する優位が縮小する。本研究は重み行列とその最適化更新のフロベニウスノルムを固定値に保つ簡素なラッパーHyperballを提案。Qwen3系の最大1.2BパラメータでMuon+Hyperballが重み減衰ベースラインに対しトークン換算20〜30%の高速化を達成したと報告する。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • Publickey · JA 新モデル・リリース 抜粋
    Stack Overflow、AIエージェント同士が掲示板で技術情報を共有する「Stack Overflow for Agents」ベータ公開
    Stack Overflow、AIエージェント向け情報共有サービスをベータ公開
    AI エージェント 機械学習
    Stack Overflow が、AI エージェント同士がオープンな掲示板上で技術的な解決策などの情報を共有する新サービス「Stack Overflow for Agents」をベータ版として提供開始したと明らかにした。人間向け Q&A で蓄積した知見を、エージェント間の情報流通へ広げる狙いとみられる。
    元記事を読む (Publickey) ↗
  • arXiv cs.LG (Machine Learning) · EN 学習・ファインチューニング 抜粋
    Deep Q-Learning on Hölder Spaces
    連続時間制御のBellman更新の正則性を解析しDeepONet構成を導出
    強化学習
    連続状態・行動の連続時間確率制御におけるQ学習の作用素論的な核を解析。一様楕円性とHölder正則性の下でBellman更新が状態を平滑化し行動にはLipschitz依存を残す異方的な正則性を持つことを示し、テンソル積DeepONet構成と近似・資源限界、剛性-複雑性のトレードオフを導く。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.CL (Computation and Language) · EN 学習・ファインチューニング 抜粋
    Robust Dual-Signal Fusion: Hybrid Neuro-Symbolic Gating with Compressed Chain-of-Thought Refinement for Irony Detection in Social Media Texts
    圧縮 CoT の神経記号ハイブリッドでゼロショット皮肉検出を強化
    ファインチューニング Transformer
    LLM が字義通りの意味解釈に偏りゼロショットの皮肉検出が難しい課題に対し、教師ありファインチューニング(SFT)なしで Chain-of-Thought 推論を圧縮する神経記号ハイブリッド枠組み「RDS Fusion」を提案する arxiv 論文。TweetEval の held-out テスト集合(N=734)で評価したと報告(abstract ベースの中立要約、数値は論文側の主張)。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    Tying the Loop -- Tied Expert Layers in Mixture-of-Experts Language Models
    MoE で専門家パラメータを層間共有する手法を提案する論文
    DeepSeek 推論 (Inference) Mixture of Experts (MoE) Transformer
    Mixture-of-Experts のメモリ負荷を抑えるため、連続する transformer 層で専門家パラメータを共有しつつ層ごとのルーティングと注意を保つ Expert Tying を提案する arxiv 論文。abstract ベースの中立要約。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    Adaptive and Explicit safe: Triggering Latent Safety Awareness in Large Reasoning Models
    推論モデルの潜在的な安全認識を引き出し脱獄耐性を高める手法を提案
    DeepSeek ファインチューニング Llama 検索拡張生成 (RAG) 人間のフィードバックによる強化学習 (RLHF)
    大規模推論モデルが高度な脱獄や有害クエリに脆弱な課題に対し、外部の手動アノテーションへの依存を避け、モデル自身が元のクエリと自らの推論過程を再提示されると安全リスクを認識できる「潜在的安全認識」を活用する論文。教師ありファインチューニングで安全タグを誘発し安全分析を起動するとしている。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    The Art of Mixology: Mixup-based Obfuscation for Privacy-Preserving Split Learning in Large Language Models
    LLMのスプリット学習向けプライバシー保護手法MIXGUARDを提案
    ファインチューニング
    計算負荷の高い層をサーバへ委譲しつつ生データを手元に保つスプリット学習で、有用性・プライバシー・効率の両立を狙う mixup ベースの枠組み MIXGUARD を提案する論文とされる。トークン/表現レベルの難読化と適応的勾配摂動を併用すると報告。中立要約。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.LG (Machine Learning) · EN 学習・ファインチューニング 抜粋
    Decision-Weighted Flow Matching for Contextual Stochastic Optimization
    DW-FM: 下流の意思決定の後悔に整合する重み付きフローマッチングを提案
    コンピュータビジョン ニューラルネットワーク 人間のフィードバックによる強化学習 (RLHF)
    生成モデルをシナリオ生成器に使う確率的最適化で、一様な分布適合より下流の意思決定が重要との観点から、決定に敏感な終点情報で速度回帰目的を再重み付けするDecision-Weighted Flow Matching(DW-FM)を提案。後悔との理論的接続と保証を示すと報告する。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    OpenClaw-Skill: Collective Skill Tree Search for Agentic Large Language Models
    エージェント向けに再利用可能スキルを木探索で構築するCSTSを提案
    AI エージェント 検索拡張生成 (RAG) 強化学習
    LLMエージェントのツール利用や多段推論を強化するため、再利用可能なスキルを自動構築する木探索枠組み Collective Skill Tree Search(CSTS)を提案する論文とされる。複数モデルの集合知で候補スキルの生成と評価を反復すると報告。中立要約。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.LG (Machine Learning) · EN 新モデル・リリース 抜粋
    GD$^2$PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy Optimization
    GD²PO: 多目的RLの報酬衝突を動的サンプリングで緩和する手法を提案
    アルゴリズム・理論 強化学習 人間のフィードバックによる強化学習 (RLHF)
    LLMのRL後訓練で複数報酬が競合し正負のシグナルが相殺する問題に対し、報酬をグループに分割しつつDAPOに倣って効果の薄いロールアウトを動的に除外するGD²POを提案。報酬衝突を抑え学習効率を高めると報告する。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 学習・ファインチューニング 抜粋
    Skill-to-LoRA: From Using Skills to Learning Behaviors for Token-Efficient LLM Agents
    SKILL.md文書をLoRAに置換しトークン効率を高める手法S2Lを提案
    AI エージェント 深層学習 ソフトウェア工学
    エージェントのスキルがSKILL.md形式で配布され実行時に繰り返し文脈へ注入される非効率を踏まえ、実行時のスキル文書をスキル固有のLoRAアダプタへ置き換える行動中心の表現S2L(Skill-to-LoRA)を提案する論文。文書自体を圧縮するのではなく、スキル文が誘発する振る舞いの変化をモデル化するとしている。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 学習・ファインチューニング 抜粋
    SkillWiki: A Living Knowledge Infrastructure for Agent Skills
    エージェントスキルの生きた知識基盤「SkillWiki」を提案
    知識はWikipedia、ソフトウェアはGitHubで管理される一方、エージェントのスキルには大規模な生産・統治・進化のための基盤が欠けていた。本研究のSkillWikiは、多様な知識を出所の証跡に紐づく再利用可能なスキル資産へ変換し、スキルの整理・接地・継続的進化を支える「生きた知識基盤」である。知識の取り込みからスキル生産、来歴を意識した探索、統治、実行駆動の進化まで、スキルのライフサイクル全体を提示する。デモとソースコードは公開されているとする。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN インフラ・ハードウェア 抜粋
    daVinci-kernel: Co-Evolving Skill Selection, Summarization, and Utilization via RL for GPU Kernel Optimization
    GPUカーネル最適化向けスキル共進化RL「daVinci-kernel」を提案
    AI エージェント ファインチューニング 強化学習
    GPUカーネル最適化は、機能的正しさを前提に実行効率を目的とする領域である。本研究は、スキルの発見と活用を動的に進化するスキルライブラリで結びつける強化学習フレームワークdaVinci-kernelを提案する。単一のLLMバックボーンを共有する3エージェント(BM25とLLM再ランクで技術を検索するスキル選択、CUDA/Tritonカーネルを生成するポリシー、成功例を再利用可能なスキルへ蒸留するスキル要約)を共同訓練し、実行検証で再現可能な高速化が確認されたスキルのみを追加するとする。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • ITmedia AI+ · JA 新モデル・リリース 抜粋
    ChatGPT vs. Google検索──どっちで調べるのが学習効果が高い? 8日間の実験で検証した研究
    ChatGPTとGoogle検索、学習効果が高いのは?8日間の実験で検証
    生成 AI Google GPT
    米ジョージア工科大学やミシガン大学などの研究者が、生成AIのチャットボットと検索エンジンのどちらが学習効果が高いかを8日間の実験で検証した論文を発表した。情報探索と学習に生成AIが与える影響を調べ、調べ方の違いが理解や定着にどう作用するかを論じている。
    元記事を読む (ITmedia AI+) ↗
  • Publickey · JA 新モデル・リリース 抜粋
    2027年までにAIエージェントでコーディングを行うチームの65%が、IDEが必要不可欠だとは考えなくなる。ガートナーの予想
    ガートナー、2027年までにAIエージェント開発チームの65%がIDE不要と判断と予想
    AI エージェント 機械学習
    調査会社ガートナーは、エンタープライズのAIコーディングエージェント市場が拡大と競争再編の新段階に入ったと分析。2027年までに、AIエージェントでコーディングを行うチームの65%がIDEを不可欠とは考えなくなると予想した。
    元記事を読む (Publickey) ↗