学習・ファインチューニング A

103 件中 1〜30 件目を表示
  • arXiv cs.LG (Machine Learning) · EN 新モデル・リリース 抜粋
    Probe-and-Refine Tuning of Repository Guidance for Coding Agents
    コーディングエージェント向けにリポジトリ指示文を調整する手法
    AI エージェント ファインチューニング 検索拡張生成 (RAG) ソフトウェア工学
    本論文は、LLMベースのコーディングエージェントが依存するリポジトリ指示(AGENTS.mdなど)を調整する手法Probe-and-Refineを提案する。ファイル構成・テスト実行方法・誤修正を招きやすいワークフローなど、コード自体には存在しない高レベルの運用知識の提供を狙う。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    FreeStyle: Free Control of Style-Content Dual-Reference Generation from Community LoRA Mining
    コミュニティLoRA採掘でスタイルと内容を二重制御するFreeStyle
    検索拡張生成 (RAG)
    スタイルと内容の二重参照生成は、構造を保ちつつ別の様式で画像を合成する課題。FreeStyleはコミュニティのLoRA採掘を活用し、スタイルと内容を自由に制御する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 学習・ファインチューニング 抜粋
    Calibration Without Comprehension: Diagnosing the Limits of Fine-Tuning LLMs for Vulnerability Detection in Systems Software
    脆弱性検出のLLM微調整は理解か暗記かを診断する研究
    ファインチューニング ニューラルネットワーク 強化学習
    脆弱性ベンチで高得点のLLMが本当にセキュリティを推論しているのか、それとも単にパターン照合かを検証。微調整による脆弱性検出の限界を診断する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 学習・ファインチューニング 抜粋
    Your Mouse and Eyes Secretly Leak Your Preference: LLM Alignment using Implicit Feedback from Users
    マウスや視線の暗黙的フィードバックでLLMを整合する手法を提案
    ニューラルネットワーク 検索拡張生成 (RAG) 強化学習 人間のフィードバックによる強化学習 (RLHF)
    本論文は、明示的な人間のフィードバックの代わりに、マウス操作や視線などユーザーの暗黙的なシグナルを用いて大規模言語モデルを整合(アライメント)する手法を提案する。ユーザーが明示的な評価をほとんど与えず、高品質な選好データが得にくいという課題に対処する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN マルチモーダル 抜粋
    Scalable Training of Spatially Grounded 2D Vision-Language Models for Radiology
    放射線科向け空間接地VLMの大規模学習とデータセットRefRad2D
    コンピュータビジョン ファインチューニング ニューラルネットワーク ソフトウェア工学
    本論文は、手動の空間アノテーションなしに放射線科向けの空間接地済み視覚言語モデル(VLM)を学習する方法を研究する。臨床由来のCT・MR画像とテキストの対120万組からなる大規模な独英バイリンガルデータセットRefRad2Dを提案し、VQAや空間接地のサブセットを備える。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.LG (Machine Learning) · EN 開発者ツール 抜粋
    Evolutionary Two-Stage Hyperparameter Optimization Strategies for Physics-Informed Neural Networks
    PINN向けの進化的な二段階ハイパーパラメータ最適化を提案
    アルゴリズム・理論 深層学習 埋め込み (Embeddings) ニューラルネットワーク
    本論文は、物理情報ニューラルネットワーク(PINN)向けの進化的な二段階ハイパーパラメータ最適化戦略を提案する。PINNが抱える不安定な収束、学習の停滞、構造・最適化ハイパーパラメータへの強い感度といった、非凸性に起因する課題への対処を狙う。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 新モデル・リリース 抜粋
    DataMagic: Transforming Tabular Data into Data Insight Video
    表データをデータ洞察動画に変換するDataMagic
    ニューラルネットワーク 検索拡張生成 (RAG) 強化学習
    データ動画は動的チャート・音声ナレーション・同期アニメーションを統合して洞察を伝える。DataMagicは表形式データをこうしたデータ洞察動画へ自動変換する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN インフラ・ハードウェア 抜粋
    Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe
    LLMのFP4事前学習の縮小バイアスを解明しUFP4レシピを提案
    Mixture of Experts (MoE) NVIDIA 量子化
    FP4学習はLLM事前学習のメモリと計算を大幅に削減するが縮小バイアスが課題。その幾何学的起源と系全体への影響を解析し、UFP4レシピを示す。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 推論・効率化 抜粋
    AutoPass: Evidence-Guided LLM Agents for Compiler Performance Tuning
    コンパイラ性能調整を担う証拠誘導LLMエージェントAutoPass
    AI エージェント ファインチューニング 推論 (Inference)
    LLMはコードコンパイル作業に有望だが、実行時性能調整への適用は難しい。AutoPassは証拠誘導のLLMエージェントによりコンパイラ性能調整を行う。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 学習・ファインチューニング 抜粋
    Automating SKILL.md Generation for Computer-Using Agents via Interaction Trajectory Mining
    相互作用軌跡採掘でコンピュータ操作エージェントのSKILL.md生成を自動化
    AI エージェント ニューラルネットワーク 強化学習
    明示的なスキルライブラリはコンピュータ操作エージェントの検査を容易にする。本研究は相互作用軌跡の採掘によりSKILL.mdの生成を自動化する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.LG (Machine Learning) · EN 学習・ファインチューニング 抜粋
    Train, Retrieve, or Both? A Four-Arm Head-to-Head for Correct Statutory Citation on the Ontario Residential Tenancies Act
    条文引用タスクで微調整・検索・併用を比較する4アーム評価
    深層学習 ファインチューニング ニューラルネットワーク 検索拡張生成 (RAG)
    本論文は、オンタリオ州住宅賃貸借法(RTA)とその主要規則を対象に、正しい条文引用を返すタスクで微調整・検索(retrieval)・両者の併用を四つの構成で直接比較する。借主・貸主・窓口担当が、問いを実際に規定する条文へ正しく導かれる必要性に応える。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 新モデル・リリース 抜粋
    ELVA: Exploring Ranking-Driven Universal Multimodal Retrieval
    ランキング駆動の汎用マルチモーダル検索ELVA
    深層学習 機械学習 検索拡張生成 (RAG) 強化学習
    対照学習でMLLMを活用するマルチモーダル検索が主流となるなか、ELVAはランキング駆動の汎用マルチモーダル検索を探求する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 学習・ファインチューニング 抜粋
    Finetuning Vision-Language-Action Models Requires Fewer Layers Than You Think
    VLAモデルの微調整は想定より少ない層で足りる
    コンピュータビジョン ファインチューニング 推論 (Inference) 機械学習 強化学習
    膨大な動画ロボットデータで事前学習されたVLAモデルはロボット制御を革新した。本研究は、その微調整に必要な層数が想定より少なくて済むことを示す。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    ScholarQuest: A Taxonomy-Guided Benchmark for Agentic Academic Paper Search in Open Literature Environments
    開かれた文献環境でのエージェント論文探索ベンチScholarQuest
    AI エージェント ソフトウェア工学
    学術論文探索は研究の中核段階であり、LLMベースの探索エージェントが台頭している。ScholarQuestは分類体系に基づくエージェント論文探索のベンチマークを提供する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 学習・ファインチューニング 抜粋
    Actionable Activation Directions for Detecting and Mitigating Emergent Misalignment Across Language Model Families
    活性化方向で言語モデルの創発的ミスアラインメントを検知・緩和
    ファインチューニング Llama 強化学習
    本論文は、安全でないコードでの微調整によって生じる言語モデルの創発的ミスアラインメントが、アーキテクチャを越えて共有される因果的に操作可能な活性化空間の方向に対応するかを検証する。四つの命令調整済みモデル系列で、この方向を用いた検知と緩和を検討する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    HilDA: Hierarchical Distillation with Diffusion for Advancing Self-Supervised LiDAR Pre-trainin
    自己教師ありLiDAR事前学習を進める階層蒸留HilDA
    コンピュータビジョン ニューラルネットワーク 検索拡張生成 (RAG) 強化学習
    視覚基盤モデルを用いたカメラからLiDARへの知識蒸留は有望。HilDAは拡散を伴う階層蒸留により自己教師ありLiDAR事前学習を前進させる。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    IHUBERT: Vector-Based Semantic Deduplication and Domain-Balanced Pretraining for Persian Resources
    ペルシャ語向け意味的重複除去とドメイン均衡事前学習のIHUBERT
    強化学習 ソフトウェア工学
    本論文は、RoBERTa-baseエンコーダで一から学習した単言語ペルシャ語の事前学習モデル「IHUBERT」を提案する。ベクトルに基づく意味的な重複除去とドメイン均衡を取り入れた事前学習により、大規模で高品質なペルシャ語コーパスの不足や評価の乏しさという課題に対処する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 学習・ファインチューニング 抜粋
    Clusters are All You Need: Pre-Training the Tsetlin Machine with Semantic Clusters from Language Models for Interpretability
    言語モデルの意味クラスタでTsetlin Machineを事前学習
    埋め込み (Embeddings)
    本論文は、解釈性の高い節ベース推論を行うTsetlin Machineを、言語モデルから得た意味的クラスタで事前学習する手法を提案する。BERTなどが捉える意味情報と、Tsetlin Machineの透明性を組み合わせ、高リスク場面での利用を妨げる従来の不透明さを解消することを狙う。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 学習・ファインチューニング 抜粋
    Beyond Uniform Forgetting: A Study of Sequential Direct Preference Optimization Across Preference Settings
    逐次的DPOにおける選好設定をまたいだ忘却を分析
    Llama 機械学習 強化学習 人間のフィードバックによる強化学習 (RLHF)
    本論文は、複数の整合目的を順番に適用する逐次的な直接選好最適化(DPO)を、さまざまな選好設定にわたって研究する。後段の学習が先に学んだ選好をどのように干渉・忘却させるかを、一様な忘却という見方を超えて分析する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • Hugging Face Blog · EN 学習・ファインチューニング 抜粋
    Beyond LoRA: Can you beat the most popular fine-tuning technique?
    Hugging Face、LoRA を超える微調整手法の可能性を検証
    ファインチューニング
    Hugging Face は、最も普及した微調整手法である LoRA を上回る方法があるかを検討した記事を公開した。代替の効率的ファインチューニング手法を比較し、性能やコストの面で LoRA に挑戦できるかを実験的に探る内容で、実務者の手法選択の指針を示す。
    元記事を読む (Hugging Face Blog) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    Native Active Perception as Reasoning for Omni-Modal Understanding
    動画理解を効率化、難易度に応じ能動的に知覚する推論手法を提案
    深層学習 ファインチューニング 機械学習 ニューラルネットワーク 検索拡張生成 (RAG)
    長尺動画の理解で主流の「全フレーム一律処理」は、質問の難易度に関わらず計算量が動画長に比例して増える課題がある。本研究は知覚自体を推論として扱い、必要な箇所を能動的に観る「ネイティブ能動知覚」を提案。オムニモーダル理解を効率化する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 学習・ファインチューニング 抜粋
    UBP2: Uncertainty-Balanced Preference Planning for Efficient Preference-based Reinforcement Learning
    不確実性を考慮し選好ベース強化学習を効率化する UBP2 を提案
    Meta ニューラルネットワーク 強化学習
    選好ベース強化学習は、行動の対比較から報酬モデルを学び、明示的な報酬設計を不要にする。しかし既存手法は受動的なデータ収集に依存しがち。本研究は不確実性を均衡させて比較対象を選ぶ「UBP2」を提案し、より少ない選好データで効率的に学習する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 学習・ファインチューニング 抜粋
    Trade-offs in Medical LLM Adaptation: An Empirical Study in French QA
    医療 LLM のドメイン適応、仏語 QA で利点と代償を実証研究
    ファインチューニング 強化学習 ソフトウェア工学
    LLM の専門分野・言語への適応が注目される中、ドメイン適応戦略の有効性は依然不明な点が多い。本研究はフランス語の医療 QA を題材に、各種適応手法のトレードオフを実証的に分析し、性能と汎用性の間で生じる得失を明らかにする。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN マルチモーダル 抜粋
    OneCanvas: 3D Scene Understanding via Panoramic Reprojection
    OneCanvas、パノラマ再投影で VLM の 3D シーン理解を実現
    コンピュータビジョン 埋め込み (Embeddings) ニューラルネットワーク ロボティクス ソフトウェア工学
    VLM による 3D シーン理解は、複雑なモデル固有の幾何エンコーダや大規模な学習予算に依存しがちだった。本研究は「OneCanvas」を提案し、パノラマ再投影を用いて空間推論を行うことで、専用の幾何エンコーダや大量学習に頼らず効率的に 3D シーンを理解する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    TxBench-PP: Analyzing AI Agent Performance on Small-Molecule Preclinical Pharmacology
    TxBench-PP、小分子前臨床薬理での AI エージェント性能を評価
    AI エージェント Claude GPT 人間のフィードバックによる強化学習 (RLHF) ソフトウェア工学
    AI エージェントは解釈や意思決定のループを短縮し創薬を加速し得るが、実用化には現実的な課題での信頼できる評価が要る。本研究は小分子の前臨床薬理を対象としたベンチマーク「TxBench-PP」を構築し、AI エージェントの性能を体系的に分析する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 学習・ファインチューニング 抜粋
    STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability
    STARE、サプライザル基準の再重み付けで方策エントロピーを安定化
    アルゴリズム・理論 検索拡張生成 (RAG) 強化学習
    GRPO のような検証可能報酬による強化学習は LLM の複雑推論の主流だが、方策エントロピーの崩壊に陥りやすい。本研究は驚き(サプライザル)に基づきトークン単位でアドバンテージを再重み付けする「STARE」を提案し、エントロピーの安定化と探索性の維持を図る。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 学習・ファインチューニング 抜粋
    Mechanism-Guided Selective Unlearning for RLVR-Induced Reasoning
    MAST、RLVR 由来の推論を巻き添えを抑えて選択的に忘却
    ファインチューニング 強化学習
    本研究は、検証可能報酬による強化学習(RLVR)で獲得した推論を選択的に巻き戻す手法「MAST(Mechanism-Aligned Selective Targeting)」を提案する。機構に整合した狙い撃ちにより、全パラメータ更新に比べて巻き添えの被害を大幅に抑えつつ不要な推論を忘却させる。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 学習・ファインチューニング 抜粋
    User as Engram: Internalizing Per-User Memory as Local Parametric Edits
    ユーザー記憶を局所的なパラメータ編集として内在化する手法
    検索拡張生成 (RAG) ソフトウェア工学
    言語モデルの個人記憶は、内容と推論能力という二つの問題からなる。脳は両者を分離し、各エピソードを海馬の疎で局所的なエングラムに、技能を緩やかな新皮質に保つ。本研究はこれに倣い、ユーザーごとの記憶を局所的なパラメータ編集として内在化する手法を提案する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 資金・M&A 抜粋
    Dango: A Strictly L1-Only Large Language Model for Studying Second Language Acquisition
    Dango、L1 のみ学習の 1.8B LLM で第二言語習得を研究
    本研究は、第二言語習得(SLA)における日本語から英語への L1→L2 転移を統制的に調べるための 1.8B パラメータの言語モデル「Dango」を導入する。母語(L1)のみで学習する厳密な設計により、これまで難しかった転移現象の制御実験を可能にし、SLA 研究の新たな基盤を提供する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    Beyond Safe Data: Pretraining-Stage Alignment with Regular Safety Reflection
    事前学習段階で安全反映、安全データを超えるアライメントを探る
    ファインチューニング 推論 (Inference) 強化学習
    LLM のより深い安全アライメントのため、安全介入を事前学習段階へ前倒しする研究が進む。多くは危険データの除去や安全な形への書き換えに頼る。本研究は「安全データ」を超え、事前学習中に定期的な安全リフレクションを組み込むことで、より根本的な安全性の獲得を目指す。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗