学習・ファインチューニング A
103 件中 1〜30 件目を表示
-
Probe-and-Refine Tuning of Repository Guidance for Coding Agentsコーディングエージェント向けにリポジトリ指示文を調整する手法本論文は、LLMベースのコーディングエージェントが依存するリポジトリ指示(AGENTS.mdなど)を調整する手法Probe-and-Refineを提案する。ファイル構成・テスト実行方法・誤修正を招きやすいワークフローなど、コード自体には存在しない高レベルの運用知識の提供を狙う。
-
FreeStyle: Free Control of Style-Content Dual-Reference Generation from Community LoRA MiningコミュニティLoRA採掘でスタイルと内容を二重制御するFreeStyleスタイルと内容の二重参照生成は、構造を保ちつつ別の様式で画像を合成する課題。FreeStyleはコミュニティのLoRA採掘を活用し、スタイルと内容を自由に制御する。
-
Calibration Without Comprehension: Diagnosing the Limits of Fine-Tuning LLMs for Vulnerability Detection in Systems Software脆弱性検出のLLM微調整は理解か暗記かを診断する研究脆弱性ベンチで高得点のLLMが本当にセキュリティを推論しているのか、それとも単にパターン照合かを検証。微調整による脆弱性検出の限界を診断する。
-
Your Mouse and Eyes Secretly Leak Your Preference: LLM Alignment using Implicit Feedback from Usersマウスや視線の暗黙的フィードバックでLLMを整合する手法を提案本論文は、明示的な人間のフィードバックの代わりに、マウス操作や視線などユーザーの暗黙的なシグナルを用いて大規模言語モデルを整合(アライメント)する手法を提案する。ユーザーが明示的な評価をほとんど与えず、高品質な選好データが得にくいという課題に対処する。
-
Scalable Training of Spatially Grounded 2D Vision-Language Models for Radiology放射線科向け空間接地VLMの大規模学習とデータセットRefRad2D本論文は、手動の空間アノテーションなしに放射線科向けの空間接地済み視覚言語モデル(VLM)を学習する方法を研究する。臨床由来のCT・MR画像とテキストの対120万組からなる大規模な独英バイリンガルデータセットRefRad2Dを提案し、VQAや空間接地のサブセットを備える。
-
Evolutionary Two-Stage Hyperparameter Optimization Strategies for Physics-Informed Neural NetworksPINN向けの進化的な二段階ハイパーパラメータ最適化を提案本論文は、物理情報ニューラルネットワーク(PINN)向けの進化的な二段階ハイパーパラメータ最適化戦略を提案する。PINNが抱える不安定な収束、学習の停滞、構造・最適化ハイパーパラメータへの強い感度といった、非凸性に起因する課題への対処を狙う。
-
DataMagic: Transforming Tabular Data into Data Insight Video表データをデータ洞察動画に変換するDataMagicデータ動画は動的チャート・音声ナレーション・同期アニメーションを統合して洞察を伝える。DataMagicは表形式データをこうしたデータ洞察動画へ自動変換する。
-
Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 RecipeLLMのFP4事前学習の縮小バイアスを解明しUFP4レシピを提案FP4学習はLLM事前学習のメモリと計算を大幅に削減するが縮小バイアスが課題。その幾何学的起源と系全体への影響を解析し、UFP4レシピを示す。
-
AutoPass: Evidence-Guided LLM Agents for Compiler Performance Tuningコンパイラ性能調整を担う証拠誘導LLMエージェントAutoPassLLMはコードコンパイル作業に有望だが、実行時性能調整への適用は難しい。AutoPassは証拠誘導のLLMエージェントによりコンパイラ性能調整を行う。
-
Automating SKILL.md Generation for Computer-Using Agents via Interaction Trajectory Mining相互作用軌跡採掘でコンピュータ操作エージェントのSKILL.md生成を自動化明示的なスキルライブラリはコンピュータ操作エージェントの検査を容易にする。本研究は相互作用軌跡の採掘によりSKILL.mdの生成を自動化する。
-
Train, Retrieve, or Both? A Four-Arm Head-to-Head for Correct Statutory Citation on the Ontario Residential Tenancies Act条文引用タスクで微調整・検索・併用を比較する4アーム評価本論文は、オンタリオ州住宅賃貸借法(RTA)とその主要規則を対象に、正しい条文引用を返すタスクで微調整・検索(retrieval)・両者の併用を四つの構成で直接比較する。借主・貸主・窓口担当が、問いを実際に規定する条文へ正しく導かれる必要性に応える。
-
ELVA: Exploring Ranking-Driven Universal Multimodal Retrievalランキング駆動の汎用マルチモーダル検索ELVA対照学習でMLLMを活用するマルチモーダル検索が主流となるなか、ELVAはランキング駆動の汎用マルチモーダル検索を探求する。
-
Finetuning Vision-Language-Action Models Requires Fewer Layers Than You ThinkVLAモデルの微調整は想定より少ない層で足りる膨大な動画ロボットデータで事前学習されたVLAモデルはロボット制御を革新した。本研究は、その微調整に必要な層数が想定より少なくて済むことを示す。
-
ScholarQuest: A Taxonomy-Guided Benchmark for Agentic Academic Paper Search in Open Literature Environments開かれた文献環境でのエージェント論文探索ベンチScholarQuest学術論文探索は研究の中核段階であり、LLMベースの探索エージェントが台頭している。ScholarQuestは分類体系に基づくエージェント論文探索のベンチマークを提供する。
-
Actionable Activation Directions for Detecting and Mitigating Emergent Misalignment Across Language Model Families活性化方向で言語モデルの創発的ミスアラインメントを検知・緩和本論文は、安全でないコードでの微調整によって生じる言語モデルの創発的ミスアラインメントが、アーキテクチャを越えて共有される因果的に操作可能な活性化空間の方向に対応するかを検証する。四つの命令調整済みモデル系列で、この方向を用いた検知と緩和を検討する。
-
HilDA: Hierarchical Distillation with Diffusion for Advancing Self-Supervised LiDAR Pre-trainin自己教師ありLiDAR事前学習を進める階層蒸留HilDA視覚基盤モデルを用いたカメラからLiDARへの知識蒸留は有望。HilDAは拡散を伴う階層蒸留により自己教師ありLiDAR事前学習を前進させる。
-
IHUBERT: Vector-Based Semantic Deduplication and Domain-Balanced Pretraining for Persian Resourcesペルシャ語向け意味的重複除去とドメイン均衡事前学習のIHUBERT本論文は、RoBERTa-baseエンコーダで一から学習した単言語ペルシャ語の事前学習モデル「IHUBERT」を提案する。ベクトルに基づく意味的な重複除去とドメイン均衡を取り入れた事前学習により、大規模で高品質なペルシャ語コーパスの不足や評価の乏しさという課題に対処する。
-
Clusters are All You Need: Pre-Training the Tsetlin Machine with Semantic Clusters from Language Models for Interpretability言語モデルの意味クラスタでTsetlin Machineを事前学習本論文は、解釈性の高い節ベース推論を行うTsetlin Machineを、言語モデルから得た意味的クラスタで事前学習する手法を提案する。BERTなどが捉える意味情報と、Tsetlin Machineの透明性を組み合わせ、高リスク場面での利用を妨げる従来の不透明さを解消することを狙う。
-
Beyond Uniform Forgetting: A Study of Sequential Direct Preference Optimization Across Preference Settings逐次的DPOにおける選好設定をまたいだ忘却を分析本論文は、複数の整合目的を順番に適用する逐次的な直接選好最適化(DPO)を、さまざまな選好設定にわたって研究する。後段の学習が先に学んだ選好をどのように干渉・忘却させるかを、一様な忘却という見方を超えて分析する。
-
Beyond LoRA: Can you beat the most popular fine-tuning technique?Hugging Face、LoRA を超える微調整手法の可能性を検証Hugging Face は、最も普及した微調整手法である LoRA を上回る方法があるかを検討した記事を公開した。代替の効率的ファインチューニング手法を比較し、性能やコストの面で LoRA に挑戦できるかを実験的に探る内容で、実務者の手法選択の指針を示す。
-
Native Active Perception as Reasoning for Omni-Modal Understanding動画理解を効率化、難易度に応じ能動的に知覚する推論手法を提案長尺動画の理解で主流の「全フレーム一律処理」は、質問の難易度に関わらず計算量が動画長に比例して増える課題がある。本研究は知覚自体を推論として扱い、必要な箇所を能動的に観る「ネイティブ能動知覚」を提案。オムニモーダル理解を効率化する。
-
UBP2: Uncertainty-Balanced Preference Planning for Efficient Preference-based Reinforcement Learning不確実性を考慮し選好ベース強化学習を効率化する UBP2 を提案選好ベース強化学習は、行動の対比較から報酬モデルを学び、明示的な報酬設計を不要にする。しかし既存手法は受動的なデータ収集に依存しがち。本研究は不確実性を均衡させて比較対象を選ぶ「UBP2」を提案し、より少ない選好データで効率的に学習する。
-
Trade-offs in Medical LLM Adaptation: An Empirical Study in French QA医療 LLM のドメイン適応、仏語 QA で利点と代償を実証研究LLM の専門分野・言語への適応が注目される中、ドメイン適応戦略の有効性は依然不明な点が多い。本研究はフランス語の医療 QA を題材に、各種適応手法のトレードオフを実証的に分析し、性能と汎用性の間で生じる得失を明らかにする。
-
OneCanvas: 3D Scene Understanding via Panoramic ReprojectionOneCanvas、パノラマ再投影で VLM の 3D シーン理解を実現VLM による 3D シーン理解は、複雑なモデル固有の幾何エンコーダや大規模な学習予算に依存しがちだった。本研究は「OneCanvas」を提案し、パノラマ再投影を用いて空間推論を行うことで、専用の幾何エンコーダや大量学習に頼らず効率的に 3D シーンを理解する。
-
TxBench-PP: Analyzing AI Agent Performance on Small-Molecule Preclinical PharmacologyTxBench-PP、小分子前臨床薬理での AI エージェント性能を評価AI エージェントは解釈や意思決定のループを短縮し創薬を加速し得るが、実用化には現実的な課題での信頼できる評価が要る。本研究は小分子の前臨床薬理を対象としたベンチマーク「TxBench-PP」を構築し、AI エージェントの性能を体系的に分析する。
-
STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy StabilitySTARE、サプライザル基準の再重み付けで方策エントロピーを安定化GRPO のような検証可能報酬による強化学習は LLM の複雑推論の主流だが、方策エントロピーの崩壊に陥りやすい。本研究は驚き(サプライザル)に基づきトークン単位でアドバンテージを再重み付けする「STARE」を提案し、エントロピーの安定化と探索性の維持を図る。
-
Mechanism-Guided Selective Unlearning for RLVR-Induced ReasoningMAST、RLVR 由来の推論を巻き添えを抑えて選択的に忘却本研究は、検証可能報酬による強化学習(RLVR)で獲得した推論を選択的に巻き戻す手法「MAST(Mechanism-Aligned Selective Targeting)」を提案する。機構に整合した狙い撃ちにより、全パラメータ更新に比べて巻き添えの被害を大幅に抑えつつ不要な推論を忘却させる。
-
User as Engram: Internalizing Per-User Memory as Local Parametric Editsユーザー記憶を局所的なパラメータ編集として内在化する手法言語モデルの個人記憶は、内容と推論能力という二つの問題からなる。脳は両者を分離し、各エピソードを海馬の疎で局所的なエングラムに、技能を緩やかな新皮質に保つ。本研究はこれに倣い、ユーザーごとの記憶を局所的なパラメータ編集として内在化する手法を提案する。
-
Dango: A Strictly L1-Only Large Language Model for Studying Second Language AcquisitionDango、L1 のみ学習の 1.8B LLM で第二言語習得を研究本研究は、第二言語習得(SLA)における日本語から英語への L1→L2 転移を統制的に調べるための 1.8B パラメータの言語モデル「Dango」を導入する。母語(L1)のみで学習する厳密な設計により、これまで難しかった転移現象の制御実験を可能にし、SLA 研究の新たな基盤を提供する。
-
Beyond Safe Data: Pretraining-Stage Alignment with Regular Safety Reflection事前学習段階で安全反映、安全データを超えるアライメントを探るLLM のより深い安全アライメントのため、安全介入を事前学習段階へ前倒しする研究が進む。多くは危険データの除去や安全な形への書き換えに頼る。本研究は「安全データ」を超え、事前学習中に定期的な安全リフレクションを組み込むことで、より根本的な安全性の獲得を目指す。