学習・ファインチューニング (2 / 4 ページ)｜AI/Tech動向まとめ

arXiv cs.AI (Artificial Intelligence) · 2026-07-30 EN 新モデル・リリース

On-Policy and Off-Policy Learning for Large Action Spaces

検索拡張生成 (RAG)

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-30 EN 推論・効率化

Why Are GUI Agents Correct but Late? Decode on the Decision-Time Critical Path, Tested with Pre-Compiled Policy Trees

AI エージェント深層学習ニューラルネットワーク人間のフィードバックによる強化学習 (RLHF) ソフトウェア工学

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-30 EN 学習・ファインチューニング

ShadowDancer: Teaching Video World Models Any Action by Learning Unified Dynamics Representations from a Video and Its Shadow

ファインチューニングニューラルネットワーク強化学習

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-30 EN 学習・ファインチューニング

HARGO: Heterogeneity-Aware Reward-Guided Optimization for RL Post-Training of LLMs on HPC Tasks

ファインチューニング機械学習ニューラルネットワーク強化学習ソフトウェア工学

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-30 EN 学習・ファインチューニング

Filling the Pareto-Optimal Front for Affordance Segmentation on Embedded Devices Using RGB-D Cameras

ファインチューニング強化学習

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-30 EN 推論・効率化

CACHE-UK: A Stability-Aware Memory Editor for Sequentially Updated Quantized LLMs in Finance

Llama 量子化

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-30 EN インフラ・ハードウェア

Agentic Method for Deterministic Validation of Legacy Code Migration

ニューラルネットワーク検索拡張生成 (RAG) 強化学習

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-30 EN 推論・効率化

Understanding Is Done Early: A Depth Division of Labor in Large Language Models and Its Use for Unbounded-Context Memory

深層学習機械学習 NVIDIA ソフトウェア工学 Transformer

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-30 EN 学習・ファインチューニング

LM-GRASP: Instance-Specific Language Models for Combinatorial Construction via Online Imitation Learning

機械学習 Meta 検索拡張生成 (RAG) 強化学習 Transformer

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-30 EN 学習・ファインチューニング

Beyond Rephrasing: Book-Level Organization Improves Synthetic Textbook Data for Mid-Training

Llama ニューラルネットワーク検索拡張生成 (RAG)

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-30 EN 推論・効率化

From Expert Reduction to Behavioral Divergence: Tracing Numerical State through Sparse MoE Inference

DeepSeek 推論 (Inference) Mixture of Experts (MoE) 人間のフィードバックによる強化学習 (RLHF)

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-30 EN 新モデル・リリース

LEEPS: Latent-Guided Explore-Exploit Prompt Sampling for Efficient RLVR in Large Language Models

深層学習検索拡張生成 (RAG) 強化学習

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-30 EN 新モデル・リリース

GVR-Coder: A Visual-Feedback Framework for Structured SVG Generation in Complex Document and Meeting Scenarios

ファインチューニング強化学習

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-30 EN 推論・効率化

SemPIC: Learning Semantic Position-Independent KV Caches

深層学習ニューラルネットワーク

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-30 EN 推論・効率化

A Query-Efficient Stochastic Volume Rendering Framework for Time-Varying Implicit Neural Volumes

推論 (Inference)

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-30 EN 新モデル・リリース

Contrastive Reinforced Policy Optimization via Privileged Self-Distillation

検索拡張生成 (RAG) 強化学習

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-30 EN 業界導入・応用

Building a User Foundation Model for the Open Web

検索拡張生成 (RAG) Transformer

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-30 EN 学習・ファインチューニング

TriShield: Zero-Utility-Loss Defense Against Privacy Backdoors in Federated Language Model Fine-Tuning via Orthogonal Gradient Projection and Optimizer State Entanglement

ファインチューニング

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-30 EN 新モデル・リリース

Harnessing the Potential of Optimizing Data Mixtures via Bayesian Domain Reweighting

強化学習

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-30 EN 新モデル・リリース

Memory Decoder at Scale: A Pretrained, Parametric Long-Term Memory

ニューラルネットワーク検索拡張生成 (RAG)

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-30 EN 学習・ファインチューニング

FinanceHarness: Autonomous Financial Deep Research Framework

AI エージェント

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-30 EN 学習・ファインチューニング

Reasoning Consensus: Structural Ensembling of LLM Reasoning via Weighted DAG Aggregation

ニューラルネットワークソフトウェア工学

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-30 EN 新モデル・リリース

Cocktail-Talker: Multi-Speaker Dialog Modeling in Noisy Social Environments with Turn Action GRPO

ファインチューニング強化学習音声処理

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-30 EN 新モデル・リリース

Baikal: Structured Search for Deep Research over Data Lakes

GPT

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-30 EN 学習・ファインチューニング

Tight Sample Complexity for Low-Rank Adaptation: Matching Bounds and Rank Selection

深層学習ファインチューニング機械学習ソフトウェア工学

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-30 EN 学習・ファインチューニング

Training Skills Like Parameters via Self-Supervised Semantic Diffusion

ファインチューニングニューラルネットワーク検索拡張生成 (RAG) 強化学習

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-29 EN 学習・ファインチューニング

Do You Really Need to Pretrain Q-Functions for Online RL Fine-Tuning?

ファインチューニング機械学習検索拡張生成 (RAG) 強化学習

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-29 EN 学習・ファインチューニング

DenseOn with the LateOn: Fully Open Dense and Late-Interaction Models for Multilingual, Long-Context, and Code Search

ファインチューニング機械学習検索拡張生成 (RAG)

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-29 EN 新モデル・リリース

Partner Capability Estimation for Task-Agnostic Adaptation in Ad-Hoc Teamwork

AI エージェント深層学習ニューラルネットワーク

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-29 EN 推論・効率化

Improving Item Discoverability in e-Commerce Search via Related Intent Generation

推論 (Inference) 検索拡張生成 (RAG) 強化学習

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗