Training & Fine-tuning (Page 2 of 4)｜AI/Tech News Trends

arXiv cs.AI (Artificial Intelligence) · 2026-07-30 EN New Model Releases

On-Policy and Off-Policy Learning for Large Action Spaces

Retrieval-Augmented Generation (RAG)

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-30 EN Inference & Efficiency

Why Are GUI Agents Correct but Late? Decode on the Decision-Time Critical Path, Tested with Pre-Compiled Policy Trees

AI Agents Deep Learning Neural Network Reinforcement Learning from Human Feedback (RLHF) Software Engineering

Read original (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-30 EN Training & Fine-tuning

ShadowDancer: Teaching Video World Models Any Action by Learning Unified Dynamics Representations from a Video and Its Shadow

Fine-tuning Neural Network Reinforcement Learning

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-30 EN Training & Fine-tuning

HARGO: Heterogeneity-Aware Reward-Guided Optimization for RL Post-Training of LLMs on HPC Tasks

Fine-tuning Machine Learning Neural Network Reinforcement Learning Software Engineering

Read original (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-30 EN Training & Fine-tuning

Filling the Pareto-Optimal Front for Affordance Segmentation on Embedded Devices Using RGB-D Cameras

Fine-tuning Reinforcement Learning

Read original (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-30 EN Inference & Efficiency

CACHE-UK: A Stability-Aware Memory Editor for Sequentially Updated Quantized LLMs in Finance

Llama Quantization

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-30 EN Infrastructure & Hardware

Agentic Method for Deterministic Validation of Legacy Code Migration

Neural Network Retrieval-Augmented Generation (RAG) Reinforcement Learning

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-30 EN Inference & Efficiency

Understanding Is Done Early: A Depth Division of Labor in Large Language Models and Its Use for Unbounded-Context Memory

Deep Learning Machine Learning NVIDIA Software Engineering Transformer

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-30 EN Training & Fine-tuning

LM-GRASP: Instance-Specific Language Models for Combinatorial Construction via Online Imitation Learning

Machine Learning Meta Retrieval-Augmented Generation (RAG) Reinforcement Learning Transformer

Read original (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-30 EN Training & Fine-tuning

Beyond Rephrasing: Book-Level Organization Improves Synthetic Textbook Data for Mid-Training

Llama Neural Network Retrieval-Augmented Generation (RAG)

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-30 EN Inference & Efficiency

From Expert Reduction to Behavioral Divergence: Tracing Numerical State through Sparse MoE Inference

DeepSeek Inference Mixture of Experts (MoE) Reinforcement Learning from Human Feedback (RLHF)

Read original (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-30 EN New Model Releases

LEEPS: Latent-Guided Explore-Exploit Prompt Sampling for Efficient RLVR in Large Language Models

Deep Learning Retrieval-Augmented Generation (RAG) Reinforcement Learning

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-30 EN New Model Releases

GVR-Coder: A Visual-Feedback Framework for Structured SVG Generation in Complex Document and Meeting Scenarios

Fine-tuning Reinforcement Learning

Read original (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-30 EN Inference & Efficiency

SemPIC: Learning Semantic Position-Independent KV Caches

Deep Learning Neural Network

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-30 EN Inference & Efficiency

A Query-Efficient Stochastic Volume Rendering Framework for Time-Varying Implicit Neural Volumes

Inference

Read original (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-30 EN New Model Releases

Contrastive Reinforced Policy Optimization via Privileged Self-Distillation

Retrieval-Augmented Generation (RAG) Reinforcement Learning

Read original (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-30 EN Industry Adoption

Building a User Foundation Model for the Open Web

Retrieval-Augmented Generation (RAG) Transformer

Read original (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-30 EN Training & Fine-tuning

TriShield: Zero-Utility-Loss Defense Against Privacy Backdoors in Federated Language Model Fine-Tuning via Orthogonal Gradient Projection and Optimizer State Entanglement

Fine-tuning

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-30 EN New Model Releases

Harnessing the Potential of Optimizing Data Mixtures via Bayesian Domain Reweighting

Reinforcement Learning

Read original (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-30 EN New Model Releases

Memory Decoder at Scale: A Pretrained, Parametric Long-Term Memory

Neural Network Retrieval-Augmented Generation (RAG)

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-30 EN Training & Fine-tuning

FinanceHarness: Autonomous Financial Deep Research Framework

AI Agents

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-30 EN Training & Fine-tuning

Reasoning Consensus: Structural Ensembling of LLM Reasoning via Weighted DAG Aggregation

Neural Network Software Engineering

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-30 EN New Model Releases

Cocktail-Talker: Multi-Speaker Dialog Modeling in Noisy Social Environments with Turn Action GRPO

Fine-tuning Reinforcement Learning Speech Processing

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-30 EN New Model Releases

Baikal: Structured Search for Deep Research over Data Lakes

GPT

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-30 EN Training & Fine-tuning

Tight Sample Complexity for Low-Rank Adaptation: Matching Bounds and Rank Selection

Deep Learning Fine-tuning Machine Learning Software Engineering

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-30 EN Training & Fine-tuning

Training Skills Like Parameters via Self-Supervised Semantic Diffusion

Fine-tuning Neural Network Retrieval-Augmented Generation (RAG) Reinforcement Learning

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-29 EN Training & Fine-tuning

Do You Really Need to Pretrain Q-Functions for Online RL Fine-Tuning?

Fine-tuning Machine Learning Retrieval-Augmented Generation (RAG) Reinforcement Learning

Read original (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-29 EN Training & Fine-tuning

DenseOn with the LateOn: Fully Open Dense and Late-Interaction Models for Multilingual, Long-Context, and Code Search

Fine-tuning Machine Learning Retrieval-Augmented Generation (RAG)

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-29 EN New Model Releases

Partner Capability Estimation for Task-Agnostic Adaptation in Ad-Hoc Teamwork

AI Agents Deep Learning Neural Network

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-29 EN Inference & Efficiency

Improving Item Discoverability in e-Commerce Search via Related Intent Generation

Inference Retrieval-Augmented Generation (RAG) Reinforcement Learning

Read original (arXiv cs.AI (Artificial Intelligence)) ↗