Inference & Efficiency (Page 4 of 6)｜AI/Tech News Trends

arXiv cs.CL (Computation and Language) · 2026-07-30 EN Inference & Efficiency

A Sparse Glimpse of the Whole: Train-Free Self-Speculative Decoding

Inference

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-30 EN New Model Releases

Recall Before You Rank: Similarity-Guided Top-$K$ Reuse for Efficient Long-Context Attention

Reinforcement Learning

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-30 EN Inference & Efficiency

Beyond Similarity: Grounded Agentic Extraction and Expert-Adjudicated Evaluation of Intertextuality in Classical Chinese Histories

Inference Neural Network

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-30 EN Inference & Efficiency

Prox: Training-Free FFN Activation Sparsity via Approximate Intermediate-Channel Salience in LLMs

Inference Neural Network Quantization

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-29 EN Infrastructure & Hardware

From Classification to Regression: Using a Fruitfly to Solve Equations

Embeddings Inference Retrieval-Augmented Generation (RAG)

Read original (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-29 EN Inference & Efficiency

Improving Item Discoverability in e-Commerce Search via Related Intent Generation

Inference Retrieval-Augmented Generation (RAG) Reinforcement Learning

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-29 EN New Model Releases

OmegaUse-OfficeVal: Benchmarking LLM Agents on Long-Horizon Office-Suite Tasks with Economic Grounding

AI Agents Inference Retrieval-Augmented Generation (RAG)

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-29 EN Inference & Efficiency

Minimal Markovization via Stable Quotients in Holonomy-Cover Decision Processes

Inference Reinforcement Learning

Read original (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-29 EN New Model Releases

InferScale: GPU-Native KV Injection for Personalized LLM Serving

Deep Learning Embeddings Fine-tuning GPT Inference

Read original (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-29 EN Safety & Evaluation

On-Policy Distillation for LLM Safety: A Routing Approach to Template-Robust Realignment

Fine-tuning Neural Network

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-29 EN Inference & Efficiency

CoCaRS: Correlation Calibration-Based Redundancy Suppression for Heterogeneous Knowledge Distillation

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-29 EN Inference & Efficiency

Mitigating Compounding Error via Video Representation Regularization

Inference Neural Network Reinforcement Learning Robotics

Read original (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-29 EN New Model Releases

Generation or Judgement? A Paradigm Perspective on LLM-Based Emotion-Cause Pair Extraction in Conversation

Deep Learning Inference

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-29 EN New Model Releases

Belief-Guided Decision Making with Uncertainty Gating in the Game of Go

Deep Learning Inference Neural Network Reinforcement Learning Transformer

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-29 EN Inference & Efficiency

DIRECT: Direct Decoding for Efficient and Aligned Sequence Labeling with Large Language Models

Fine-tuning Inference Reinforcement Learning from Human Feedback (RLHF)

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-29 EN New Model Releases

SERPO: Self-Evolving Rubric Policy Optimization for Open-Ended Test-Time Reinforcement Learning

Inference Neural Network Retrieval-Augmented Generation (RAG) Reinforcement Learning Software Engineering

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-29 EN Inference & Efficiency

No Data Is Not No Risk: Visibility Aware Graph-Based Inference of Business Conduct Risk

Inference Retrieval-Augmented Generation (RAG) Reinforcement Learning

Read original (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-29 EN New Model Releases

Budget-Aware LLM Discovery via Cost-Calibrated Frontier Utility

GPT Inference

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-29 EN New Model Releases

From Found to Designed: Concepts as a Design Axis for Large Language Models

Inference

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-29 EN Inference & Efficiency

FedTopo: Relation-Level Topology Sharing for Model-Heterogeneous Federated Learning

Inference Neural Network

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-29 EN New Model Releases

See2Think: Do Multimodal Models Really Use Intermediate Visual States?

Inference Neural Network Retrieval-Augmented Generation (RAG) Reinforcement Learning Software Engineering

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-29 EN Developer Tools

MediaWiki Code2Code Search: Neural Retrieval for the Semantic Discovery of Open-Source Software Entities

Deep Learning

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-29 EN New Model Releases

Metis: Memory Foundation Model

AI Agents Inference Reinforcement Learning

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-29 EN Infrastructure & Hardware

AgenticCANN: Automated Ascend C Operator Generation via Knowledge-Augmented Agentic Evolution

Inference Neural Network

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-29 EN Inference & Efficiency

Filesystem-Based Memory for LLM Agents: Organization, Evolution, and Sustainability

AI Agents Software Engineering

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-29 EN Inference & Efficiency

Revisiting Lossy Verification in Speculative Decoding: Mechanisms, Trade-offs, and Failure Modes

Inference

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-29 EN Training & Fine-tuning

FedWeave: Rethinking the Unit of Specialization in Heterogeneous Federated MoE-LoRA

Inference Mixture of Experts (MoE) Retrieval-Augmented Generation (RAG) Reinforcement Learning

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-29 EN Inference & Efficiency

Where Detectors Fail: Closing the Tail-Domain Gap with Expert-Guided Mutual Distillation

Neural Network Retrieval-Augmented Generation (RAG) Reinforcement Learning

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-29 EN Inference & Efficiency

Which RAG Paradigm Wins at Scale? A Scaling Study of Retrieval-Augmented Generation Paradigms

Retrieval-Augmented Generation (RAG) Reinforcement Learning Software Engineering

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-29 EN Inference & Efficiency

Voice Memory for Agentic Speech Recognition

Inference Speech Processing

Read original (arXiv cs.CL (Computation and Language)) ↗