安全性・評価 (3 / 4 ページ)｜AI/Tech動向まとめ

arXiv cs.CL (Computation and Language) · 2026-07-29 EN 学習・ファインチューニング

Constitutional Midtraining: Content Presence Drives Alignment Gains

Anthropic ファインチューニング機械学習検索拡張生成 (RAG)

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-29 EN 安全性・評価

Prosody-driven Jailbreaks in Audio LLMs: A Controlled Study and Mechanistic Analysis

GPT 音声処理

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-29 EN 学習・ファインチューニング

Misalignment Has a Personality: A Big Five Account of Emergent Misalignment

深層学習ファインチューニング強化学習ソフトウェア工学

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-29 EN マルチモーダル

Symphony of Bias: Exploring Gender Associations with Musical Instruments in Multimodal LLMs

ニューラルネットワーク強化学習

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN 安全性・評価

Aligning LLM-Simulated and Human Examinees for Psychometric Calibration: A Cognitive Diagnostic Profiling Approach

Gemini 強化学習

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-28 EN マルチモーダル

VetClaw: An Edge-Cloud Multimodal Agentic System for Veterinary Disease Screening

コンピュータビジョン深層学習強化学習

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-28 EN 新モデル・リリース

Falling Behind Drives Unsafe Development in an Idealised AI Race Experiment

深層学習

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-28 EN マルチモーダル

Evaluating Multi-Turn Multimodal Diagnostic Reasoning on Challenging Real-World Clinical Cases

機械学習強化学習

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-28 EN マルチモーダル

SAM3D-Guided Object-Centric Representation Alignment for Vision-Language-Action Models

コンピュータビジョン推論 (Inference) 検索拡張生成 (RAG) 強化学習

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-28 EN 推論・効率化

Minimizing Targeted Activations: Input-Only Suppression of Evaluation-Awareness Latents in Large Language Models

推論 (Inference) Llama 機械学習ニューラルネットワークソフトウェア工学

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-28 EN 開発者ツール

How Do LLMs Read Bug Reports? An Empirical Study of Attention in LLMs for Automated Program Repair

深層学習 Meta 強化学習ソフトウェア工学

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN 新モデル・リリース

Shieldstral

強化学習ソフトウェア工学

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN 安全性・評価

Evaluation of Adversarial Robustness in Arabic Language Models

自然言語処理 (NLP) 検索拡張生成 (RAG) 強化学習

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-28 EN インフラ・ハードウェア

Rashomon Alignment

アルゴリズム・理論機械学習強化学習

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN 安全性・評価

AI's Capability in Assisting Scientific Research in Physics, Astrophysics, and Cosmology I: Literature Review

Gemini GPT Meta 強化学習

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN 安全性・評価

Construction-Driven Injection: Linguistically-Grounded Edit-Based Code-Mixing Fingerprints for Large Language Models

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN 学習・ファインチューニング

MemSFT: Mitigating Alignment Tax with an External Parametric Memory

ファインチューニング

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN 安全性・評価

Evaluation of forced alignment of code-mixed speech: the case of Hindi-English

音声処理

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN 推論・効率化

IRIS: Reusable Identity Representations from Frozen LLMs for Entity Alignment

推論 (Inference) 強化学習

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-28 EN 新モデル・リリース

AMPBench-MT: A Homology-Controlled Benchmark for Antimicrobial Peptide Potency, Spectrum, and Safety Prediction

埋め込み (Embeddings) ニューラルネットワーク人間のフィードバックによる強化学習 (RLHF)

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN 新モデル・リリース

Phase Structure in Rotary Attention: A Spectral Framework for Semantic Continuity and Execution-Boundary Governance

埋め込み (Embeddings) 機械学習ニューラルネットワーク Transformer

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN エージェント・ツール使用

PatientAgentBench: A Benchmark Framework for Evaluating Patient-Facing Health AI Agents

AI エージェントニューラルネットワークソフトウェア工学

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-28 EN 安全性・評価

Data-Dependent Regret and Polyak Corrections for Constrained Online Convex Optimization

ニューラルネットワーク

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-28 EN 安全性・評価

Emergent Latent-State Computation under Stochastic Volatility

Transformer

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN 安全性・評価

Inspect India Evals: An Open Benchmarking Framework for Evaluating Large Language Models in the Indian Linguistic and Cultural Context

機械学習 Meta

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN 新モデル・リリース

MyoCardBench: A Real-World Data Benchmark for Evaluating Large Language Models in Clinically Authentic Cardiovascular Care Scenarios

Gemini GPT ニューラルネットワーク検索拡張生成 (RAG) 強化学習

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

ITmedia AI+ · 2026-07-27 JA 安全性・評価抜粋

NVIDIAやMicrosoftなど30社超、オープンAIの防御ツール共同開発の「Open Secure AI Alliance」設立

NVIDIAやMicrosoftなど30社超、AI防御ツール共同開発の「Open Secure AI Alliance」設立

Microsoft NVIDIA

NVIDIA、Microsoft、SpaceX AIなど30社超が、AIオープンモデルの安全性向上とサイバーセキュリティツールの共同開発を目指すイニシアチブ「Open Secure AI Alliance」を設立した。オープンな技術を活用してソフトウェアの脆弱性修正や防御ツールの共同開発を推進し、オープンモデルを過度な規制に対する防御資産として位置づけ、その重要性を主張する。

元記事を読む (ITmedia AI+) ↗

arXiv cs.CL (Computation and Language) · 2026-07-27 EN 学習・ファインチューニング

Towards Robust Reinforcement Learning for Small-Scale Language Model Agents

AI エージェントファインチューニングニューラルネットワーク強化学習

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-27 EN マルチモーダル

Evidence Attribution in Visual Document Understanding without Coordinates or Region Labels

コンピュータビジョンソフトウェア工学

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-27 EN 安全性・評価

D-Score: A Spectral Hidden-State Signal for Hallucination Detection in Large Language Models

ニューラルネットワーク検索拡張生成 (RAG)