安全性・評価 A
317 件中 121〜150 件目を表示
-
RTSGameBench: An RTS Benchmark for Strategic Reasoning by Vision-Language Models視覚言語モデルの戦略的推論を測るRTSベンチマーク最新の視覚言語モデル(VLM)は戦略的な推論を苦手とする。RTSGameBenchはリアルタイムストラテジー(RTS)ゲームを題材に、状況判断や計画立案といったVLMの戦略的推論能力を評価するベンチマークを提供する。
-
SenFlow: Inter-Sentence Flow Modeling for AI-Generated Text Detection in Hybrid Documents混在文書のAI生成文検出へ文間フローを捉える「SenFlow」人間とAIの文が混在する文書では、文単位でのAI生成文検出(S-AGTD)が難しい。SenFlowは文と文のつながり(フロー)をモデル化し、文脈的な流れの不自然さから混在文書中のAI生成文をより正確に検出する手法を提案する。
-
Graph-ESBMC-PLC: Formal Verification of Graphical PLCopen XML Ladder Diagram Programs Using SMT-Based Model CheckingPLCopen XMLラダー図をSMTで形式検証する手法PLCopen XMLはIEC 61131-3のラダー図に二つの符号化形式を定める。本研究はSMTに基づくモデル検査を用い、グラフィカルなPLCopen XMLラダー図プログラムを形式的に検証する手法Graph-ESBMC-PLCを提案し、産業制御ソフトの正当性検証を支援する。
-
SciRisk-Bench: A Risk-Dimension-Aware Benchmark for AI4Science SafetyAI for Scienceの安全性をリスク次元別に測る「SciRisk-Bench」大規模言語モデルが科学研究(AI4Science)に組み込まれる中、その安全性評価が重要になっている。SciRisk-Benchはリスクの次元を意識し、科学応用におけるLLMの安全性を多角的に評価するベンチマークを提供する。
-
REVES: REvision and VErification--Augmented Training for Test-Time Scaling逐次修正によるテスト時スケーリングを強化する「REVES」逐次的に出力を修正するテスト時スケーリングは有力な手法として注目される。REVESは修正と検証を組み込んだ訓練法を提案し、モデルが自らの出力を見直し検証する能力を高めることで、テスト時の追加計算をより効果的に性能向上へ結び付ける。
-
SAGE: Stochastic Prompt Optimization via Agent-Guided Explorationエージェント探索による確率的プロンプト最適化「SAGE」文脈設計(コンテキストエンジニアリング)はAIシステムの性能を引き上げる主要な手段となっている。SAGEはエージェントが探索を導く確率的なプロンプト最適化手法を提案し、効果的なプロンプトを自動的に発見してタスク性能を改善する。
-
The State of Fable, The Jailbreak Problem, SpaceX Acquires CursorStratechery、Fableの現状・ジェイルブレイク問題・SpaceXのCursor買収を論じるBen ThompsonのStratecheryが3つの話題を取り上げる週次論考。AnthropicのモデルFableの現状、AIのジェイルブレイク(脱獄)問題、そしてSpaceXによるCursorの買収を論じる。筆者は「行政当局のFableに対する見方はおそらく誤りだが、最終的にはAnthropicの責任だ」と指摘する。各論点は筆者の見解ベースで、買収の詳細・数値は第三者検証は未確認。
-
Aligning Implied Statements for Implicit Hate Speech Generalizability with Context-Bounded Semi-hard Negative Mining含意の整合と半硬負例採掘で暗黙的ヘイト検出を一般化暗黙的なヘイトスピーチの分類は、意図が明示されないため難しい。本研究は文が含意する内容を整合させ、文脈を限定した半硬い負例の採掘を組み合わせることで、暗黙的ヘイト検出の汎化性能を高める手法を提案する。
-
Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning長文脈強化学習のためのデータレシピ長い文脈にわたる推論は大規模言語モデルに不可欠な能力である。本研究は報酬設計に頼り過ぎず、学習データの構成(データレシピ)を工夫することで長文脈の強化学習を効果的に進める方法を示す。
-
GateMem: Benchmarking Memory Governance in Multi-Principal Shared-Memory Agents多主体共有メモリのガバナンスを測る「GateMem」LLMエージェントのメモリ評価は単一ユーザーを前提とすることが多く、複数主体が共有するメモリの統制は見落とされがちである。GateMemは複数主体が共有するメモリのガバナンス(アクセス制御や管理)を評価するベンチマークを提供する。
-
Beyond Scalar Scores: Exploring LLM-based Metrics for Clinical Significance Evaluation in Radiology Reports放射線レポートの臨床的意義をLLM指標で評価生成された放射線レポートの信頼できる評価には厳密な臨床的妥当性が求められる。本研究は単純なスカラースコアを超え、臨床的意義を評価するLLMベースの指標を検討し、レポート生成の品質をより臨床に即して測ることを目指す。
-
RedactionBench機微情報の墨消し能力を測る「RedactionBench」大規模言語モデルは個人情報など機微なデータを扱う領域に応用が広がっている。RedactionBenchはこうした文脈で必要となる機微情報の墨消し(リダクション)能力を評価するベンチマークを提供し、安全な運用に向けた検証を支援する。
-
SAMA: Semantic Anchor-aligned Augmentation for Unified Low-Resource Multimodal Information Extraction低資源マルチモーダル情報抽出の意味アンカー拡張「SAMA」マルチモーダル情報抽出(MIE)は多様なタスクを含むが、低資源環境では学習データが不足する。SAMAは意味的なアンカーに整合させたデータ拡張を提案し、低資源条件でも統一的にマルチモーダル情報抽出の性能を高める。
-
LegalWorld: A Life-Cycle Interactive Environment for Legal Agents法務エージェント向けライフサイクル型環境「LegalWorld」民事訴訟は本質的にライフサイクルを伴うプロセスで、弁護士が作成する書面は段階ごとに連関する。LegalWorldはこうした訴訟の全工程を対象とする対話的な環境を提供し、法務エージェントを一連の流れの中で評価・訓練できるようにする。
-
Morpheus: A Morphology-Aware Neural Tokenizer and Word Embedder for Turkishトルコ語向け形態素対応トークナイザ「Morpheus」トルコ語は膠着語で、意味は形態素によって担われるが、一般的なサブワード分割はこれを十分に捉えられない。Morpheusは形態素を意識したニューラルなトークナイザと単語埋め込みを提案し、トルコ語処理の精度向上を図る。
-
LLMs Struggle to Measure What Distinguishes Students of Different Proficiency Levels: A Study of Item Discrimination in Reading Comprehension AssessmentLLMは読解問題の識別力指標の測定に苦戦識別力は教育的評価における基本的な心理測定特性で、習熟度の異なる学習者を見分ける力を表す。本研究は読解問題において、大規模言語モデルがこの項目識別力を測ることが難しいことを示し、自動評価の限界を指摘する。
-
TW-LegalBench: Measuring Taiwanese Legal Understanding台湾の法理解を測る「TW-LegalBench」大規模言語モデルは多様な領域で高い能力を示すが、地域固有の法制度への理解は十分に検証されていない。TW-LegalBenchは台湾の法律に関する理解度を測定するベンチマークを提供し、法務応用に向けたモデルの地域適応を評価する。
-
ForecastBench-Sim: A Simulated-World Forecasting Benchmark模擬世界で予測力を測る「ForecastBench-Sim」汎用AIの予測ベンチマークは現実世界の事象を題材にするため、評価の再現や統制が難しい。ForecastBench-Simはシミュレートされた世界を用いた予測ベンチマークを提案し、統制された条件下でAIの予測能力を評価できるようにする。
-
Introducing LifeSciBenchOpenAI、生命科学研究の AI 能力を測る LifeSciBench を公開OpenAI は、AI システムが実際の生命科学研究の課題や判断をどう扱えるかを評価するベンチマーク「LifeSciBench」を発表した。専門家が作成・査読した内容で、現実の研究タスクに即した難度を備える。生命科学分野での AI の実用性を厳密に検証する狙い。
-
ReproRepo: Scaling Reproducibility Audits with GitHub Repository IssuesReproRepo、GitHub課題で再現性監査をスケール論文とコードの再現は科学に不可欠だが既存ベンチマークは規模拡大が難しい。本研究はGitHubリポジトリのIssueを活用し、LLMエージェントが再現支援をどこまで行えるかを大規模に評価する枠組みReproRepoを提案する。
-
Darshana Graph: A Parallel Commentary Corpus for Comparative Indian Philosophy, with Stylometric and Exploratory Graph AnalysesDarshana Graph、印度哲学の並列注釈コーパスを構築ヒンドゥー・仏教・ジャイナの古典哲学伝統にまたがる12.5万件超のテキスト記録から成るコーパスDarshana Graphを公開。パブリックドメイン等の翻訳を基に、比較印度哲学のための文体計量およびグラフ解析を行う。
-
Zone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients勾配でなくプロンプトで教師を使う近接方策最適化知識蒸留は小さな生徒モデルで脆く、大教師のロジット模倣は鋭いモードに集中し汎化を損なう。本研究は教師を勾配ではなくプロンプト内で活用する近接方策最適化(ZPPO)を提案し、小生徒域での汎化改善を狙う。
-
Rethinking Dataset Distillation for Classification: Do Distilled Sets Outperform Coresets?分類のデータセット蒸留はコアセットを超えるか検証データセット蒸留はコンパクトな訓練集合を合成しデータ中心の機械学習を効率化する。本論文は分類タスクで蒸留集合が実データ部分集合(コアセット)を本当に上回るのかを再検討し、その条件を問う。
-
Fixed-Point Reasoners: Stable and Adaptive Deep Looped Transformersループ型Transformerの信号伝播問題を改善する手法FPRMを提案段階的推論に適したループ型アーキテクチャが、深さに起因する信号伝播問題を抱える点に着目し、pre-norm層と残差スケーリングで対処する論文。これらの改良に基づくTransformerモデルFPRMを提案すると述べる。
-
Analyzing and Encoding the Al-Mawrid Arabic-English Dictionary with the ISO Language Markup Framework and TEI Lex-0Al-Mawrid辞書をISO LMF・TEI Lex-0で計算機可読化レガシーな印刷辞書Al-Mawrid(アラビア語-英語)をISO言語マークアップ枠組みとTEI Lex-0で体系的にデジタル化・符号化する手法を提示。アラビア語の語彙基盤の不足を埋め、標準化された計算機用辞書へ変換する。
-
RubricsTree: Scalable and Evolving Open-Ended Evaluation of Personal Health Agents across Health Memory and Medical SkillsRubricsTree、個人健康エージェントの開放型評価を拡張センサ指標を伴うLLMの個人健康エージェントは医療格差緩和に期待されるが、開放型評価のボトルネックが大規模臨床展開を妨げる。RubricsTreeは健康メモリと医療スキルにまたがるスケーラブルで進化的な開放型評価を提案する。
-
A Red-Team Study of Anthropic Fable 5 & Opus 4.8 ModelsAnthropic Fable 5・Opus 4.8の堅牢性を赤チーム評価Anthropicの2つのフロンティアLLM(Fable 5、Opus 4.8)を対象に、複数系統の自動ジェイルブレイク攻撃に対する敵対的堅牢性を多カテゴリの有害意図分類体系上で評価した赤チーム研究。手法・数値は論文発表ベースで第三者検証は未確認と明記。
-
The Stanford EDGAR Filings Dataset: Reconstructing U.S. Corporate and Financial Disclosures into Layout-Faithful and Token-Efficient Pretraining DataSEC開示文書を再構成した金融向け事前学習データSEFDを公開高品質な長文コーパスが枯渇する中、SEC提出書類をレイアウト忠実なMultiMarkdownへ再構成したオープンデータセットStanford EDGAR Filings Dataset(SEFD)を提示する論文。金融言語モデルの学習・評価用に監査済み財務諸表などを提供すると述べる。
-
DRFLOW: A Deep Research Benchmark for Personalized Workflow Prediction個別化ワークフロー予測を測るDeep Researchベンチマークを提案Deep Researchシステムの多くが報告書や要約の生成に偏る一方、企業業務は具体的な行動手順の特定を要すると指摘し、個別化ワークフロー予測を評価するベンチマークDRFLOWを導入する論文。手順列としてのワークフロー予測能力を測ると述べる。
-
Multi-Source Cybersecurity Logs: An ATT&CK-Labeled Dataset and SLM EvaluationATT&CK注釈付き多源セキュリティログ集と小型LM評価複数ソースのサイバーセキュリティログにMITRE ATT&CKラベルを付与したデータセットを構築し、小型言語モデル(SLM)での評価を行う研究。タイトルベースの中立要約で、詳細・数値は原論文発表ベース・第三者検証は未確認と明記。