安全性・評価 A
322 件中 31〜60 件目を表示
-
Quantum ring all-reduce: communication and privacy advantages for distributed learning量子通信による分散学習向けのリングAll-Reduceを提案本論文は、分散学習向けに量子通信を用いたリングAll-Reduce方式を提案する。量子通信により分散学習を通信効率の面でも情報理論的なプライバシーの面でも改善できると論じ、古典・量子いずれの設定についても検討する。
-
A Model-Driven Approach for Developing Families of Reinforcement Learning Environments強化学習環境のファミリーを開発するモデル駆動手法を提案本論文は、強化学習(RL)環境のファミリーを開発するためのモデル駆動アプローチを提案する。仮想訓練環境をソフトウェア集約的なシステムとして捉え、実世界での訓練に代わる安全で費用対効果の高い環境の構築を、より体系的に行うことを狙う。
-
Statistical Properties of Training & Generalization深層学習の訓練と汎化の統計的性質を物理的観点で考察本論文は、深層学習の訓練と汎化に見られる重要な特徴や直感に反する現象を、物理学的(physics-informed)な観点から考察する。深層学習が古典統計学の直感から外れて高い実性能を達成する様子を分析し、可能な限りその根拠を示す。
-
Shifting-based Optimizable Linear Relaxations for General Activation Functions一般の活性化関数に使えるシフトベースの最適化可能な線形緩和本論文は、ニューラルネットワークの形式検証に用いる、一般の活性化関数向けの最適化可能な線形緩和を、シフトに基づいて構成する手法を提案する。活性化関数ごとに手作りの緩和を要する既存手法の制約を解消し、安全性・セキュリティが重要な場面での形式保証を支える。
-
PsyScore: A Psychometrically-Aware Framework for Trait-Adaptive Essay Scoring and ZPD-Scaffolded Feedback心理測定を取り入れた特性適応型の作文採点・足場かけ手法PsyScore本論文は、心理測定(psychometrics)を意識した自動作文採点の枠組み「PsyScore」を提案する。書き手の特性に適応して採点し、最近接発達領域(ZPD)に基づく足場かけ型フィードバックを与える。採点とフィードバックを別個に扱ってきた従来手法を統合し、信頼できる評価と解釈可能な指導の両立を狙う。
-
Editorial Alignment: A Participatory Approach to Engaging Editorial Expertise in LLM-mediated Knowledge DisseminationLLM媒介の知識普及に編集者の専門性を取り込む参加型手法LLM駆動の情報サービスは公共知識の生成条件を変えつつある。本研究は編集者の専門性を参加型に取り込み、LLM媒介の知識普及を整合させる枠組みを示す。
-
The Register Gap: A Meaning Intelligence Framework for Nigerian Public Discourseナイジェリア公共言説向けの意味知能枠組みThe Register Gap本研究は9次元の注釈・評価体系である意味知能枠組み(MIF)を導入し、ナイジェリアの公共言説における言語使用域の差(レジスターギャップ)を分析する。
-
Finetuning Vision-Language-Action Models Requires Fewer Layers Than You ThinkVLAモデルの微調整は想定より少ない層で足りる膨大な動画ロボットデータで事前学習されたVLAモデルはロボット制御を革新した。本研究は、その微調整に必要な層数が想定より少なくて済むことを示す。
-
ScholarQuest: A Taxonomy-Guided Benchmark for Agentic Academic Paper Search in Open Literature Environments開かれた文献環境でのエージェント論文探索ベンチScholarQuest学術論文探索は研究の中核段階であり、LLMベースの探索エージェントが台頭している。ScholarQuestは分類体系に基づくエージェント論文探索のベンチマークを提供する。
-
QMFOL: Benchmarking Large Language Model Reasoning via Quantifiable Monadic First-Order Logic Test Case Generation一階論理のテスト生成でLLM推論を測るQMFOLLLMは特に演繹的推論で進歩している。QMFOLは定量可能な単項一階論理のテストケース生成により、LLMの推論能力をベンチマークする。
-
Actionable Activation Directions for Detecting and Mitigating Emergent Misalignment Across Language Model Families活性化方向で言語モデルの創発的ミスアラインメントを検知・緩和本論文は、安全でないコードでの微調整によって生じる言語モデルの創発的ミスアラインメントが、アーキテクチャを越えて共有される因果的に操作可能な活性化空間の方向に対応するかを検証する。四つの命令調整済みモデル系列で、この方向を用いた検知と緩和を検討する。
-
Learner-based Concept Drift Detection: Analysis and Evaluation学習器ベースの概念ドリフト検出の分析と評価進化するストリーミング環境に展開されるMLは非定常性に対処する必要がある。本研究は学習器ベースの概念ドリフト検出を分析・評価する。
-
CzechDocs: A Multiway Parallel Dataset of Formatted Documents for Minority Languages in Czechiaチェコの少数言語向け整形文書の多言語並行データセットCzechDocs本論文は、チェコ語とチェコ国内で使われる少数言語(主にウクライナ語・英語、少量のベトナム語・ロシア語など)を対象に、HTML・DOCX・PDFといった整形済み文書の多方向並行データセット「CzechDocs」を提案する。機械翻訳の評価を支えることを目的とする。
-
Beyond Accuracy: Measuring Logical Compliance of Predictive Models予測モデルの論理的整合性を精度を超えて測る研究MLモデルは主に予測性能の指標で評価されるが、それだけでは不十分。本研究は精度を超えて、予測モデルの論理的整合性を測る方法を提案する。
-
Off-Policy Evaluation for Missingness-Aware Policies in MDPs with Rewards Missing Not at Random報酬が非ランダムに欠損するMDPでのオフ方策評価を扱う本論文は、報酬がランダムでない形で欠損する(missing not at random)有限ホライズンMDPにおけるオフ方策評価(OPE)を研究する。オフライン強化学習で、記録の疎・不規則さや一定値以上の打ち切りにより即時報酬が観測されない、医療やマーケティングなどの状況を想定し、欠損を考慮した方策を扱う。
-
Apparent Psychological Profiles of Large Language Models are Largely a Measurement ArtifactLLMの心理プロファイルは多くが測定アーティファクト人間向けの心理尺度がLLMの性格付けに使われている。本研究は、見かけ上のLLMの心理プロファイルの多くが測定上のアーティファクトに過ぎないことを示す。
-
Pitch Spelling Jazz Lead Sheets, Solo Transcriptions, Classical Piano and Monophonic ScoresMIDI入力から音名・調号・音階を推定するピッチスペリング本論文は、ジャズのリードシート、ソロの採譜、クラシックピアノ、単旋律譜にわたるピッチスペリングと調推定のアルゴリズムを提案する。音高(半音単位)と小節境界を含むMIDI様の入力から、適切な音名、全体の調号、局所的な音階を推定する。
-
HilDA: Hierarchical Distillation with Diffusion for Advancing Self-Supervised LiDAR Pre-trainin自己教師ありLiDAR事前学習を進める階層蒸留HilDA視覚基盤モデルを用いたカメラからLiDARへの知識蒸留は有望。HilDAは拡散を伴う階層蒸留により自己教師ありLiDAR事前学習を前進させる。
-
ReNikud: Audio-Supervised Hebrew Grapheme-to-Phoneme Conversion音声教師ありのヘブライ語書記素音素変換ReNikudを提案本論文は、現代ヘブライ語の書記素音素変換(G2P)に向けた、音声を教師信号とする手法「ReNikud」を提案する。母音をほとんど表記しないアブジャド文字に由来する曖昧さに対処し、まず母音記号(nikud)を予測する従来手法を超える、音声合成向けのG2Pを目指す。
-
NAMESAKES: Probing Identity Memorization in Text-to-Image Modelsテキスト画像モデルの人物記憶を調べるNAMESAKESを提案本論文は、人物名から実在の人物に似た顔を生成しうるテキスト画像(T2I)モデルにおける、本人性の記憶(identity memorization)を調べる研究「NAMESAKES」を提案する。生成顔が記憶由来か捏造かを、正解写真・訓練データ・ホワイトボックスアクセスなしに判別する難しさに取り組み、プライバシー上の懸念を検討する。
-
Learning to Prompt: Improving Student Engagement with Adaptive LLM-based High-School Tutoring教科適応プロンプトでLLMによる高校生指導の関与度を改善本論文は、教科を意識したプロンプトを用いる適応的なLLMベースの高校生向け個別指導システムを開発・評価する。指導の足場かけや生徒の理解度など、書き起こしから抽出した14の教育的特徴に基づき、静的プロンプトでは多様な教科に適応しにくい問題に対処して、生徒の関与度向上を狙う。
-
When Does Streaming Tool Use Help? Characterizing Tool-Intent Stabilization in Streaming Retrieval-Augmented GenerationストリーミングRAGでツール先行実行が効く条件を特徴づける本論文は、ユーザー入力の途中で並行してツール照会を発行し体感遅延を減らすストリーミングRAGにおいて、ツールの先行利用がいつ有効かを特徴づける。その利点は本質的にクエリ依存だと論じ、発話が完了する前にツールの意図がどう安定化するかを分析する。
-
Self-Preference Is Weak or Absent in Verifiable Instruction-Following Revision: A Four-Model Test Under Genuine Authorship検証可能な指示追従の修正で自己選好が弱い/不在と報告本論文は、大規模言語モデルが、検証可能な指示追従の修正において自分の文章への妥当な訂正を拒むかどうかを検証する。実際に自分が書いた文章を対象に四つのモデルで検証し、判定者として自作を好む「自己選好バイアス」が、この修正設定では弱いか存在しないことを示す。
-
IHUBERT: Vector-Based Semantic Deduplication and Domain-Balanced Pretraining for Persian Resourcesペルシャ語向け意味的重複除去とドメイン均衡事前学習のIHUBERT本論文は、RoBERTa-baseエンコーダで一から学習した単言語ペルシャ語の事前学習モデル「IHUBERT」を提案する。ベクトルに基づく意味的な重複除去とドメイン均衡を取り入れた事前学習により、大規模で高品質なペルシャ語コーパスの不足や評価の乏しさという課題に対処する。
-
Improving health intelligence in ChatGPTOpenAI、GPT-5.5 Instant で ChatGPT の健康相談の品質を向上OpenAI は GPT-5.5 Instant により、ChatGPT の健康・ウェルネス分野の応答品質を改善したと発表した。より強力な推論と文脈理解、明確な説明に加え、医師の知見を反映した評価を導入。利用者がより信頼できる健康情報を得られるようにする。
-
Source-Grounded Data Generation for Text-to-JSON LearningテキストからJSON抽出を学ぶための出典準拠データ生成を提案本論文は、長い非構造化文書から情報を構造化されたJSONとして抽出するテキスト→JSON学習に向けて、出典に根ざした(source-grounded)データ生成を提案する。財務報告書や臨床記録など、高価値の情報を非構造化テキストに蓄える分野での活用を狙う。
-
When Lower Privileges Suffice: Investigating Over-Privileged Tool Selection in LLM AgentsLLMエージェントによる過剰権限のツール選択を調査本論文は、LLMエージェントが権限の異なるツールから自律的に選択する際の「過剰権限なツール選択」を調査する。安全性に無関係なメタデータの好みに着目してきた従来研究の隙間を埋め、より低い権限で十分な場面を分析して、安全性に関わる選択を明らかにする。
-
Connect the Dots: Training LLMs for Long-Lifecycle Agents with Cross-Domain Generalization Via Reinforcement Learning長期運用エージェント向けに強化学習でLLMを訓練するCoD本論文は、長期にわたり運用されるエージェント向けに、強化学習で大規模言語モデルを訓練する一般的枠組み「Connect the Dots(CoD)」を提案する。環境を継続的に探索しながら長い一連のタスクを解くというメタ能力を狙い、ドメインを越えた汎化を目指す。
-
Investigating Human-Model Discrepancies in Speech Quality Assessment via Acoustic and Prosodic Perturbations音響・韻律摂動で音声品質評価の人間とモデルの乖離を調査本論文は、音響的・韻律的な制御された摂動を用いて、音声品質評価における人間の判断とMOS予測モデルとの乖離を調査する。TTS研究で代理指標として広く使われるこれらのモデルが、音響的忠実度を超えた品質差を捉えられるかを検証する。
-
Light-weight Pronunciation Assessment via Discrete Speech Token Surprisal離散音声トークンのサプライザルで軽量に発音評価を行う手法本論文は、離散音声トークンのサプライザル(予測のしにくさ)に基づく軽量な自動発音評価の枠組みを提案する。母語話者の音声資源のみで学習し、教師なし、または少数の採点済み発話による軽い較正で動作させることで、収集コストの高い学習者誤りや非母語コーパスへの依存を避ける。