安全性・評価 A
317 件中 91〜120 件目を表示
-
X+Slides: Benchmarking Audience-Conditioned Slide GenerationX+Slides、聴衆に合わせたスライド生成を評価するベンチマーク文書からスライドを自動生成することは LLM の重要な応用だが、既存ベンチマークは主に網羅性や技術的深さを測るにとどまる。本研究は聴衆に条件づけたスライド生成を評価する「X+Slides」を提案し、対象読者に応じた適切さを測る観点を導入する。
-
Acceleration of an algebraic multigrid pressure solver using graph neural networksGNN で代数的マルチグリッドの圧力ソルバを高速化非圧縮性の非構造流体ソルバでは、圧力ポアソン方程式の求解が主要な計算ボトルネックで、従来の線形ソルバはメッシュの不規則性に敏感だ。本研究はグラフニューラルネットワークで代数的マルチグリッド(AMG)の圧力ソルバを加速し、求解の効率を改善する。
-
TxBench-PP: Analyzing AI Agent Performance on Small-Molecule Preclinical PharmacologyTxBench-PP、小分子前臨床薬理での AI エージェント性能を評価AI エージェントは解釈や意思決定のループを短縮し創薬を加速し得るが、実用化には現実的な課題での信頼できる評価が要る。本研究は小分子の前臨床薬理を対象としたベンチマーク「TxBench-PP」を構築し、AI エージェントの性能を体系的に分析する。
-
RECOM: A Validity Discrimination Tradeoff in Automatic Metrics for Open Ended Reddit Question AnsweringRECOM、自動評価指標の妥当性と識別性のトレードオフを分析自動評価指標は LLM 生成文の評価で既定の手段だが、内容の真の一致(妥当性)と表層的偶然の見分け、さらに品質の識別という二役を暗に担わされている。本研究は Reddit の自由回答 QA を題材に、妥当性と識別性のトレードオフ「RECOM」を分析する。
-
When AUC Misleads: Polarization-Aware Evaluation of Deepfake Detectors under Domain ShiftAUC の落とし穴、ドメイン変化下の偏極を考慮し偽動画検出を評価拡散モデルや顔交換ツールの進歩で精巧なディープフェイクが作られ、現実の被害が広がっている。本研究は、ドメインが変化する状況では AUC が検出器の実力を誤って示しうると指摘し、予測の偏極(polarization)を考慮した評価法でディープフェイク検出器を見直す。
-
Language Models as Interfaces, Not Oracles: A Hybrid LLM-ML System for Pediatric AppendicitisLLM は神託でなく接点、小児虫垂炎を診る LLM-ML 融合系LLM は自由記述の文書を解釈して臨床判断支援を身近にするが、プロンプトや情報順序への敏感さから診断エンジンとして直接使うのは限界がある。本研究は LLM を「神託」ではなく「接点(インターフェース)」と位置づけ、小児虫垂炎の診断で LLM と ML を組み合わせる手法を示す。
-
Hardware- and Vision-in-the-Loop Validation of Deep Monocular Pose Estimation for Autonomous Maritime UAV Flight単眼姿勢推定を HIL/VIL 検証、艦上 UAV の自律飛行へ艦船上での UAV 自律運用には信頼できる視覚ベースの相対姿勢推定が要るが、洋上検証は高コストで天候依存・危険を伴う。本研究は深層単眼姿勢推定を、ハードウェアおよびビジョンを組み込んだループ(HIL/VIL)で検証する手法を提示し、安全な開発を支援する。
-
A Clinician-Centered Pipeline for Annotation and Evaluation in Ultrasound AI Studies超音波 AI 研究向け、臨床医中心の注釈・評価パイプライン医療 AI の検証には臨床医中心の評価が不可欠で、特に超音波画像では定量指標が臨床的な使い勝手を捉えきれないことがある。本研究は超音波 AI 研究のための、臨床医を中心に据えた注釈と評価のパイプラインを提案し、実臨床に即した妥当性検証を支える。
-
Beyond Safe Data: Pretraining-Stage Alignment with Regular Safety Reflection事前学習段階で安全反映、安全データを超えるアライメントを探るLLM のより深い安全アライメントのため、安全介入を事前学習段階へ前倒しする研究が進む。多くは危険データの除去や安全な形への書き換えに頼る。本研究は「安全データ」を超え、事前学習中に定期的な安全リフレクションを組み込むことで、より根本的な安全性の獲得を目指す。
-
IndicContextEval: A Benchmark for Evaluating Context Utilisation in Audio Large Language Models Across 8 Indic LanguagesIndicContextEval、音声 LLM の文脈活用を 8 印度語で評価音声 LLM は、ドメイン説明や固有名詞リストなど文章プロンプトを条件に音声認識を行えるが、こうした文脈を本当に活用しているかは不明だ。本研究は 8 つのインド系言語にわたり、音声 LLM の文脈活用能力を評価するベンチマーク「IndicContextEval」を提案する。
-
AdsMind: A Physics-Grounded Multi-Agent System for Self-Correcting Discovery of Adsorption Configurations on Heterogeneous Catalyst SurfacesAdsMind、物理基盤のマルチエージェントで触媒の吸着配置を探索不均一系触媒のモデル化では、表面と吸着種の最低エネルギー配置の特定が重要だが、第一原理計算による網羅探索は計算的に困難だ。本研究は物理に基づくマルチエージェント系「AdsMind」を提案し、自己訂正しながら吸着配置を効率的に発見する。
-
Complementary Attention Head Pruning for Efficient Transformers相補的な注意ヘッド剪定で Transformer を効率化Transformer モデルの成功は構造的スケーリングに支えられるが、パラメータが増大し資源制約下での展開が難しくなる。本研究は相補的(complementary)な注意ヘッドの剪定(プルーニング)手法を提案し、重複の少ないヘッドを選んで取り除くことで精度を保ちつつ効率化する。
-
OpenAnt: LLM-Powered Vulnerability Discovery Through Code Decomposition, Adversarial Verification, and Dynamic TestingOpenAnt、コード分解と動的検証で LLM が脆弱性を発見大規模コードベースの脆弱性自動発見は難しく、静的解析は誤検知が多く、ファジングなど動的手法は網羅性に課題がある。本研究は LLM を活用し、コード分解・敵対的検証・動的テストを組み合わせる「OpenAnt」を提案。誤検知を抑えつつ実在の脆弱性発見を狙う。
-
OrthoReg: Orthogonal Regularization for Hybrid Symbolic-Neural Dynamical SystemsOrthoReg、直交正則化でハイブリッド記号-ニューラル力学系を学習力学系は自然界のモデル化の基礎だが、人手で定めた機構モデルは解釈可能でも柔軟性に欠け、ニューラル手法は柔軟だが不透明というトレードオフがある。本研究は直交正則化「OrthoReg」を提案し、記号的成分とニューラル成分を分離して学習するハイブリッド力学系を実現する。
-
Human-AI Coevolution Dynamics: A Formal Theory of Social Intelligence Emergence Through Long-Term Interaction人間と AI の共進化を定式化、社会的知能の創発を理論化現在の対話 AI は言語生成や個人化、長文脈の対話で進歩したが、多くは社会的行動を孤立した要素で扱う。本研究は人間と AI の長期的な相互作用を通じた共進化(coevolution)を定式化し、社会的知能が創発する過程を説明する形式理論を提案する。
-
Urdu Katib Handwritten Dataset: A Historical Document Dataset for Offline Urdu Handwritten Text Recognition with CRNN-Based Baseline EvaluationUrdu Katib、歴史文書のウルドゥー語手書き認識データセットを公開手書き文字認識(HTR)は本質的に難しく、続け字(筆記体)ではさらに複雑になる。本研究は、オフラインのウルドゥー語手書き認識のための歴史文書データセット「Urdu Katib」を構築した。続け字スクリプトの認識研究を進める基盤データを提供する。
-
INDEQS: Informed Neural controlled Differential EQuationSINDEQS、情報付き Neural CDE で時系列予測を強化ニューラル制御微分方程式(NCDE)は時系列予測の強力な連続時間枠組みだが、標準的なグラフ拡張は空間構造の学習に課題がある。本研究は情報を取り込んだ「INDEQS(Informed Neural controlled Differential Equations)」を提案し、構造を捉えて予測性能を高める。
-
Seeing Before Reasoning: Decoupling Perception and Reasoning for Shortcut-Resilient Multimodal On-Policy Self-Distillation知覚と推論を分離し、近道に強い多モーダル自己蒸留を実現オンポリシー自己蒸留(OPSD)は、モデル自身のロールアウトで学習し、凍結した複製が参照目標に条件づけた密なトークン目標を与える。本研究は知覚と推論を分離する「Seeing Before Reasoning」を提案し、ショートカット(近道学習)に頑健な多モーダル OPSD を実現する。
-
ProductConsistency: Improving Product Identity Preservation in Instruction-Based Image Editing via SFT and RLProductConsistency、指示画像編集で商品の同一性保持を改善指示ベースの画像編集は、自然言語の指示から複雑な編集を可能にしてきた。しかし商品中心の場面では、特徴やブランディングの保持が課題だ。本研究は SFT と RL を用いる「ProductConsistency」を提案し、編集後も商品の同一性(アイデンティティ)を保つ性能を高める。
-
Context-Aware Optimization of Follow-Up Intervals for Type 2 Diabetes Care Using Markov Decision Processesマルコフ決定過程で 2 型糖尿病の最適な再診間隔を文脈最適化慢性疾患の管理は、進行と制御を確認する定期的な患者-医療者間のやり取りに依存する。2 型糖尿病では現行ガイドラインが画一的な再診間隔を定める。本研究はマルコフ決定過程(MDP)を用い、患者の状況に応じて再診(フォローアップ)間隔を文脈的に最適化する手法を示す。
-
Quantifying and Auditing LLM Evaluation via Positive--Unlabeled Learning正例-未ラベル学習で LLM 評価の偏りを定量化・監査LLM はスケーラブルな評価の「審判」として使われるが、冗長性バイアスなど意味的品質と無関係な系統的偏りを示す。本研究は正例-未ラベル(Positive-Unlabeled)学習を用い、LLM-as-a-Judge の評価を定量化・監査する手法を提案し、バイアスの検出と是正を支える。
-
Adaptive Speech-to-Spike Encoding for Spiking Neural Networksスパイキング NN 向けに適応的な音声-スパイク符号化を提案連続的な音響信号と離散的なイベント駆動処理の不一致は、ニューロモルフィック音声処理の根本的なボトルネックだ。現行システムは固定のスパイクエンコーダに頼り、後段に負担を強いる。本研究は入力に応じて適応する音声-スパイク符号化を提案し、スパイキングニューラルネットの性能を高める。
-
Sumi: Open Uniform Diffusion Language Model from ScratchSumi、ゼロから構築したオープンな一様拡散言語モデル拡散モデルは自己回帰モデルの有望な代替となりつつある。中でも一様拡散言語モデル(UDLM)は、どのトークンも任意のステップで更新できる柔軟性を持つ。本研究はゼロから構築したオープンな UDLM「Sumi」を公開し、拡散型言語モデルの研究と再現性を後押しする。
-
Enhancing Multilingual Reasoning via Steerable Model Merging操作可能なモデルマージで多言語推論を強化モデルマージは、多言語モデルと推論モデルの能力を合成する有効な手法で、異なるモデルの特徴空間を整合させて多言語推論で有望な汎化を示してきた。本研究は操作可能(steerable)なモデルマージを提案し、合成の度合いを制御して多言語推論性能をさらに高める。
-
TRAP: Benchmark for Task-completion and Resistance to Active Privacy-extractionTRAP、課題遂行とプライバシー抽出耐性を測るエージェント評価エージェントは機密情報が日常的な入力となる文書集約的な業務に投入されつつある(例:航空券予約にパスポート番号が必要)。本研究はベンチマーク「TRAP」を提案し、課題遂行能力と、能動的なプライバシー抽出(聞き出し)への耐性の両面からエージェントを評価する。
-
G-IdiomAlign: A Gloss-Pivoted Benchmark for Cross-Lingual Idiom Alignment慣用句の言語間対応を測る新ベンチマーク「G-IdiomAlign」慣用句は非構成的で直訳が効かず、言語間の対応付けが難しい。本研究はWiktionaryの英語注釈を軸に各慣用句を固定した評価基盤G-IdiomAlignを提案。多肢選択式の慣用句等価判定と、注釈の有無を比較する生成タスクの2プロトコルで、注釈がもたらす効果を切り分けて評価できる。
-
Beyond Tokenization: Direct Timestep Embedding and Contrastive Alignment for Time-Series Question Answering時系列を直接埋め込み時系列質問応答を高めるTSQA手法大規模言語モデルの進展で、時系列分析を自然言語の質問応答として扱う時系列QA(TSQA)が登場した。本研究は時系列をトークン化せずタイムステップを直接埋め込み、対照学習で言語表現と整合させる手法を提案し、従来のトークン化に伴う情報損失を回避して精度を高める。
-
Mitigating Scoring Errors and Compensating for Nonverbal Subtests in Speech-Based Dementia Assessment音声による認知症評価の採点誤差を補正する手法認知機能低下の早期発見は神経心理検査に依存するが、検査者の主観や非言語的サブテストの扱いが精度を左右する。本研究は音声ベースの認知症評価において採点誤差を緩和し、非言語サブテストを補完する手法を提案し、より客観的で安定した評価を目指す。
-
CAPRA: Scaling Feedback on Software Architecture Deliverables with a Multi-Agent LLM Systemソフト設計成果物の添削を自動化するマルチエージェントLLM「CAPRA」ソフトウェア工学教育では自動評価が進むが、設計成果物への質の高いフィードバックは難しい。CAPRAは複数のLLMエージェントが協調し、ソフトウェアアーキテクチャの成果物に対する添削とフィードバックを大規模にスケールさせる仕組みを提案する。
-
A Controlled Benchmark of Quantum-Latent GAN Augmentation for Brain MRI量子潜在GANで脳MRIを拡張する対照ベンチマーク医用画像分類はラベル付きデータの不足に制約される。本研究は量子的な潜在空間を用いたGANによるデータ拡張を脳MRI分類で検証する対照実験ベンチマークを構築し、量子潜在拡張が分類性能に与える効果を統制された条件で評価する。