安全性・評価 A

322 件中 31〜60 件目を表示
  • arXiv cs.LG (Machine Learning) · EN 安全性・評価 抜粋
    Quantum ring all-reduce: communication and privacy advantages for distributed learning
    量子通信による分散学習向けのリングAll-Reduceを提案
    深層学習 機械学習
    本論文は、分散学習向けに量子通信を用いたリングAll-Reduce方式を提案する。量子通信により分散学習を通信効率の面でも情報理論的なプライバシーの面でも改善できると論じ、古典・量子いずれの設定についても検討する。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.LG (Machine Learning) · EN 安全性・評価 抜粋
    A Model-Driven Approach for Developing Families of Reinforcement Learning Environments
    強化学習環境のファミリーを開発するモデル駆動手法を提案
    AI エージェント 強化学習
    本論文は、強化学習(RL)環境のファミリーを開発するためのモデル駆動アプローチを提案する。仮想訓練環境をソフトウェア集約的なシステムとして捉え、実世界での訓練に代わる安全で費用対効果の高い環境の構築を、より体系的に行うことを狙う。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.LG (Machine Learning) · EN 安全性・評価 抜粋
    Statistical Properties of Training & Generalization
    深層学習の訓練と汎化の統計的性質を物理的観点で考察
    深層学習 機械学習 強化学習
    本論文は、深層学習の訓練と汎化に見られる重要な特徴や直感に反する現象を、物理学的(physics-informed)な観点から考察する。深層学習が古典統計学の直感から外れて高い実性能を達成する様子を分析し、可能な限りその根拠を示す。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.LG (Machine Learning) · EN 安全性・評価 抜粋
    Shifting-based Optimizable Linear Relaxations for General Activation Functions
    一般の活性化関数に使えるシフトベースの最適化可能な線形緩和
    深層学習 ニューラルネットワーク
    本論文は、ニューラルネットワークの形式検証に用いる、一般の活性化関数向けの最適化可能な線形緩和を、シフトに基づいて構成する手法を提案する。活性化関数ごとに手作りの緩和を要する既存手法の制約を解消し、安全性・セキュリティが重要な場面での形式保証を支える。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.CL (Computation and Language) · EN マルチモーダル 抜粋
    PsyScore: A Psychometrically-Aware Framework for Trait-Adaptive Essay Scoring and ZPD-Scaffolded Feedback
    心理測定を取り入れた特性適応型の作文採点・足場かけ手法PsyScore
    検索拡張生成 (RAG)
    本論文は、心理測定(psychometrics)を意識した自動作文採点の枠組み「PsyScore」を提案する。書き手の特性に適応して採点し、最近接発達領域(ZPD)に基づく足場かけ型フィードバックを与える。採点とフィードバックを別個に扱ってきた従来手法を統合し、信頼できる評価と解釈可能な指導の両立を狙う。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 新モデル・リリース 抜粋
    Editorial Alignment: A Participatory Approach to Engaging Editorial Expertise in LLM-mediated Knowledge Dissemination
    LLM媒介の知識普及に編集者の専門性を取り込む参加型手法
    LLM駆動の情報サービスは公共知識の生成条件を変えつつある。本研究は編集者の専門性を参加型に取り込み、LLM媒介の知識普及を整合させる枠組みを示す。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 新モデル・リリース 抜粋
    The Register Gap: A Meaning Intelligence Framework for Nigerian Public Discourse
    ナイジェリア公共言説向けの意味知能枠組みThe Register Gap
    深層学習 Gemini ニューラルネットワーク 検索拡張生成 (RAG)
    本研究は9次元の注釈・評価体系である意味知能枠組み(MIF)を導入し、ナイジェリアの公共言説における言語使用域の差(レジスターギャップ)を分析する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 学習・ファインチューニング 抜粋
    Finetuning Vision-Language-Action Models Requires Fewer Layers Than You Think
    VLAモデルの微調整は想定より少ない層で足りる
    コンピュータビジョン ファインチューニング 推論 (Inference) 機械学習 強化学習
    膨大な動画ロボットデータで事前学習されたVLAモデルはロボット制御を革新した。本研究は、その微調整に必要な層数が想定より少なくて済むことを示す。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    ScholarQuest: A Taxonomy-Guided Benchmark for Agentic Academic Paper Search in Open Literature Environments
    開かれた文献環境でのエージェント論文探索ベンチScholarQuest
    AI エージェント ソフトウェア工学
    学術論文探索は研究の中核段階であり、LLMベースの探索エージェントが台頭している。ScholarQuestは分類体系に基づくエージェント論文探索のベンチマークを提供する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    QMFOL: Benchmarking Large Language Model Reasoning via Quantifiable Monadic First-Order Logic Test Case Generation
    一階論理のテスト生成でLLM推論を測るQMFOL
    強化学習
    LLMは特に演繹的推論で進歩している。QMFOLは定量可能な単項一階論理のテストケース生成により、LLMの推論能力をベンチマークする。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 学習・ファインチューニング 抜粋
    Actionable Activation Directions for Detecting and Mitigating Emergent Misalignment Across Language Model Families
    活性化方向で言語モデルの創発的ミスアラインメントを検知・緩和
    ファインチューニング Llama 強化学習
    本論文は、安全でないコードでの微調整によって生じる言語モデルの創発的ミスアラインメントが、アーキテクチャを越えて共有される因果的に操作可能な活性化空間の方向に対応するかを検証する。四つの命令調整済みモデル系列で、この方向を用いた検知と緩和を検討する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    Learner-based Concept Drift Detection: Analysis and Evaluation
    学習器ベースの概念ドリフト検出の分析と評価
    アルゴリズム・理論 深層学習 機械学習 強化学習
    進化するストリーミング環境に展開されるMLは非定常性に対処する必要がある。本研究は学習器ベースの概念ドリフト検出を分析・評価する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    CzechDocs: A Multiway Parallel Dataset of Formatted Documents for Minority Languages in Czechia
    チェコの少数言語向け整形文書の多言語並行データセットCzechDocs
    機械学習
    本論文は、チェコ語とチェコ国内で使われる少数言語(主にウクライナ語・英語、少量のベトナム語・ロシア語など)を対象に、HTML・DOCX・PDFといった整形済み文書の多方向並行データセット「CzechDocs」を提案する。機械翻訳の評価を支えることを目的とする。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    Beyond Accuracy: Measuring Logical Compliance of Predictive Models
    予測モデルの論理的整合性を精度を超えて測る研究
    埋め込み (Embeddings) 機械学習 強化学習
    MLモデルは主に予測性能の指標で評価されるが、それだけでは不十分。本研究は精度を超えて、予測モデルの論理的整合性を測る方法を提案する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.LG (Machine Learning) · EN 安全性・評価 抜粋
    Off-Policy Evaluation for Missingness-Aware Policies in MDPs with Rewards Missing Not at Random
    報酬が非ランダムに欠損するMDPでのオフ方策評価を扱う
    強化学習
    本論文は、報酬がランダムでない形で欠損する(missing not at random)有限ホライズンMDPにおけるオフ方策評価(OPE)を研究する。オフライン強化学習で、記録の疎・不規則さや一定値以上の打ち切りにより即時報酬が観測されない、医療やマーケティングなどの状況を想定し、欠損を考慮した方策を扱う。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    Apparent Psychological Profiles of Large Language Models are Largely a Measurement Artifact
    LLMの心理プロファイルは多くが測定アーティファクト
    深層学習 ニューラルネットワーク
    人間向けの心理尺度がLLMの性格付けに使われている。本研究は、見かけ上のLLMの心理プロファイルの多くが測定上のアーティファクトに過ぎないことを示す。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    Pitch Spelling Jazz Lead Sheets, Solo Transcriptions, Classical Piano and Monophonic Scores
    MIDI入力から音名・調号・音階を推定するピッチスペリング
    本論文は、ジャズのリードシート、ソロの採譜、クラシックピアノ、単旋律譜にわたるピッチスペリングと調推定のアルゴリズムを提案する。音高(半音単位)と小節境界を含むMIDI様の入力から、適切な音名、全体の調号、局所的な音階を推定する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    HilDA: Hierarchical Distillation with Diffusion for Advancing Self-Supervised LiDAR Pre-trainin
    自己教師ありLiDAR事前学習を進める階層蒸留HilDA
    コンピュータビジョン ニューラルネットワーク 検索拡張生成 (RAG) 強化学習
    視覚基盤モデルを用いたカメラからLiDARへの知識蒸留は有望。HilDAは拡散を伴う階層蒸留により自己教師ありLiDAR事前学習を前進させる。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    ReNikud: Audio-Supervised Hebrew Grapheme-to-Phoneme Conversion
    音声教師ありのヘブライ語書記素音素変換ReNikudを提案
    ニューラルネットワーク 音声処理
    本論文は、現代ヘブライ語の書記素音素変換(G2P)に向けた、音声を教師信号とする手法「ReNikud」を提案する。母音をほとんど表記しないアブジャド文字に由来する曖昧さに対処し、まず母音記号(nikud)を予測する従来手法を超える、音声合成向けのG2Pを目指す。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    NAMESAKES: Probing Identity Memorization in Text-to-Image Models
    テキスト画像モデルの人物記憶を調べるNAMESAKESを提案
    ニューラルネットワーク
    本論文は、人物名から実在の人物に似た顔を生成しうるテキスト画像(T2I)モデルにおける、本人性の記憶(identity memorization)を調べる研究「NAMESAKES」を提案する。生成顔が記憶由来か捏造かを、正解写真・訓練データ・ホワイトボックスアクセスなしに判別する難しさに取り組み、プライバシー上の懸念を検討する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    Learning to Prompt: Improving Student Engagement with Adaptive LLM-based High-School Tutoring
    教科適応プロンプトでLLMによる高校生指導の関与度を改善
    本論文は、教科を意識したプロンプトを用いる適応的なLLMベースの高校生向け個別指導システムを開発・評価する。指導の足場かけや生徒の理解度など、書き起こしから抽出した14の教育的特徴に基づき、静的プロンプトでは多様な教科に適応しにくい問題に対処して、生徒の関与度向上を狙う。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 推論・効率化 抜粋
    When Does Streaming Tool Use Help? Characterizing Tool-Intent Stabilization in Streaming Retrieval-Augmented Generation
    ストリーミングRAGでツール先行実行が効く条件を特徴づける
    検索拡張生成 (RAG) 強化学習 ソフトウェア工学
    本論文は、ユーザー入力の途中で並行してツール照会を発行し体感遅延を減らすストリーミングRAGにおいて、ツールの先行利用がいつ有効かを特徴づける。その利点は本質的にクエリ依存だと論じ、発話が完了する前にツールの意図がどう安定化するかを分析する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN マルチモーダル 抜粋
    Self-Preference Is Weak or Absent in Verifiable Instruction-Following Revision: A Four-Model Test Under Genuine Authorship
    検証可能な指示追従の修正で自己選好が弱い/不在と報告
    ニューラルネットワーク
    本論文は、大規模言語モデルが、検証可能な指示追従の修正において自分の文章への妥当な訂正を拒むかどうかを検証する。実際に自分が書いた文章を対象に四つのモデルで検証し、判定者として自作を好む「自己選好バイアス」が、この修正設定では弱いか存在しないことを示す。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    IHUBERT: Vector-Based Semantic Deduplication and Domain-Balanced Pretraining for Persian Resources
    ペルシャ語向け意味的重複除去とドメイン均衡事前学習のIHUBERT
    強化学習 ソフトウェア工学
    本論文は、RoBERTa-baseエンコーダで一から学習した単言語ペルシャ語の事前学習モデル「IHUBERT」を提案する。ベクトルに基づく意味的な重複除去とドメイン均衡を取り入れた事前学習により、大規模で高品質なペルシャ語コーパスの不足や評価の乏しさという課題に対処する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • OpenAI Blog · EN 新モデル・リリース 抜粋
    Improving health intelligence in ChatGPT
    OpenAI、GPT-5.5 Instant で ChatGPT の健康相談の品質を向上
    GPT
    OpenAI は GPT-5.5 Instant により、ChatGPT の健康・ウェルネス分野の応答品質を改善したと発表した。より強力な推論と文脈理解、明確な説明に加え、医師の知見を反映した評価を導入。利用者がより信頼できる健康情報を得られるようにする。
    元記事を読む (OpenAI Blog) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    Source-Grounded Data Generation for Text-to-JSON Learning
    テキストからJSON抽出を学ぶための出典準拠データ生成を提案
    強化学習
    本論文は、長い非構造化文書から情報を構造化されたJSONとして抽出するテキスト→JSON学習に向けて、出典に根ざした(source-grounded)データ生成を提案する。財務報告書や臨床記録など、高価値の情報を非構造化テキストに蓄える分野での活用を狙う。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    When Lower Privileges Suffice: Investigating Over-Privileged Tool Selection in LLM Agents
    LLMエージェントによる過剰権限のツール選択を調査
    AI エージェント Meta ニューラルネットワーク
    本論文は、LLMエージェントが権限の異なるツールから自律的に選択する際の「過剰権限なツール選択」を調査する。安全性に無関係なメタデータの好みに着目してきた従来研究の隙間を埋め、より低い権限で十分な場面を分析して、安全性に関わる選択を明らかにする。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN エージェント・ツール使用 抜粋
    Connect the Dots: Training LLMs for Long-Lifecycle Agents with Cross-Domain Generalization Via Reinforcement Learning
    長期運用エージェント向けに強化学習でLLMを訓練するCoD
    AI エージェント Meta ニューラルネットワーク 強化学習
    本論文は、長期にわたり運用されるエージェント向けに、強化学習で大規模言語モデルを訓練する一般的枠組み「Connect the Dots(CoD)」を提案する。環境を継続的に探索しながら長い一連のタスクを解くというメタ能力を狙い、ドメインを越えた汎化を目指す。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN マルチモーダル 抜粋
    Investigating Human-Model Discrepancies in Speech Quality Assessment via Acoustic and Prosodic Perturbations
    音響・韻律摂動で音声品質評価の人間とモデルの乖離を調査
    音声処理
    本論文は、音響的・韻律的な制御された摂動を用いて、音声品質評価における人間の判断とMOS予測モデルとの乖離を調査する。TTS研究で代理指標として広く使われるこれらのモデルが、音響的忠実度を超えた品質差を捉えられるかを検証する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    Light-weight Pronunciation Assessment via Discrete Speech Token Surprisal
    離散音声トークンのサプライザルで軽量に発音評価を行う手法
    推論 (Inference) 音声処理
    本論文は、離散音声トークンのサプライザル(予測のしにくさ)に基づく軽量な自動発音評価の枠組みを提案する。母語話者の音声資源のみで学習し、教師なし、または少数の採点済み発話による軽い較正で動作させることで、収集コストの高い学習者誤りや非母語コーパスへの依存を避ける。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗