インフラ・ハードウェア B
111 件中 91〜111 件目を表示
-
Uncertainty Is Not a Safety Net for Clinical VQA, but Can It Anticipate Model Failure?臨床 VQA で不確実性推定は安全網にならないと検証臨床向け視覚言語モデル (VLM) の安全な運用には、予測を信頼すべきか医師にエスカレすべきかを示す不確実性推定 (UE) が必要とされる。本論文は臨床的な視覚質問応答 (VQA) で 8 手法・12 モデルを評価し、UE の品質は手法固有の性質ではなくモデル精度に追随し、性能が最も弱い (=信頼性が最も必要な) 箇所でこそ劣化すると指摘。正解を選択肢から隠す摂動では精度が崩壊しても不確実性はほとんど変化しなかったと報告する。
-
Can LLM Coding Agents Reason About Time Series?LLM コーディングエージェントは時系列を推論できるか検証金融・医療・環境監視などで使われる時系列データを、LLM エージェントが分析できるか検証した論文。生の数値を与える方式、LLM をコーディングエージェントとして使う方式、両者の組み合わせの 3 通りを比較し、Python コードで反復的にデータを照会できるエージェントが生データ処理を最大 10% 上回ったと報告。ただし最良のエージェントでも約 22〜34% は誤答が残るとする。
-
daVinci-kernel: Co-Evolving Skill Selection, Summarization, and Utilization via RL for GPU Kernel OptimizationGPUカーネル最適化向けスキル共進化RL「daVinci-kernel」を提案GPUカーネル最適化は、機能的正しさを前提に実行効率を目的とする領域である。本研究は、スキルの発見と活用を動的に進化するスキルライブラリで結びつける強化学習フレームワークdaVinci-kernelを提案する。単一のLLMバックボーンを共有する3エージェント(BM25とLLM再ランクで技術を検索するスキル選択、CUDA/Tritonカーネルを生成するポリシー、成功例を再利用可能なスキルへ蒸留するスキル要約)を共同訓練し、実行検証で再現可能な高速化が確認されたスキルのみを追加するとする。
-
Mapping SQLite result columns back to their source `table.column`SQLite結果列を元のtable.columnへ対応付ける研究Datasetteで任意のSQLクエリ結果について、各列がどのテーブルのどの列に由来するかを追跡し、追加情報を付与する構想。結果列を元のtable.columnにマッピングする仕組みを検討した技術メモ。
-
OpenAI WebRTC Audio Session, now with document contextSimon Willison、OpenAI WebRTC音声ツールに文書コンテキスト機能を追加Simon Willisonが、OpenAIのWebRTC realtime audio APIを使う自作の音声会話ツールを更新したと報告。「GPT-5級の推論を備えた初の音声モデル」を謳う新realtimeモデルへの切り替えに対応したほか、文書テキストを貼り付けてその内容についてブラウザ上で音声対話できるdocument context機能を追加した。
-
NVIDIA Achieves Leading Agentic Coding Performance on First Agentic AI BenchmarkNVIDIA、初のエージェント型AIベンチマークでコーディング性能首位を達成NVIDIAは、エージェント型AIを対象とした初のベンチマークでエージェント型コーディング性能の首位を達成したと開発者ブログで報告した。推論基盤やGPUインフラの最適化を通じ、コード生成・修正を自律的に行うAIエージェントの実行性能を高めた成果とみられ、エージェント開発分野での同社プラットフォームの優位性を示す内容となっている。
-
AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy OptimizationAdaSR、入力を逐次処理する「ストリーミング推論」を提案大規模推論モデルが入力全体を読んでから考える従来手法に対し、入力到着に合わせて逐次推論する「AdaSR」を提案。階層的な相対方策最適化で、ストリーミング環境での推論を学習する。
-
Flood and Harvest: The Provable Necessity of Trivia for Generating Valuable Mathematics via the Lens of Language Generation in the Limit価値ある数学生成に「雑多な命題」が不可欠であることを理論的に論証証明支援系と結合したAIが形式数学を大量生成する一方、検証可能性と数学的価値の差が課題になっている。本論文は「極限における言語生成」の観点から、価値ある数学を生み出すには雑多・周辺的な命題(trivia)の生成が原理的に必要であることを論証する。
-
Compressed Computation is (probably) not Computation in Superposition「圧縮計算」は重ね合わせ計算ではない可能性を論証Braunらの圧縮計算(CC)トイモデルが「重ね合わせによる計算」の例かを検証。解析の結果、CCは重ね合わせ計算には当たらない可能性が高いと論じる解釈可能性研究。
-
Towards Direct Latent-Space Synthesis for Parallel Branches in LLM-Agent WorkflowsLLMエージェントの並列分岐を潜在空間で直接合成する手法を検討LLMはエージェント実行エンジンとして使われる一方、依然として逐次的なテキスト interface で文脈を消費する。独立タスクを並列処理する近年の構造化エージェント workflow との不整合を指摘し、並列分岐を潜在空間で直接合成するアプローチを検討する。
-
Moonlight in Latent Space: Chirality and Structural Correspondence Between Beethoven's Op. 27 No. 2 and Machine Learning Mechanismsベートーヴェン「月光」と機械学習機構の構造的対応を分析ベートーヴェンの「月光ソナタ」(Op.27 No.2)の三つの楽章が、比喩ではなく構造的対応として三種の異なる機械学習アーキテクチャを体現していることを、計算分析を通じて示す学際的研究。
-
A Statistical and Machine Learning Framework for Operational Threshold Detection and Deployable Dispatch Controller Development in Hydrogen Multi-Energy Systems水素マルチエネルギー系の運用閾値検出にML枠組み水素ベースのマルチエネルギーシステム(H-MES)を特徴づける統計・機械学習の枠組みを提示。運用閾値の検出と、配備可能な配車制御器の開発を扱う。
-
Realizing Native INT8 Compute for Diffusion Transformers on Consumer GPUs: A Fused INT8 GEMM Kernel for Ideogram 4.0民生GPUで拡散Transformerの真のINT8演算を実現拡散Transformerの訓練後INT8量子化は、民生Ampere GPUではFP8/NF4より遅いことが多い。Ideogram 4.0向けに融合INT8 GEMMカーネルを実装し、真のINT8高速化を実現する。
-
Cluster LOCO: Feature Importance For Interpreting ClustersCluster LOCO、クラスタ解釈のための特徴重要度探索的分析や科学的発見に使われるクラスタリングは出力の解釈が難しい。特徴重要度に基づきクラスタを解釈・監査する手法「Cluster LOCO」を提案する。
-
VISTA: View-Consistent Self-Verified Training for GUI GroundingGUI接地を視点一貫の自己検証で学習する「VISTA」GUI接地にGRPOを使うと単一視点のrolloutが全失敗か全成功に偏り学習信号が乏しくなる。本論文は複数視点で一貫性を取り自己検証する学習法「VISTA」を提案し、GUIグラウンディングの学習を安定化する。
-
Regional Climate Model Emulation with Diffusion Approaches: What is the Added Value of Generative Machine Learning?拡散モデルによる地域気候モデルのエミュレーションの付加価値を検証エミュレータは地域気候モデル(RCM)の力学的ダウンスケーリングを安価に再現する手段。本論文は拡散(diffusion)による生成的機械学習が、GCM予測子からRCM相当の高解像度場を生む際に持つ付加価値を検証する。
-
Every Eval Ever: A Unifying Schema and Community Repository for AI Evaluation ResultsAI評価結果を統一するスキーマと共有レポジトリ「Every Eval Ever」AI評価は進捗の把握に広く使われるが、評価者ごとの不整合が分析・比較を妨げる。本論文は評価結果を統一するスキーマと、コミュニティで共有するレポジトリ「Every Eval Ever」を提案する。
-
Deploy Long-Context Reasoning and Agentic Workflows with MiniMax M3 on NVIDIA Accelerated InfrastructureNVIDIA、MiniMax M3の長文脈推論とagenticワークフロー展開手法を解説NVIDIAが開発者ブログで、MiniMax M3をNVIDIAアクセラレーテッドインフラ上に展開し、長文脈推論やagenticワークフローを実行する手法を解説した。テキストや画像などで分断されがちな企業AIパイプラインの統合を狙いとし、RAGを含む生成AI活用を視野に入れた内容となっている。
-
Dense Coordinate-List Fine-Tuning Induces a Controllable Interference Surface in Vision-Language Models座標列の微調整がVLMに制御可能な干渉面を生むと報告視覚言語モデル(VLM)を密な座標列の出力に微調整すると視覚接地は向上するが、構造化出力の直列化・反復・終了の仕方も変わる。本論文はこの微調整が制御可能な「干渉面(interference surface)」を誘発することを示す。
-
When the Tool Decides: LLM Agents Defer Blindly to Graph Neural Network Tools, and Stronger Backbones Defer MoreLLMエージェントはGNNツールに盲目的に委ね、強いほど委ねると指摘グラフニューラルネット(GNN)を呼び出し可能なツールとしてLLMエージェントに与える研究が増えている。本論文は、エージェントがツール出力を盲目的に受け入れて委ね、しかもバックボーンが強いほど委ねる傾向が強まることを示す。
-
A Computational Audit of Demographic Association Encoding in ClinicalBERT Language PredictionsClinicalBERTの人口統計関連の符号化を計算論的に監査臨床言語モデルが高リスクな意思決定支援に組み込まれる中、人口統計的な関連がどう符号化されるかを計算論的に監査。予測に与える影響を分析する。