インフラ・ハードウェア B

111 件中 91〜111 件目を表示
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    Uncertainty Is Not a Safety Net for Clinical VQA, but Can It Anticipate Model Failure?
    臨床 VQA で不確実性推定は安全網にならないと検証
    コンピュータビジョン 検索拡張生成 (RAG) ソフトウェア工学
    臨床向け視覚言語モデル (VLM) の安全な運用には、予測を信頼すべきか医師にエスカレすべきかを示す不確実性推定 (UE) が必要とされる。本論文は臨床的な視覚質問応答 (VQA) で 8 手法・12 モデルを評価し、UE の品質は手法固有の性質ではなくモデル精度に追随し、性能が最も弱い (=信頼性が最も必要な) 箇所でこそ劣化すると指摘。正解を選択肢から隠す摂動では精度が崩壊しても不確実性はほとんど変化しなかったと報告する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 資金・M&A 抜粋
    Can LLM Coding Agents Reason About Time Series?
    LLM コーディングエージェントは時系列を推論できるか検証
    AI エージェント ソフトウェア工学
    金融・医療・環境監視などで使われる時系列データを、LLM エージェントが分析できるか検証した論文。生の数値を与える方式、LLM をコーディングエージェントとして使う方式、両者の組み合わせの 3 通りを比較し、Python コードで反復的にデータを照会できるエージェントが生データ処理を最大 10% 上回ったと報告。ただし最良のエージェントでも約 22〜34% は誤答が残るとする。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN インフラ・ハードウェア 抜粋
    daVinci-kernel: Co-Evolving Skill Selection, Summarization, and Utilization via RL for GPU Kernel Optimization
    GPUカーネル最適化向けスキル共進化RL「daVinci-kernel」を提案
    AI エージェント ファインチューニング 強化学習
    GPUカーネル最適化は、機能的正しさを前提に実行効率を目的とする領域である。本研究は、スキルの発見と活用を動的に進化するスキルライブラリで結びつける強化学習フレームワークdaVinci-kernelを提案する。単一のLLMバックボーンを共有する3エージェント(BM25とLLM再ランクで技術を検索するスキル選択、CUDA/Tritonカーネルを生成するポリシー、成功例を再利用可能なスキルへ蒸留するスキル要約)を共同訓練し、実行検証で再現可能な高速化が確認されたスキルのみを追加するとする。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • Simon Willison's Weblog · EN 開発者ツール 抜粋
    Mapping SQLite result columns back to their source `table.column`
    SQLite結果列を元のtable.columnへ対応付ける研究
    Claude 機械学習 ニューラルネットワーク
    Datasetteで任意のSQLクエリ結果について、各列がどのテーブルのどの列に由来するかを追跡し、追加情報を付与する構想。結果列を元のtable.columnにマッピングする仕組みを検討した技術メモ。
    元記事を読む (Simon Willison's Weblog) ↗
  • Simon Willison's Weblog · EN 新モデル・リリース 抜粋
    OpenAI WebRTC Audio Session, now with document context
    Simon Willison、OpenAI WebRTC音声ツールに文書コンテキスト機能を追加
    GPT OpenAI
    Simon Willisonが、OpenAIのWebRTC realtime audio APIを使う自作の音声会話ツールを更新したと報告。「GPT-5級の推論を備えた初の音声モデル」を謳う新realtimeモデルへの切り替えに対応したほか、文書テキストを貼り付けてその内容についてブラウザ上で音声対話できるdocument context機能を追加した。
    元記事を読む (Simon Willison's Weblog) ↗
  • NVIDIA Developer Blog · EN エージェント・ツール使用 抜粋
    NVIDIA Achieves Leading Agentic Coding Performance on First Agentic AI Benchmark
    NVIDIA、初のエージェント型AIベンチマークでコーディング性能首位を達成
    AI エージェント 生成 AI 推論 (Inference) NVIDIA
    NVIDIAは、エージェント型AIを対象とした初のベンチマークでエージェント型コーディング性能の首位を達成したと開発者ブログで報告した。推論基盤やGPUインフラの最適化を通じ、コード生成・修正を自律的に行うAIエージェントの実行性能を高めた成果とみられ、エージェント開発分野での同社プラットフォームの優位性を示す内容となっている。
    元記事を読む (NVIDIA Developer Blog) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization
    AdaSR、入力を逐次処理する「ストリーミング推論」を提案
    機械学習 検索拡張生成 (RAG) 強化学習 ソフトウェア工学 音声処理
    大規模推論モデルが入力全体を読んでから考える従来手法に対し、入力到着に合わせて逐次推論する「AdaSR」を提案。階層的な相対方策最適化で、ストリーミング環境での推論を学習する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    Flood and Harvest: The Provable Necessity of Trivia for Generating Valuable Mathematics via the Lens of Language Generation in the Limit
    価値ある数学生成に「雑多な命題」が不可欠であることを理論的に論証
    検索拡張生成 (RAG)
    証明支援系と結合したAIが形式数学を大量生成する一方、検証可能性と数学的価値の差が課題になっている。本論文は「極限における言語生成」の観点から、価値ある数学を生み出すには雑多・周辺的な命題(trivia)の生成が原理的に必要であることを論証する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.LG (Machine Learning) · EN インフラ・ハードウェア 抜粋
    Compressed Computation is (probably) not Computation in Superposition
    「圧縮計算」は重ね合わせ計算ではない可能性を論証
    Braunらの圧縮計算(CC)トイモデルが「重ね合わせによる計算」の例かを検証。解析の結果、CCは重ね合わせ計算には当たらない可能性が高いと論じる解釈可能性研究。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 新モデル・リリース 抜粋
    Towards Direct Latent-Space Synthesis for Parallel Branches in LLM-Agent Workflows
    LLMエージェントの並列分岐を潜在空間で直接合成する手法を検討
    AI エージェント ニューラルネットワーク
    LLMはエージェント実行エンジンとして使われる一方、依然として逐次的なテキスト interface で文脈を消費する。独立タスクを並列処理する近年の構造化エージェント workflow との不整合を指摘し、並列分岐を潜在空間で直接合成するアプローチを検討する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 推論・効率化 抜粋
    Moonlight in Latent Space: Chirality and Structural Correspondence Between Beethoven's Op. 27 No. 2 and Machine Learning Mechanisms
    ベートーヴェン「月光」と機械学習機構の構造的対応を分析
    埋め込み (Embeddings) 機械学習 ニューラルネットワーク 自然言語処理 (NLP) 強化学習
    ベートーヴェンの「月光ソナタ」(Op.27 No.2)の三つの楽章が、比喩ではなく構造的対応として三種の異なる機械学習アーキテクチャを体現していることを、計算分析を通じて示す学際的研究。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.LG (Machine Learning) · EN インフラ・ハードウェア 抜粋
    A Statistical and Machine Learning Framework for Operational Threshold Detection and Deployable Dispatch Controller Development in Hydrogen Multi-Energy Systems
    水素マルチエネルギー系の運用閾値検出にML枠組み
    機械学習 強化学習
    水素ベースのマルチエネルギーシステム(H-MES)を特徴づける統計・機械学習の枠組みを提示。運用閾値の検出と、配備可能な配車制御器の開発を扱う。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.LG (Machine Learning) · EN 推論・効率化 抜粋
    Realizing Native INT8 Compute for Diffusion Transformers on Consumer GPUs: A Fused INT8 GEMM Kernel for Ideogram 4.0
    民生GPUで拡散Transformerの真のINT8演算を実現
    ニューラルネットワーク 量子化 Transformer
    拡散Transformerの訓練後INT8量子化は、民生Ampere GPUではFP8/NF4より遅いことが多い。Ideogram 4.0向けに融合INT8 GEMMカーネルを実装し、真のINT8高速化を実現する。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.LG (Machine Learning) · EN 新モデル・リリース 抜粋
    Cluster LOCO: Feature Importance For Interpreting Clusters
    Cluster LOCO、クラスタ解釈のための特徴重要度
    アルゴリズム・理論
    探索的分析や科学的発見に使われるクラスタリングは出力の解釈が難しい。特徴重要度に基づきクラスタを解釈・監査する手法「Cluster LOCO」を提案する。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    VISTA: View-Consistent Self-Verified Training for GUI Grounding
    GUI接地を視点一貫の自己検証で学習する「VISTA」
    強化学習 ソフトウェア工学
    GUI接地にGRPOを使うと単一視点のrolloutが全失敗か全成功に偏り学習信号が乏しくなる。本論文は複数視点で一貫性を取り自己検証する学習法「VISTA」を提案し、GUIグラウンディングの学習を安定化する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 新モデル・リリース 抜粋
    Regional Climate Model Emulation with Diffusion Approaches: What is the Added Value of Generative Machine Learning?
    拡散モデルによる地域気候モデルのエミュレーションの付加価値を検証
    深層学習 機械学習 ニューラルネットワーク 強化学習
    エミュレータは地域気候モデル(RCM)の力学的ダウンスケーリングを安価に再現する手段。本論文は拡散(diffusion)による生成的機械学習が、GCM予測子からRCM相当の高解像度場を生む際に持つ付加価値を検証する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    Every Eval Ever: A Unifying Schema and Community Repository for AI Evaluation Results
    AI評価結果を統一するスキーマと共有レポジトリ「Every Eval Ever」
    Meta ニューラルネットワーク
    AI評価は進捗の把握に広く使われるが、評価者ごとの不整合が分析・比較を妨げる。本論文は評価結果を統一するスキーマと、コミュニティで共有するレポジトリ「Every Eval Ever」を提案する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • NVIDIA Developer Blog · EN 業界導入・応用 抜粋
    Deploy Long-Context Reasoning and Agentic Workflows with MiniMax M3 on NVIDIA Accelerated Infrastructure
    NVIDIA、MiniMax M3の長文脈推論とagenticワークフロー展開手法を解説
    生成 AI NVIDIA 検索拡張生成 (RAG)
    NVIDIAが開発者ブログで、MiniMax M3をNVIDIAアクセラレーテッドインフラ上に展開し、長文脈推論やagenticワークフローを実行する手法を解説した。テキストや画像などで分断されがちな企業AIパイプラインの統合を狙いとし、RAGを含む生成AI活用を視野に入れた内容となっている。
    元記事を読む (NVIDIA Developer Blog) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 学習・ファインチューニング 抜粋
    Dense Coordinate-List Fine-Tuning Induces a Controllable Interference Surface in Vision-Language Models
    座標列の微調整がVLMに制御可能な干渉面を生むと報告
    コンピュータビジョン ファインチューニング 人間のフィードバックによる強化学習 (RLHF) ソフトウェア工学
    視覚言語モデル(VLM)を密な座標列の出力に微調整すると視覚接地は向上するが、構造化出力の直列化・反復・終了の仕方も変わる。本論文はこの微調整が制御可能な「干渉面(interference surface)」を誘発することを示す。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN インフラ・ハードウェア 抜粋
    When the Tool Decides: LLM Agents Defer Blindly to Graph Neural Network Tools, and Stronger Backbones Defer More
    LLMエージェントはGNNツールに盲目的に委ね、強いほど委ねると指摘
    AI エージェント 深層学習 ニューラルネットワーク ソフトウェア工学
    グラフニューラルネット(GNN)を呼び出し可能なツールとしてLLMエージェントに与える研究が増えている。本論文は、エージェントがツール出力を盲目的に受け入れて委ね、しかもバックボーンが強いほど委ねる傾向が強まることを示す。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    A Computational Audit of Demographic Association Encoding in ClinicalBERT Language Predictions
    ClinicalBERTの人口統計関連の符号化を計算論的に監査
    機械学習 Transformer
    臨床言語モデルが高リスクな意思決定支援に組み込まれる中、人口統計的な関連がどう符号化されるかを計算論的に監査。予測に与える影響を分析する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗