開発者ツール B

323 件中 1〜30 件目を表示
  • ITmedia AI+ · JA 新モデル・リリース 抜粋
    画面操作を“録画”→AIが作業代行 Codexに新機能「Record & Replay」
    OpenAI、Codexに操作録画でAI代行する新機能『Record & Replay』
    OpenAI
    OpenAIが、コーディング支援エージェントCodexに新機能『Record & Replay』を追加した。画面上の操作を録画すると、その手順をAIが再現して作業を代行するという。ITmediaが報じた。
    元記事を読む (ITmedia AI+) ↗
  • Simon Willison's Weblog · EN 新モデル・リリース 抜粋
    Datasette Apps: Host custom HTML applications inside Datasette
    Simon Willison氏、Datasette内でカスタムHTMLアプリを動かす「Datasette Apps」を公開
    機械学習 ニューラルネットワーク
    Simon Willison氏が、データ探索・公開ツール「Datasette」の内部にカスタムHTMLアプリケーションをホストできる新機能「Datasette Apps」を発表した。Datasetteのデータベースにアクセスする独自のHTML/JSアプリを、同インスタンス上で直接配信できる。データ基盤と一体化した軽量アプリ構築を可能にする開発者向け機能。
    元記事を読む (Simon Willison's Weblog) ↗
  • arXiv cs.LG (Machine Learning) · EN インフラ・ハードウェア 抜粋
    Optimal Deterministic Multicalibration and Omniprediction
    ランダム性不要、決定的予測器で最適なマルチキャリブレーションを実現
    機械学習
    本研究は、決定的な予測器を出力するミニマックス最適なマルチキャリブレーション手法を提案する。最適なサンプル複雑度の達成にランダム化が必要かという未解決問題を解決し、結果を結果識別不能性(OI)やオムニ予測を満たす決定的予測器へと一般化する。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.LG (Machine Learning) · EN 新モデル・リリース 抜粋
    Predictability as a Fine-Grained Measure for Privacy
    予測可能性に着目した、きめ細かな新しいプライバシー指標を提案
    本論文は、攻撃者の中核的な事前知識を明示的に取り込む「予測可能性によるプライバシー」という、きめ細かな枠組みを提案する。差分プライバシーの最悪ケース保証が招くプライバシーと精度のトレードオフの緩和を狙う。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 新モデル・リリース 抜粋
    LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents
    方針順守のツール呼び出しエージェントに構造化状態を与えるLedgerAgent
    AI エージェント 推論 (Inference) 検索拡張生成 (RAG)
    顧客対応領域で方針を順守するツール呼び出しエージェントは、複数ターンにわたりタスク状態を保持する必要がある。LedgerAgentは構造化された状態管理によりこの課題に取り組む。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    SARLO-80: Worldwide Slant SAR Language Optic Dataset 80cm
    80cm解像度の世界規模スラントSAR・光学データセットSARLO-80
    深層学習 強化学習
    マルチモーダル基盤モデルは大規模な光学ベンチマークで急速に進歩した一方、SAR向けの資源は不足している。SARLO-80は80cm解像度の世界規模スラントSAR・光学データセットを提供する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 開発者ツール 抜粋
    Sovereign Execution Brokers: Enforcing Certificate-Bound Authority in Agentic Control Planes
    エージェント制御基盤で証明書束縛の権限を強制するSovereign Execution Brokers
    AI エージェント ニューラルネットワーク
    自律エージェントがクラウドや展開、データ制御のワークフローに接続されるなか、本番環境のセキュリティが課題となる。証明書に束縛された権限を制御基盤で強制する仕組みを提案する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages
    LiveCodeBを多言語に拡張したコード評価ベンチMulti-LCB
    強化学習 ソフトウェア工学
    LiveCodeBenchはLLMのコード能力評価で広く採用されている。Multi-LCBはこれを複数のプログラミング言語へ拡張し、多言語でのコード生成能力を評価する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    What Do Safety-Aligned LLMs Learn From Mixed Compliance Demonstrations?
    安全整合LLMが混在コンプライアンス実例から何を学ぶか
    文脈内の実例がLLMをジェイルブレイクし得ることは知られているが、順守と違反が混在する実例から安全整合モデルが何を学ぶかは不明だった。本研究はその挙動を分析する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.LG (Machine Learning) · EN 安全性・評価 抜粋
    Entropy Estimation in Multi-Qutrit Systems via Variational and Classical Neural Networks
    変分量子アルゴリズムとCNNでマルチqutritのエントロピー推定
    アルゴリズム・理論 ニューラルネットワーク ソフトウェア工学
    本論文は、マルチqutrit量子系におけるフォン・ノイマンエントロピーの推定を、変分量子アルゴリズム(VQA)と古典的な畳み込みニューラルネット(CNN)という二つの手法で体系的に比較する。理想的なノイズなしシミュレータ上で、最大3 qutritの系を対象に評価する。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    Contagion Networks: Evaluator Bias Propagation in Multi-Agent LLM Systems
    マルチエージェントLLMで評価者バイアスが伝播する現象を分析
    AI エージェント DeepSeek 強化学習
    LLMがマルチエージェント系で評価者として働く際、その系統的な評価バイアスがどのように伝播するかを研究。Contagion Networksとして拡散の仕組みを分析する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    Beyond Global Replanning: Hierarchical Recovery for Cross-Device Agent Systems
    複数端末にまたがるエージェントの階層的な障害回復手法を提案
    AI エージェント ニューラルネットワーク 強化学習
    本論文は、複数のアプリや端末にまたがる実世界のコンピュータ操作タスク向けに、粗い全体再計画にとどまらない階層的な障害回復機構を提案する。動的な実行時障害の下で、異種環境を協調させながらきめ細かく復旧することを目指す。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 新モデル・リリース 抜粋
    Optimal Order of Multi-Agent and General Many-Body Systems
    フィードバックを持つマルチエージェント・多体系の最適次数の枠組み
    AI エージェント 検索拡張生成 (RAG)
    本論文はエージェント間のフィードバックループを持つマルチエージェント系や一般の多体系を解析する一般的枠組みを構築し、その最適な次数を論じる。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 学習・ファインチューニング 抜粋
    Your Mouse and Eyes Secretly Leak Your Preference: LLM Alignment using Implicit Feedback from Users
    マウスや視線の暗黙的フィードバックでLLMを整合する手法を提案
    ニューラルネットワーク 検索拡張生成 (RAG) 強化学習 人間のフィードバックによる強化学習 (RLHF)
    本論文は、明示的な人間のフィードバックの代わりに、マウス操作や視線などユーザーの暗黙的なシグナルを用いて大規模言語モデルを整合(アライメント)する手法を提案する。ユーザーが明示的な評価をほとんど与えず、高品質な選好データが得にくいという課題に対処する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • OpenAI Blog · EN 新モデル・リリース 抜粋
    New usage analytics and updated spend controls for enterprises
    OpenAI、ChatGPT Enterprise に利用分析と支出管理機能を追加
    GPT OpenAI
    OpenAI は ChatGPT Enterprise 向けに、新たな利用状況分析と支出管理機能を導入した。組織が AI 利用のコストを可視化・抑制しつつ、安心して導入規模を拡大できるよう支援する。管理者はチームごとの消費を把握し、上限設定などで運用を最適化できる。
    元記事を読む (OpenAI Blog) ↗
  • arXiv cs.LG (Machine Learning) · EN 推論・効率化 抜粋
    Marginal Advantage Accumulation for Memory-Driven Agent Self-Evolution
    記憶駆動エージェントの自己進化へ操作単位の優位性蓄積を提案
    本論文は、記憶駆動エージェントの自己進化に向け、バッチを横断して操作単位で証拠を蓄積する「限界優位性蓄積」を提案する。トレース蒸留で同じ記憶操作がバッチ間で矛盾するフィードバックを受ける問題に対処し、安定して有効な操作と偶然の当たりを区別することを狙う。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 推論・効率化 抜粋
    UltraQuant: 4-bit KV Caching for Context-Heavy Agents
    文脈の重いエージェント向け4ビットKVキャッシュUltraQuant
    AI エージェント 推論 (Inference) 量子化
    文脈の重いエージェントはKVキャッシュに大きな負荷をかけ、長いプレフィックスが再利用される。UltraQuantは4ビット量子化によりKVキャッシュを圧縮する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    Analyzing Defensive Misdirection Against Model-Guided Automated Attacks on Agentic AI Systems
    エージェントAIへのモデル誘導自動攻撃に対する防御的かく乱の分析
    AI エージェント 強化学習 音声処理
    エージェントAIは指示解釈にLLM部品を多用するため攻撃対象となる。本研究はモデル誘導の自動攻撃に対する防御的かく乱(misdirection)の効果を分析する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.LG (Machine Learning) · EN 安全性・評価 抜粋
    Fisher-Geometric Sharpness and the Implicit Bias of SGD toward Flat Minima
    フィッシャー幾何に基づく平坦性とSGDの平坦解への暗黙バイアス
    深層学習 ニューラルネットワーク
    本論文は、SGDが平坦な極小へ向かう暗黙のバイアスを調べるため、フィッシャー幾何に基づくシャープネス(鋭さ)の指標を導入する。損失ヘッシアンのトレースや最大固有値といった従来のユークリッド的な平坦性指標が、ネットワーク関数を保つ再パラメータ化の下で不変でない問題に対処する。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.LG (Machine Learning) · EN 安全性・評価 抜粋
    Agentic Symbolic Search: Characterizing PDEs Beyond Hand-crafted Expressions, Meshes, and Neural Networks
    偏微分方程式の解を数式構造で捉えるエージェント的記号探索を提案
    ニューラルネットワーク
    本論文は、偏微分方程式(PDE)の解を、計算値の表ではなく数学的構造として特徴づける「エージェント的記号探索」を提案する。数値シミュレーションもニューラルネットも直接は生み出さず、従来は人手の解析で得ていた構造的理解の自動化を狙う。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 開発者ツール 抜粋
    Repurposing a Speech Classifier for Guided Diffusion-Based Speech Generation
    音声分類器を誘導拡散ベースの音声生成に転用する研究
    音声処理
    分類器誘導はノイズ条件付き分類器を用いて拡散生成を制御する手法。本研究は既存の音声分類器を誘導拡散ベースの音声生成へ転用する方法を示す。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.LG (Machine Learning) · EN インフラ・ハードウェア 抜粋
    SSH-Net: A Deep Neural Network for Predicting Failure Time Distribution Functions under Competing Risks with Application to GPU Data
    競合リスク下の故障時間分布を予測する深層モデルSSH-Netを提案
    データマイニング ニューラルネットワーク
    本論文は、競合リスク下での故障時間分布関数を予測する深層ニューラルネットワークSSH-Netを提案する。複雑な工学的場面における事象発生時間(time-to-event)のモデル化を狙い、GPUの故障データへの適用で有効性を示す。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.LG (Machine Learning) · EN 開発者ツール 抜粋
    Evolutionary Two-Stage Hyperparameter Optimization Strategies for Physics-Informed Neural Networks
    PINN向けの進化的な二段階ハイパーパラメータ最適化を提案
    アルゴリズム・理論 深層学習 埋め込み (Embeddings) ニューラルネットワーク
    本論文は、物理情報ニューラルネットワーク(PINN)向けの進化的な二段階ハイパーパラメータ最適化戦略を提案する。PINNが抱える不安定な収束、学習の停滞、構造・最適化ハイパーパラメータへの強い感度といった、非凸性に起因する課題への対処を狙う。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 開発者ツール 抜粋
    Interpretable Sperm Morphology Classification via Attention-Guided Deep Learning
    注意機構を用いた解釈可能な精子形態分類の深層学習
    深層学習 ニューラルネットワーク
    男性不妊はカップル不妊の主因であり、しばしば精子形態の異常に関連する。注意誘導の深層学習により解釈可能な精子形態分類を実現する研究。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    Multi-View Decompilation for LLM-Based Malware Classification
    逆コンパイルの多視点を用いたLLMによるマルウェア分類
    ニューラルネットワーク 検索拡張生成 (RAG)
    マルウェア解析者はソース不在時に逆コンパイルされた疑似Cを調べる。本研究は複数視点の逆コンパイル情報を用いてLLMでマルウェアを分類する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.LG (Machine Learning) · EN 新モデル・リリース 抜粋
    Neural network surrogates with uncertainty quantification for inverse problems in partial differential equations
    PDE逆問題向けに不確実性を定量化するニューラル代理モデルを提案
    推論 (Inference) ニューラルネットワーク 強化学習
    本論文は、偏微分方程式の逆問題に向けて、不確実性の定量化を備えたニューラルネットワーク代理モデルを構築する。ノイズや欠損を含む観測から未知のモデルパラメータを推定する課題を扱い、従来の数値計算がベイズ設定などで高コストになる問題への対処を狙う。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.LG (Machine Learning) · EN インフラ・ハードウェア 抜粋
    On the Redundancy of Timestep Embeddings in Diffusion Models
    拡散モデルにおけるタイムステップ埋め込みの必要性を再検討
    埋め込み (Embeddings) Transformer
    本論文は、ノイズスケールに応じて除去過程を調整するために用いられる拡散モデルの明示的なタイムステップ埋め込みについて、その必要性を問い直す。U-NetやDiffusion Transformerへの影響を実験的に分析し、理論的根拠も与えて、この時間的シグナルが冗長かどうかを検証する。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.LG (Machine Learning) · EN マルチモーダル 抜粋
    Towards Modality-imbalanced Federated Graph Learning: A Data Synthesis-based Approach
    連合グラフ学習のモダリティ不均衡をデータ合成で緩和する手法
    本論文は、マルチモーダル連合グラフ学習(MM-FGL)におけるモダリティ不均衡を、データ合成に基づく手法で緩和する。クライアントが特定モダリティを丸ごと欠くクライアントレベルと、個々のノードでモダリティが欠けるノードレベルという、二つの粒度の不均衡に対処する。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    CRAX: Fast Safe Reinforcement Learning Benchmarking
    安全な強化学習を高速にベンチマークするCRAX
    AI エージェント ニューラルネットワーク 検索拡張生成 (RAG) 強化学習 ロボティクス
    実世界領域でRLエージェントを展開する上で安全は中核的関心事。CRAXは安全な強化学習を高速にベンチマークするための枠組みを提供する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.LG (Machine Learning) · EN 安全性・評価 抜粋
    Judging to Improve: A De-biased VLM-as-3D-Judge Protocol for Single-Image 3D Generation
    脱バイアスのVLM3D判定器で単一画像からの3D生成を専門化
    強化学習 ソフトウェア工学
    本論文は、単一画像からの3D生成に向けた、脱バイアスの「VLMを3D判定器として使う」プロトコルを提案する。幾何やCLIPの代理指標では捉えきれない単一画像→3Dメッシュ品質をランク付けする判定器を活かし、その選好で強力なオープン生成器TRELLISを、人手なしに家具など特定資産クラスへ安価に専門化できるかを問う。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗