開発者ツール B
323 件中 1〜30 件目を表示
-
画面操作を“録画”→AIが作業代行 Codexに新機能「Record & Replay」OpenAI、Codexに操作録画でAI代行する新機能『Record & Replay』OpenAIが、コーディング支援エージェントCodexに新機能『Record & Replay』を追加した。画面上の操作を録画すると、その手順をAIが再現して作業を代行するという。ITmediaが報じた。
-
Datasette Apps: Host custom HTML applications inside DatasetteSimon Willison氏、Datasette内でカスタムHTMLアプリを動かす「Datasette Apps」を公開Simon Willison氏が、データ探索・公開ツール「Datasette」の内部にカスタムHTMLアプリケーションをホストできる新機能「Datasette Apps」を発表した。Datasetteのデータベースにアクセスする独自のHTML/JSアプリを、同インスタンス上で直接配信できる。データ基盤と一体化した軽量アプリ構築を可能にする開発者向け機能。
-
Optimal Deterministic Multicalibration and Omnipredictionランダム性不要、決定的予測器で最適なマルチキャリブレーションを実現本研究は、決定的な予測器を出力するミニマックス最適なマルチキャリブレーション手法を提案する。最適なサンプル複雑度の達成にランダム化が必要かという未解決問題を解決し、結果を結果識別不能性(OI)やオムニ予測を満たす決定的予測器へと一般化する。
-
Predictability as a Fine-Grained Measure for Privacy予測可能性に着目した、きめ細かな新しいプライバシー指標を提案本論文は、攻撃者の中核的な事前知識を明示的に取り込む「予測可能性によるプライバシー」という、きめ細かな枠組みを提案する。差分プライバシーの最悪ケース保証が招くプライバシーと精度のトレードオフの緩和を狙う。
-
LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents方針順守のツール呼び出しエージェントに構造化状態を与えるLedgerAgent顧客対応領域で方針を順守するツール呼び出しエージェントは、複数ターンにわたりタスク状態を保持する必要がある。LedgerAgentは構造化された状態管理によりこの課題に取り組む。
-
SARLO-80: Worldwide Slant SAR Language Optic Dataset 80cm80cm解像度の世界規模スラントSAR・光学データセットSARLO-80マルチモーダル基盤モデルは大規模な光学ベンチマークで急速に進歩した一方、SAR向けの資源は不足している。SARLO-80は80cm解像度の世界規模スラントSAR・光学データセットを提供する。
-
Sovereign Execution Brokers: Enforcing Certificate-Bound Authority in Agentic Control Planesエージェント制御基盤で証明書束縛の権限を強制するSovereign Execution Brokers自律エージェントがクラウドや展開、データ制御のワークフローに接続されるなか、本番環境のセキュリティが課題となる。証明書に束縛された権限を制御基盤で強制する仕組みを提案する。
-
Multi-LCB: Extending LiveCodeBench to Multiple Programming LanguagesLiveCodeBを多言語に拡張したコード評価ベンチMulti-LCBLiveCodeBenchはLLMのコード能力評価で広く採用されている。Multi-LCBはこれを複数のプログラミング言語へ拡張し、多言語でのコード生成能力を評価する。
-
What Do Safety-Aligned LLMs Learn From Mixed Compliance Demonstrations?安全整合LLMが混在コンプライアンス実例から何を学ぶか文脈内の実例がLLMをジェイルブレイクし得ることは知られているが、順守と違反が混在する実例から安全整合モデルが何を学ぶかは不明だった。本研究はその挙動を分析する。
-
Entropy Estimation in Multi-Qutrit Systems via Variational and Classical Neural Networks変分量子アルゴリズムとCNNでマルチqutritのエントロピー推定本論文は、マルチqutrit量子系におけるフォン・ノイマンエントロピーの推定を、変分量子アルゴリズム(VQA)と古典的な畳み込みニューラルネット(CNN)という二つの手法で体系的に比較する。理想的なノイズなしシミュレータ上で、最大3 qutritの系を対象に評価する。
-
Contagion Networks: Evaluator Bias Propagation in Multi-Agent LLM SystemsマルチエージェントLLMで評価者バイアスが伝播する現象を分析LLMがマルチエージェント系で評価者として働く際、その系統的な評価バイアスがどのように伝播するかを研究。Contagion Networksとして拡散の仕組みを分析する。
-
Beyond Global Replanning: Hierarchical Recovery for Cross-Device Agent Systems複数端末にまたがるエージェントの階層的な障害回復手法を提案本論文は、複数のアプリや端末にまたがる実世界のコンピュータ操作タスク向けに、粗い全体再計画にとどまらない階層的な障害回復機構を提案する。動的な実行時障害の下で、異種環境を協調させながらきめ細かく復旧することを目指す。
-
Optimal Order of Multi-Agent and General Many-Body Systemsフィードバックを持つマルチエージェント・多体系の最適次数の枠組み本論文はエージェント間のフィードバックループを持つマルチエージェント系や一般の多体系を解析する一般的枠組みを構築し、その最適な次数を論じる。
-
Your Mouse and Eyes Secretly Leak Your Preference: LLM Alignment using Implicit Feedback from Usersマウスや視線の暗黙的フィードバックでLLMを整合する手法を提案本論文は、明示的な人間のフィードバックの代わりに、マウス操作や視線などユーザーの暗黙的なシグナルを用いて大規模言語モデルを整合(アライメント)する手法を提案する。ユーザーが明示的な評価をほとんど与えず、高品質な選好データが得にくいという課題に対処する。
-
New usage analytics and updated spend controls for enterprisesOpenAI、ChatGPT Enterprise に利用分析と支出管理機能を追加OpenAI は ChatGPT Enterprise 向けに、新たな利用状況分析と支出管理機能を導入した。組織が AI 利用のコストを可視化・抑制しつつ、安心して導入規模を拡大できるよう支援する。管理者はチームごとの消費を把握し、上限設定などで運用を最適化できる。
-
Marginal Advantage Accumulation for Memory-Driven Agent Self-Evolution記憶駆動エージェントの自己進化へ操作単位の優位性蓄積を提案本論文は、記憶駆動エージェントの自己進化に向け、バッチを横断して操作単位で証拠を蓄積する「限界優位性蓄積」を提案する。トレース蒸留で同じ記憶操作がバッチ間で矛盾するフィードバックを受ける問題に対処し、安定して有効な操作と偶然の当たりを区別することを狙う。
-
UltraQuant: 4-bit KV Caching for Context-Heavy Agents文脈の重いエージェント向け4ビットKVキャッシュUltraQuant文脈の重いエージェントはKVキャッシュに大きな負荷をかけ、長いプレフィックスが再利用される。UltraQuantは4ビット量子化によりKVキャッシュを圧縮する。
-
Analyzing Defensive Misdirection Against Model-Guided Automated Attacks on Agentic AI SystemsエージェントAIへのモデル誘導自動攻撃に対する防御的かく乱の分析エージェントAIは指示解釈にLLM部品を多用するため攻撃対象となる。本研究はモデル誘導の自動攻撃に対する防御的かく乱(misdirection)の効果を分析する。
-
Fisher-Geometric Sharpness and the Implicit Bias of SGD toward Flat Minimaフィッシャー幾何に基づく平坦性とSGDの平坦解への暗黙バイアス本論文は、SGDが平坦な極小へ向かう暗黙のバイアスを調べるため、フィッシャー幾何に基づくシャープネス(鋭さ)の指標を導入する。損失ヘッシアンのトレースや最大固有値といった従来のユークリッド的な平坦性指標が、ネットワーク関数を保つ再パラメータ化の下で不変でない問題に対処する。
-
Agentic Symbolic Search: Characterizing PDEs Beyond Hand-crafted Expressions, Meshes, and Neural Networks偏微分方程式の解を数式構造で捉えるエージェント的記号探索を提案本論文は、偏微分方程式(PDE)の解を、計算値の表ではなく数学的構造として特徴づける「エージェント的記号探索」を提案する。数値シミュレーションもニューラルネットも直接は生み出さず、従来は人手の解析で得ていた構造的理解の自動化を狙う。
-
Repurposing a Speech Classifier for Guided Diffusion-Based Speech Generation音声分類器を誘導拡散ベースの音声生成に転用する研究分類器誘導はノイズ条件付き分類器を用いて拡散生成を制御する手法。本研究は既存の音声分類器を誘導拡散ベースの音声生成へ転用する方法を示す。
-
SSH-Net: A Deep Neural Network for Predicting Failure Time Distribution Functions under Competing Risks with Application to GPU Data競合リスク下の故障時間分布を予測する深層モデルSSH-Netを提案本論文は、競合リスク下での故障時間分布関数を予測する深層ニューラルネットワークSSH-Netを提案する。複雑な工学的場面における事象発生時間(time-to-event)のモデル化を狙い、GPUの故障データへの適用で有効性を示す。
-
Evolutionary Two-Stage Hyperparameter Optimization Strategies for Physics-Informed Neural NetworksPINN向けの進化的な二段階ハイパーパラメータ最適化を提案本論文は、物理情報ニューラルネットワーク(PINN)向けの進化的な二段階ハイパーパラメータ最適化戦略を提案する。PINNが抱える不安定な収束、学習の停滞、構造・最適化ハイパーパラメータへの強い感度といった、非凸性に起因する課題への対処を狙う。
-
Interpretable Sperm Morphology Classification via Attention-Guided Deep Learning注意機構を用いた解釈可能な精子形態分類の深層学習男性不妊はカップル不妊の主因であり、しばしば精子形態の異常に関連する。注意誘導の深層学習により解釈可能な精子形態分類を実現する研究。
-
Multi-View Decompilation for LLM-Based Malware Classification逆コンパイルの多視点を用いたLLMによるマルウェア分類マルウェア解析者はソース不在時に逆コンパイルされた疑似Cを調べる。本研究は複数視点の逆コンパイル情報を用いてLLMでマルウェアを分類する。
-
Neural network surrogates with uncertainty quantification for inverse problems in partial differential equationsPDE逆問題向けに不確実性を定量化するニューラル代理モデルを提案本論文は、偏微分方程式の逆問題に向けて、不確実性の定量化を備えたニューラルネットワーク代理モデルを構築する。ノイズや欠損を含む観測から未知のモデルパラメータを推定する課題を扱い、従来の数値計算がベイズ設定などで高コストになる問題への対処を狙う。
-
On the Redundancy of Timestep Embeddings in Diffusion Models拡散モデルにおけるタイムステップ埋め込みの必要性を再検討本論文は、ノイズスケールに応じて除去過程を調整するために用いられる拡散モデルの明示的なタイムステップ埋め込みについて、その必要性を問い直す。U-NetやDiffusion Transformerへの影響を実験的に分析し、理論的根拠も与えて、この時間的シグナルが冗長かどうかを検証する。
-
Towards Modality-imbalanced Federated Graph Learning: A Data Synthesis-based Approach連合グラフ学習のモダリティ不均衡をデータ合成で緩和する手法本論文は、マルチモーダル連合グラフ学習(MM-FGL)におけるモダリティ不均衡を、データ合成に基づく手法で緩和する。クライアントが特定モダリティを丸ごと欠くクライアントレベルと、個々のノードでモダリティが欠けるノードレベルという、二つの粒度の不均衡に対処する。
-
CRAX: Fast Safe Reinforcement Learning Benchmarking安全な強化学習を高速にベンチマークするCRAX実世界領域でRLエージェントを展開する上で安全は中核的関心事。CRAXは安全な強化学習を高速にベンチマークするための枠組みを提供する。
-
Judging to Improve: A De-biased VLM-as-3D-Judge Protocol for Single-Image 3D Generation脱バイアスのVLM3D判定器で単一画像からの3D生成を専門化本論文は、単一画像からの3D生成に向けた、脱バイアスの「VLMを3D判定器として使う」プロトコルを提案する。幾何やCLIPの代理指標では捉えきれない単一画像→3Dメッシュ品質をランク付けする判定器を活かし、その選好で強力なオープン生成器TRELLISを、人手なしに家具など特定資産クラスへ安価に専門化できるかを問う。