開発者ツール B
304 件中 181〜210 件目を表示
-
INI-VPINN: A Variational Physics-Informed Neural Network with Implicit Neumann and Interface Handling for Multi-Material Domains with Geometric SingularitiesINI-VPINN、多材料・幾何特異点を扱う変分PINNINI-VPINNは弱形式のPhysics-Informed Neural Network手法で、ノイマン境界や界面条件を変分定式化に自然に取り込む。幾何的特異点を持つ多材料領域での解析を狙う。
-
LegalHalluLens: Typed Hallucination Auditing and Calibrated Multi-Agent Debate for Trustworthy Legal AILegalHalluLens、法務AIの型付き幻覚を監査し多者討論で較正法務に使うAIは平均で約52%幻覚するとされるが、平均は誤りの偏りや方向を隠す。LegalHalluLensは型付きの幻覚監査と較正された多エージェント討論を組み合わせ、信頼できる法務AIへ向けた実用的シグナルを与える枠組みを提案する。
-
A T-API-Compliant ReAct Agentic Loop for Optical Networks: Generic vs. Domain-Specific Tool Abstractions光ネットワーク向けT-API準拠のReActエージェントループを提案光ネットワークの意図駆動・閉ループ管理に向け、初のT-API準拠のReAct(推論・行動)ループを提示する論文。ドメイン特化の複合ツールが汎用ツールに比べ90%のオラクル検証済み正確性を達成し、トークンを3分の1に削減すると述べる。
-
Differential Privacy of Gaussian Process Posterior Samplingガウス過程の事後サンプリングの差分プライバシーを解析訓練集合全体が秘匿される設定でガウス過程の事後サンプル経路を公開する際のプライバシーを研究。外部ノイズを加える通常のDP機構と異なり、事後サンプリングが本来持つ確率性が差分プライバシー保証を生むことを示す。
-
Recover Semantics First, Generate Better: Improved Latent Modeling for 3D MRI Reconstruction and Cross-Contrast Synthesis3D MRI再構成とコントラスト間合成を改善する潜在モデリングを提案複数コントラストMRIの取得が時間と費用を要する課題に対し、欠損コントラストを推定するコントラスト間合成に着目する論文。巨大な3D体積を扱う計算負荷の課題に対し、意味を先に回復する改良された潜在モデリングを提案すると述べる。
-
STAR: SpatioTemporal Adaptive Reward Allocation for Text-to-Image RL Post-Trainingtext-to-image RL後学習の時空間適応的報酬配分STARを提案text-to-image生成のRL後学習が最終画像の報酬を単一スカラーとして全軌跡に一様適用する点に着目した論文。脱ノイズ段階や画像領域ごとに役割が異なる時空間構造を踏まえ、報酬を適応的に配分する手法STARを提案すると述べる。
-
Learning task-specific subspaces via interventional post-training of speech foundation models介入的事後訓練で音声基盤モデルの課題特化部分空間を学習音声基盤モデルは大規模な無ラベル音声から汎用表現を作るが、変数情報が分散して符号化される一方で下流課題は一部の変動のみ利用する。本研究は介入的な事後訓練により課題特化の部分空間を学習する。
-
Beyond Visual Cues: CoT-Enhanced Reasoning for Semi-supervised Medical Image SegmentationCoT強化推論で半教師あり医用画像セグメンテーション半教師あり医用画像セグメンテーションは注釈不足を一貫性正則化で緩和するが、既存手法は画素レベルの視覚的一致に依存しがち。本研究は連鎖思考(CoT)で推論を強化し、視覚的手掛かりを超えた性能を狙う。
-
Predictive Analytics in E-Commerce for CustomerBehavior Forecasting using hybrid Ret-DNN withXGBoost ModelEC顧客行動予測にRet-DNNとXGBoostのハイブリッドEC事業者は顧客行動の理解と将来購買の予測に苦戦している。本研究は予測分析として、Ret-DNNとXGBoostを組み合わせたハイブリッドモデルにより顧客行動予測を行う手法を提案する。
-
ChLogic: Evaluating Robustness of Logical Reasoning in Chinese ExpressionsChLogic、中国語表現での論理推論の頑健性を評価LLMは標準的な論理推論ベンチで好成績だが英語を超えて頑健かは不明。ChLogicは同一の潜在論理構造を中国語で表したときに性能が保たれるかを測る英中対応ベンチマークを導入する。
-
Dynamic Rollout Editing for Reducing Overthinking in RL-Trained Reasoning Models動的ロールアウト編集でRL推論モデルの過剰思考を抑制長い連鎖思考は性能を上げるが、正解到達後も不要な推論を続ける過剰思考が起きる。本研究はGRPO型強化学習の観点からこれを捉え、動的なロールアウト編集により過剰思考を削減する手法を提案する。
-
Dimensionality Controls When Modularity Helps in Continual Learning継続学習でモジュール性が効く条件は次元が左右する合成的学習系は可塑性と安定性の均衡を保つ必要がある。本研究は継続学習においてモジュール性が有益となる条件を分析し、表現の次元がその効果を左右することを示す。
-
GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?GameCraft-Bench、実ゲームエンジンで遊べるゲームを作れるかゲーム生成はコーディングエージェントの新応用で、自然言語仕様を遊べる対話システムへ変換する必要がある。GameCraft-Benchは、スクリプト・シーン・アセット・描画・実行時挙動が協調する実ゲームエンジン上で、エージェントが端から端までゲームを構築できるかを測る。
-
SpaceX Is Buying CursorSpaceXがAIコーディングツールCursorを買収と報道SpaceXがAIコードエディタを手がけるCursorを買収すると報じられた。本記事は見出しのみで本文がなく、買収額・時期・両社の意図といった詳細は確認できない。事実関係の裏付けが取れないため、報道内容として中立に記載する。
-
Meta-classification of one-class classification models using ranking correlation and nearest neighbor順位相関と最近傍で一クラス分類モデルをメタ分類機械学習は多様な問題に適用されてきたが、MLモデル自体へのML適用は未開拓。本研究は全MLモデルを一クラス分類(OCC)で近似できるとみなし、順位相関と最近傍を用いてOCCモデルをメタ分類する手法を提案する。
-
WallZero: Mastering the Game of WallGo with Strategic AnalysisWallZero、戦略分析でボードゲームWallGoを攻略WallGoは近年導入された戦略的ボードゲームである。WallZeroは戦略分析を伴う手法でWallGoを攻略し、ゲームAIとしての性能や戦略的知見を示す。
-
Perceptual compensation for tonal context in self-supervised speech models自己教師あり音声モデルにおける声調文脈の知覚補償を検討本研究は自己教師あり音声モデルが声調(トーン)の文脈に対し知覚補償を行う程度を検討し、人間の音声知覚に見られる文脈効果がモデル表現にどの程度現れるかを分析する。
-
When Multiple Scripts Matter: Evaluating ASR in Clinical Settings複数の文字体系が問題となる臨床ASRの評価非英語の臨床現場の自動音声認識は、同じ語が複数の正書法で現れる多文字性に悩む。文字列一致型の評価指標は異形を誤りと扱い性能を過小評価しがちで、本研究は複数文字体系下のASR評価を検討する。
-
A Framework for Evaluating Agentic Skills at Scaleエージェントのスキルを大規模に評価する枠組みLLMエージェントを拡張する構造化・再利用可能なスキルは産業で急速に普及したが、領域横断の効果や個々のスキル評価の再利用可能な方法論が不足している。本研究はスキルを大規模に評価する枠組みを提案する。
-
Beyond Native Success: Auditing Deployment-Interface Exposure of CLIP BackdoorsCLIPバックドアの展開インターフェース露出を監査CLIPは特徴抽出・検索・再順位付け・選択など多様な下流インターフェースで再利用される。既存のCLIPバックドアは小さな攻撃固有課題で検証されがちで、本研究は本来の成功を超えた展開インターフェース露出を監査する。
-
The Slop Paradox: How Synthetic Standardization Erodes Clinical Uncertainty and Cross-Modal Alignment in AI-Rewritten Radiology Reportsスロップの逆説、AI書換え放射線レポートが臨床的不確実性を侵食AI支援の臨床文書ツールはLLMで放射線レポートを要約・標準化・整形する。本研究はインディアナ大の胸部X線レポート450件を用い、合成版が引き起こす情報劣化を統制的に計測し、臨床的不確実性とモダリティ整合の侵食を示す。
-
Toward Accessible Psychotherapy Training Using AI-Driven Interactive Patient AvatarsAI患者アバターで心理療法訓練をより手軽にアクセプタンス&コミットメント療法など根拠に基づく介入の訓練は反復練習と有意義なフィードバックを要するが、倫理・運用・資源の制約で機会が限られる。本研究はAI駆動の対話的患者アバターを用いた心理療法訓練を提案する。
-
SpaceX to buy Cursor for $60BSpaceX、Cursorを600億ドルで買収と報道SpaceXがAIコーディングツール「Cursor」(Anysphere)を600億ドルで買収するとロイターが報じた記事。買収の規模と狙いが注目される。買収額・詳細は報道ベースで、第三者検証は未確認。
-
LLMs Infer Cultural Context but Fail to Apply It When RespondingLLMは文化的文脈を推測できても応答で適用できないLLMは支配的(特に西洋)文化を過剰表現し他を周縁化することが知られる。本研究はこれが文化適応応答の生成能力に及ぼす影響を評価し、モデルが文化的文脈を推測できても応答時に適用できないことを示す。
-
From Trainee to Trainer: LLM-Designed Training Environment for RL with Multi-Agent Reasoning訓練生から訓練者へ、LLMがRL用の訓練環境を設計LLMのRLパイプラインは段階間で手作業の環境再設計に依存し、どの設定が有効かを職人的に推測する必要がある。本研究はLLM自身が多エージェント推論を伴うRL向けの訓練環境を設計する手法を提案する。
-
Prompt Perturbation for Reliable LLM Evaluation over Comparison Graphsプロンプト摂動で比較グラフ上の信頼できるLLM評価LLMの評価は重要だが、プロンプトの僅かな変化に脆弱なことがある。本研究はプロンプト摂動を用い、比較グラフ上でより信頼できるLLM評価を行う手法を提案する。
-
Why adding ontologies to LLMs won't yield machine intelligenceLLMへのオントロジー追加は機械知能に繋がらないとする議論lobste.rs の AI フィード経由で共有された動画。LLM にオントロジー(明示的な知識体系)を付加しても、真の機械知能(machine intelligence)には結びつかないと論じる内容。記号的な知識構造の追加と、LLM が行う統計的な言語処理の間には本質的な隔たりがあるという観点から、オントロジー統合だけでは知能の獲得に不十分だとする立場を示す。本文抜粋が乏しいため、タイトルと文脈に基づく中立的な要約。
-
Cloudflare CAPTCHA on at least one ampersandSimon Willison、Cloudflare WAFで検索URLに&がある時だけCAPTCHAを出す設定を紹介Simon Willison氏のTILメモ。自身のファセット検索エンジンへのクローラー対策にCloudflareのWAF(Managed Challenge)でCAPTCHAを掛けていたが、単純な単語検索でもチャレンジが出て不便だった。Claude Codeを使って試行錯誤した結果、検索URLに「&」が1つ以上含まれる場合のみCAPTCHAを発動するカスタムルールを設定でき、単一語のクエリは妨げられなくなったと報告している。
-
Fine-Tuning Biological Foundation Models with LoRA Using NVIDIA BioNeMo RecipesNVIDIA、BioNeMo Recipes で生物基盤モデルの LoRA fine-tuning 手法を解説NVIDIA の開発者ブログが、タンパク質やゲノム配列の大規模コーパスで事前学習された生物基盤モデル(ESM2 等のタンパク質言語モデルを含む)を、LoRA を用いて効率的に fine-tuning する手法を、同社の BioNeMo Recipes を例に解説する。計算生物学における基盤モデル活用を扱った技術記事。
-
The Value Axis: Language Models Encode Whether They're on the Right TrackLLM内部に戦略の成否を符号化する「価値軸」を発見Qwen3-8Bの内部活性を分析し、現在の戦略が目標を達成できる見込みを表す「価値軸」が存在することを示した研究。この軸は確信度の高低、バックトラッキングの有無、正誤コードを区別する。価値を高める方向に操作すると自己修正が抑制され、低める方向では探索的な挙動が誘発される。DPOが報酬対象の行動の内部価値を高めることも確認した。