開発者ツール B
312 件中 241〜270 件目を表示
-
Understanding Scam Trends and Rail Paths from Reddit Self-Disclosure NarrativesReddit の自己開示から多段階の詐欺トレンドと経路を解析するデータセットオンライン詐欺が時間順に並ぶ「レール」やイベントを含む多段階のライフサイクルである点に着目し、Reddit の自己開示ナラティブから詐欺のトレンドと経路(rail path)を追跡する arxiv 論文。注釈付きオープンデータの不足を補うデータセット構築を報告する(abstract ベースの中立要約)。
-
Federated Medical Image Segmentation under Real-World Label Noise: A Benchmark Suite for Noisy Label Learning Method Selection実環境ラベルノイズ下の連合医療画像セグメンテーション用ベンチマークを提案連合学習は機密データを集約せず医療画像のセグメンテーションを可能にするが、実運用ではサイト間の輪郭不一致や欠損・過剰な構造、ラベル混同といった不完全さが課題となる。既存の連合ノイズラベル学習(FNLL)研究は人工ノイズや簡略設定に偏ると指摘し、本研究は多様な実世界ノイズデータセット、配備想定のクライアントノイズ条件、ノイズ標的型の評価を組み合わせたベンチマーク群を導入し、手法選択を支援すると述べる。
-
Understanding the Behaviors of Environment-aware Information Retrieval検索器ごとにクエリ生成を適応させる RL 分析の論文RAG において検索器ごとに最適なクエリ生成戦略が異なる点に着目し、LLM が強化学習でクエリ生成を検索器の特性に適応させられるかを体系的に分析した arxiv 論文。abstract ベースの中立要約。
-
A Perception vs. Distortion Perspective on Score-Based Generative Channel Estimationスコアベース通信路推定を知覚-歪みトレードオフの観点で理論解析無線物理層で広がるスコアベース生成モデルについて、識別学習に対する優位性の厳密な分析が乏しいとして、通信路推定を題材に知覚-歪みトレードオフの観点から理論的に解釈。スコアマッチングが有利な条件と限界を示し、歪み最小化が招く過剰リスクを定量化すると報告する。
-
Scaling LLM Reasoning from Minimal Labels: A Semi-Supervised Framework with a Lightweight Verifier少量ラベルで LLM 推論を拡張する半教師あり枠組みを提案少数のラベル付きサンプルだけで推論の正しさを判定する軽量分類器を用い、推論検証自体をデータ生成機構に変える半教師あり枠組みを提案する arxiv 論文。abstract ベースの中立要約で、数値や優劣の断定は回避。
-
Adaptive and Explicit safe: Triggering Latent Safety Awareness in Large Reasoning Models推論モデルの潜在的な安全認識を引き出し脱獄耐性を高める手法を提案大規模推論モデルが高度な脱獄や有害クエリに脆弱な課題に対し、外部の手動アノテーションへの依存を避け、モデル自身が元のクエリと自らの推論過程を再提示されると安全リスクを認識できる「潜在的安全認識」を活用する論文。教師ありファインチューニングで安全タグを誘発し安全分析を起動するとしている。
-
LLM-based Visual Code Completion for Aerospace Geometric Design航空宇宙設計向け LLM コード補助 copilot を提案する論文安全性と説明可能性を重視する航空宇宙業界向けに、ReAct 手法のビジュアルプログラミング変種と GPT 系モデルを用いた幾何設計支援 copilot を提案する arxiv 論文。abstract ベースの中立要約で、性能の優劣や固有名の評価は差し控える。
-
Building llm-driven “ai” still requires domain knowledgeLLM駆動ツール開発でもドメイン知識の言語化が不可欠と論じるある開発者が、顧客向けAPIを使って質問に答えるLLM駆動ツールを構築する中での知見を共有。作業の大きな部分はドメイン知識を捉えて文章化することだとし、知識を厳密な構造化形式へ落とし込む必要がない点で従来のAI世代より容易だが、まさにその知識整備こそ旧世代のAIがつまずいた所だと論じる。
-
The Art of Mixology: Mixup-based Obfuscation for Privacy-Preserving Split Learning in Large Language ModelsLLMのスプリット学習向けプライバシー保護手法MIXGUARDを提案計算負荷の高い層をサーバへ委譲しつつ生データを手元に保つスプリット学習で、有用性・プライバシー・効率の両立を狙う mixup ベースの枠組み MIXGUARD を提案する論文とされる。トークン/表現レベルの難読化と適応的勾配摂動を併用すると報告。中立要約。
-
Decision-Weighted Flow Matching for Contextual Stochastic OptimizationDW-FM: 下流の意思決定の後悔に整合する重み付きフローマッチングを提案生成モデルをシナリオ生成器に使う確率的最適化で、一様な分布適合より下流の意思決定が重要との観点から、決定に敏感な終点情報で速度回帰目的を再重み付けするDecision-Weighted Flow Matching(DW-FM)を提案。後悔との理論的接続と保証を示すと報告する。
-
We Need Explanation Cards to Connect Explanation Algorithms to the Real Worldアルゴリズム説明に頑健性・妥当性情報を添える「説明カード」を提案アルゴリズム的説明は専門知識なしには誤解されやすく、複雑な決定関数の挙動を十分に伝えないとの指摘を踏まえ、説明に頑健性・妥当性の補足情報と解釈手順を付す「説明カード」を提案。無情報な説明を実用化しつつ、有効でない場合の検出も助けると論じる。
-
Skill-to-LoRA: From Using Skills to Learning Behaviors for Token-Efficient LLM AgentsSKILL.md文書をLoRAに置換しトークン効率を高める手法S2Lを提案エージェントのスキルがSKILL.md形式で配布され実行時に繰り返し文脈へ注入される非効率を踏まえ、実行時のスキル文書をスキル固有のLoRAアダプタへ置き換える行動中心の表現S2L(Skill-to-LoRA)を提案する論文。文書自体を圧縮するのではなく、スキル文が誘発する振る舞いの変化をモデル化するとしている。
-
Automated jailbreak attack targeting multiple defense strategiesLLMへの黒箱攻撃を体系化する敵対的テスト枠組みUNIATTACKを提案大規模言語モデルが敵対的プロンプト攻撃に脆弱な点を踏まえ、防御側の視点から効果的な黒箱攻撃プロンプトを体系的に構築する敵対的テスト枠組みUNIATTACKを提案する論文。静的テンプレートやモデル個別調整に依存する従来手法と異なり、多様な既存攻撃から最小限かつ高影響な特徴を抽出し最適化するとしている。
-
MyPCBench: A Benchmark for Personally Intelligent Computer-Use Agents個人秘書としてのPC操作エージェントを測る基準MyPCBenchを提案個人のPC環境やログイン済みアカウントを横断する「個人秘書」としてのPC操作エージェントを評価する基準 MyPCBench を提案する論文とされる。17の模擬Webアプリを含むLinux環境で184タスクを定義し、複数のクローズド/オープンモデルを評価したと報告。数値は原論文に基づく。
-
Revealing Artifacts via Noise Amplification: A Novel Perspective for AI-Generated Video DetectionAI生成動画の検出へ、ノイズ増幅で不自然な痕跡を可視化する新視点を提案テキストから動画を生成するモデルの普及で本物との判別が難しくなる中、生成動画特有の微細な痕跡をノイズ増幅により際立たせて検出する新たな視点を提案する論文。既存研究が主にGAN由来サンプルの検出に偏っていた点を補い、text-to-video生成物の検出可能性を検討するとしている。
-
From Affect Prediction to Affect Forecasting: Evidence for Distinct Information Sources in Longitudinal Text縦断テキストで感情の現在推定と将来予測を区別する枠組みを検証縦断的な自己報告テキストを用い、感情の現在推定(TSAP/E-TSAP)と将来の感情変化予測(ACF-Hybrid)が異なる情報源に依拠するかを検証した研究とされる。予測課題と予報課題でテキスト表現の有効性が異なると報告。数値は原論文に基づく中立要約。
-
Progressive Knowledge-Guided Large Language Model Framework for Bearing Fault Diagnosis物理ガイド型の多スケール振動解析で軸受故障診断を行う枠組みを提案振動ベースの軸受故障診断における特徴効率と局所信号忠実度のトレードオフ等の課題に対し、物理理論に基づく多スケール信号処理の統合パイプラインを提案する論文とされる。軸受運動理論由来の記述子で実時間スクリーニングを行い、故障適応的な信号分割を用いると報告。数値は原論文の記載に基づく中立要約。
-
Sycophancy as Material Failure under Pushback Loading: A Multi-Axis Characterization Across Three Loading Cases and up to Seventeen Material ChargesLLMの追従性を材料の破壊現象に見立てて多軸的に分析(本文取得不可)本記事は本文(abstract)が取得できず、表題のみから中立に要約する。LLMの追従性(sycophancy)を、材料が荷重(pushback)を受けて生じる破壊現象になぞらえ、3つの荷重ケースと最大17の「材料電荷」にわたって多軸的に特徴づけるとされる論文。具体的な手法や結果はタイトルからは確認できない。
-
SING: Synthetic Intention Graph for Scalable Active Tool Discovery in LLM AgentsLLM エージェントのツール探索を拡張する手法 SING を提案LLM エージェントは文脈やツール、複数ターンの実行を管理する「ハーネス」に依存し、ツールが行動の中心的インターフェースとなる。接続される API が数百〜数千に拡大すると、全ツールのスキーマ注入は高コストで、静的な閉世界仮定を強いる。本論文は、孤立したツール記述とエージェントの真の意図を整合させにくい既存の一発検索の課題に対し、合成意図グラフ SING による能動的ツール探索手法を提案する。
-
Can LLM Agents Infer World Models? Evidence from Agentic Automata LearningLLM エージェントは世界モデルを推論できるか、オートマトン学習で検証ツールを呼び出す LLM エージェントが、対話を通じて隠れた環境をどこまで解明できるかを評価する研究。隠れた決定性有限オートマトン (DFA) を、メンバーシップ問い合わせと等価性問い合わせを通じて推定させる設定を用い、タスク複雑度を制御できる試験環境を構築。最新 LLM を評価した結果、DFA の規模が大きくなると性能が急落し、推論特化モデルが明確に強いと報告する。
-
Fast When, Careful Who: Dual-Process Multiparty Turn-Taking with Diffusion Augmentation多人数対話の話者交替を音声のみで予測する二段階手法を提案音声対話システムに不可欠な話者交替 (turn-taking) を、重なりや急な話者変化を含む多人数音声で扱う研究。多くの既存手法は 2 話者向けで現実的な多人数音声に弱い。本論文は VoxConverse データセットを用い、「いつ」交替境界を引くかと「実際に発話権が移るか」を分離する音声のみの二段階パイプラインを提案。高速トリガーが候補時刻を提示し、軽量な検証器がその時点でのみ保持か交替かを判定する。
-
The BD-LSC Dataset: Facilitating the Benchmarking of Models for Lexical Semantic Change Detection in Slang and Standard Usage語義変化検出の新ベンチマーク BD-LSC データセットを公開語の意味が時代とともに変化する様子 (語彙的意味変化、LSC) を計算的に検出する研究。既存のベンチマークや手法は、語が同時に意味を獲得・喪失する双方向の変化や、俗語と標準的意味を併せ持つ語の扱いが難しい。本論文は、3 つの時代区分で意味の獲得・喪失・安定を捉える双方向データセット BD-LSC など 2 つの補完的ベンチマークを導入し、評価を促進すると述べる。
-
SkillWiki: A Living Knowledge Infrastructure for Agent Skillsエージェントスキルの生きた知識基盤「SkillWiki」を提案知識はWikipedia、ソフトウェアはGitHubで管理される一方、エージェントのスキルには大規模な生産・統治・進化のための基盤が欠けていた。本研究のSkillWikiは、多様な知識を出所の証跡に紐づく再利用可能なスキル資産へ変換し、スキルの整理・接地・継続的進化を支える「生きた知識基盤」である。知識の取り込みからスキル生産、来歴を意識した探索、統治、実行駆動の進化まで、スキルのライフサイクル全体を提示する。デモとソースコードは公開されているとする。
-
Why AI hasn’t replaced software engineers, and won’t「AIはソフトウェア技術者を代替しない」と論じるエッセイArvind NarayananとSayash Kapoorは、AIによる雇用喪失の問題を、AI破壊の影響を最も受けやすい職種であるソフトウェア工学を通して論じる。AIが一定の能力水準に達すれば大量解雇を招くという物語を退けるに足る証拠があると主張。規制障壁の少ないこの分野でさえそうである以上、他の職種はより緩衝されるだろうとする。
-
AI, Gods and Selves: Incredibly Effective IllusionsAI・神・自己を『極めて効果的な幻想』として論じる動画エッセイ共有された動画エッセイは、AI・神・自己のいずれも『極めて効果的な幻想』だと論じる。確かな実体を欠きながらも人間の経験を強く形づくる構築物だとして、人工知能を神や自己といった古くからの観念と並べて捉える視点を示す。
-
Publishing WASM wheels to PyPI for use with PyodidePyodide向けWASM wheelをPyPIで公開可能に(PEP 783)Pyodide 314.0で、PyEmscriptenプラットフォーム(PEP 783)に対応したPythonパッケージをWASM wheelとしてPyPIに公開できるようになった。ブラウザ上で動くPythonエコシステムの拡充につながる、長く待たれていた進展。
-
luau-wasm 0.1a0luau-wasm 0.1a0 公開、LuauをWebAssemblyへRoblox発の型付きLua方言「Luau」をWebAssembly化した「luau-wasm」の初期版0.1a0が公開された。先述のPyodide向けWASM wheel公開の仕組みを利用して配布されているとされる。
-
Mapping SQLite result columns back to their source `table.column`SQLite結果列を元のtable.columnへ対応付ける研究Datasetteで任意のSQLクエリ結果について、各列がどのテーブルのどの列に由来するかを追跡し、追加情報を付与する構想。結果列を元のtable.columnにマッピングする仕組みを検討した技術メモ。
-
Police officer investigated for using AI to 'create evidence' in multiple cases警官がAIで「証拠を捏造」か、複数事件で捜査対象にある警察官が複数の事件でAIを使って「証拠を作成」した疑いで捜査を受けていると報じられた。生成AIの悪用が司法手続きに及ぼすリスクを示す事例として議論を呼んでいる。
-
Visual Language Models Train Robots to Read Human Emotions視覚言語モデルで、ロボットが人間の感情を読む訓練IEEE Spectrumの記事。ロボットの器用さが増し人間と協働する場面が増える中、視覚言語モデル(VLM)を使ってロボットが人の表情や感情を読み取る研究を紹介。安全で円滑な人間-ロボット協調を目指す取り組み。