資金・M&A C

74 件中 61〜74 件目を表示
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    P3B3: A Multi-Turn Conversational Benchmark for Measuring European and Brazilian Portuguese Variety Bias in LLMs
    ポルトガル語の地域変種バイアスを測る基準P3B3を提案
    欧州・ブラジルのポルトガル語変種に対するLLMの偏りを測る、専門家編纂の基準 P3B3 と評価枠組みを提案する論文とされる。多くのモデルがブラジル変種へ強く偏ると報告し、より均衡した多言語表現の必要性を指摘。中立要約。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    Automated jailbreak attack targeting multiple defense strategies
    LLMへの黒箱攻撃を体系化する敵対的テスト枠組みUNIATTACKを提案
    検索拡張生成 (RAG) 音声処理
    大規模言語モデルが敵対的プロンプト攻撃に脆弱な点を踏まえ、防御側の視点から効果的な黒箱攻撃プロンプトを体系的に構築する敵対的テスト枠組みUNIATTACKを提案する論文。静的テンプレートやモデル個別調整に依存する従来手法と異なり、多様な既存攻撃から最小限かつ高影響な特徴を抽出し最適化するとしている。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 資金・M&A 抜粋
    Multimodal Evaluator Preference Collapse: Cross-Modal Contagion in Self-Evolving Agents
    自己進化エージェントの評価選好崩壊と跨モーダル伝播を扱う論文
    AI エージェント DeepSeek GPT
    自己進化型エージェントにおける「評価者の選好崩壊」と、それがモーダル間で伝播する現象を扱う研究とされる。本記事は raw_excerpt が content filter で取得不可のため、タイトルのみから中立的に要約しており、手法や結果の詳細は原論文の確認が必要。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 資金・M&A 抜粋
    SCAR: Semantic Continuity-Aware Retrieval for Efficient Context Expansion in RAG
    RAGの文脈拡張を効率化する検索手法SCARを提案(本文取得不可)
    埋め込み (Embeddings) 検索拡張生成 (RAG)
    本記事は本文(abstract)が取得できず、表題のみから中立に要約する。検索拡張生成(RAG)における文脈拡張を効率化するため、意味的な連続性を考慮した検索手法「SCAR」を提案する論文とされる。具体的な仕組みや評価結果はタイトルからは確認できない。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    Islamic Large Language Models: From Knowledge Acquisition to Trustworthy and Hallucination-Resistant AI
    イスラム知識を扱う信頼性の高いLLMの研究動向を概観する論文
    自然言語処理 (NLP) 検索拡張生成 (RAG) 強化学習 ソフトウェア工学
    宗教・法に関する知識集約的な質問応答でLLM利用が広がる中、イスラム知識を扱う「Islamic LLM」と信頼できるイスラムAIの新興分野を概観するサーベイ論文。アラビア語の流暢さだけでは不十分とし、厳選された出典、検索・検証モジュール、引用に基づく生成、幻覚評価などが必要だと論じる。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    How Far Can Machine Translation Quality Take You? Extrinsic Discourse Evaluation in Goal-Oriented Setups
    機械翻訳の品質が下流の談話理解に与える影響を外在的に評価
    機械翻訳 (MT) の評価指標は翻訳品質を内在的に測るものが多く、翻訳誤りが下流に及ぼす影響を測らない。本論文は静的・対話的の 2 つの状況で外在的な談話評価を行う。静的な状況では参照一貫性の指標として実体数え上げタスクを提案し、高い内在的品質が必ずしも下流の談話成功を予測しないと示す。対話的な状況では目標志向の多エージェントゲーム Welfare Diplomacy を用いて検証する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 資金・M&A 抜粋
    Can LLM Coding Agents Reason About Time Series?
    LLM コーディングエージェントは時系列を推論できるか検証
    AI エージェント ソフトウェア工学
    金融・医療・環境監視などで使われる時系列データを、LLM エージェントが分析できるか検証した論文。生の数値を与える方式、LLM をコーディングエージェントとして使う方式、両者の組み合わせの 3 通りを比較し、Python コードで反復的にデータを照会できるエージェントが生データ処理を最大 10% 上回ったと報告。ただし最良のエージェントでも約 22〜34% は誤答が残るとする。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • Cohere Blog · EN 資金・M&A 抜粋
    Cohere triples UK footprint with new London office to support R&D growth
    Cohere、ロンドン新オフィスで英国拠点を約3倍に拡張
    ニューラルネットワーク 強化学習
    カナダ発の AI 企業 Cohere が、ロンドンの新オフィス(100 New Oxford Street)へ移転し、英国拠点の規模を従来比でほぼ 3 倍に拡張すると発表した。英国・欧州の AI 人材と R&D 体制の強化、エンタープライズ向けの安全な「ソブリン AI」需要への対応を狙うとしている。
    元記事を読む (Cohere Blog) ↗
  • Hacker News (Front Page) · EN 資金・M&A 抜粋
    How to Earn a Billion Dollars
    Paul Graham、10億ドルの富の築き方を論じるエッセイを公開
    Y Combinator 共同創業者 Paul Graham が、10億ドル規模の富をどう築くかを論じたエッセイ。急成長するスタートアップを創業し、人々が本当に欲しがるものを作ることが最も確実な道だと説く。富の創出を規模・市場選択・起業家精神の観点から、平易な語り口で展開する。
    元記事を読む (Hacker News (Front Page)) ↗
  • Simon Willison's Weblog · EN 資金・M&A 抜粋
    Quoting Andrew Singleton
    Simon Willison、Andrew Singletonの発言を引用紹介
    Meta ニューラルネットワーク ソフトウェア工学
    Simon WillisonのブログがAndrew Singletonの発言を引用するクオート記事を掲載。タグ情報からはMeta・ソフトウェアエンジニアリング・ニューラルネットワーク周辺の話題と推定される。引用の全文と文脈は原文を参照。
    元記事を読む (Simon Willison's Weblog) ↗
  • arXiv cs.LG (Machine Learning) · EN 安全性・評価 抜粋
    Which Directions Matter? Sparse Design for Affine Robust Optimization
    アフィンロバスト最適化で重要な不確実性方向を疎に選択
    機械学習 検索拡張生成 (RAG)
    ロバスト最適化で、有限辞書と予算制約で定義される不確実性のうち、モデルがカバーすべき方向を検討。重要な方向を疎に選ぶ設計手法を提案する。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • Hugging Face Blog · EN 安全性・評価 抜粋
    olmo-eval: An evaluation workbench for the model development loop
    AllenAI、モデル開発ループ向け評価ワークベンチ「olmo-eval」を公開
    Allen Institute for AIが、モデル開発ループで用いる評価ワークベンチ「olmo-eval」をHugging Faceブログで紹介。学習途中のモデルを継続的に評価する開発支援基盤とみられ、OLMo系オープンモデル開発の知見を反映した位置づけ。
    元記事を読む (Hugging Face Blog) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    Rethinking Global Average Pooling: Your Classifier Is Secretly a Multi-Instance Learner
    大域平均プーリングの分類器は実は多重インスタンス学習器と指摘
    検索拡張生成 (RAG)
    近年の画像分類器は大域平均プーリング(GAP)と線形ヘッドを多用する。本論文はこの線形性ゆえに、GAP付き分類器が実質的に多重インスタンス学習(MIL)器として振る舞うことを示し、GAPの再考を促す。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 資金・M&A 抜粋
    MoDiCoL: A Modular Diagnostic Continual Learning Dataset for Robust Speech Recognition
    頑健な音声認識向けモジュラー診断的継続学習データセット「MoDiCoL」
    強化学習 音声処理
    近年のASRは標準ベンチで著しく進歩したが、条件によって性能差が残る。本論文は頑健な音声認識のための、モジュラーで診断的な継続学習(continual learning)データセット「MoDiCoL」を提案する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗