Episodios

  • 株式会社ずんだもん技術室AI放送局 podcast 20250319
    Mar 18 2025
    関連リンク
    • 15分でわかる!AIエージェント開発の最新フレームワーク OpenAI Agents SDK

    OpenAI Agents SDKは、AIエージェント開発を効率化するフレームワークです。複数のAIエージェントが連携し、複雑なタスクを処理できます。 主要な概念は以下の4つです。

    1. エージェント:名前、役割、モデル、ツールを設定
    2. ハンドオフ:タスクを他のエージェントに委譲
    3. ガードレール:不適切な入力をチェックし拒否
    4. トレーシング:エージェントの動作を可視化 記事では、これらの概念をPythonで実装し、具体的な動作例を示します。 これにより、AIエージェントシステムの開発、デバッグ、監視が容易になります。

    引用元: https://qiita.com/Kumacchiino/items/51a8ffee98eeb4f8d0c6

    • NVIDIA Blackwell Delivers World-Record DeepSeek-R1 Inference Performance NVIDIA Technical Blog

    NVIDIA Blackwell GPUと最適化された推論ツールにより、大規模言語モデル(LLM)の推論性能が大幅に向上。DeepSeek-R1モデルで世界記録を達成。TensorRT-LLMなどのソフトウェア改善も貢献。FP4精度での推論も精度を維持しつつ高速化。cuDNNやCUTLASSなどのライブラリもBlackwellアーキテクチャ向けに最適化。

    引用元: https://developer.nvidia.com/blog/nvidia-blackwell-delivers-world-record-deepseek-r1-inference-performance/

    • RAGの検索性能を90%も低下させるテキストの落とし穴

    RAGの検索で重要な役割を担うEmbeddingですが、テキストの特性によって性能が大きく左右されることが論文で指摘されています。具体的には、文章の位置、単語、文章量がEmbeddingの性能に影響を与え、最大90%も検索性能が低下する可能性があるとのことです。例えば、重要な情報が文章の先頭にあるか、同じ意味でも異なる単語が使われているか、文章の長さなどが影響します。対策として、紹介されている関連技術も参考に、自身のケースに合った方法を見つけることが重要です。

    引用元: https://zenn.dev/knowledgesense/articles/ff2c528acf6b04

    • 東大のあるレポート課題に「ChatGPTは使っていいが参考文献にプロンプトは全部書け」と謎ルール→むしろ本質的な意味で「学生の理解度」が分かるのでは

    東大のレポート課題でChatGPT利用が許可されたものの、使用したプロンプトを全て参考文献として記述するルールが話題。このルールは、AIが生成した成果物だけでなく、学生がAIにどのような指示を与えたか、つまり思考プロセスを可視化する狙いがある。AI利用時の学生の理解度を評価し、認識のずれを指導する上で有効。ただし、プロンプトや生成結果を詳細に記述すると参考文献が膨大になるという課題も指摘されている。

    引用元: https://togetter.com/li/2526803

    • お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

    Más Menos
    Menos de 1 minuto
  • 株式会社ずんだもん技術室AI放送局 podcast 20250318
    Mar 17 2025
    関連リンク
    • Android端末をサブ端末として利用する|LINEみんなの使い方ガイド

    LINEでは、スマホをメイン端末、タブレットなどをサブ端末として利用できます。Android端末をサブ端末として使うには、LINEアプリをインストール後、ログイン時に「サブ端末」を選び、表示されたQRコードをメイン端末で読み取ります。サブ端末では、アカウント引継ぎや年齢確認など一部機能が制限されます。Androidサブ端末は1台まで利用可能です。

    引用元: https://guide.line.me/ja/signup-and-migration/android-secondary.html

    • 絶対に分かる機械学習理論

    機械学習における訓練データとテストデータの性能の関係について、統計と機械学習の基礎知識から丁寧に解説する記事。 データの平均値が期待値に集中する現象を実験と理論で確認し、マルコフの不等式、チェビシェフの不等式、ヘフディングの不等式といった集中不等式を紹介。 モデル評価における経験損失と真のリスクの関係、訓練データと評価データの違いを説明。 パラメータ候補数が有限・無限の場合の理論的保証について解説し、深層学習への応用も示唆。

    引用元: https://joisino.hatenablog.com/entry/theory

    • 【図解解説】これ1本12分でReact Hooks 全20種を理解できる教科書

    React Hooksは、useStateやuseEffectなど、Reactの機能を関数コンポーネントで利用するための仕組みです。この記事では、Reactで提供されているほぼ全てのHooks(React19で追加されたものを含む)を解説しています。

    useStateは状態を管理し画面を更新、useEffectは副作用を扱うがデータ取得にはReact QueryやSWRを推奨。useReducerは複雑な状態管理に役立ち、useContextはグローバルな値を共有。useRefはDOMへのアクセスや再レンダリングなしの値保持に利用。

    React19未満では、useMemoで計算結果を、useCallbackで関数をメモ化し、パフォーマンス改善。useLayoutEffectはDOM変更を同期的に処理。useTransitionは優先度の低い更新を遅延させ、useDeferredValueは値の更新を遅延。useIdは一意なIDを生成。useSyncExternalStoreは外部ストアのデータ読み取り、useDebugValueはデバッグを支援。useImperativeHandleは子コンポーネントの公開値をカスタマイズ。useInsertionEffectはCSS-in-JSライブラリ向け。React19では、useActionStateで非同期処理後の状態更新、useOptimisticで楽観的更新、useFormStateでフォームの状態管理とサーバーアクションの結果を扱うことが可能。useFormStatusはフォーム送信状態を管理。useは非同期データを扱うためのAPI。

    引用元: https://qiita.com/Sicut_study/items/d4778cbe8b499570f79e

    • 不意に抜けるのを防止できるロック付きのUSB Type-Cが登場!→めちゃくちゃ既視感がある出で立ちで「先祖返りか?」と言われる

    サンワサプライからスクリューロック機構付きのUSB Type-Cケーブル「KU-20GCCPE」シリーズが発売。コネクタ抜けを防ぐ設計で、PD240Wに対応。D-subコネクタのようなスクリューロック式のため、懐かしいと感じるユーザーも。USB Type-C locking Connector規格に準拠。

    引用元: https://togetter.com/li/2526516

    • お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

    Más Menos
    Menos de 1 minuto
  • マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20250317
    Mar 16 2025
    関連リンク
    • Introducing Command A: Max performance, minimal compute

    高性能LLM「Command A」が発表されました。GPT-4oやDeepSeek-V3と同等以上の性能を、より効率的に実現。特に企業向けのタスクで強みを発揮します。

    引用元: https://cohere.com/blog/command-a

    • プレゼン資料が見違える!AI図解ツールNapkin AIの基本と実践的な使い方完全版

    Napkin AIは、テキストからグラフや図解を自動生成するAIツールです。プレゼン資料の作成に役立ち、β版は無料で利用可能。海外のメモ帳風の画面で、マークダウン形式で入力します。テキスト入力後、生成ボタンで図を生成。スタイルを選択し、背景色や比率などを調整できます。PNG、SVG、PDFでのダウンロードも可能です。図の一部だけ活用したり、生成された図を参考にしてFigmaで作成するなど、具体的な活用方法も紹介されています。

    引用元: https://tech-lab.sios.jp/archives/46830

    • GitHub - ShaojieJiang/extendable-agent: An Agentic platform that allows you to define extensions

    extendable-agentは、拡張機能を定義できるエージェントプラットフォームです。Pydanticデータモデルで出力スキーマを設定可能です。

    引用元: https://github.com/ShaojieJiang/extendable-agent

    • お便り投稿フォーム

    VOICEVOX:春日部つむぎ

    Más Menos
    Menos de 1 minuto
  • 私立ずんだもん女学園放送部 podcast 20250314
    Mar 13 2025
    関連リンク
    • Google の Gemma 3 を解説して試してみる

    GoogleのオープンモデルGemmaシリーズ最新版、Gemma 3が発表されました。主な特徴は、画像入力に対応したマルチモーダルモデルへの進化、長文対応(128kトークン)、多言語対応(140以上)、数学・推論能力の向上です。パラメータ数は1B/4B/12B/27Bの4種類。安全性分類モデルShield Gemma 2も公開。Hugging FaceとOllamaで動作確認ができます。

    引用元: https://zenn.dev/schroneko/articles/try-google-gemma-3

    • Introducing the New PyTorch Landscape: Your Guide to the PyTorch Ecosystem

    PyTorch Landscapeは、PyTorchのエコシステムを可視化し、関連ツールを容易に発見できるように設計されたものです。Modeling、Training、Optimizationsの3つのカテゴリでプロジェクトを整理し、PyTorchを補完する厳選されたツールを提供します。Exploreページでは、ロゴ、説明、GitHubへのリンク付きでツールを検索できます。Guideページでは、各プロジェクトの詳細な情報(メトリクス、トレンド)を確認できます。Statsページでは、リポジトリのアクティビティ、プログラミング言語、投資データなど、AI開発のトレンドを把握できます。

    引用元: https://pytorch.org/blog/pytorch-landscape/

    • プロンプト泥棒がやってくる! 〜生成AI時代のセキュリティ対策〜

    生成AI利用拡大に伴い、AIへの不正な指示(プロンプトインジェクション)による情報漏洩リスクが高まっています。この記事では、攻撃手法と対策を解説します。

    プロンプトインジェクションとは: AIに意図しない動作をさせ、機密情報漏洩やデータ改ざんを招く攻撃です。

    対策:

    1. 防御プロンプト: AIに情報漏洩禁止を指示。
    2. 追加モデル:
      • 入力フィルタで悪意ある指示を検知・遮断。
      • 出力フィルタで機密情報を含む回答を遮断。
    3. 構造化クエリ: LLMにシステム指示とユーザ指示の優先順位を理解させる。

    現実的な対策:

    • AIへの権限を最小限に。
    • 重要な判断は人間のチェックを。
    • 機密データはAIから分離。

    結論: 現時点では完全な防御は困難。情報漏洩を前提としたシステム設計が重要です。AIに渡す情報は常に漏洩の可能性があると考え、セキュリティ対策を講じましょう。

    引用元: https://zenn.dev/codeciao/articles/prompt-injection-security

    • 水木しげるロードで「女性の観光客をねらってつきまとう不審者」がいるらしい→Xでの報告例多数を受け、境港観光協会が対策に乗り出す流れに

    タイトル: 水木しげるロードで「女性の観光客をねらってつきまとう不審者」がいるらしい→Xでの報告例多数を受け、境港観光協会が対策に乗り出す流れに

    要約: 水木しげるロードで、女性観光客へのつきまとい行為が報告されています。観光協会は事態を重く見て、警察と連携し対策を開始。注意喚起の掲示や、店舗への情報提供を依頼しています。不審な人物を見かけた場合は、市役所や観光協会へ連絡するよう呼びかけています。

    引用元: https://togetter.com/li/2524629

    • お便り投稿フォーム

    VOICEVOX:ずんだもん

    Más Menos
    Menos de 1 minuto
  • 株式会社ずんだもん技術室AI放送局 podcast 20250313
    Mar 12 2025
    関連リンク
    • OpenAI の AI エージェント構築用ツール

    OpenAIがAIエージェント構築ツールを公開。Responses APIは、ウェブ検索、ファイル検索、Computer Useを統合し、Chat Completions APIとAssistants APIを代替します。Tier制限は基本的にありませんが、Computer UseはTier 3以上が必要です。Agent SDK(旧Swarm改良版)も公開。料金はツールごとに異なり、ファイル検索には無料枠があります。Assistants APIは2026年半ばに廃止予定。

    引用元: https://zenn.dev/schroneko/articles/new-tools-for-building-agents

    • Introducing Gemma 3: The most capable model you can run on a single GPU or TPU

    Googleが軽量オープンモデルGemma 3を発表。Gemini 2.0を基盤とし、シングルGPU/TPUで動作。140言語以上に対応し、128kトークンのコンテキストウィンドウ、関数呼び出しをサポート。ShieldGemma 2も同時にリリース。画像安全性をチェックする機能を提供。Hugging Face、Ollama等のツールに対応。カスタマイズも容易。

    引用元: https://deepmind.google/discover/blog/introducing-gemma-3/

    • LLMのプロンプトもTSXで書く時代

    VS Code拡張ライブラリprompt-tsxは、LLMへのプロンプトをTSXで記述できます。従来の文字列連結によるプロンプト記述は、可読性や保守性の問題がありました。TSXを使うことで、型安全、コンポーネント分割、関数化が可能になり、複雑なプロンプトを扱いやすくします。prompt-tsxはVSCodeのLM APIに特化していますが、JSXファクトリ関数でオブジェクトに変換するため、他の環境への移植も可能です。Copilot Chatでは、トークン数に応じてプロンプトが圧縮される点に注意が必要です。

    引用元: https://blog.lai.so/prompt-tsx/

    • AIで経費精算業務60%削減!製品戦略と開発ロードマップを公開!

    ラクスは経費精算システム「楽楽精算」にAIを導入し、業務効率60%削減を目指します。人手不足を背景に、経理担当者がコア業務に集中できるよう、AIで申請ミス削減や自動承認機能などを開発。PoCを経てMVP、実運用と段階的に進めます。2025年~2026年に申請者向け、2027年~2029年に経理担当者向けの機能を実装予定。将来的には他の楽楽シリーズへの展開も視野に入れています。

    引用元: https://tech-blog.rakus.co.jp/entry/20250312/ai-product-strategy-and-roadmap

    • お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

    Más Menos
    Menos de 1 minuto
  • 株式会社ずんだもん技術室AI放送局 podcast 20250312
    Mar 11 2025
    関連リンク
    • Build Real-Time Multimodal XR Apps with NVIDIA AI Blueprint for Video Search and Summarization NVIDIA Technical Blog

    NVIDIA AI Blueprintを用いて、XR環境で動画と音声の両方を活用するリアルタイムなマルチモーダルAIエージェントを構築する方法を紹介します。このBlueprintは、VLM(Vision Language Model)とLLM(Large Language Model)を組み合わせ、動画の内容理解と要約を可能にします。XR環境では、音声認識とテキスト読み上げを組み込むことで、ユーザーはより自然な対話を通じてXRアプリケーションを操作できます。例えば、VR空間でロボットアームに質問をすると、AIエージェントが音声で応答するといったことが可能です。 この技術は、技能トレーニング、設計・プロトタイピング、教育など、様々な分野でのXRアプリケーションの可能性を広げます。

    引用元: https://developer.nvidia.com/blog/build-real-time-multimodal-xr-apps-with-nvidia-ai-blueprint-for-video-search-and-summarization/

    • RAGのウソを検知する新手法(LLM-as-a-Judgeを超えて)

    RAG利用時の課題である、事実と異なる情報を生成する「ハルシネーション」を高速に検出する新手法「LettuceDetect」を紹介。従来はGPTのような大規模言語モデル(LLM)で検出していたため時間とコストがかかっていたが、「LettuceDetect」は軽量な「ModernBERT」を使用することで、高速化を実現。RAGで生成された回答と、その根拠となる外部ソース、質問文をまとめてモデルに入力することで、回答の各部分に対する信頼度を判定し、誤った情報にフラグを立てることが可能。LLM自身が回答の誤りを認識し、再検索を行うAIエージェントへの応用も期待される。

    引用元: https://zenn.dev/knowledgesense/articles/10e18ea3cbeb7a

    • GitHub - johnbean393/Sidekick: A native macOS app that allows users to chat with a local LLM that can respond with information from files, folders and websites on your Mac without installing any other software. Powered by llama.cpp.

    macOS用アプリ「Sidekick」は、ローカルLLMとチャットできるツール。特徴は、外部ソフト不要で、Mac内のファイル、フォルダ、Webサイト情報を活用できる点。llama.cppで動作し、オフラインでの会話とローカルデータ保存が可能。RAGにより大量データを扱え、Alibaba Cloud’s QwQ-32Bなど多様なモデルをサポート。コードインタプリタ、画像生成、文章アシスタント機能も搭載。Apple Silicon搭載Macで高速動作し、GPUオフロードも可能。

    引用元: https://github.com/johnbean393/Sidekick

    • お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

    Más Menos
    Menos de 1 minuto
  • 株式会社ずんだもん技術室AI放送局 podcast 20250311
    Mar 10 2025
    関連リンク
    • LM Studio を使ってローカルでLLMを実行する方法

    LM Studioは、GUIでLLMをローカル実行できるツール。Llama、Mistral等に対応。 手順:

    1. 公式サイトからDL・インストール
    2. Power Userモードでモデル(日本語対応のLlama-3-ELYZA-JP-8B-GGUF等)を検索・DL
    3. チャットで動作確認
    4. 開発者モードでAPI情報を取得し、Pythonから利用
      • 単体実行またはOpenAI経由で実行 複数のLLMをローカルで動かし、哲学者を模した討論シミュレーションも可能。プライバシーを守りつつLLM活用を促進。

    引用元: https://techblog.insightedge.jp/entry/local-llm

    • MCPはLLMにとってのDependency Injectionである

    この記事では、LLM(大規模言語モデル)におけるMCP(Model Context Protocol)を、ソフトウェア開発のDependency Injection(DI)になぞらえて解説しています。MCPは、LLMが外部ツールやデータソースを利用する際の標準化されたインターフェースを提供し、LLMの機能拡張や再利用性を高めます。DIと同様に、疎結合、交換可能性を実現し、機能の分離、セキュリティ強化、柔軟なデプロイを可能にします。 MCPクライアントはDIコンテナとして機能し、LLMと外部ツールの連携を管理します。今後の展望として、MCP標準の拡張、AIエージェントフレームワークの開発、特定用途向けMCPサーバーの増加などが期待されています。

    引用元: https://zenn.dev/tesla/articles/3d1ba14614f320

    • 言語モデルの内部機序:解析と解釈

    2025年3月10日、言語処理学会でのチュートリアル「言語モデルの内部機序:解析と解釈」のスライドの要約です。 言語モデルの理解には、モデルの入出力だけでなく、内部の表現や計算過程を解析・解釈することが重要です。 解析では、モデルを抽象化・単純化し、人間が理解できるレベルまで落とし込みます。 解釈では、モデルの表現や計算を言語、世界、知識と紐付け、意味を与えます。 内部表現の分析では、ニューロンの重みや活性値、ベクトル集合の構造などを調べます。計算過程の分析では、注意機構のパターン、語彙空間への射影、出力への影響度、サブネットワークなどを調べます。 ただし、この方法には限界があり、機能の局在性や一対一対応という前提が常に成り立つとは限りません。「表現と計算」という視点自体にも懐疑的な意見があります。

    引用元: https://speakerdeck.com/eumesy/analysis_and_interpretation_of_language_models

    • ITに近い環境にいると全く分からないと思いますが多くの中小企業はLANやAD・ファイルサーバーにオフィスアプリとパワポくらいしかITを使ってません

    IT業界にいると忘れがちですが、中小企業ではIT活用が進んでいないケースが多くあります。LAN、AD、ファイルサーバー、Word、Excel、PowerPoint程度で、SaaSを活用していても、基本的なレベルに留まっているのが現状です。 具体的には、パソコンが一人一台でなかったり、経理部がPDFの請求書を印刷して社内便で回覧したり、電卓で計算した数字をSaaSに入力するなどの状況が見られます。 業務効率化を提案しても、「やり辛い」「今のままで回せている」と拒否されることもあるようです。 ITに慣れていない人が多く、便利な機能を知らないため、教えると驚かれることもあります。

    引用元: https://togetter.com/li/2523114

    • お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

    Más Menos
    Menos de 1 minuto
  • マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20250310
    Mar 9 2025
    関連リンク
    • TypeScript 製の AI エージェントフレームワーク Mastra

    Mastraは、TypeScript製のAIエージェント構築フレームワークです。REST API、OpenAPI、Playgroundを提供し、AIエージェントに必要な機能(エージェント定義、ワークフロー、RAG、評価、オブザーバビリティ)を実装できます。 LLMプロバイダ(OpenAI, Anthropic等)のAPIキーが必要ですが、ローカルLLMも利用可能です。 AIエージェントの品質評価や、OpenTelemetryによるトレース収集もサポートしており、開発から運用までを支援します。

    引用元: https://azukiazusa.dev/blog/typescript-ai-agent-framework-mastra/

    • MCPでLLMに行動させる - Terraformを例とした tfmcp の紹介

    LLM(大規模言語モデル)からTerraformを操作するtfmcpを紹介。Model Context Protocol (MCP)を活用し、LLMが外部サービスと連携して「行動」できるようにする。 MCPはJSON-RPCベースのプロトコルで、リソース、ツール、プロンプトを定義。公式SDKも提供されているが、Rustで独自実装も可能。 tfmcpはTerraform設定ファイルの読み取り、プラン解析、適用、状態管理、設定ファイルの作成・修正が可能。 インストールはcargo install tfmcpで簡単に行える。Claude Desktopとの連携もサポート。 セキュリティ面では、信頼できるソースからのインストール、最小権限の原則、サンドボックス環境での実行、監査ログの有効化、機密情報のフィルタリング、定期的なセキュリティレビューが重要。 tfmcpのアーキテクチャは、MCPサーバー、Terraformサービス、コア、設定管理の各コンポーネントで構成。

    引用元: https://syu-m-5151.hatenablog.com/entry/2025/03/09/020057

    • GitHub Copilot Chat、Visual Studio/VS Code上で画像を入力できるVision機能がパブリックプレビューに gihyo.jp

    GitHub Copilot Chatで、画像入力機能(Vision機能)が使えるようになりました。Visual Studio/VS Code上で、エラー画面のスクショやデザインモックアップをCopilotに直接見せて、解決策の提案やコード生成のヒントをもらえます。使い方は簡単で、ドラッグ&ドロップ、クリップボード貼り付け、専用メニューからのスクショ添付に対応。JPEG/JPG、PNG、GIF、WEBP形式の画像が使えます。GPT-4oモデルで提供されており、Copilotの「Editor Preview Features」を有効にする必要があります。

    引用元: https://gihyo.jp/article/2025/03/github-copilot-vision-input

    • お便り投稿フォーム

    VOICEVOX:春日部つむぎ

    Más Menos
    Menos de 1 minuto