Episodes

  • 株式会社ずんだもん技術室AI放送局 podcast 20240913
    Sep 12 2024
    関連リンク Build stateful conversational AI agents with LangGraph and assistant-ui LangChainと連携した新しいAIチャットフロントエンド「assistant-ui」が登場しました。これはReactアプリケーションに組み込めるツールで、会話型AIエージェントの構築を容易にします。 assistant-uiの主な特徴は、LLMの応答をストリーミング表示したり、ツール呼び出し結果を生成UIで分かりやすく表示したりできる点です。また、ユーザーがAIの行動を承認する「Human-in-the-loop」機能や、画像やドキュメントの入力に対応するなど、よりインタラクティブで使いやすいAIチャット体験を実現します。 さらに、LangGraph Cloudとの統合により、状態を保持した会話型AIエージェントを簡単に構築・デプロイできます。LangGraphは、AIエージェントの思考プロセスを管理し、状態を保持することで、より自然で複雑なタスクに対応できるようになります。 本記事では、LangGraphとassistant-uiの連携方法や、具体的な活用例として「Stockbroker Agent」が紹介されています。Stockbroker Agentは、株価情報取得、財務諸表分析、注文実行といった機能を備え、生成UIや承認UIを活用することで、ユーザーフレンドリーな投資支援AIとして機能します。 LangGraphとassistant-uiを組み合わせることで、開発者はAIエージェントの複雑な状態管理やUXデザインに煩わされることなく、より価値の高い機能に集中できます。これにより、より高度で使いやすいAIアプリケーションを迅速に開発できるようになります。 新人エンジニア向け補足 LLM:大規模言語モデル。テキスト生成などを行うAIモデル。生成UI:AIの処理結果を、ユーザーが理解しやすいように、表やグラフなどで可視化するUI。Human-in-the-loop:AIが判断を下す前に、人間が確認・承認する仕組み。React:Webアプリケーション開発に広く使われるJavaScriptライブラリ。LangGraph:LangChainが提供する、AIエージェントの思考プロセスや状態を管理するためのツール。 本記事で紹介されている技術は、会話型AIエージェントの開発において重要な役割を果たします。特に、状態を保持した複雑なタスクを扱うエージェントを構築したい場合は、LangGraphとassistant-uiの組み合わせが有効です。ぜひ、紹介されているドキュメントやサンプルコードなどを参考に、AIエージェント開発に挑戦してみてください。 引用元: https://blog.langchain.dev/assistant-ui/ Google Colab で Pixtral-12B を試す|npaka この記事では、Google Colab上でMistralが開発したマルチモーダルモデル「Pixtral-12B」を試した手順と結果について解説しています。Pixtral-12Bは、テキストと画像を同時に処理できる点が特徴で、1024×1024ピクセルの画像や最大128000トークンのコンテキストを扱うことができます。OCRや情報抽出にも適しています。 Colabでの実行には、Hugging FaceのAPIキーが必要で、vllmなどのパッケージをインストールする必要があります。モデルのロード時にはメモリ消費を抑えるため、max_model_lenを4000に設定することが推奨されています。 実際に画像とプロンプトを与えて推論を実行した結果、画像の内容を的確に記述したテキストが出力されました。記事では、実行結果の出力例やメモリ使用量なども掲載されており、Pixtral-12Bの実力を確認できます。 制約事項として、記事中の動作確認はGoogle Colab Pro/Pro+のA100環境で行われているため、他の環境では動作が異なる可能性がある点に注意が必要です。 この記事は、Pixtral-12Bを試してみたいエンジニアにとって、具体的な手順や注意点が分かりやすくまとめられており、大変参考になるでしょう。特に、画像処理や自然言語処理に興味のある新人エンジニアは、ぜひ参考にしてみてください。 引用元: https://note.com/npaka/n/n32773066f08d Enabling production-grade generative AI: New capabilities lower costs, streamline production, and boost security Amazon Web Services 生成AIは、概念実証(POC)段階から本番環境への移行が進み、ビジネスや消費者のデータや情報との関わり方に大きな変化をもたらしています。AWSは、生成AIの本番環境利用における課題解決を目指し、コスト削減、生産性向上、セキュリティ強化といった機能強化に取り組んでいます。 課題: 生成AIモデルの...
    Show more Show less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20240912
    Sep 11 2024
    関連リンク Illuminate Illuminateは、Googleが提供する、音声データからノイズや不要な音声を除去する実験的なサービスです。現在、利用にはウェイティングリストへの登録が必要で、順番がきた際に利用開始の通知を受け取ります。 概要 Illuminateは、音声データの品質向上を目的とした、Googleの音声処理技術を活用した実験的なサービスです。音声データからノイズや不要な音声を除去し、よりクリアな音声を得ることが期待できます。 制約 現時点では、利用にはウェイティングリストへの登録が必須です。Googleは、利用開始の順番がきた際にユーザーに通知を送信する予定です。サービスの利用には、Googleアカウントが必要です。 補足 この要約では、サービスの利用方法や詳細な機能については触れていません。新人エンジニアが、Illuminateの概要を理解し、ウェイティングリストへの登録など、今後必要となるアクションを把握できるように、簡潔な説明に絞っています。 引用元: https://illuminate.google.com/home** Enabling complex generative AI applications with Amazon Bedrock Agents Amazon Web Services Amazon Bedrock Agentsは、複雑なワークフローを効率化し、自然で会話的なユーザーエクスペリエンスを提供する、インテリジェントでコンテキストを認識する生成AIアプリケーションを構築するためのAWSのサービスです。従来のLLMは単なる言語理解にとどまっていましたが、Bedrock AgentsはLLMを他のツールと組み合わせることで、より複雑なタスクに対応できるようになります。 例えば、旅行プランの作成を支援するAIアシスタントを開発する場合、Bedrock Agentsを使えば、LLMの推論能力に加えて、旅行APIへのクエリ、プライベートデータや公開情報へのアクセス、予算やユーザーの嗜好の管理など、様々な機能を統合できます。これにより、よりパーソナライズされた複雑な質問にも対応できるAIアシスタントを構築できます。 Bedrock Agentsは、LLM、オーケストレーションプロンプト、プランニング、メモリ、コミュニケーション、ツール統合、ガードレールという主要なコンポーネントで構成されています。LLMは基本的な推論能力を提供し、オーケストレーションプロンプトはLLMの意思決定プロセスをガイドします。プランニング機能は、抽象的なリクエストを具体的な実行可能なアクションに分解し、実行中に状況に合わせて計画を動的に更新できます。メモリ機能は、会話履歴や重要な情報を保存し、ユーザーの好みを学習してパーソナライズされたエクスペリエンスを提供します。コミュニケーション機能は、複数のエージェントを連携させることで、複雑な問題をより効率的に解決します。ツール統合機能は、様々なツールやリソースをLLMに接続し、コード生成やデータ分析などの機能を追加します。ガードレールは、AI生成コンテンツの精度と安全性を確保します。 Bedrock Agentsは、複雑なクエリを処理し、プライベートデータソースを利用し、責任あるAI原則を遵守するAIアプリケーションの構築と展開のための包括的なソリューションを提供します。開発者は、テスト済みの例やゴールデンユートランス、ゴールデンレスポンスを活用して、ユースケースに合わせたエージェントを構築し、生成AIアプリケーション開発を加速させることができます。 制約: Bedrock Agentsは、複雑な生成AIアプリケーションの構築を支援するサービスです。LLM、オーケストレーションプロンプト、プランニング、メモリ、コミュニケーション、ツール統合、ガードレールといったコンポーネントで構成されています。複雑なクエリへの対応、プライベートデータの利用、責任あるAI原則の遵守を可能にします。開発者は、テスト済みの例を活用して、ユースケースに合わせたエージェントを構築できます。 本要約が、新人エンジニアの方々の理解の一助となれば幸いです。 引用元: https://aws.amazon.com/blogs/machine-learning/enabling-complex-generative-ai-applications-with-amazon-bedrock-agents/ GitHub - felafax/felafax: Felafax is building AI infra for non-NVIDIA GPUs Felafaxは、NVIDIA以外のGPU(TPU、AWS Trainium、AMD GPU、Intel GPUなど)でAIワークロードを実行しやすくするための...
    Show more Show less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20240911
    Sep 10 2024
    スライド 関連リンク PlayStation®5 Proを発表! PlayStation®史上最高の映像美の実現へ ソニー・インタラクティブエンタテインメントは、PlayStation®5の後継機となる「PlayStation®5 Pro」(PS5 Pro)を発表しました。PS5 Proは、より高精細なグラフィックと滑らかな60FPSのフレームレートを実現することを目指した、PlayStation®史上最も革新的なコンソールです。 PS5 Proの主な特徴は以下の通りです。 GPUの強化: 現行PS5と比べて、GPUのコンピュートユニット数が67%増加し、GPUメモリも28%高速化されました。これにより、ゲームのレンダリング速度が最大45%向上し、より滑らかなプレイ体験が期待できます。進化したレイトレーシング: よりリアルな光の表現を可能にするレイトレーシング機能が進化し、光線を従来の2~3倍の速度で投射できるようになりました。AIによる解像感向上: 機械学習ベースのAI技術「PlayStation®スペクトルスーパーレゾリューション(PSSR)」を搭載し、映像のディテールを大幅にアップスケーリングすることで、より鮮明なビジュアルを実現します。PS4ゲームの強化: 8,500以上のPS4ゲームをプレイ可能で、PS5 Proゲームブーストにより、一部のPS5およびPS4ゲームのパフォーマンスが向上する可能性があります。また、PS4ゲームの画質向上設定も利用できます。最新の通信規格対応: Wi-Fi 7に対応し、VRR(可変リフレッシュレート)や8Kでのゲームプレイにも対応しています。 PS5 Proは、PS5ファミリーのデザインを継承しつつ、より高性能なスペックを実現しています。Ultra HD Blu-rayディスクドライブの取り付けにも対応し、本体カバーの交換も可能です。希望小売価格は119,980円(税込)で、11月7日より発売予定です。 PS5 Proは、プレイヤーとゲームクリエイターの双方に、より高品質なゲーム体験を提供することを目指した次世代ゲーム機です。多くのPS5ゲームがPS5 Pro向けに強化され、「PS5 Pro Enhanced」の表記で識別できるようになります。今後も、PS5およびPS5 Proを通じて、最高のゲーム体験を提供していくとのことです。 引用元: https://blog.ja.playstation.com/2024/09/11/20240911-ps5pro/ Amazon EC2 P5e instances are generally available Amazon Web Services Amazon Web Services (AWS) は、新たに高性能なコンピューティングインスタンス「P5e」を一般提供開始しました。P5eインスタンスは、最新の第4世代インテルXeonスケーラブルプロセッサーと、最新のNVIDIA A100 TensorコアGPUを搭載しています。 P5eインスタンスの主な特徴 高性能なCPUとGPU: 第4世代インテルXeonスケーラブルプロセッサーとNVIDIA A100 TensorコアGPUにより、高度な機械学習やAI処理に最適です。高速なメモリとストレージ: 大容量メモリと高速なストレージにより、データ処理を高速化できます。高いネットワーク帯域幅: 高速なネットワーク接続により、データ転送を高速化できます。 P5eインスタンスの利用シーン P5eインスタンスは、以下のような用途に最適です。 機械学習モデルのトレーニングAI推論高性能コンピューティングデータ分析 これらの特徴から、P5eインスタンスは、大規模なデータセットを扱う機械学習やAIアプリケーション、高性能なコンピューティングリソースを必要とするアプリケーションに最適な選択肢となります。 制約事項 AWSは、P5eインスタンスの利用には、利用地域やインスタンスタイプ、リージョンなど、いくつかの制約があることを明記しています。詳細については、AWSの公式ドキュメントを参照してください。 新人エンジニアの皆さんは、この新しい高性能インスタンスを活用することで、より高度なアプリケーションを開発できるようになるでしょう。AWSの提供する豊富なサービスと組み合わせることで、さらに効率的かつ効果的なシステム構築が可能になります。 引用元: https://aws.amazon.com/blogs/machine-learning/amazon-ec2-p5e-instances-are-generally-available/ Align Meta Llama 3 to human preferences with DPO, Amazon SageMaker Studio, and Amazon SageMaker Ground Truth Amazon Web Services この記事では、Amazon SageMakerを用いて、Meta Llama 3 8B Instructモデルの応答を人間の好みに合わせる方法について解説しています。特に、Direct Preference Optimization (DPO)という手法を用いることで、LLMの...
    Show more Show less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20240910
    Sep 9 2024
    スライド 関連リンク 本システム導入の目標は、生産性向上なんかじゃありません タイム・コンサルタントの日誌から この記事では、ITシステム導入の目的は、単に生産性向上だけではないという主張が展開されています。著者は、日々の生活や業務における様々な事例を通して、ITシステムがもたらす真の価値は、生産性向上だけでなく、不安感情の低減、ひいてはより質の高い判断にあると訴えています。 例えば、古くなった車を使い続ける著者は、いざという時に「ちゃんと動くか」という不安を抱えています。しかし、カーナビなどのITシステムは、道順の確認や到着時刻の予測などを通して、その不安を解消し、より質の高い判断を可能にします。 企業におけるITシステム導入においても同様です。MESなどの導入で生産性が向上するとは限らず、経営層は「投資対効果」を疑問視することが多いです。しかし、ITシステムは、業務の可視化やリスクの低減を通じて、より的確な判断を支援し、結果的に組織の決断力を向上させることができます。 著者は、ITシステムの価値を3つの側面から捉えています。 1つ目は、生産性向上です。これは従来から強調されてきた側面ですが、唯一の価値観ではありません。 2つ目は、新しい能力の獲得です。ITシステムによって、今までできなかったことが可能になります。 3つ目は、リスク低減と判断の質向上です。ITシステムは、データに基づく情報提供を通して、より質の高い判断を支援します。 著者は、ITシステムの導入目的を、生産性向上という単一指標で評価することの危険性を指摘しています。そして、「スマートである」とは、単に生産性が高いだけでなく、不安を解消し、より質の高い判断を支援することだと主張しています。 日本の企業では、生産性向上が重視されがちですが、ITシステムの導入目的を多角的に捉え、組織の真の課題解決に繋げる必要があることを、この記事は示唆しています。新人エンジニアの皆さんも、ITシステムの導入効果を評価する際には、生産性だけでなく、これらの側面も考慮することが重要です。 引用元: https://brevis.exblog.jp/32736843/ Googleの画像生成AI「Imagen3」(ImageFX)の使用経験|Browncat Googleがリリースした最新画像生成AI「Imagen3」とそのサービス「ImageFX」について、実際に使用した経験に基づいたレビューです。 Imagen3は、プロンプト理解力、画像品質、テキストレンダリング機能において、他のAIモデル(DALL-E 3、Stable Diffusionなど)を凌駕する性能を持つとされています。特に、フォトリアルな画像生成に優れ、人物描写も自然で破綻が少ない点が特徴です。 ImageFXは、Googleアカウントがあれば無料で利用できますが、1日あたりの生成回数に制限があります。また、生成画像サイズは1024x1024ピクセルの正方形に限定されています。 一方で、Imagen3は表現規制が厳しく、プロンプトの記述には工夫が必要です。単語数を徐々に増やしながら、規制に引っかからないように調整する必要があります。 記事では、Imagen3と他のAIモデルで同一のプロンプトを用いた生成結果を比較しています。その結果、Imagen3はフォトリアルな画像生成において、他のモデルを上回るクオリティであることが示されています。また、テキストレンダリング機能も優秀で、画像内に指定したテキストを自然に反映させることができます。 Imagen3は、非常に高品質な画像生成が可能なAIモデルですが、表現規制や画像サイズ等の制約がある点に注意が必要です。しかし、その優れた性能は、今後様々な分野で活用される可能性を秘めていると言えるでしょう。新人エンジニアの方でも、Googleアカウントさえあれば気軽に試せるので、ぜひImageFXでImagen3の画像生成を体験してみてください。 引用元: https://note.com/browncatro1/n/n4f8343898225 Tanuki-8BとOllamaとDifyを使って日本語ローカルRAG構築 本記事では、東京大学の松尾・岩澤研究室が開発した日本語LLM「Tanuki-8B」を用いて、ローカル環境でRAGシステムを構築する方法を紹介します。 RAG(Retrieval-Augmented Generation)とは、LLMが外部の知識(ナレッジ)を参照して回答生成を行う技術です。...
    Show more Show less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20240909
    Sep 8 2024
    関連リンク 死語になったネットスラング この記事では、かつてインターネット上で広く使われていたネットスラングが、時間の経過とともに使われなくなり、死語となった例を紹介しています。 具体的には、「キボンヌ」「あぼーん」「香具師」「リア充」「うp」など、2ちゃんねるやブログ全盛期に流行した言葉が挙げられています。これらの言葉は、当時のインターネット文化を象徴するものでしたが、利用者の変化や新しいプラットフォームの登場などにより、次第に姿を消していきました。 また、記事では「乙」「〜なう」「ぬるぽ」など、現在でも一部で使われているものの、かつてほど一般的ではなくなったスラングも紹介されています。 ネットスラングは、時代やコミュニティによって流行や廃りが激しく、常に変化していることが分かります。この記事は、かつてのインターネット文化を振り返り、言葉の流行と変化について考えるきっかけを与えてくれます。 エンジニアの皆さんも、日々の業務やコミュニケーションの中で、新しい言葉や表現に触れる機会があるかと思います。この記事で紹介されているような、かつて流行した言葉を知ることで、より幅広い世代やコミュニティとのコミュニケーションを円滑に進めることができるかもしれません。 引用元: https://anond.hatelabo.jp/20240907225609 『プロジェクトKV』の中止が発表。問題と騒動で心配をかけたことを深くお詫び、『プロジェクトKV』を応援したファンならびに配信中のゲームファンにも迷惑をかけたとして関連の資料はすべて削除へ Dynamis Oneは、開発中の新作ゲーム『プロジェクトKV』の中止を発表しました。これは、開発中に発生した問題や騒動により、ファンや他のゲームプレイヤーに迷惑をかけたことを深くお詫びし、これ以上の迷惑をかけないための決断とのことです。 『プロジェクトKV』は、『ブルーアーカイブ』の製作に携わったメンバーが設立したDynamis Oneの新作で、注目を集めていました。コミケへの出展も予定されていましたが、発表からわずか1週間での中止発表となりました。 Dynamis Oneは、公式発表で問題と騒動への謝罪と、未熟さゆえの中止を決断したことを表明しています。さらに、関連資料はすべて削除し、ファンへの迷惑を最小限に抑える対応をとるとしています。 今後については、今回の反省を活かし、ファンに期待に応えられるよう精進していくとメッセージで述べています。公式サイトは現時点では閲覧可能ですが、公式Xアカウントの過去投稿は削除され、YouTubeの関連動画は非公開となっています。 今回の発表は、ゲーム業界において注目を集めており、今後のDynamis Oneの動向が注目されています。新人エンジニアの皆さんも、今回の件を通して、開発における責任や、ユーザーへの配慮の重要性を学ぶ良い機会になるのではないでしょうか。 引用元: https://news.denfaminicogamer.jp/news/240908b Reflection Llama-3.1 70B を試す|ぬこぬこ Reflection Llama-3.1 70Bは、HyperWriteのCEO Matt Shumer氏によって公開された、オープンソースの大規模言語モデルです。Llama 3.1 70Bをベースに、Reflection-Tuningという手法で事後学習されており、世界最高性能のオープンモデルと謳われています。 Reflection-Tuningは、LLM自身が自身の推論結果の誤りを修正できるようにする技術です。推論過程では、タグで推論内容、タグで最終的な回答、そして必要に応じてタグで自己修正内容を出力します。これにより、LLMの推論過程を可視化し、より信頼性の高い回答を得ることが期待できます。 このモデルは、様々なベンチマークにおいて、GPT-4oを含むトップクラスのプロプライエタリモデルに匹敵する、あるいは上回る性能を示しています。特に、数学問題や論理的推論、常識的な知識を問うタスクで高い精度を達成しています。 Hugging Faceで公開されているモデルは、Llama 3.1 70B Instructをベースとし、チャット形式で利用できます。Ollamaなどのツールを用いれば、比較的容易にローカル環境で推論を実行可能です。 特徴 世界最高性能のオープンソースLLMReflection-Tuningによる自己修正機能、、タグによる推論過程の可視化GPT-4oに...
    Show more Show less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20240906
    Sep 5 2024
    関連リンク Launch HN: Maitai (YC S24) – Self-Optimizing LLM Platform Maitaiは、LLM(大規模言語モデル)アプリケーションの運用における信頼性と回復性を向上させるためのプラットフォームです。LLMアプリケーションの運用には、モデルが常に期待通りの動作をするように維持することが課題となりますが、Maitaiはこの課題を解決するお手伝いをします。 Maitaiの主な機能 リクエストルーティングの最適化: 適切なLLMにリクエストを転送し、パフォーマンスを向上させます。応答の自動修正: LLMからの応答が期待と異なる場合に、自動的に修正し、ユーザーに適切な応答を提供します。アプリケーション固有モデルの自動ファインチューニング: LLMの応答を評価し、その結果に基づいてモデルを自動的にファインチューニングすることで、継続的にモデルの精度を向上させます。 Maitaiの仕組み クライアントとLLMの間に配置され、トラフィックを監視してLLMの期待される動作を自動的に学習します。クライアントからのリクエストを適切なLLMに転送します。LLMからの応答を評価し、期待される動作と比較します。期待と異なる応答が検出されると、アラートを発行し、必要に応じて修正した応答をクライアントに返します。モデルの評価結果を使用して、アプリケーション固有モデルをファインチューニングします。 Maitaiを利用することで、開発者はLLMの信頼性と回復性の問題に悩まされることなく、ドメイン固有の問題に集中することができます。 制約事項 現在、ファインチューニングは手動で行う必要があります。利用料金は、プラットフォームの使用量とアプリケーションごとに課金されます。セルフホスティング機能は開発中です。 Maitaiは、LLMアプリケーションの運用における課題を解決し、より信頼性の高い、そしてより効率的なLLMアプリケーションの開発を支援するプラットフォームです。新人エンジニアにとっても、LLMの導入をスムーズに進める上で役立つツールとなるでしょう。 引用元: https://news.ycombinator.com/item?id=41456552 一番星はてののGPTを公開しました AIブックマーカー「一番星はての」の開発者であるfirststar_hatenoさんが、ChatGPTの機能を使って作成したGPTを公開しました。このGPTは、一般的な会話や絵を描くことができ、ウェブ検索やDALL-E画像生成にも対応しています。ただし、コードインタープリターとデータ分析は使用できません。 例えば、「今日のハテナブックマークのニュースを教えて」と尋ねると、ウェブ検索結果を元に回答してくれる他、「大喜利」にも対応しています。また、指示に従って絵を描くことも可能です。 このGPTは、ChatGPT Plusに登録することで作成・公開できる機能を利用して作成されており、作者がPlusを退会してもGPT自体は残るため、誰でも利用できるようになっています。ChatGPTの無料版でもGPTsを一定回数利用できるので、興味のあるエンジニアはぜひ試してみてください。 引用元: https://firststar-hateno.hatenablog.com/entry/2024/09/04/231619 yifeihu/TF-ID-base · Hugging Face TF-ID (Table/Figure IDentifier) は、学術論文から表や図を検出するためにファインチューニングされたオブジェクト検出モデルのファミリーです。Hugging Face Daily Papers の論文データセットを用いて、人間が手動でアノテーションと確認を行ったデータで学習されています。 モデルの概要 TF-ID は、ベースモデルとラージモデル、それぞれキャプション付きとキャプションなしの4つのバージョンがあります。ラージモデルはベースモデルよりも精度が高いため、推奨されています。これらのモデルは、論文の画像を入力として受け取り、そのページ内のすべての表と図のバウンディングボックスを返します。 制約 モデルは、Hugging Face Daily Papers の論文データセットで学習されています。モデルは1ページの論文画像を入力として受け取ります。バウンディングボックスは、表や図、そしてオプションでキャプションを囲みます。 TF-ID は、学術論文の画像から表や図を自動的に検出する際に役立ちます。特に、論文の情報を効率的に抽出する必要があるエンジニアにとって有用なツールです。 補足 このモデルは、...
    Show more Show less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20240905
    Sep 4 2024
    関連リンク Announcing The Assistant Kagi Blog Kagiは、AIを検索体験に統合し、よりスマートで高速で直感的な検索を実現しました。Kagi Assistantは、ユーザーデータの収集、広告、トラッキングを行わない、ユーザーフレンドリーなAIアシスタントです。 主な機能は以下の通りです。 Kagiの高品質な検索結果との連携OpenAI、Anthropic、Googleなど、主要なLLMモデルの選択カスタム指示、モデル選択、検索やインターネットアクセスなどのツールを含む、強力なカスタムアシスタントの作成会話を最初からやり直すことなく、スレッドの編集や分岐が可能すべてのスレッドはデフォルトでプライベートであり、ユーザーのデータはモデルのトレーニングに使用されません。 Kagi Assistantは、Kagi Searchを使用して最高品質の情報を提供し、最新の事実情報に基づいた応答を生成します。「スパム」や「広告目的で作成された」サイトを独自のランキングアルゴリズムとユーザーの検索パーソナライズで無視します。 さらに、コーディング、情報検索、問題解決、ブレインストーミング、クリエイティブライティングなど、様々なLLMアプリケーションに最適なモデルを選択できます。モデルは必要に応じていつでも切り替えることができ、最新のモデルが利用可能になるとすぐに使用できます。また、モデルにウェブアクセスを許可するか、または「raw」モードで使用するかも選択できます。 Kagi Assistantは、ユーザーのニーズに合わせてカスタマイズされたアシスタントを作成することも可能です。例えば、クラシックカーのオーナーであれば、自分の車の修理やメンテナンスに関するアドバイスを得るためのカスタムアシスタントを作成できます。 また、LLMの応答に誤りや不備があった場合でも、スレッドを編集したり、分岐して質問を修正したりすることができます。これにより、より正確で詳細な回答を得ることが可能になります。 Kagiはユーザーのプライバシーを重視しており、スレッドはデフォルトで24時間後に自動的に削除されます。ユーザーデータはモデルのトレーニングに使用されることはありません。 Kagi Assistantは、Kagi Ultimateプランに含まれており、月額25ドルで利用可能です。 Kagiは、LLMを検索に統合し、ユーザーに最高の検索体験を提供することに注力しています。Kagi Assistantは、その取り組みの一環として開発された、革新的なAIアシスタントです。新人エンジニアの皆さんも、ぜひKagi Assistantを試して、その便利さを実感してください。 引用元: https://blog.kagi.com/announcing-assistant CUDA-Free Inference for LLMs 本ブログでは、Triton言語のみを用いて、Llama3-8BやGranite-8Bなどの大規模言語モデル(LLM)のFP16推論を実現した方法について解説しています。Tritonは、NVIDIA、AMD、そして将来的にはIntelなどの様々なGPUアクセラレータ上でLLMを実行するための道筋を提供する、PythonベースのGPUプログラミング用抽象化レイヤーです。 目的は、ベンダー固有のAPIを使用せずに、高性能なGPUカーネルをより迅速に作成し、LLMを様々なGPU上で動作させることです。 実現方法としては、Triton言語で記述したカスタムカーネルとtorch.compile(Tritonオペレーションを生成するPyTorch機能)を活用しています。具体的には、RMSNorm、RoPE、SiLU、Element Wise Multiplicationなどの小さなオペレーションはtorch.compileで自動生成されたTritonカーネルに置き換え、より複雑な行列積やFlash Attentionなどの演算は手書きのTritonカーネルに置き換えています。 課題として、TritonカーネルはCUDAカーネルと比較して、行列積(GEMM)やFlash Attentionの性能が劣ることが挙げられます。TritonのGEMMカーネルはCUDAのcuBLAS GEMMよりも1.2~1.4倍遅く、TritonのFlash AttentionカーネルはCUDAのcuDNN Flash Attentionよりも1.6倍遅いです。 今後の展望としては、H100のTMAユニット活用やStreamKなどの持続的なカーネル手法を用いたワーク分解などにより、TritonベースのGEMMカーネルの性能向上を目指します。また、FlexAttentionやFlashAttention-3といった、ハードウェアをより効率的に活用する手法をFlash Attentionカーネルに適用することで、CUDAとの性能差を縮小する予定です。さらに、FP8推論についても検討...
    Show more Show less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20240904
    Sep 3 2024
    関連リンク Build reliable agents in JavaScript with LangGraph.js v0.2: Now supporting Cloud and Studio LangChain.js v0.2.0は、JavaScript/TypeScriptでLLM(大規模言語モデル)を活用したエージェントを構築するためのフレームワークです。今回のバージョンアップでは、以下の機能強化がされました。 ストリーミング機能の強化: 中間ステップやチャットモデルのメッセージを柔軟にストリーミングできるようになりました。チェックポイントシステム: 過去の状態に戻ったり、モデルの応答エラーなどをデバッグできるようになりました。ヒューマン・イン・ザ・ループのサポート: グラフの任意の時点で実行を中断、内部状態の更新、再開が可能になりました。並列ノードサポート: 複数のノードを同時に実行し、結果を組み合わせることが可能になりました。 さらに、デスクトップ向けのAgent IDEであるLangGraph Studioと、エージェントをデプロイするためのスケーラブルなインフラストラクチャであるLangGraph Cloudのベータ版が利用可能になりました。 LangGraph.jsは、LLM特有の長時間実行や非決定的な性質による課題を解決し、エージェント開発を容易にします。具体的には、以下のようなメリットがあります。 応答性の向上: 結果をトークン単位でストリーミングすることで、リアルタイムなインタラクティブな体験を提供できます。回復力の向上: ノードレベルの再試行ポリシーとチェックポイントにより、サービス停止やステップ失敗時でも、以前の状態から実行を再開できます。アクセス制御: 特定のツールへのアクセスを人間の承認に制限することで、アプリケーションのセキュリティを強化できます。 LangGraph Studioは、TypeScript/JavaScript環境におけるエージェントのデバッグを支援するツールです。グラフの入力/出力の可視化や、状態の巻き戻し、ステップ実行などが可能です。 LangGraph Cloudは、LangGraph.jsで構築したエージェントをWeb規模でデプロイするためのサービスです。タスクキューやサーバーの管理、LangSmithとの統合による詳細なトレース、状態の巻き戻しによるトラブルシューティングなどが可能です。 LangGraph.jsは、Node.js、Deno、Cloudflare Workersなど、多くのJavaScriptランタイムで動作します。今後もコミュニティからのフィードバックを参考に、機能強化を続けていく予定です。 引用元: https://blog.langchain.dev/javascript-langgraph-v02-cloud-studio/ オープンソースのRAG UI「kotaemon」を試す kotaemonは、LLMとベクトルデータベースを組み合わせ、ドキュメントから質問に答えるRAG(Retrieval Augmented Generation)のUIを提供するオープンソースツールです。DockerイメージまたはPython仮想環境から起動できます。 概要 kotaemonは、LLM(大規模言語モデル)とベクトルデータベースを連携させ、ドキュメントから質問への回答を生成するRAGシステムのUIを提供するツールです。OpenAIやOllamaなどのLLM、および様々なベクトルデータベースと連携可能です。ローカル環境でLLMを活用したRAGシステムを構築し、手軽に試したいエンジニアに適しています。 制約 GraphRAG機能は、現時点ではOllamaでは動作せず、OpenAIを用いる必要があります。GraphRAG機能は、安定性に課題があり、クエリによってはエラーが発生する可能性があります。 kotaemonを利用するには、まずDockerイメージから起動するか、Python仮想環境でレポジトリをクローンして起動します。その後、LLMとEmbeddingモデル、インデックス作成時のEmbeddingモデル、検索・推論時のLLMを、使用するOllamaモデルに設定を変更します。 さらに、RAGで使用するドキュメントをアップロードし、インデックスを作成することで、チャット画面から質問し、ドキュメントからの回答を得ることができます。 GraphRAG機能を利用するには、Python仮想環境で必要なパッケージをインストールし、環境変数を設定してからkotaemonを起動します。その後、ドキュメントをアップロードし、GraphRAGでインデックスを作成すると、質問に対する回答と同時に、グラフ、エンティティの説明、テキストチャンク、レポート、リレーションなどが表示されます。これにより、回答の根拠をより詳細に理解することができます。 本記事では、...
    Show more Show less
    Less than 1 minute