• 株式会社ずんだもん技術室AI放送局 podcast 20240905

  • Sep 4 2024
  • Length: Less than 1 minute
  • Podcast

株式会社ずんだもん技術室AI放送局 podcast 20240905

  • Summary

  • 関連リンク Announcing The Assistant Kagi Blog Kagiは、AIを検索体験に統合し、よりスマートで高速で直感的な検索を実現しました。Kagi Assistantは、ユーザーデータの収集、広告、トラッキングを行わない、ユーザーフレンドリーなAIアシスタントです。 主な機能は以下の通りです。 Kagiの高品質な検索結果との連携OpenAI、Anthropic、Googleなど、主要なLLMモデルの選択カスタム指示、モデル選択、検索やインターネットアクセスなどのツールを含む、強力なカスタムアシスタントの作成会話を最初からやり直すことなく、スレッドの編集や分岐が可能すべてのスレッドはデフォルトでプライベートであり、ユーザーのデータはモデルのトレーニングに使用されません。 Kagi Assistantは、Kagi Searchを使用して最高品質の情報を提供し、最新の事実情報に基づいた応答を生成します。「スパム」や「広告目的で作成された」サイトを独自のランキングアルゴリズムとユーザーの検索パーソナライズで無視します。 さらに、コーディング、情報検索、問題解決、ブレインストーミング、クリエイティブライティングなど、様々なLLMアプリケーションに最適なモデルを選択できます。モデルは必要に応じていつでも切り替えることができ、最新のモデルが利用可能になるとすぐに使用できます。また、モデルにウェブアクセスを許可するか、または「raw」モードで使用するかも選択できます。 Kagi Assistantは、ユーザーのニーズに合わせてカスタマイズされたアシスタントを作成することも可能です。例えば、クラシックカーのオーナーであれば、自分の車の修理やメンテナンスに関するアドバイスを得るためのカスタムアシスタントを作成できます。 また、LLMの応答に誤りや不備があった場合でも、スレッドを編集したり、分岐して質問を修正したりすることができます。これにより、より正確で詳細な回答を得ることが可能になります。 Kagiはユーザーのプライバシーを重視しており、スレッドはデフォルトで24時間後に自動的に削除されます。ユーザーデータはモデルのトレーニングに使用されることはありません。 Kagi Assistantは、Kagi Ultimateプランに含まれており、月額25ドルで利用可能です。 Kagiは、LLMを検索に統合し、ユーザーに最高の検索体験を提供することに注力しています。Kagi Assistantは、その取り組みの一環として開発された、革新的なAIアシスタントです。新人エンジニアの皆さんも、ぜひKagi Assistantを試して、その便利さを実感してください。 引用元: https://blog.kagi.com/announcing-assistant CUDA-Free Inference for LLMs 本ブログでは、Triton言語のみを用いて、Llama3-8BやGranite-8Bなどの大規模言語モデル(LLM)のFP16推論を実現した方法について解説しています。Tritonは、NVIDIA、AMD、そして将来的にはIntelなどの様々なGPUアクセラレータ上でLLMを実行するための道筋を提供する、PythonベースのGPUプログラミング用抽象化レイヤーです。 目的は、ベンダー固有のAPIを使用せずに、高性能なGPUカーネルをより迅速に作成し、LLMを様々なGPU上で動作させることです。 実現方法としては、Triton言語で記述したカスタムカーネルとtorch.compile(Tritonオペレーションを生成するPyTorch機能)を活用しています。具体的には、RMSNorm、RoPE、SiLU、Element Wise Multiplicationなどの小さなオペレーションはtorch.compileで自動生成されたTritonカーネルに置き換え、より複雑な行列積やFlash Attentionなどの演算は手書きのTritonカーネルに置き換えています。 課題として、TritonカーネルはCUDAカーネルと比較して、行列積(GEMM)やFlash Attentionの性能が劣ることが挙げられます。TritonのGEMMカーネルはCUDAのcuBLAS GEMMよりも1.2~1.4倍遅く、TritonのFlash AttentionカーネルはCUDAのcuDNN Flash Attentionよりも1.6倍遅いです。 今後の展望としては、H100のTMAユニット活用やStreamKなどの持続的なカーネル手法を用いたワーク分解などにより、TritonベースのGEMMカーネルの性能向上を目指します。また、FlexAttentionやFlashAttention-3といった、ハードウェアをより効率的に活用する手法をFlash Attentionカーネルに適用することで、CUDAとの性能差を縮小する予定です。さらに、FP8推論についても検討...
    Show more Show less

What listeners say about 株式会社ずんだもん技術室AI放送局 podcast 20240905

Average customer ratings

Reviews - Please select the tabs below to change the source of reviews.