![ELYZA Japanese LLaMA 2 13B を WEB デプロイ](/posts/ai/nlp/elyza-jp-13b-server/cover_hu12c5af40746bb6843a960bfec503e8b4_442470_720x0_resize_q90_bgffffff_lanczos_3.jpg)
ELYZA Japanese LLaMA 2 の 13B モデルがリリースされたのでお試しです。量子化済みモデルの中から fast-instruct-q5_K_M を選びました。
7B を扱った先回記事とだいたい同じ内容を Ubuntu で行っています。
Llama.cpp の Python バインディング (CPU) である llama-cpp-python は OpenAI 互換の API サーバーを内蔵しているので、ここに Chatbot UI (WEB フロントエンド) を接続することで、ChatGPT サービスのように WEB から ELYZA Japanese LLaMa 2 を使うことができます1。 …
![ELYZA Japanese LLaMA 2 (CPU) を Chatbot UI から遊ぶ](/posts/ai/nlp/llama-cpp-python-server/cover_hud4b4e91d71fd898392d3ce9e26887070_797251_720x0_resize_q90_bgffffff_lanczos_3.jpg)
先回記事の続きです。前回紹介した Elyza の日本語言語モデル ELYZA Japanese LLaMa 2 を Chatbot UI から使えるようにしてみました。
Llama.cpp の Python バインディングである llama-cpp-python は OpenAI 互換の API サーバーを内蔵しているので、ここに Chatbot UI を接続することで、ChatGPT のように WEB から ELYZA Japanese LLaMa 2 を使うことができます1。 …
![Japanese StableLM Instruct Alpha 7B v2 のローカル GPU 実行を試す](/posts/ai/nlp/run-japanese-stable-lm-v2/cover_hua655afa2a46cec0c1b15b381ab8c2067_117561_720x0_resize_q90_lanczos.jpg)
Stability AI より Japanese StableLM Instruct Alpha 7B v2 がリリースされたので、期待を込めてサクッと試しました。 …
![LLaMA 2 日本語モデルを CPU 実行する](/posts/ai/nlp/run-japanese-llama-cpp/cover_hud4b4e91d71fd898392d3ce9e26887070_797251_720x0_resize_q90_bgffffff_lanczos_3.jpg)
M2 MacBook Pro にて、Llama.cpp を使い量子化済みの LLaMA 2 派生モデルを実行することに成功したので手順をメモします。 Llama.cpp は言語モデルをネイティブコードによって CPU 実行するためのプログラムであり、Apple Silicon 最適化を謳っていることもあってか、かなり高速に動かせました。 …
![ELYZA Japanese LLaMA 2 のローカル実行を試す](/posts/ai/nlp/run-elyza-japanese-llama-2/cover_hu0ebc37520df3b6ac15e6942de7c6fcb3_805285_720x0_resize_q90_bgffffff_lanczos_3.jpg)
仕事で使うかもしれないとなったので、GPU 搭載の Windows マシンで ELYZA Japanese LLaMa 2 をお試し動作させました。現時点での手順を簡潔にメモします。 …