Featured image of post TinyLLaMA を C++ から呼び出せるようにする手順(llama.cpp使用)

TinyLLaMA を C++ から呼び出せるようにする手順(llama.cpp使用)

✅ TinyLLaMA × C++ セットアップ手順(llama.cpp使用)


🔧 Step 1: llama.cpp を用意する

1-1. 必要な環境(最低限)

  • OS: Windows / Linux / macOS
  • 開発環境: g++ / clang / MSVC
  • Git / CMake

1-2. llama.cpp を取得・ビルド

1
2
3
4
5
6
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
mkdir build
cd build
cmake ..
cmake --build . --config Release

Windows なら Visual Studio Developer Command Promptcmake --build . --config Release を使うと楽です。


📦 Step 2: TinyLLaMAモデルをダウンロードして変換

2-1. HuggingFaceから元モデルを取得

例: TinyLLaMA-1.1B

1
2
3
4
5
6
7
# 必要に応じて transformers を使ってダウンロード
pip install transformers huggingface_hub

python3 -m transformers.models.llama.convert_llama_weights_to_hf \
    --input_dir ./TinyLlama-1.1B-Chat \
    --model_size 1B \
    --output_dir ./hf_model

これは Hugging Face 形式に変換するステップです。


2-2. GGUF形式に変換(llama.cpp用)

1
2
cd llama.cpp
python3 convert.py ./hf_model --outfile tinyllama.gguf

2-3. モデルの量子化(サイズ削減)

1
./quantize ./tinyllama.gguf ./tinyllama-q4.gguf q4_0

q4_0 は 4bit 量子化。モデルサイズはおよそ 350MB前後 まで小さくなります。


🧪 Step 3: C++からモデルを呼び出す(コード例)

3-1. 簡単なC++コード(推論)

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
#include "llama.h"
#include <iostream>

int main() {
    llama_model_params model_params = llama_model_default_params();
    llama_context_params ctx_params = llama_context_default_params();

    llama_model *model = llama_load_model_from_file("tinyllama-q4.gguf", model_params);
    llama_context *ctx = llama_new_context_with_model(model, ctx_params);

    std::string prompt = "ユーザーがExcelのデータを読み込んでフィルタして保存したいと言っています。ノード構成は?";
    llama_batch batch = llama_batch_init(512, 0, 1);
    llama_token BOS = llama_token_bos(model);
    batch.token[0] = BOS;

    // トークナイズ
    std::vector<llama_token> tokens(prompt.size() + 8);
    int n = llama_tokenize(model, prompt.c_str(), tokens.data(), tokens.size(), true);
    tokens.resize(n);

    for (size_t i = 0; i < tokens.size(); ++i) {
        batch.token[i + 1] = tokens[i];
    }

    batch.n_tokens = tokens.size() + 1;
    llama_decode(ctx, batch);

    // 推論結果取得
    for (int i = 0; i < 50; ++i) {
        llama_token next = llama_sample_token(ctx, nullptr);
        std::cout << llama_token_to_str(model, next);
        llama_batch next_batch = llama_batch_init(1, 0, 1);
        next_batch.token[0] = next;
        next_batch.n_tokens = 1;
        llama_decode(ctx, next_batch);
    }

    llama_free(ctx);
    llama_free_model(model);
    return 0;
}

🧱 Step 4: コンパイル方法(例)

1
g++ -I./llama.cpp main.cpp ./llama.cpp/build/libllama.a -o tiny_infer -pthread -std=c++11

libllama.a はビルド後に build/ ディレクトリに作られます。


✅ 成果物の構成例(整理)

1
2
3
4
5
6
my_app/
├── tinyllama-q4.gguf      # 量子化済みモデル (~350MB)
├── main.cpp               # 上記 C++コード
├── llama.cpp/             # llama.cpp本体
└── build/
    └── libllama.a         # コンパイル済ライブラリ

🧠 ユースケースに適用するための補足

  • 出力を受けて ノードテンプレートを照合・選定 するコードをC++内に持つ
  • 例:「Excel」「フィルタ」「保存」が含まれる→該当ノード群を生成
  • この部分は if 文 + JSONテンプレート読込 のようなシンプル構成でOK

📌 まとめ

項目内容
推奨モデルTinyLLaMA-1.1B-Chat v1.0(GGUF + 量子化)
サイズ~350〜450MB(4bit量子化)
C++連携llama.cpp を使って可能、外部依存ほぼなし
処理能力簡単な意図理解・出力文生成に十分(自然文→構成)
拡張性スロット埋め・テンプレート呼び出しと組み合わせてノード生成AIにできる
comments powered by Disqus
Hugo で構築されています。
テーマ StackJimmy によって設計されています。