Tiktok-Talent-Info/pipeline_setup.py

import os
from lmdeploy import pipeline, TurbomindEngineConfig, GenerationConfig

IMAGE_TOKEN = "[IMAGE_TOKEN]"

os.environ["CUDA_VISIBLE_DEVICES"] = "0,1"
# os.environ["CUDA_VISIBLE_DEVICES"] = "2,3"

# Model initialization
model = "OpenGVLab/InternVL2-26B-AWQ"
pipe = pipeline(
    model,
    backend_config=TurbomindEngineConfig(
        model_format="awq",
        tp=2,
        # tp=4,
        session_len=16384,  # 4096, 8192, 16384, 32768
        max_batch_size=1,
        cache_max_entry_count=0.2, # 0.05
        cache_block_seq_len=16384,  # 8192, 16384, 32768
        # quant_policy=8,
        # precision="fp16",
    ), 
    # log_level='DEBUG'
)
optimized on 2 gpus 2025-01-26 20:42:56 +08:00			`import os`
updated ui 2025-01-23 21:50:55 +08:00			`from lmdeploy import pipeline, TurbomindEngineConfig, GenerationConfig`

			`IMAGE_TOKEN = "[IMAGE_TOKEN]"`

optimized on 2 gpus 2025-01-26 20:42:56 +08:00			`os.environ["CUDA_VISIBLE_DEVICES"] = "0,1"`
updated celery redis 2025-02-07 19:18:35 +08:00			`# os.environ["CUDA_VISIBLE_DEVICES"] = "2,3"`
optimized on 2 gpus 2025-01-26 20:42:56 +08:00
updated ui 2025-01-23 21:50:55 +08:00			`# Model initialization`
			`model = "OpenGVLab/InternVL2-26B-AWQ"`
			`pipe = pipeline(`
			`model,`
			`backend_config=TurbomindEngineConfig(`
			`model_format="awq",`
updated celery redis 2025-02-07 19:18:35 +08:00			`tp=2,`
optimized on 2 gpus 2025-01-26 20:42:56 +08:00			`# tp=4,`
updated celery redis 2025-02-07 19:18:35 +08:00			`session_len=16384, # 4096, 8192, 16384, 32768`
updated ui 2025-01-23 21:50:55 +08:00			`max_batch_size=1,`
updated celery redis 2025-02-07 19:18:35 +08:00			`cache_max_entry_count=0.2, # 0.05`
			`cache_block_seq_len=16384, # 8192, 16384, 32768`
			`# quant_policy=8,`
optimized on 2 gpus 2025-01-26 20:42:56 +08:00			`# precision="fp16",`
			`),`
			`# log_level='DEBUG'`
updated ui 2025-01-23 22:24:07 +08:00			`)`