【.CONFIG】AI大模型本地部署

2024-02-29 0 条评论 1967 次阅读

allright，搞忘记写了，不然之后记不住。

前置条件基本看前端要用什么软件就是了，
这里跟着教程用的SillyTavern，
前置条件是node.js和text generation web ui

https://github.com/SillyTavern/SillyTavern/releases/tag/1.11.5

github写的很详细，跟着走就是了，webui部署在 D:\BaiduNetdiskDownload\text-generation-webui-snapshot-2023-11-05\text-generation-webui-snapshot-2023-11-05 不确定github的latest是多少。

然后是模型下载的网站，基于目前128+4090的配置，应该是可以跑70B模型没什么问题的。（想太多，33b左右合适，再大没得跑，显存不够。）

GGUF可以内存跑，GPTQ是显存专用
举例懂参数：TheBloke/Airoboros - L2-13B-3.1.1-GGUF
作者/主模型名 - 底模名（L2是Llama2）-参数量-版本号-模型类型

8B，13B，33B,70B
8G,12G,24G,90G
显存不足会吃内存，速度会慢
没事别玩70B，连内存都干爆了，报错说分配了87G，只有24老实跑33b

**进入模型详情页后选择量化尺寸的模型，参数越大内存/显存占用越多，一般不低于Q4（只针对GGUF，GPTQ下载在webui里面）
记得在模型筛选页选语言，首页的都是eng模型
GGUF下载和sovit和SD类似，下完丢进webui的models目录

GPTQ在网站模型名字右边复制名字，然后去webui里面黏贴到下载栏
国内飞机要飞着，不然容易下不全
别大聪明之下本体，跑不了的,70B都是100G左右
睡觉之前下，太大了

webui刷新后选择模型，GGUF loader选Llama.cpp, GPTQ选ExllamaV2
用V2必须安装VS的C++开发工具妈的，怎么哪里都躲不开C++
https://visualstudio.microsoft.com/zh-hans/visual-cpp-build-tools/

GGUF参数调整：

n-gpy layers 放N层到显存里，不要拉满，会报错
n_ctx 上下文记忆长度，L2标准长度是4096tokens
alpha_value 根据上一项来的，4096是1，8192是2.5，类推

GPTQ参数调整：

Max_seq_len 和上下文长度一样，L2默认4096
alpha_value 一样的

小体验了一圈，70b GPTQ完全没法跑，共享88G的显存还是不够吃的，有70B的 GGUF可以试一下。
20B体验很流畅，layers 55，4096tokens 显存占用14.4左右，速度还算不错
yi 34b Q5测试下来没有问题，中文模型很方便，显存占用还是很高的，24g显存吃满，内存40g左右，速度还可以接受

一个无聊的坏东西

【.CONFIG】AI大模型本地部署

发表评论取消回复

一个无聊的坏东西

发表评论 取消回复

发表评论取消回复