allright,搞忘记写了,不然之后记不住。
前置条件基本看前端要用什么软件就是了,
这里跟着教程用的SillyTavern,
前置条件是node.js和text generation web ui
https://github.com/SillyTavern/SillyTavern/releases/tag/1.11.5
github写的很详细,跟着走就是了,webui部署在 D:\BaiduNetdiskDownload\text-generation-webui-snapshot-2023-11-05\text-generation-webui-snapshot-2023-11-05 不确定github的latest是多少。
然后是模型下载的网站,基于目前128+4090的配置,应该是可以跑70B模型没什么问题的。(想太多,33b左右合适,再大没得跑,显存不够。)
GGUF可以内存跑,GPTQ是显存专用
举例懂参数:TheBloke/Airoboros - L2-13B-3.1.1-GGUF
作者/主模型名 - 底模名(L2是Llama2)-参数量-版本号-模型类型
8B,13B,33B,70B
8G,12G,24G,90G
显存不足会吃内存,速度会慢
没事别玩70B,连内存都干爆了,报错说分配了87G,只有24老实跑33b
**进入模型详情页后选择量化尺寸的模型,参数越大内存/显存占用越多,一般不低于Q4(只针对GGUF,GPTQ下载在webui里面)
记得在模型筛选页选语言,首页的都是eng模型
GGUF下载和sovit和SD类似,下完丢进webui的models目录
GPTQ在网站模型名字右边复制名字,然后去webui里面黏贴到下载栏
国内飞机要飞着,不然容易下不全
别大聪明之下本体,跑不了的,70B都是100G左右
睡觉之前下,太大了
webui刷新后选择模型,GGUF loader选Llama.cpp, GPTQ选ExllamaV2
用V2必须安装VS的C++开发工具妈的,怎么哪里都躲不开C++
https://visualstudio.microsoft.com/zh-hans/visual-cpp-build-tools/
GGUF参数调整:
- n-gpy layers 放N层到显存里,不要拉满,会报错
- n_ctx 上下文记忆长度,L2标准长度是4096tokens
- alpha_value 根据上一项来的,4096是1,8192是2.5,类推
GPTQ参数调整:
- Max_seq_len 和上下文长度一样,L2默认4096
- alpha_value 一样的
小体验了一圈,70b GPTQ完全没法跑,共享88G的显存还是不够吃的,有70B的 GGUF可以试一下。
20B体验很流畅,layers 55,4096tokens 显存占用14.4左右,速度还算不错
yi 34b Q5测试下来没有问题,中文模型很方便,显存占用还是很高的,24g显存吃满,内存40g左右,速度还可以接受