一个无聊的坏东西

随便写点什么,证明我来过

【.CONFIG】AI大模型本地部署

allright,搞忘记写了,不然之后记不住。

前置条件基本看前端要用什么软件就是了,
这里跟着教程用的SillyTavern
前置条件是node.jstext generation web ui

https://github.com/SillyTavern/SillyTavern/releases/tag/1.11.5

github写的很详细,跟着走就是了,webui部署在 D:\BaiduNetdiskDownload\text-generation-webui-snapshot-2023-11-05\text-generation-webui-snapshot-2023-11-05 不确定github的latest是多少。

然后是模型下载的网站,基于目前128+4090的配置,应该是可以跑70B模型没什么问题的。(想太多,33b左右合适,再大没得跑,显存不够。)

GGUF可以内存跑,GPTQ是显存专用
举例懂参数:TheBloke/Airoboros - L2-13B-3.1.1-GGUF
作者/主模型名 - 底模名(L2是Llama2)-参数量-版本号-模型类型

8B,13B,33B,70B
8G,12G,24G,90G
显存不足会吃内存,速度会慢
没事别玩70B,连内存都干爆了,报错说分配了87G,只有24老实跑33b

**进入模型详情页后选择量化尺寸的模型,参数越大内存/显存占用越多,一般不低于Q4(只针对GGUF,GPTQ下载在webui里面)
记得在模型筛选页选语言,首页的都是eng模型
GGUF下载和sovit和SD类似,下完丢进webui的models目录

GPTQ在网站模型名字右边复制名字,然后去webui里面黏贴到下载栏
国内飞机要飞着,不然容易下不全
别大聪明之下本体,跑不了的,70B都是100G左右
睡觉之前下,太大了

webui刷新后选择模型,GGUF loader选Llama.cpp, GPTQ选ExllamaV2
用V2必须安装VS的C++开发工具妈的,怎么哪里都躲不开C++
https://visualstudio.microsoft.com/zh-hans/visual-cpp-build-tools/

GGUF参数调整:

  1. n-gpy layers 放N层到显存里,不要拉满,会报错
  2. n_ctx 上下文记忆长度,L2标准长度是4096tokens
  3. alpha_value 根据上一项来的,4096是1,8192是2.5,类推

GPTQ参数调整:

  1. Max_seq_len 和上下文长度一样,L2默认4096
  2. alpha_value 一样的

小体验了一圈,70b GPTQ完全没法跑,共享88G的显存还是不够吃的,有70B的 GGUF可以试一下。
20B体验很流畅,layers 55,4096tokens 显存占用14.4左右,速度还算不错
yi 34b Q5测试下来没有问题,中文模型很方便,显存占用还是很高的,24g显存吃满,内存40g左右,速度还可以接受

发表评论

电子邮件地址不会被公开。 必填项已用*标注