大模型服务运行时监控
大模型服务运行时监控

模型服务运行时监控是实现智能模型运维的重要手段。现有监控方法监控延迟、吞吐等运营指标，对于模型输入、输出以及性能等维度的监控尚缺乏有效手段。因此，目前在该技术研究方向上可能还存在从以下挑战问题供研究者们探索研究：
❓无监督提示词质量评估方法
❓输出质量评估与监控方法
❓模型性能漂移监控方法
针对这些挑战问题，本项目对面向大模型服务性能的运行时监控研究过程中面临的挑战问题以及相关数据集研究进行开源。具体的，开源内容包括以下内容：
⭐大模型运行时监控挑战性问题
⭐开源数据集
大模型运行时监控挑战性问题

如何采用轻量化的方法监控大模型的prompt的质量？
如何从样本层面对prompt的质量进行评估？
当大模型性能出现降级时，如何基于线上评估的prompt进行大模型快速迭代优化？
开源数据集

Prompt的好坏直接决定着模型训练以及应用的效果。差的prompt会导致大模型上线后出现性能降级，因此及时监控prompt可以有效防止大模型出现性能降级，保持较高的性能。针对大模型监控prompt好坏，即对在线prompt进行评估，本项目收集了八个脱敏线上访问数据集，每个数据包括输入prompt、输出response.
hh-rlhf: 由Anthropic创建的大型数据集，关于有用的回答和有害的回答的人类喜好数据，deepspeed chat, 由这篇论文提出：Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback。
数据集来源：https://huggingface.co/datasets/Anthropic/hh-rlhf.
论文来源：https://arxiv.org/abs/2204.05862.
InstructionWild: 由新加坡国立大学创建的数据集，从ChatGPT使用共享中收集指令110k, colossalai chat sft 使用的就是该数据集。
数据集来源：https://github.com/XueFuzhao/InstructionWild.
natural-instruction: 由华盛顿大学和Allen共同创建，是一个instruction相关的任务集，它包括61个不同任务，以及19万+个训练数据,该数据集是通过外包标注获得。
数据集来源：
https://github.com/allenai/natural-instructions.
论文来源：https://arxiv.org/abs/2204.07705.(Super-NaturalInstructions: Generalization via Declarative Instructions
on 1600+ NLP Tasks.)
self-instruct：由华盛顿大学创建的大型数据集，根据 chatgpt，做出来的（prompt，response）pair，大概有 82k 条数据。
数据集来源：https://github.com/yizhongw/self-instruct.
论文来源：https://arxiv.org/abs/2212.10560.(Self-Instruct：Aligning Language Models with Self-Generated Instructions)
shareGPT: 是一个ChatGPT数据共享网站，用户会在上面上传自己觉得有趣的chatGPT回答。ShareGPT数据集是一个由用户共享的对话数据集，包含了超过1亿条来自不同领域、主题、风格和情感的对话样本，覆盖了闲聊、问答、故事、诗歌、歌词等多种类型。
数据集来源：https://huggingface.co/datasets/philschmid/sharegpt-raw.
standford_alpaca：由斯坦福创建大型数据集，基于 self-instruct 来构造数据，共有52k条数据。
数据集来源：https://github.com/tatsu-lab/stanford_alpaca.
static-hh：给定一个Prompt(以“Human: ”开头)，数据中会有两条答复，并标注出两条中更好的那一条，训练集有96.3k条，
测试有5.1k条。
数据集来源：https://huggingface.co/datasets/Dahoas/static-hh.
webgpt: 由openai创建的数据集，同一个问题有多个回答，还有人类对回答的打分，后面训练 RM 也可以用，大概有39156条数据。
数据集来源：https://link.zhihu.com/?target=https%3A//huggingface.co/datasets/openai/webgpt_comparisons.
论文来源：https://arxiv.org/abs/2112.09332.(WebGPT: Browser-assisted question-answering with human feedback)
联系我们

如果你对本项目的使用和代码有任何问题，可以提交issue。同时你也可以通过邮箱 xuchx@pcl.ac.cn 直接联系我们
参与单位

鹏城实验室，国防科技大学。
liux 742049710b 更新 'README.md'		6 months ago
Open-source-data-for-LLMs	删除 'Open-source-data-for-LLMs/natural-instruction/splits/124'	6 months ago

imgs	重命名"docs"为"imgs"	6 months ago

License	添加 'License'	6 months ago

README.md	更新 'README.md'	6 months ago