@@ -521,7 +521,7 @@ AI 生成的代码被开发者入库的比例。
521521
522522### 模型选择与测试
523523
524- 在结合公开 API 的大语言模型之后,我们就可以构建基本的 IDE 功能。随后,应该进一步探索适合于内部的模型,以适合于组织内部的效果。
524+ 在结合公开 API 的大语言模型之后,我们就可以构建基本的 IDE 功能。随后,应该进一步探索适合于内部的模型,以适合于组织内部的效果。
525525
526526#### 模型选择
527527
@@ -530,7 +530,8 @@ AI 生成的代码被开发者入库的比例。
530530
531531#### OpenBayes 平台部署与测试
532532
533- 随后,我们需要部署模型,并提供一个对应的 API,这个 API 需要与我们的 IDE 接口保持一致。这里我们采用了 OpenBayes 平台来部署模型。详细见:`code/server` 目录下的相关代码。
533+ 随后,我们需要部署模型,并提供一个对应的 API,这个 API 需要与我们的 IDE 接口保持一致。这里我们采用了 OpenBayes
534+ 平台来部署模型。详细见:`code/server` 目录下的相关代码。
534535
535536如下是适用于 OpenBayes 的代码,以在后台提供公网 API:
536537
@@ -576,6 +577,10 @@ if __name__ == "__main__":
576577| 内部代码补全 | 大于 10,000 | 不需要 |
577578| IDE + 代码补全 | 大于 10,000 | 需要 |
578579
580+ #### DeepSeek 微调
581+
582+ 详细见:[code/finetune/finetune.ipynb](code/finetune/finetune.ipynb)
583+
579584#### 参数配置
580585
581586TODO
588593
589594```json
590595{
591- "instruction": "Write unit test for following code.\n<SomeCode>",
592- "output": "<TestCode>"
596+ "instruction": "Write unit test for following code.\n<SomeCode>",
597+ "output": "<TestCode>"
593598}
594599```
595600
@@ -631,6 +636,8 @@ Unit Eval 是一个针对于构建高质量代码微调的开源工具箱。其
631636
632637### IDE 指令设计与演化
633638
639+ AutoDev 早期采用的是 OpenAI API,其模型能力较强,因此在指令设计上比较强大。而当我们需要微调里,我们需要更简单、易于区分的指令来构建。
640+
634641#### 模板指令
635642
636643如下是在 AutoDev 中精简化后的 Prompt 示例:
@@ -654,6 +661,16 @@ Unit Eval 是一个针对于构建高质量代码微调的开源工具箱。其
654661
655662### 高质量数据集生成
656663
664+ 年初(2023 年 4 月),我们做了一系列的代码微调探索, 在那篇
665+ 《[AI 研发提效的正确姿势:开源 LLM + LoRA](https://www.phodal.com/blog/llm-lora-for-engineering-effectiveness-solution/)
666+ 》里,企业应该开始着力于:
667+
668+ - **规范与流程标准化**
669+ - **工程化的数据准备**
670+ - **高质量的脱敏数据**
671+
672+ 只有微调是不够的,模型需要与工具紧密相结合。
673+
657674#### 质量流水线设计示例
658675
659676
@@ -669,6 +686,8 @@ Unit Eval 是一个针对于构建高质量代码微调的开源工具箱。其
669686
670687## 附:相关资源
671688
689+ TODO
690+
672691### 开源 AI 辅助工具
673692
674693### 开源模型
0 commit comments