From 605adb957589b01d01d8aa97e9a2aaab7fec5787 Mon Sep 17 00:00:00 2001 From: wuzengcheng Date: Sun, 18 Aug 2024 11:05:13 +0800 Subject: [PATCH] =?UTF-8?q?=E8=A1=A5=E5=85=85=E8=AE=AD=E7=BB=83=E6=95=B0?= =?UTF-8?q?=E6=8D=AE=E9=9B=86=E5=85=B3=E4=BA=8E=E6=95=B0=E6=8D=AE=E5=A2=9E?= =?UTF-8?q?=E5=BC=BA=E7=9A=84=E6=96=B9=E6=B3=95?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .../\346\225\260\346\215\256\346\240\274\345\274\217.md" | 5 +++++ 1 file changed, 5 insertions(+) diff --git "a/03.\350\256\255\347\273\203\346\225\260\346\215\256\351\233\206/\346\225\260\346\215\256\346\240\274\345\274\217/\346\225\260\346\215\256\346\240\274\345\274\217.md" "b/03.\350\256\255\347\273\203\346\225\260\346\215\256\351\233\206/\346\225\260\346\215\256\346\240\274\345\274\217/\346\225\260\346\215\256\346\240\274\345\274\217.md" index 98560da..04b7569 100644 --- "a/03.\350\256\255\347\273\203\346\225\260\346\215\256\351\233\206/\346\225\260\346\215\256\346\240\274\345\274\217/\346\225\260\346\215\256\346\240\274\345\274\217.md" +++ "b/03.\350\256\255\347\273\203\346\225\260\346\215\256\351\233\206/\346\225\260\346\215\256\346\240\274\345\274\217/\346\225\260\346\215\256\346\240\274\345\274\217.md" @@ -77,6 +77,11 @@ Input,Reward,Action,State 3. **学术界研究**:许多学术研究项目会公开其使用的数据集,可以通过相关论文或项目页面找到这些数据集。例如,NLP领域的一些会议和竞赛(如ACL、EMNLP、CoNLL、GLUE等)提供了公开的数据集供研究使用。 4. **数据收集和爬取**:如果没有合适的公开数据集,您可以自己进行数据收集和爬取。这可以通过爬虫技术从互联网上收集相关的文本数据。需要注意的是,在进行数据收集和爬取时,需要遵守法律法规和网站的使用条款,并确保获得数据的合法使用权。 5. **数据增强**:如果您已经有了一些初始的数据集,但觉得数量不够,可以考虑使用数据增强技术来扩充数据。数据增强可以通过对原始数据进行一些变换、替换、合成等操作来生成新的样本。 + - EDA(Easy Data Augmentation): 同义词替换、同义词随机插入、随机选择两个单词交换位置、随机删除一个单词 + - AEDA(An Easier Data Augmentation): 在[1, $\frac{1}{3} \times len$]中随机选择一个数作为插入的位置的数目,在每一个插入位置从{'.', ';', '?', ':', '!', ','}中随机选择一个插入 + - 回译(Back Translation): 将文本翻译成另一种语言,然后再翻译回来。可以翻译成多种语言,从而得到多条回译样本 + - Masked Language Model: 利用预训练好的BERT, Roberta等模型,对原句子进行部分掩码,然后让模型预测掩码部分,从而得到新的句子。但是,这种方法存在的一个问题是,决定要屏蔽文本的哪一部分并不简单。可以考虑使用启发式方法来确定掩码部分,否则,生成的文本可能无法保留原始句子的含义。(启发式方法:基于词性或词频等方法。基于词性选择对句子语义影响不大的介词、冠词、连词等,基于词频选择频率较高的功能词) + - More: [文本数据增强方法总结](https://blog.csdn.net/Flying_sfeng/article/details/121691380) 无论从哪个途径获取数据集,都需要注意数据的质量、版权和隐私等问题。确保您有合法的使用权,并遵守相关的法律和伦理规范。