当前位置: 缁活土石方工程有限公司 > 产品展示 > 荟萃啦,NLP数据添强技术!超全资源汇总
随机内容

荟萃啦,NLP数据添强技术!超全资源汇总

时间:2020-07-05 05:50 来源:缁活土石方工程有限公司 点击:145

原标题:荟萃啦,NLP数据添强技术!超全资源汇总

白交 发自 凹非寺

无极丝芋园林绿化有限公司

量子位 报道 | 公多号 QbitAI

数据添强技术已经是CV周围的标配,比如对图像的旋转、镜像、高斯白噪声等等。

但在NLP周围,针对文本的数据添强,却是不那么多见。

所以,就有一位机器学习T型工程师,在现有的文献中,汇总一些NLP数据添强技术。

妥妥干货,在此放送。

文本替代

文本替代主要是针对在不转折句子含义的情况下,替换文本中的单词,比如,同义词替换、词嵌入替换等等。

接着,吾们就来益益介绍一下。

同义词替换

顾名思义,就是在文本中随机抽取一个单词,然后再同义词库里将其替换为同义词。

比如,操纵 WordNet数据库,将「awesome」替换为「amazing」。

这个技术比较常见,在以去的论文中有许多都操纵了这个技术,比如,

Zhang et al.「Character-level Convolutional Networks for Text Classification」

论文链接:https://arxiv.org/abs/1509.01626

论文链接:https://arxiv.org/abs/1509.01626

Wei et al. 「EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks」

论文链接:https://arxiv.org/abs/1901.11196

论文链接:https://arxiv.org/abs/1901.11196

要实现这项技术,可经由过程NLTK对WordNet进走访问,还能够操纵TextBlob API。

此外,还有一个 PPDB数据库,包含着百万个单词的词库。

词嵌入替换

这栽手段是,采取已经预训练益的单词嵌入,如Word2Vec、GloVe、FastText、Sent2Vec等,并将嵌入空间中比来的邻接词行为句子中某些单词的替换。

比如:

如许,就能够将单词替换成临近的3个单词,获得文本的3栽变体样式。

掩码说话模型(MLM)

相通于BERT、ROBERTA、ALBERT,Transformer模型已经在大量的文本训练过,操纵掩码说话模型的前置义务。

在这个义务中,模型必须按照上下文来展望掩码的单词。此外,还能够行使这一点,对文本进走扩容。

跟之前的手段相比,生成的文本在语法上会更添连贯。

但是,必要仔细的是,决定袒护哪一个单词并非易事,它决定了造就的最后表现。

基于TF-IDF的单词替换

这一手段最初是出现在Xie et al.「Unsupervised Data Augmentation for Consistency Training」。

论文链接:https://arxiv.org/abs/1904.12848

论文链接:https://arxiv.org/abs/1904.12848

基本思路在于TF-IDF得分矮的单词是异国信休量的的词,所以能够替换,而不影响句子的原本含义。

经由过程计算整个文档中单词的 TF - IDF得分并取最矮得分来选择替换原首单词的单词。

逆向翻译

逆向翻译,就是先将句子翻译成另一栽说话,比如,英语翻译成法语。

然后再翻译回原本的说话,也就是将法语翻译回英语。

检查两个句子之间的分别之处,由此将新的句子行为添强文本。

还能够一次操纵多栽说话进走逆向翻译,产生更多的变体。

比如,除了法语以外,产品展示再将其翻译为汉语和意大利语。

要实现逆向翻译,能够操纵TextBlob。另外,还能够操纵Google Sheets,表明书已附文末。

文本样式转换

这一手段主要是行使正则外达式行使的的浅易模式匹配转换,在Claude Coulombe的论文「Text Data Augmentation Made Simple By Leveraging NLP Cloud APIs」中有详细介绍。

论文链接:https://arxiv.org/abs/1812.04718

论文链接:https://arxiv.org/abs/1812.04718

举个浅易的例子,将原本样式转换为缩写,逆之亦然。

但是也会展现一些歧义,比如:

在此,选择批准歧义的缩短,但不批准扩展。

Python的缩短库已附文末。

随机噪声注入

顾名思义,也就是在文本中注入噪声,来训练模型对扰动的鲁棒性。

比如,拼写舛讹。

句子改组。

空白噪声。

随机插入。

随机交换。

随机删除。

语法树

这一手段也出现在了Claude Coulombe的论文「Text Data Augmentation Made Simple By Leveraging NLP Cloud APIs」中。

论文链接:https://arxiv.org/abs/1812.04718

论文链接:https://arxiv.org/abs/1812.04718

其思路是解析并生成原句的从属树,行使规则进走转换,生成新句子。

比如,将句子的主动语气转换为被动语气,逆之亦然。

文本同化

这项技术的思想源于一项名为“Mixup”的图像添强技术。

Guo et al.在此基础上进走了修改,将其行使到NLP。

「Augmenting Data with Mixup for Sentence Classification: An Empirical Study」

论文链接:https://arxiv.org/abs/1905.08941

论文链接:https://arxiv.org/abs/1905.08941

主要有两栽手段。

wordMixup

这个手段在于,抽取两个随机的句子,将它们进走零填充,使其长度相通。然后,按必定比例组相符在一首。

所得到的单词嵌入经由过程CNN/LSTM编码器传递到句子嵌入中,随后计算交叉熵亏损。

sentMixup

能够望到这一手段,与上述手段相通,只不过在详细步骤上有所调整。

益了,NLP的数据添强技术就介绍到这边,期待能够对你有所协助。

传送门

博客地址:

https://amitness.com/2020/05/data-augmentation-for-nlp/

WordNet数据集:

https://www.nltk.org/howto/wordnet.html

TextBlob API:

https://textblob.readthedocs.io/en/dev/quickstart.html#wordnet-integration

PPDB数据集:

http://paraphrase.org/#/download

YF-IDF代码:

https://github.com/google-research/uda/blob/master/text/augmentation/word_level_augment.py

操纵Google Sheets实现逆向翻译:

https://amitness.com/2020/02/back-translation-in-google-sheets/

Python缩短库:

https://github.com/kootenpv/contractions

作者系网易消休·网易号“各有态度”签约作者

— 完—

华为MindSpore布道师招募

助力幼白成为大牛

告别技术造神,尊重每个开发者。

在开源社区中一首迅速成长,共建开源生态!

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

爱就点「在望」吧 !

  【TechWeb】6月28日消息,新东方留学考试融合态产品发布会在B站上进行了面向全网用户的直播,正式发布自主研发的全新融合态教学产品及学习平台:新混合互动学习平台NOBEL3.0。

  又有一只股票快被外资买爆!这次是只业绩亏损股票。

中国网地产讯 24日,中梁以总价39467万元竞得温州永嘉县3303240042020006地块,楼面价4370.70元/㎡,溢价率1.81%。    该地块位于桥头镇壬田村,为城镇住宅用地。宗地总面积 30099.88㎡,容积率大于1并且小于或等于3,绿化率大于或等于35%,建筑密度小于或等于30%,建筑限高小于或等于80米。

本交易日盘面早间我们是直接给出短多布局,早间早评也是1750的现价单多单入场,实际布局我们在1750,1751/52都有多单参与,目前盘面价格给到1760上方,我们也已顺利落袋。

原标题:想不到!当代年轻人的快乐,是这杯“造作”酸奶给的!

------分隔线----------------------------

由上内容,由缁活土石方工程有限公司收集并整理。