gogo西西人体大尺度大胆高清,法国性xxxx精品hd

語法錯(cuò)誤糾正（GEC）指的是試圖對(duì)語法和其他類型的寫作錯(cuò)誤進(jìn)行建模，并給出語法和拼寫建議，從而改善文檔、電子郵件、文章甚至非正式聊天中的書面輸出質(zhì)量。在過去 15 年里，GEC 的質(zhì)量有了很大提高，其中很大一部分原因是它將問題重塑為一項(xiàng)“翻譯”任務(wù)。例如，將這種方法引入 Google 文檔后，用戶采納的語法糾正建議數(shù)量顯著增加。

將問題重塑為一項(xiàng)“翻譯”任務(wù)

https://aclanthology.org/P06-1032/

但是，GEC 模型面臨的最大挑戰(zhàn)之一是數(shù)據(jù)稀少。不同于其他語音識(shí)別（Speech recognition）和機(jī)器翻譯（Machine translation）等自然語言處理（NLP）任務(wù)，即便是針對(duì)英語這樣的高資源語言，GEC 可用的訓(xùn)練數(shù)據(jù)非常有限。對(duì)于這類問題，一個(gè)常見的補(bǔ)救措施是使用一系列技術(shù)來生成合成數(shù)據(jù)，其中包括啟發(fā)式隨機(jī)詞或字符級(jí)的損壞，以及基于模型的方法。然而，這些方法往往是簡(jiǎn)化的，不能反映實(shí)際用戶錯(cuò)誤類型的真實(shí)分布。

在 EACL 第 16 屆創(chuàng)新使用 NLP 構(gòu)建教育應(yīng)用研討會(huì)上發(fā)表的《使用有標(biāo)簽損壞模型進(jìn)行語法錯(cuò)誤糾正的合成數(shù)據(jù)生成》（Synthetic Data Generation for Grammatical Error Correction with Tagged Corruption Models）一文中，我們介紹了有標(biāo)簽損壞模型。這種方法受到機(jī)器翻譯中流行的回譯數(shù)據(jù)合成技術(shù)啟發(fā)，能夠精確控制合成數(shù)據(jù)的生成，確保產(chǎn)生與實(shí)踐中錯(cuò)誤分布更加一致的多樣化輸出。我們使用有標(biāo)簽損壞模型來生成一個(gè)新的數(shù)據(jù)集（包含 2 億個(gè)句子）。目前這個(gè)數(shù)據(jù)集應(yīng)發(fā)布，可供研究人員提供真實(shí)的 GEC 預(yù)訓(xùn)練數(shù)據(jù)。通過將新的數(shù)據(jù)集整合到訓(xùn)練流水線，我們能夠顯著改善 GEC 的基線。

使用有標(biāo)簽損壞模型進(jìn)行語法錯(cuò)誤糾正的合成數(shù)據(jù)生成

https://aclanthology.org/2021.bea-1.4/

回譯

https://aclanthology.org/P16-1009/

數(shù)據(jù)集（包含 2 億個(gè)句子）

https://github.com/google-research-datasets/C4_200M-synthetic-dataset-for-grammatical-error-correction

有標(biāo)簽損壞模型

將傳統(tǒng)的損壞模型應(yīng)用于 GEC，其背后的理念是，從一個(gè)語法正確的句子開始，然后通過添加錯(cuò)誤“損壞”它。通過在現(xiàn)有 GEC 數(shù)據(jù)集中切換源句和目標(biāo)句，可以輕松地訓(xùn)練出損壞模型，之前的研究已經(jīng)表明，這種方法對(duì)生成改進(jìn)的 GEC 數(shù)據(jù)集非常有效。

提供干凈的輸入句（綠色）后，傳統(tǒng)損壞模型會(huì)生成一個(gè)不符合語法的句子（紅色）

之前的研究

https://aclanthology.org/D19-1119.pdf

我們提出的有標(biāo)簽損壞模型建立在這一理念的基礎(chǔ)之上，它將一個(gè)干凈的句子作為輸入，加上一個(gè)錯(cuò)誤類型標(biāo)簽，描述所要重現(xiàn)的錯(cuò)誤類型。然后，它為輸入句生成一個(gè)包含指定錯(cuò)誤類型的語法錯(cuò)誤版本。與傳統(tǒng)的損壞模型相比，為不同句子選擇不同的錯(cuò)誤類型增加了損壞的多樣性。

有標(biāo)簽損壞模型會(huì)根據(jù)錯(cuò)誤類型標(biāo)簽，為干凈的輸入句（綠色）生成損壞（紅色）。限定詞錯(cuò)誤可能會(huì)導(dǎo)致丟失限定詞 “a”，而名詞屈折變化錯(cuò)誤可能導(dǎo)致錯(cuò)誤的復(fù)數(shù)形式 “sheeps”

為使用此模型生成數(shù)據(jù)，我們首先從 C4 語料庫中隨機(jī)選擇了 2 億個(gè)干凈的句子，并為每個(gè)句子分配了一個(gè)錯(cuò)誤類型標(biāo)簽，令其相對(duì)頻率與小型開發(fā)集 BEA-dev 的錯(cuò)誤類型標(biāo)簽分布相匹配。由于 BEA-dev 是一個(gè)精心制作的集合，涵蓋各種英語水平，范圍很廣，我們預(yù)計(jì)其標(biāo)簽分布能夠代表現(xiàn)實(shí)中出現(xiàn)的寫作錯(cuò)誤。然后，我們用一個(gè)有標(biāo)簽損壞模型來合成源句。

使用有標(biāo)簽損壞模型生成合成數(shù)據(jù)。在合成的 GEC 訓(xùn)練語料庫中，干凈的 C4 句子（綠色）與損壞的句子（紅色）配對(duì)。遵循開發(fā)集（條形圖）中錯(cuò)誤類型的頻率，使用有標(biāo)簽損壞模型生成損壞的句子

C4 語料庫

https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html

BEA-dev

https://aclanthology.org/W19-4406.pdf

結(jié)果

在我們的實(shí)驗(yàn)中，有標(biāo)簽損壞模型在兩個(gè)標(biāo)準(zhǔn)開發(fā)集（CoNLL-13 和 BEA-dev）上表現(xiàn)優(yōu)于無標(biāo)簽損壞模型，比后者高出三個(gè) F0.5-點(diǎn)（GEC 研究中的一個(gè)標(biāo)準(zhǔn)指標(biāo)，結(jié)合了精確率和召回率（Precision and recall），更注重精確率），并在兩個(gè)廣泛使用的學(xué)術(shù)測(cè)試集（CoNLL-14 和 BEA-test）上體現(xiàn)了最先進(jìn)的水平。

CoNLL-13

https://aclanthology.org/W13-3601.pdf

標(biāo)準(zhǔn)指標(biāo)

https://aclanthology.org/P17-1074/

CoNLL-14

https://aclanthology.org/W14-1701.pdf

此外，使用有標(biāo)簽損壞模型不僅能在標(biāo)準(zhǔn)的 GEC 測(cè)試集上獲得收益，還能夠讓 GEC 系統(tǒng)適應(yīng)用戶的語言水平。這一點(diǎn)會(huì)十分有用，原因之一是英語母語寫作者的錯(cuò)誤標(biāo)簽分布往往與非英語母語寫作者的分布有很大不同。例如，英語母語者通常會(huì)犯更多標(biāo)點(diǎn)符號(hào)和拼寫錯(cuò)誤，而限定詞錯(cuò)誤（例如缺少或多加冠詞，如 “a”、“an” 或 “the”）在非英語母語寫作者的文本中更為常見。

結(jié)論

眾所周知，神經(jīng)序列模型對(duì)數(shù)據(jù)的需求非常大，但用于語法錯(cuò)誤糾正的注釋訓(xùn)練數(shù)據(jù)卻很少。新的 C4_200M 語料庫是一個(gè)包含各種語法錯(cuò)誤的合成數(shù)據(jù)集，用于預(yù)訓(xùn)練 GEC 系統(tǒng)時(shí)，它體現(xiàn)出了最先進(jìn)的性能。通過發(fā)布該數(shù)據(jù)集，我們希望為 GEC 研究人員提供寶貴的資源來訓(xùn)練強(qiáng)大的基線系統(tǒng)。

責(zé)任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

數(shù)據(jù)

數(shù)據(jù)

+關(guān)注

關(guān)注
8

文章
7256

瀏覽量
91838
模型

模型

+關(guān)注

關(guān)注
1

文章
3519

瀏覽量
50416

国产chinesehdxxxx老太婆,办公室玩弄爆乳女秘hd,扒开腿狂躁女人爽出白浆 ,丁香婷婷激情俺也去俺来也,ww国产内射精品后入国产

搜索歷史

關(guān)于標(biāo)簽數(shù)據(jù)提升語法錯(cuò)誤糾正效果

評(píng)論