VNR共享辞书指南SharedDictionaryTutorial
官⽹源地址:
优先进⼊官⽹看,官⽹不⾏再观看本⽂
因为VNR官⽹服务器维护或使⽤⼈太多导致崩溃常出现502错误,此帖⼦⽤来备份,官⽹地址若⽆法学习共享辞书教程,再到这观看即可。
SynCFG语法先去参考我过⼀阵⼦研究完再整合进本教程内,也就是说只要你还能看到这⾏字,就说明学习辞书要暂时配合那贴使⽤
备份地址:
★基础信息
编写⼈:najizhimo&djz020815
起稿⽇期:2015/02/06
修订⽇期:2015/06/06
★导语
本⽂主要介绍VNR中共享辞书的基本操作及编写注意事项。
⾯向⽇汉语⽔平不同的⼈分为基础教程、进阶教程以及断句教程,请根据符合⾃⼰⽔平的教程浏览。
对于不想编写共享词条的⽤户不需要观看本教程,共享辞书依旧会作⽤于你玩的所有GAL并辅助改善机翻质量。
★概念
共享辞书是由VNR提供的⼀个独⽴于所有翻译引擎之外的,主要针对⽇常形式多变的对话,以及特定GAL术语的⽤户⾃定义辞典。其作⽤于游戏中提取的⽂本、输⼊机器翻译引擎的内容、翻译的过程、以及翻译后即将显⽰在⽤户⾯前的语句等各⽅⾯的翻译⼯序,对机器翻译的改善起到了⾄关重要的作⽤。同时因为它的能⼒强⼤,因此需要⽤户在编写词条时谨慎择词,保证共享辞书能正确地实现⾃⼰的作⽤。
不过⽬前共享辞书系统本⾝还有不少BUG,参见(已不更新)
恢复BUG请到以下新地址回复(请先申请官⽹ID账号才能回复):
【词库更新(】jbeijing词库辞条征集与建议V2 ~OwO~
★Guidebook Multilingualization
Need MORE Translators~
start by icefire112233
start by mireado
★阅读注意
关于看不清的图⽚,右键图⽚选择查看图⽚就能放⼤了。
此外可以善⽤ctrl+F搜索需要的内容。
★更新信息
■2015/06/06
附录加⼊了SynCFG可填词性
■2015/05/05
增加了韩⽂版教程链接
■2015/04/09
于进阶教程内增加【读法】类型辞条的叙述
■2015/03/14
由于新增了SynCFG的语法,⼤幅修正了后缀相关内容
原[[N]]功能替换为SynCFG最常⽤的[[m]]语序调整介绍,更详细的SynCFG教程稍后开辟⼀个专门板块
■2015/03/11
[[N]]更名为[[m]]
增加边界功能的注意事项。
■2015/03/04
更新断句教程内的断句符判定信息
■2015/02/22
前⾔加⼊共享辞书BUG链接
前⾔加⼊英⽂版链接
补充\功能⾥的注意事项
■2015/02/20
更新了断句教程的⼀些注意事项
■2015/02/17
附录加⼊常⽤的特殊字符输⼊⽅式
■2015/02/15
加⼊独⽴断句教程;
加⼊HTML转义字符介绍;
扩充⼈名类型相关的信息;
补充边界的例⼦;
下载翻译器英文翻中文
附录加⼊常⽤HTML转义字符表;
更新排版;
■2015/02/13
加⼊【前缀】类型的介绍;
加⼊[[N]]功能的介绍;
加⼊边界选项的介绍;
基础教程
★事前准备:
1、于VNR的使⽤偏好内下载MeCab辞书并启⽤,此外从别的渠道下载微软⽇⽂输⼊法Windows Japanese IME并设定好路径,这两个软件能有效辅助⽇语分词,⽅便⽤户直观地添加需要的词条。
2、于使⽤偏好的国际化选项内屏蔽中⽂以外的所有语⾔,因为这会影响到共享辞书的下载范围。
3、⽬前所有⽇中翻译引擎内对JBeijing7的修正以及共享词条的数量都处于压倒性优势,请尽量使⽤JBeijing7软件来进⾏游戏翻译。机器翻译引擎⼀般只需要1个,多余的机器翻译反⽽会影响理解。
4、于游戏内的左侧⾯板开启游戏⽂本,这会显⽰提取的⽇⽂原⽂,对于基础⽤户,添加共享辞条的途径就在这⾥。
★编写前的注意事项:
1、共享辞书并不需要时刻都写,只是看到有问题的语句时就顺⼿添加⼀下,请抱着轻松游戏的⼼情就好。
2、⼀般来说需要添加的词条仅限于名词,即⼈名、作品中的专⽤术语、地名等等,这些普遍是机翻难以处理的项⽬。⽽名词以外的,如动词、助词、短语等等的若要添加则务必学习进阶教程。
3、切勿添加已有的词条,觉得以前的词条不恰当的话则先要⽆效该词条,并写上修改建议。
4、⾮特殊情况不要添加空格以及任何标点符号。
5、长句翻译请写在字幕系统内,那不是共享辞书的范畴。
■案例1:⼈名词条
如图本⾝⼈名的まどか并⽆法被正确翻译,这⾥我们将⿏标移到原⽂
会看到⽇⽂语句经过分词辞书的处理,⽤不同⾊块标注了出来,对まどか点击⿏标右键
点击添加到共享辞书,系统就会⾃动打开词条添加窗⼝并将该分词(⾊块内的内容)复制到形态⾥
在确认类型⽆误后(翻译器不需要动),且勾选了系列专⽤后,在翻译⼀栏⾥填⼊合适的词,如“圆⾹”,然后提交即可成功添加词条。此后游戏内出现的所有まどか都会被⾃动翻译为圆⾹。
★关于添加【⼈名】类型词条的注意事项:
1、对于姓名,如“涼宮春⽇”,那么需要将姓的“涼宮”和名的“春⽇”分开,各添加⼀个词条,因为经常会只⽤姓、或名来称呼某⼈。⽽John?Smith这种中间带了分隔点的也⼀样,John和Smith分别添加⼀个即可。
2、对于单字⼈名的添加,如“咲”,若单纯添加【咲→咲】的词条的话,就会影响如“咲け、咲い、咲く”等较为常⽤的词语,正确的添加⽅式需要学习进阶教程内的正则表达以及边界选项。
★【前缀】【后缀】类型辞条的连协:
添加了⼈名词条不单⽌能让机翻可以识别⽣疏的名字,还能让共享辞书内的所有⽤于处理【⼈名】的后接词的【前缀】【后缀】词条⽣效,例如“悠クン”中的クン(君)就会因为识别了“悠”属于⼈名,⽽让クン译为了君。
★【翻译】类型辞条的添加:
不属于⼈名的其它名词或短语则需要在词条添加窗⼝的类型⾥改为【翻译】,其余的道理同案例1。
★系列专⽤的基本认识:
从案例1⾥可以看到词条添加窗⼝内有【系列专⽤】的标识,该选项的意义即设定本词条是否只应⽤于该作品内。那么哪些名词适合【⾮系列专⽤】呢,即现实存在的术语、历史名⼈、书籍、地名等等。
进阶教程
★事前准备:
如果你确定要学习辞书的进阶教程,则必须切实带上⼀颗负责任的⼼,进阶的辞书编写将会很⼤程度地影响某个游戏的机翻质量,甚⾄整个翻译引擎的润⾊质量。
以下教程需要⽤户拥有扎实的⽇语及汉语基础,以及对共享辞书和翻译引擎的⼯作过程了解透彻。
在编写过程中务必时刻开启VNR的测试机器翻译窗⼝来检测⾃⼰的词条是否正确。特别是⾮名词类、以及带正则的辞条。
★关于【正则表达】、【宏】、【HTML转义字符】的基础知识:
这3个都是很基础的计算机术语了,详细的介绍可以⾃⾏查看各类百科。
这⾥简单地⼀提就是正则表达⽤于⼀些逻辑判断,⽽宏是复合型的正则表达,⽅便书写⽤,HTML转义字符则⽤来添加⼀些会被识别为辨识符的符号。正则、宏、HTML转义字符能同时使⽤。正则和宏若要⽣效则需要勾选辞条窗⼝中的“正则表达”,此时辞条会被加粗来标识。注意HTML转义字符是不需要勾选正则表达的。
⽂章末尾附录带有常⽤的正则表达、HTML转义字符列表。宏则可以通过辞书中的宏类别直接查看。
★运⽤正则表达及⽂本宏辅助编写
■案例1:单字、2(3)个⽚假以内的⼈名
咲(?![けいく]) → 咲
如基础教程所提到的“咲”,需要根据特定的游戏设计⼀个专门的排除表,在攻略中不断添加新的筛选项。
⽤正则排除了各种花开的词组如咲け、咲い、咲く,咲辞条不会捕捉这3个被正则排出掉的情况。
需要查看下⽂的边界选项配合编写事半功倍。注意短平假名构成的⼈名是要切实地写正则筛选列表,⽽不能⽤边界选项。
需要查看下⽂的边界选项配合编写事半功倍。注意短平假名构成的⼈名是要切实地写正则筛选列表,⽽不能⽤边界选项。
■案例2:短句翻译
对于⼀些⽇常对话频繁出现的短句,适合使⽤【翻译】类型辞条来定型。然⽽由于在⽇常对话中经常出现平⽚假名和汉字的随意置换、助词、省略语的影响,并没有特别固定的书写⽅法,此时就要判断多种表达⽅式。
通过使⽤正则将汉字、平假写法均包括在形态中,并且包含了3种助词,以及不包含助词的情况。
■案例3:语⽓词
这种东西加起来是最繁琐的,该例⼦⾸先使⽤⼀个{{boc}}和{{eoc}}的宏将该形态独⽴起来,这使得该辞条只会作⽤于单句,即整个句⼦都是⽤来表达“呼”的内容的情况,避免其它冲突。然后通过添加⼤量可能附着的发声词,延长符,促⾳等等来完成。⽽且由于考虑到会出现多个呼的情况,于是⽤了2个辞条来分别处理。⾄于如果出现2字的呼呼怎么办,2字以上的都⽤3个字的呼来表⽰多数。
对于短句和语⽓词翻译的添加特别需要注意的是由于这种辞条的书写可能性会⾮常多,因此需要长时间的修正,也因为这个原因可能很多前⼈已经在写该翻译的正则辞条了,只是还没包含你遇到的情况,因此在准备添加之前先在共享辞书内搜索相关的中⽂翻译,查看是否已有该类型辞条,若有则在更新原因内添加修改建议,这样会⽅便辞书的整体管理。
★测试机器翻译窗⼝介绍:
该图能很直观地表达各类型共享辞条的实⾏步骤。即翻译引擎和VNR配合的完整翻译流程。这对于添加共享辞书是⾄关重要的信息。
其实测试机器翻译窗⼝上⾯的⿊⾊字已经是介绍了,为了更简明化,分别标上了附注。注意窗⼝之间
的箭头,表⽰处理顺序。
可以看到仅仅只有第7步是由JBeijing翻译引擎来处理,其它步骤都可以通过独⽴于翻译引擎以外的共享辞书来修正,由此可见若共享辞条写得好,会极⼤地提升⽂本润⾊质量。
记得顶部的翻译器要正确选择J北京,不要测了其它的翻译器了。
若想加⼊辞书⼤军的话请保持你的机器翻译窗⼝常驻!
★常⽤的词条类型及语⾔的选择:
⼀、【翻译】
顾名思义就是⽇⽂→你想要翻译的语⾔来进⾏翻译了。
⼀般会⽤到的情况:
1、外来语,这个JBeijing实在是很弱。然⽽对于⼀些切实是在念英⽂的,请翻译为英⽂,尽管辞条语⾔是设置为中⽂。
2、⼀些常⽤短语及熟语,这个得注意后⾯的「な」「か」「だ」「て」「で」等,需多考虑些情况再
加。
该类型会影响句⼦的语序。
⼆、【⼈名】
原理同【翻译】,只是多了可以与【前缀】【后缀】词条之间进⾏联动翻译。
⼀般都是设【系列专⽤】的,详情见“专⽤和⾮专⽤的设定”的【⼈名】部分。
该类型会影响句⼦的语序。
三、【前缀】【后缀】
只会与【⼈名】词条进⾏联动翻译,其他情况下是⽆效的。即识别⼈名前⽅和后⽅的⽂本来紧贴⼈名翻译。
该类型不会影响句⼦的语序。
四、【输⼊】
可以把⼀些不能翻译平⽚假名还原成能翻译的,和修正⼀些分词之类的错误。前者语⾔选【全部】后者选【中⽂】即可。
该类型不会影响句⼦的语序。
五、【输出】
⽤于修正⼀些繁琐的词或是改善翻译的语序,详情见“输出词条案例”。
该类型不会影响句⼦的语序。
六、【游戏】
这是⽤在“游戏提取并显⽰出来的⽂本”上的,主要⽤于删除游戏提取的⽇⽂⽂本中存在的垃圾信息,以及“去除重复⽂本”和“调换⼈名与正⽂的顺序”。语⾔⼀定是选择【全部】。
该类型不会影响句⼦的语序。
七、【读法】
该类型辞条是进化版的【⼈名】类型辞条,可以在执⾏⼈名翻译的同时附带读⾳标记、全语⾔兼容等
功能,然⽽⽬前暂时只能⽤在汉字⼈名上,对平⽚假⼈名⽆效。添加⽅式是在VNR的游戏情报窗⼝左下⾓点击“导⼊⼈名”,再点击相应的读法来添加⼊辞书。和【⼈名】⼀样,姓和名需要分开添加。语⾔⼀定是选择【全部】。
■案例4:输⼊词条
输⼊词条可以让⼀些原本因为书写问题不能被识别的词变得能被翻译引擎翻译,还有就是修正⼀些因分词和缺少助词(太过⼝语化)的错误。由于该类型不会影响句⼦语序,所以⽐起【翻译】来说,能尽量写【输⼊】的话效果会更好。输⼊辞条形态和翻译双⽅都只允许填写⽇⽂。平假的「りょうほう」→「両⽅」
和⽚假的「ぷらとにっく」→「プラトニック」
还有多了「っ」「ッ」的平⽚假,如「スペッシャル」→「スペシャル」
简写的词条
需要严格替换的
平⽚假组合及有⽆助词的
缺助词出错的可以看情况加上去,⾄于分词出错的请回复到,这是⽐较头疼的⼀部分,需要JBeijing词库和VNR共享辞书之间的配合,虽然基本上已经不会出现了。
■案例5:输出词条
输出词条可以修正⼀些繁琐的词或是改善翻译的语序。⽽且因为该类型不会影响翻译时的语序,在整句翻译语序⾮常妥当的时候⽤该类型的辞条要好于【翻译】类型的辞条。输出辞条形态和翻译双⽅都只允许填写中⽂。
「炒⼦」JBeijing翻译为“煮熟晒⼲的⼩沙丁鱼”⽐较烦,所以可以直接⽤【输出】翻译成“沙丁鱼⼲”
各种“挂上(放上)”也可以⽤【输出】翻译掉,如「ちょっかいをかける」JBeijing的翻译
改善翻译的语序,像JBeijing翻译「何やってんだ」这类的
因各种因素⽽出现的罗马⾳
对于输出辞条最后记得要在评论栏⾥填上词条的原⽂,⽅便记录和修改。
★【输⼊】和【输出】类型的专⽤⼤杀器“\”
\+数字的作⽤是映射形态⾥的⼩括号⾥的内容,\1映射第1个⼩括号,\2映射第2个以此类推,该功能只能作⽤于【输⼊】和【输出】辞条。需要开启正则表达。
注意若括号内采⽤了?:正则那么\是不能映射该括号的
■案例6:更改翻译的同时替换语序
如SF类⾥经常出现属性之⽉,这个输出辞条将后⼀个括号⾥的内容前移,避免中断属性之⽉的翻译。
★SynCFG常⽤⼈名语序调整符号“[[m]]”
★【前缀】【后缀】类型的专⽤⼤杀器“[[N]]”
该功能可以调整【前缀】【后缀】翻译的⽂本对于⼈名的位置。只能作⽤于【前缀】【后缀】辞条。不需要开启正则表达。
[[N]]映射所附着的⼈名。
■案例7:通过[[N]]替换语序
如:(这仅仅是个例⼦!)类型为【后缀】
「ばか」→「笨蛋[[N]]」
那么「キョンばか」就会被译为「笨蛋阿虚」
⼜如:类型为【前缀】
「ミス」→「[[N]]⼩」
那么「ミス⾧⾨」就会被译为「长门⼩」
★辞条的“边界”选项
该功能的作⽤是将落单的单字⼈名在不需要加正则筛选列表的前提下正确翻译。该功能只能作⽤于【⼈名】类型。
该功能只适合单字、2(3)个⽚假以内的⼈名,完全不适⽤于短平假⼈名,短平假⼈名需要只⽤正则列筛选表。
如开启了边界选项的「愛」→「爱」
那么对于“愛情、恋愛”等词组就不会被单独拆开。
然⽽对于“愛しさ”等⾮同⼀字符态的词语,边界则会误伤。
也就是说开启边界的「爱」等价于「{{?<!kanji}}愛{{?!kanji}}(视GAL不同可以再加⼀⼤堆筛选列表)」,可以较为⽅便的添加单字⼈名,然⽽识别范围只依赖于Mecab,最完美的判断⽅式依旧是配合正则表达。
■案例8:边界配合正则快速完成⼈名辞条
当然じ也不是唯⼀要筛的,主要还是根据所玩GAL的范围来推断要添加的筛选项。
★专⽤和⾮专⽤的设定:
需要设“系列专⽤”:
所有【游戏】类型
【⼈名】
1、游戏内平⽚假⼈名。
2、单汉字。
3、与原本意思或其他名词有冲突的⼈名。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。