nodejs简单实现中英文翻译--688IT编程网

nodejs简单实现中英⽂翻译

帮以前同事解决⼀个需求，中⽂项⽬翻译英⽂项⽬~~~

考虑到具体实现⽅⾯的问题，如果智能的话，肯定是要做中⽂的语法分析，不过感觉这个有难度。

所以最后的⽅案是遍历⽂件，将中⽂短语匹配出来，再进⾏⼈⼯翻译，将中⽂短语替换成翻译的内容。当然后期还是需要⼈⼯再检验下，毕竟代码中的中⽂，可能会影响到相关的程序。

这个问题，明显涉及到多线程，⽂件读写，第⼀时间就想到的是 nodejs，虽然nodejs是⼀个主线程，但是异步⽂件读写，事件响应机制，肯定

也是调⽤了线程，在实际编程的时候不需要考虑线程的相关的问题。

代码不复杂如下，写完了之后，适当的封装了下

var fs = require('fs');

var http = require('http');

var filePath = 'D:\\WORK_new\\';

var logPath = 'D:\\chinese.log';

var map = {};

var num = 0;

var dictionary = (function () {

var map = {};

return {

logPath: 'D:\\chinese.log',

set: function (key, val) {

map[key] = val || '';

get: function (key) {

return map[key]||'';

save2File: function () {

fs.writeFile(this.logPath, JSON.stringify(map).replace(/","/g,'",\r\n"'),{encoding:'utf8',flag:'w'}, function (err) {

if (err) throw err;

});

loadFile: function (callback) {

map = JSON.parse(data);

callback();

})

translateByGoogle: function (callback) {

var index = 0;

for (var key in map) {

if (map[key] == '') {

index++;

(function (key) {

<("le/translate_a/t?client=t&hl=zh-CN&sl=zh-CN&tl=en&ie=UTF-8&oe=UTF-8&oc=2&otf=1&ssel=3&tsel=6&sc=2&q="+key, function(res) { res.setEncoding('utf8');

var body = "";

<('data', function (chunk) {

body+=chunk;

}).on('end', function (){

var obj = eval('('+body+')');

map[key] = obj[0][0][0];

index--;

if (index == 0) {

callback();

}javascript是什么意思中文翻译

});

}).on('error', function(e) {

console.log('http error');

index--;

if (index == 0) {

callback();

}

console.log("Got error: " + e.message);

});

})(key);

}

})();

function File () {

var index = 0;

var _readFile = function (pathStr, fileBack, doneBack) {

index--;

if (err) {

data = "";

console.log(err,pathStr)

//throw err;

}

fileBack(data,pathStr);

if (index == 0) {

doneBack();

}

});

};

var _walkDir = function (pathStr, fileBack, doneBack) {

files.forEach(function (file) {

if(fs.statSync(pathStr + '/' + file).isDirectory()){

_walkDir(pathStr + '/' + file, fileBack, doneBack);

} else {

if (/.js$|.html$|.htm$|.jsp$/.test(file)){

index ++;

_readFile(pathStr + '/' + file, fileBack, doneBack);

}

return;

}

});

}

this.walkDir = function (pathStr, fileBack, doneBack) {

index = 0;

_walkDir(pathStr, fileBack, doneBack);

}

//第⼀步获取中⽂

dictionary.logPath = logPath;

new File().walkDir(filePath, function (data) {

if (!!data) {

var match = data.match(/[\u4e00-\u9faf]+/g);

if (!!match) {

match.forEach(function (mat) {

dictionary.set(mat);

})

}

}, function () {

console.log('获取中⽂ OK');

dictionary.save2File();

})

//第⼆步 google翻译

dictionary.loadFile(function () {

dictionary.save2File();

})

});

//第三步中⽂替换

dictionary.loadFile(function () {

new File().walkDir(filePath, function (data,pathStr) {

fs.writeFile(pathStr, place(/[\u4e00-\u9faf]+/g, function (ch) {

(ch);

}),{encoding:'ascii',flag:'w'}, function (err) {

if (err) throw err;

});

}, function () {

console.log('中⽂替换 OK');

})

});

问题还是有的

2.效率上⾯可能可以再通过线程进⾏优化，这块没做深⼊的考虑

3.匹配出来，可能有单个的标点符号的短语等情况，需要⼈⼯排查

实际情况中，⽂件是GBK的，还有些⽂件是utf8的，后来还是考虑通过脚本语⾔快⼿实现的时候，

1.⽂件编码的问题，判断通过搜索

判断⽂件⾸位3个字节是不是 ef bb bf，但是这个只是针对有BOM的utf8格式

对⽆BOM的utf8格式，需要进⾏字节特征码的判断（有难度，精⼒有限，使⽤了上⾯的⽅案，对于⽆BOM的情况，进⾏⼈⼯排查）。

2.因为快⼿多线程⽅便编程很简单，⼀直以为多线程肯定⽐单线程效率要好。实际情况却和想的不⼀样，单线程的⽐多线程的快多了。看来主要瓶颈还是在读写⽂件IO上⾯。

以上所述就是本⽂全部内容了，希望⼤家能够喜欢。

688IT编程网

nodejs简单实现中英文翻译

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

nodejs简单实现中英文翻译

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式