中文平行语料库
机器翻译需要的平行语料库一库难求,笔者列举了一些免费的中文数据集,可用于中文和其他语言之间的机器翻译。
1.汉英10000平行语料库    www.datatang/data/14779
10000句对规模的英汉双语句对齐语料库,已经做了分词和句子对齐。
2.汉英22万句对法律类句子对齐语料    www.datatang/data/14261
22万句对规模的英汉法律类双语句对齐语料。缺点是没有做分词和语言对的对齐,还得做预处理
3.汉英双语句对齐语料库(1500句对)    www.datatang/data/13290
1500句对规模的英汉双语句对齐语料库。缺点是没有做分词和语言对的对齐,还得做预处理
4.最大开放字幕库OpenSubtitles的多语言平行语料数据
    www.datatang/data/14469
是全球最大的开放字幕库,提供了中文、英文、日文、德文、法文等30多种语言的上亿条电影和电视剧字幕。本数据集是根据该网站数据制作的多语言字幕平行语料库,包含30种语言中任意两种语言之间的字幕互译语料。是用于机器翻译研究的绝佳素材。数据量也足够大,压缩后还有2.38G
5.PHP手册的多语言平行语料库    www.datatang/data/15045
将PHP手册内容制作了一个包含21国语言的平行语料库。语料库已经被分词,每个语言对都被对齐。数据量压缩后有278M
php手册官方中文版
6.KDE手册的多语言平行语料库    www.datatang/data/15025
将KDE手册内容制作成一个包含24国语言的平行语料库。语料库已经被分词,每个语言对都被对齐。数据量压缩后有88M

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。