PDF文档的翻译
由于PDF文件的广泛使用性以及它不同于WORD及其他文件格式的特性,使得PDF文件的翻译在本地化翻译探讨中受到比较大的关注。“怎样以尽可能少的时间有效地本地化PDF文件”一直是一个难题。
PDF文件分为两种,一种是通过文本文件生成,其中也可能会包含图片,另一种是通过图像文件生成。前者可以选取文件中的字符进行编辑,后者只能浏览,进行一些图片性质的操作,不可以修改文字。
生成PDF文档的方式有很多种,可以购买专门的制作软件,其中Abode Acrobat最专业。
也可以使用Foxit PDF Creator等等。最简单的方法是在Word2007或者OpenOffice 中直接生成PDF。
翻译PDF文件涉及以下几方面的内容:
一、安全性限制问题
对PDF操作往往涉及到一个问题:PDF的安全性限制。
一般而言,PDF文件有其自身的安全证书,如果要对其进行编辑和操作,必须拥有相应的权限。
实例方法可以由类和对象调用正确吗通常,本地化公司的标准流程是由客户提供源文件(见表1),通过本地化工程处理工具和DTP 工具处
理,然后再生成PDF。
表1
客户可能提供的源文件类型①
DTP文档类型
.fm.bk .book,.mif
frameMaker
.sgm .sgml .xml
framemaker + SGML Epic Editor Advent 3B2
.htm .html asp .aspx…. DreamWeaver FrontPage
.qxd
QuarkXPress
.
pm6 .p65.pmd
PageMaker
.indd .indb
InDesign
文件格式转换app.doc rtf
Ms word
.xtg
QuarkXPress 导出的带标签格式的文本.ttx
stata圣诞树代码Trados Tageditor
.isc
python与人工智能编程Trados Story Collector for InDesign 图形图像
.
ai .eps
Illustrator
.cdr
CorelDraw
.fh8 .fh9
Freehand
.psd
Photoshop
.jpg .gif .png .bmp .svg .wmf .pict .Tiff
Photoshop or other
但在源文件不能获得的情况下,可以采用下列方法处理有安全性限制的PDF:
在Adobe Acrobat中打开该文件,然后通过路径(“文件” / “属性” / “安全性”),使用密码去除安全性限制。
或者也可以使用PDF解密工具去除限制,例如PDF Decrypter。
当删除了安全方面的限制之后,或者文件并没有任何限制,可以通过 ( “文件”/ “另存为” )把PDF文件另存为DOC 或 RTF格式,
或者从(“文件” / “导出”),选择WORD文档或RTF格式。这两种方式得出的DOC 或RTF 文件区别不大。
二、PDF格式转换
现在还不能直接翻译PDF文件。通常需要把PDF文件转换为其他格式,例如DOC 或RTF。重点在于尽可能的保留原文的格式,排版以及图片。下面比较几种工具各自的识别并转换PDF 格式的优缺点:
1)Adobe Acrobat
使用完整版本的Adobe Acrobat,把PDF格式转成DOC 或RTF格式。非完整版本的Adobe Acrobat只能另存为TXT格式。由于PDF文件一般都包括文本样式及图片,所以如果存为TXT 格式,将丢失大量样式信息,所以最好不要转换为TXT格式。
运用此方法得出的RTF或DOC的文件,页面的顺序有可能不一致,例如,最后一页被置于第一页。有些文本会被识别为图片;识别出的图片会出现错误,多出很多空白页,布局不紧密; 原文的图片与文本的布局会出现错误,需要大量的后期排版工作。总的来说,对于纯文本的PDF 文件,这个方法简单方便,而且错误较少,但对于具有图片的PDF文件,这个方法得出的RTF 或DOC的文件质量非常低,造成较大的内容调整和页面排版工作。
2)ABBYY FineReader
首先选择识别语言,打开PDF文件,选择保存文件的类型为DOC 或 RTF。
擦车拖把此时还有四个选项供选择:精确复本、可编辑的复本、带格式文本和纯文本。
精确复本得出的文件中的文本是以文本框形式存在。
这种形式会给翻译阶段使用Trados带来一点麻烦,即当一个文本框中的内容翻译结束、进入下一个文本框时,会出现错误。
此时最好手动把光标放入到下一个文本框的文本处,再使用Trados的“打开/获取”。
同时,精确复本也不能完全保证图像的完好无损。
可编辑的复本去掉了精确复本中的文本框,避免了精确复本的问题,但是有些文档会识别出很多的换行符。可以在WORD中采用(“编辑”/“替换”/“高级”/“特殊字符”)里面选择“手动换行符”,查内容的框里就出现了“^l”,然后在替换内容中不输入(如果文档是中文)或者输入一个空格(如果文档是英文),这样文档中的换行符就可以全部去掉了。对于Trados 文档可以不去掉换行符,因为Trados“打开/获取”时,是按句获取,换行符没有影响。
带格式文本中完全去掉了图像。但能够识别出可编辑的复本中不能识别的一些带背景的文字。
一般不选用纯文本格式。
对于图像,ABBYYFineReader
允许用户手动调整识别图像的大小,因为自动识别出的图像有些不完整。用户可以根据需要,删除图像。
3)OCR软件
OCR软件可以把纸质文件识别为电子文档。如果客户提供的PDF文件为纸质,就必须使用OCR 软件。
国内的OCR软件有尚书、汉王和紫光等。国外的OCR软件有Cuneiform、OmniPage、ScansoftPaperPort等。通常,OCR软件支持的文件格式为图像格式,所以如果电子文档为非图像格式,必须先获取图像。再经过识别后,把以尚书七号为例,支持的格式为bmp、tif、jpg。对于非图像格式文件,必须先转为bmp、tif、jpg这三种格式之一。可以采用的方法有:a)使用屏幕捕捉软件获取图像,
例如红蜻蜓抓图精灵。b)在PDF中,打开“文件”→“打印…”,选择
“Microsoft Office Document Image Printer”
打印机,打开“属性”→“高级”,输出格式选择tif。
总体说来,OCR软件用处理纸质PDF文件提供了方便。但OCR软件的识别效果不是很好,容易出现错误。电子文档的获取图像环节增加了工作量,而且图像获取的质量直接关系到识别的效果。
4)SolidConverter PDF
Solid Converter PDF支持创建PDF,能够把PDF转成其他的格式,包括:DOC、RTF、xml、XLS、TXT。SolidConverter PDF识别出的效果比ABBYY FineReader
还要好。不仅完整的保留了文本的所有格式,且页面的排版也与原来PDF的排版一致。很少有手动换行符。有些不好的地方是,原文页眉部分的图片被识别成了页眉,颜受到了影响,得通过译后处理进行调整。但是,比起其他软件,Solid Converter PDF的效果可以被称为“优秀”了,大大节省了翻译前处理和后期排版所需要的工作量和时间。
图像识别上也比ABBYY FineReader好很多,几乎没有错误!最重要的是,它能把图像识别为可编辑的模式,也就是当一个图片可以分割为几个部分时,它识别出的图片的这几个部分是组合在一起的,可以根据需要去掉不需要的部分。
但是因为这个功能,Solid Converter PDF的另一个功能“提取PDF中的所有图片”在提取时,得出的图片是原来图片的组成部分,当然不能分割的图片得出的是完整的图片。
Solid Converter PDF还有一个特别之处在于,图片中的文字可被识别为可编辑,即直接修改图片中的文字,
而不必使用Photoshop 等软件。
但是有些不方便的地方是,当PDF文件没有被识别为DOC导出,还在Solid Converter PDF 程序中时,是不能以其他语言更改图片文字的。例如,语言的的“文本更正”功能在原文为英文的PDF中只能写入英
java开发工具包jdk包括
文,而不能直接写入对应的中文,也说是只能检察原文有没有错误,而不能实现本地化的目的。不知道这是Solid Converter PDF 不持这个功能,还是PDF编码格式的问题。但是,这个问题的一个解决方案是,先在Solid Converter PDF中去掉PDF图片中的文字,在导出为DOC格式之后,再添加本地化文字。
5)其他的PDF文件转换工具
PDF转WORD的小工具有很多,但大多效果不太好。例如,PDF2Word,它识别出的文本位于文

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。