多管齐下复制网页内容时去除多余字符
作者:俞木发
来源:《电脑爱好者》2021年第05期
作者:俞木发
来源:《电脑爱好者》2021年第05期
tampermonkey 类似从百度知道中复制网页内容时出现的多余字符,其实是网站设置的一些代码,增加的这些看似“多余”的字符,是制作者不希望读者直接引用该内容,因此这些复制的内容只适合作为个人的参考资料,不适合发表。我们在使用时需要注意这个问题。
这些代码不会在正常的网页中显示其内容,但复制粘贴后会显露出来。比如图1的例子,在网页中右击并选择“查看网页源代码”,在打开的页面中就可以看到在“简单”和“来说”之间有段代码,属性值是“hidden”(即隐藏),代码是“2112”(对应“bai”),这些代码所对应的内容会在粘贴为文本形式后自动显示(图2)。
既然多余字符是由于网页中的代码导致的,如果要解决这个问题,我们就需要根据不同
的需求对代码进行处理。
方法1:使用浏览器组件屏蔽代码
现在很多浏览器都有“沉浸式阅读器”,在这个模式下会自动屏蔽上述代码。以在新核心的Edge中复制知乎页面的内容为例,当我们在页面上直接复制文本后,粘贴的文本没有换行格式,而且会在内容的最后自动加上版权字段。如果在打开的页面中点击地址栏后的“沉浸式阅读器”按钮,进入该模式后再进行复制,粘贴后就不会有这些字符了(图3)。
如果网页(如上述的百度知道页面)不支持“沉浸式阅读器”,我們还可以在网页中按下“Ctrl+A”组合键全选内容(或者使用鼠标选中需要复制的内容),接着在网页中右击并选择“在沉浸式阅读器中打开”,手动设置网页使用沉浸式阅读器浏览(图4)。
此外,我们还可以使用打印模式进行复制,依次点击Edge浏览器右上角的“…→打印”,接着在打开的打印窗口中进行文章的复制即可(在这个页面中也会自动屏蔽上述代码)(图5)。
方法2:使用插件自动去除代码
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论