双层动态图片保护Email地址

Email是最重要的通讯工具之一。滥发垃圾信息者会利用一切可能的通讯工具，把小广告送到你的手中。发送Email的成本极为低廉，使得Email倍受垃圾信息发送者的青睐。发送垃圾邮件的第一步，是收集足够多的有效电子邮件地址；而收集Email地址的方法，主要就是查询目录、使用网页爬虫两种。

通过查询目录收集Email地址，主要是查询各类电子黄页、网站备案资料、域名WHOIS信息等。例如WHOIS yoursunny.com，可以查询到域名注册者的Email地址（有些WHOIS结果页面会用各种方式保护Email地址，但大部分并不会进行保护）。根据规定，域名WHOIS信息必须包含有效的Email地址，因此规避这种收集的唯一方法是使用Private Domain Registration服务，令WHOIS信息中包含的Email地址不断变化。

使用网页爬虫收集Email地址，是指垃圾邮件发送者编写程序抓取互联网上的网页，在网页文本中提取形似Email地址的字符串。比如某网页包含了 someone@example.com 这个Email地址，爬虫程序抓取该网页时就可以用正则表达式找到这个地址。本文主要讨论针对这种收集方法的防范。

防范网页爬虫抓取Email地址的传统方法

使用变体Email地址

很多人不在网页上直接写出Email地址，而采取一些其他字串表达Email地址。比如：

替换符号： someone#example.com
使用全角： someone＠example.com
使用单词： someone AT example.com
使用中文： someone在example点com
文字表达： someone AT google的邮箱

这些字符替换的手段，破坏了Email地址的可读性，经验不足的用户会产生困惑。若在后面标上“请将#换成@”，又显得拖沓。“google的邮箱”这种表述，从未用过Gmail的用户根本无法理解。

另一方面，可以替换的文字也就这么几种。用的人多了，垃圾邮件发送者就会改进程序里的正则表达式，识别这些变体的Email地址。

function findVariantEmail(str) {
    var re=/([a-z0-9]+)(@|#|\s*AT\s*|＠|在)((?:[a-z0-9]+\.)+[a-z0-9]+)/;
    var m=str.match(re);
    if (m) return m[1]+'@'+m[3].replace(/点/g,'.');
    else return null;
}

我仅使用一个简单的脚本，就可以识别好几种变体：

替换符号： someone#example.com，识别结果：someone@example.com
使用全角： someone＠example.com，识别结果：someone@example.com
使用单词： someone AT example.com，识别结果：someone@example.com
使用中文： someone在example点com，识别结果：someone@example.com
文字表达： someone AT google的邮箱，未能识别

制作成图片

有人将Email地址制作成图片。例如：

网页HTML代码里没有包含这个Email地址，无法再使用字符串处理的方法取得这个Email地址。

但是，随着计算机处理速度越来越快，垃圾邮件发送者可以在程序中加入图像识别的功能。在已知这张图片是Email地址的情况下，程序可以自动下载这张图片，然后通过光学字符识别技术识别出上面的字串。

那么，下面这张图片怎么样呢？

使用了艺术字体，光学字符识别的难度增加了，可是读者要看清这个地址也会困难得多。防范垃圾邮件的同时，将正常用户拒之门外，这不是好办法。

JavaScript计算

阳光男孩的网上名片曾使用这样的方法：在页面上用JavaScript计算出Email地址。

网页上包含形如 suokmjezvoqnuektjezxvaqmupkljezdvcqoum 的字串，谁也不会认为这是一个Email地址吧？

只需一行JavaScript代码就可以解码成一个可读的Email地址：

str.replace(/[ukjzvq]/g,'').replace(/t/g,'@').replace(/d/g,'.');

suokmjezvoqnuektjezxvaqmupkljezdvcqoum => someone@example.com

这个方法我用了很长时间，一直觉得很完美——垃圾邮件发送者总不会来执行JavaScript吧？直到我在手机上用了一款软件，我才明白用JavaScript保护Email也是脆弱的。

这款令我心神不宁的软件叫做Opera Mini，它的原理是在Opera公司的服务器上运行许多个Opera浏览器内核，服务器上包含HTML解析、JavaScript引擎、DOM函数等现代浏览器应有的各种功能，手机端只用于输入命令、显示服务器上的网页执行结果。也就是说，我的JavaScript代码可以在Opera Mini的服务器上完整执行；同样的，垃圾邮件发送者也可以用类似的手段在服务器上执行JavaScript、取得执行结果，并从中找到Email地址。

双层图片保护Email

由上面的分析可见：

将Email地址写成变体，不利于读者的识别。采集程序可以在一定的限度内识别变体的Email地址，使得这种保护失效。
将Email地址做成一张图片，可以用光学字符识别技术采集到其中的Email地址。使用艺术字体可以增加采集难度，同时也加大了读者识别的难度。
用JavaScript计算生成Email地址的方法现在几乎没有保护作用，因为服务器上能够执行JavaScript。

因此，我设计了一种更好的方法，其特点是：

生成两张图片，分别包含Email地址的一部分。
单独使用任何一张图片，都无法看到完整的Email地址。
在浏览器中用CSS属性令两张图片重叠显示，叠加后能看到Email地址。

演示

下载示例源代码

原理

图片上的字符采用了4种不同的绘制方式：

绘制方式	下层图片绘制内容	上层图片绘制内容	效果
0	浅色背景，深色字符	透明背景
1	深色背景	浅色背景，透明字符
2	浅色背景	透明背景，深色字符
3	浅色背景，随机字符	浅色背景，深色字符

不论采取哪种绘制方式，在第一张图片上方叠加第二张图片的结果一定是浅色方块+深色字符。

当然，还有一些常规的抗机器识别特征：

“浅色”有多种随机的颜色，每个字符绘制时随机选取一种。
“深色”有多种随机的颜色，每个字符绘制时随机选取一种。
绘制一些随机的杂色干扰点。

改进方向

目前的双层图片保护Email地址方法中，使用两张图片、同一位置重叠，这是一种固定模式；采集程序可以识别这种模式，然后合并图片、运行光学字符识别。为了进一步增强双层图片保护Email地址的有效性，可以根据以下思路进行改进：

图片的层次数：可以重叠3层、4层或更多张图片。
重叠位置的变化：不在0,0位置重叠两张图片，而可以偏移一定的距离。
图片切块：将某一层图片切成几块，然后用CSS拼接起来。
字母切割：第一张图片绘制某字母的上半部分，第二张图片绘制下半部分。

源地址：双层动态图片保护Email地址 (yoursunny.com)

我的小站

欢迎访问本网站！富强，民主，文明，和谐；学习，工作，快乐，成长。

双层动态图片保护Email地址

防范网页爬虫抓取Email地址的传统方法

使用变体Email地址

制作成图片

JavaScript计算

双层图片保护Email

演示

原理

改进方向

相关文章

Jellyfin影视库名称显示或字幕乱码如何解决

飞牛NAS上的小雅根本没有资源？只剩下打赏码？解决方法

飞牛OS迅雷无法添加更改新的下载位置

关于飞牛系统应用中心Navidrome自定义文件夹的解决方法

NAS通过Alist挂载公共云盘并用WebDAV本地加载的注意事项

发表回复取消回复

防范网页爬虫抓取Email地址的传统方法

使用变体Email地址

制作成图片

JavaScript计算

双层图片保护Email

演示

原理

改进方向

相关文章

Jellyfin影视库名称显示或字幕乱码如何解决

飞牛NAS上的小雅根本没有资源？只剩下打赏码？解决方法

飞牛OS迅雷无法添加更改新的下载位置

关于飞牛系统应用中心Navidrome自定义文件夹的解决方法

NAS通过Alist挂载公共云盘并用WebDAV本地加载的注意事项

发表回复 取消回复

发表回复取消回复