0%

网络爬虫逆向(百度翻译)

目标网址:https://fanyi.baidu.com/

目标:获取百度翻译API接口,并使用接口去翻译自己的文本内容。

image-20230424164151663

网页分析

打开网页,按F12进入开发者工具,然后在翻译框中输入今天是天气真好。(可以自行替换翻译语句)

在网络中就会出现大量的数据包。

image-20230424171958075

经过分析发现,数据包v2transapi?from=zh&to=en为我们想要的目标数据包,翻译的结果就是由该数据包返回。

image-20230424172156600

接下来查看该数据包的标头。

image-20230424172250941

可以看到该数据包的请求网址和请求方法为:

继续查看该数据包的载荷

image-20230424172941980

该数据包表单数据内容较多,为了能够分析出哪些参数是固定值,哪些参数是变化的我们需要刷新该网页再次查看其载荷,观察两次参数前后变化情况。

image-20230424173322672

经过对比发现只有sign参数是不一致的。

接下来只需要找到sign参数的生成规则即可。

复制API地址进行全局搜索。

image-20230424173446159

发现只有一个JS文件中包含该字段,右键该JS文件选择在来源面板中打开。

image-20230424173529045

然后搜索sign,找到单独出现的sign,并为其打上断点。

image-20230424173658013

image-20230424173719826

image-20230424173755448

image-20230424173810020

一共打了4个断点,然后刷新网页开始调试。

image-20230424173902130

image-20230424174147393

很幸运我们第一次调试就找到了目标位置,这里的e的值即为我们要翻译的句子,这个文字内容作用在了b函数上。进行单步调试让其运行b函数。

image-20230424174222831

进行单步调试后就可以看到sign的值已经生成,使用的就是b函数。

接下来查看b函数内容。

image-20230424174348563

b函数内容扣出来,放入JS文件中,注意需要将其改写为正常函数。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47

function exports(t) {
var o, i = t.match(/[\uD800-\uDBFF][\uDC00-\uDFFF]/g);
if (null === i) {
var a = t.length;
a > 30 && (t = "".concat(t.substr(0, 10)).concat(t.substr(Math.floor(a / 2) - 5, 10)).concat(t.substr(-10, 10)))
} else {
for (var s = t.split(/[\uD800-\uDBFF][\uDC00-\uDFFF]/), c = 0, l = s.length, u = []; c < l; c++)
"" !== s[c] && u.push.apply(u, function (t) {
if (Array.isArray(t))
return e(t)
}(o = s[c].split("")) || function (t) {
if ("undefined" != typeof Symbol && null != t[Symbol.iterator] || null != t["@@iterator"])
return Array.from(t)
}(o) || function (t, n) {
if (t) {
if ("string" == typeof t)
return e(t, n);
var r = Object.prototype.toString.call(t).slice(8, -1);
return "Object" === r && t.constructor && (r = t.constructor.name),
"Map" === r || "Set" === r ? Array.from(t) : "Arguments" === r || /^(?:Ui|I)nt(?:8|16|32)(?:Clamped)?Array$/.test(r) ? e(t, n) : void 0
}
}(o) || function () {
throw new TypeError("Invalid attempt to spread non-iterable instance.\nIn order to be iterable, non-array objects must have a [Symbol.iterator]() method.")
}()),
c !== l - 1 && u.push(i[c]);
var p = u.length;
p > 30 && (t = u.slice(0, 10).join("") + u.slice(Math.floor(p / 2) - 5, Math.floor(p / 2) + 5).join("") + u.slice(-10).join(""))
}
for (var d = "".concat(String.fromCharCode(103)).concat(String.fromCharCode(116)).concat(String.fromCharCode(107)), h = ["320305", "131321201"], f = Number(h[0]) || 0, m = Number(h[1]) || 0, g = [], y = 0, v = 0; v < t.length; v++) {
var _ = t.charCodeAt(v);
_ < 128 ? g[y++] = _ : (_ < 2048 ? g[y++] = _ >> 6 | 192 : (55296 == (64512 & _) && v + 1 < t.length && 56320 == (64512 & t.charCodeAt(v + 1)) ? (_ = 65536 + ((1023 & _) << 10) + (1023 & t.charCodeAt(++v)),
g[y++] = _ >> 18 | 240,
g[y++] = _ >> 12 & 63 | 128) : g[y++] = _ >> 12 | 224,
g[y++] = _ >> 6 & 63 | 128),
g[y++] = 63 & _ | 128)
}
for (var b = f, w = "".concat(String.fromCharCode(43)).concat(String.fromCharCode(45)).concat(String.fromCharCode(97)) + "".concat(String.fromCharCode(94)).concat(String.fromCharCode(43)).concat(String.fromCharCode(54)), k = "".concat(String.fromCharCode(43)).concat(String.fromCharCode(45)).concat(String.fromCharCode(51)) + "".concat(String.fromCharCode(94)).concat(String.fromCharCode(43)).concat(String.fromCharCode(98)) + "".concat(String.fromCharCode(43)).concat(String.fromCharCode(45)).concat(String.fromCharCode(102)), x = 0; x < g.length; x++)
b = n(b += g[x], w);
return b = n(b, k),
(b ^= m) < 0 && (b = 2147483648 + (2147483647 & b)),
"".concat((b %= 1e6).toString(), ".").concat(b ^ f)
}


data = "你说今天的天气好不好?"
console.log(exports(data))

运行JS文件。

image-20230424174524641

发现缺少变量n,再次回到源代码,找到变量n

image-20230424174956486

变量n为一个函数,如下所示。

image-20230424175008121

将其扣出来也放入JS文件。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
function n(t, e) {
for (var n = 0; n < e.length - 2; n += 3) {
var r = e.charAt(n + 2);
r = "a" <= r ? r.charCodeAt(0) - 87 : Number(r),
r = "+" === e.charAt(n + 1) ? t >>> r : t << r,
t = "+" === e.charAt(n) ? t + r & 4294967295 : t ^ r
}
return t
}

function exports(t) {
var o, i = t.match(/[\uD800-\uDBFF][\uDC00-\uDFFF]/g);
if (null === i) {
var a = t.length;
a > 30 && (t = "".concat(t.substr(0, 10)).concat(t.substr(Math.floor(a / 2) - 5, 10)).concat(t.substr(-10, 10)))
} else {
for (var s = t.split(/[\uD800-\uDBFF][\uDC00-\uDFFF]/), c = 0, l = s.length, u = []; c < l; c++)
"" !== s[c] && u.push.apply(u, function (t) {
if (Array.isArray(t))
return e(t)
}(o = s[c].split("")) || function (t) {
if ("undefined" != typeof Symbol && null != t[Symbol.iterator] || null != t["@@iterator"])
return Array.from(t)
}(o) || function (t, n) {
if (t) {
if ("string" == typeof t)
return e(t, n);
var r = Object.prototype.toString.call(t).slice(8, -1);
return "Object" === r && t.constructor && (r = t.constructor.name),
"Map" === r || "Set" === r ? Array.from(t) : "Arguments" === r || /^(?:Ui|I)nt(?:8|16|32)(?:Clamped)?Array$/.test(r) ? e(t, n) : void 0
}
}(o) || function () {
throw new TypeError("Invalid attempt to spread non-iterable instance.\nIn order to be iterable, non-array objects must have a [Symbol.iterator]() method.")
}()),
c !== l - 1 && u.push(i[c]);
var p = u.length;
p > 30 && (t = u.slice(0, 10).join("") + u.slice(Math.floor(p / 2) - 5, Math.floor(p / 2) + 5).join("") + u.slice(-10).join(""))
}
for (var d = "".concat(String.fromCharCode(103)).concat(String.fromCharCode(116)).concat(String.fromCharCode(107)), h = ["320305", "131321201"], f = Number(h[0]) || 0, m = Number(h[1]) || 0, g = [], y = 0, v = 0; v < t.length; v++) {
var _ = t.charCodeAt(v);
_ < 128 ? g[y++] = _ : (_ < 2048 ? g[y++] = _ >> 6 | 192 : (55296 == (64512 & _) && v + 1 < t.length && 56320 == (64512 & t.charCodeAt(v + 1)) ? (_ = 65536 + ((1023 & _) << 10) + (1023 & t.charCodeAt(++v)),
g[y++] = _ >> 18 | 240,
g[y++] = _ >> 12 & 63 | 128) : g[y++] = _ >> 12 | 224,
g[y++] = _ >> 6 & 63 | 128),
g[y++] = 63 & _ | 128)
}
for (var b = f, w = "".concat(String.fromCharCode(43)).concat(String.fromCharCode(45)).concat(String.fromCharCode(97)) + "".concat(String.fromCharCode(94)).concat(String.fromCharCode(43)).concat(String.fromCharCode(54)), k = "".concat(String.fromCharCode(43)).concat(String.fromCharCode(45)).concat(String.fromCharCode(51)) + "".concat(String.fromCharCode(94)).concat(String.fromCharCode(43)).concat(String.fromCharCode(98)) + "".concat(String.fromCharCode(43)).concat(String.fromCharCode(45)).concat(String.fromCharCode(102)), x = 0; x < g.length; x++)
b = n(b += g[x], w);
return b = n(b, k),
(b ^= m) < 0 && (b = 2147483648 + (2147483647 & b)),
"".concat((b %= 1e6).toString(), ".").concat(b ^ f)
}


data = "你说今天的天气好不好?"
console.log(exports(data))

再次运行JS代码,返回结果正常,拿到了sign变量值。

image-20230424175136492

拿到了sign的值后,模拟参数请求响应过程即可。

数据请求

代码比较简单,完整代码如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
# -- coding: utf-8 --
"""
@Name: demo3_百度翻译.py
@Auth: Ming-Log
@Date: 2023/4/12-0:32
@Desc:
"""
import requests
import execjs


def translation(query):
# 读取JS文件
with open('demo3_百度翻译.js', 'r', encoding='utf-8') as f:
jscode = f.read()
# 使用JS文件获取sign值
sign = execjs.compile(jscode).call('exports', query)
print('sign:', sign)
url = 'https://fanyi.baidu.com/v2transapi'
# 参数值
params = {
'from': 'zh',
'to': 'en'
}
# 表单值
data = {
'from': 'zh',
'to': 'en',
'query': query,
'simple_means_flag': '3',
'sign': sign,
'token': '5e24d68bbbdfd67c16b35da74870b8f5',
'domain': 'common'
}
# 请求头
headers = {
'Acs-Token': '1681207459572_1681230773001_6QSOvqBC30fj/DQlqEHLbEvR+KrHKmhInuV8Ev4NwvcvSmhn2lmdHi9zQLT3FMr6hQ90PYdWlv1+emb56TiUxmh5twktLTwAJkxoibo7szZXlBzrV+6eGjTtpwVYEESHy7xZZbBg5ChSim6zY/3Z0MBkFj7MBAxkzDo041Oh7qIc9IfMaqM+X0Qkjjrq9YajZq5WFRVsNQCobhGC19EDNjFHXDMKqxoiihwAwKl0EWQ5aFBMua+1D88+QNY/nbNZs0UY/4zjG1DHuTKpoC8TcJwKO6LccQcVQomtJd3Tzz+QYN0wvo1+t/eOnI9WC0R4BLuCkDNX55nL/sj9NuNam+d8FoG5fPAF99OtctZ/ZLUijwIJFrswDFAquSf6skz/cnFkkOpbU7WUoJzVwvzOQN7hdCRt9/+QGcOhp0r3FYMzvgOOXlhjLkFPGo+xXaTEbNqf/bolzV6zJQJwl+XOOfvZNTHusz/DZ2ByNRJc71A=',
'Origin': 'https://fanyi.baidu.com',
'Host': 'fanyi.baidu.com',
'Referer': 'https://fanyi.baidu.com/',
'Cookie': 'BIDUPSID=640EA7E3BAD4E8112A3F37BAE453FFC0; PSTM=1636376597; __yjs_duid=1_eca79fd06ced9005d3e42161ced1be071636376605131; SOUND_SPD_SWITCH=1; SOUND_PREFER_SWITCH=1; FANYI_WORD_SWITCH=1; HISTORY_SWITCH=1; REALTIME_TRANS_SWITCH=1; APPGUIDE_10_0_2=1; BAIDUID=E3F1FC1FB03A5813D138C43F88580D57:FG=1; newlogin=1; BDUSS=jJnTjRpfmNDQ1RGcmJiMjdPYXFxc0ZaMFNTSEh-NThOYkRIQ1pWanl1MXU0VnhrSVFBQUFBJCQAAAAAAAAAAAEAAAD-I3~psK7Jz7XItcg1MAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAG5UNWRuVDVkV; BDUSS_BFESS=jJnTjRpfmNDQ1RGcmJiMjdPYXFxc0ZaMFNTSEh-NThOYkRIQ1pWanl1MXU0VnhrSVFBQUFBJCQAAAAAAAAAAAEAAAD-I3~psK7Jz7XItcg1MAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAG5UNWRuVDVkV; Hm_lvt_64ecd82404c51e03dc91cb9e8c025574=1679319681,1679486289,1681228994; H_PS_PSSID=26350; BDORZ=FFFB88E999055A3F8A630C64834BD6D0; delPer=0; PSINO=7; BAIDUID_BFESS=E3F1FC1FB03A5813D138C43F88580D57:FG=1; BA_HECTOR=aha4ak248ha08l25000h21eu1i3b1td1m; ZFY=TBLf32wVkw2ixDINRGBUdQj9:BnfLyrnFQHzsixPgdaM:C; Hm_lpvt_64ecd82404c51e03dc91cb9e8c025574=1681230773',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36',
'X-Requested-With': 'XMLHttpRequest',
}
# 发送POST请求
res = requests.post(url, params=params, data=data, headers=headers)
return res.json()['trans_result']['data'][0]['dst']


if __name__ == '__main__':
query = input('请输入要翻译的语句:')
trans = translation(query)
print('-' * 50)
print(f'{query}\n翻译为:\n{trans}')
print('-' * 50)

结果展示

image-20230424175531247

拓展

百度翻译中还有一种方式可以获得简单的单词翻译,并且过程十分简单,不需要分析逆向过程。

例如在翻译框中输入天气真好,然后删除真好两个字,剩下天气,会自动出现一些推荐的翻译词语。

image-20230424180115764

在网络中会出现一个sug数据包。

image-20230424180232859

这个数据包请求网址和请求方法分别为:

点击载荷,可以看到其表单也非常简单。

image-20230424180400307

只有一个KW参数。

再点击到预览,查看数据包的返回内容。

image-20230424180431115

可以看到包含了刚刚看到的自动联想的一些词语及翻译。

代码比较简单,大家可以自行尝试。

-------------本文结束感谢您的阅读-------------