非常适合用来采集整站,不过不要用来搞事情,适用于静态页面。需要python环境,其他语言自己参考实现即可。
环境要求
- 安装 python
- 安装 wget (如果没安装)
winget install wget
创建spider.py
文件
import subprocess
import os
from datetime import datetime
# 定义要下载的URL
url = "http://xxxxxxxxx"
# 获取当前日期并格式化为字符串
current_date = datetime.now().strftime("%Y%m%d")
# 定义保存下载内容的本地目录
local_dir = f"site_{current_date}"
# 创建保存内容的目录
if not os.path.exists(local_dir):
os.makedirs(local_dir)
# 使用 wget 下载整个网站
wget_command = [
"wget",
"--mirror", # 递归下载
"--convert-links", # 转换链接
"--adjust-extension", # 调整扩展名
"--page-requisites", # 下载页面的所有资源
"--no-parent", # 不要追溯到父目录
"--directory-prefix", local_dir, # 保存下载内容的目录
url
]
# 运行 wget 命令
subprocess.run(wget_command)
print(f"下载完成,内容保存在 {local_dir} 目录中")
命令行执行:
python spider.py