非常适合用来采集整站,不过不要用来搞事情,适用于静态页面。需要python环境,其他语言自己参考实现即可。

环境要求

  1. 安装 python
  2. 安装 wget (如果没安装)
winget install wget

创建spider.py文件

import subprocess
import os
from datetime import datetime

# 定义要下载的URL
url = "http://xxxxxxxxx"

# 获取当前日期并格式化为字符串
current_date = datetime.now().strftime("%Y%m%d")

# 定义保存下载内容的本地目录
local_dir = f"site_{current_date}"

# 创建保存内容的目录
if not os.path.exists(local_dir):
    os.makedirs(local_dir)

# 使用 wget 下载整个网站
wget_command = [
    "wget",
    "--mirror",  # 递归下载
    "--convert-links",  # 转换链接
    "--adjust-extension",  # 调整扩展名
    "--page-requisites",  # 下载页面的所有资源
    "--no-parent",  # 不要追溯到父目录
    "--directory-prefix", local_dir,  # 保存下载内容的目录
    url
]

# 运行 wget 命令
subprocess.run(wget_command)

print(f"下载完成,内容保存在 {local_dir} 目录中")

命令行执行:

python spider.py
最后修改:2024 年 07 月 11 日
如果觉得我的文章对你有用,请随意赞赏