使用wget快速爬取整站内容

非常适合用来采集整站，不过不要用来搞事情，适用于静态页面。需要python环境，其他语言自己参考实现即可。

环境要求

安装 python
安装 wget (如果没安装)

winget install wget

创建spider.py文件

import subprocess
import os
from datetime import datetime

# 定义要下载的URL
url = "http://xxxxxxxxx"

# 获取当前日期并格式化为字符串
current_date = datetime.now().strftime("%Y%m%d")

# 定义保存下载内容的本地目录
local_dir = f"site_{current_date}"

# 创建保存内容的目录
if not os.path.exists(local_dir):
    os.makedirs(local_dir)

# 使用 wget 下载整个网站
wget_command = [
    "wget",
    "--mirror",  # 递归下载
    "--convert-links",  # 转换链接
    "--adjust-extension",  # 调整扩展名
    "--page-requisites",  # 下载页面的所有资源
    "--no-parent",  # 不要追溯到父目录
    "--directory-prefix", local_dir,  # 保存下载内容的目录
    url
]

# 运行 wget 命令
subprocess.run(wget_command)

print(f"下载完成，内容保存在 {local_dir} 目录中")

命令行执行:

python spider.py

使用wget快速爬取整站内容

环境要求

2022(3)新年计划

typora解包白嫖教程

SeeSharper.Blog进度一览

欢迎使用 Typecho

在.NET中使用LaunchDarkly.EventSource进行SSE请求

记一次基于Docker安装包含开发环境的Jenkins

CentOS7上使用Admin.NET框架验证码显示口字乱码问题

【ASP.NET Core开发者学习路线】 1.1 通用开发技能—HTTP/HTTPS协议和TLS/SSL

22-08上海共青森林公园游记1

WinForm经典问题：线程间操作无效: 从不是创建控件的线程访问它（包括富文本组件使用）

使用wget快速爬取整站内容