将文件下载到特定目录📁
只需将PATH替换为要保存文件的输出目录位置即可。wget ‐P <PATH> https://example.com/sitemap.xml
重命名下载的文件📝
要重命名文件,请将FILENAME替换为您想要的名称并运行:wget -O <FILENAME.html> https://example.com/file.html
将自己定义为用户代理🧑💻
wget --user-agent=Chrome https://example.com/file.html
限速⏩
wget 可以通过实现–waitand–limit-rate命令来帮助解决这个问题。
1 | --wait=1 \\ Wait 1 second between extractions. |
提取为 Google bot 🤖
wget --user-agent="Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" https://example.com/path
转换页面上的链接🖇️
将 HTML 中的链接转换为在您的本地版本中仍然有效。(例如 example.com/path -> localhost:8000/path)wget --convert-links https://example.com/path
镜像单个网页📑
您可以运行此命令来镜像单个网页以在本地设备上查看它。wget -E -H -k -K -p --convert-links https://example.com/path
提取多个 URL 🗂️
首先创建所有需要的 URL 并将其添加到urls.txt文件中。
1 | https://example.com/1 |
接下来,运行以下命令以提取所有 URL。wget -i urls.txt
如何使用 wget 配置代理
配置文件
- /usr/local/etc/wgetrc 全局,适用于所有用户
- $HOME/.wgetrc 适用于单个用户
配置:1
2
3https_proxy = http://[Proxy_Server]:[port]
http_proxy = http://[Proxy_Server]:[port]
ftp_proxy = http://[Proxy_Server]:[port]设置临时代理变量
1
2
3export http_proxy=http://[Proxy_Server]:[port]
export https_proxy=$http_proxy
export ftp_proxy=$http_proxy设置到
SHELL
环境变量在
~/.bash_profile
或/etc/profile
中添加以下行:1
2
3export http_proxy=http://[Proxy_Server]:[port]
export https_proxy=http://[Proxy_Server]:[port]
export ftp_proxy=http://[Proxy_Server]:[port]
- 本文标题:wget 的妙用
- 本文作者:jf wang
- 创建时间:2022-06-27 10:24:36
- 本文链接:https://www.wangjunfeng.com.cn/2022/06/27/wget-menu/
- 版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!