Sanakey

基于NodeJS的yandere图片爬虫Demo
这是一篇关于NodeJS实现的yandere图片爬虫Demo,供大家研究学习使用。
扫描右侧二维码阅读全文
03
2019/12

基于NodeJS的yandere图片爬虫Demo

这是一篇关于NodeJS实现的yandere图片爬虫Demo,供大家研究学习使用。

NodeJS环境搭建

NodeJS的环境搭建很简单,在NodeJS中文官网下载最新安装包(12.x)后,一路下一步即可。
如果有不明白的地方,参考这里

下载代码

首先前往github下载脚本

小白推荐


点击右上角绿色的Clone or download按钮,Download ZIP, 解压文件。

git老手(小白忽略)

git clone git@github.com:Sanakey/yandere-img-spider.git
cd yandere-img-spider
npm i
node index.js

食用步骤

在脚本文件夹下按住shift然后鼠标右键,点击在此处打开 Powershell窗口

首先加载依赖包

在刚才的控制台运行npm i,等待安装完毕

npm i --registry=https://registry.npm.taobao.org

项目配置

用你喜欢的文本编辑器打开config.js

{
  host: 'https://yande.re', // 这项一般不用改。
  savePath : './yandere', 
  imgType: 0, 
  wait: 1,
  pageStart: 1, 
  pageCount: 1, 
  tags: []
}

具体说明

savePath

图片保存的主文件夹,默认为脚本当前目录的yandere文件夹。该配置项填写完毕后,不用手动创建文件夹,程序会自行创建。

imgType

yandere预览图

  • -1代表小图,也就是主页面的上图蓝色1部分的预览图,
  • 0代表中等图,也就是在主页面点击上图蓝色1部分预览图后该页面显示的大图。
  • 1代表大图,也就是点击主页面的上图红框部分后该页面显示的大图。

wait

每下载完一张图片后等待时间,单位为秒,该项本意是为了防止请求过于频繁触发yandere的反爬虫规则。一般情况默认值就行。

pageStart

页码
你需要开始下载的当前页码。

pageCount

你总共要下载的页码数。

tags

要下载的tag关键字,只支持英文,建议了解一下y站的tag标签规则,不需要时为空就行。
需要使用tag时,请用'关键词'的形式,tags大于一个时,用英文半角逗号,隔开。
示例 tags: ['dakimakura','kyaru'], 意思是下载抱枕类型里的凯留(臭鼬)图。

下载图片

上面的依赖包安装完毕并且配置完后,再次在控制台运行

node index.js

tips: 终止程序的快捷键是在控制台ctrl+c

程序就开始运行并读取刚才的配置下载你需要的图片了,接下来你就可以干其他的事情,等待一段时间后查看成果吧!

y站服务器在法国,容易受网络波动影响,下载一般比较慢,请耐心等待。

因网络问题有时候可能也会出现图片只下载一半的情况,如果只有几张问题图片,建议自己在y站手动重新下载。问题图较多的话,这时候删除这些图片,重新运行程序。

说明

本代码是个人学习NodeJS爬虫的产物,仅供学习研究使用,写得比较水,还望各位多多包涵。有bug可以在评论区或github提出,感谢你的阅读!

Last modification:December 3rd, 2019 at 01:55 pm
如果觉得我的文章对你有用,请随意赞赏

Leave a Comment

marisa.png