记录下待开发的功能，大家也可以来提想要的功能 #25

NaiboWang · 2023-05-13T12:41:57Z

以下功能会在有空的时候集中开发，大家有什么想要的功能也可以提issues留言，也欢迎大家fork之后帮我开发并提交pull request~

这部分是长期开发计划：

yfdyh000 · 2023-05-20T09:13:18Z

刚刚接触，代码上的初步意见：
未看出Git中放打包的EasySpider.crx，以及分成en和zh两版的意义。
从代码国际化（i18n）来说，lang=zh应该zh-cn或zh-hans。
代码和自述里中英混杂，对fork发展也许不太友好。

NaiboWang · 2023-05-20T09:27:58Z

刚刚接触，代码上的初步意见：未看出Git中放打包的EasySpider.crx，以及分成en和zh两版的意义。从代码国际化（i18n）来说，lang=zh应该zh-cn或zh-hans。代码和自述里中英混杂，对fork发展也许不太友好。

感谢，都是非常好的建议。
以上问题大部分原因基本都在于刚开始这个软件是个纯中文软件，只是后来要投稿国际会议WWW 2023所以赶鸭子上架拼凑了一个英文版出来，所以没时间查看其他双语规范的写法。至于en和zh两版是临时想出的解决方案，所有的中英文版本几乎都是独立加载的，没有参考通用写法。
代码和自述中英混杂是我的习惯问题，因为主要是想中国人用，所以中文放前面，英文只是顺便翻译了一下，不过以后可以考虑分开。
放出打包的.crx意义确实不大，应该在.gitignore中消掉。
现阶段我的主要工作还是做科研，等空出时间了会把代码继续重构，符合通用规范。
再次感谢提出宝贵的建议！

timodaxia2019 · 2023-06-01T23:20:42Z

能不能考虑把采集到的内容直接发布到常用的网站类型中，谢谢！

NaiboWang · 2023-06-02T05:41:22Z

能不能考虑把采集到的内容直接发布到常用的网站类型中，谢谢！

这属于衍生需求，有很多工具可以做，参考：https://www.zhihu.com/question/52240701

因此暂时不考虑。

SarcomTDG · 2023-06-02T08:28:47Z

加上打印日志功能

wzt0501 · 2023-06-07T15:30:22Z

1.列表页字段和详情页的字段能对应上；
2.相似的块的字段名称和字段值能不能识别生成，有的只知道区域，但字段名称不一定是固定的

Forrestz88 · 2023-06-21T06:28:39Z

采集下来数据的CSV文件的列表头(对应于任务信息当中输出参数的参数名称)的各个字段名称，能否根据采集者的意愿在任务中做配置，从而自动修改？

NaiboWang · 2023-06-21T06:31:16Z

采集下来数据的CSV文件的列表头(对应于任务信息当中输出参数的参数名称)的各个字段名称，能否根据采集者的意愿在任务中做配置，从而自动修改？

能不能说详细一点什么叫做自动修改，现在各个字段的名称是可以手动修改的。

Forrestz88 · 2023-06-21T06:44:18Z

采集下来数据的CSV文件的列表头(对应于任务信息当中输出参数的参数名称)的各个字段名称，能否根据采集者的意愿在任务中做配置，从而自动修改？

能不能说详细一点什么叫做自动修改，现在各个字段的名称是可以手动修改的。

所谓自动，就是我们事先在任务当中配置好该怎么修改，之后，执行完任务，采集下来的数据已经是按照我们事先的设定改好了，而不需要我们去手动在CSV或Excel文件中修改列表头，这就是我所谓的自动。

你提到的现在可以手动修改是指在任务配置过程中就修改好了是吗？如果是在任务配置过程中修改就修改好了，逻辑上就已经是我讲的自动修改的意思了。

我之前用八爪鱼用的很多。八爪鱼当中，列表头的字段名称是可以按照采集者的想法进行任意修改的。你的视频我没时间看。我是昨天一边做别的事，一边一口气听完的，中文的听了16集。软件没上手练，界面可能不熟悉。因为没听到说可以改列表头的这个说法，所以我以为列表头不能在任务配置文件中改呢。

NaiboWang · 2023-06-21T08:08:25Z

采集下来数据的CSV文件的列表头(对应于任务信息当中输出参数的参数名称)的各个字段名称，能否根据采集者的意愿在任务中做配置，从而自动修改？

能不能说详细一点什么叫做自动修改，现在各个字段的名称是可以手动修改的。

所谓自动，就是我们事先在任务当中配置好该怎么修改，之后，执行完任务，采集下来的数据已经是按照我们事先的设定改好了，而不需要我们去手动在CSV或Excel文件中修改列表头，这就是我所谓的自动。

你提到的现在可以手动修改是指在任务配置过程中就修改好了是吗？如果是在任务配置过程中修改就修改好了，逻辑上就已经是我讲的自动修改的意思了。

我之前用八爪鱼用的很多。八爪鱼当中，列表头的字段名称是可以按照采集者的想法进行任意修改的。你的视频我没时间看。我是昨天一边做别的事，一边一口气听完的，中文的听了16集。软件没上手练，界面可能不熟悉。因为没听到说可以改列表头的这个说法，所以我以为列表头不能在任务配置文件中改呢。

表头可以在设计时改。

jyxzwd · 2023-06-21T13:24:28Z

作者您好，我想提一个关于对采集到的数据处理的一个小建议
现在的EasySpider默认是将采集到的数据以 csv 的格式储存在文件里，但是大多数时候我们也会有将数据持久到数据库或者别的文件格式的需求，能否提供自定义的持久化方式？
其实持久化到数据库这个操作也可以通过现在已经提供的插入js代码来调用其他api 来“间接”实现这个功能（这是我目前能想到的方法）

NaiboWang · 2023-06-21T13:31:10Z

作者您好，我想提一个关于对采集到的数据处理的一个小建议现在的easySpdier默认是将采集到的数据以 csv 的格式储存在文件里，但是大多数时候我们也会有将数据持久到数据库或者别的文件格式的需求，能否提供自定义的持久化方式？其实持久化到数据库这个操作也可以通过现在已经提供的插入js代码来调用其他api 来“间接”实现这个功能（这是我目前能想到的方法）

谢谢建议，这个程序设置的初衷是为那些不会写代码的朋友准备的，没想到发布后会有很多人想要写入数据库这种程序员级别的操作。

因为CSV转DB或者写入SQL数据库这个操作已经有很多开源实现，如：https://github.com/simonw/csvs-to-sqlite

因此这个功能属于边缘功能，大家如果想写入数据库总会找到办法，因此这个功能暂时不会考虑开发。

我倒希望有朋友能提交Pull Request，帮我一起完善这个软件，很遗憾发布了一个多月还没有有效的PR提交，一个人维护一个项目实在有些力不从心，将来我个人的重点也会主要集中在核心功能的开发上，至于写入数据库这种边缘功能，期待有朋友帮我做。

谢谢建议~

BanKnight · 2023-06-23T01:50:04Z

目前发现还是变量这块不太行（如果实现了，麻烦也告知一下）
例如：

提取页面数据作为循环次数
提取页面数据作为xpath依据
提取页面数据作为“切换下拉选项”的依据

再就是，编辑器部分建议优化为可以拖动那种操作，虽然目前也够用，但是第一次上手还是不太符合直觉

liujuncn · 2023-06-26T18:37:42Z

能支持下载网页中的文件么？例如PDF

NaiboWang · 2023-06-26T18:38:47Z

能支持下载网页中的文件么？例如PDF

最新版本特性里就写了可以下载pdf……

liujuncn · 2023-06-27T17:03:53Z

不好意思，只注意看教学视频了。

另外还有一个建议，对于采集多个页面文章的情况下，默认会把文本合并到输出的csv文件里。那么能否在提取数据的设置里增加一项用户自定义分隔项，例如我可以把每篇文章的文本用<|endoftext|>分隔。

NaiboWang · 2023-06-27T17:09:49Z

不好意思，只注意看教学视频了。

另外还有一个建议，对于采集多个页面文章的情况下，默认会把文本合并到输出的csv文件里。那么能否在提取数据的设置里增加一项用户自定义分隔项，例如我可以把每篇文章的文本用<|endoftext|>分隔。

这个在提取数据操作前用JS操作一下就行了，可以参考下面这个视频：
https://www.bilibili.com/video/BV1qs4y1z7Hc

liujuncn · 2023-06-28T09:25:55Z

这个在提取数据操作前用JS操作一下就行了，可以参考下面这个视频： https://www.bilibili.com/video/BV1qs4y1z7Hc

这样试了不行：

如果在“提取页面文本”元素用js追加文本，会给每个p文本都追加。而我希望给整个页面提取出来的文本追加。
如果在该页面所有p文本提取的循环结束后用js追加（如图），结果是没有期望结果。
而且我也不希望追加的eot作为另一个单独的字段。

这个需求抽象来说就是：
我需要对某个操作或循环的结果，可以用js来处理并替代它们记录到csv。例如上述例子：详情页面的每个p元素的文本被采集为text字段，那么这个页面处理的循环结束后，我需要用js处理结果，合并它们并追加一个eot标签字符串，然后将这个修改后的页面文本保存到结果csv。

NaiboWang · 2023-06-28T11:03:15Z

这个在提取数据操作前用JS操作一下就行了，可以参考下面这个视频： https://www.bilibili.com/video/BV1qs4y1z7Hc

这样试了不行：如果在“提取页面文本”元素用js追加文本，会给每个p文本都追加。而我希望给整个页面提取出来的文本追加。如果在该页面所有p文本提取的循环结束后用js追加（如图），结果是没有期望结果。而且我也不希望追加的eot作为另一个单独的字段。

这个需求抽象来说就是：我需要对某个操作或循环的结果，可以用js来处理并替代它们记录到csv。例如上述例子：详情页面的每个p元素的文本被采集为text字段，那么这个页面处理的循环结束后，我需要用js处理结果，合并它们并追加一个eot标签字符串，然后将这个修改后的页面文本保存到结果csv。

先找到你的EasySpider\resources\app\src\taskGrid文件夹，把logic_CN.js的第375到383行删掉，即删掉以下内容：

 if (outputNames.indexOf(title) >= 0) { //参数名称已经被添加
      $('#myModal').modal('hide');
      $("#tip2").slideDown(); //提示框
      fadeout = setTimeout(function() {
          $("#tip2").slideUp();
      }, 5000);
      return;
  }

然后把上面自定义操作的名称改成和上面“提取页面文本”操作里一样的字段名称，如参数1_文本，即可使得相同字段里的内容放在一起。

liujuncn · 2023-06-28T14:24:27Z

这个办法生效，就是它还是会在csv首行生成一个同名列。如果后续需要处理，例如使用pandas.read，还需要人工去删除一下。

NaiboWang · 2023-06-28T14:31:24Z

这个办法生效，就是它还是会在csv首行生成一个同名列。如果后续需要处理，例如使用pandas.read，还需要人工去删除一下。

OK，这个bug会在下一个版本修复。

aogg · 2023-07-03T04:11:26Z

搞个无头模式，最好能docker运行

NaiboWang · 2023-07-03T04:56:13Z

搞个无头模式，最好能docker运行

无头模式现在就有。

handeserve · 2023-07-05T14:03:05Z

能不能加个关闭当前标签页，我点开链接都是新的标签页，导致没法后退，循环立马就断了

NaiboWang · 2023-07-05T14:05:09Z

能不能加个关闭当前标签页，我点开链接都是新的标签页，导致没法后退，循环立马就断了

没法后退导致循环断不知道你是怎么设计的，理论上不太可能。

如果想关闭标签页，添加自定义操作，命令值为：window.close()即可。

handeserve · 2023-07-05T14:35:22Z

能不能加个关闭当前标签页，我点开链接都是新的标签页，导致没法后退，循环立马就断了

没法后退导致循环断不知道你是怎么设计的，理论上不太可能。

如果想关闭标签页，添加自定义操作，命令值为：window.close()即可。

我加了window.close()之后，直接把整个浏览器关了。
我的浏览器，点击链接之后就是在新标签页打开，然后每次打开完第一个链接，提取过数据之后，程序就结束了，我也不知道什么情况
这是我的程序，前面都没问题，点击详情页，就会打开一个新的标签页，然后里面有个元素是下载PDF的，点了以后就可以下载，然后不管加不加window.close()，下载完都会直接结束程序

NaiboWang · 2023-07-05T14:36:54Z

把你的任务文件发我邮箱：naibowang@foxmail.com，我去帮你看下

cat2123 · 2024-01-03T01:56:38Z

【能否直接增加多关键词判断中针对当前循环项的JavaScript指令功能】

群主在github上给出的一个中国地震台网表格案例（https://github.com/NaiboWang/EasySpider/wiki/Example-of-JavaScript-instruction-for-the-current-iteration-in-a-conditional-statement#%E4%B8%AD%E5%9B%BD%E5%9C%B0%E9%9C%87%E5%8F%B0%E7%BD%91%E8%A1%A8%E6%A0%BC%E6%A1%88%E4%BE%8B）

这个例子给出了采集表格中第五项深度字段包含“10”的条目，需要在循环中添加判断条件，并将条件设置为如下命令：
return document.evaluate("./td[5]", arguments[0], null, XPathResult.FIRST_ORDERED_NODE_TYPE, null).singleNodeValue.innerText.indexOf("10") >= 0

但是，如果要采集表格中第五项深度字段包含“10”或“14”或“16”或“17”或“22”的条目（或更多的关键词），下一版本能否直接支持呢（例如关键词都放在数组）？

另外，在当前的0.6.0版本中，如果用JavaScript，下面的代码好像不能直接用于EasySpider的“代码/脚本内容”下方的文本框里。该如何实现呢？

let keywords = ["10", "14", "16", "17", "22"];  
let result = false;  
  
for (let keyword of keywords) {  
    let xpathQuery = "./td[contains(., '" + keyword + "')]";  
    let nodes = document.evaluate(xpathQuery, arguments[0], null, XPathResult.FIRST_ORDERED_NODE_TYPE, null);  
    if (nodes.singleNodeValue) {  
        result = true;  
        break;  
    }  
}

NaiboWang · 2024-01-03T08:07:35Z

【能否直接增加多关键词判断中针对当前循环项的JavaScript指令功能】

群主在github上给出的一个中国地震台网表格案例（https://github.com/NaiboWang/EasySpider/wiki/Example-of-JavaScript-instruction-for-the-current-iteration-in-a-conditional-statement#%E4%B8%AD%E5%9B%BD%E5%9C%B0%E9%9C%87%E5%8F%B0%E7%BD%91%E8%A1%A8%E6%A0%BC%E6%A1%88%E4%BE%8B）

这个例子给出了采集表格中第五项深度字段包含“10”的条目，需要在循环中添加判断条件，并将条件设置为如下命令： return document.evaluate("./td[5]", arguments[0], null, XPathResult.FIRST_ORDERED_NODE_TYPE, null).singleNodeValue.innerText.indexOf("10") >= 0

但是，如果要采集表格中第五项深度字段包含“10”或“14”或“16”或“17”或“22”的条目（或更多的关键词），下一版本能否直接支持呢（例如关键词都放在数组）？

另外，在当前的0.6.0版本中，如果用JavaScript，下面的代码好像不能直接用于EasySpider的“代码/脚本内容”下方的文本框里。该如何实现呢？ let keywords = ["10", "14", "16", "17", "22"]; let result = false;

for (let keyword of keywords) { let xpathQuery = "./td[contains(., '" + keyword + "')]"; let nodes = document.evaluate(xpathQuery, arguments[0], null, XPathResult.FIRST_ORDERED_NODE_TYPE, null); if (nodes.singleNodeValue) { result = true; break; } }

已注意到你的需求，下个版本会添加，关于你的代码，我会新开一个issue单独讲解问题。

另外就是在Github不要叫我群主，叫作者就可以了。

cat2123 · 2024-01-03T08:08:46Z

非常感谢您！

cat2123 · 2024-01-03T08:30:22Z

【能否直接增加多关键词判断中针对当前循环项的JavaScript指令功能】
群主在github上给出的一个中国地震台网表格案例（https://github.com/NaiboWang/EasySpider/wiki/Example-of-JavaScript-instruction-for-the-current-iteration-in-a-conditional-statement#%E4%B8%AD%E5%9B%BD%E5%9C%B0%E9%9C%87%E5%8F%B0%E7%BD%91%E8%A1%A8%E6%A0%BC%E6%A1%88%E4%BE%8B）
这个例子给出了采集表格中第五项深度字段包含“10”的条目，需要在循环中添加判断条件，并将条件设置为如下命令： return document.evaluate("./td[5]", arguments[0], null, XPathResult.FIRST_ORDERED_NODE_TYPE, null).singleNodeValue.innerText.indexOf("10") >= 0
但是，如果要采集表格中第五项深度字段包含“10”或“14”或“16”或“17”或“22”的条目（或更多的关键词），下一版本能否直接支持呢（例如关键词都放在数组）？
另外，在当前的0.6.0版本中，如果用JavaScript，下面的代码好像不能直接用于EasySpider的“代码/脚本内容”下方的文本框里。该如何实现呢？ let keywords = ["10", "14", "16", "17", "22"]; let result = false;
for (let keyword of keywords) { let xpathQuery = "./td[contains(., '" + keyword + "')]"; let nodes = document.evaluate(xpathQuery, arguments[0], null, XPathResult.FIRST_ORDERED_NODE_TYPE, null); if (nodes.singleNodeValue) { result = true; break; } }

已注意到你的需求，下个版本会添加，关于你的代码，我会新开一个issue单独讲解问题。

另外就是在Github不要叫我群主，叫作者就可以了。

由衷的感谢大神作者！

刚才已经按照您提出的两种方法（includes与精确匹配）进行了调试，结果很完美！

热烈期待大神作者0.7.0版本的闪亮登场！

顺带问问，软件里“代码/脚本内容”下方的文本框，最多能容纳多少字符？我打算用EasySpider对材料科学下的某个子领域进行地平线扫描（子领域的中外文关键词比较多）。

NaiboWang · 2024-01-03T08:39:02Z

【能否直接增加多关键词判断中针对当前循环项的JavaScript指令功能】
群主在github上给出的一个中国地震台网表格案例（https://github.com/NaiboWang/EasySpider/wiki/Example-of-JavaScript-instruction-for-the-current-iteration-in-a-conditional-statement#%E4%B8%AD%E5%9B%BD%E5%9C%B0%E9%9C%87%E5%8F%B0%E7%BD%91%E8%A1%A8%E6%A0%BC%E6%A1%88%E4%BE%8B）
这个例子给出了采集表格中第五项深度字段包含“10”的条目，需要在循环中添加判断条件，并将条件设置为如下命令： return document.evaluate("./td[5]", arguments[0], null, XPathResult.FIRST_ORDERED_NODE_TYPE, null).singleNodeValue.innerText.indexOf("10") >= 0
但是，如果要采集表格中第五项深度字段包含“10”或“14”或“16”或“17”或“22”的条目（或更多的关键词），下一版本能否直接支持呢（例如关键词都放在数组）？
另外，在当前的0.6.0版本中，如果用JavaScript，下面的代码好像不能直接用于EasySpider的“代码/脚本内容”下方的文本框里。该如何实现呢？ let keywords = ["10", "14", "16", "17", "22"]; let result = false;
for (let keyword of keywords) { let xpathQuery = "./td[contains(., '" + keyword + "')]"; let nodes = document.evaluate(xpathQuery, arguments[0], null, XPathResult.FIRST_ORDERED_NODE_TYPE, null); if (nodes.singleNodeValue) { result = true; break; } }

已注意到你的需求，下个版本会添加，关于你的代码，我会新开一个issue单独讲解问题。
另外就是在Github不要叫我群主，叫作者就可以了。

由衷的感谢大神作者！

刚才已经按照您提出的两种方法（includes与精确匹配）进行了调试，结果很完美！

热烈期待大神作者0.7.0版本的闪亮登场！

顺带问问，软件里“代码/脚本内容”下方的文本框，最多能容纳多少字符？我打算用EasySpider对材料科学下的某个子领域进行地平线扫描（子领域的中外文关键词比较多）。

我没有设置限制，理论上，这些文本框可以容纳数百万字符，但你可以去尝试是否有实际限制。

cat2123 · 2024-01-03T08:41:18Z

【能否直接增加多关键词判断中针对当前循环项的JavaScript指令功能】
群主在github上给出的一个中国地震台网表格案例（https://github.com/NaiboWang/EasySpider/wiki/Example-of-JavaScript-instruction-for-the-current-iteration-in-a-conditional-statement#%E4%B8%AD%E5%9B%BD%E5%9C%B0%E9%9C%87%E5%8F%B0%E7%BD%91%E8%A1%A8%E6%A0%BC%E6%A1%88%E4%BE%8B）
这个例子给出了采集表格中第五项深度字段包含“10”的条目，需要在循环中添加判断条件，并将条件设置为如下命令： return document.evaluate("./td[5]", arguments[0], null, XPathResult.FIRST_ORDERED_NODE_TYPE, null).singleNodeValue.innerText.indexOf("10") >= 0
但是，如果要采集表格中第五项深度字段包含“10”或“14”或“16”或“17”或“22”的条目（或更多的关键词），下一版本能否直接支持呢（例如关键词都放在数组）？
另外，在当前的0.6.0版本中，如果用JavaScript，下面的代码好像不能直接用于EasySpider的“代码/脚本内容”下方的文本框里。该如何实现呢？ let keywords = ["10", "14", "16", "17", "22"]; let result = false;
for (let keyword of keywords) { let xpathQuery = "./td[contains(., '" + keyword + "')]"; let nodes = document.evaluate(xpathQuery, arguments[0], null, XPathResult.FIRST_ORDERED_NODE_TYPE, null); if (nodes.singleNodeValue) { result = true; break; } }

已注意到你的需求，下个版本会添加，关于你的代码，我会新开一个issue单独讲解问题。
另外就是在Github不要叫我群主，叫作者就可以了。

由衷的感谢大神作者！
刚才已经按照您提出的两种方法（includes与精确匹配）进行了调试，结果很完美！
热烈期待大神作者0.7.0版本的闪亮登场！
顺带问问，软件里“代码/脚本内容”下方的文本框，最多能容纳多少字符？我打算用EasySpider对材料科学下的某个子领域进行地平线扫描（子领域的中外文关键词比较多）。

我没有设置限制，理论上，这些文本框可以容纳数百万字符，但你可以去尝试是否有实际限制。

欧，太棒了，足够用了！！！今年的目标是：对材料科学下的某个子领域进行扫描，做成某领域前沿动态追踪快报，供老师们参考。

cat2123 · 2024-01-03T08:41:45Z

【能否直接增加多关键词判断中针对当前循环项的JavaScript指令功能】
群主在github上给出的一个中国地震台网表格案例（https://github.com/NaiboWang/EasySpider/wiki/Example-of-JavaScript-instruction-for-the-current-iteration-in-a-conditional-statement#%E4%B8%AD%E5%9B%BD%E5%9C%B0%E9%9C%87%E5%8F%B0%E7%BD%91%E8%A1%A8%E6%A0%BC%E6%A1%88%E4%BE%8B）
这个例子给出了采集表格中第五项深度字段包含“10”的条目，需要在循环中添加判断条件，并将条件设置为如下命令： return document.evaluate("./td[5]", arguments[0], null, XPathResult.FIRST_ORDERED_NODE_TYPE, null).singleNodeValue.innerText.indexOf("10") >= 0
但是，如果要采集表格中第五项深度字段包含“10”或“14”或“16”或“17”或“22”的条目（或更多的关键词），下一版本能否直接支持呢（例如关键词都放在数组）？
另外，在当前的0.6.0版本中，如果用JavaScript，下面的代码好像不能直接用于EasySpider的“代码/脚本内容”下方的文本框里。该如何实现呢？ let keywords = ["10", "14", "16", "17", "22"]; let result = false;
for (let keyword of keywords) { let xpathQuery = "./td[contains(., '" + keyword + "')]"; let nodes = document.evaluate(xpathQuery, arguments[0], null, XPathResult.FIRST_ORDERED_NODE_TYPE, null); if (nodes.singleNodeValue) { result = true; break; } }

已注意到你的需求，下个版本会添加，关于你的代码，我会新开一个issue单独讲解问题。
另外就是在Github不要叫我群主，叫作者就可以了。

由衷的感谢大神作者！
刚才已经按照您提出的两种方法（includes与精确匹配）进行了调试，结果很完美！
热烈期待大神作者0.7.0版本的闪亮登场！
顺带问问，软件里“代码/脚本内容”下方的文本框，最多能容纳多少字符？我打算用EasySpider对材料科学下的某个子领域进行地平线扫描（子领域的中外文关键词比较多）。

我没有设置限制，理论上，这些文本框可以容纳数百万字符，但你可以去尝试是否有实际限制。

欧，太棒了，足够用了！！！今年的目标是：对材料科学下的某个子领域进行扫描，做成某领域前沿动态追踪快报，供老师们参考。

再次感谢大神作者....................

NaiboWang · 2024-01-03T08:42:13Z

【能否直接增加多关键词判断中针对当前循环项的JavaScript指令功能】
群主在github上给出的一个中国地震台网表格案例（https://github.com/NaiboWang/EasySpider/wiki/Example-of-JavaScript-instruction-for-the-current-iteration-in-a-conditional-statement#%E4%B8%AD%E5%9B%BD%E5%9C%B0%E9%9C%87%E5%8F%B0%E7%BD%91%E8%A1%A8%E6%A0%BC%E6%A1%88%E4%BE%8B）
这个例子给出了采集表格中第五项深度字段包含“10”的条目，需要在循环中添加判断条件，并将条件设置为如下命令： return document.evaluate("./td[5]", arguments[0], null, XPathResult.FIRST_ORDERED_NODE_TYPE, null).singleNodeValue.innerText.indexOf("10") >= 0
但是，如果要采集表格中第五项深度字段包含“10”或“14”或“16”或“17”或“22”的条目（或更多的关键词），下一版本能否直接支持呢（例如关键词都放在数组）？
另外，在当前的0.6.0版本中，如果用JavaScript，下面的代码好像不能直接用于EasySpider的“代码/脚本内容”下方的文本框里。该如何实现呢？ let keywords = ["10", "14", "16", "17", "22"]; let result = false;
for (let keyword of keywords) { let xpathQuery = "./td[contains(., '" + keyword + "')]"; let nodes = document.evaluate(xpathQuery, arguments[0], null, XPathResult.FIRST_ORDERED_NODE_TYPE, null); if (nodes.singleNodeValue) { result = true; break; } }

已注意到你的需求，下个版本会添加，关于你的代码，我会新开一个issue单独讲解问题。
另外就是在Github不要叫我群主，叫作者就可以了。

由衷的感谢大神作者！
刚才已经按照您提出的两种方法（includes与精确匹配）进行了调试，结果很完美！
热烈期待大神作者0.7.0版本的闪亮登场！
顺带问问，软件里“代码/脚本内容”下方的文本框，最多能容纳多少字符？我打算用EasySpider对材料科学下的某个子领域进行地平线扫描（子领域的中外文关键词比较多）。

我没有设置限制，理论上，这些文本框可以容纳数百万字符，但你可以去尝试是否有实际限制。

欧，太棒了，足够用了！！！今年的目标是：对材料科学下的某个子领域进行扫描，做成某领域前沿动态追踪快报，供老师们参考。

再次感谢大神作者....................

不客气 :)

Summer-Russ · 2024-01-16T07:52:21Z

麻烦问下有些界面元素无法选中比如文心一言的发送按钮

NaiboWang · 2024-01-16T08:38:56Z

麻烦问下有些界面元素无法选中比如文心一言的发送按钮

百度文心一言属于大模型知识产权保护的内容，页面反爬手段很多，不容易直接处理，因此无法直接选中，建议使用JS等操作实现你想要的功能。

yulongMao · 2024-01-25T02:29:12Z

带滑块验证码的网站如何爬取？
NopeCHA只能通过国外的那种机器人验证

libaise · 2024-01-29T02:10:32Z

能添加步骤的注释功能吗？调试的时候会方便一点。或者已经有这个功能了吗？

libaise · 2024-01-29T02:17:34Z

保存成功的提示能不能不覆盖左上角的面包屑，这样可以直接切换到任务的界面

NaiboWang · 2024-02-02T10:34:02Z

能添加步骤的注释功能吗？调试的时候会方便一点。或者已经有这个功能了吗？

目前不支持，只能修改操作本身名称，将来会实现此功能。

保存成功提示目前只能等待两秒，将来版本会缩短提示时间。

MisteryLiuCode · 2024-02-21T13:33:20Z

可以支持使用本地浏览器吗，新开的浏览器会触发反爬

NaiboWang · 2024-02-22T10:17:52Z

可以支持使用本地浏览器吗，新开的浏览器会触发反爬

不支持使用自己的浏览器，触发反爬的具体情况可以在另外创建issue描述清楚，有时间会帮忙看能不能解决或开发更新版本。

ltjfk · 2024-03-13T08:15:56Z

遇到一个问题，当爬取安全证书过期的时候，浏览器会自动跳出安全提示，在selenium里面有对网站安全问题进行忽略的指令，但在v0.6.0里目前找不到合适的方式，除了暂停后手动操作

NaiboWang · 2024-03-13T08:17:55Z

遇到一个问题，当爬取安全证书过期的时候，浏览器会自动跳出安全提示，在selenium里面有对网站安全问题进行忽略的指令，但在v0.6.0里目前找不到合适的方式，除了暂停后手动操作

可以下载源码后加上那条忽略指令试试行不行，如果可以也欢迎提交pull requests合并代码。

FinchXia · 2024-03-18T12:14:45Z

我们招标代理经常需要查询某单位或者某个人的证书真伪，在同一网站上输入不同的信息，纯机械劳动。
现在用ES能减少机械劳动，但是不同的单位或个人信息只能在任务执行-参数值内修改，还是不够快。
能否将需要查询的信息都按格式写在Excel表格中，然后任务能循环读取表格每行的信息，给出相应的结果。

NaiboWang · 2024-03-18T12:43:49Z

我们招标代理经常需要查询某单位或者某个人的证书真伪，在同一网站上输入不同的信息，纯机械劳动。现在用ES能减少机械劳动，但是不同的单位或个人信息只能在任务执行-参数值内修改，还是不够快。能否将需要查询的信息都按格式写在Excel表格中，然后任务能循环读取表格每行的信息，给出相应的结果。

请仔细查阅文档和教程，从Excel读取的功能早就支持了。

Prime-H · 2024-03-27T09:06:44Z

双击操作什么时候能推出呢？或者说能不能提供自定义操作的代码

leic4u · 2024-04-04T17:32:27Z

期待 docker 版本和 webUI 发布

Y843512864 · 2024-04-07T01:50:05Z

有没有只爬API的办法啊，不开浏览器，我在现在的版本里没找到类似的操作，各位老师有知道的烦请告知一下哦，谢谢
-》不是写js那种哈要不然用postman就行了

trainliang · 2024-04-16T08:45:18Z

能不能把容器化开发提上日程，现在环境受限，长期开机的也就arm小主机，win版不那么实用呀

suxutao · 2024-05-07T10:46:09Z

能不能给软件添加夜间模式啊，软件用着不错，但白色背景眼睛看着不舒服

liangfengyuan · 2024-05-10T02:56:34Z

构建Docker镜像和Web前端页面，可以远程访问，调用和执行服务器的爬虫任务；通过http调用的方式直接执行任务。

这个急需啊，现在做了计划任务。但同时只能跑一个任务。而且我不好判定当前的任务是否完成。现在只能租略的加机器来处理这个问题。最好是有一个主控，可以做所有的定时，把任务分发到相应的机器上，最好是Docker，这样部署在K8S里就可以按需自动加Pod了，现在浏览器是用的Docker做的。但是感觉效果不大。因为请求端也不能一台机器上同时跑。

还是要感谢大神提供这么优秀的作品。确实省了不少的时间来做采集。

baipiaocong123 · 2024-05-16T05:17:32Z

采集图文文章时，innerHTML中希望可以加入一个，可以过滤标签的功能。希望能优化下：如这篇文章：https://www.dongchedi.com/article/7238974191096152615,只需要p标签和img，如果用之前视频教程的方式图文已经分开了。希望把一个字段里面有文本和img标签，这样另存doc方便些

NaiboWang mentioned this issue May 15, 2023

xpath可以搞多种策略然后让用户选择 #31

Closed

NaiboWang pinned this issue May 15, 2023

yfdyh000 mentioned this issue May 21, 2023

代码方面建议及问题若干 #42

Closed

33 tasks

NaiboWang mentioned this issue Jan 3, 2024

判断是否包含多个关键词中的任意一个 #265

Closed

This comment was marked as resolved.

Sign in to view

记录下待开发的功能，大家也可以来提想要的功能 #25

记录下待开发的功能，大家也可以来提想要的功能 #25

Comments

NaiboWang commented May 13, 2023 • edited

yfdyh000 commented May 20, 2023

NaiboWang commented May 20, 2023 • edited

timodaxia2019 commented Jun 1, 2023

NaiboWang commented Jun 2, 2023

SarcomTDG commented Jun 2, 2023

wzt0501 commented Jun 7, 2023

Forrestz88 commented Jun 21, 2023

NaiboWang commented Jun 21, 2023

Forrestz88 commented Jun 21, 2023

NaiboWang commented Jun 21, 2023

jyxzwd commented Jun 21, 2023 • edited by NaiboWang

NaiboWang commented Jun 21, 2023

BanKnight commented Jun 23, 2023 • edited

liujuncn commented Jun 26, 2023

NaiboWang commented Jun 26, 2023

liujuncn commented Jun 27, 2023

NaiboWang commented Jun 27, 2023

liujuncn commented Jun 28, 2023 • edited

NaiboWang commented Jun 28, 2023 • edited

liujuncn commented Jun 28, 2023

NaiboWang commented Jun 28, 2023

aogg commented Jul 3, 2023

NaiboWang commented Jul 3, 2023

handeserve commented Jul 5, 2023

NaiboWang commented Jul 5, 2023

handeserve commented Jul 5, 2023

NaiboWang commented Jul 5, 2023

cat2123 commented Jan 3, 2024 • edited by NaiboWang

NaiboWang commented Jan 3, 2024

cat2123 commented Jan 3, 2024

cat2123 commented Jan 3, 2024 • edited

NaiboWang commented Jan 3, 2024

cat2123 commented Jan 3, 2024

cat2123 commented Jan 3, 2024

NaiboWang commented Jan 3, 2024 • edited

Summer-Russ commented Jan 16, 2024

NaiboWang commented Jan 16, 2024

yulongMao commented Jan 25, 2024

libaise commented Jan 29, 2024

libaise commented Jan 29, 2024

NaiboWang commented Feb 2, 2024

MisteryLiuCode commented Feb 21, 2024

NaiboWang commented Feb 22, 2024

ltjfk commented Mar 13, 2024

NaiboWang commented Mar 13, 2024

FinchXia commented Mar 18, 2024

NaiboWang commented Mar 18, 2024

Prime-H commented Mar 27, 2024

leic4u commented Apr 4, 2024

Y843512864 commented Apr 7, 2024 • edited

trainliang commented Apr 16, 2024

This comment was marked as resolved.

This comment was marked as resolved.

suxutao commented May 7, 2024

liangfengyuan commented May 10, 2024 • edited

baipiaocong123 commented May 16, 2024 • edited

NaiboWang commented May 13, 2023 •

edited

NaiboWang commented May 20, 2023 •

edited

jyxzwd commented Jun 21, 2023 •

edited by NaiboWang

BanKnight commented Jun 23, 2023 •

edited

liujuncn commented Jun 28, 2023 •

edited

NaiboWang commented Jun 28, 2023 •

edited

cat2123 commented Jan 3, 2024 •

edited by NaiboWang

cat2123 commented Jan 3, 2024 •

edited

NaiboWang commented Jan 3, 2024 •

edited

Y843512864 commented Apr 7, 2024 •

edited

liangfengyuan commented May 10, 2024 •

edited

baipiaocong123 commented May 16, 2024 •

edited