之所以要做这个API,因为我的博客有百度收录检测,但是速度有点慢。后来觉得可能是因为服务器在国外,就有了把API搬到国内的想法。 但是国内的 API 已经在 Python 中构建了一个随机图服务,添加一个 PHP 不好吗?让 ...
之所以要做这个API,由于我的博客有百度收录检测,可是速度有点慢。后来感觉能够是由于办事器在国外,就有了把API搬到国内的想法。 可是国内的 API 已经在 Python 中构建了一个随机图办事,增加一个 PHP 欠好吗?让我们重写一个 API 我们有了这个项目。代码已经在 GitHub 上了,所以虽然分享吧。 查询次数过于频仍有大要率会查询自己失利,今朝我们只是一个半制品,只合适企业自用 思绪 该检测方式的原始作者似乎是一个间接查询网址,然后婚配几多个搜索成果,假如搜索成果大于0则以为包括。但这类方式存在一个题目。百度偶然包括与方针网址无关的页面,是以测试并不正确。 我在网上搜索,其他一些文章在寻觅百度跳转链接,然后一个接一个地获得实在的链接,然后将它们与查询的 URL 相婚配,假如它们婚配,就意味着它们已经被包括在内。这是个好主张。理论上很是切确,可是有点耗时。归正这是个计划。先试试。 惋惜技术有限,百度跳转后没法获得实在链接,栈溢出上给出的一切处理计划都不起感化,这个计划失利了。 PS:记录下跳转后获得实在链接的几种方式,今后能够会用到。 layui-box layui-code-view" style="margin-top: 1.5em; margin-bottom: 1.5em; padding: 0px; -webkit-tap-highlight-color: rgba(0, 0, 0, 0); overflow-wrap: break-word; box-sizing: border-box; position: relative; border: none rgb(222, 229, 231); background-color: rgb(245, 245, 245); overflow: hidden; line-height: 1.42857; word-break: break-all; border-radius: 0px; background-size: 30px, 30px; white-space: pre-wrap; font-size: 13px; font-family: Menlo, Monaco, Consolas, "Courier New", monospace; color: rgb(51, 51, 51);"> 分析 只能一步步分析了,首先看个已收录的文章: 看看没有收录的文章: 我有个主张。我刚刚剖析了 <b>url<b> 假如可以婚配已经包括的说明,不婚配则不包括。依照这些方式,代码的第一个版本很快就写好了。 随意测试了几篇文章,确切有用,可以收工了……且慢,再找找其他人的文章测试一下吧。 输入 http://www.ruanyifeng.com/blog/2017/12/blockchain-tutorial.html,嗯?怎样返回 403 了?用百度搜了一下,没错啊,已经收录了,而且搜索出来的成果也是加粗的。 仔细看。哦…本来百度隐藏了一部分太长的网址,所以没法婚配。这个很难,确切可以截取一部分URL停止婚配,可是这个不正确。 仔细观察了一下,发现假如百度真的包括了这个网址,那末这个网址就会出现在搜索成果的顶部,在第一个和第二个搜索成果之间会出现一个“这里是包括... ... 的页面”的信息。所以我有了一个新的想法,首先,捕捉网页的文本从起头到“这是网页的内容...”然后利用正则表达式婚配百度跳转链接。假如你在百度找到了第一个婚配的搜索成果,那末这篇文章将会被包括在内。所以我写了代码的第二个版本。 嗯,很好,此次是真的就行了……(Flag 预定)。 PS:可以看到代码里有个网址的预处置,这是由于网址没有最初一个 跨域题目测试没题目,那便可以上线了,摆设到办事器上,依照 https://www.sitstars.com/archives/65/中的教程点窜 API 地址,看下情况。题目又来了…… API 请求地址出现了一个鲜红的红色,提醒 参考材料:https://fastapi.tiangolo.com/tutorial/cors/ 简单来说,加入以下代码便可以了:
加好后再测试一下,成功显现!而且速度还挺快。 百度本身题目 就在革新网站看结果的时辰,悲剧了。网页上忽然提醒我百度搜索失利!这是为什么呢?我手动试过API,成果输出不了,可是当地用没题目。ip被百度黑是由于我搜索太频仍吗?因而我找了很多处理方式,比如headers加更多参数,改代理ip,完全没用! 我检察了作者的博客,留意到在 PHP API 代码中有一个 CURLOPT,百度立即留意到该函数用于跟踪 URL 重定向。呃..?有没有能够是办事器搜索速度太快致使百度没有对重定向做出反应。是以,我利用了第二部分 print ()中的代码来获得最初一次跳转的 URL,并检察它将我引向何处。 点窜完代码重新摆设,没想到此次API又有用了。似乎是痉挛的题目。我革新了几次都没结果。这时辰办事器的控制台上也刷到了重定向的网址,就像我拼接的百度查询网址一样!什么情况?我自己对收集领会很少,所以最初也没有处理的法子。我只是晓得另一种判定百度查询失利的方式:只要有重定向,就一定会失利。 |
array_chunk在php里是把把数组数据分割为一个带有中国两个重要元素的数组块,那么在写
免费源码有没有免费的把人声和背景音乐分离的软件或者在线网站 小编亲测分享!第一,
一般超级密码的获取过程略掉!都可以直接拨打运维师傅电话,只要说话客气点都会给的!
由人工智能公司开放式人工智能发起的 CHATGPT 将自己定义为优化会话的语言模型。这种
都有站长亲测 宝塔Linux面版最新版本v8.1.0开心版/宝塔企业版破解教程
全都有综合资源网温馨提示:现在很多的时候有很多网站必需要防止被他人盗用,或是其他