为什么谷歌双子座“泄露”聊天数据?
在谷歌的双子座公开发布后仅二十四小时,就有人注意到聊天记录被公开显示在谷歌的搜索结果中。谷歌迅速回应了似乎是泄密事件。发生这种情况的原因非常令人惊讶,并不像最初看起来那么险恶。
@shemiadhikarath在推特上写道:
“在@Google Gemini推出几个小时后,像Bing这样的搜索引擎已经索引了Gemini的公共对话。
他们发布了一张网站搜索的截图 gemini.google.com/share/
但是,如果你看一下屏幕截图,你会看到有一条消息说,“我们想在这里向你展示一个描述,但网站不允许我们。
广告
到 2 月 13 日星期二清晨,谷歌双子座聊天开始从谷歌搜索结果中消失,谷歌只显示了三个搜索结果。到了下午,搜索结果中显示的泄露的双子座聊天记录数量已经减少到只有一个搜索结果。
双子座聊天页面是如何创建的?
Gemini 提供了一种创建指向私人聊天的公开可见版本的链接的方法。
广告
Google 不会根据私人聊天自动创建网页。用户通过每个聊天底部的链接创建聊天页面。
如何创建共享聊天页面的屏幕截图
为什么双子座聊天页面被索引?
聊天页面被抓取和索引的明显原因是因为谷歌忘记在双子域的根目录中放置一个robots.txt,(gemini.google.com)。
广告
robots.txt文件是用于控制网站上的爬虫活动的文档。发布者可以使用 Robots.txt 协议中标准化的命令来阻止特定的爬网程序。
我在 2 月 13 日凌晨 4 点 19 分检查了robots.txt,发现一个已经到位:
接下来,我查看了互联网档案馆,查看了robots.txt文件已经存在了多长时间,并发现它至少从 2 月 8 日开始就在那里,也就是 Gemini 应用程序宣布的那一天。
广告
互联网档案馆的屏幕截图
这意味着聊天页面被抓取的明显原因不是正确的原因,这只是最明显的原因。
尽管 Google Gemini 子域有一个robots.txt可以阻止来自 Bing 和 Google 的网络爬虫,但他们最终是如何抓取这些页面并将其编入索引的?
阅读:
6个常见的Robots.txt问题以及如何解决它们
发现和索引私人聊天页面的两种方式
- 某处可能有一个公共链接。
- 不太可能,但可能是通过从 cookie 链接的浏览历史记录发现的。
更有可能存在公共链接。
我向Bill Hartzer(@bhartzer)询问了这件事,他发现了一个索引页面的公共链接:
所以现在我们知道,很有可能是公共链接导致这些 Gemini Chat 页面被抓取和索引。
Bill Hartzer 提出了以下观察:
“尽管 Gemini URL 在 robots.txt 文件中被阻止,但在博客评论中有一个指向 Gemini URL 的链接,因此 Gemini URL 正在被索引。
这只是表明 Google 仍会将 robots.txt 文件中被阻止抓取的网址编入索引。
如果 Google 真的想确保 Gemini URL 没有被索引,他们将允许在robots.txt文件中抓取并在页面上添加 noindex 元标记。也许谷歌应该在这里遵循它自己的建议?
为什么聊天页面开始从搜索结果中掉落?
但是,如果有一个公共链接,那么为什么谷歌开始完全放弃聊天页面呢?Google 是否为搜索抓取工具创建了内部规则,以便从搜索索引中排除 /share/ 文件夹中的网页,即使这些网页是公开链接的?
深入了解 Bing 和 Google 搜索如何索引内容
现在,对于所有对 Google 和 Bing 如何索引内容感兴趣的搜索极客来说,这是真正有趣的部分。
Microsoft Bing搜索索引对Gemini内容的响应方式与Google搜索方式不同。虽然谷歌在 2 月 13 日凌晨仍然显示三个搜索结果,但 Bing 只显示了来自子域的一个结果。索引的内容和数量似乎是随机的。
为什么双子座聊天页面会泄露?
以下是已知的事实:
- 谷歌自 2 月 8 日以来一直robots.txt。
- Google 和 Bing 都对 gemini.google.com 子域中的页面进行了索引。
- 谷歌和必应都可能发现了聊天的链接,并随后将它们编入索引。
- 搜索引擎对内容进行索引,而不管robots.txt如何,然后开始转储它们。
这让我们回到了为什么这些页面开始从谷歌和必应的搜索结果中消失的问题。我的猜测是,Google Gemini 聊天页面是低质量的网页,不值得展示本质上是长尾搜索 (
site:gemini.google.com/share/)。真的没有有用的理由在搜索结果中显示这些页面。
被Robots.txt阻止的内容仍然可以被发现、抓取并最终出现在搜索索引中,如果页面有用,它们也可以排名,除非它们没有用。我认为情况可能是这样。