豆腐西施黑帽seo欢迎你!

微信:a654321AD QQ:2040768308

当前位置: 首页 > seo全网营销

探讨SEO如何利用机器学习预测谷歌搜索排名?

时间:2022-08-11人气:作者: 佚名

在 2015 年末,JR Oakes 他和同事们用机器学习做了一个实验,试图预测谷歌在特定网页上的搜索排名。下面的文章是他们的发现,他们希望这些结果能有所帮助 SEO 从业者。

机器学习正成为许多大公司无法获得的工具。相信大家都听说过谷歌的人工智能算法打败了前世界围棋冠军,谷歌的搜索结果排名算法 RankBrain。机器学习早已不是数学研究者的神秘话题。在有大量数据的行业中,技术总是有用的。

机器学习也有能力改变传统的网站推广和 SEO(搜索引擎优化)。去年晚些时候,我和同事开始了一个实验,我们将一个流行的机器学习算法应用到谷歌对特定网页的排名中。最后,我们得到了一个 41% 正确肯定和 41% 正确否定数据集。

在接下来的几段中,我会带你去做我们的实验,我会讨论一些正确的事情 SEO 技术问题非常重要。

我们的实验

在 2015 年底,我们开始听到越来越多的机器学习及其处理大量数据的能力。我们越努力,就越专业,很快就会帮助我们经营这个世界。

当时,我们遇到了有才华的巴西数据科学家 Alejandro Simkievich。最有趣的是,他正在研究搜索领域的相关性和转化率优化(CRO)等问题,并且正在准备参加 Kaggle 竞赛。(Kaggle 是科学家和机器学习爱好者举办机器学习竞赛的网站)

Simkievich 数据科学与机器学习咨询公司 Statec 该公司的创始人在消费品、汽车、营销和互联网行业拥有大量的客户。Statec 许多工作都集中在评估电子商务搜索引擎的相关性上。我们和他的合作似乎是一种自然结合,因为我们也痴迷于利用数据来帮助人们做出 SEO 决策。

我们决定使用可用的数据来预测网页排名,如抓取工具、排名跟踪、链接工具和其他工具。我们知道完全预测正确的可能性很低,但我们仍然可以在使用机器学习方面取得巨大的成功。

数据

机器学习基本上是利用计算机程序收集数据,转换数据,生成有价值的信息。「转化」这是一个非常普遍的词,它不能公平地指代它所涉及的一切,但它有助于我们理解。这里的关键是所有的机器学习都是从某种输入数据开始的。(注:有很多教学讲座和课程可以免费获得机器学习的基础知识,这里就不深入介绍了。如果你有兴趣了解更多,可以去 Coursera 参加吴恩达的免费课程。)

我们的基本论点是,我们必须找到用于训练机器学习模型的数据。在这方面,我们不太清楚什么是有用的,所以我们使用一种生活方式,并尽可能多地掌握我们能想到的特征。 GetStat 和 Majestic 提供了许多极其重要的数据集,我们建立了一个网络爬虫来捕捉其他一切。

机器学习正迅速成为许多大公司不可或缺的工具。确切地说,每个人都听说过谷歌的人工智能算法击败了前世界围棋冠军,也听说过像 RankBrain 这种技术,但机器学习不需要假装神秘,只需要究领域闭门造车。有许多可用的文献和技术,它们对有许多可操作数据的行业都很有用,给这些行业带来了希望。

在下面,我将带你了解我们的实验,我将讨论一些重要的文献和技术,他们对初步理解 SEO 是重要的。

我们的目标是获得足够的数据来成功地训练一个模型,这意味着我们需要大量的数据。对于第一个模型,我们有约有 20 万观测值(行)和 54 个属性(列)。

背景知识

正如我之前所说,我不会谈论很多关于机器学习的细节,但掌握以下几点很重要。一般来说,大多数机器学习工作都在处理回归、分类和聚类算法。我将在这里定义前两个,因为它们与我们的项目有关。

回归算法通常用于预测数字。如果你需要创建一个基于股票特征预测股票趋势的算法,你必须选择这个模型。它们被称为连续变量。

分类算法用于预测许多可能答案中的一类成员。这可能很简单「是或否」分类,或者「红、绿或蓝」的分类。假如你需要根据自己的特点来预测一个不认识的人是男是女,你必须选择这个模型。它们被称为离散变量。

谷歌排名

由于我们有数据,我们尝试了几种预测谷歌排名的方法。起初,我们使用回归算法(regression algorithm)。也就是说,我们追求网站在搜索给定的单词时的准确排名(例如,搜索单词 Y,预测一个网站的排名 X),然而,几周后,我们意识到这项任务太难了。首先,排名是指网站与其他网站的相对关系,而不是网站的内在属性。由于我们不能在给定的搜索词条件下对所有网站进行排名来训练我们的算法,我们重新表达了这个问题。

我们意识到,就谷歌排名而言,最重要的是一个给定的网站是否最终能在给定的搜索词中排名第一。因此,我们重新分析了这个问题:如果我们预测谷歌在搜索一个单词时能否进入前十名呢?

从这个角度来看,问题变成了二进制(是否)分类,我们只有两个分类:1)网站排名前十,2)网站排名前十。另外,我们决定预测一个给定网站属于这两类的概率,而不是做出是否预测。

然后,为了迫使我们自己做出更明确的决定,我们设置了一个网站是否排名前十的阈值。例如,如果我们预测阈值 0.85 ,然后,如果我们预测网站排名前十的概率高于 0.85 ,我们认为这个网站将进入前十。

我们决定使用混合矩阵来衡量该算法的性能。

下图总结了整个过程:

理清数据

我们使用了一个有 20 一万条记录的数据包括大约 2000 不同的关键词/搜索词。一般来说,我们可以根据属性将这些关键字分为以下类别:

数字属性

类别变量

文字属性

数字属性是指关键字可以在无限或有限的范围内表示任何数字。

类别变量是指可以表示有限数量的值,每个值代表不同的群体或类别。

文本属性显然是指文本,包括搜索关键字、网站内容、标题、元数据描述(meta description),锚文本,标题(H1 H2,H3)等。

特征工程

我们设计了与排名相关的额外属性。

大多数属性是布尔逻辑体系的(真或假),但是一些是数值的。例如,布尔逻辑属性是网站文本中的精确搜索词,而数值属性是网站文本中标记的搜索词。

以下是我们设计的一些属性。

运行 TF-IDF算法

我们使用预处理文本特征 TF-IDF 算法(检索词频率,反转文档频率)。该算法将每个实例视为文件,并将所有实例集合视为语料库。然后,它给每个单词分数。文件中词汇的频率越高,语料库中的频率越低,分数越高。

我们试过两种 TF-IDF 方式,只得到依赖于模型的略微不同的结果。第一种方法是先连接所有文本特征,然后应用 TF-IDF 算法(也就是说,单个例子的所有文本列都连接成文件,一系列这样的例子构成语料库)。第二种方法是单独应用每个特征 TF-IDF 算法(也就是说,每个单独的文本列都是一个语料库),然后连接由此产生的数组。

用 TF-IDF 算法得出的数组非常稀疏(给定的例子大多数行列的数据为零),因此我们使用降维(奇异值分解)来减少属性/行列的数量。

最后一步是连接从特征类别中获得的所有行列,形成一个数组。这就是我们完成上述所有步骤(澄清特征,将分类特征转换为标签,并在标签上运行独热码,应用程序 TF-IDF 算法是在文本特征和将所有特征按比例排列到平均值的两端之进行的。

模型和集合

在获得和连接所有属性后,我们运行了许多不同的算法。结果表明,最有前途的算法是逐渐增长分类器( gradient boosting classifier),脊分类器( ridge classifier)两层神经网络。

最后,我们使用简单的平均值将模型结果集中在一起,因此我们获得了一些额外的收获,因为不同的模型往往有不同的偏差。

优化阈值

最后一步是设定阈值,将概率估计转换为二进制预测(「是的,我们预测该网站位于谷歌前十」或「不,我们预测这个网站不会进入谷歌前十。」)为此,我们优化了交叉确认集(cross-validation set ),然后在测试集中使用阈值。

结果

我们认为测量模型有效性最具代表性的测量是混淆矩阵。混淆矩阵是一种可视化表,主要用于比较分类结果和实际测得值。混淆矩阵的每一列代表预测类别,每一列的总数代表预测类别数据的数量;每一行代表数据的真实归属类别,每一行的总数代表该类别数据实例的数量。

我相信你听说过「每天有两次坏钟可以正确指示时间」这句格言。输入每个关键字 100 随意猜测结果总是可以的 90% 预测正确率「不能排在前十」的情况。混淆矩阵确保肯定和否定的答案是正确的。在我们最好的模型中,我们得到了大约 41% 正确的肯定和 41% 正确否定。

另一种可视化模型效果的方法是使用特征曲线(ROC curve)。特征曲线是「用图表解释二进制分类器系统(discrimination threshold)而变化的效率。」非线性模型用于整个系统 XGBoost 和神经网络,线性模型是逻辑回归。整个系统的布局是线性和非线性模型的结合。

XGBoost 是「极端渐进增长(Extreme Gradient Boosting)」渐进增长的简称是「一种针对回归和分类问题的机器学习技术,产生弱预测模型集成形式的预测模型,典型的是决策树。」

下图显示了特征类别对该模型最终预测精度的相对贡献。不同于神经网络, 其它模型 XGBoost 允许您轻松窥视模型内部,从而判断特定特征持有的相对预测权重。

我们对从我们给定的特征中建立预测模型感到惊讶。我们焦虑的是,特征的局限性会导致这个项目失败。理想情况下,我们有办法捕捉所有网站,从而了解它们的整体相关性。也许,我们可以收集公司谷歌评论的数量。我们也知道谷歌有很多关于链接和引用的数据,比我们想要收集的数据要好得多。

结论

机器学习是一种强大的工具,即使你不知道它是如何工作的 。我读了很多关于 RankBrain 工程师们无法理解它是如何工作的。这就是为什么机器学习神奇而美丽。与生命在进化过程中获得不同特征相似,机器学习在这个过程中找到了答案,而不是给出既定的方法。

当我们对第一个模型的结果感到满意时,我们需要知道互联网比这个小样本更大。我们的一个关键目标是建立一个机器学习工具,可以在互联网上处理大量的数据和信息,我们也在改进当前的模型。

对我自己来说,这个项目最大的意义是我开始了解机器学习对我们行业的巨大价值。在我看来,机器 器学


标签: 预测   一个   数据   我们