Google搜索大业信托口碑优化专家 - 选择最多的方案

编辑精选《机器学习:实用案例研究》是机器学习和数据挖掘领域的经典书籍,将基础理论与实践完美结合,是一本逻辑严密、内容详实的参考书,适合所有相关技术人员。《机器学习:实践案例研究》的两位作者都有着丰富的数据分析和处理经验,是机器学习实践技术的

机器学习:实用案例解析-机器学习实战

编辑精选

《机器学习:实用案例研究》是机器学习和数据挖掘领域的经典书籍,将基础理论与实践完美结合,是一本逻辑严密、内容详实的参考书,适合所有相关技术人员。

《机器学习:实践案例研究》的两位作者都有着丰富的数据分析和处理经验,是机器学习实践技术的积极实践者。

海报:

简单的介绍

O'Reilly Media 通过书籍、杂志、在线服务、研究和会议传播创新知识。自 1978 年以来,O'Reilly 一直是前沿发展的见证者和推动者。超级极客正在创造未来,我们关注真正重要的技术趋势——通过放大那些“微妙的信号”来刺激社会对新技术的应用。作为技术社区的积极参与者,O'Reilly 的发展充满了对创新的倡导、创造和推动。

O'Reilly 为软件开发者带来了革命性的“动物书”;创建了商业网站(GNN);组织了影响深远、以致开源软件运动以它命名的开源峰会;创办了 Make 杂志,成为 DIY 革命的主要先驱;公司继续以各种形式将信息与人联系起来。O'Reilly 的会议和峰会将众多超级极客和远见卓识的商业领袖聚集在一起,共同描绘出创造新产业的革命性理念。作为技术人士获取信息的选择,O'Reilly 如今也将先驱专家的知识传递给普通的计算机用户。无论是通过图书出版、在线服务还是面对面的课程,每一款 O'Reilly 产品都体现了公司不可动摇的理念——信息是激发创新的力量。

关于作者

德鲁·康威是一位机器学习专家,在数据分析和处理方面拥有丰富的经验。他目前使用数学、统计学和计算机技术研究国际关系、冲突和恐怖主义。他曾在美国情报和国防部门担任研究员数年。他拥有纽约大学政治学博士学位,曾为多家杂志撰写文章。他是机器学习领域的知名学者。

John Myles White 是一位机器学习专家,在数据分析和处理方面拥有丰富的经验。他目前从理论和实验的角度研究人类如何做出决策。他也是多个流行 R 包的主要维护者,包括 ProjectTemplate 和 log4r。他拥有普林斯顿大学哲学博士学位,曾为多家技术杂志撰稿,发表过多篇机器学习论文,并在许多国际会议上发表演讲。

陈凯江是新浪微博搜索部研发工程师,独立完成过微博反垃圾系统、微博精选内容挖掘算法、自助客服系统(包括自动回复、主动挖掘、舆情监测)等项目。目前主要从事社交挖掘、推荐算法研究、机器学习、自然语言处理相关工作,研究方向为社交网络个性化推荐。

刘逸哲,阿里巴巴,CBU基础平台部搜索与推荐团队核心技术及查询分析负责人,机器学习技术领域及圈子负责人。曾任雅虎中国相关度团队、自然语言处理团队算法工程师;AvePoint.inc开发工程师,从事企业级搜索引擎开发。研究兴趣为机器学习、自然语言处理、个性化推荐算法在大规模数据上的应用。

孟晓楠,一淘广告技术,阿里巴巴非搜索广告算法负责人,负责用户行为分析、建模与细分、RTB竞价算法、展示广告CTR预估及SEM优化。曾就职于网易杭州研究院,参与网易博客产品分布式全文检索系统及数据挖掘算法开发。研究兴趣包括计算广告技术、机器学习、大数据技术、信息检索等。

精彩的书评

“O'Reilly Radar 博客非常受欢迎。”

- 有线

“奥莱利凭借一系列非凡的想法创建了价值数百万美元的企业,我希望我也曾想到过这些。”

——商业2.0

“O'Reilly 会议绝对是汇聚重要思想领袖的宝贵资源。”

——CRN

“O'Reilly 的书代表了一个有用且有前景的、需要研究的主题。”

——爱尔兰时报

“蒂姆是一位独特的商人,他不仅具有长远而广阔的眼光,还遵循尤吉·贝拉的建议:‘如果你走到岔路口,就选择岔路。’回想起来,蒂姆似乎每次都选择了岔路,虽然主路也不错,但也有几次转瞬即逝的机会。”

——Linux 杂志

目录

前言

第 1 章 使用 R

R 与机器学习

第2章 数据分析

分析与验证

什么是数据

推断数据类型

推断数据的含义

数值汇总表

平均值、中位数、众数

分位数

标准差和方差

可视化和分析数据

与列相关的可视化

第 3 章 分类:垃圾邮件过滤

要么/要么:二元分类

随意谈条件概率

尝试编写你的第一个贝叶斯垃圾分类器

第 4 章 排序:智能收件箱

当顺序未知时如何排序

按优先级对电子邮件进行排序

实现智能收件箱

第 5 章 回归模型:预测网页访问量

回归模型简介

预测网络流量

定义相关性

第 6 章 正则化:文本回归

数据系列之间的非线性关系:超越直线

避免过度拟合的方法

文本回归

第 7 章 优化:密码破解

优化介绍

岭回归

密码破解优化问题

第 8 章 PCA:构建股票市场指数

无监督学习

主成分分析

第 9 章 MDS:可视化参议员的相似之处

基于相似性的聚类

如何对美国参议员进行聚类

第 10 章 kNN:推荐系统

k-最近邻算法

R语言包安装数据

第 11 章 社交图谱分析

社会网络分析

黑客入侵 Twitter 的社交图谱数据

分析 Twitter 社交网络

第十二章 模型比较

SVM:支持向量机

算法比较

参考

在图 11-7 中,我们关注网络的左半部分,并移除边,以便更容易看到节点的标签。快速浏览一下聚类的 Twitter 用户名,可以发现 Drew 的网络由 Drew 在 Twitter 上关注的数据专家组成。首先,我们看到浅绿色的知名数据专家,如 Tim O'Reilly (timoreilly) 和 Nathan Yau (flowingdata),因为他们都属于自己的一类。紫色和红色组也很有趣,因为它们都包含数据黑客,但被一个关键因素分成了两部分:Drew 的紫色朋友都是数据社区的杰出成员,如 Hilary Mason (hmason)、Pete Skomoroch (peteskomoroch) 和 Jake Hofman (jakehofman),但他们都不是 R 语言社区的活跃成员。 另一方面,红色节点都是 R 语言社区的活跃成员,包括 Hadlev Wickham (hadleywickham)、David Smith (revodavid) 和 Gary King (kinggary)。此外,力导向算法成功地将圈子成员聚集在一起,并将属于两个圈子的节点放在圈子的边缘。我们可以看到 John (johnmyleswhite) 是紫色的,但他被放在许多红色节点之中。这是因为 John 是两个圈子的杰出成员,数据反映了这一点。其他例子包括:JD Long (cmastication) 和 Josh Reich (i2pi)。

尽管 Drew 花费大量时间与数据社区成员(包括数据社区的 R 用户和非 R 用户)进行交流,但 Drew 还使用 Twitter 与符合其他兴趣的社区进行交流。他的一个特别兴趣是他的学术生涯,他专注于国家安全技术和政策。在图 11-8 中,我们突出显示了 Drew 网络的右半部分,其中包含来自这些兴趣相关社区的成员。与数据专家组类似,这部分包含两个子组,一个为蓝色,另一个为绿色。与前面的示例一样,节点的颜色和位置反映了它们在网络中扮演的角色。

蓝色片段中的 Twitter 用户分散开来:一些靠近 Drew,位于网络左侧,而另一些则位于网络右侧,靠近绿色组。靠近左侧的用户与技术在国家安全中的作用这一话题有关,包括 Sean Gourley (sgourley)、Lewis Shepherd (1ewisshepherd) 和 Jeffrey Carr (Jeffrey Carr)。靠近绿色组的用户更关心国家安全政策,与绿色组成员相似。在绿色组中,我们看到 Twitter 上有许多国家安全社区的知名成员,包括 Andrew Exum (abumuqawama)、Joshua Foust (joshua Foust) 和 Daveed Gartenstein-Ross (daveedgr)。与之前一样,有趣的是,那些属于两个组的人被放在了集群的边缘,比如 Chris Albon (chrisalbon),他在两个圈子中都很有名。

... 前言/介绍

【译者序】

在当今的工业界,特别是互联网领域,数据规模越来越大,用传统方法几乎不可能有效地从中发现模式来提高生产力,很多任务只能借助计算机才能完成。因此,机器学习这门新兴学科显得越来越重要,它已经在搜索、推荐、数据挖掘等多个领域大放异彩。机器学习是一门涉及概率论、统计学、高等数学、计算机科学等多门学科的交叉学科,致力于设计一种算法,使计算机具有“学习”的能力,通过发现经验数据中隐藏的模式来预测未知数据。

大数据时代是机器学习最好的时代,因为数据不再是问题,海量的数据可以为各种问题收集。然而对于很多人来说,这门交叉学科本身是神秘而陌生的,特别是对于没有系统学习过相关基础学科的人来说。如今出版的很多机器学习书籍都有这样的特点:公式多、晦涩难懂。这让很多程序员望而却步。然而当我第一次读到这本书的英文版时,我完全相信机器学习是可以用简单易懂的方式来解释的,让知识的传递“悄无声息”地实现。

本书的原则是:熟能生巧,只要多做,就没有攻克不了的技术难题。因此,作者期望读者是像计算机黑客一样的人,对技术有真正的求知欲望和好奇心,愿意亲自动手做而不是只是说说而已。本书精心挑选了12个机器学习案例,由浅入深,涵盖方方面面,包括基础知识(如数据分析)和当前热门社交网站的推荐案例。书中的每一个案例都由作者亲口讲述,逐一分析关键算法的代码,没有丝毫的学术气息,触动着每一个机器学习初学者最深的内心。

书中所有算法均用 R 实现。R 是统计学的开源脚本语言,基于其开源特性,拥有来自世界各地的开源倡导者贡献的各种统计学相关软件包,稳定便捷,尤其是对数据可视化的支持,是一个既轻量又实用的强大工具。书中所有源代码和数据均可在原书官网免费下载。阅读过程中,仿佛作者就在你身边,为你讲解代码和思路,帮你排除错误、优化结果。

书中的案例既涵盖分类和回归问题,也涵盖监督和无监督学习。所选案例都很有趣,例如分析 UFO 目击事件、破译密码、预测股票、分析美国参议员的“派系”等。这里我就不剧透了,大家可以尽情享受学习的乐趣。

书中的12个案例并没有特别的相互依赖(除了R语言基础知识,只有其他章节的一些知识点相互依赖)。你可以像看电视剧一样一个一个地播放,也可以像看小品一样一个一个地演。学习完这些案例,相信你会对机器学习有所了解,然后根据自己的实际情况进行更深入的研究。

本书翻译由三位来自互联网界的工程师共同完成,其中新浪微博的陈开江负责前言及1至4章的翻译;阿里巴巴B2B的刘逸泽负责5、8、9、11章的翻译;阿里巴巴一涛的孟晓楠负责6、7、10、12章的翻译;同时,北京理工大学的罗森林教授自愿承担了全书的校对工作。

本书的出版,首先要感谢机械工业出版社的编辑吴毅,她给了我们三位工程师学习和传承知识的机会,她经验丰富,在翻译过程中给了我们很多建设性的指导。其次,我们要感谢罗森林教授,他在百忙之中为我们校对了全书,让国内的机器学习研究者感受到了这本书的魅力。最后,我们要感谢互联网,因为译者和这本书的缘分是从互联网开始的,从看到原著,报名翻译,到组建翻译团队,再到翻译过程中的讨论,这一切都是通过互联网完成的。

虽然罗森林教授对本书进行了认真的审阅,并提出了宝贵的建议,但由于译者本人的水平有限,书中难免会有不恰当甚至错误的翻译。诚恳的请求机器学习社区的前辈和同仁们多多指教,以便我们能够继续更好地把先进的技术传达给大家,让更多的机器学习爱好者成为机器学习黑客。

我们坚信集体智慧远超个人智慧,因此我们真诚希望每个人都能贡献自己的智慧。无论你对翻译本身有什么意见或建议,或者有机器学习方面的经验,都欢迎在我们的微博上进行交流和切磋。让我们一起贡献自己的智慧,在集体智慧中互相学习,共同进步。

机器学习:实际案例研究 epub pdf mobi txt 电子书下载 2024

机器学习:实际案例研究下载 epub mobi pdf txt 电子书 2024

机器学习:实用案例解析-机器学习实战