随着互联网的发展,近年来关于Web数据挖掘的研究方兴未艾,加之多年从事数据挖掘方面的教学工作,笔者一直希望撰写一本这方面的书,以飨读者,其目的就是作为想了解和进人Web数据挖掘研究和实践领域的工作者的“他山之石”,帮助他们把握本领域的全貌,掌握研究和解决Web数据挖掘问题的切入点。
伴随互联网的应用,社区、论坛、微博上留下了浩瀚的数据信息,这些数据蕴藏着巨大的商机和社会价值。与此同时,Web上信息爆炸与知识贫乏的矛盾依然存在,如何在海量的Web数据中发现知识,并用于社会实践,仍然是亟待解决的问题。
第1章Web数据挖掘概述
学习目标
1.1 Web数据挖掘基础
1.2 Web数据挖掘应用
1.3 Web数据挖掘面临的挑战
1.d Web数据挖掘的研究热点及发展趋势
本章小结
复习思考题
第2章Web挖掘的内容及使用技术
学习目标
2.1 Web内容挖掘
2.2 Web结构挖掘
2.3 Web使用挖掘
2.4 Web挖掘的实现技术
本章小结 第1章Web数据挖掘概述
学习目标
1.1 Web数据挖掘基础
1.2 Web数据挖掘应用
1.3 Web数据挖掘面临的挑战
1.d Web数据挖掘的研究热点及发展趋势
本章小结
复习思考题
第2章Web挖掘的内容及使用技术
学习目标
2.1 Web内容挖掘
2.2 Web结构挖掘
2.3 Web使用挖掘
2.4 Web挖掘的实现技术
本章小结
复习思考题
第3章Web抓取
学习目标
3.1 Web抓取概述
3.2网络爬虫的抓取过程
……
第12章Web数据挖掘与语义网
主要参考文献
数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。从起初将各种商业数据存储在计算机的数据库中,到后来可以对数据库进行查询和访问,甚至是即时遍历。但是,随着人们积累的数据越来越多,如何从海量的数据中找到内在的规律,获取有用的信息,挖掘这些数据背后隐藏的重要信息已经成为当前高科技领域研究的热点。目前,数据挖掘使数据库技术进入了一个更。高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。
1.1.1 Web数据挖掘的产生
随着互联网的快速发展,特别是Web技术的发展,使得互联网上出现了大量的Web站点,每个站点就是一个数据源,包括用户浏览记录、交易记录、日志文件、网络页面信息以及超链接信息等。因此,Web上的数据信息正在以惊人的速度增长。但是,在这越来越多的信息当中只有其中的一小部分是我们所关注的。所以如何在海量的、动态的互联网信息数据中获取有用的知识成为数据挖掘领域一个新的挑战,Web数据挖掘正是在这一背景下产生的。
信息检索技术,如搜索引擎,可以帮助人们尽快地找到所需要的信息,但是目前多数搜索引擎都存在两方面的缺陷,即查全率低和查准率低。也就是说,用户的一个查询请求往往会检索出一个庞大的结果集,而用户所需要的信息却只是其中的很小一部分。而且,利用搜索引擎也不能检索出Web中的所有与检索相关的Web页面。但是Web数据挖掘能够挖掘隐藏在信息背后的知识,能够提供满足用户需求的信息。因此,Web数据挖掘的发展变得尤为必要。
另外,随着互联网的普及,电子商务也在蓬勃发展,开展电子商务的企业面临着极大挑战,即如何对用户的注册信息、浏览信息、历史购买记录等数据信息进行有效的组织利用,从而了解用户的兴趣爱好、行为模式等,以优化网站结构、发掘潜在用户、为用户提供个性化服务等。这些挑战也在推动着Web数据挖掘的发展。
……P2