Web使用挖掘中重建会话的改进算法
目前电子商务网站大行其道,但随着 Internet上这类Web站点的规模和复杂度的增加,站点设计和维护工作变得越来越困难。网站设计人员希望通过不断的优化自己的网站来吸引和留住更多的网络用户,但是网站的优化和改进必须以对网站信息的充分掌握为基础。从网站的角度考虑,如果可以将用户对网站的访问频度、访问时间及访问兴趣都收集起来,以此作依据动态调整页面结构,改进服务,开展有针对性地电子商务,应该能吸引更多的用户。而从用户角度看,他们希望用最简单的方式得到最精确的信息,希望得到最符合自己使用习惯的个性化服务。Web挖掘正是解决这些问题的最好工具,也就是利用已经成熟的数据挖掘技术在海量Web 数据中找到那些潜在有用的信息。常见的Web数据挖掘方法包括Web内容挖掘、Web 结构挖掘和 Web 使用挖掘。Web 挖掘所依靠的挖掘站点信息来源的不同来划分。Web内容挖掘主要针对Web页面内容进行挖掘;Web结构挖掘是针对Web页面之间的超链接结构进行挖掘的;Web使用挖掘就是对用户访问Web时在服务器上留下的访问记录进行挖掘,挖掘的对象是在服务器上包括Server Log Data 等在内的日志文件记录。当然也可以将以上三种数据挖掘结合起来更好的发现Web中的有用信息[1]。
Web 使用挖掘包括数据预处理、模式发现、模式分析三个阶段。其中数据预处理是Web使用挖掘的第一个阶段,也是Web使用挖掘的基础,将Ser-ver Logs 中的数据经过数据预处理得到有潜在作用的用户访问会话,这些会话可以作为数据源为后面的模式发现服务。经过数据预处理所构造的会话质量决定了整个 Web 挖掘过程的效率和质量。
1 Web 使用挖掘数据源
个人浏览Web服务器时都会在服务器上产生三种类型的日志文件:Serve Logs、Error Logs 和Cookie Logs,这些日志用户记录用户访问的基本情况,构成了 Web 访问挖掘的主要信息来源。其中 Error Logs(错误日志)主要用来记录存取请求失败的数据,例如丢失链、授权失败或超时等访问情况。CookieLogs是由服务器方产生并由客
户端持有的唯一标识一个用户和用户会话的记号,在电子商务环境中存储在 Cookie Logs 中的信息可以作为交易信息,虽然Cookie可以自动标记和跟踪站点 Web 的访问者,但是 Cookie 的使用必须由客户配合,如果客户端拒绝配合,Cookie就无法完成对客户访问信息的收集。因此目前Web使用挖掘主要采用的数据源是 Server Logs。
当用户访问网站时,每个用户请求都会建立一条相应的记录保存在服务器访问日志文件 ServerLogs 中。日志记录就是包含若干个属性的元组,这些属性有客户端IP地址;访问日期和时间;请求方式(GET、POST、HEAD);所访问网页的URL;传输控制协议(HTTP1.0,HTTP 1.1);访问成功的返回代码;传输字节的数量,还有本次请求的参引页(Refer)。对于用户会话的构造,用户访问的IP地址,请求时间和还有参引页 URL 都是为了获得用户的浏览路径的必须信息,所以在日志数据中这几个属性是重点分析对象。
相关文章
- 2023-09-16作大范围平动柔性梁的耦合动力学建模及分析
- 2023-03-30基于SolidWorks的锥形螺旋叶片展开图的绘制
- 2023-09-05基于时-空关系的时间间隔与频率测量方法研究
- 2023-11-13风冷太阳能双级氨喷射制冷系统冷藏工况性能分析
- 2023-03-10电容式角位移变送器在电远传浮子流量计中的应用
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。