论文摘要:文章介绍了“天网”系统中的信息统计子系统。信息统计子系统是为系统管理人员评估系统性能、维护系统效率、更好满足用户的查询要求而设计实现的。本文给出了信息统计子系统的总体结构,并详细介绍了该子系统的两个重要部分,数据库信息处理和日志文件信息处理的设计目标和实现算法,并介绍了如何让机器自动学习新词。
关键词: 搜索引擎、信息统计、机器学习新词
第一章 背景介绍
§1.1 Internet 和 WWW 的发展与现状
Internet是一个规模巨大、自治性强、发展变化快,用户访问频繁的国际互联网络。
Internet的前身是60年代末,70年代初美国国防部高级研究计划署的实验性网络ARPANET。组建ARPANET的最初原因是当时计算机的价格非常昂贵,所以科研工作者们想通过网络进行远程计算。后来,人们才逐渐认识到它作为通讯手段的好处。1983年后,ARPANET中有关军事的部分被隔离为MILNET。其后,1986年诞生的美国国家科学基金会NSFNET对Internet的发展起了划时代的作用。
90年代初到现在,是Internet增长最迅速的时期。1993年,Internet的增长速度是341%。截止到1996年7月,Internet已连接了134336个网络,入网主机1228万台,以及数以亿计的用户。Internet上的信息资源随着Internet的发展也呈现出以下特点: