8.2.1 规则存储表设计
规则存储表(spiders)是内容采集模块的核心,它由两个功能部分组成,一部分是存储采集规则(页面网址提取规则、页面内容提取规则);另一部分是辅助功能(栏目名称、已采集数、栏目分类标识)。了解清楚功能划分之后,下面来看具体的设计步骤。广州网站设计
(1)建立get_content数据库,SQL语句如下:
- CREATE DATABASE 'get_content ;
(2)在get_content数据库中建立一个命名为spiders的"规则存储表",结构如表8.1所示。创建表及相关字段的SQL语句如下:
广州网站建设
- SET SQL_MODE="NO_AUTO_VALUE_ON_ZERO";
- --
- -- 数据库: 'get_content'
- --
- -- --------------------------------------------------------
- --
- -- 表的结构 'spiders'
- --
- CREATE TABLE 'spiders' (
- 'ID' int(10) unsigned NOT NULL auto_increment,
- 'Title' varchar(200) NOT NULL,
- 'ListPreg' mediumtext NOT NULL,
- 'ContentPreg' mediumtext NOT NULL,
- 'Count' int(10) unsigned NOT NULL default '0',
- 'EnterUrl' varchar(200) NOT NULL,
- 'Category' smallint(5) unsigned NOT NULL,
- PRIMARY KEY ('ID')
- ) ENGINE=MyISAM ;
表8.1 规则存储表
| 字 段 | 数 据 类 型 | 长度 | NULL | 默 认 值 | 字 段 说 明 |
| ID | int | 10 | 否 | auto_increment | 自增主键 |
| Title | varchar | 200 | 栏目名称 | ||
| ListPreg | mediumtext | 页面网址提取规则 | |||
| ContentPreg | mediumtext | 页面内容提取规则 | |||
| Count | int | 10 | 否 | 已采集数 | |
| EnterUrl | varchar | 200 | 采集源URL地址 | ||
| Category | smallint | 5 | 分类标识 |
广州网站建设



