0 Comments

规则存储表设计

发布于:2012-11-20  |   作者:广州网站建设  |   已聚集:人围观
数据库设计内容自动采集器模块的数据库设计目的是满足两个需求:一个是规则存储表(spiders)存储采集规则、采集源URL地址、栏目分类;另一个是采集内容表(articles)用来存储采集到的数据。广州网站设计
8.2.1  规则存储表设计
规则存储表(spiders)是内容采集模块的核心,它由两个功能部分组成,一部分是存储采集规则(页面网址提取规则、页面内容提取规则);另一部分是辅助功能(栏目名称、已采集数、栏目分类标识)。了解清楚功能划分之后,下面来看具体的设计步骤。广州网站设计
(1)建立get_content数据库,SQL语句如下:

  1. CREATE DATABASE 'get_content ; 

(2)在get_content数据库中建立一个命名为spiders的"规则存储表",结构如表8.1所示。创建表及相关字段的SQL语句如下:
广州网站建设
  1. SET SQL_MODE="NO_AUTO_VALUE_ON_ZERO";  
  2. --   
  3. -- 数据库: 'get_content'  
  4. --   
  5. -- --------------------------------------------------------  
  6. --   
  7. -- 表的结构 'spiders'  
  8. --   
  9. CREATE TABLE 'spiders' (  
  10.   'ID' int(10) unsigned NOT NULL auto_increment,  
  11.   'Title' varchar(200) NOT NULL,  
  12.   'ListPreg' mediumtext NOT NULL,  
  13.   'ContentPreg' mediumtext NOT NULL,  
  14.   'Count' int(10) unsigned NOT NULL default '0',  
  15.   'EnterUrl' varchar(200) NOT NULL,  
  16.   'Category' smallint(5) unsigned NOT NULL,  
  17.   PRIMARY KEY  ('ID')  
  18. ) ENGINE=MyISAM ;  

表8.1 规则存储表
字   段 数 据 类 型 长度 NULL 默 认 值 字 段 说 明
ID int 10 auto_increment 自增主键
Title varchar 200     栏目名称
ListPreg mediumtext       页面网址提取规则
ContentPreg mediumtext       页面内容提取规则
Count int 10   已采集数
EnterUrl varchar 200     采集源URL地址
Category smallint 5     分类标识
 
注意:以上字段是一个采集规则表的基础,根据业务的扩展可以添加用于标识VIP会员的vip字段等。
广州网站建设
标签:
飞机