网站地图
  • 网站首页
  • 建站模板
  • 模板建站
  • 站长分享
  • 设计素材
  • 站长资源
  • 源码知识
  • 织梦CMS 文章采集入门图文课程

    发布时间: 2021-10-12 15:06首页:莎莎源码 > 模板建站 > 学习织梦 > 阅读()
    -->以DEDE官方站为例,大家采集站长学院下的PHP课程栏目,打开列表地址http://www.织梦CMS.com/web-art/PHP_jiaocheng。 登录后台,进入“采集节点管理”,新建一个节点,选择内容模型为“一般文章”。1.设置节点基本信息先填写一个便捷记忆的节点名字,选择目的页面编码为GB2312,防盗链模式不做设置,因目的站没做限制,这一项就不做修改,系统默认超时时间10秒。2.设置列表网址获得规则这一步大家要做些设置,获得文章列表地址,回到目的站列表页,察看分页间的变化,可以发现只有“14_”后的数字有规律的递增变化。首页:http://www.织梦CMS.com/web-art/PHP_jiaocheng/list_14_1.html中间:http://www.织梦CMS.com/web-art/PHP_jiaocheng/list_14_.html末页:http://www.织梦CMS.com/web-art/PHP_jiaocheng/list_14_172.html复制一个分页地址,回到“新增采集节点”页面,选择“出处属性”为“批量生成列表网址”,把粘贴地址到“匹配网址”中,修改规律变化处为,“批量生成地址设置”处输入1到172,这里的意思是生成出列表第一页到最后172页的所有地址。测试一下,在弹出框中大家可以看到循环出172条地址记录,非常顺利的就设置好了。有时会碰到较难获得的列表,那大家可以把把没规律的地址复制到”手工指定列表网址“文本框中来采集。3.设置文章网址匹配规则上面指定好了文章地址出处页,这一步就需要在这部分页面中找出符合需要的文章地址页了。打开一个列表页面察看,左栏的方框中包含了大家需要的全部地址,这样的情况区别明显的页面,可以利“地区开始的HTML”和“地区结束的HTMLL”设置进行过滤。不过也可以用其他办法。把鼠标移到各处链接地址,察看浏览器左下角显示的完整地址,大家需要的地址都包含“PHP_jiaocheng/20”,那大家把它填写到“需要包含”中。两种办法都可以过滤出地址,碰上复杂页面,可以配合起来用,加上正则,几乎没筛选不出的地址,附(图5.1)对照。最后确定,进入下一步“网页内容获得规则”。
    特别声明:文章内容仅供参考,不造成任何投资建议。投资者据此操作,风险自担。
    广告
    广告

    网站首页 - 建站模板 - 模板建站 - 站长分享 - 设计素材 - 站长资源 - 源码知识

    未经本站书面特别授权,请勿转载或建立镜像

    Copyright © 2002-2021 莎莎源码 (http://www.adsbei.com) 网站地图 TAG标签