如何设置Dedecms的多功能采集过滤规则来优化内容采集效果？

在dedecms中，采集过滤规则可以通过编写万能采集过滤代码来实现。常用的过滤方法包括正则表达式、XPath等。具体实现方式需要根据实际需求进行编写。

在织梦CMS（DedeCMS）中，采集过滤规则是确保从互联网上抓取的数据符合网站需求的重要工具，这些规则帮助用户自动删除不需要的内容，如广告、脚本和样式表等，以下是一些常见的dedecms采集过滤规则：

{/dede:trim}

过滤代码

span

{dede:trim}{/dede:trim}

/span

{dede:trim}{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

/li

{dede:trim}

{/dede:trim}

{dede:trim}

{/dede:trim}

/ul

{dede:trim}

{/dede:trim}

font

{dede:trim}{/dede:trim}

/font

{dede:trim}{/dede:trim}

table

{dede:trim}

{/dede:trim}

/table

{dede:trim}

{/dede:trim}

tbody

{dede:trim}

/tbody

{dede:trim}

/tr

{dede:trim}

{/dede:trim}

/td

{dede:trim}

{dede:trim}{/dede:trim}

iframe

{dede:trim}<iframe(.*){/dede:trim}

style

{dede:trim}<style(.*)

{/dede:trim}

ｓｃｒｉｐｔ

{dede:trim}<ｓｃｒｉｐｔ(.*){/dede:trim}

option

{dede:trim}<option(.*){/dede:trim}

ｓｅｌｅｃｔ

{dede:trim}<ｓｅｌｅｃｔ(.*){/dede:trim}

object

{dede:trim}<object(.*){/dede:trim}

embed

{dede:trim}{/dede:trim}

/embed

{dede:trim}{/dede:trim}

param

{dede:trim}<param(.*){/dede:trim}

常见应用示例

1、标题中空格的过滤：经常在采集文章的时候，标题文字里面有空格，采回来后应用很是麻烦，所以需要在过滤处添加下面正则过滤：

   {dede:trim} {/dede:trim}

2、来源作者中连接的过滤：有的网站系统里面作者或者来源处都带有连接，直接采集的话将连接采集回来了，然后由于这两个字段有限制，通常会造成需要采集的内容没有采集回来，所以需要在过滤处添加下面正则过滤：

保留链接中的文字：{dede:trim}]*)>{/dede:trim}

去掉链接中的文字：{dede:trim}]*)>([^{/dede:trim}

3、中连接以及其他广告代码的过滤：当需要对所有东西过滤的时候，直接用上面所有的代码过滤就可以，但是实际应用中，我们只需要对连接、动画、调用等进行过滤，一般的写法是{dede:trim}要过滤的内容{/dede:trim}。

FAQs

Q1：如何设置DEDECMS的采集过滤规则？

A1：在DEDECMS后台管理界面中，进入“采集管理”模块，选择相应的采集节点进行编辑，在编辑界面中，可以找到“过滤规则”选项，点击“添加”按钮即可输入上述过滤代码，保存后即可生效。

Q2：为什么需要使用DEDECMS的采集过滤规则？

A2：使用采集过滤规则可以帮助站长自动化地去除不需要的内容，如广告、脚本和样式表等，从而减少垃圾信息占用空间，提高数据质量和用户体验。

过滤规则类型	代码示例
标题过滤	`Title = RegReplace(Tid, '.?标题.?');`
标签过滤	`Tags = RegReplace(Tid, '.?标签.?');`
内容过滤	`Content = RegReplace(Tid, '.?内容.?');`
描述过滤	`Description = RegReplace(Tid, '.?描述.?');`
缩略图过滤	`Thumbnail = RegReplace(Tid, '.?缩略图.?');`
作者过滤	`Author = RegReplace(Tid, '.?作者.?');`
发布时间过滤	`PublishTime = RegReplace(Tid, '.?发布时间.?');`
分类过滤	`Category = RegReplace(Tid, '.?分类.?');`
来源过滤	`Source = RegReplace(Tid, '.?来源.?');`
点击量过滤	`Clicks = RegReplace(Tid, '.?点击量.?');`
评论数过滤	`Comments = RegReplace(Tid, '.?评论数.?');`
标签链接过滤	`TagsLink = RegReplace(Tid, '.?标签链接.?');`
相关链接过滤	`RelatedLink = RegReplace(Tid, '.?相关链接.?');`
分享链接过滤	`ShareLink = RegReplace(Tid, '.?分享链接.?');`
页面链接过滤	`PageLink = RegReplace(Tid, '.?页面链接.?');`

说明：

RegReplace 函数用于执行正则表达式替换，其中Tid 为需要过滤的内容。

以上代码示例仅供参考，具体使用时请根据实际情况进行调整。

上一篇: 域名解析生效通常需要多长时间？下一篇: 如何修改已注册域名的省份信息？

免责声明：本站内容（文字信息+图片素材）来源于互联网公开数据整理或转载，仅用于学习参考，如有侵权问题，请及时联系本站删除，我们将在5个工作日内处理。联系邮箱：chuangshanghai#qq.com（把#换成@）

我们已经准备好了,你呢？

如何设置Dedecms的多功能采集过滤规则来优化内容采集效果？

我们已经准备好了,你呢？

联系方式

二维码