欢迎访问广东工业大学数据挖掘与信息检索实验室!

一种网页评论内容抽取方法

作者:DMIR    发表时间:2016-01-26    浏览量:646


发明人:郝志峰、袁琴、蔡瑞初、陈炳丰、骆魁永

申请时间:2016年1月26日

专利申请号:201610053347.1

申请状态:实质审查

说明:本发明公开了一种网页评论内容的抽取方法,该方法包括:预处理模块,负责对下载的网页源码构建DOM树并利用位置、文本长度、布局特征这3个视觉信息对DOM树进行剪枝预处理。解析模块分为最佳频繁子树抽取和评论内容信息抽取两个部分,前者负责通过深度加权频繁子树相似度度量方法抽取出最佳频繁子树,后者则通过子树对齐获取最频繁路径的方法抽取评论内容。剪枝预处理降低了时间复杂度,为后续工作奠定了基础。深度加权子树相似度度量方法能充分的考虑树的空间结构和语义结构,使最佳频繁子树的抽取在准确率较现有方法有较大提升。子树对齐方法则能充分考虑网页结构中评论内容布局的特性,准确识别出评论路径。

系统设计总图: