申请网站
忘记密码
密 码:
登录名:
建站咨询热线:
0532-88781131
、
15166683288
知识普及 » 网页切片算法的若干问题
网页切片算法的若干问题
奈薇网站建设
于
2020-12-29 20:17
发表
阅读次数
2605
次
这是我研究网页切片算法的一个汇总想法。
之前我写过:一种面向搜索引擎的网页分块、切片的原理,实现和演示,随着工作的深入,逐渐碰到以下问题:
网页切片的粒度问题:
网页切片算法的目的不是精确找到所需要的内容,而是识别划分网页的各种功能区域,导航区,链接区,内容,页脚区和广告区等。
网页切片的网页对象:
互连网纱功能的网页大概有2种类型,目录型和内容型;随着搜索引擎的发展,网站结构逐渐向扁平化的方向发展,车东对此也做出了数据验证,而且随着显示器分辨率的不断提高,内容和目录结合型的网页呈增加趋势,天极的网页涉及,可以说是其中的典范。
网页切片算法的对象应该是针对:内容型和内容目录混合型。对不同网页,应该有个识别算法,应该包括哪些标准?
网页内容区最大范围识别:
从切片的粒度可以看出,应该把内容区作为一个部分单独切出来。根据一般的
网页设计
规律,一般有2种容纳内容区的方式:1、包含型(如blog)2、并列型(如bbs帖子)。
如果处理分页的内容型网页:
现在大多数网站为了改善用户体验和增加页面展示次数的需要,对网页做了分页处理,这部分需要设别出来。
无意间看到了:VIPS:基于视觉的Web页面分页算法,从理论上证明了这种方法的可行性。可是实现起来有很多障碍,正如这位所说的:
我那天用浮动的用绝对位置定位代替定位,并且在客户端的JavaScript中动态排列。客户端的对象用脚本动态生成插入。
弄死他。看他怎么分析。
这样的算法太依赖于具体实现了,很难有好的解决办法。
况且,现在依赖客户端脚本展现动态表现力慢慢开始流行,这个算法很难适应未来的潮流。
就拿最简单的,我有一个类似于OutLook工具条的页面风格,都是脚本生成的,我看他怎么分析!
视觉分析只能落脚到视觉上,只能对页面的静态画面作分析才能得到正确的条块分割,分割条块是容易的简单算法就能做到,但是要把这些内容归结到分割到的条块是难的。
好的办法只有一个,模拟鼠标击键,击键处的对象返回响应,这在IE能够实现的。这样才能取得分割好条块后的对象归属。
我怎么想都觉得我的简单算法都要比文中的算法强多了。
视觉依靠画面分割条块,很简单,对空白进行膨胀-缩小算法,这样留白就能逐渐清晰出来,文字就模糊了。然后作模糊处理,然后用一个亮度阈值把图片转换成二值图,然后作一个矢量化处理,留下线条。归结到90度和0度上去,得到一个条块分割的矢量图。
然后,每一块中按照密度用鼠标点击模拟获得对象!这样就可以完成了条块归纳了。
干吗要分析HTML呢?情况多得很,根本分析不过来。
我目前的进展是:可以识别导航区、链接区、页脚区。
对内容区的分析是个难点,鉴于我自己的需要,只要找到最大的内容区就可以了。
这段时间对算法的一个体会就是,算法就是解决特定问题的方法。教科书上的算法大都是最一般性,常用性的方法的说明。
套句俗话,能解决实际问题的方法就是好方法。但能把我们解决的问题用数学模型表达出来仍是一个不断提高算法水平的基本要求。
网页切片算法的若干问题相关标签:
网站优化
,
企业做网站
,
设计网页
,
制作网站
相关热点推荐
好设计应该是平凡的设计
SEO导出链接技巧
网站设计如何做好风格统
SE0作弊是短视行为,
网站设计色彩该如何搭配
网站设计的思考之如何配
企业建站策划
最好的网站设计工具-奈
网页设计应该把握4大原
企业建站的建议
网页设计制作应注意的问
做垃圾站要学会换一种思
网站文化与网页设计
青岛做网站多少钱
有关于SEO作弊与反作
网站登录窗口的设计
奈薇建站网的新媒体服务
青岛网站设计成功要素
网站策划的方法与方案?
百度《站点子链》工具开
网站建设之网站策划
什么是网站交互设计
如何提高网页关键词也是
为什么要使用DIV+C
网页设计师最基本的原则
界面设计表达需要注意尺
怎么制定网站推广方案
青岛网站建设报价与费用
罕见网站设计心得
网页关键词密度的七个常
如何让搜索引擎收录更多
网站设计注意浏览器兼容
百度新算法分析:外链和
如何才能短期内提高网站
搜索引擎算法:HITS
不受欢迎的“欢迎页”
如何进行数据可视化设计
如何进行网站内链建设
网页布局的位置重心与位
你的网站和你的客户有多
奈薇建站网青岛网站建设公司/青岛网站制作公司,专业提供"气质"型网站建设及精美网站制作服务,同时欢迎各地网站建设公司、网站制作公司代理我们的奈薇建站系统共同发展
热点地区:
青岛网站建设价格
青岛即墨网站制作公司
开发区信息港
山东在线门户