返回列表 发帖

雷达采集配置常见问题“雷达抓不到我要的链接?”

一、用浏览器打开需要采集的页面,点击浏览器窗口菜单栏的“查看”——“源文件”,确认要采的链接能在源文件中找到。反过来说,要确认设为采集概览页的网页内容里包含要采的链接。

   如果确认要采的链接在概览页的内容里,请进入第二步。否则,请找到包含要采集的链接的网页地址,设为采集起始点。 

  小帖示:此时请不要在页面空白处点鼠标右键——“查看源文件”,如果概览页面是由多个框架页(frame/iframe)组成,那么鼠标右键查看的源文件很可能不是你所看到的概览页的源文件,而是其中一个frame页的源文件。  如果源文件中无法找到需要采集的链接,除了框架页的情况外,还存在其他可能性,建议安装能监控数据交互情况的软件(如HttpWatch)进行观察。

 
二、观察要采集的链接是否符合标准HTML格式,即“<a href='xxxx'></a>”。

  这里要注意几点:

  ·<a>置标中可能包含title、class等其他属性,不用理会,但必须包含href属性,否则雷达无法解析该链接。

  ·<a>置标一定要闭合,即包括“</a>”置标,否则会影响雷达对链接的解析。

  ·一般情况下,“href”和“=”之间没有空格,“=”后面有单引号或双引号,作为链接地址的容器。如果不满足这种格式,也可能影响雷达对链接的解析。

  如果网页源文件中的链接格式符合第二步的描述,请进入第三步。否则,请尝试编写链接脚本,将页面链接格式修改为标准HTML格式。
 

  小帖示:不符合标准格式的链接,多是在XML或脚本文件中,这是需要编写链接脚本。  另外, 如果要采集的对象是多媒体附件(如FLV、PDF、DOC、XLS等),请勾选雷达“媒体类型”属性中相应的格式。
  
三、从概览页上点击某一条细览页数据,观察细览页的URL地址与概览页是否在同一个域名下,并检查雷达的组属性中的“扩展方式”设置是否得当。详见雷达用户手册。4.5版本请参考手册第2.5.1.1章节,4.0版本请参考手册第2.4.1.1章节。
 
  如果确认扩展方式设置无误,请进入第四步。否则,请调整扩展方式后再试。
 
四、请去掉和雷达链接发现逻辑相关的设置后再试,包括雷达的“网址包含/排除/过滤字符”属性、“链接模板”、“链接脚本”等。若去掉后雷达能够发现需要采集的链接,则说明是去掉的设置有误,请调整相关设置。

  如果去掉上述设置后,雷达仍无法发现链接,请进入第五步。否则,请检查上述设置是否正确。

五、特殊情况:

          1) 雷达带着原有日志进行采集时无法发现链接,起始点报2001或5003错误(显示为红蝴蝶),但点击“测试”时雷达可以发现链接。清空日志再采集即可恢复正常(注意这里指的是清空全部采集日志,而非清除采集点日志或单独删除某些日志记录)。

          2) 雷达带着原有日志进行采集时无法发现链接,起始点采集正常(显示为黄蝴蝶或绿蝴蝶),点击“测试”时雷达无法发现链接,或发现到的链接中没有细览链接。



        这2种情况多是由于雷达的DNS缓存造成的。雷达在采集时会缓存被采网站的DNS信息,下一轮采集时调用缓存中的DNS。如果雷达获取DNS时获取到的是错误的DNS信息,那么至DNS缓存更新之前,采集时都会报2001错误。一般情况下,雷达每天优化日志时会清除DNS缓存并重新获取被采网站的DNS。如果项目中遇到这种情况需要紧急处理,可以手动删除雷达的DNS缓存。具体位置:
       \%雷达安装路径%\trsrobot\Log\site.dat
        \%雷达安装路径%\trsrobot\Log\site.id

  

--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------  

  

  当您遭遇“使用雷达采集时,无法抓到我要的链接?”的情况时,通过上述五步的自检,应能排除或解决我们一般遇到的多数问题了。

返回列表