`
缥缈孤鸿
  • 浏览: 40510 次
  • 性别: Icon_minigender_1
  • 来自: 大连
最近访客 更多访客>>
社区版块
存档分类
最新评论

webharvest 实例

阅读更多
1 , <config charset="utf-8">
  <var-def name="start">
  <html-to-xml>
  <http url="http://www.tianya.cn/bbs/index.shtml" charset="utf-8" />
  </html-to-xml>
  </var-def>
  <var-def name="ulList">
  <xpath expression="//div[@class='bankuai_list']">
  <var name="start" />
  </xpath>
  </var-def>
  <file action="write" path="tianya/siteboards.xml" charset="utf-8">
  <![CDATA[ <site> ]]>
  <loop item="item" index="i">
  <list><var name="ulList"/></list>
  <body>
  <xquery>
  <xq-param name="item">
  <var name="item"/>
  </xq-param>
  <xq-expression><![CDATA[
  declare variable $item as node() external;
  <board boardname="{normalize-space(data($item//h3/text()))}" boardurl="">
  {
  for $row in $item//li return
  <board boardname="{normalize-space(data($row//a/text()))}" boardurl="{normalize-space(data($row/a/@href))}" />
  }
  </board>
  ]]></xq-expression>
  </xquery>
  </body>
  </loop>
  <![CDATA[ </site> ]]>
  </file>
  </config>
  这个设置装备摆设文件分为三个部门:
  1. 界说爬虫进口:
  <var-def name="start">
  <html-to-xml>
  <http url="http://www.tianya.cn/bbs/index.shtml" charset="utf-8" />
  </html-to-xml>
  </var-def>


2 ,<var-def name = "requestURL">
        http://www.informatik.uni-trier.de/~ley/db/conf/IEEEscc/scc2009.html
    </var-def>
    <var-def name = "confXML">
        http://dblp.uni-trier.de/rec/bibtex/conf/IEEEscc/2009.xml
    </var-def>
    <var-def name = "article_link">
        <xquery>
            <xq-param name="doc">
                <html-to-xml>
                    <http url = "${requestURL}"/>
                </html-to-xml>   
            </xq-param>
            <xq-param name="confXML" type = "string">
                <var name = "confXML"/>
            </xq-param>
            <xq-expression><![CDATA[
                    declare variable $doc as node() external;
                    declare variable $confXML as xs:string external;
                     <asdfasd>
                          {  for $x in $doc//a
                                where $x/@href = $confXML and matches($x/@href,"http:.*\.xml")
                             return
                                   $x/@href
                              }
                      </asdfasd>  
                   
                    ]]></xq-expression>
   
        </xquery>
    </var-def>
1. 前面定义的变量在Xquery中不能使用,必须在xq-param中再次定义变量去context中定义的值。
2. 在xq-expression中使用变量需要采用declare variable $name as xs:string external。
3. 声明(declare variable $name as xs:string external)需要在加xs:***否则报错。
4. 在返回值是 <asdfasd>
                          {  for $x in $doc//a
                                where $x/@href = $confXML and matches($x/@href,"http:.*\.xml")
                             return
                                   $x/@href
                              }
                 </asdfasd>返回结果是计算了for语句后的内容<asdfasd href="http://dblp.uni-trier.de/rec/bibtex/conf/IEEEscc/2009.xml"/>
去了大括号返回<asdfasd>
for $x in $doc//a
where $x/@href = $confXML and matches($x/@href,"http:.*\.xml")
return
$x/@href
</asdfasd>一个字就是怪
分享到:
评论

相关推荐

    开源WebHarvest抓取实例

    1. template目录下的三个模板分别是 sina_1. 抓取全网财经要闻-新浪(一条新闻) ...2. 实例采用了XQuery表达式[loop、concat()、substring-after()、indexOf()等],XPath表达式[、、、&lt;case&gt;&lt;if&gt;等]

    webharvest 中文翻译文档

    1. webharvest官方网站参考手册地址: http://web-harvest.sourceforge.net/manual.php 2. 一个介绍XPath、XQuery 以及 XSLT 函数的网址 http://www.w3school.com.cn/xpath/xpath_functions.asp 3. 另一个参考地址 ...

    uml实例uml实例uml实例uml实例uml实例

    uml实例uml实例uml实例uml实例uml实例uml实例uml实例uml实例uml实例uml实例uml实例uml实例uml实例uml实例uml实例uml实例uml实例uml实例

    vba实例vba实例vba实例vba实例vba实例vba实例

    vba实例vba实例vba实例vba实例vba实例vba实例vba实例vba实例vba实例vba实例

    C#开发实例大全(基础卷).软件开发技术联盟(带详细书签) PDF 下载

    《C#开发实例大全(基础卷)》筛选、汇集了C#开发从基础知识到高级应用各个层面约600个实例及源代码,每个实例都按实例说明、关键技术、设计过程、详尽注释、秘笈心法的顺序进行了分析解读。全书分6篇共25章,主要...

    j2ee实例 j2ee实例j2ee实例

    j2ee实例j2ee实例j2ee实例j2ee实例j2ee实例j2ee实例j2ee实例j2ee实例j2ee实例j2ee实例j2ee实例j2ee实例j2ee实例j2ee实例j2ee实例

    Visual C# .NET精彩编程实例集锦

    实例1 如何使用错误提醒控件 实例2 如何使用信息提示控件 实例3 如何使用菜单控件 实例4 如何使用工具栏控件 实例5 如何使用状态栏控件 实例6 如何使用托盘控件 实例7 如何使用标签页控件 实例8 如何使用进度条控件 ...

    数据结构实例(内含17个详细经典实例)

    数据结构实践教程:内含17个经典数据结构实例 根据五个不同数据结构,对每个结构都有2~4个经典实例。每个实例都有项目简介、设计思路、数据结构、完整程序、运行结果五个部分,可以直接拿来做一篇课程设计。实例名称...

    js实例大全 js实例

    js实例大全、js实例大全、js实例大全、js实例大全、js实例大全、js实例大全、js实例大全、js实例大全、js实例大全、js实例大全、

    mvc学习实例mvc学习实例mvc学习实例

    mvc学习实例mvc学习实例mvc学习实例mvc学习实例mvc学习实例mvc学习实例mvc学习实例mvc学习实例mvc学习实例mvc学习实例mvc学习实例

    lucene实例lucene实例

    lucene实例lucene实例lucene实例lucene实例lucene实例lucene实例lucene实例lucene实例lucene实例

    vf实例大全vf实例大全vf实例大全

    vf实例大全vf实例大全vf实例大全vf实例大全vf实例大全vf实例大全vf实例大全vf实例大全vf实例大全vf实例大全vf实例大全vf实例大全

    vbs 编程实例vbs 编程实例

    vbs 编程实例vbs 编程实例vbs 编程实例vbs 编程实例vbs 编程实例vbs 编程实例vbs 编程实例vbs 编程实例vbs 编程实例vbs 编程实例vbs 编程实例vbs 编程实例vbs 编程实例vbs 编程实例vbs 编程实例vbs 编程实例vbs 编程...

    C++编程实例详解 C++编程实例详解

    C++编程实例详解C++编程实例详解C++编程实例详解C++编程实例详解C++编程实例详解C++编程实例详解C++编程实例详解C++编程实例详解C++编程实例详解C++编程实例详解C++编程实例详解C++编程实例详解C++编程实例详解C++...

    软件测试用例实例 软件测试用例实例 软件测试用例实例 软件测试用例实例

    软件测试用例实例 功能描述:用户通过用户界面输入信息,然后提交,信息保存至数据库,客户端提示提交成功。测试需求分析:UI、用户的输入校验、数据库表更新、系统提示信息 软件测试用例实例 功能描述:用户通过...

    WPF实例(实例比较多)

    WPF实例(实例比较多) (wpf窗体继承)RibbonStyle2.zip (赛车游戏)GrandPrix_SRC.zip CustomRulesMVVM.zip ExifCompareSource.zip Explorer3D.zip familyshow-12528.zip Jigsaw.zip Life_src.zip PhotoBooth.zip ...

    水晶报表实例水晶报表实例

    水晶报表实例水晶报表实例水晶报表实例水晶报表实例水晶报表实例水晶报表实例水晶报表实例水晶报表实例水晶报表实例水晶报表实例水晶报表实例水晶报表实例水晶报表实例水晶报表实例水晶报表实例

    webService—Axis实例webService—Axis实例webService—Axis实例

    webService—Axis实例webService—Axis实例webService—Axis实例webService—Axis实例webService—Axis实例webService—Axis实例webService—Axis实例

    NSIS脚本实例NSIS脚本实例

    NSIS脚本实例NSIS脚本实例NSIS脚本实例NSIS脚本实例NSIS脚本实例NSIS脚本实例NSIS脚本实例NSIS脚本实例NSIS脚本实例NSIS脚本实例NSIS脚本实例NSIS脚本实例NSIS脚本实例

Global site tag (gtag.js) - Google Analytics