zghz 发表于 2013-8-2 11:14:15

请教一个网页元素抓取编程问题

我想写一个软件,想实现以下功能:

1采集网页上的某些元素
2自动把采集来的一些关键词提交到谷歌关键词工具查询并采集结果
3自动把一些文件上传到某些网站,可能需要设置代理,有可能的话需要输入验证码。

打算用C#来写,请问实现这些功能主要是不是调用webkit这类的浏览器内核来实现呢?

yincthh 发表于 2013-8-2 11:39:47

selenium2

beijixing 发表于 2013-8-2 11:51:42

搜索web自动化测试工具

zghz 发表于 2013-8-2 13:06:54

yincthh 发表于 2013-8-2 11:39 static/image/common/back.gif
selenium2

非常感谢!

zghz 发表于 2013-8-2 13:10:01

beijixing 发表于 2013-8-2 11:51 static/image/common/back.gif
搜索web自动化测试工具

非常感谢!

joul 发表于 2013-8-2 18:51:27

本帖最后由 joul 于 2013-8-2 18:52 编辑

分析网页元素,如果想自己灵活控制,可以用HtmlAgilityPacK

潜水大帝 发表于 2013-8-2 22:48:46

C#的话感觉用HTTP + DOM 灵活些。

bobrey 发表于 2013-8-4 11:24:09

C#可以直接调用系统的IE 控件哦,然后根据dom控制赋值和点击等操作哦

bjzhush 发表于 2013-8-23 12:21:48

我以PHP为例来回答你的问题
1.采集可以用一些采集类,支持模拟UA,获取和保存cookie,redirect这些就差不多了,比如PHP的curl
2.这个应该是解析页面,同理有对应的类
3.代理C#肯定是支持的,验证码如果可以自己识别当然更简单,不能识别可以找一些验证码平台来调用(可能收费)

TMM 发表于 2013-8-28 22:35:34

高手在民间啊
页: [1]
查看完整版本: 请教一个网页元素抓取编程问题