您尚未登录。

#1 2012-09-24 23:51:05

danielhugo
偶爸刚弄死他
注册时间: 2012-07-31
帖子: 269
个人网站

用什么工具来匹配一个文件中的html文本????

我现在有一个文件,里面是一堆html文本关键字,例如:

fun.ynet.com/var/cache/js/bqzn
if(__amscript_cd("178.com")){__amscript_wc('.ad2,
if(__amscript_cd("chinaiiss.com")){__amscript_wc('.nav_r:nth-child(6),#content_text
if(__amscript_cd("cn.msn.com")){__amscript_wc('.topNav,
if(__amscript_cd("gamersky.com")){__amscript_wc('#clickbg,.adc
if(__amscript_cd("news.uuu9.com")){__amscript_wc('.adfocusbox
if(__amscript_cd("sohu.com")){__amscript_wc('.adB,#turn-ad
if(__amscript_cd("uuu9.com")){__amscript_wc('.h_50,#top1,[class^="ad_"]
if(__amscript_cd("www.uuu9.com")){__amscript_wc('.ads_new,#ban1
if(__amscript_cd("ynet.com")){__amscript_wc('table.FS12,
fun.ynet.com/z2?
rm.sina.com.cn
sc.chinaiiss.com
ynet.com/10171*.js

现在我要匹配另一个文件中是否有这些关键字,有的话就去除,用什么工具好?grep sed awk貌似都用的正则表达式,该怎么写来匹配?(没错,我在研究网页去广告……要求效率高,不受正则表达式特殊字符干扰)

P.S. 我用在windows环境下,所以也可以推荐windows的批处理命令……


本人的 Arch Linux 软件仓库:http://git.io/-1
本人的广告过滤及代·理规则订阅页面:http://git.io/f0x

离线

#2 2012-09-25 13:07:18

lainme
论坛版主
注册时间: 2011-08-19
帖子: 131

Re: 用什么工具来匹配一个文件中的html文本????

离线

#3 2012-09-25 16:11:59

danielhugo
偶爸刚弄死他
注册时间: 2012-07-31
帖子: 269
个人网站

Re: 用什么工具来匹配一个文件中的html文本????

lainme 说:

是不是这样写:

sed -i 's#[\.\+\?\*\&\{\}\,\(\)\=\-\/]#\\&#g' adrule.txt
for /f "token=*" %%i in (adlist.txt) do sed -i 's/%%i//g' page1.html
for /f "token=*" %%i in (adlist.txt) do sed -i 's/%%i//g' page2.html
……

好像有点慢……请大神指教

呃,一共有多少个特殊字符要转义来着?

最近编辑记录 danielhugo (2012-09-25 17:37:52)


本人的 Arch Linux 软件仓库:http://git.io/-1
本人的广告过滤及代·理规则订阅页面:http://git.io/f0x

离线

#4 2012-09-25 17:35:32

依云
会员
所在地: a.k.a. 百合仙子
注册时间: 2011-08-21
帖子: 8,953
个人网站

Re: 用什么工具来匹配一个文件中的html文本????

danielhugo 说:
lainme 说:

是不是这样写:

sed -i 's#[\.\+\?\*\&\{\}\,]#\\&#g' adrule.txt
for /f "token=*" %%i in (adlist.txt) do sed -i 's/%%i//g' page1.html
for /f "token=*" %%i in (adlist.txt) do sed -i 's/%%i//g' page2.html
……

好像有点慢……请大神指教

Windows.....果断换单进程的 Perl/Python 之类啊。

离线

#5 2012-09-25 17:56:13

danielhugo
偶爸刚弄死他
注册时间: 2012-07-31
帖子: 269
个人网站

Re: 用什么工具来匹配一个文件中的html文本????

百合仙子 说:
danielhugo 说:
lainme 说:

是不是这样写:

sed -i 's#[\.\+\?\*\&\{\}\,]#\\&#g' adrule.txt
for /f "token=*" %%i in (adlist.txt) do sed -i 's/%%i//g' page1.html
for /f "token=*" %%i in (adlist.txt) do sed -i 's/%%i//g' page2.html
……

好像有点慢……请大神指教

Windows.....果断换单进程的 Perl/Python 之类啊。

python要安装,我要部署在别人的windows系统上,怎么样把它做成绿色便携?perl可以在MinGW(MSYS)提取,不过这俩货语法我都混淆了……

顺便求科普:MSYS的Perl跟ActivePerl4Windows有神马区别?

最近编辑记录 danielhugo (2012-09-25 18:01:12)


本人的 Arch Linux 软件仓库:http://git.io/-1
本人的广告过滤及代·理规则订阅页面:http://git.io/f0x

离线

#6 2012-09-25 18:06:06

依云
会员
所在地: a.k.a. 百合仙子
注册时间: 2011-08-21
帖子: 8,953
个人网站

Re: 用什么工具来匹配一个文件中的html文本????

danielhugo 说:
百合仙子 说:
danielhugo 说:
lainme 说:

是不是这样写:

sed -i 's#[\.\+\?\*\&\{\}\,]#\\&#g' adrule.txt
for /f "token=*" %%i in (adlist.txt) do sed -i 's/%%i//g' page1.html
for /f "token=*" %%i in (adlist.txt) do sed -i 's/%%i//g' page2.html
……

好像有点慢……请大神指教

Windows.....果断换单进程的 Perl/Python 之类啊。

python要安装,我要部署在别人的windows系统上,怎么样把它做成绿色便携?perl可以在MinGW(MSYS)提取,不过这俩货语法我都混淆了……

顺便求科普:MSYS的Perl跟ActivePerl4Windows有神马区别?

Python 有 py2exe 之类的工具。不过你要是能搞定 Perl 的话就更好,因为只一个 perl.exe。
没用过 Active*。

离线

#7 2012-09-25 22:46:21

danielhugo
偶爸刚弄死他
注册时间: 2012-07-31
帖子: 269
个人网站

Re: 用什么工具来匹配一个文件中的html文本????

百合仙子 说:
danielhugo 说:
百合仙子 说:
danielhugo 说:
lainme 说:

是不是这样写:

sed -i 's#[\.\+\?\*\&\{\}\,]#\\&#g' adrule.txt
for /f "token=*" %%i in (adlist.txt) do sed -i 's/%%i//g' page1.html
for /f "token=*" %%i in (adlist.txt) do sed -i 's/%%i//g' page2.html
……

好像有点慢……请大神指教

Windows.....果断换单进程的 Perl/Python 之类啊。

python要安装,我要部署在别人的windows系统上,怎么样把它做成绿色便携?perl可以在MinGW(MSYS)提取,不过这俩货语法我都混淆了……

顺便求科普:MSYS的Perl跟ActivePerl4Windows有神马区别?

Python 有 py2exe 之类的工具。不过你要是能搞定 Perl 的话就更好,因为只一个 perl.exe。
没用过 Active*。


一定要py2exe的话我还不如用c写一个算了,自动机匹配字符串……怎么像是做ACM题了- -b

@cuihao大神,这道NOIP的题就交给你了,我再闭关进修进修shell……


本人的 Arch Linux 软件仓库:http://git.io/-1
本人的广告过滤及代·理规则订阅页面:http://git.io/f0x

离线

#8 2012-09-25 23:12:25

依云
会员
所在地: a.k.a. 百合仙子
注册时间: 2011-08-21
帖子: 8,953
个人网站

Re: 用什么工具来匹配一个文件中的html文本????

danielhugo 说:

一定要py2exe的话我还不如用c写一个算了,自动机匹配字符串……怎么像是做ACM题了- -b

@cuihao大神,这道NOIP的题就交给你了,我再闭关进修进修shell……

还是拿 PCRE 写吧 big_smile

其实呢,如果是我,拿 Haskell 写,编译好的 .exe 只依赖系统库的。

离线

#9 2012-09-26 19:35:51

danielhugo
偶爸刚弄死他
注册时间: 2012-07-31
帖子: 269
个人网站

Re: 用什么工具来匹配一个文件中的html文本????

百合仙子 说:
danielhugo 说:

一定要py2exe的话我还不如用c写一个算了,自动机匹配字符串……怎么像是做ACM题了- -b

@cuihao大神,这道NOIP的题就交给你了,我再闭关进修进修shell……

还是拿 PCRE 写吧 big_smile

其实呢,如果是我,拿 Haskell 写,编译好的 .exe 只依赖系统库的。

偶在小虾身边混了几年都没学会python,别提lisp haskell什么的了……

大神,我想抓取googlecode上的广告列表(有好几个,教育网都被墙),现在我想用小虾的west {和了个谐} chamber做代 {和了个谐} 理抓取列表,但是又不想依赖python2.7,该怎么做?


本人的 Arch Linux 软件仓库:http://git.io/-1
本人的广告过滤及代·理规则订阅页面:http://git.io/f0x

离线

#10 2012-09-26 21:45:54

依云
会员
所在地: a.k.a. 百合仙子
注册时间: 2011-08-21
帖子: 8,953
个人网站

Re: 用什么工具来匹配一个文件中的html文本????

danielhugo 说:

偶在小虾身边混了几年都没学会python,别提lisp haskell什么的了……

大神,我想抓取googlecode上的广告列表(有好几个,教育网都被墙),现在我想用小虾的west {和了个谐} chamber做代 {和了个谐} 理抓取列表,但是又不想依赖python2.7,该怎么做?

原来你是小虾身边的人啊,羡慕ing……

为什么不想依赖 python2.7 呢?和 westchamber 有什么关系呢?试试使用谷歌北京呢?

离线

#11 2012-09-27 11:39:51

danielhugo
偶爸刚弄死他
注册时间: 2012-07-31
帖子: 269
个人网站

Re: 用什么工具来匹配一个文件中的html文本????

百合仙子 说:
danielhugo 说:

偶在小虾身边混了几年都没学会python,别提lisp haskell什么的了……

大神,我想抓取googlecode上的广告列表(有好几个,教育网都被墙),现在我想用小虾的west {和了个谐} chamber做代 {和了个谐} 理抓取列表,但是又不想依赖python2.7,该怎么做?

原来你是小虾身边的人啊,羡慕ing……

为什么不想依赖 python2.7 呢?和 westchamber 有什么关系呢?试试使用谷歌北京呢?

不想依赖python2.7的原因前面说了,要部署在别人的系统上,别人没装python,我想要一种开箱即用(out of box)的效果。用west {和了个谐} chamber本来是想有小虾指点(小虾很忙,没空理我,我感到他快被抄水表了),不过后来发现教育网还是不能用,果断goagent了。(貌似goagent也是python脚本,他是怎么做到不用安装python2.7,难道是py2exe或者pyinstaller?

另外求大神科普,PCRE在精确匹配上效率会不会不够高?(比如我这些广告关键字,没有任何正则匹配符,完全可以用字符串匹配算法的)


本人的 Arch Linux 软件仓库:http://git.io/-1
本人的广告过滤及代·理规则订阅页面:http://git.io/f0x

离线

#12 2012-09-27 12:48:15

依云
会员
所在地: a.k.a. 百合仙子
注册时间: 2011-08-21
帖子: 8,953
个人网站

Re: 用什么工具来匹配一个文件中的html文本????

danielhugo 说:
百合仙子 说:
danielhugo 说:

偶在小虾身边混了几年都没学会python,别提lisp haskell什么的了……

大神,我想抓取googlecode上的广告列表(有好几个,教育网都被墙),现在我想用小虾的west {和了个谐} chamber做代 {和了个谐} 理抓取列表,但是又不想依赖python2.7,该怎么做?

原来你是小虾身边的人啊,羡慕ing……

为什么不想依赖 python2.7 呢?和 westchamber 有什么关系呢?试试使用谷歌北京呢?

不想依赖python2.7的原因前面说了,要部署在别人的系统上,别人没装python,我想要一种开箱即用(out of box)的效果。用west {和了个谐} chamber本来是想有小虾指点(小虾很忙,没空理我,我感到他快被抄水表了),不过后来发现教育网还是不能用,果断goagent了。(貌似goagent也是python脚本,他是怎么做到不用安装python2.7,难道是py2exe或者pyinstaller?

另外求大神科普,PCRE在精确匹配上效率会不会不够高?(比如我这些广告关键字,没有任何正则匹配符,完全可以用字符串匹配算法的)

就是 py2exe 吧。
其实你可以用 nsis 打个安装包,安装时自动安装 Python。

离线

#13 2012-09-27 14:02:41

danielhugo
偶爸刚弄死他
注册时间: 2012-07-31
帖子: 269
个人网站

Re: 用什么工具来匹配一个文件中的html文本????

百合仙子 说:

其实你可以用 nsis 打个安装包,安装时自动安装 Python。

这不成了流氓软件了……恶意推广python - -b 我的初衷是写一个批处理脚本的……

借了本O'Reilly的sed & awk来看,发现sed awk原来很高深……暂时先进修一下

话说Haskell值得学,容易学吗?应用广泛吗?我对函数类语言一无所知……

最近编辑记录 danielhugo (2012-09-27 14:21:02)


本人的 Arch Linux 软件仓库:http://git.io/-1
本人的广告过滤及代·理规则订阅页面:http://git.io/f0x

离线

#14 2012-09-27 14:29:24

依云
会员
所在地: a.k.a. 百合仙子
注册时间: 2011-08-21
帖子: 8,953
个人网站

Re: 用什么工具来匹配一个文件中的html文本????

danielhugo 说:

话说Haskell值得学,容易学吗?应用广泛吗?我对函数类语言一无所知……

值得学,不容易学,应用不广泛。你用多了自然就应用广泛了 ^_^

离线

页脚