页次: 1
我现在有一个文件,里面是一堆html文本关键字,例如:
fun.ynet.com/var/cache/js/bqzn
if(__amscript_cd("178.com")){__amscript_wc('.ad2,
if(__amscript_cd("chinaiiss.com")){__amscript_wc('.nav_r:nth-child(6),#content_text
if(__amscript_cd("cn.msn.com")){__amscript_wc('.topNav,
if(__amscript_cd("gamersky.com")){__amscript_wc('#clickbg,.adc
if(__amscript_cd("news.uuu9.com")){__amscript_wc('.adfocusbox
if(__amscript_cd("sohu.com")){__amscript_wc('.adB,#turn-ad
if(__amscript_cd("uuu9.com")){__amscript_wc('.h_50,#top1,[class^="ad_"]
if(__amscript_cd("www.uuu9.com")){__amscript_wc('.ads_new,#ban1
if(__amscript_cd("ynet.com")){__amscript_wc('table.FS12,
fun.ynet.com/z2?
rm.sina.com.cn
sc.chinaiiss.com
ynet.com/10171*.js
现在我要匹配另一个文件中是否有这些关键字,有的话就去除,用什么工具好?grep sed awk貌似都用的正则表达式,该怎么写来匹配?(没错,我在研究网页去广告……要求效率高,不受正则表达式特殊字符干扰)
P.S. 我用在windows环境下,所以也可以推荐windows的批处理命令……
本人的 Arch Linux 软件仓库:http://git.io/-1
本人的广告过滤及代·理规则订阅页面:http://git.io/f0x
离线
离线
是不是这样写:
sed -i 's#[\.\+\?\*\&\{\}\,\(\)\=\-\/]#\\&#g' adrule.txt
for /f "token=*" %%i in (adlist.txt) do sed -i 's/%%i//g' page1.html
for /f "token=*" %%i in (adlist.txt) do sed -i 's/%%i//g' page2.html
……
好像有点慢……请大神指教
呃,一共有多少个特殊字符要转义来着?
最近编辑记录 danielhugo (2012-09-25 17:37:52)
本人的 Arch Linux 软件仓库:http://git.io/-1
本人的广告过滤及代·理规则订阅页面:http://git.io/f0x
离线
lainme 说:是不是这样写:
sed -i 's#[\.\+\?\*\&\{\}\,]#\\&#g' adrule.txt for /f "token=*" %%i in (adlist.txt) do sed -i 's/%%i//g' page1.html for /f "token=*" %%i in (adlist.txt) do sed -i 's/%%i//g' page2.html ……
好像有点慢……请大神指教
Windows.....果断换单进程的 Perl/Python 之类啊。
离线
danielhugo 说:lainme 说:是不是这样写:
sed -i 's#[\.\+\?\*\&\{\}\,]#\\&#g' adrule.txt for /f "token=*" %%i in (adlist.txt) do sed -i 's/%%i//g' page1.html for /f "token=*" %%i in (adlist.txt) do sed -i 's/%%i//g' page2.html ……
好像有点慢……请大神指教
Windows.....果断换单进程的 Perl/Python 之类啊。
python要安装,我要部署在别人的windows系统上,怎么样把它做成绿色便携?perl可以在MinGW(MSYS)提取,不过这俩货语法我都混淆了……
顺便求科普:MSYS的Perl跟ActivePerl4Windows有神马区别?
最近编辑记录 danielhugo (2012-09-25 18:01:12)
本人的 Arch Linux 软件仓库:http://git.io/-1
本人的广告过滤及代·理规则订阅页面:http://git.io/f0x
离线
百合仙子 说:danielhugo 说:lainme 说:是不是这样写:
sed -i 's#[\.\+\?\*\&\{\}\,]#\\&#g' adrule.txt for /f "token=*" %%i in (adlist.txt) do sed -i 's/%%i//g' page1.html for /f "token=*" %%i in (adlist.txt) do sed -i 's/%%i//g' page2.html ……
好像有点慢……请大神指教
Windows.....果断换单进程的 Perl/Python 之类啊。
python要安装,我要部署在别人的windows系统上,怎么样把它做成绿色便携?perl可以在MinGW(MSYS)提取,不过这俩货语法我都混淆了……
顺便求科普:MSYS的Perl跟ActivePerl4Windows有神马区别?
Python 有 py2exe 之类的工具。不过你要是能搞定 Perl 的话就更好,因为只一个 perl.exe。
没用过 Active*。
离线
danielhugo 说:百合仙子 说:danielhugo 说:lainme 说:是不是这样写:
sed -i 's#[\.\+\?\*\&\{\}\,]#\\&#g' adrule.txt for /f "token=*" %%i in (adlist.txt) do sed -i 's/%%i//g' page1.html for /f "token=*" %%i in (adlist.txt) do sed -i 's/%%i//g' page2.html ……
好像有点慢……请大神指教
Windows.....果断换单进程的 Perl/Python 之类啊。
python要安装,我要部署在别人的windows系统上,怎么样把它做成绿色便携?perl可以在MinGW(MSYS)提取,不过这俩货语法我都混淆了……
顺便求科普:MSYS的Perl跟ActivePerl4Windows有神马区别?
Python 有 py2exe 之类的工具。不过你要是能搞定 Perl 的话就更好,因为只一个 perl.exe。
没用过 Active*。
一定要py2exe的话我还不如用c写一个算了,自动机匹配字符串……怎么像是做ACM题了- -b
@cuihao大神,这道NOIP的题就交给你了,我再闭关进修进修shell……
本人的 Arch Linux 软件仓库:http://git.io/-1
本人的广告过滤及代·理规则订阅页面:http://git.io/f0x
离线
一定要py2exe的话我还不如用c写一个算了,自动机匹配字符串……怎么像是做ACM题了- -b
@cuihao大神,这道NOIP的题就交给你了,我再闭关进修进修shell……
还是拿 PCRE 写吧
其实呢,如果是我,拿 Haskell 写,编译好的 .exe 只依赖系统库的。
离线
danielhugo 说:一定要py2exe的话我还不如用c写一个算了,自动机匹配字符串……怎么像是做ACM题了- -b
@cuihao大神,这道NOIP的题就交给你了,我再闭关进修进修shell……
还是拿 PCRE 写吧
其实呢,如果是我,拿 Haskell 写,编译好的 .exe 只依赖系统库的。
偶在小虾身边混了几年都没学会python,别提lisp haskell什么的了……
大神,我想抓取googlecode上的广告列表(有好几个,教育网都被墙),现在我想用小虾的west {和了个谐} chamber做代 {和了个谐} 理抓取列表,但是又不想依赖python2.7,该怎么做?
本人的 Arch Linux 软件仓库:http://git.io/-1
本人的广告过滤及代·理规则订阅页面:http://git.io/f0x
离线
偶在小虾身边混了几年都没学会python,别提lisp haskell什么的了……
大神,我想抓取googlecode上的广告列表(有好几个,教育网都被墙),现在我想用小虾的west {和了个谐} chamber做代 {和了个谐} 理抓取列表,但是又不想依赖python2.7,该怎么做?
原来你是小虾身边的人啊,羡慕ing……
为什么不想依赖 python2.7 呢?和 westchamber 有什么关系呢?试试使用谷歌北京呢?
离线
danielhugo 说:偶在小虾身边混了几年都没学会python,别提lisp haskell什么的了……
大神,我想抓取googlecode上的广告列表(有好几个,教育网都被墙),现在我想用小虾的west {和了个谐} chamber做代 {和了个谐} 理抓取列表,但是又不想依赖python2.7,该怎么做?
原来你是小虾身边的人啊,羡慕ing……
为什么不想依赖 python2.7 呢?和 westchamber 有什么关系呢?试试使用谷歌北京呢?
不想依赖python2.7的原因前面说了,要部署在别人的系统上,别人没装python,我想要一种开箱即用(out of box)的效果。用west {和了个谐} chamber本来是想有小虾指点(小虾很忙,没空理我,我感到他快被抄水表了),不过后来发现教育网还是不能用,果断goagent了。(貌似goagent也是python脚本,他是怎么做到不用安装python2.7,难道是py2exe或者pyinstaller?
另外求大神科普,PCRE在精确匹配上效率会不会不够高?(比如我这些广告关键字,没有任何正则匹配符,完全可以用字符串匹配算法的)
本人的 Arch Linux 软件仓库:http://git.io/-1
本人的广告过滤及代·理规则订阅页面:http://git.io/f0x
离线
百合仙子 说:danielhugo 说:偶在小虾身边混了几年都没学会python,别提lisp haskell什么的了……
大神,我想抓取googlecode上的广告列表(有好几个,教育网都被墙),现在我想用小虾的west {和了个谐} chamber做代 {和了个谐} 理抓取列表,但是又不想依赖python2.7,该怎么做?
原来你是小虾身边的人啊,羡慕ing……
为什么不想依赖 python2.7 呢?和 westchamber 有什么关系呢?试试使用谷歌北京呢?
不想依赖python2.7的原因前面说了,要部署在别人的系统上,别人没装python,我想要一种开箱即用(out of box)的效果。用west {和了个谐} chamber本来是想有小虾指点(小虾很忙,没空理我,我感到他快被抄水表了),不过后来发现教育网还是不能用,果断goagent了。(貌似goagent也是python脚本,他是怎么做到不用安装python2.7,难道是py2exe或者pyinstaller?
另外求大神科普,PCRE在精确匹配上效率会不会不够高?(比如我这些广告关键字,没有任何正则匹配符,完全可以用字符串匹配算法的)
就是 py2exe 吧。
其实你可以用 nsis 打个安装包,安装时自动安装 Python。
离线
其实你可以用 nsis 打个安装包,安装时自动安装 Python。
这不成了流氓软件了……恶意推广python - -b 我的初衷是写一个批处理脚本的……
借了本O'Reilly的sed & awk来看,发现sed awk原来很高深……暂时先进修一下
话说Haskell值得学,容易学吗?应用广泛吗?我对函数类语言一无所知……
最近编辑记录 danielhugo (2012-09-27 14:21:02)
本人的 Arch Linux 软件仓库:http://git.io/-1
本人的广告过滤及代·理规则订阅页面:http://git.io/f0x
离线
话说Haskell值得学,容易学吗?应用广泛吗?我对函数类语言一无所知……
值得学,不容易学,应用不广泛。你用多了自然就应用广泛了 ^_^
离线
页次: 1