页次: 1
一个项目目录,里面有很多子目录,每个子目录里都有数量不等的rst文件(文本文件),我想统计一下所有文件的总字数。
我试了一下wc -w,结果是以空格来区分“词”,结果完全没法用;
wc -c,好像一个汉字占3个字节,有点不懂了,早年刚接触计算机的时候,不是说一个汉字占两个字节么?
有啥好的字数统计方法么?
开源/Linux大众化,从驿窗开始~
离线
wc -m 是统计字符数,单个汉字所占字节数由编码格式决定,UTF-8为3字节,GBK为2字节
离线
我试了 wc -m ,英文按字母数量统计,因为内容是中英混排,统计结果的精确性不太好判断~
开源/Linux大众化,从驿窗开始~
离线
我试了 wc -m ,英文按字母数量统计,因为内容是中英混排,统计结果的精确性不太好判断~
不是统计结果的精确性不太好判断,而是统计的对象和目标不清晰。
离线
对象和目标?
我想要的结果是中文汉字数量+单词数量,把这个当目标的话,统计起来方便么?或者,有其它方法,可以只统计汉字,忽略单词?
开源/Linux大众化,从驿窗开始~
离线
只统计汉字:grep -oP '\p{Han}' | wc -l
只统计拉丁字母和阿拉伯数字组成的单词:grep -oP '\w+' | wc -l
离线
运行时加文件名,无论文件内容是什么,都显示“ 1 文件名 ”~
开源/Linux大众化,从驿窗开始~
离线
rst是个什么格式?如果是纯文本那一般用的是txt后缀所以我怀疑它不是。那么它有什么格式,你具体要统计什么?如docx那样的格式文本字数统计不是轻松的,这需要完全理解它的格式
最近编辑记录 xtricman (2020-12-20 14:25:41)
反社会,精神极其不稳定,随时可能炸碎身边所有人
离线
rst是restructuredText,我用sphinx+rst来写文档~
开源/Linux大众化,从驿窗开始~
离线
页次: 1