您尚未登录。

#1 2020-12-19 11:26:06

驿窗
驿窗
注册时间: 2016-06-03
帖子: 834

很多rst文件,如何统计总字数?

一个项目目录,里面有很多子目录,每个子目录里都有数量不等的rst文件(文本文件),我想统计一下所有文件的总字数。

我试了一下wc -w,结果是以空格来区分“词”,结果完全没法用;
wc -c,好像一个汉字占3个字节,有点不懂了,早年刚接触计算机的时候,不是说一个汉字占两个字节么?

有啥好的字数统计方法么?


-----------------------------------
开源/Linux大众化,从驿窗开始~

离线

#2 2020-12-19 14:05:14

silkriver
会员
注册时间: 2020-07-24
帖子: 34

Re: 很多rst文件,如何统计总字数?

wc -m 是统计字符数,单个汉字所占字节数由编码格式决定,UTF-8为3字节,GBK为2字节

离线

#3 2020-12-19 16:31:42

驿窗
驿窗
注册时间: 2016-06-03
帖子: 834

Re: 很多rst文件,如何统计总字数?

我试了 wc -m ,英文按字母数量统计,因为内容是中英混排,统计结果的精确性不太好判断~


-----------------------------------
开源/Linux大众化,从驿窗开始~

离线

#4 2020-12-19 16:44:48

依云
会员
所在地: a.k.a. 百合仙子
注册时间: 2011-08-21
帖子: 6,041
个人网站

Re: 很多rst文件,如何统计总字数?

驿窗 说:

我试了 wc -m ,英文按字母数量统计,因为内容是中英混排,统计结果的精确性不太好判断~

不是统计结果的精确性不太好判断,而是统计的对象和目标不清晰。

离线

#5 2020-12-19 16:53:59

驿窗
驿窗
注册时间: 2016-06-03
帖子: 834

Re: 很多rst文件,如何统计总字数?

对象和目标?

我想要的结果是中文汉字数量+单词数量,把这个当目标的话,统计起来方便么?或者,有其它方法,可以只统计汉字,忽略单词?


-----------------------------------
开源/Linux大众化,从驿窗开始~

离线

#6 2020-12-19 18:31:36

依云
会员
所在地: a.k.a. 百合仙子
注册时间: 2011-08-21
帖子: 6,041
个人网站

Re: 很多rst文件,如何统计总字数?

只统计汉字:grep -oP '\p{Han}' | wc -l
只统计拉丁字母和阿拉伯数字组成的单词:grep -oP '\w+' | wc -l

离线

#7 2020-12-19 21:03:17

驿窗
驿窗
注册时间: 2016-06-03
帖子: 834

Re: 很多rst文件,如何统计总字数?

运行时加文件名,无论文件内容是什么,都显示“ 1 文件名 ”~


-----------------------------------
开源/Linux大众化,从驿窗开始~

离线

#8 2020-12-20 12:43:29

xtricman
エクス·トリクマン
注册时间: 2012-12-26
帖子: 1,168

Re: 很多rst文件,如何统计总字数?

rst是个什么格式?如果是纯文本那一般用的是txt后缀所以我怀疑它不是。那么它有什么格式,你具体要统计什么?如docx那样的格式文本字数统计不是轻松的,这需要完全理解它的格式

最近编辑记录 xtricman (2020-12-20 14:25:41)


反社会,精神极其不稳定,随时可能炸碎身边所有人

离线

#9 2020-12-20 16:50:30

驿窗
驿窗
注册时间: 2016-06-03
帖子: 834

Re: 很多rst文件,如何统计总字数?

rst是restructuredText,我用sphinx+rst来写文档~


-----------------------------------
开源/Linux大众化,从驿窗开始~

离线

页脚