很多rst文件，如何统计总字数？

驿窗 · 2020-12-19 11:26:06

一个项目目录，里面有很多子目录，每个子目录里都有数量不等的rst文件(文本文件)，我想统计一下所有文件的总字数。

我试了一下wc -w，结果是以空格来区分“词”，结果完全没法用；
wc -c，好像一个汉字占3个字节，有点不懂了，早年刚接触计算机的时候，不是说一个汉字占两个字节么？

有啥好的字数统计方法么？

silkriver · 2020-12-19 14:05:14

wc -m 是统计字符数，单个汉字所占字节数由编码格式决定，UTF-8为3字节，GBK为2字节

驿窗 · 2020-12-19 16:31:42

我试了 wc -m ，英文按字母数量统计，因为内容是中英混排，统计结果的精确性不太好判断～

依云 · 2020-12-19 16:44:48

驿窗说：

我试了 wc -m ，英文按字母数量统计，因为内容是中英混排，统计结果的精确性不太好判断～

不是统计结果的精确性不太好判断，而是统计的对象和目标不清晰。

驿窗 · 2020-12-19 16:53:59

对象和目标？

我想要的结果是中文汉字数量+单词数量，把这个当目标的话，统计起来方便么？或者，有其它方法，可以只统计汉字，忽略单词？

依云 · 2020-12-19 18:31:36

只统计汉字：grep -oP '\p{Han}' | wc -l
只统计拉丁字母和阿拉伯数字组成的单词：grep -oP '\w+' | wc -l

驿窗 · 2020-12-19 21:03:17

运行时加文件名，无论文件内容是什么，都显示“ 1 文件名 ”～

xtricman · 2020-12-20 12:43:29

rst是个什么格式？如果是纯文本那一般用的是txt后缀所以我怀疑它不是。那么它有什么格式，你具体要统计什么？如docx那样的格式文本字数统计不是轻松的，这需要完全理解它的格式

最近编辑记录 xtricman (2020-12-20 14:25:41)

驿窗 · 2020-12-20 16:50:30

rst是restructuredText，我用sphinx+rst来写文档～

Arch Linux