uniq が同一の単語を異なるものとしてカウントするのはなぜですか?

最初にソートしてみてください:

cat .temp_occ | sort| uniq -c | sort -k1,1nr -k2 > distribution.txt

または、重複を排除する「sort -u」を使用します。こちらをご覧ください。

ファイルのサイズは、表示されているものとは関係ありません。 uniq(1) の man ページから:

<ブロック引用>

注:'uniq' は、隣接していない限り、繰り返される行を検出しません。最初に入力を並べ替えるか、'uniq' なしで 'sort -u' を使用することをお勧めします。また、比較は「LC_COLLATE」で指定されたルールに従います。`

uniq を実行していますオン

a
b
a

戻ります:

a
b
a