GNU/Linux >> Linux の 問題 >  >> Linux

uniq が同一の単語を異なるものとしてカウントするのはなぜですか?

最初にソートしてみてください:

cat .temp_occ | sort| uniq -c | sort -k1,1nr -k2 > distribution.txt

または、重複を排除する「sort -u」を使用します。こちらをご覧ください。


ファイルのサイズは、表示されているものとは関係ありません。 uniq(1) の man ページから:

<ブロック引用>

注:'uniq' は、隣接していない限り、繰り返される行を検出しません。最初に入力を並べ替えるか、'uniq' なしで 'sort -u' を使用することをお勧めします。また、比較は「LC_COLLATE」で指定されたルールに従います。`

uniq を実行しています オン

a
b
a

戻ります:

a
b
a

Linux
  1. 行の発生数を並べ替えてカウントしますか?

  2. [a-z]がBashの小文字と一致するのはなぜですか?

  3. sudoがエイリアスを無視するのはなぜですか?

  1. Linux –Setuidが機能しないのはなぜですか??

  2. Ssh -tオプションがリダイレクト出力にCrとLfを追加するのはなぜですか?

  3. Unix時間が1970-01-01から始まるのはなぜですか?

  1. 新しいディレクトリに何かが追加される前に、ハードリンクカウントが2になるのはなぜですか?

  2. UnicodeテキストでUniqを使用していますか?

  3. なぜ`exit&`が機能しないのですか?