[Linux] Bash uniq Использование: Удаление дубликатов строк

Обзор

Команда uniq в Bash используется для удаления дубликатов соседних строк в текстовых файлах. Она анализирует входные данные и выводит только уникальные строки, что делает её полезной для обработки и анализа текстовой информации.

Использование

Основной синтаксис команды выглядит следующим образом:

uniq [опции] [аргументы]

Общие опции

-c: Подсчитывает количество повторений каждой уникальной строки.
-d: Выводит только строки, которые повторяются.
-u: Выводит только уникальные строки, которые не имеют дубликатов.
-i: Игнорирует регистр при сравнении строк.

Примеры

Вот несколько практических примеров использования команды uniq:

Удаление дубликатов из файла:
```
uniq input.txt output.txt
```
Подсчет количества повторений каждой строки:
```
uniq -c input.txt
```
Вывод только дубликатов:
```
uniq -d input.txt
```
Игнорирование регистра при удалении дубликатов:
```
uniq -i input.txt output.txt
```

Советы

Перед использованием uniq, убедитесь, что строки отсортированы, так как команда удаляет только соседние дубликаты. Используйте команду sort для предварительной сортировки:
```
sort input.txt | uniq > output.txt
```
Для больших файлов, которые не помещаются в память, рассмотрите использование uniq в сочетании с sort и tee для обработки данных по частям.
Используйте опцию -c, чтобы быстро получить статистику по дубликатам, что может быть полезно для анализа данных.