uniq

uniq es un comando de la familia de Sistemas Operativos Unix que permite borrar o mostrar las líneas repetidas de un archivo o bien provenientes de la entrada estándar (stdin).[1]

Es un requisito necesario para el buen funcionamiento de uniq que la información de entrada (archivo o stdin) se encuentre previamente ordenada, o que por lo menos las líneas repetidas se encuentren contiguas. Por dicho motivo es muy común usar uniq junto con el comando sort, que se encarga del ordenamiento.

Este comando presenta algunas limitaciones a la hora de hacer comparaciones para determinar si una línea es o no única: o se compara la totalidad de la línea, o bien una porción de la misma que puede estar determinada por alguno de los siguientes criterios :

  • Ignorando los primeros N Caracteres (-s) o Campos (-f).
  • Tomando solo los primeros N Caracteres (-w)

Dicha limitación impide por ejemplo que un usuario pueda determinar que una línea es única sobre la base de un único campo, siempre y cuando no sea el único o último de las líneas.

Modo de Uso

La invocación del comando uniq tiene la siguiente sintaxis:

 uniq [PARAMETRO]... [ENTRADA [SALIDA]]

La forma más simple de invocarlo es sin parámetros y con un Archivo ordenado como entrada, para lo cual uniq nos muestra en pantalla las líneas sin sus repeticiones. En caso de que indiquemos un segundo archivo, este será utilizado como salida, para guardar el resultado del procesamiento.

A continuación se enumeran los parámetros:

-c
Agrega un prefijo a las líneas con el número de ocurrencias.
-d
Solo se muestra una sola ocurrencia de las líneas duplicadas.
-D
Se muestran las líneas duplicadas. También es posible usar el parámetro --all-repeated=MODO_DELIMITADOR, donde se le puede indicar opcionalmente un modo de separar cada conjunto de ocurrencias. Dentro de los modos se encuentran
  • none: es el modo default, es equivalente a no indicar ningún modo.
  • prepend:Se muestran separadas por una línea en blanco, con una adicional al comienzo.
  • separate:Se muestran separadas por una línea en blanco.
-f numero, --skip-fields=numero
Determina que se realiza la comparación con sin los primeros N campos. Un campo es considerado una cadena de texto separada por un espacio en blanco o por el carácter tabulador.
-s numero, --skip-chars=numero
Determina que se realiza la comparación sin con los primeros N caracteres.
-i
Se ignora las Mayúsculas/Minúsculas al hacer la comparación.
-u
Se muestra las líneas que no poseen repeticiones.
-z, --zero-terminated
Establece que las líneas se terminan con el byte cero, no con el de nueva línea.
-w, --check-chars=numero
La comparación se realiza con no más de N caracteres de cada línea.

Ejemplos

A continuación se plantean algunos ejemplos usando el siguiente archivo, denominado archivo.txt, el cual posee 3 campos ordenados alfabéticamente:

Ananá 1 bueno
Banana 2 malo
Banana 2 malo
Durazno 3 malo
Manzana 4 malo
Manzana 4 malo
Manzana 5 malo
Pera 6 regular
Uva 7 regular
Uva 8 regular

Eliminar las líneas duplicadas

uniq archivo.txt

Resultado:

Ananá 1 bueno
Banana 2 malo
Durazno 3 malo
Manzana 4 malo
Manzana 5 malo
Pera 6 regular
Uva 7 regular
Uva 8 regular

Mostrar las líneas que no posea duplicados:

uniq -u archivo.txt

Resultado:

Ananá 1 bueno
Durazno 3 malo
Manzana 5 malo
Pera 6 regular
Uva 7 regular
Uva 8 regular

Mostrar las líneas sin repeticiones ignorando los primeros 2 campos (frutas y números):

uniq -f2 archivo.txt

Resultado:

Ananá 1 bueno
Banana 2 malo
Pera 6 regular

Totalizar (-c) las líneas que posean repeticiones (-d), ignorando los primeros 2 campos (frutas y números), :

uniq -d -f2 -c archivo.txt

Resultado:

6 Banana 2 malo
3 Pera 6 regular

Véase también

Enlaces externos

Referencias

Este artículo ha sido escrito por Wikipedia. El texto está disponible bajo la licencia Creative Commons - Atribución - CompartirIgual. Pueden aplicarse cláusulas adicionales a los archivos multimedia.