Ping! reloaded
Modificato il 22 febbraio 2024
Ho voluto cimentarmi con la linea di comando approfittando dell’occasione di dare una mano a Lucio Bragagnolo, guardate le note biografiche su Quickloox, nel far migrare il suo blog su Hugo. Dietro c’è anche un’operazione nostalgia, ossia la voglia di recuperare l’aspetto dell’ormai abbandanato Octopress e un notevole numero di post a suo tempo pubblicati in una rubrica che si chiamava Ping! e ospitata da Macworld edizione italiana.
- Problema 1: come convertire circa 3500 file di testo con un nome astruso e senza suffisso?
- Problema 2: come fare per renderli digeribili a Hugo e inserirli in un blog già esistente?
I file sono suddivisi cartelle e sottocartelle e il nome file è preceduto da tre caratteri e uno spazio. Cartelle, sottocartelle e i tre caratteri seguono un ordine alfabetico e non, per es., un ordine cronologico. Inoltre i nomi file contengono altri spazi e apostrofi. Per normallizzare i file dei post è necessario:
- Eliminare i primi 3 caratteri e lo spazio
- Eliminare gli apostrofi e sostituire gli spazi dal nome file con trattini
- Aggiungere l’estensione.md e un prefisso del tipo YYYY-MM-DD-
- La data del prefisso dovrebbe essere quella della creazione del file originale per poter mantenere la cronologia
- Costruire il front matter dei post
Per ottenere tutto questo mi sono prefissato di usare la linea di comando e comandi nativi su macOS. Per esempio non ho installato rename che è presente su altri SO *nix, ma ho sfruttato mv. Per ottenere la data dei file è stato utile stat, che non solo estrae ciò che serve, ma ne permette anche la formattazione. E poi l’intramontabile e veloce sed. Il tutto condito con dei cicli for. Alcune cose si sarebbero potute ottenere probabilmente anche con awk, che mi ha sempre affascinato, ma non mi ci sono mai dedicato molto.
ATTENZIONE: shell zsh, gnu sed e gnu awk necessari
- Nella situazione di partenza i post erano annidati in sottocartelle con una gerarchia molto particolare. Per portare tutti file in un’unica cartella, per comodità chiamiamola ping, ho usato questo script
find . -not -type d -print0 | xargs -0J % mv -f % . ; find . -type d -depth -print0 | xargs -0 rm -rf
- Il nome dei file comincia con tre lettere e uno spazio, che servivano per l’ordinamento gerarchico precedente, ma ora i primi 3 non ci servono più. Il comando seleziona i caratteri dall’inizio del nome fino al primo spazio e rinomina il file eliminandoli. Cambiando il pattern di ricerca in sed è possibile cambiare ogni parte del nome del file. Nota bene: questo script è rieditato.
#!/bin/bash
for file in *; do
if [ -f "$file" ]; then # Check if the item is a file
new_name=$(echo "$file" | gsed 's/^.\{4\}//') # Remove the first 4 characters
if [ ! -e "$new_name" ]; then # Check if the new name already exists
mv "$file" "$new_name" # Rename the file
else
echo "Error: File '$new_name' already exists. Skipping renaming of '$file'."
fi
else
echo "Skipping '$file': Not a regular file."
fi
done
- Alcuni dei post più vecchi hanno un formato Mac OS Roman, con a capo CR, mentre ora vogliamo LF.
mac2unix -k *
mac2unix è presente in dos2unix. L’opzione -k preserva i metadati di creazione del file.
- Per rimuovere gli apostrofi ho selezionato i file con il nome contenente un apostrofo e rinominato con mv.
for file in *; do
# Remove leading and trailing single quotes
new_name="${file%%'\*}" # Remove trailing quotes
new_name="${new_name##'\*}" # Remove leading quotes
# Handle existing files and renaming errors
if [[ -e "$new_name" ]]; then
echo "Error: File '$new_name' already exists."
else
mv -- "$file" "$new_name" || echo "Error renaming '$file' to '$new_name'."
fi
done
- Il nome del file dovrebbe, idealmente essere formato con un prefisso corrispondente alla data di creazione o pubblicazione; stat estrae la data di creazione del file e la formatta secondo lo schema voluto. Ma c’è un grosso ma. Non è detto che la data estratta dai metadati sia esatta, in quanto nei passaggi e nei salvataggi i metadati si possono essere modificati. Comunque pensiamo a una situazione favorevole e usiamo il seguente script.
for file in *; do mv -- "$file" "`stat -f %SB-%n -t %Y-%m-%d`$file"; done
Ma questo script mostra qualche grave pecca per come stat viene usato nel ciclo for. La prima è che ho dimenticato di codificare esplicitamente quali file dare in pasto a stat, che così gira a vuoto e mette una data di creazione uguale per tutti i file, ovvero 1970-01-01, che è come dire che tutti sono stati creati al tempo 0. Il secondo errore è costituito dal non aver correttamente applicato l’espansione della variabile risultante dal comando stat. La versione emendata è:
for f in *; do
mv -- "$f" "$(stat -f %SB-%n -t %Y-%m-%d $f)$f";
done
O in una versione più robusta
#!/bin/zsh
for file in *; do
if [ -f "$file" ]; then # Check if the item is a file
timestamp=$(stat -f "%SB" -t "%Y-%m-%d" "$file") # Get the modification timestamp
new_name="${timestamp}-${file}" # Create the new file name
if [ ! -e "$new_name" ]; then # Check if the new name already exists
mv -- "$file" "$new_name" # Rename the file
else
echo "Error: File '$new_name' already exists. Skipping renaming of '$file'."
fi
else
echo "Skipping '$file': Not a regular file."
fi
done
Ancora una nota, il flag B, birth date dell’inode, è valido solo in macOs, altri sistemi *nix non hanno quel metadato.
- Se la procedura precedente dovesse fallire, si potrebbe optare per una soluzione che passa per R. In poche parole ho fatto web scraping su WaybackMachine, salvato titolo e data di pubblicazione dei post trovati - non sono sicuramente tutti - in un file trovati.csv, che fantasia! Ho preparato uno script e lo ho chiamato ledate.sh, anche qui grande sforzo di fantasia.
#!/opt/homebrew/bin/zsh
#
setopt extendedglob
for t in **/^ledate*; do
pubb=$(gawk -F ";" '$1=="'"$t"'" {print $2}' ../trovati.csv)
gsed -i.bu "1a date: $pubb" $t
done
unsetopt extendedglob
La prima riga abilita una delle opzioni di zsh così da poter utilizzare la sintassi di esclusione di alcuni file dall’elaborazione dello script, in questo caso ledate.sh che è nella stessa cartella dei post. gsed -i.bu crea dei file di backup se qualcosa va storto con gsed. Io preferisco avere la cartella dove lavoro inizializzata a git e fare dei commit frequenti, così posso fare dei passi indietro.
- Se volessimo sfruttare un’altra delle capacità di hugo potremmo modificare il file hugo.toml così
[frontmatter]
date = [':filename', ':default']
In questo modo non è necessario inserire le date nel frontmatter, ma viene ricavato dal nome del file con questo formato YYYY-MM-DD-titolo. Questo risultato si ottiene eseguendo lo script seguente
#!/opt/homebrew/bin/zsh
# Percorso della directory dei file
directory="/percorso/della/directory/dei/file"
# Percorso del file che contiene l'elenco parziale dei nomi dei file e le date
elenco="/percorso/del/file/trovati.csv"
# Itera attraverso ogni riga del file elenco
while IFS= read -r line; do
# Divide la riga in nome file e data
filename=$(echo "$line" | awk -F";" '{print $1}')
date=$(echo "$line" | awk -F";" '{print $2}')
# Crea il nuovo nome del file
new_filename="$date-$filename"
# Verifica se il file esiste nella directory e rinominalo
if [[ -e "$directory/$filename" ]]; then
mv "$directory/$filename" "$directory/$new_filename"
echo "Il file $filename è stato rinominato in $new_filename"
else
echo "Il file $filename non esiste nella directory"
fi
done < "$elenco"
- Sistemare il front matter dei post in formato yaml.
- Dare un nome di campo al titolo.
gsed -i '1 s/./title: &/' *
- Inserire i delimitatori yaml
gsed -i '1i ---' *
gsed -i '4a ---' *
- Aggiungere la data sotto il titolo, da utilizzarsi solo se la data è stata ricavata dai metadati del file.
for file in *; do
if [ -f "$file" ]; then
stat_output=$(stat -f %SB -t %Y-%m-%d "$file")
gsed -i "2idate: \\$stat_output" "$file"
fi
done
Notare l’uso dei doppi apici in questo caso per espandere le variabili.
- Per riconoscere questi antichi file ho aggiunto una categoria.
gsed -i '3a categories: [“ping“]' *
- Aggiungere l’estensione.md con lo script seguente solo se si è utilizzato il file csv.
for file in **/^ledate*; do mv -- "$file" "${file}.md"; done
Se dovesse comparire un messaggio di errore ricordarsi di riattivare setopt extendedglob.
Altrimenti usare questo script
for file in ./path/to/directory/*ledate*; do
if [[ -e "${file}.md" ]]; then
read -p "File '${file}.md' already exists. Overwrite? (y/N) " -r answer
if [[ $answer =~ ^[Yy]$ ]]; then
mv -- "$file" "${file}.md"
fi
else
mv -- "$file" "${file}.md"
fi
done
- Adesso gli spazi tra le parole che compongono il nome del file vanno sostituiti con trattini
for f in *; do
# Remove leading/trailing spaces
new_name="${f## }" # Remove trailing spaces
new_name="${new_name%% }" # Remove leading spaces
# Replace remaining spaces with hyphens
new_name="${new_name// /-}";
# Handle existing files and renaming errors
if [[ -e "$new_name" ]]; then
echo "Error: File '$new_name' already exists."
else
mv -- "$f" "$new_name" || echo "Error renaming '$f' to '$new_name'."
fi
done
C’è ancora un problemuccio di codifica dei caratteri per i file che furono scritti con MacOs Roman. La soluzione c’è e si chiama textutil, di serie in Darwin di macOs. In alternativa c’è iconv, ma prevede un file nuovo di output che poi dovrebbe essere rinominato. Uno script di esempio
#!/bin/zsh
# Define source encoding and target encoding
source_encoding="MacOsRoman"
target_encoding="UTF-8"
# Iterate through files in the current directory
for file in *; do
# Check if it's a file and skip hidden files
if [[ -f "$file" && ! -d "$file" && "$file" != .?* ]]; then
# Check if the file needs conversion
current_encoding=$(textutil -stdout -encoding -file "$file")
if [[ "$current_encoding" == "$source_encoding" ]]; then
# Convert the file
textutil -stdout -encoding "$target_encoding" -file "$file" > "$file.new"
if [[ $? -eq 0 ]]; then
# Replace the original file if conversion was successful
mv "$file.new" "$file"
echo "Converted '$file' to UTF-8"
else
echo "Error converting '$file': $?"
fi
else
echo "Skipping '$file' as it's already in $current_encoding"
fi
fi
done
Troppi passaggi? Sicuramente poteva essere fatto in modo più elegante, per esempio creando delle variabili e mettendo tutto in uno script. In questo modo ho imparato, applicato e controllato passo a passo cosa fare e sono soddisfatto. Per ora.