Trovare record duplicati in MySQL (ed eliminare i doppioni)

La ridondanza non ha sempre effetti negativi in informatica; in alcuni casi, essa viene utilizzata per aumentare l’affidabilità di un’applicazione tramite l’esecuzione di processi in parallelo. Tuttavia, quando si parla di DBMS, i record duplicati possono rivelarsi problematici, soprattutto nella gestione di database di grandi dimensioni, dove la pulizia dei dati diventa essenziale.

Trovare i record duplicati

Non è necessario farsi prendere dal panico di fronte a fenomeni di ridondanza; pochi record duplicati non influenzeranno negativamente le prestazioni generali di un Database Manager. Per avere una visione chiara sulla presenza (o meno) di dati duplicati in una tabella MySQL, è possibile utilizzare una semplice interrogazione, come nell’esempio seguente:

SELECT email, COUNT(email) AS totale
FROM newsletter
GROUP BY email
HAVING totale > 1
ORDER BY totale;

La clausola HAVING viene applicata sui record della tabella risultante da una query GROUP BY. Nel caso specifico, questa clausola consente di visualizzare i record per i quali il conteggio delle ricorrenze è superiore a “1”, indicante dunque un record duplicato. È importante notare che identificare i duplicati è solo il primo passo; la pulizia dei dati è essenziale per mantenere l’integrità del database.

Esempio di output

Il risultato della query restituirà una tabella con le email e il numero di volte in cui ciascuna appare. Questo ci permette di identificare rapidamente i duplicati. Ecco un esempio di output che potremmo aspettarci dalla quei vista sopra:

email	totale
prova@email.com	3
esempio@email.com	2
test@email.com	2

Cancellare i record duplicati

Esistono diversi metodi per effettuare la pulizia automatica di una tabella dai risultati duplicati. Uno dei più semplici ed efficaci consiste nel creare una nuova tabella, identica alla prima, con un indice univoco per il campo (o i campi) per i quali si vuole evitare che vi siano valori duplicati. Ecco le query SQL necessarie per questa operazione:

CREATE TABLE tmp LIKE mia_tabella;
ALTER TABLE tmp ADD UNIQUE (campo1);

Fatto ciò, possiamo riversare nella nuova tabella i dati presenti nella tabella originale che desideriamo “pulire”. La query per effettuare questo è la seguente:

INSERT INTO tmp SELECT * FROM mia_tabella;

Ora non ci resta che rinominare la tabella originale e quella temporanea, facendo in modo che quest’ultima prenda il nome di quella originale che andrà a sostituire. La query per questo passaggio è:

RENAME TABLE mia_tabella TO cancellami, tmp TO mia_tabella;

Alla fine, dopo aver effettuato i necessari controlli e verifiche, potremo cancellare la tabella originale con la seguente query:

DROP TABLE cancellami;

Nota: nell’esempio abbiamo previsto un indice univoco composto da un solo campo, ma è possibile creare un indice su più campi se la situazione lo richiede. Ad esempio, la query per aggiungere un indice su più colonne è:

ALTER TABLE tmp ADD UNIQUE (campo1, campo2);

In conclusione, identificare ed eliminare i record duplicati è una pratica fondamentale per mantenere l’integrità e le prestazioni del database. Utilizzando le query fornite, è possibile gestire facilmente i dati ridondanti e garantire una struttura più efficiente del database, contribuendo così a un’applicazione più performante e sicura.

Trovare record duplicati in MySQL (ed eliminare i doppioni)

Trovare i record duplicati

Esempio di output

Cancellare i record duplicati

Potrebbero interessarti queste guide

Leggi anche...

Come ottenere l’ID dell’ultimo record inserito in MySQL, PostgreSQL, SQL Server e Oracle?

Database completo regioni, province e comuni italiani (in formato SQL)

File CSV: cosa sono, come si aprono e come crearli

Confrontare due tabelle e trovare i record senza corrispondenza

Eseguire comandi SQL online con SQL Fiddle

SQL: Calcolare la media dei valori di più campi

Trovare record duplicati in MySQL (ed eliminare i doppioni)

Trovare i record duplicati

Esempio di output

Cancellare i record duplicati

Altri contenuti interessanti

Potrebbero interessarti queste guide

Leggi anche...

Come ottenere l’ID dell’ultimo record inserito in MySQL, PostgreSQL, SQL Server e Oracle?

Database completo regioni, province e comuni italiani (in formato SQL)

File CSV: cosa sono, come si aprono e come crearli

Confrontare due tabelle e trovare i record senza corrispondenza

Eseguire comandi SQL online con SQL Fiddle

SQL: Calcolare la media dei valori di più campi