I 5 motivi per ordinare i dati con sistemi automatici

di Anna Fabi

11 Febbraio 2014 10:37

Tecnologia semantica per la gestione delle informazioni aziendali: comprensione automatica per gestire qualsiasi tipo di testo in ogni settore di lavoro.

Immagina di voler costruire una cuccia per il cane avendo tutto l’occorrente tranne i chiodi: se il ferramenta ha disposto la merce in modo sensato rintraccerai velocemente ciò che serve individuando corsia, espositore e prodotto; se il negoziante è disorganizzato sarà difficile reperire il materiale, ritardando di molto il lavoro di costruzione. Lo stesso avviene in ufficio con il recupero urgente di documenti aziendali specifici: se archiviati con criteri condivisibili si troveranno subito, diversamente toccherà cercare alternative.

Archiviazione dati

Se consideriamo l’odierna esplosione di potenziali informazioni di business nel mondo – ogni giorno 144 bilioni di email scambiate, 634 milioni di siti web, 2,4 bilioni di utenti, 2,7 bilioni di Like in Facebook, 175 milioni di tweet pubblicati (Fonte: Internet World Stats, gennaio 2013) – è evidente che per le aziende è necessario mettere (e tenere) in ordine i dati nel modo più preciso possibile, per sfruttarli al momento opportuno. Vediamo dunque 5 motivi per cui conviene categorizzarli e farlo con tecnologia semantica.

1. Piccolo sforzo, grande vantaggio

Come i chiodi nella corsia del ferramenta, se i contenuti sono archiviati nella “cartella” giusta in base all’argomento è più semplice ritrovarli in un secondo momento. Gli addetti ai lavori chiamano questa attività in svariati modi (classificazione, clusterizzazione, taggatura ecc.) ma quello tecnicamente più corretto è forse categorizzazione: in ogni caso, si tratta sempre di distinguere secondo diverse categorie (argomenti) le informazioni disponibili per renderne immediato il reperimento. La tecnologia semantica, al contrario degli approcci tradizionali che si limitano ad analizzare le keyword, è in grado di capire di che cosa parla un documento, simula il ragionamento umano per cogliere tutti gli aspetti di un testo. In questo modo capisce subito qual è la “corsia” giusta in cui va riposto.

2. Attività manuale? No grazie

Manualmente,  la categorizzazione è improponibile perchè troppo onerosa in termini di tempo, e per di più non è oggettiva poiché la scelta delle categorie può variare da persona a persona ed è sottoposta a errori umani (stanchezza, incostanza, incompetenza ecc.). Per ovviare ci si è orientati a sistemi automatici intelligenti, che utilizzano la semantica dimostrandosi veloci e affidabili. La differenza sta in che cosa si riesce ad analizzare: non tanto un elenco di parole, che danno solo una vaga idea dell’argomento, quanto il testo nella sua completezza e con i legami delle parole.

3. Sano realismo più che algoritmo perfetto

Da anni si cerca di scrivere l’algoritmo perfetto che con poco sforzo classifichi in automatico e con qualità, addestrando il programma con esempi per farlo poi agire bene e in autonomia. In teoria si potrebbe anche fare, ma per raggiungere ogni volta un livello soddisfacente servirebbe un’intervento umano smisurato. Un po’ di realismo è fondamentale per trovare la soluzione adatta, sufficientemente evoluta anche se non perfetta. La tecnologia semantica rappresenta una possibile risposta in questo senso: non promette di categorizzare magicamente tutto in automatico ma offre un supporto concreto per ordinare i dati con maggiore efficacia e rapidità.

4. Quando ho un’esigenza tutta mia

Ogni azienda ha esigenze specifiche, ogni progetto è diverso, ogni settore adotta un proprio linguaggio. Dunque, per ottenere una categorizzazione efficace è necessario che i contenuti siano ordinati come ci si aspetta, nel modo più congeniale per rispondere a un determinato metodo o bisogno. Spesso occorre quindi un lavoro di raffinamento e personalizzazione, difficilmente attuabile dai sistemi tradizionali che usano soprattutto criteri statistici per riconoscere ogni argomento. L’approccio fondato sulla semantica consente invece di adattare con flessibilità regole e sistema di classificazione, stabilendoli in base alle necessità, e di raffinare meglio i risultati anche quando si deve scegliere tra migliaia di argomenti.

5. Ci vuole metodo

Considerando le tante e diverse fonti da cui provengono i contenuti da ordinare (documenti aziendali, email, pagine web, social media, ecc.) non basta farli macinare dal programma. Ogni fonte ha tipicità specifiche che vanno considerate: ad esempio, non è la stessa cosa categorizzare messaggi Twitter brevissimi e pieni di simboli (hashtag, abbreviazioni, link ecc.) e blog post su temi personali che si fondono con quelli principali. Per ottenere una categorizzazione di qualità serve fare dei test, bilanciare lo strumento e utilizzarlo in modo esperto. Non esiste la certezza che una qualsiasi tecnologia lasciata a se stessa garantisca la massima qualità dei risultati; è fondamentale la supervisione umana, possibilmente da parte di chi conosce bene la problematica e ha maturato esperienza in situazioni simili: ci vuole chi conosce il metodo e lo metta in pratica.

Ci sarebbero altri aspetti riguardanti la categorizzazione automatica  da approfondire ma preferiamo fermarci qui: questi 5 motivi sono già sufficienti per chiedersi come mai siano ancora così poche le aziende capaci di cogliere l’urgenza del problema e affidarsi a sistemi semantici, più efficaci ad affrontare la situazione. Forse credono che non sia così necessario ordinare i dati o di potersela cavare manualmente, o forse stanno aspettando una risposta magica applicabile con facilità in tutti casi. Di sicuro stanno perdendo in tempo ed efficienza.

Articolo a cura di Expert System www.expertsystem.it