«è sempre stato estratto più oro dai pensieri umani che dalle viscere della terra»

Un esperimento con i Sentence Transformers

Recentemente ho creato un piccolo progetto personale dove ho intrecciato la psicologia analitica con i Sentence Transformers.

Per chi non lo sapesse, questi Sentence Trasformers, sono dei modelli adatti a trasfromare (e quindi rappresentare) parole o frasi in dei vettori numerici multidimensionali. Una delle conseguenze di questo processo è la possibilità di effettuare un'efficiente ricerca per similarità comparando un input non determinato con un dataset già vettorizzato in precedenza. Cosa appunto fatta in questo progetto.

Essendo uno sviluppatore front-end, ho poca dimestichezza con le tecnologie dette anche LLM (large language models) e avviso il lettore in anticipo di possibili errori e generalizzazioni forzate, ma, proprio per questo, ho voluto cimentarmi in questa piccola impresa. Per sperimentare e imparare.

Ho così potuto approfondire tecnologie come: Python, Flask, Docker, la generazione di embedding grazie a Sentence Transformers, nonchè Vue.js e element-plus, quest'ultimo plugin lo sto rodando ultimamente e mi piace come semplice libreria UI frontend.

Descrizione del progetto

Sinteticamente, il progetto è una web app, che può essere vista come un semplicissimo motore di ricerca semantica, che, partendo da una query utente, restituisce le 4 citazioni più pertinenti dal dataset privato estratto dal libro Aforismi di C. G. Jung.

In background, esso usa tecnologie di intelligenza artificiale basica come: la trasformazione del testo in embeddings e la similarità del coseno per cercare citazioni simili alla query utente.

Inoltre permette di scegliere fra 2 modelli di embeddings, cioè di trasformazione del testo in vettori numerici multidimensionali, quello gratuito e locale mpnet e quello ufficioso di OpenAi.

Qui sotto un'immagine dell'interfaccia grafica, dove un utente ha cercato le citazioni pertinenti con la query anima.

alt text

Descrizione del flusso di realizzazione del progetto

Attualmente non posso pubblicare il progetto in quanto esso è protetto da copyright da Bollati Boringhieri e nel rispetto degli autori.

Comunico comunque che le informazioni restiuite dal software sono spesso interessanti e contestuali, ma effettivamente non mi sembra migliore rispetto alla ricerca analogica direttamente con il libro fra le mani.

Maggiori informazioni sul libro

Questo è il libro utilizzato come fonte nel suddetto esperimento: Aforismi di Carl G. Jung, a cura di Gian Piero Quaglino e Augusto Romano. Bollati Boringhieri. ISBN 978-88-339-2302-4.

Eventualmente,
buona lettura.

alt text