ALLEGRO TXT2VIDEO - DA TESTO A VIDEO #ai
7K views
Nov 5, 2024
INTELLIGENZA ARTIFICIALE - CREAZIONI AUDIO VIDEO - AUTOMAZIONI Esplora il mondo dell' AI attraverso tutorial approfonditi, guide pratiche, esempi di creazioni con intelligenze artificiali. Siamo qui per ispirare e supportare i creatori come te, offrendo strumenti e risorse per affrontare sfide e creare soluzioni innovative. Unisciti a una community appassionata di menti creative, interagisci con noi e condividi le tue idee. Iscriviti per rimanere aggiornato sulle ultime tendenze nell'ambito dell'IA e della tecnologia. Grazie per essere parte del nostro viaggio verso l'innovazione! #ai #trends #shortvideo #tips www.geekandhack.com ---- Mi trovi anche su MINDS https://www.minds.com/geekandhack
View Video Transcript
0:00
Ciao a tutti e benvenuti sul canale di
0:02
kandak i video che vedete sul vostro
0:05
schermo sono stati creati solo con un
0:06
promp di testo e il modello che ha
0:09
generato questi video è un nuovo modello
0:11
appena rilasciato poche ore fa chiamato
0:13
allegro che è attualmente disponibile su
0:15
hugging Face in questo video lo
0:18
installeremo localmente e generer Remo
0:20
dei video partendo semplicemente da un
0:22
prompt di testo per vedere se la qualità
0:24
corrisponde a quella dei video che vi
0:25
sto mostrando prima di procedere Vi darò
0:29
una rapida P su questo modello allegro e
0:31
poi andremo avanti con l'installazione
0:34
passiamo ora a una rapida panoramica del
0:37
modello allegro che è appena stato
0:39
rilasciato questo modello È un potente
0:42
modello di testo video che genera video
0:43
di alta qualità fino a 6 secondi a 15
0:46
fotogrammi al secondo e con una
0:47
risoluzione di 720 pixel partendo da un
0:50
semplice input di testo Il modello è
0:53
molto versatile e offre agli utenti la
0:55
flessibilità di esplorare idee Creative
0:57
all'interno del formato di 6 secondi è
1:00
Open Source con licenza parche Il che è
1:03
corretto quindi molto generoso e
1:05
l'intero codice e i pesi sono
1:07
disponibili per la comunità inserirò
1:10
anche il link nella descrizione del
1:12
video come ho detto potete generare una
1:15
vasta gamma di contenuti come primi
1:17
piani di persone e animali fino a scene
1:19
dinamiche come potete vedere sullo
1:21
schermo Il modello ha solo 175 milioni
1:25
di parametri per l'auto encoder
1:26
variazionale e 2.8 miliardi di parametri
1:29
per il modello di trasformatore di
1:30
diffusione video supporta diverse
1:33
precisioni dalla piena precisione a
1:35
virgola mobile a 32 bit A bifl 16 e
1:37
virgola mobile a 16 bit e usa 9.3 GB di
1:41
memoria gpu in modalità fp16 con
1:43
offloading CPU la lunghezza del contesto
1:47
è di circa 80k che equivale a 88
1:50
fotogramm potete trovare ulteriori
1:52
dettagli sul modello sulla pagina di
1:54
hing Face di cui metterò il link nella
1:57
descrizione del video ora vi porterò sul
2:00
mio terminale dove Sto eseguendo Ubuntu
2:07
22.04.08 GB di vri fornita da m compute
2:11
prima di tutto pulisco lo schermo
2:15
Creiamo un ambiente virtuale con Cona
2:17
che chiamerò
2:18
ai aspettiamo che si attivi e poi
2:21
installerò alcuni dei prerequisiti come
2:23
torch torch vision e tutto il resto
2:25
necessario ci vorranno 3-4 minuti quindi
2:29
aspettiamo
2:30
una volta terminati i prerequisiti
2:33
ripulisco lo schermo La questione è che
2:36
questo modello non è ancora parte di
2:37
diffusers e non credo sia supportato da
2:39
Transformers quindi scaricherò i pesi
2:42
del modello tramite il Cli di hing face
2:44
e faremo l'inferenza con il loro Repo
2:46
Dig gitab Per prima cosa dobbiamo
2:48
accedere a hing Face con il comando
2:50
hugin facec login questo vi chiederà un
2:54
token che potete ottenere gratuitamente
2:56
dal sito di hooking Face basta andare
2:59
sul vostro profilo e prenderlo da lì pun
3:02
token di sola lettura sarà
3:04
sufficiente dopo aver premuto Y vedrete
3:07
che siamo ora connessi a hooking Face
3:09
quindi va bene ripulisco lo schermo
3:13
successivamente dobbiamo scaricare il
3:16
modello vi mostrerò il comando per farlo
3:19
basta eseguire ugin fac download creare
3:22
una nuova Directory allegro e sul vostro
3:24
sistema locale e lanciare questo comando
3:27
che scaricherà il modello allegro il
3:30
nome del repository è rymes allegro che
3:32
ho preso dalla pagina di hooking Face se
3:35
scorrete verso l'alto vedrete lì il nome
3:38
Esatto A questo punto Torno al terminale
3:41
e lancio il comando il modello sta
3:44
venendo
3:45
scaricato aspettiamo un po' perché
3:48
potrebbe volerci del tempo Il modello è
3:51
stato
3:52
scaricato Vi mostro la sua dimensione se
3:54
Eseguo LS ltr vedrete che alla fine c'è
3:58
la directory allegro
4:00
entriamo nella Directory e Vi mostro la
4:02
dimensione il peso è di 24 GB quindi
4:06
assicuratevi di avere abbastanza spazio
4:08
sul vostro sistema Vi mostro il
4:11
contenuto della Directory c'è un
4:12
autoencoder variazionale un modello di
4:15
trasformatore un tokenizzare e un
4:17
encoder di testo tutti elementi
4:19
necessari e vi spiegherò cosa fanno
4:21
quando li eseguiamo ora per eseguire il
4:24
modello dobbiamo Prima di tutto uscire
4:26
dalla Directory e rinominare la
4:27
directory del modello perché dobbiamo
4:30
clonare il Repo quindi rinomino la
4:31
directory in allegro model e clono il
4:34
Repo gitab di allegro Eccoci qui fatto
4:39
se Eseguo LS ltr vedrete gli script
4:42
forniti per l'inferenza da allegro
4:44
stesso Vi mostro come generare video da
4:47
un testo dal Rot del Repo Eseguo Lo
4:50
script chiamato single inference questo
4:54
script prende un prompt di testo Come
4:56
input per generare il video ecco esempio
5:00
di prompt un porto marittimo sotto la
5:02
luce del sole con acqua scintillante e
5:04
molte barche viste dall'alto Le barche
5:07
variano per dimensioni e colore alcune
5:09
in movimento altre ferme barche da pesca
5:12
sull'acqua suggeriscono che questo posto
5:14
Potrebbe essere una località Popolare
5:16
per l'ormeggio delle imbarcazioni da
5:18
pesca poi Specifichiamo il formato di
5:21
salvataggio del nostro video Ad esempio
5:23
in
5:24
MP4 successivamente indichiamo il nostro
5:27
autoencoder variazionale vi
5:30
L'auto encoder variazionale è un modello
5:32
che converte le immagini generate frame
5:34
per frame dallo spazio latente allo
5:36
spazio dei pixel lo spazio latente è
5:39
utilizzato dal modello per il calcolo
5:41
mentre lo spazio dei pixel Rappresenta
5:43
ciò che noi vediamo Ho già trattato
5:46
questa differenza in vari video
5:48
precedenti Quindi se vi interessa
5:50
approfondire potete cercare spazio
5:52
latente sul canale e troverete
5:54
spiegazioni più
5:55
dettagliate poi Specifichiamo il modello
5:57
di trasformatore effettivo e coder di
6:00
testo che converte l'input testuale in
6:01
embedding o rappresentazioni numeriche
6:04
comprensibili dal modello Inoltre
6:06
utilizziamo il
6:14
tokenizzare della cfg classifier free
6:17
guidance che indica quanto il modello
6:19
aderisce al prompt dato un valore più
6:21
alto implica un'aderenza maggiore al
6:23
prompt mentre un valore più basso
6:25
permette Maggiore creatività il numero
6:27
di step indicato è 100 che rappresenta
6:30
il numero di passaggi che il modello
6:31
eseguirà per generare il video il Sid è
6:35
un valore casuale utilizzato per
6:36
generare il rumore iniziale che il
6:38
trasformatore di diffusione utilizzerà
6:40
per creare le immagini ora lancio il
6:43
comando il modello sta eseguendo
6:45
l'inferenza e sta generando il video ci
6:48
vorrà un po' di tempo Quindi aspettiamo
6:51
che completi il processo Nel frattempo
6:54
vi presento anche lo sponsor di questo
6:56
video Agent ql Agent ql è un linguaggio
7:00
di query che trasforma qualsiasi pagina
7:02
web in una fonte di dati supportato da
7:04
un SDK Python e strumenti di debing live
7:08
potete fare scraping e interagire con
7:10
contenuti web poiché Agent ql funziona
7:12
su qualsiasi pagina è resiliente
7:14
riutilizzabile e struttura l'output in
7:17
base alla forma della query lascerò il
7:20
link nella descrizione del video Per chi
7:22
volesse saperne di più torniamo al
7:24
nostro video sta completando i 100 step
7:27
previsti Vi mostro anche che il consumo
7:30
di gpu nel frattempo come potete vedere
7:32
dei 48 GB di vra e della mia gpu ne sta
7:36
utilizzando circa 43 GB un consumo
7:39
notevole il modello sta funzionando
7:41
lentamente con un Tempo stimato di 53
7:44
minuti per la generazione di un video di
7:46
6 secondi un tempo piuttosto lungo i
7:49
tempi di completamento fluttuano quindi
7:51
aspettiamo di vedere come si evolve non
7:54
ho intenzione di aspettare un'ora intera
7:56
quindi vi darò un aggiornamento tra poco
8:00
Ho aspettato 40 minuti ma il Tempo
8:02
stimato continuava a mostrare altri 40
8:04
minuti non potevo aspettare così a lungo
8:07
quindi ho deciso di interrompere il
8:09
processo e mostrare i risultati in modo
8:11
trasparente come è nello spirito del
8:13
nostro canale ho avviato un nuovo test
8:16
con un prompt più breve una tigre che
8:18
corre nella foresta mantenendo gli
8:20
stessi parametri tranne il numero di
8:22
step ridotto a 30 so che questo
8:25
comprometterà la qualità ma voglio
8:27
comunque mostrarvi cosa è possibile
8:30
questo ci darà un'idea di come Potrebbe
8:32
migliorare il risultato con 100 step
8:35
anche con 30 step il tempo totale
8:37
stimato è di 20 minuti di cui 8 minuti
8:40
già passati e 12
8:42
rimanenti aspettiamo i prossimi minuti
8:44
per vedere il risultato finale ci siamo
8:47
quasi il processo è agli ultimi step
8:50
devo dire che sebbene il modello sia
8:52
promettente come affermato nella scheda
8:55
di presentazione il tempo di generazione
8:57
di un video di soli 6 secondi è una
8:59
questione rilevante se Seguite il canale
9:02
sapete che abbiamo trattato altri
9:04
modelli di generazione video da testo
9:06
Come Cog video e altri che non impiegano
9:08
tanto tempo magari 20 secondi o al
9:11
massimo un minuto questo modello però è
9:14
decisamente più lento sono passati 21
9:18
minuti e il processo è ancora in corso
9:20
Probabilmente sta salvando il file
9:22
Finalmente il video è stato creato e
9:25
salvato andiamo a controllarlo insieme
9:29
faccio doppio clic sul file di test
9:32
ricordate che il prompt era una tigre
9:34
che corre nella foresta la qualità del
9:37
video è molto buona devo
9:39
ammettere riproduco il video di nuovo si
9:42
vede chiaramente una tigre nella foresta
9:44
con dettagli del suolo abbastanza
9:46
realistici la tigre si muove in modo
9:49
fluido anche se in modo invertito Ma
9:51
questo può essere corretto lavorando sul
9:54
prompt la coda della tigre è leggermente
9:57
deformata ma con un'esecuzione più lunga
9:59
e magari con parametri come prompt
10:01
negativi questo si può sistemare nel
10:04
complesso la qualità video è notevole
10:06
per un test a 30 step se consideriamo il
10:10
risultato Il modello ha sicuramente
10:12
potenzialità questa azienda è la stessa
10:15
che ha creato il modello Ara di cui ho
10:17
già parlato sul canale Spero che questo
10:20
video vi sia piaciuto e vi sia stato
10:22
utile mi ci sono volute circa 3 ore per
10:25
realizzare questo contenuto tra test e
10:27
analisi del codice Spero che in futuro
10:30
Rendano l'installazione più semplice
10:32
magari integrandolo con la libreria
10:34
Transformers o con un'interfaccia come
10:37
confi nel frattempo se volete provare
10:39
questo modello vi consiglio di usare
10:41
prompt dettagliati e di eseguire il
10:43
processo con 100 step per evitare
10:45
deformazioni e ottenere una qualità
10:47
migliore se il contenuto Vi è piaciuto
10:50
Vi invito a iscrivervi al canale se
10:52
siete già iscritti condividete il video
10:54
con la vostra rete perché aiuta molto
10:57
Grazie per aver guardato i
#Multimedia Software
#Online Media
#Video Sharing