You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
U vremenu kada globalizacija ubrzano menja naše kulturne navike, prikupljanjem i vizuelnim oživljavanjem recepata sa domaćih sajtova, težimo da sačuvamo jedinstvenu lepotu naših jela, prenošene kroz generacije. Na mnogim sajtovima sa domaćim receptima slike su često lošeg kvaliteta ili ih uopšte nema, što otežava predstavu o krajnjem rezultatu. Generisanjem realističnih prikaza jela na osnovu recepata, korisnicima bi se omogućio bolji uvid u izgled jela, doprinelo očuvanju domaće kuhinje i olakšala prezentacija recepata široj publici.
Potrebno je prikupiti i analizirati podatke o domaćim receptima, uključujući sastojke, korake pripreme, sliku jela i druge relevantne informacije. Prikupljene podatke je neophodno obraditi i kreirati model mašinskog učenja koji će generisati vizuelni prikaza recepata na osnovu tekstualnih podataka o jelu.
Skup podataka
Za potrebe ovog projekta, podaci će biti skrejpovani sa domaćih kulinarskih sajtova Coolinarika i Recepti.com. Cilj je prikupiti sve recepte dostupne na ovim platformama, sa fokusom na važne informacije: naziv jela, sastojci, koraci pripreme i slika jela. Očekivani obim skupa podataka je oko 15.000 recepata. Skup podataka će sadržati sledeće atribute: Ime jela, listu sastojaka, opis načina pripreme jela i sliku jela.
Metodologije
Za prikupljanje recepata, sastojaka i slika koristiće se Beautiful Soup. Prikupljeni podaci biće normalizovani korišćenjem Pandas za strukturisanje i obezbeđivanje konzistentnosti formata. Za prevod sa srpskog na engleski jezik koristiće se model kao što je YugoGPT ili sličan transformer baziran prevodilac. Za generisanje slika jela na osnovu recepta i sastojaka, koristićemo kombinaciju CLIP modela za ekstrakciju tekstualnih embeddinga i modela mašinskog učenja koji će biti specificirani u nastavku. Prvo, podaci će biti preprocesirani tako da se tekstualni opisi (sastojci i uputstva za pripremu) očiste i tokenizuju. Slike jela će biti skalirane i normalizovane na odgovarajući format (npr. 256x256 px). Kvalitet podataka ćemo pokušati da unapredimo i ručnim označavanjem slika lošeg kvaliteta Zatim, CLIP model će mapirati tekstualne podatke u zajednički vektorski prostor sa slikama, kako bi omogućili povezivanje semantičkih veza između teksta i slika. Takođe, po potrebi, biće fine-tunovan i CLIP model kako bi se dodatno poboljšala sinergija između tekstualnih podataka i generisanih slika. Problemu generisanja teksta u sliku ćemo pokušati da pristupimo različitim metodologijama.
Fine-tuning Stable Diffusion modela biće realizovan primenom tehnika kao što su DreamBooth ili LoRA, u zavisnosti od uspešnosti evaluacije tokom razvoja. Implementacija će biti zasnovana na PyTorch okruženju i Hugging Face alatima, kako bi se optimizovali resursni zahtevi i omogućilo efikasno treniranje modela.
Gore navedeni emmbedinzi će biti korišćeni kao latentni ulaz za BigGAN ili StyleGAN, koji će generisati slike jela na osnovu tekstualnih informacija. Modeli će biti fine-tjunovani koristeći transfer learning na specifičnom skupu podataka recepata.
Koristiće se pristup zasnovan na kondicionoim variacionim autoenkoderima (cVAE). Dekoder će generisati slike uslovljene na latentne reprezentacije i enkodirani recept. Model će biti fine-tjunovan na gore navedenom skupu podataka.Trening će biti zasnovan na minimizaciji rekonstrukcionog gubitka tj. razlici između originalne i generisane slike
Metod evaluacije
Kvalitet generisanih slika procenjivaće se pomoću FID (Frechet Inception Distance) metrike, koja meri sličnost između generisanih i stvarnih slika iz skupa podataka. Za kvalitet tekstualno-vizuelnog mapiranja koristiće se cosine similarity između embeddings vektora tekstualnih opisa i slika. Subjektivna ocena realizma generisanih slika i usklađenosti sa opisima dobiće se anketiranjem korisnika.
The text was updated successfully, but these errors were encountered:
Tim
Motivacija i Definicija Problema
U vremenu kada globalizacija ubrzano menja naše kulturne navike, prikupljanjem i vizuelnim oživljavanjem recepata sa domaćih sajtova, težimo da sačuvamo jedinstvenu lepotu naših jela, prenošene kroz generacije. Na mnogim sajtovima sa domaćim receptima slike su često lošeg kvaliteta ili ih uopšte nema, što otežava predstavu o krajnjem rezultatu. Generisanjem realističnih prikaza jela na osnovu recepata, korisnicima bi se omogućio bolji uvid u izgled jela, doprinelo očuvanju domaće kuhinje i olakšala prezentacija recepata široj publici.
Potrebno je prikupiti i analizirati podatke o domaćim receptima, uključujući sastojke, korake pripreme, sliku jela i druge relevantne informacije. Prikupljene podatke je neophodno obraditi i kreirati model mašinskog učenja koji će generisati vizuelni prikaza recepata na osnovu tekstualnih podataka o jelu.
Skup podataka
Za potrebe ovog projekta, podaci će biti skrejpovani sa domaćih kulinarskih sajtova Coolinarika i Recepti.com. Cilj je prikupiti sve recepte dostupne na ovim platformama, sa fokusom na važne informacije: naziv jela, sastojci, koraci pripreme i slika jela. Očekivani obim skupa podataka je oko 15.000 recepata. Skup podataka će sadržati sledeće atribute: Ime jela, listu sastojaka, opis načina pripreme jela i sliku jela.
Metodologije
Za prikupljanje recepata, sastojaka i slika koristiće se Beautiful Soup. Prikupljeni podaci biće normalizovani korišćenjem Pandas za strukturisanje i obezbeđivanje konzistentnosti formata. Za prevod sa srpskog na engleski jezik koristiće se model kao što je YugoGPT ili sličan transformer baziran prevodilac. Za generisanje slika jela na osnovu recepta i sastojaka, koristićemo kombinaciju CLIP modela za ekstrakciju tekstualnih embeddinga i modela mašinskog učenja koji će biti specificirani u nastavku. Prvo, podaci će biti preprocesirani tako da se tekstualni opisi (sastojci i uputstva za pripremu) očiste i tokenizuju. Slike jela će biti skalirane i normalizovane na odgovarajući format (npr. 256x256 px). Kvalitet podataka ćemo pokušati da unapredimo i ručnim označavanjem slika lošeg kvaliteta Zatim, CLIP model će mapirati tekstualne podatke u zajednički vektorski prostor sa slikama, kako bi omogućili povezivanje semantičkih veza između teksta i slika. Takođe, po potrebi, biće fine-tunovan i CLIP model kako bi se dodatno poboljšala sinergija između tekstualnih podataka i generisanih slika. Problemu generisanja teksta u sliku ćemo pokušati da pristupimo različitim metodologijama.
Metod evaluacije
Kvalitet generisanih slika procenjivaće se pomoću FID (Frechet Inception Distance) metrike, koja meri sličnost između generisanih i stvarnih slika iz skupa podataka. Za kvalitet tekstualno-vizuelnog mapiranja koristiće se cosine similarity između embeddings vektora tekstualnih opisa i slika. Subjektivna ocena realizma generisanih slika i usklađenosti sa opisima dobiće se anketiranjem korisnika.
The text was updated successfully, but these errors were encountered: