You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
U ovom projektu je fokus se na izgradnji generatora odgovora na osnovu pitanja sa platforme Reddit. Cilj je kreirati model koji može razumjeti postavljena pitanja i generisati odgovarajuće odgovore sa što većom preciznošću i relevantnošću. Osim toga, istraživaće se kontekstualno razumijevanje pitanja i različiti aspekti socijalnih interakcija na Reddit-u kako bi se unaprijedio kvalitet generisanih odgovora.
Skup podataka
Za ovaj projekat korišten je veliki skup podataka sa Reddit platforme koji sadrži 10 miliona pitanja i odgovora. Skup podataka obuhvata različite tematske oblasti i diskusije unutar Reddit-a. Podaci su sakupljeni u određenom vremenskom periodu kako bi se obuhvatile promjene tokom vremena. Ova baza podataka nudi informacije koje se mogu iskoristiti za analizu trendova, interesovanja korisnika, kao i za istraživanje socijalnih interakcija na platformi.
Metodologija
Obrada i čišćenje podataka: Početni korak metodologije obuhvata obradu i čišćenje podataka. To uključuje uklanjanje nevažnih informacija, poput HTML oznaka ili nepotrebnih znakova, kao i pretvaranje teksta u standardni format radi jednostavnije obrade.
Analiza konteksta pitanja: Nakon čišćenja podataka, pristupamo analizi konteksta postavljenih pitanja. Koristeći tehnike obrade prirodnog jezika (NLP), istražujemo sentiment, ton i ključne teme unutar pitanja kako bismo bolje razumjeli namjeru korisnika i kontekst u kojem se postavljaju pitanja.
Implementacija modela za generisanje odgovora: Nakon što se dobije dublje razumijevanje konteksta i socijalnih interakcija na Reddit-u, za izgradnju generatora odgovora koristiću LSTM (Long Short-Term Memory) neuronsku mrežu, koja je pogodna za obradu sekvencijalnih podataka kao sto su tekstualni nizovi.
Evaluacija
Evaluacija će se vršiti kroz analizu različitih metrika performansi, uključujući tačnost, preciznost, odziv, F1-score, AUC-ROC kriva. Takođe ću procijeniti brzinu izvršavanja modela i interpretabilnost rezultata kako bi se osigurala efikasnost i relevantnost generisanih odgovora.
The text was updated successfully, but these errors were encountered:
Tim
Linkovi
https://www.kaggle.com/datasets/pavellexyr/ten-million-reddit-answers
https://github.com/mitrovicjj/Projekat
Definicija problema
U ovom projektu je fokus se na izgradnji generatora odgovora na osnovu pitanja sa platforme Reddit. Cilj je kreirati model koji može razumjeti postavljena pitanja i generisati odgovarajuće odgovore sa što većom preciznošću i relevantnošću. Osim toga, istraživaće se kontekstualno razumijevanje pitanja i različiti aspekti socijalnih interakcija na Reddit-u kako bi se unaprijedio kvalitet generisanih odgovora.
Skup podataka
Za ovaj projekat korišten je veliki skup podataka sa Reddit platforme koji sadrži 10 miliona pitanja i odgovora. Skup podataka obuhvata različite tematske oblasti i diskusije unutar Reddit-a. Podaci su sakupljeni u određenom vremenskom periodu kako bi se obuhvatile promjene tokom vremena. Ova baza podataka nudi informacije koje se mogu iskoristiti za analizu trendova, interesovanja korisnika, kao i za istraživanje socijalnih interakcija na platformi.
Metodologija
Obrada i čišćenje podataka: Početni korak metodologije obuhvata obradu i čišćenje podataka. To uključuje uklanjanje nevažnih informacija, poput HTML oznaka ili nepotrebnih znakova, kao i pretvaranje teksta u standardni format radi jednostavnije obrade.
Analiza konteksta pitanja: Nakon čišćenja podataka, pristupamo analizi konteksta postavljenih pitanja. Koristeći tehnike obrade prirodnog jezika (NLP), istražujemo sentiment, ton i ključne teme unutar pitanja kako bismo bolje razumjeli namjeru korisnika i kontekst u kojem se postavljaju pitanja.
Implementacija modela za generisanje odgovora: Nakon što se dobije dublje razumijevanje konteksta i socijalnih interakcija na Reddit-u, za izgradnju generatora odgovora koristiću LSTM (Long Short-Term Memory) neuronsku mrežu, koja je pogodna za obradu sekvencijalnih podataka kao sto su tekstualni nizovi.
Evaluacija
Evaluacija će se vršiti kroz analizu različitih metrika performansi, uključujući tačnost, preciznost, odziv, F1-score, AUC-ROC kriva. Takođe ću procijeniti brzinu izvršavanja modela i interpretabilnost rezultata kako bi se osigurala efikasnost i relevantnost generisanih odgovora.
The text was updated successfully, but these errors were encountered: