Generator odgovora na osnovu pitanja na Reddit-u #13

mitrovicjj · 2024-02-17T07:41:33Z

Tim

Jovana Mitrovic E9 2/2022

Linkovi
https://www.kaggle.com/datasets/pavellexyr/ten-million-reddit-answers
https://github.com/mitrovicjj/Projekat

Definicija problema

U ovom projektu je fokus se na izgradnji generatora odgovora na osnovu pitanja sa platforme Reddit. Cilj je kreirati model koji može razumjeti postavljena pitanja i generisati odgovarajuće odgovore sa što većom preciznošću i relevantnošću. Osim toga, istraživaće se kontekstualno razumijevanje pitanja i različiti aspekti socijalnih interakcija na Reddit-u kako bi se unaprijedio kvalitet generisanih odgovora.

Skup podataka

Za ovaj projekat korišten je veliki skup podataka sa Reddit platforme koji sadrži 10 miliona pitanja i odgovora. Skup podataka obuhvata različite tematske oblasti i diskusije unutar Reddit-a. Podaci su sakupljeni u određenom vremenskom periodu kako bi se obuhvatile promjene tokom vremena. Ova baza podataka nudi informacije koje se mogu iskoristiti za analizu trendova, interesovanja korisnika, kao i za istraživanje socijalnih interakcija na platformi.

Metodologija

Obrada i čišćenje podataka: Početni korak metodologije obuhvata obradu i čišćenje podataka. To uključuje uklanjanje nevažnih informacija, poput HTML oznaka ili nepotrebnih znakova, kao i pretvaranje teksta u standardni format radi jednostavnije obrade.
Analiza konteksta pitanja: Nakon čišćenja podataka, pristupamo analizi konteksta postavljenih pitanja. Koristeći tehnike obrade prirodnog jezika (NLP), istražujemo sentiment, ton i ključne teme unutar pitanja kako bismo bolje razumjeli namjeru korisnika i kontekst u kojem se postavljaju pitanja.
Implementacija modela za generisanje odgovora: Nakon što se dobije dublje razumijevanje konteksta i socijalnih interakcija na Reddit-u, za izgradnju generatora odgovora koristiću LSTM (Long Short-Term Memory) neuronsku mrežu, koja je pogodna za obradu sekvencijalnih podataka kao sto su tekstualni nizovi.

Evaluacija

Evaluacija će se vršiti kroz analizu različitih metrika performansi, uključujući tačnost, preciznost, odziv, F1-score, AUC-ROC kriva. Takođe ću procijeniti brzinu izvršavanja modela i interpretabilnost rezultata kako bi se osigurala efikasnost i relevantnost generisanih odgovora.

vdragan1993 · 2024-02-26T09:28:47Z

Tema odobrena.
Srećan rad.

vdragan1993 self-assigned this Feb 26, 2024

vdragan1993 added the odobreno Odobren projekat label Feb 26, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Generator odgovora na osnovu pitanja na Reddit-u #13

Generator odgovora na osnovu pitanja na Reddit-u #13

mitrovicjj commented Feb 17, 2024

vdragan1993 commented Feb 26, 2024

Generator odgovora na osnovu pitanja na Reddit-u #13

Generator odgovora na osnovu pitanja na Reddit-u #13

Comments

mitrovicjj commented Feb 17, 2024

vdragan1993 commented Feb 26, 2024