Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Generator odgovora na osnovu pitanja na Reddit-u #13

Open
mitrovicjj opened this issue Feb 17, 2024 · 1 comment
Open

Generator odgovora na osnovu pitanja na Reddit-u #13

mitrovicjj opened this issue Feb 17, 2024 · 1 comment
Assignees
Labels
odobreno Odobren projekat

Comments

@mitrovicjj
Copy link

Tim

  • Jovana Mitrovic E9 2/2022

Linkovi
https://www.kaggle.com/datasets/pavellexyr/ten-million-reddit-answers
https://github.com/mitrovicjj/Projekat

Definicija problema

U ovom projektu je fokus se na izgradnji generatora odgovora na osnovu pitanja sa platforme Reddit. Cilj je kreirati model koji može razumjeti postavljena pitanja i generisati odgovarajuće odgovore sa što većom preciznošću i relevantnošću. Osim toga, istraživaće se kontekstualno razumijevanje pitanja i različiti aspekti socijalnih interakcija na Reddit-u kako bi se unaprijedio kvalitet generisanih odgovora.

Skup podataka

Za ovaj projekat korišten je veliki skup podataka sa Reddit platforme koji sadrži 10 miliona pitanja i odgovora. Skup podataka obuhvata različite tematske oblasti i diskusije unutar Reddit-a. Podaci su sakupljeni u određenom vremenskom periodu kako bi se obuhvatile promjene tokom vremena. Ova baza podataka nudi informacije koje se mogu iskoristiti za analizu trendova, interesovanja korisnika, kao i za istraživanje socijalnih interakcija na platformi.

Metodologija

  • Obrada i čišćenje podataka: Početni korak metodologije obuhvata obradu i čišćenje podataka. To uključuje uklanjanje nevažnih informacija, poput HTML oznaka ili nepotrebnih znakova, kao i pretvaranje teksta u standardni format radi jednostavnije obrade.

  • Analiza konteksta pitanja: Nakon čišćenja podataka, pristupamo analizi konteksta postavljenih pitanja. Koristeći tehnike obrade prirodnog jezika (NLP), istražujemo sentiment, ton i ključne teme unutar pitanja kako bismo bolje razumjeli namjeru korisnika i kontekst u kojem se postavljaju pitanja.

  • Implementacija modela za generisanje odgovora: Nakon što se dobije dublje razumijevanje konteksta i socijalnih interakcija na Reddit-u, za izgradnju generatora odgovora koristiću LSTM (Long Short-Term Memory) neuronsku mrežu, koja je pogodna za obradu sekvencijalnih podataka kao sto su tekstualni nizovi.

Evaluacija

Evaluacija će se vršiti kroz analizu različitih metrika performansi, uključujući tačnost, preciznost, odziv, F1-score, AUC-ROC kriva. Takođe ću procijeniti brzinu izvršavanja modela i interpretabilnost rezultata kako bi se osigurala efikasnost i relevantnost generisanih odgovora.

@vdragan1993 vdragan1993 self-assigned this Feb 26, 2024
@vdragan1993
Copy link
Member

Tema odobrena.
Srećan rad.

@vdragan1993 vdragan1993 added the odobreno Odobren projekat label Feb 26, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
odobreno Odobren projekat
Projects
None yet
Development

No branches or pull requests

2 participants