Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[TSCAN] nieuwe kenmerken op basis van lijst formele woorden #51

Open
oktaal opened this issue Aug 23, 2021 · 2 comments
Open

[TSCAN] nieuwe kenmerken op basis van lijst formele woorden #51

oktaal opened this issue Aug 23, 2021 · 2 comments
Assignees

Comments

@oktaal
Copy link
Contributor

oktaal commented Aug 23, 2021

Bouwt voort op oktaal/tscan-issues#11:

Tekstkenmerken voor formele woorden

Door lemma’s van tekstwoorden te matchen met de lijst formele_woorden.xlsx, worden de volgende dichtheden berekend (dichtheid = aantal voorkomens per 1000 woorden).

Die lijst bestaat uit:

  • kolom A: lemma
  • kolom B: woordsoort

Het matchen gebeurt alleen o.b.v. lemma (hoofdlemma bij een samenstelling).

Form_d Dichtheid van alle formele woorden uit de lijst bij elkaar
Form_bvnw_d Dichtheid van de formele woorden die in kolom B van de lijst ‘adjectief’ hebben
Form_bw_d Dichtheid van de formele woorden die in kolom B van de lijst ‘bijwoord’ hebben
Form_vgw_d Dichtheid van de formele woorden die in kolom B van de lijst ‘voegwoord’  hebben
Form_vnw_d Dichtheid van de formele woorden die in kolom B van de lijst ‘voornaamwoord’ hebben
Form_vz_d Dichtheid van de formele woorden die in kolom B van de lijst ‘voorzetsel’ hebben
Form_vzg_d Dichtheid van de formele woorden die in kolom B van de lijst ‘voorzetselgroep’ hebben
Form_ww_d Dichtheid van de formele woorden die in kolom B van de lijst ‘werkwoord’ hebben
Form_znw_d Dichtheid van de formele woorden die in kolom B van de lijst ‘zelfstandig naamwoord’ hebben; voor samenstellingen wordt het basiswoord gecheckt in de lijst.

@jgonggrijp:

OK, dus als ik dat even vrij vertaal naar JavaScript en Underscore dan staat hier, als ik het goed begrijp:

const perWoordsoort = _.countBy(woorden, woord => 
    _.findKey(formele_woorden, fw => fw === lemma(woord))
);
delete perWoordsoort['undefined']; // telling van alle niet-formele woorden
const Form_bvnw_d = perWoordsoort.adjectief / woorden.length * 1000;
// etcetera
const Form_d = sum(perWoordsoort) / woorden.length * 1000;

Waarbij ik voor het gemak even aanneem dat sum en lemma al ergens gedefinieerd zijn. tscan is als ik het goed heb onthouden in C++, dus dan zou dit redelijk rechtstreeks om te zetten moeten zijn naar STL, als dat excel-bestand van tevoren naar een geschikte vorm wordt geconverteerd. Dan moet het naar ik aanneem nog toegevoegd worden aan een API en moeten er nog tests geschreven worden.

@oktaal
Copy link
Contributor Author

oktaal commented Dec 24, 2021

Ik heb de kenmerken rond formaliteit nu in de T-Scanhandleiding gezet, versie 38; die gaat ook hierbij. Daarbij heb ik erop gerekend dat de formaliteitskenmerken volgen op de intensiveerders en vooraf gaan aan de probabiliteitskenmerken. Ze komen dus net voor Log_prob_fwd.

@oktaal
Copy link
Contributor Author

oktaal commented Jan 14, 2022

Ik nog een nieuwe vraag: mag er aan het eind van de woordkenmerken een kenmerk formeel bijkomen, waarin formele woorden (van welk type dan ook) een 1 krijgen en de rest een 0?

@oktaal oktaal changed the title [LINT] nieuwe kenmerken op basis van lijst formele woorden [TSCAN] nieuwe kenmerken op basis van lijst formele woorden Jan 28, 2022
@oktaal oktaal transferred this issue from oktaal/tscan Dec 13, 2022
@oktaal oktaal transferred this issue from another repository Dec 13, 2022
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant