[TSCAN] nieuwe kenmerken op basis van lijst formele woorden #51

oktaal · 2021-08-23T08:03:50Z

Bouwt voort op oktaal/tscan-issues#11:

Tekstkenmerken voor formele woorden

Door lemma’s van tekstwoorden te matchen met de lijst formele_woorden.xlsx, worden de volgende dichtheden berekend (dichtheid = aantal voorkomens per 1000 woorden).

Die lijst bestaat uit:

kolom A: lemma
kolom B: woordsoort

Het matchen gebeurt alleen o.b.v. lemma (hoofdlemma bij een samenstelling).

Form_d	Dichtheid van alle formele woorden uit de lijst bij elkaar
Form_bvnw_d	Dichtheid van de formele woorden die in kolom B van de lijst ‘adjectief’ hebben
Form_bw_d	Dichtheid van de formele woorden die in kolom B van de lijst ‘bijwoord’ hebben
Form_vgw_d	Dichtheid van de formele woorden die in kolom B van de lijst ‘voegwoord’ hebben
Form_vnw_d	Dichtheid van de formele woorden die in kolom B van de lijst ‘voornaamwoord’ hebben
Form_vz_d	Dichtheid van de formele woorden die in kolom B van de lijst ‘voorzetsel’ hebben
Form_vzg_d	Dichtheid van de formele woorden die in kolom B van de lijst ‘voorzetselgroep’ hebben
Form_ww_d	Dichtheid van de formele woorden die in kolom B van de lijst ‘werkwoord’ hebben
Form_znw_d	Dichtheid van de formele woorden die in kolom B van de lijst ‘zelfstandig naamwoord’ hebben; voor samenstellingen wordt het basiswoord gecheckt in de lijst.

@jgonggrijp:

OK, dus als ik dat even vrij vertaal naar JavaScript en Underscore dan staat hier, als ik het goed begrijp:

const perWoordsoort = _.countBy(woorden, woord =&gt; 
    _.findKey(formele_woorden, fw =&gt; fw === lemma(woord))
);
delete perWoordsoort['undefined']; // telling van alle niet-formele woorden
const Form_bvnw_d = perWoordsoort.adjectief / woorden.length * 1000;
// etcetera
const Form_d = sum(perWoordsoort) / woorden.length * 1000;

Waarbij ik voor het gemak even aanneem dat sum en lemma al ergens gedefinieerd zijn. tscan is als ik het goed heb onthouden in C++, dus dan zou dit redelijk rechtstreeks om te zetten moeten zijn naar STL, als dat excel-bestand van tevoren naar een geschikte vorm wordt geconverteerd. Dan moet het naar ik aanneem nog toegevoegd worden aan een API en moeten er nog tests geschreven worden.

The text was updated successfully, but these errors were encountered:

oktaal · 2021-12-24T14:15:07Z

Ik heb de kenmerken rond formaliteit nu in de T-Scanhandleiding gezet, versie 38; die gaat ook hierbij. Daarbij heb ik erop gerekend dat de formaliteitskenmerken volgen op de intensiveerders en vooraf gaan aan de probabiliteitskenmerken. Ze komen dus net voor Log_prob_fwd.

oktaal · 2022-01-14T10:03:55Z

Ik nog een nieuwe vraag: mag er aan het eind van de woordkenmerken een kenmerk formeel bijkomen, waarin formele woorden (van welk type dan ook) een 1 krijgen en de rest een 0?

lukavdplas assigned oktaal Oct 14, 2021

oktaal changed the title ~~[LINT] nieuwe kenmerken op basis van lijst formele woorden~~ [TSCAN] nieuwe kenmerken op basis van lijst formele woorden Jan 28, 2022

oktaal mentioned this issue Mar 28, 2022

Feature/formal oktaal/tscan#59

Merged

oktaal transferred this issue from oktaal/tscan Dec 13, 2022

oktaal transferred this issue from another repository Dec 13, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[TSCAN] nieuwe kenmerken op basis van lijst formele woorden #51

[TSCAN] nieuwe kenmerken op basis van lijst formele woorden #51

oktaal commented Aug 23, 2021

oktaal commented Dec 24, 2021

oktaal commented Jan 14, 2022

[TSCAN] nieuwe kenmerken op basis van lijst formele woorden #51

[TSCAN] nieuwe kenmerken op basis van lijst formele woorden #51

Comments

oktaal commented Aug 23, 2021

Tekstkenmerken voor formele woorden

oktaal commented Dec 24, 2021

oktaal commented Jan 14, 2022