Corrigir indexação de título de artigo em que há aspas + dois pontos #26

robertatakenaka · 2024-03-21T14:06:40Z

Descrição do problema

No artigo http://www.scielo.br/scielo.php?script=sci_arttext&pid=S1808-24322023000100221&lang=pt, há o termo trumbica, mas ao buscá-lo com a seguinte expressão: comunica trumbica ou Quem não se comunica se trumbica, não retorna nenhum resultado.

Comportamento esperado

.

Screenshots ou vídeos

.

Anexos

.

Ambiente utilizado

.

The text was updated successfully, but these errors were encountered:

gitnnolabs · 2025-02-04T13:49:15Z

Essa atividade foi realizado no passado, porém gerou impactos não esperado....

Irei realiza outra abordagem para resolver esse problema.

gitnnolabs · 2025-02-04T18:20:06Z

Testando novamente o artigo do exemplo realmente não é apresentado:

gitnnolabs · 2025-02-05T11:33:39Z

Para resolver essa atividade de forma elegante e utilizando de recurso que o próprio indexador oferece, realizei uma pesquisa de como resolver a partir do Solr, já que sabemos que é possível realizar tratamentos nos texto e garantir que a pesquisa seja realizada por "tokens" que possam tratar caracteres especiais.

Verificando no nosso arquivo de configuração do Solr, temos o seguinte:

  <fieldType name="text_ws" class="solr.TextField" positionIncrementGap="100" multiValued="true">
    <analyzer type="index">
      <tokenizer class="solr.WhitespaceTokenizerFactory"/>
      <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
      <filter class="solr.ASCIIFoldingFilterFactory" preserveOriginal="false" />
      <filter class="solr.LowerCaseFilterFactory"/>
    </analyzer>
    <analyzer type="query">
      <tokenizer class="solr.WhitespaceTokenizerFactory"/>
      <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
      <filter class="solr.SynonymGraphFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
      <filter class="solr.ASCIIFoldingFilterFactory" preserveOriginal="false" />
      <filter class="solr.LowerCaseFilterFactory"/>
    </analyzer>
  </fieldType>

Veja que contém um arquivo de com stopwords e verificando nesse arquivo existe o termo "Quem", "se" o que faz com que a pesquisa não realize o casamento com a busca "Quem não se comunica se trumbica".

Primeira ação é comentar linha do stopwords.

Mesmo com essa comentário a pesquisa ainda não funciona, já que estamos com um caracter aspas curvas: “”

Inicialmente foi utilizado um filtro a indexação e na pesquisa para garantir que somente letras e números fossem pesquisaveis

Algo assim:

  <fieldType name="text_ws" class="solr.TextField" positionIncrementGap="100" multiValued="true">
    <analyzer type="index">
      <tokenizer class="solr.WhitespaceTokenizerFactory"/>
      <!--filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" /-->
      <filter class="solr.PatternReplaceCharFilterFactory" pattern="^[a-zA-Z0-9]+$" replacement=""/>
      <filter class="solr.ASCIIFoldingFilterFactory" preserveOriginal="false" />
      <filter class="solr.LowerCaseFilterFactory"/>
    </analyzer>
    <analyzer type="query">
      <tokenizer class="solr.WhitespaceTokenizerFactory"/>
      <!--filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" /-->
      <filter class="solr.PatternReplaceCharFilterFactory" pattern="^[a-zA-Z0-9]+$" replacement=""/>
      <filter class="solr.SynonymGraphFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
      <filter class="solr.ASCIIFoldingFilterFactory" preserveOriginal="false" />
      <filter class="solr.LowerCaseFilterFactory"/>
    </analyzer>
  </fieldType>

Porém dessa forma os caracteres acentuados são removidos e ASCIIFoldingFilterFactory passa a não funcionar.

Importante: O ASCIIFoldingFilterFactory é um filtro que converte os caracteres acentuado em seu respectivo caracter da tabela ASCII, portanto esse filtro garante que "á" seja traduzido para "a", o que garante que possamos pesquisa por "passaro" ou "pássaro".

Pesquisando mais um pouco... descobri que podemos fazer uma troca dos caracteres especiais do Lucene por espaço no momento de indexação e pesquisa.

Os caracteres especiais do Lucene são: **+ - && || ! ( ) { } [ ] ^ " ~ * ? : **, utilizando PatternReplaceCharFilterFactory (https://solr.apache.org/guide/6_6/charfilterfactories.html#CharFilterFactories-solr.PatternReplaceCharFilterFactory) é possível no campo de pesquisa padrão o conhecido df (default field) é possível realizar essas trocar por ""(vazio) e garantir que com ou sem esses caracteres especiais a pesquisa seja retornada.

Para garantir que esteja funcionado foi realizado alguns teste, veja:

Repare no analisador que os caracteres especiais estão fora do casamento tanto para o campo indexado quando para o campo pesquisado.

Agora com somente uma parcela dos termos:

Pesquisando com um acento em qualquer dos caracteres:

Pesquisando com aspas retas:

Pesquisando com aspas curvas:

Pesquisando com somente um termos chave para esse registro "trumbica":

Reparem que o formato dos campos de título não foram alterados:

Para realizar esse testes foi necessário realizar a indexação de um mês especifico para ter o registro com o ID: S1808-24322023000100221-scl

Comando para indexação do mês e ano especifico:

python updatesearch/metadata.py -c scl  --from_date 2023-07-01 --until_date 2023-07-31

Por fim e não menos importante a alteração no arquivo de definição do Solr:

<fieldType name="text_ws" class="solr.TextField" positionIncrementGap="100" multiValued="true">
  <analyzer type="index">
    <tokenizer class="solr.WhitespaceTokenizerFactory"/>
    <charFilter class="solr.PatternReplaceCharFilterFactory" pattern='[+\-|!(){}\[\]^"~*?:\/\\“”]' replacement=""/>
    <!-- <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/> -->
    <filter class="solr.LowerCaseFilterFactory"/>        
    <filter class="solr.ASCIIFoldingFilterFactory" preserveOriginal="true"/>  
  </analyzer>
  <analyzer type="query">
  <tokenizer class="solr.WhitespaceTokenizerFactory"/>
  <charFilter class="solr.PatternReplaceCharFilterFactory" pattern='[+\-|!(){}\[\]^"~*?:\/\\“”]' replacement=""/>
  <!-- <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/> -->
  <filter class="solr.LowerCaseFilterFactory"/>        
  <filter class="solr.ASCIIFoldingFilterFactory" preserveOriginal="true"/>  
  </analyzer>
</fieldType>

gitnnolabs · 2025-02-05T11:37:54Z

Para garantir que isso seja utilizado por todos os registros é necessário uma reindexação completa do índice.

…eciais do Lucene seja encontrados Mais detalhes sobre essa atividade é possível no seguinte tíquete: scieloorg/search-journals-proc#26 (comment)

robertatakenaka self-assigned this Mar 21, 2024

This was referenced Mar 21, 2024

Busca de artigo com o termo comunica trumbica não retorna resultado scieloorg/core#695

Closed

Ajusta os valores de título de artigo, palavras chaves e resumos #27

Merged

This was referenced Apr 10, 2024

Adiciona os campos limpos de abstract, title, keywords scieloorg/search-journals#583

Merged

Tk26 fix cleaned fields #29

Merged

gitnnolabs self-assigned this Feb 4, 2025

gitnnolabs mentioned this issue Feb 4, 2025

Ainda constam palavras a mais no título do artigo scieloorg/search-journals#590

Closed

robertatakenaka removed their assignment Feb 5, 2025

gitnnolabs mentioned this issue Feb 5, 2025

Remove campos não clean_* e garante que a pesquisa com caracteres especiais do Lucene seja encontrados scieloorg/search-journals#591

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Corrigir indexação de título de artigo em que há aspas + dois pontos #26

Corrigir indexação de título de artigo em que há aspas + dois pontos #26

robertatakenaka commented Mar 21, 2024

gitnnolabs commented Feb 4, 2025

gitnnolabs commented Feb 4, 2025

gitnnolabs commented Feb 5, 2025

gitnnolabs commented Feb 5, 2025

Corrigir indexação de título de artigo em que há aspas + dois pontos #26

Corrigir indexação de título de artigo em que há aspas + dois pontos #26

Comments

robertatakenaka commented Mar 21, 2024

Descrição do problema

Comportamento esperado

Screenshots ou vídeos

Anexos

Ambiente utilizado

gitnnolabs commented Feb 4, 2025

gitnnolabs commented Feb 4, 2025

gitnnolabs commented Feb 5, 2025

gitnnolabs commented Feb 5, 2025