Komposita-Zerlegung zur Optimierung der Suche
Im Moment bearbeiten wir nur Begriffe mit Bindestrichen speziell: Worte mit Bindestrich werden getrennt und zusammengezogen im Index gespeichert und bei einer Suchabfrage berücksichtigt. Das bedeutet für die Suche:
- "Literatur-Lexikon" findet Aufnahmen mit "Literatur-Lexikon", "Literatur Lexikon" und "Literaturlexikon"
- "Literaturlexikon" findet Aufnahmen mit "Literatur-Lexikon" und "Literaturlexikon"
- "Literatur Lexikon" findet Aufnahmen mit "Literatur-Lexikon" und "Literatur Lexikon"
Was die Sache verbessern würde, wäre eine sinnvolle Komposita-Zerlegung: D.h. "Literaturlexikon" würde zusätzlich "Literatur Lexikon" finden.
Ansatzpunkte: https://lucene.apache.org/solr/guide/6_6/language-analysis.html#LanguageAnalysis-DictionaryCompoundWordTokenFilter https://www.dmk-ebusiness.de/blog/artikel/indexierung-von-zusammengesetzten-woertern-in-apache-solr/ http://engineering.wayfair.com/2013/08/improving-german-solrlucene-search-results/