Match case [EDC-2971] (#19)

flo7842 · web-flow · commit 8f704a6137d3 · 2022-12-01T09:45:09.000+01:00
* Match case [EDC-2971]

Create Analyzer to index field with normal case
Add new match case parameter for the request
Create test for the match case and exact match both
Handle search for match case
Allow search more than one words who's return the associate document

* Add tests for case sensitive / insensitive and refactor Analyzer
diff --git a/build.gradle b/build.gradle
@@ -2,9 +2,11 @@ plugins {
     id 'java-library'
     id 'maven-publish'
     id 'signing'
+    id 'com.github.johnrengelman.shadow' version '7.1.2'
+    id 'java'
 }
 group 'fr.techad'
-version '2.0.1'
+version '2.1.0'
 sourceCompatibility = 1.8
 ext.withDependencies=project.hasProperty('withDependencies')
 //Used to be able to add dependencies to jar
@@ -13,8 +15,6 @@ configurations.implementation.setCanBeResolved(true)
 configurations.api.setCanBeResolved(true)
 }
 
-
-
 java {
     withJavadocJar()
     withSourcesJar()
@@ -29,8 +29,9 @@ dependencies {
     implementation 'ch.qos.logback:logback-classic:1.4.4'
     implementation 'commons-io:commons-io:2.11.0'
     implementation 'org.apache.commons:commons-lang3:3.12.0'
-    implementation 'org.apache.lucene:lucene-core:9.4.0'
-    implementation 'org.apache.lucene:lucene-queryparser:9.4.0'
+    implementation 'org.apache.lucene:lucene-analysis-common:9.4.2'
+    implementation 'org.apache.lucene:lucene-core:9.4.2'
+    implementation 'org.apache.lucene:lucene-queryparser:9.4.2'
     implementation 'org.jsoup:jsoup:1.15.3'
     implementation 'com.auth0:java-jwt:4.0.0'
     implementation 'net.lingala.zip4j:zip4j:2.11.2'
@@ -56,6 +57,17 @@ from {
     }
   }
 }
+
+shadowJar {
+    archiveBaseName.set('edc-httpd-java')
+    archiveClassifier.set('')
+    archiveVersion.set('2.1.0')
+    mergeServiceFiles()
+    manifest {
+        attributes 'Main-Class': 'fr.techad.edc.httpd.EdcWebServer'
+    }
+}
+
 //Execute Junit tests
 test {
     useJUnitPlatform()
@@ -90,11 +102,15 @@ publishing {
                     developer {
                     name = 'Gregory Cochin'
                     email= 'gregory.cochin@tech-advantage.com'
-                    }                    
+                    }
                     developer {
                     name = 'Mathieu Benard'
                     email= 'mathieu.benard@tech-advantage.com'
                     }
+                    developer {
+                    name = 'Florian Bracq'
+                    email= 'florian.bracq@tech-advantage.com'
+                    }
                 }
                 scm {
                     connection = 'scm:git:git://github.com/tech-advantage/edc-httpd.git'
@@ -116,9 +132,9 @@ signing {
     setRequired {
         // signing is only required if the artifacts are to be published
         gradle.taskGraph.allTasks.any { it.equals( PublishToMavenRepository) }
-	}
-	sign publishing.publications.mavenJava
-	sign configurations.archives
+    }
+    sign publishing.publications.mavenJava
+    sign configurations.archives
 }
 if (JavaVersion.current().isJava8Compatible()) {
     allprojects {
@@ -128,6 +144,7 @@ if (JavaVersion.current().isJava8Compatible()) {
     }
 }
 artifacts {
+    shadowJar
     archives sourcesJar
     archives javadocJar
 }
@@ -136,7 +153,7 @@ javadoc {
         options.addBooleanOption('html5', true)
     }
 }
-
+tasks.build.dependsOn tasks.shadowJar
 task install(dependsOn: publishToMavenLocal) {
     group = 'Publishing'
     description = 'Installs artifacts to local Maven repository'
@@ -150,4 +167,4 @@ task release() {
     dependsOn javadoc
 }
 
-
+build.dependsOn(shadowJar);
diff --git a/src/main/java/fr/techad/edc/httpd/SearchHandler.java b/src/main/java/fr/techad/edc/httpd/SearchHandler.java
@@ -37,6 +37,7 @@ public void handleRequest(HttpServerExchange exchange) throws Exception {
     Deque<String> query = queryParameters.get("query");
 
     Boolean exactMatch = BooleanUtils.toBoolean(getParamValue("match-whole-word", queryParameters));
+    Boolean matchCase = BooleanUtils.toBoolean(getParamValue("match-case", queryParameters));
     String lang = getParamValue("lang", queryParameters);
 
     int limitResults = 100;
@@ -50,7 +51,7 @@ public void handleRequest(HttpServerExchange exchange) throws Exception {
       String search = query.element();
       ContentSearcher contentSearcher = new ContentSearcher(config);
       List<DocumentationSearchResult> searchResults = contentSearcher.search(search, lang, limitResults, exactMatch,
-          LangUtils.getDefaultLanguage(config), LangUtils.findLanguages(config));
+          matchCase, LangUtils.getDefaultLanguage(config), LangUtils.findLanguages(config));
       bytes = objectMapper.writeValueAsBytes(searchResults);
     } else {
       bytes = objectMapper.writeValueAsBytes(Collections.singletonMap("error", "malformed query"));
diff --git a/src/main/java/fr/techad/edc/httpd/search/ContentBase.java b/src/main/java/fr/techad/edc/httpd/search/ContentBase.java
@@ -17,7 +17,8 @@ public class ContentBase {
   public static final String DOC_LANGUAGE_CODE = "languageCode";
   public static final String DOC_LABEL = "label";
   public static final String DOC_TYPE = "type";
-  public static final String DOC_CONTENT = "content";
+  public static final String DOC_CONTENT_NORMAL_CASE = "normal_case_content";
+  public static final String DOC_CONTENT_LOWER_CASE = "lower_case_content";
   public static final String DOC_URL = "url";
   private final Path indexPath;
   private final WebServerConfig config;
diff --git a/src/main/java/fr/techad/edc/httpd/search/ContentIndexer.java b/src/main/java/fr/techad/edc/httpd/search/ContentIndexer.java
@@ -4,8 +4,11 @@
 import com.fasterxml.jackson.databind.JsonNode;
 import com.fasterxml.jackson.databind.ObjectMapper;
 import fr.techad.edc.httpd.WebServerConfig;
+import fr.techad.edc.httpd.utils.CaseSensitiveStandardAnalyzer;
 import org.apache.commons.io.FileUtils;
 import org.apache.commons.io.IOUtils;
+import org.apache.lucene.analysis.Analyzer;
+import org.apache.lucene.analysis.miscellaneous.PerFieldAnalyzerWrapper;
 import org.apache.lucene.analysis.standard.StandardAnalyzer;
 import org.apache.lucene.document.Document;
 import org.apache.lucene.document.Field;
@@ -22,9 +25,11 @@
 import java.io.FileInputStream;
 import java.io.IOException;
 import java.nio.charset.Charset;
+import java.util.HashMap;
 import java.util.Iterator;
 import java.util.List;
 import java.util.Map;
+
 import java.util.concurrent.ConcurrentLinkedQueue;
 
 /**
@@ -37,6 +42,7 @@ public class ContentIndexer extends ContentBase {
   private IndexWriter indexWriter;
   private long counter;
 
+
   public ContentIndexer(WebServerConfig webServerConfig) {
     super(webServerConfig);
     this.docBase = webServerConfig.getBase() + "/" + webServerConfig.getDocFolder() + "/";
@@ -158,7 +164,8 @@ private void indexTopic(Long strategyId, String languageCode, String strategyLab
     if (type.equals("DOCUMENT")) {
       org.jsoup.nodes.Document jsoupDoc = Jsoup.parse(new File(docBase + "/" + fileName), "UTF-8");
       String content = jsoupDoc.text();
-      document.add(new TextField(DOC_CONTENT, content, Field.Store.YES));
+      document.add(new TextField(DOC_CONTENT_NORMAL_CASE, content, Field.Store.YES));
+      document.add(new TextField(DOC_CONTENT_LOWER_CASE, content, Field.Store.YES));
     }
     document.add(new TextField(DOC_URL, fileName, Field.Store.YES));
     this.indexWriter.addDocument(document);
@@ -167,7 +174,13 @@ private void indexTopic(Long strategyId, String languageCode, String strategyLab
 
   private void createIndexWriter() throws IOException {
     FSDirectory dir = FSDirectory.open(getIndexPath());
-    IndexWriterConfig config = new IndexWriterConfig(new StandardAnalyzer());
+    Map<String, Analyzer> analyzerPerField = new HashMap<String, Analyzer>();
+    // Associate analyzer to the DOC_CONTENT_NORMAL_CASE field to do case sensitive search
+    analyzerPerField.put(DOC_CONTENT_NORMAL_CASE, new CaseSensitiveStandardAnalyzer());
+    PerFieldAnalyzerWrapper analyzer = new PerFieldAnalyzerWrapper(
+            new StandardAnalyzer(), analyzerPerField);
+
+    IndexWriterConfig config = new IndexWriterConfig(analyzer);
     indexWriter = new IndexWriter(dir, config);
   }
 }
diff --git a/src/main/java/fr/techad/edc/httpd/search/ContentSearcher.java b/src/main/java/fr/techad/edc/httpd/search/ContentSearcher.java
@@ -3,7 +3,7 @@
 import java.io.IOException;
 import java.util.*;
 
-import fr.techad.edc.httpd.utils.LangUtils;
+import fr.techad.edc.httpd.utils.CaseSensitiveStandardAnalyzer;
 import org.apache.commons.lang3.StringUtils;
 import org.apache.lucene.analysis.standard.StandardAnalyzer;
 import org.apache.lucene.document.Document;
@@ -12,7 +12,6 @@
 import org.apache.lucene.queryparser.classic.MultiFieldQueryParser;
 import org.apache.lucene.queryparser.classic.ParseException;
 import org.apache.lucene.queryparser.classic.QueryParser;
-import org.apache.lucene.queryparser.classic.QueryParserBase;
 import org.apache.lucene.search.IndexSearcher;
 import org.apache.lucene.search.Query;
 import org.apache.lucene.search.ScoreDoc;
@@ -29,17 +28,25 @@
  */
 public class ContentSearcher extends ContentBase {
   private static final Logger LOGGER = LoggerFactory.getLogger(ContentSearcher.class);
-  private static final String[] SEARCH_FIELDS = { DOC_LABEL, DOC_CONTENT, DOC_TYPE };
-  private static final Map<String, Float> BOOTS;
+  private final static String[] SEARCH_FIELD_NORMAL_CASE = { DOC_LABEL, DOC_CONTENT_NORMAL_CASE, DOC_TYPE };
+  private final static String[] SEARCH_FIELD_LOWER_CASE = { DOC_LABEL, DOC_CONTENT_LOWER_CASE, DOC_TYPE };
+  private static final Map<String, Float> BOOTS_NORMAL_CASE;
+  private static final Map<String, Float> BOOTS_LOWER_CASE;
   static {
-    Map<String, Float> aMap = new HashMap<>();
-    aMap.put(DOC_LABEL, 2f);
-    aMap.put(DOC_CONTENT, 1f);
-    aMap.put(DOC_TYPE, .5f);
-    BOOTS = Collections.unmodifiableMap(aMap);
+    Map<String, Float> normalCaseMap = new HashMap<>();
+    Map<String, Float> lowerCaseMap = new HashMap<>();
+    normalCaseMap.put(DOC_LABEL, 2f);
+    normalCaseMap.put(DOC_CONTENT_NORMAL_CASE, 1f);
+    normalCaseMap.put(DOC_TYPE, .5f);
+    lowerCaseMap.put(DOC_LABEL, 2f);
+    lowerCaseMap.put(DOC_CONTENT_LOWER_CASE, 1f);
+    lowerCaseMap.put(DOC_TYPE, .5f);
+    BOOTS_NORMAL_CASE = Collections.unmodifiableMap(normalCaseMap);
+    BOOTS_LOWER_CASE = Collections.unmodifiableMap(lowerCaseMap);
   }
 
   private IndexSearcher indexSearcher;
+  private QueryParser qp;
 
   public ContentSearcher(WebServerConfig webServerConfig) {
     super(webServerConfig);
@@ -54,7 +61,7 @@ public ContentSearcher(WebServerConfig webServerConfig) {
    * @throws ParseException if the search parameter is malformed
    */
   public List<DocumentationSearchResult> search(String search, String lang, int limit, boolean exact,
-      String defaultLanguage, Set<String> languages) throws IOException, ParseException {
+      boolean matchCase, String defaultLanguage, Set<String> languages) throws IOException, ParseException {
     // Handle wildcard with exacttMode condition
     if (!exact && !search.endsWith("*")) {
       search = search + "*";
@@ -63,13 +70,21 @@ public List<DocumentationSearchResult> search(String search, String lang, int li
     List<DocumentationSearchResult> results = new ArrayList<>();
     LOGGER.debug("Search {}", search);
     createSearcher();
-    QueryParser qp = new MultiFieldQueryParser(SEARCH_FIELDS, new StandardAnalyzer(), BOOTS);
+
+    if(matchCase){
+      qp = new MultiFieldQueryParser(SEARCH_FIELD_NORMAL_CASE, new CaseSensitiveStandardAnalyzer(), BOOTS_NORMAL_CASE);
+    } else {
+      qp = new MultiFieldQueryParser(SEARCH_FIELD_LOWER_CASE, new StandardAnalyzer(), BOOTS_LOWER_CASE);
+    }
+
     qp.setAllowLeadingWildcard(true);
+    qp.setDefaultOperator(QueryParser.Operator.AND);
+
     String langSearch = "";
     if (StringUtils.isNotBlank(lang)) {
       langSearch = " AND languageCode:" + lang;
     }
-    Query query = qp.parse(QueryParserBase.escape(search) + langSearch);
+    Query query = qp.parse(search + langSearch);
     TopDocs hits = indexSearcher.search(query, limit);
     LOGGER.debug("Found {} results for the search '{}'", hits.totalHits, search);
 
@@ -88,7 +103,7 @@ public List<DocumentationSearchResult> search(String search, String lang, int li
 
     }
     if (results.isEmpty() && !defaultLanguage.equals(lang) && !languages.contains(lang)) {
-      return search(search, defaultLanguage, limit, exact, defaultLanguage, languages);
+      return search(search, defaultLanguage, limit, exact, matchCase, defaultLanguage, languages);
     }
     return results;
   }
diff --git a/src/main/java/fr/techad/edc/httpd/utils/CaseSensitiveStandardAnalyzer.java b/src/main/java/fr/techad/edc/httpd/utils/CaseSensitiveStandardAnalyzer.java
@@ -0,0 +1,25 @@
+package fr.techad.edc.httpd.utils;
+
+import org.apache.lucene.analysis.*;
+import org.apache.lucene.analysis.StopwordAnalyzerBase;
+import org.apache.lucene.analysis.standard.StandardTokenizer;
+
+public class CaseSensitiveStandardAnalyzer extends StopwordAnalyzerBase {
+    /** Default maximum allowed token length */
+    public static final int DEFAULT_MAX_TOKEN_LENGTH = 255;
+    public StandardTokenizer src;
+
+    public CaseSensitiveStandardAnalyzer(){
+        src = new StandardTokenizer();
+    }
+
+    @Override
+    protected Analyzer.TokenStreamComponents createComponents(final String fieldName) {
+        return new TokenStreamComponents(
+                r -> {
+                    src.setMaxTokenLength(DEFAULT_MAX_TOKEN_LENGTH);
+                    src.setReader(r);
+                },
+                new StopFilter(src, stopwords));
+    }
+}
diff --git a/src/test/java/fr/techad/edc/httpd/search/ContentSearcherTest.java b/src/test/java/fr/techad/edc/httpd/search/ContentSearcherTest.java