#

apache-tika

Here are 15 public repositories matching this topic...

Deep2018530 / FileParseUtil

可以将word(doc、docx)、excel、pdf、ppt、csv、txt文件的文本内容提取出来，同时能够提取出word、pdf文件的目录

stream maven pdfbox java8 apache-tika apache-poi commons-email

Updated Jun 29, 2022
Java

tspannhw / nifi-langdetect-processor

Apache NiFi + Apache Tika + OptimaizeLangDetector

nlp language-detection apache-nifi apache-tika optimaize

Updated May 20, 2022
Java

fraponyo94 / Text-Extraction-Scanned-Pdf

Text extraction from scanned pdf documents in java

pdfbox tesseract-ocr java-8 apache-tika tess4j tika-server

Updated Jun 15, 2021
Java

immontilla / file-uploading-web-app

A security in mind file uploading web app

spring-boot clamav apache-tika

Updated Dec 26, 2018
Java

BeccaLiu / FBI-vault-spatial-search

Developed a Spatial Search website that allow users to search documents from FBI Vault website. Extract the most frequently occurring location in each of documents, and load the geo-tagged data into Apache Solr to index the documents, visualize search results using the Google Maps API.

nutch apache-solr apache-tika

Updated Sep 11, 2014
Java

OmarAssadi / matroska-tika

Tika detector for MKV and WebM

java multimedia webm tika mime-types mkv matroska ebml apache-tika tika-parsers

Updated Sep 19, 2021
Java

kubachrabanski / indexer_searcher

a tool set for indexing and searching through documents

maven apache-tika apache-lucene

Updated Jul 5, 2019
Java

raeedFarhan9 / information-retrieval-system

بفهرسة اغلب انواع الوثائق والبحث فيها , استبدال العملات وتوحيد صيغ التواريخ والاوقات , يدعم الوثائق شبه المهيكلة باعطاء وزن اعلى للتاغ ذو الاهميه الاكبر, ويوسع الاستعلام باخذ مرادفات مفرداته باستخدام مكتبة ووردنت

java jsoup apache-tika apache-lucene spring-boot-mvc

Updated May 30, 2018
Java

sidmishraw / Broodmother

[SLOW][WIP] Broodmother is a high performance, distributed, search engine using Apache Tika, Apache Solr, Akka, Neo4j, and Spring.

search-engine akka neo4j core solr apache-solr apache-tika broodmother

Updated Feb 15, 2018
Java

aswath86 / AWS-lambda-S3-to-Elastic-Indexing-Connector

AWS Lambda code to index S3 buckets into Elasticsearch

aws aws-lambda aws-s3 aws-elasticsearch apache-tika

Updated Sep 17, 2018
Java

jhecking / tika-lambda

Run Apache Tika as a service in AWS Lambda by scanning documents in S3 and storing the extracted text back to S3

lambda serverless text-extraction apache-tika aws-sam

Updated Jan 21, 2019
Java

saxenaj / DocContentIndexing

java elasticsearch spring-boot apache-tika

Updated May 8, 2017
Java

sidmishraw / autobot

PDF parsing and extraction utility using Apache Tika

java pdfbox data-extraction apache-tika pdf-parsing

Updated Sep 8, 2017
Java

BogdanKandra / romanian-information-retrieval-system

Information Retrieval system for indexing and searching files stored on disk, with support for Romanian language

information-retrieval tika lucene apache-tika desktop-search apache-lucene

Updated Mar 16, 2019
Java

glebshur / song-microservice

microservice web application for uploading and downloading audio files

spring-boot mongodb keycloak rabbitmq aws-s3 spring-cloud postgresql aws-sqs vue-js apache-camel netflix-eureka apache-tika localstack minio-s3

Updated Apr 29, 2024
Java

Improve this page

Add a description, image, and links to the apache-tika topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the apache-tika topic, visit your repo's landing page and select "manage topics."