博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
跟益达学Solr5之索引文件夹下所有文件
阅读量:4026 次
发布时间:2019-05-24

本文共 1248 字,大约阅读时间需要 4 分钟。

       上篇我们学习了如何从PDF文件中提取文本进行索引,今天我们来学习如何对一个文件夹下所有文本文件进行索引。废话不多说,我直接贴相关配置:

       首先依然是在solrconfig.xml配置文件中配置dataimport请求处理器,并指定data-config.xml配置文件加载路径:

data-config.xml

    指定依赖的jar包加载路径:

C:\solr_home\core1\data

    依赖的jar包如图:

 然后重点是配置我们的data-config.xml了,配置内容如下:

    baseDir表示获取这个文件夹下的文件,fileName支持使用正则表达式来过滤一些baseDir文件夹下你不想被索引的文件,processor是用来生成Entity的处理器,而不同Entity默认会生成不同的Field域。FileListEntityProcessor处理器会根据指定的文件夹生成多个Entity,且生成的Entity会包含fileAbsolutePathfileSizefileLastModifiedfileName这几个域,recursive表示是否递归查找子目录下的文件,onError表示当出现异常时是否跳过这个条件不处理。

 然后我们需要在schema.xml中定义域,

 到此,配置工作就完毕了,在C:/docs目录下准备几个txt文件用于测试,注意,txt文件编码请保证是UTF-8编码,默认txt文件的编码是GBK,这是很多小白容易犯的错误,特此提醒!!!!!!

 然后重启你的tomcat,执行索引导入,如图:
 
 照例,切换到Query菜单进行查询测试,如图:
 OK,大功告成!本篇博客示例配置文件以及测试用的txt文件我待会儿会上传到底下附件(由于jar包体积太大,附件里不会包含jar包,包含完整jar的,我会上传到我的百度网盘)。

  百度网盘下载地址:

 

  如果你还有什么问题请加我Q-Q:7-3-6-0-3-1-3-0-5,

或者加裙

一起交流学习!

 

 

 

   

 

转载地址:http://hcxbi.baihongyu.com/

你可能感兴趣的文章
Comparator(用于Arrays.sort)
查看>>
对自己的计划
查看>>
反应c语言程序结构特点的程序
查看>>
Android错误总结
查看>>
android margin
查看>>
Drawable setBounds()中的rect
查看>>
markdown编辑器
查看>>
过拟合原因及解决
查看>>
支持向量机(SVM)初探
查看>>
决策树与随机森林初探
查看>>
相似度与距离算法种类总结
查看>>
贝叶斯
查看>>
推荐系统总结
查看>>
relu与sigmod的比较
查看>>
交叉熵和均方差损失函数的比较(Cross-Entropy vs. Squared Error)
查看>>
九大排序算法总结
查看>>
Spannable 和 Editable、SpannableString 和 SpannableString
查看>>
Java注解Annotation使用
查看>>
Handler、Message、Looper、MessageQueue
查看>>
java多线程之六种状态
查看>>