`
cjp1989
  • 浏览: 161244 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
社区版块
存档分类
最新评论

中科院分词ictclas2013使用java调用

阅读更多

      中科院ictclas2013版分词系统,现在改为NLPIR汉语分词系统--http://ictclas.nlpir.org/,功能上已经足够强大了,由于项目需要,整合分词到系统中来。参考官网的java调用说明,在使用过程中有些要注意的地方。

      下面贴出配置过程:

 

      1.进入官网下载

            ictclas2013下载包,目前更新到0416版,ictclas2013-Win-32-jni或者64位的。如果系统是32位的就下载32位的,如果是64位的系统,那就要看你安装的java虚拟机是32位还是64位。若是32为jdk,还是要下载使用32位的JNI,而且Eclipse也用32位的

      2.准备文件

         打开ictclas2013文件,需要的数据是:Data,Bin,Text三个文件,其中Bin文件夹里面只要:NLPIR.dll文件,里面内容不要轻易更改。打开Win-32bit_JNI-lib文件,里面有个NLPIL_JNI.dll文件。

      3.创建项目

         a.直接将java示例程序导入到src目录下,TestNLPIR.java和kevin同级,不要更改包名。

         b.创建file文件夹,跟src同级目录,将Data文件夹放入里面。把测试文本Test放入到项目里面,也跟src是同级目录。

         c.导入dll文件,将NLPIR.dll和NLPIL_JNI.dll文件同时导入到项目中,使用右键点击项目,import方法,从文件中导入,选择这两个文件。

        d,设置程序,下面给出test()方法的简单说明

          

NLPIR testNLPIR = new NLPIR();
        String argu = "./file/";
	System.out.println("NLPIR_Init");
	//0表示编码为GBK,设为1,在Eclipse调用文字乱码
	if (testNLPIR.NLPIR_Init(argu.getBytes("GB2312"),0) == false)
		{
			System.out.println("Init Fail!");
			return;
		}
	//导入用户词典前,设置为0,表示去除了角色标注;设置1,加上角色标注
byte nativeBytes[] = testNLPIR.NLPIR_ParagraphProcess(sInput.getBytes("GB2312"), 0);
String nativeStr = new String(nativeBytes, 0, nativeBytes.length, "GB2312");
System.out.println("分词结果为: " + nativeStr);

      

       4.最后说明

 

       附上已经整合好的项目,当然只是简单的。实际中效果还是很理想的。

      
 

2
4
分享到:
评论
5 楼 CandyLove 2015-01-25  
若用64位的eclipse和64位的jdk运行的可以实现吗?
4 楼 小白_贫农 2014-03-06  
嗯这些都配置正确,但是走道
if (testNLPIR.NLPIR_Init(argu.getBytes("GB2312"),1) == false)//初始化,与C语言的函数功能类似
{
System.out.println("Init Fail!");
return;
}
这个位置的时候就不执行了,初始化失败!
lz求帮助谢谢
3 楼 cjp1989 2014-03-05  
例子中的项目是:utf-8编码,并且是32位的。
2 楼 小白_贫农 2014-03-04  
NLPIR_Init
Init Fail!
1 楼 durong11 2013-10-23  
为什么结果显示的,
NLPIR_Init

新词识别结果为: �丝/n_new/15.12  网民/n_new/6.66  解构/n_new/5.27  阿Q/n_new/4.99  网络亚文化/n_new/4.16  贴吧/n_new/3.33  群体自嘲/n_new/3.33  身份卑微/n_new/3.33 
关键词识别结果为: �丝/n_new/15.12  网民/n_new/6.66  解构/n_new/5.27  阿Q/n_new/4.99  李毅/nr/4.72  网络/n/4.57
新词识别结果 �丝/n_new/15.12  网民/n_new/6.66  解构/n_new/5.27  阿Q/n_new/4.99  网络亚文化/n_new/4.16  贴吧/n_new/3.33  群体自嘲/n_new/3.33  身份卑微/n_new/3.33 

这几个结果都一样样的

相关推荐

    中科院分词ictclas50 windows 32 JNI

    中科院分词工具,jni调用,包括文档和demo。该demo为改造版,官方提供的的ICTCLAS2011在java中使用总是报错,这个demo可以正常使用

    ICTCLAS 中科院分词 在java上的实现demo

    ICTCLAS 中科院分词 在java上的实现demo 包含了ICTCLAS接口开发文档

    中科院分词工具ICTCLAS调用

    实现了用java调用中科院分词工具。可用于软件或者web工程。

    中科院ICTCLAS分词使用示例

    本包是中科院的ICTCLAS分词工具包的程序使用示例程序,还有相应的帮助文档,未曾使用过的初学者,完全可以通过该Demo掌握ICTCALS的使用方法。

    中科院分词系统java版ICTCLAS50_Windows_32_JNI.rar

    中科院分词系统java版 ICTCLAS50_Windows_32_JNI.rar ;里面有最新的授权文件,正确执行demo;里面包含java借口使用说明以及分词系统的演示说明

    中科院中文分词系统ICTCLAS2015

    中科院的中文分词系统ICTCLAS是从事文本挖掘研究工作的学者们所广泛使用的软件,在此就不多作介绍了。这是该软件的2015版本,欢迎各位学者下载使用。

    ICTCLAS 中科院分词

    ICTCLAS 中科院分词 里面有demo和相关使用文档,最好的中文分词工具

    中科院分词系统2008版本--forJAVA

    09年新版本的中科院分词系统,可以直接调用,加载的时候会有点麻烦,可以留言,我会解答!

    ICTCLAS2012—SDK中科院分词工具最新版

    中科院ICTALAS2012版的分词工具,最新版,稳定使用,性能有优化,文档完整

    中科院中文分词系统及各种调用示例

    计算所汉语词法分析系统ICTCLAS同时还提供一套完整的动态连接库ICTCLAS.dll,COM组件和相应的概率词典,开发者可以完全忽略汉语词法分析,直接在自己的系统中调用ICTCLAS,ICTCLAS可以根据需要输出多个高概率的结果,...

    ICTCLAS的Java改造版本

    发现中科院提供的ictclas工具是比较不错的。 可惜没有官方正式的java版本,有一个网友sinbo自己改写了一个java版本。 但在使用过程中发现问题很多。其中最大的问题,就是数据结构不够合适,统统采用arraylist来...

    ictclas50_windows64

    中科院分词器ictclas50 本人亲测windows64位可以使用

    ictclas4j

    ictclas中科院分词

    ICTCLAS分词器与Lucene4.9的结合

    基于ICTCLAS中科院分词器实现Lucene4.9版本的中文分词功能,新增中英文停用词库,直接导入即可使用。

    ICTCLAS2016分词系统2016

    中科院ICTCLAS2014分词系统下载包,文本分析工具,方便使用。

    中科院分词包

    包里面含有linux和windows平台下所有文件,因此调用这个包可以跨平台。(unfortunately mac 不支持)

    计算所汉语词法分析系统ICTCLAS

    COM组件和相应的概率词典,开发者可以完全忽略汉语词法分析,直接在自己的系统中调用ICTCLAS,ICTCLAS可以根据需要输出多个高概率的结果,输出格式也可以定制,开发者在分词和词性标注的基础上继续上层开发。...

    ictclas分词系统

    中科院的分词系统,非常有用。不过需要安装java才能运行。适合win32位系统使用。如有使用错误,请联系作者。

    ICTCLASAnalyzer

    lucene中使用中科院分词的analyzer 直接在lucene中实例化该analyzer就可以使用中科院分词

Global site tag (gtag.js) - Google Analytics