(中英文)词频统计工具
(中英文)词频统计工具,可以统计一批Word文档(.doc;.docx)、网页文件(.htm;.html)或文本文件(.txt)中所有中英文单词出现的总次数,或分别在各文件中出现的频率。
统计结果可以按出现次数排序输出为Excel表格、网页表格或Word表格文档。
统计方式包括:
- 全量统计方式,即统计给定多个文档中的所有词汇的出现词频;
- 指定统计方式:只统计指定的某些特殊词汇的出现词频。
- 字频统计:可以按单字统计出现的字频次数。
可以选择只统中文词汇、英语词汇或标点符号。支持自定义词汇库(例如一些品牌名词,如“京东”“南极人”等会被分开成几个单词的非标准词通过添加到词库实现准确统计)。
常见问题
- 问题:我使用的词频统计工具总是显示未响应。是怎么回事情?不论文本多还是少都是未响应?
解决:1、请关闭一下360安全工具试试,如果可以运行,说明是360安全软件误止了本软件运行。请在360安全工具中设置本软件“可信任”,允许运行即可。
2、如果您的电脑操作系统为Win7及以上版本,请确保您是“以管理员身份运行”本程序(选中本软件快捷方式后右键菜单选择),或者参照这个网页设置您的电脑:
怎么获得win7最高管理员权限
win10如何获得管理员权限
WIN10家庭版怎样获取管理员权限
- 问:我点试用,电脑显示我的系统中没有装microsoft word,可是我电脑里有word07版,这是怎么回事呢?
答:软件部分功能需要调用Word的相关功能,电脑里有word却显示您的系统没有安装,可能是因为您安装Word时安装不完全,或者您没有以管理员权限登录(所以当前程序没我获得调取Word功能的权限),或者您安装是某些破解“精简版”的Office(有些功能被删减了)。
- 问:词频分析结果是什么样的?比如我想把一篇文档进行分词,统计出高频词汇,这样能做到吗?分词是单个字,还是一个词语?
答:把一篇文档进行分词,统计出高频词汇,这就是这个软件的功能。分词是按语言学上的词语,比如“中化人民共和国”算一个词语。而且,对于一些新词,或特殊定义的词汇,如“新浪微博”这类新产生的词汇,软件提供了“自定义词汇表”功能,您只要把它添加到自定义的词汇表中,就可以作为一个词来进行统计。
词汇提取工具(词汇表生成工具),可以将一个或多个Word文档(.doc;.docx)、网页文件(.htm;.html)或文本文件(.txt)中所有(中文或英文)单词提出来形成词汇表。
输出结果排除重复单词,也可做为词汇表去重工具使用。
下载 词汇提取工具1.41
统计一批文件中汉字出现次数的工具。
下载 字频统计工具 1.6非凡下载站下载
文档重复内容查找工具:
- 对一个(或一批)文件中的重复出现的句子、短句、短语、字符串或重复词汇进行查找、提取,并统计其重复次数。
- 查找多个(所有)文件中都重复出现的内容。
- 查找一个(或一批)文本文件中的重复行。
- 输入特定内容,查找在文件中的出现(重复)次数。
可以对Word文档(*.doc;*.docx)、文本文件、PDF文件(*.pdf)、网页文件等多种格式文档进行重复文字查找、分析。
分析某个文档是否有和其它一批文档中存在相同内容的工具。
根据指定的标准(重复内容的长度、次数),判断出某个文档是否和指定目录下的哪些文档存在重复内容。例如,我们可以设定标准,如果两个文档之间有2条以上超过100个字的内容雷同,即认为这两个文档存在重复内容。“文档查重工具”可以按此类标准找出某个目录下的一批文档中,哪些文档和比较文档存在内容雷同。
可以对Word文档(*.doc;*.docx)、文本文件、PDF文件(*.pdf)、网页文件等多种格式文档进行重复文字查找、分析。
下载 文档查重工具1.39
文档重复内容查找工具和文档查重工具的主要区别:两个工具的目标不同,文档重复内容查找工具主要是目标是解决“重复内容是什么”,
文档查重工具主要是目标是解决“和哪些文档有重复”。