上海卡贝信息技术有限公司

 

 

WordStat 9 文本分析和挖掘软件

借助WordStat,数据分析师可以从大量文档中快速提取有价值的文本分析结果,这些文档包括客户反馈,电子邮件,开放式回复,采访记录,事件报告,专利,法律文档,博客,网站等。 这是WordStat的内容分析和文本挖掘功能的列表:

从许多来源导入

  • WordStat允许您从许多来源直接导入多语言内容:
  • 导入文档:Word, PDF, HTML, PowerPoint, RTF, TXT, XPS, ePUB, ODT, WordPerfect.
  • 导入数据文件:Excel, CSV, TSV, Access
  • 从统计软件导入:Stata,SPSS
  • 从社会媒体导入:Facebook, Twitter, Reddit, YouTube, RSS
  • 从邮件导入:Outlook, Gmail, MBox
  • 从网络调查导入:Qualtrics, SurveyMonkey, SurveyGizmo, QuestionPro, Voxco, triple-s
  • 从参考文献管理工具导入:Endnote, Mendeley, Zotero, RIS
  • 导入图像:BMP, WMF, JPG, GIF, PNG 自动提取与这些图像相关的任何信息,例如地理位置,标题,描述,作者,评论等,并将其转换为变量
  • 从XML数据库导入
  • ODBC数据库连接可用
  • 从定性软件导入项目:NVivo, Atlas.ti, Qdpx文件
  • 导入和分析多语言文档 包括从右到左语言
  • 监视特定文件夹,并自动导入该文件夹中存储的所有文档和图像,或监视对原始源文件或联机服务的更改

组织您的数据

多种功能使您可以通过使分析过程简单明了的方式轻松组织数据:

  • 快速分组,标记,排序,添加,删除文档或查找重复项。
  • 使用“文档转换向导”手动或自动将变量分配给您的文档,即:日期,作者或人口统计数据,例如年龄,性别或位置。
  • 轻松地重新排序,添加,删除,编辑和重新编码变量。
  • 根据变量值过滤案例。

使用资源管理器模式快速提取含义

使用资源管理器模式可以快速,轻松地从大量文本数据中提取含义,这是专门为那些文本挖掘经验很少的人设计的。

使用主题建模工具识别最常用的单词,短语,并提取文档中最重要的主题。 您随时可以切换到专家模式,以使用WordStat的所有功能。

使用文本挖掘浏览文档内容

在几秒钟内,探索大量非结构化数据的内容并提取有见地的信息:

  • 提取最常用的单词,短语,表达方式。
  • 在单词或短语上使用聚类或2D和3D多维缩放快速提取主题。
  • 使用邻近图轻松识别与目标关键字同时出现的所有关键字。
  • 使用链接分析功能探索单词或概念之间的关系。
  • 通过应用关键字同时出现条件(在一个案例中,一个句子,一个段落,一个n个单词的窗口,一个用户定义的段)以及聚类方法(一阶和二阶接近度, 选择相似性指标)。
  • 使用层次聚类,多维缩放,链接分析和邻近图来探索概念或文档之间的相似性。

使用主题建模来提取最突出的主题

通过将自然语言处理和统计分析(NNMF或因子分析)结合使用,不仅对单词而且对短语,都可以使用最新的自动主题提取功能,从超大型文本集中快速浏览最重要的主题 和相关的单词(包括拼写错误)。

在层次聚类分析中,一个单词可能仅出现在一个聚类中,主题建模可能导致一个单词与多个主题相关联,这一特征更现实地表示了某些单词的多义性以及单词用法。

探索联系

使用网络图探索单词或概念之间的联系。使用三种布局类型检测共现的基础模式和结构:多维缩放,基于力的图形和圆形布局。

图是交互式的,可用于探索关系并检索与特定连接关联的文本段。

使文本与结构化数据相关

探索非结构化文本与结构化数据之间的关系:

  • 确定时间趋势,子组之间的差异,或使用统计和图形工具(偏差表,对应分析,热图,气泡图等)评估与等级或其他种类的分类或数字数据的关系。
  • 使用不同的关联度量来评估单词出现与名义或有序变量之间的关系:卡方,似然比,Tau-a,Tau-b,Tau-c,对称Somers'D,非对称Somers'Dxy和Dyx,Gamma, 皮尔森R,斯皮尔曼Rho。

使用字典对文本数据进行分类

使用现有词典实现全文分析自动化,或者创建您自己的单词和短语分类模型。

在字典中,可以实现布尔值(AND,OR,NOT)和接近度规则(NEAR,AFTER,BEFORE),并使用正则表达式公式快速从文本数据中提取特定信息。

词典中的词条修饰和词干支持多种语言,并且自动单词替换选项使您可以用目标关键字替换多个单词。 用户定义的停用词列表可用多种语言提供,以避免不必要的常用词(例如他,她,它等)在分析中使用。

获得有关词典构建的独特帮助

通过提取常用短语和技术术语并在文本集合中快速识别拼写错误和相关单词(同义词,反义词,全名,部分词,上位词,下位词)的工具,获得真正独特的计算机辅助,以帮助建立分类标准。

使用机器学习自动对文本数据进行分类

使用朴素贝叶斯和K-Nearest邻居开发和优化自动文档分类模型。 用户可以选择多种验证方法:留一法,n倍交叉验证,分割样本。 实验模块可用于轻松比较预测模型和精细分类模型。

分类模型可以保存到磁盘中,并稍后在QDA Miner中的独立文档分类实用程序,命令行程序或编程库中应用。

一键返回原始文档

通过使用关键字检索或上下文中的关键字来检索句子,段落或整个文档,可以从几乎所有功能,图表或图形中返回文本,从而验证或深入分析。 这在建立分类法或消除词义歧义时特别有用。

检索到的文本段可以按关键字或任何自变量排序。 您可以将QDA Miner代码附加到检索到的段上,或以表格格式(Excel,CSV等)或文本报告(MS Word,RTF等)将其导出到磁盘。

执行定性编码

将WordStat与最新的定性编码工具(QDA Miner)结合使用,以便在需要时更精确地浏览数据或对特定文档或提取的文本段进行更深入的分析。

将非结构化文本转换为交互式地图(GIS映射)

将非结构化文本数据与地理信息相关联,并创建数据点,专题图和热点图的交互式图表,以及用于将位置名称,邮政编码和IP地址转换为纬度和经度的地理编码Web服务。

自动提取名称和拼写错误

自动提取命名实体(名称,技术术语,产品和公司名称),可以使用简单的拖放操作将其添加到分类字典中。

拼写错误和未知单词会自动提取出来,并与用户词典中的现有条目匹配,并且可以迅速添加到词典中。

导出结果

将文本分析结果导出为常见的行业文件格式(例如Excel,SPSS,ASCII,HTML,XML,MS Word),流行的统计分析工具(例如SPSS和STATA)以及图形(例如PNG,BMP和JPEG)。

使用Python脚本转换文本

使用Python脚本及其全部开放源代码库来预处理或转换文本文档,以便在WordStat中进行分析。

 

 

 

 

CALL or EMAIL

有关WordStat正式版的信息,请联系我们的销售代表:

400-621-1085
021-50391085

或点击下面的链接直接在线提交购买咨询信息

留言询价    下载试用

 

联系我们
销售咨询点击这里给我发消息
产品咨询点击这里给我发消息
淘宝店铺 点击这里给我发消息 

快速链接
综述
最新更新:9版
下载试用

 

 

 

 

 

 

 

 

 

站点地图|隐私政策|加入我们
Copyright © 2022  上海卡贝信息技术有限公司   All rights reserved.