|
WordStat for Stata适用Stata的内容分析和文本挖掘软件Stata 是由 StataCorp LP ( www.stata.com )创建的完整的集成统计软件包。它提供了广泛的统计分析、数据管理和图形。最新版本的 Stata 添加了许多新功能,包括一个长字符串数据类型,允许与数字和分类数据一起存储多达 20 亿个字符的文档。因此,可以创建一个包含期刊摘要、新闻抄本、专利、事件报告、客户反馈、采访等的统计数据库。 创建用于 Stata 的 WordStat 是为了允许在 Windows 下运行的 Stata 13 和 Stata 16 用户对存储在 Stata 数据文件中的任何字符串变量应用文本分析技术。WordStat 结合了自然语言处理、内容分析和统计技术,可以快速提取大量文本中的主题、模式和关系。它可以在几秒钟内处理数百万个单词,并将提取的主题与 Stata 文件中的任何其他数字、分类或日期变量进行比较。 它是用来做什么的?任何需要快速提取和分析存储在 Stata 文本变量中的信息的人都可以使用 WordStat。它可用于:
用于 STATA 关键功能的 WORDSTAT探索性文本挖掘•集成探索性文本挖掘和可视化工具,例如聚类、多维缩放、邻近图等,以快速提取主题并自动识别模式。 主题建模•从大型文本集中快速了解最突出的主题。侧面板允许使用条形图或折线图比较特定主题在其他变量中的频率。 分类词典•使用现有的或创建由单词、单词模式、短语和邻近规则组成的自定义词典。获取计算机帮助,通过短语和命名实体提取、拼写错误替换、集成词库等来构建分类法。 对比分析•使用统计和图形工具(对应分析、热图、气泡图等)探索非结构化文本和结构化数据之间的关系。 链接分析•使用force-based图、多维缩放或圆形图探索单词或提取的概念之间的关系。检索与特定连接关联的文本段。 机器学习•使用朴素贝叶斯和K-最近邻开发自动文档分类模型。然后可以将分类模型保存在磁盘上并重新应用于新数据。 图表•使用交互式可视化工具(如条形图、折线图、热图、文字云、气泡图、MDS 图等)说明模式并探索复杂现象。复制和粘贴图表或将它们以 bmp、jpg 或 png 文件的形式保存到磁盘格式。 文档转换向导•文档转换向导允许您轻松地将存储在各种文件格式(.DOC、HTML、PDF、TXT)的文档导入到新的 Stata .dta 文件中,并自动从结构化文档中提取数字和字母数字值。
如何安装和运行WORDSTAT FOR STATA
WordStat for Stata 使您能够分析您在 Stata 中分析的数字和分类文件中包含的任何字符串变量/文本数据。WordStat 结合了自然语言处理、内容分析和统计技术,可以快速提取大量文本中的主题、模式和关系。它可以在几秒钟内处理数百万个单词,并将提取的主题与 Stata 文件中的任何其他数字、分类或日期变量进行比较。 WordStat for Stata 与和QDA Miner 或 SimStat 一起运行的版本是相同的软件,具有相同的功能。唯一的区别是,当您为 Stata 安装 WordStat 时,它会为 Stata 安装一个扩展,允许您将 WordStat 作为内容分析模块运行并使用文档转换向导导入文件。因此,您必须始终在安装 WordStat for Stata 之前安装 Stata。 为 Stata 安装 Stata 和 WordStat 后,打开 Stata。打开您要分析的文件。转到工具栏中的用户按钮。单击下拉菜单中的 WordStat 和Content analysis(内容分析)。 单击Content analysis后,将出现下面的屏幕,提示您选择要分析的字符串变量。 单击OK,您就可以使用 WordStat 的各种功能进行内容分析了。
|
|
|
站点地图|隐私政策|加入我们 |
Copyright © 2022 上海卡贝信息技术有限公司 All rights reserved. |