网络环境中,对文本类型数据的分析技术十分契合典型的大数据技术基本特征——即我们耳熟能详的4V(Volume、Variety、Value、Velocity)特征。因此可以说,在线文本分析是大数据的重要技术体现。具体如下:

Volume特征

随着大数据技术的发展,人们对数据的获取、存储和分析等相关技术都获得大幅提高,直接对大规模的数据总体进行统计分析具有更强的技术可行性。因此,在有条件的情况下,数据分析师更倾向于对数据全体,而非某个抽样子集进行数据建模。当对数据全体进行分析时,要求数据集合的规模十分庞大,也就是所谓的Volume的特征。

特别对于文本数据进行分析时,对数据规模的需求则更加凸显。人类语言存在内在固有的复杂、丰富的属性,因此在数据分析时对文本数据内容的理解客观要求十分高的解析精度。为了更好地区分不同词汇、词组、句子以及其他各种文本要素组合的语义、语法上的差异,在构建语言模型时,通常需要从大量文本内容中进行统计学习。在实践中,通常要求尽量采集完整、全面的特定领域的语料库,并对整个文本全集进行建模分析。

注:除了可以人工构建预料库以外,互联网环境提供了快速构建电子化的语料库的全新思路,很多网站本身就是非常优质的语料资源。例如:百度百科、维基百科、垂直领域资讯平台的博客文章等等;除此以外,学术资源也格外值得重视,例如学术数据库中论文的名称和摘要对应的文本内容。

Variety特征

网络环境中,数据的多样性特征更加显著。在线环境中包括结构化数据以及非结构化数据,非结构化数据中又有文本数据、音频数据、视频数据等等。数据种类的多样性客观上要求根据不同类型的数据设计不同的数据分析方法。

对于结构化的数据进行数据分析,可直接采用一般的统计推断分析、机器学习方法、深度学习方法进行处理,这些方法的相关理论及应用当前已发展的非常成熟。而对非结构化数据分析,当前技术的发展阻力却较大。尤其对于文本数据,其复杂性、变化性都很高,当前技术仍主要是将其转化成结构化数据并依赖传统的数据挖掘方法处理。

文本类型的数据的核心是人类社会的语言内容,语言则是人的情感以及行为的综合体现。文本数据本质上就带有大量人为的复杂因素,甚至涉及人的心理特征与行为特征,其分析难度远远大于一般的结构化数据。

将文本类型数据转化成结构化数据时需要一系列复杂、繁琐的技术环节,这就导致文本分析技术相对于数据挖掘技术的发展滞后很多。可以认为,文本分析技术在未来仍具充足的探索空间。

Value特征

在大数据场景下,数据的价值(Value)密度非常低,需要从给定大规模数据集中不断对已有数据进行“提纯”,获得其中有价值的信息。价值密度低的具体体现一方面在于可用的信息量不足,另一方面,则在于基于原始数据进行分析时,数据经过不断的归约、抽象,最终可以呈现的信息量非常稀缺。该特征对于文本数据的处理更加突出。

首先,对于文本类型的数据,尤其是互联网环境产生的数据,通常含有很多的干扰信息,许多文本信息与文本分析任务相关性很低,甚至很多文本信息本身没有意义。网络用户在使用网站功能产生文本类型数据时,可能表现出类似“灌水”、“虚假”、“欺诈”、“抄袭”等无价值、甚至产生“负价值”的在线行为。这些行为增加了数据分析难度,同时也要求在对文本进行分析时进行更多的数据提纯操作。

其次,对文本内容分析时,通常需要将其转化成结构化的数值类型数据进行分析。数值数据在很多情况下比文本数据抽象程度更高。因此,从文本数据转化成数值数据,本质上也是一次数据的约简精益操作。在对文本数据分析时,为了达到同样的分析结果,一般需要比数值类型的数据更大规模的数据才能满足分析需求。

Velocity特征

大数据环境下,对数据分析的时效(Velocity)要求通常很高。很多信息分析的需求是实时的,应当不断基于最新的数据对网站以及市场进行分析,才能提供更有价值的服务内容和运营决策。

网站上的文本数据是网站运营者和用户之间各种在线行为的具体体现,是网站活动的动态记录——因此,对文本的分析一定需要满足时效性的技术需求,相应的方法也应当具备足够的处理速度,在一定时间窗口内有效地解决给定的分析的问题。

首先,在时效性要求下,需要设计高效率的算法。对于同样的文本分析问题,不同算法之间的运算效率差异很大。有些算法运算速度很快,但是分析的准确率较低;同时,有些算法运算的速度较慢,但是却可以获得较好的分析结果。分析者需要在算法效率和准确率之间合理均衡,使得算法在给定设备和资源的约束条件下可尽可能地在有限时间内提供尽量好的分析结果。

其次,算法应当尽量支持分布式计算的处理方式。分布式计算是指对于同一个数据分析任务采用多个计算单元同时处理,以提高数据分析的效率:传统计算框架下,一个任务一个电脑做,无论任务多复杂,只能耐心等待;而在分布式的计算框架下,同一个任务可以由多台电脑协同完成,可以通过增加计算机的方式提升总体效率。因此,对于文本分析问题,应尽量采用分布式计算并提供相应的技术解决方案。

此外,为满足实时性分析要求,数据分析者应当设计易于随时进行更新的统计模型。进行数据分析的统计模型虽然是基于历史记录构建,但是随着新数据的迭代增加,具体问题的应用场景也在发生变化。文本数据具有现明的语言特征,而语言特征的背后又是人的社会特征与行为特征,这些变量都是随时间高速变化的。分析文本数据时,分析者所采用的统计模型需要不断调整,获得的模型应具备增量式的动态更新特性,这样,才有利于保证模型的参数实时地满足在线环境变化的客观需求。