题目:基于多层次表达形式的事件抽取方法研究
主讲人:秦彦霞,女,哈工大计算机学院博士研究生
时间:2018年7月11日16:00-17:00
地点:哈尔滨工业大学新技术楼618
研究方向:事件抽取、神经网络、社交网络、自然语言处理
内容简介:
作为信息抽取领域一个重要的子课题,事件抽取技术辅助着人们从海量数据中获取事件信息。事件的可理解性影响着事件抽取的结果提供给用户信息量的多少。本文探索了多层次的事件表达形式以期望提高事件的可理解性。具体的,我们研究了短语级别、子句级别、文档级别和篇章级别的事件表示单元用于事件抽取任务中的影响。
第一个研究问题是基于短语的社交网络事件抽取方法得到的候选事件中掺杂着新闻事件和无意义话题难以进行区分的问题。我们提出了基于多特征的分类方法用于取代传统基于统计值的过滤方法。
第二个研究问题是现有的基于词语、短语的事件表示是扁平化的事件表示,不能展示短语结构信息。我们提出了包含短语结构的子句级事件表示单元,框架,用于社交网络事件抽取。
第三个研究问题是现有的基于文档的社交网络事件抽取方法中词语级时序特征无法应用到文档级别的问题。我们提出了采用词向量技术表示文档,并将基于频率的词语级时序特征扩展是文档级别,并用于识别新闻事件。
第四个研究问题是现有的基于模板的神经网络事件抽取方法多应用于英文,基于中文的研究很少。且由于中文的未登录词现象,无法有效移植英文神经网络事件抽取方法。我们提出基于混合表示模型的词表示用于中文事件抽取。