步骤二:信息提取
关键信息标识:标识文献中的关键信息,如研究方法、主要结论、实验条件等。
数据分类:根据信息类型将数据分类,如作者、出版年份、研究结果等。
步骤三:结构化转换
结构化处理:将信息精细化拆解与清洗,将各种元素进行转换,形成结构化数据形式,拆分成
标题与内容。
分割部分关键代码:
对于其中的每个元素,如果是 CompositeElement 类型,就提取其中的文本并将其添加到
text_list 中;如果是 Table 类型,就将表格的文本表示(可能是 HTML 格式)添加到
text_list 中。
将图 3.8 的提取的数据进行拆分,添加到 text_list 中,输出结果如图 3.11 所示。