跳转到内容

自定义分段

每次上传 XML、HTML、MD 或任何其他不含键值结构的源文件时,系统都会使用预定义的分段规则 (SRX 2.0) 进行自动内容分段。 但是,有时默认分段规则对源文件的分段结果可能与预期不符。

在这种情况下,您可以使用 SRX 2.0 标准为每个源文件单独定义自己的分段规则。

您可以在 Sources > Files 中更改分段。

  1. 打开您要调整分段规则的项目,然后转到 Sources > Files
  2. 在所需文件上点击 (或右键单击),然后选择设置文件上下文菜单设置
  3. 在弹出的对话框中,切换到 Parser configuration 选项卡。
  4. 排除元素字段中,指定所有不应导入的元素。
  5. 选择 Enable content segmentationUse custom segmentation rules
  6. 粘贴您的 SRX 分段规则,然后单击 Save文件解析器配置

保存新的分段规则后,您的源文件将自动重新导入,并按照这些新规则进行分段。

典型的 SRX 文件类似于以下内容:

<?xml version="1.0" encoding="UTF-8"?>
<srx version="2.0"
xmlns="http://www.lisa.org/srx20"
xsi:schemaLocation="http://www.lisa.org/srx20 srx20.xsd"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<header segmentsubflows="yes" cascade="yes">
<formathandle type="start" include="no"/>
<formathandle type="end" include="yes"/>
<formathandle type="isolated" include="yes"/>
</header>
<body>
<languagerules>
<languagerule languagerulename="Default">
<!-- Common rules for most languages -->
<rule break="no">
<beforebreak>^\s*[0-9]+\.</beforebreak>
<afterbreak>\s</afterbreak>
</rule>
<rule break="yes">
<afterbreak>\n</afterbreak>
</rule>
<rule break="yes">
<beforebreak>[\.\?!]+</beforebreak>
<afterbreak>\s</afterbreak>
</rule>
</languagerule>
</languagerules>
<maprules>
<!-- List exceptions first -->
<languagemap languagepattern="[Ee][Nn].*" languagerulename="English"/>
<languagemap languagepattern="[Ff][Rr].*" languagerulename="French"/>
<!-- Japanese breaking rules -->
<languagemap languagepattern="[Jj][Aa].*" languagerulename="Japanese"/>
<!-- Common breaking rules -->
<languagemap languagepattern=".*" languagerulename="Default"/>
</maprules>
</body>
</srx>

通常,句号用作句子分隔符。 但对于某些亚洲语言,情况并非如此。 例如,中文中典型的句子分隔符是表意文字句号()。 对于此类情况,您可以使用以下规则集:

<rule break="yes">
<beforebreak>[\x3002]+</beforebreak>
<afterbreak></afterbreak>
</rule>

在以下简单示例中,我们将说明一种情况:当需要将一段文本分段为两个(或更多)字符串时该如何处理。

使用默认分段规则的文本:

这是示例句子的第一部分,这是第二部分。

使用新分段规则的文本:

这是示例句子的第一部分

这是第二部分。

对于这种特定情况,以下规则集将把初始句子拆分为两个部分:

<rule break="yes">
<beforebreak>sentence</beforebreak>
<afterbreak>\u0020</afterbreak>
</rule>

可以借助 Ratel 等工具来创建和维护 SRX 分段规则。 它提供可视化界面,您可以在其中从头创建分段规则或编辑现有规则。

本页面对你有帮助吗?