如何：在 Visual Basic 中标识 HTML 字符串中的文本

2011-08-12

此示例演示如何使用简单的正则表达式从 HTML 文档中移除标记。

示例

HTML 标记可与正则表达式 \<[^\>]+\> 匹配，这意味着：

字符“<”，后跟
由一个或多个字符组成的集合，不包括“>”字符，后跟
字符“>”。

此示例使用共享的 Regex.Replace 方法，用空字符串替换标记正则表达式中的所有匹配项。

    ''' <summary>Removes the tags from an HTML document.</summary>
    ''' <param name="htmlText">HTML text to parse.</param>
    ''' <returns>The text of an HTML document without tags.</returns>
    ''' <remarks></remarks>
    Function GetTextFromHtml(ByVal htmlText As String) As String
        Dim output As String = Regex.Replace(htmlText, "\<[^\>]+\>", "")
        Return output
    End Function

此示例要求您使用 Imports 语句来导入 System.Text.RegularExpressions 命名空间。有关更多信息，请参见 Imports 语句（.NET 命名空间和类型）。

请参见

任务

如何：在 Visual Basic 中识别 HTML 字符串中的超链接

如何：从字符串中剥离无效字符

其他资源

分析字符串 (Visual Basic)

通过

如何：在 Visual Basic 中标识 HTML 字符串中的文本

示例

请参见

任务

其他资源

其他资源