通八洲科技

如何在 Go 中实现文件读取与正则匹配的并发处理

日期:2025-12-27 00:00 / 作者:聖光之護

本文讲解如何正确设计 go 并发程序:将文件逐行读取(单 goroutine)与多 worker 并行处理解耦,通过 channel 传递任务与结果,避免死锁,并安全关闭 channel。核心在于分离“生产者”“消费者”和“结果收集者”三类 goroutine。

在 Go 中实现“并发处理文件内容”时,一个常见误区是试图让文件读取业务处理都在同一 goroutine 中同步推进,或错误地等待所有 worker 完成后再尝试从结果 channel 读取——这极易导致死锁(如原代码中 wg.Wait() 阻塞主线程,而 results 通道未被关闭,range results 永远无法退出)。

正确的并发模型应严格遵循 生产者-消费者模式,并明确各组件职责:

以下是修正后的完整可运行示例(已适配标准库,无需外部依赖):

package main

import (
    "bufio"
    "fmt"
    "regexp"
    "strings"
    "sync"
)

func telephoneNumbersInFile(path string) int {
    file := strings.NewReader(path)
    telephone := regexp.MustCompile(`\(\d+\)\s\d+-\d+`)

    jobs := make(chan string, 10)   // 建议设置缓冲区,避免生产者阻塞
    results := make(chan int, 10)  // 同样建议缓冲,提升吞吐

    var wg sync.WaitGroup

    // 启动 3 个 worker
    for w := 1; w <= 3; w++ {
        wg.Add(1)
        go func() {
            defer wg.Done()
            for line := range jobs {
                if telephone.MatchString(line) {
                    results <- 1
                }
            }
        }()
    }

    // 【生产者】:在 goroutine 中读取文件并关闭 jobs
    go func() {
        scanner := bufio.NewScanner(file)
        for scanner.Scan() {
            jobs <- scanner.Text()
        }
        close(jobs) // 关键!通知 workers 无新任务
    }()

    // 【收集者】:等待所有 worker 结束后关闭 results
    go func() {
        wg.Wait()
        close(results) // 关键!使 range results 可正常退出
    }()

    // 【主流程】:安全收集结果
    counts := 0
    for v := range results {
        counts += v
    }
    return counts
}

func main() {
    const input = "Foo\n(555) 123-3456\nBar\nBaz\n(800) 999-0000"
    n := telephoneNumbersInFile(input)
    fmt.Println("Found", n, "telephone numbers") // 输出: Found 2 telephone numbers
}

关键要点说明:

此模式清晰分离关注点,规避共享状态与显式锁,是 Go 并发编程的经典实践。