Skip to content

Commit 4623d87

Browse files
committed
merge assets
2 parents 44d1e8d + 87cb205 commit 4623d87

29 files changed

Lines changed: 535 additions & 160 deletions

assets/txt/img_rot180_demo.jpg

92.1 KB
Loading

docx/CHANGELOG.md

Lines changed: 21 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -1,4 +1,21 @@
1-
# [0.46.0](https://github.com/shelllet/winui/compare/main...dev) (2025-07-22)
1+
# [0.47.0](https://github.com/shelllet/winui/compare/main...dev) (2025-09-22)
2+
3+
### Changed:
4+
1. 优化文字识别动作,文字识别结果已经更改为从上至下的顺序。
5+
2. 支持鼠标右键拖动动作视图。
6+
3. 修复另存时,项目未进入快速启动列表中。
7+
4. 关机动作更新为 [SuspendSystem](./actions/system/SuspendSystem.md), 并且支持休眠。
8+
5. 支持运行当前的工作流。
9+
6. [退出流程] 动作更名,参考: [退出流程](./actions/control/Exit.md)
10+
7. 增加 [域名查询](./actions/control/DomainQuery.md) 动作, 用于操持流程不退出。
11+
12+
### Note
13+
14+
1. 使用管理员权限运行 *小友+*, 无法显示 *动作* 的拖动效果(已知问题)。
15+
2。该版本由于内置了一些文字处理相关的模型,安装包大小已经超过 `300M`
16+
3. 64位下载(x64):邀请你加入群组:小友+ http://yun.139.com/m/#/invitation?type=1&msgId=1227933999795726207
17+
18+
## [0.46.0](https://github.com/shelllet/winui/compare/main...dev) (2025-07-22)
219

320
### Changed:
421
1. [枚举窗口](./actions/window/EnumWindows.md) 动作不再支持异步处理。
@@ -10,7 +27,7 @@
1027
### Note
1128

1229
1. 使用管理员权限运行 *小友+*, 无法显示 *动作* 的拖动效果(已知问题)。
13-
3. 64位下载(x64):邀请你加入群组:小友+ http://yun.139.com/m/#/invitation?type=1&msgId=1227933999795726207
30+
2. 64位下载(x64):邀请你加入群组:小友+ http://yun.139.com/m/#/invitation?type=1&msgId=1227933999795726207
1431

1532
## [0.45.0](https://github.com/shelllet/winui/compare/main...dev) (2025-06-13)
1633

@@ -31,8 +48,8 @@
3148

3249
### Changed:
3350
1. [相机类型](./actions/type/TypeCamera.md) 动作支持工业 USB3/GIGE 接口相机,比如海康相机。
34-
2. 更新 [文字识别](./actions/ai/PaddleOCR.md) 动作,运行加载其它语言模型,用来识别中英文以外的文字。
35-
3. 更新 [文字识别(Tesseract)](./actions/ai/TesseractOCR.md) 动作, 支持基于 *Tesseract* (常用来识别特殊字体)的文字识别。
51+
2. 更新 [文字识别](./actions/ai/TextRecognition.md) 动作,运行加载其它语言模型,用来识别中英文以外的文字。
52+
3. 更新 [文字识别(Tesseract)](./actions/ai/TextExtract.md) 动作, 支持基于 *Tesseract* (常用来识别特殊字体)的文字识别。
3653
4. 添加动作菜单*缓存对象*。 用来解决 某些动作反复执行时,由于内置对象的初始化比较耗,导致不必要的时间开销。
3754
5. 动作支持借助脚本更新运行时参数,详情参考动作说明。
3855
6. 修复导入其它流程崩溃问题。

docx/_sidebar.md

Lines changed: 12 additions & 7 deletions
Original file line numberDiff line numberDiff line change
@@ -15,7 +15,7 @@
1515
- [变量](./introduction/workflow/variable.md)
1616
- [资源](./introduction/workflow/resources.md)
1717
- [动作](./introduction/workflow/action.md)
18-
- [流程操作技巧](./introduction/workflow/skill.md)
18+
- [内置功能](./introduction/workflow/features.md)
1919
- 浏览器
2020
- [Web 定位策略](./introduction/webdriver/locators.md)
2121
- [WebDriver 下载](./introduction/webdriver/download.md)
@@ -41,7 +41,7 @@
4141
- [打开应用](./actions/system/OpenApplication.md)
4242
- [打开文件](./actions/system/LaunchFile.md)
4343
- [打开链接](./actions/system/OpenUrl.md)
44-
- [退出系统](./actions/system/ExitWindows.md)
44+
- [退出系统](./actions/system/SuspendSystem.md)
4545
- [关闭句柄](./actions/system/CloseHandle.md)
4646
- [检测进程](./actions/system/ExistProcess.md)
4747
- [终止进程](./actions/system/KillProcess.md)
@@ -148,11 +148,14 @@
148148
- 深度学习
149149
- [目标分类](./actions/ai/ImageClassification.md)
150150
- [对象检测](./actions/ai/ObjectDetection.md)
151-
- [文字识别](./actions/ai/PaddleOCR.md)
152-
- [文本块检测](./actions/ai/TextDetection.md)
151+
- [文字图像方向矫正](./actions/ai/DocumentOrientation.md)
152+
- [文字图像矫正](./actions/ai/TextUnwarping.md)
153+
- [文字区域检测](./actions/ai/TextDetection.md)
154+
- [文字角度纠正](./actions/ai/TextlineOrientation.md)
155+
- [文字识别](./actions/ai/TextRecognition.md)
153156
- [二维码识别](./actions/ai/QRCode.md)
154157
- [条码识别](./actions/ai/BarcodeDetector.md)
155-
- [文字识别(Tesseract)](./actions/ai/TesseractOCR.md)
158+
- [文本提取](./actions/ai/TextExtract.md)
156159
- 媒体
157160
- [窗口截图](./actions/media/CaptureWindow.md)
158161
- [全屏截图](./actions/media/CaptureScreen.md)
@@ -171,6 +174,8 @@
171174
- [数据发送](./actions/network/NetworkSend.md)
172175
- [数据接收](./actions/network/NetworkReceive.md)
173176
- [服务连接](./actions/network/NetworkConnect.md)
177+
- [域名查询](./actions/network/DomainQuery.md)
178+
174179
- 统计分析
175180
- [加载文档](./actions/pandas/LoadDocument.md)
176181
- [查询](./actions/pandas/DataFrameQuery.md)
@@ -241,7 +246,7 @@
241246
- [调用](./actions/control/Invoke.md)
242247
- [停止循环](./actions/control/Break.md)
243248
- [脚本](./actions/control/Code.md)
244-
- [退出流程](./actions/control/Quit.md)
249+
- [退出流程](./actions/control/Exit.md)
245250
- [表达式](./actions/control/CodeExpression.md)
246251
- [引用动作](./actions/control/ActionAlias.md)
247252
- [引用动作(名称)](./actions/control/NameAlias.md)
@@ -351,7 +356,7 @@
351356
- [FeatureAlgorithm](./enums/FeatureAlgorithm.md)
352357
- [WindowSortDirection](./enums/WindowSortDirection.md)
353358
- [FileExtension](./enums/FileExtension.md)
354-
- [ExitWindowsOption](./enums/ExitWindowsOption.md)
359+
- [SuspendStateOption](./enums/SuspendStateOption.md)
355360
- [WebKey](./enums/WebKey.md)
356361
- [WebLocated](./enums/WebLocated.md)
357362
- [ModuleOption](./enums/ModuleOption.md)
Lines changed: 25 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,25 @@
1+
# 文字图像方向矫正
2+
3+
将文档图像的方向区分出来,并使用后处理将其矫正。在诸如文档扫描、证照拍摄等过程中,有时为了拍摄更清晰,会将拍摄设备进行旋转,导致得到的图片也是不同方向的。此时,标准的OCR流程无法很好地应对这些数据。利用图像分类技术,可以预先判断含文字区域的文档或证件的方向,并将其进行方向调整,从而提高 OCR 处理的准确性。
4+
5+
![DocumentOrientation](./images/09.png ':size=90%')
6+
7+
## 子流程
8+
> 不支持
9+
10+
## 运行参数
11+
12+
* 图像 <sup>1</sup>
13+
> 包含文字的图片。
14+
15+
16+
## 输出
17+
18+
> 参考 [Image](./types/Image.md)
19+
20+
### 其它
21+
22+
示例 https://github.com/shelllet/WinUi/blob/main/dnn/TextRecognition.simple
23+
24+
25+

docx/actions/ai/PaddleOCR.md

Lines changed: 0 additions & 40 deletions
This file was deleted.

docx/actions/ai/TextDetection.md

Lines changed: 21 additions & 17 deletions
Original file line numberDiff line numberDiff line change
@@ -1,36 +1,40 @@
1-
# 文本块检测
2-
检测图像上的文本区域
1+
# 文字区域检测
2+
在图像中定位和标记出包含文本的区域。该模块的性能直接影响到整个OCR系统的准确性和效率
33

4-
![TextDetection](./images/04.png ':size=90%')
4+
![TextDetection](./images/03.png ':size=90%')
55

66
## 子流程
77
> 不支持
88
9-
109
## 运行参数
1110

12-
* 图像
13-
> 包含文字的图像
11+
* 图像 <sup>1</sup>
12+
> 包含文字的图片。
1413
15-
* 文本框评分
16-
> 计算文本框的得分,分值太低,则不认为是有效的文本框
14+
* 图像边长限制类型 <sup>2</sup>
15+
> [短边] 表示确保图片最短边不小于 [文本检测的图片边长限制][长边] 表示确保图片最长边不大于 [文本检测的图片边长限制]
1716
18-
## 输出
17+
* 图片边长限制 <sup>3</sup>
18+
> 对于文本密集的大图像,如果想要更准确的识别,应该选择更大的尺寸。此参数与[文本检测的图像边长限制类型]配合使用。通常,[长边]的最大值适用于图像较大且文本密集的场景,[短边]的最小值适用于图像较小且文本密集的文档场景。
1919
20-
> 检测结果,参考:[DetectionResults](./types/DetectionResult.md)
21-
## 脚本调用
20+
* 文本检测像素阈值 <sup>4</sup>
21+
> 在输出概率图中,只有得分大于阈值的像素才被视为文本像素,取值范围为 `0 ~ 1`
2222
23-
```python
24-
import simple;
23+
* 文本检测框阈值 <sup>5</sup>
2524

26-
```
25+
> 当检测结果边框内所有像素的平均得分大于阈值时,该结果将被视为文本区域,取值范围为 `0``1`。如果出现漏检,可以适当降低此值。
26+
27+
* 文本检测去裁剪比例 <sup>6</sup>
28+
>使用此方法扩展文本区域。值越大,扩展区域越大。
2729
28-
### 其它
2930

30-
示例 https://github.com/shelllet/WinUi/blob/main/dnn/TextDetection.simple
31+
## 输出
3132

33+
> 参考 [`DetectionResults`](./types/DetectionResult.md)
34+
35+
### 其它
3236

37+
示例 https://github.com/shelllet/WinUi/blob/main/dnn/TextRecognition.simple
3338

3439

3540

36-
!> 文字检测模型训练:https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/doc/doc_ch/detection.md
Lines changed: 3 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -1,11 +1,11 @@
1-
# 文字识别(Tesseract)
1+
# TextExtract
22
基于 Tesseract OCR 的一款开源的光学字符识别引擎。能够识别多种语言的文字,包括但不限于英语、中文、法语、德语等。
33

44
* 支持多种语言:Tesseract 能够识别多种语言的文字,包括但不限于英语、中文、法语、德语等。通过训练数据的扩展,其语言识别能力还在不断增强。
55
* 高识别准确率:在经过大量数据训练和优化后,对于清晰的文档图像,Tesseract 可以达到较高的识别准确率。它能够处理多种字体、字号和排版格式的文字,对噪声和图像变形有一定的鲁棒性。
66
* 可定制性强:用户可以根据自己的需求对 Tesseract 进行定制,例如训练自己的字库模型,以提高对特定领域或特殊字体的识别效果。此外,还可以调*整各种参数来优化识别过程,适应不同的应用场景。
77

8-
![TesseractOCR](./images/07.png ':size=90%')
8+
![TextExtract](./images/07.png ':size=90%')
99

1010
## 子流程
1111
> 不支持
@@ -30,4 +30,4 @@
3030
3131
### 其它
3232

33-
示例 https://github.com/shelllet/WinUi/blob/main/dnn/PaddleOCR.simple
33+
示例 https://github.com/shelllet/WinUi/blob/main/dnn/TextRecognition.simple

docx/actions/ai/TextRecognition.md

Lines changed: 27 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,27 @@
1+
# 文字识别
2+
识别图像中的中文/英文文字。
3+
4+
![TextRecognition](./images/08.png ':size=90%')
5+
6+
## 子流程
7+
> 不支持
8+
9+
## 运行参数
10+
11+
* 图像 <sup>1</sup>
12+
> 包含文字的图片。
13+
14+
* 置信度 <sup>2/sup>
15+
> 文本检测完成后,对文本框内的文字进行文本识别,得分大于该阈值的文本结果将被保留。取值范围为 `0 ~ 1`
16+
17+
18+
## 输出
19+
20+
> 参考 [`RecognitionResults`](./types/RecognitionResult.md)
21+
22+
### 其它
23+
24+
示例 https://github.com/shelllet/WinUi/blob/main/dnn/TextRecognition.simple
25+
26+
27+

docx/actions/ai/TextUnwarping.md

Lines changed: 24 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,24 @@
1+
# 文字图像矫正
2+
针对图像进行几何变换,以纠正图像中的文档扭曲、倾斜、透视变形等问题,以供后续的文本识别进行更加准确。
3+
4+
![TextUnwarping](./images/11.png ':size=90%')
5+
6+
## 子流程
7+
> 不支持
8+
9+
## 运行参数
10+
11+
* 图像 <sup>1</sup>
12+
> 包含文字的图片。
13+
14+
15+
## 输出
16+
17+
> 参考 [Image](./types/Image.md)
18+
19+
### 其它
20+
21+
示例 https://github.com/shelllet/WinUi/blob/main/dnn/TextRecognition.simple
22+
23+
24+
Lines changed: 23 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,23 @@
1+
# 文字角度纠正
2+
角度分类器,默认识别:0°、90° 、270°。 如果使用,则可识别旋转180°的图片。如果文本没有旋转180°,为了性能,请不要使用该选项。其它文本旋转角度无法准确识别。
3+
4+
![TextlineOrientation](./images/10.png ':size=90%')
5+
6+
## 子流程
7+
> 不支持
8+
9+
## 运行参数
10+
11+
* 图像 <sup>1</sup>
12+
> 包含文字的图片,也可以是 [TextDetection](./actions/ai/TextDetection.md) 的结果 。
13+
14+
## 输出
15+
16+
> 如果参数 `1` 是图像, 参考 [Image](./types/Image.md);如果参数 `1`[`DetectionResults`](./types/DetectionResult.md), 参考 [DetectionResults](./types/DetectionResult.md)
17+
18+
### 其它
19+
20+
示例 https://github.com/shelllet/WinUi/blob/main/dnn/TextRecognition.simple
21+
22+
23+

0 commit comments

Comments
 (0)