Написание низкоуровневых скриптов bash, python

500 руб.за час • безналичный расчёт
13 апреля 2019, 05:46 • 28 откликов • 108 просмотров
edit #1
Хабр с айфоном не дружит :(

Если Вы хорошо знакомы с bash или python, то можем стабильно загрузить несложными задачками на несколько часов в день.

Таск-трекер крайне приветствуется.

Задачи можно детализировать, группировать и постить.
Если настаиваете, безопасная сделка за наш счёт.

Пример актуальной сейчас задачи:

Есть .hocr файлы.

Необходимо применить (относительно элегантно) регулярное выражение для того, чтобы найти координаты подобные 137 2325 432 2375 в контейнере с классом class='ocrx_word'
внутри файла scr.hocr

Каждую координату необходимо разделить на 4 и записать в переменную.

Строки:
<span class='ocrx_word' id='word_1_9' title='bbox 137 2325 432 2375; x_wconf 91'>Button_here</span>

<span class='ocrx_word' id='word_1_8' title='bbox 221 1853 348 1888; x_wconf 95'>Home</span>

Содержимое scr.hocr:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transiti...">

<head>
<title></title>
<meta http-equiv="Content-Type" content="text/html;charset=utf-8" />
<meta name='ocr-system' content='tesseract 4.0.0-beta.1' />
<meta name='ocr-capabilities' content='ocr_page ocr_carea ocr_par ocr_line ocrx_word'/>
</head>
<body>
<div class='ocr_page' id='page_1' title='image "./scr.png"; bbox 0 0 6144 3040; ppageno 0'>
<div class='ocr_carea' id='block_1_6' title="bbox 221 1853 348 1888">
<p class='ocr_par' id='par_1_6' lang='eng' title="bbox 221 1853 348 1888">
<span class='ocr_line' id='line_1_7' title="bbox 221 1853 348 1888; baseline 0.016 -2; x_size 37.666668; x_descenders 9.416667; x_ascenders 9.416667"><span class='ocrx_word' id='word_1_8' title='bbox 221 1853 348 1888; x_wconf 95'>Home</span>
</span>
</p>
</div>
<div class='ocr_carea' id='block_1_7' title="bbox 137 2325 432 2375">
<p class='ocr_par' id='par_1_7' lang='eng' title="bbox 137 2325 432 2375">
<span class='ocr_line' id='line_1_8' title="bbox 137 2325 432 2375; baseline 0.003 -12; x_size 51; x_descenders 12; x_ascenders 11"><span class='ocrx_word' id='word_1_9' title='bbox 137 2325 432 2375; x_wconf 91'>Button_here</span>
</span>
</p>
</div>
</div>
</body>
</html>