#include <cstdlib>
#include "boxread.h"
#include "commandlineflags.h"
#include "commontraining.h"
#include "genericvector.h"
#include "lang_model_helpers.h"
#include "normstrngs.h"
#include "strngs.h"
#include "unicharset.h"
#include "unicharset_training_utils.h"

Namespaces
	tesseract

Functions
	STRING_PARAM_FLAG (output_unicharset, "unicharset", "Output file path")

	INT_PARAM_FLAG (norm_mode, 1, "Normalization mode: 1=Combine graphemes, " "2=Split graphemes, 3=Pure unicode")

int	main (int argc, char **argv)

Function Documentation

◆ INT_PARAM_FLAG()

INT_PARAM_FLAG	(	norm_mode	,
		1	,
		"Normalization mode:	1 = `Combine graphemes`,
		" "	2 = `Split graphemes`
	)

◆ main()

int main	(	int	argc,
		char **	argv
	)

Definition at line 97 of file unicharset_extractor.cpp.

                                 {
   tesseract::CheckSharedLibraryVersion();
   if (argc > 1) {
     tesseract::ParseCommandLineFlags(argv[0], &argc, &argv, true);
   }
   if (argc < 2) {
     tprintf(
         "Usage: %s [--output_unicharset filename] [--norm_mode mode]"
         " box_or_text_file [...]\n",
         argv[0]);
     tprintf("Where mode means:\n");
     tprintf(" 1=combine graphemes (use for Latin and other simple scripts)\n");
     tprintf(" 2=split graphemes (use for Indic/Khmer/Myanmar)\n");
     tprintf(" 3=pure unicode (use for Arabic/Hebrew/Thai/Tibetan)\n");
     tprintf("Reads box or plain text files to extract the unicharset.\n");
     return EXIT_FAILURE;
   }
   return tesseract::Main(argc, argv);
 }

◆ STRING_PARAM_FLAG()

STRING_PARAM_FLAG	(	output_unicharset	,
		"unicharset"	,
		"Output file path"
	)

Namespaces

Functions

Function Documentation

◆ INT_PARAM_FLAG()

◆ main()

◆ STRING_PARAM_FLAG()