λΆμ : μ΄λ―Έμ§ μ μμμ LaTeXλ‘ λ³ννλ λͺ¨λΈ, κ·Έ ν΅μ¬ μ리λ₯Ό νν€μΉλ€
1. λ€μ΄κ°λ©°: 'μνμ μ ' νλ‘μ νΈ, 첫 λ²μ§Έ νλ€μ λ§μ£Όνλ€
μ΅κ·Ό μ λ 'μνμ μ 'μ΄λΌλ κ°μΈ νλ‘μ νΈλ₯Ό μ§ννκ³ μμ΅λλ€. μ΄ νλ‘μ νΈμ μ΅μ’ λͺ©νλ AIκ° μν λ¬Έμ λ₯Ό μ΄ν΄νκ³ νμ΄λ΄λ κ²μΈλ°, μμλΆν° 컀λ€λ κΈ°μ μ νλ€μ λ§μ£Όνμ΅λλ€. λ°λ‘ AIκ° μ΄λ―Έμ§ ννμ μν λ¬Έμ λ₯Ό μ΄λ»κ² 'μ½κ³ ' μ΄ν΄νκ² λ§λ€ κ²μΈκ° νλ λ¬Έμ μμ΅λλ€.
λ¨μ ν μ€νΈ μΆμΆμ λμ΄μ, μ첨μ, λΆμ, 루νΈ(β)μ κ°μ 2μ°¨μ ꡬ쑰μ μμμ κΈ°κ³κ° μ΄ν΄ν μ μλ ννλ‘ λ³ννλ κΈ°μ μ΄ νμνμ΅λλ€. μ΄ κ³ λ―Όμ λν ν΄λ΅μ μ°ΎκΈ° μν΄ λ€μ΄λ² 컀λ₯νΈμ¬λ¨μ λΆμ€νΈμ½μ€ 'μν 곡μμ μ΄ν΄νλ λ₯λ¬λ λͺ¨λΈ(OCR)' μ¬ν κ³Όμ μ μκ°νκ² λμμ΅λλ€.
2. μ 'μν 곡μ OCR'μ νΉλ³νκ°?
μΌλ°μ μΈ OCR(Optical Character Recognition)μ μ΄λ―Έμ§ μ ν μ€νΈλ₯Ό μΌμͺ½μμ μ€λ₯Έμͺ½μΌλ‘ μμ°¨μ μΌλ‘ μ½μ΄λ λλ€. νμ§λ§ μν 곡μμ λ€λ¦ λλ€.
2μ°¨μ κ³΅κ° κ΅¬μ‘°: λΆμλ μμλλ‘, 첨μλ λκ°μ μμλλ‘ λ°°μΉλ©λλ€.
λ¬Έλ§₯μ μλ―Έ: κ°μ κΈ°νΈλΌλ μμΉμ λ°λΌ μλ―Έκ° λ¬λΌμ§λλ€ (e.g., xΒ²μ xβ).
ꡬ쑰νλ μΆλ ₯: λ¨μ ν μ€νΈκ° μλ, μμμ ꡬ쑰λ₯Ό μλ²½νκ² ννν μ μλ LaTeXμ κ°μ νμμΌλ‘ λ³νλμ΄μΌ ν©λλ€.
μ΄λ¬ν 볡μ‘μ± λλ¬Έμ μν 곡μ OCRμ λ¨μν μ΄λ―Έμ§ λΆλ₯λ ν μ€νΈ μΈμμ λμ΄, μ΄λ―Έμ§μ 곡κ°μ νΉμ§μ μ΄ν΄(Computer Vision)νκ³ , μ΄λ₯Ό μμ°¨μ μΈ μΈμ΄λ‘ λ²μ(NLP)νλ κ³ λμ κΈ°μ μ μꡬν©λλ€.
3. κ°μ ν΅μ¬ 리뷰: λͺ¨λΈ μν€ν μ² νν€μΉκΈ°
κ°μλ μ΄ λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν νμ€μ μΈ λͺ¨λΈ μν€ν μ²λ₯Ό κΉμ΄ μκ² λ€λ£Ήλλ€. μ λ μ΄ κ΅¬μ‘°λ₯Ό 'λ', 'λ', 'μ°κ²°κ³ 리'λΌλ μΈ λΆλΆμΌλ‘ λλμ΄ μ΄ν΄νμ΅λλ€.
3.1. λ (Eyes) - CNN κΈ°λ° Encoder
λͺ¨λΈμ 'λ' μν μ CNN(Convolutional Neural Network) κΈ°λ°μ μΈμ½λκ° λ΄λΉν©λλ€. ResNetμ΄λ VGGμ κ°μ κ°λ ₯ν μ΄λ―Έμ§ μΈμ λͺ¨λΈμ μ¬μ©νμ¬ μμ μ΄λ―Έμ§λ‘λΆν° μκ°μ μΈ νΉμ§(feature)λ€μ μΆμΆν©λλ€. κ° κΈ°νΈμ νν, μλμ μΈ μμΉ λ±μ μ λ³΄κ° λ΄κΈ΄ κ³ μ°¨μμ μΈ νΉμ§ λ§΅(feature map)μ΄ κ²°κ³Όλ¬Όλ‘ λμ΅λλ€.
3.2. λ (Brain) - Transformer κΈ°λ° Decoder
'λ' μν μ Transformer κΈ°λ°μ λμ½λκ° μνν©λλ€. μΈμ½λκ° μΆμΆν μ΄λ―Έμ§ νΉμ§ λ§΅μ μ λ ₯λ°μ, μ΄λ₯Ό LaTeX λ¬Έμμ΄ ν ν°μΌλ‘ νλμ© μμ±ν΄λ λλ€. λ¨μν κΈ°νΈλ₯Ό λμ΄νλ κ²μ΄ μλλΌ, "λΆμ κΈ°νΈ λ€μμλ λΆμκ° μμΌ νλ€"μ κ°μ λ¬Έλ²μ , ꡬ쑰μ κ΄κ³λ₯Ό νμ΅νμ¬ μ 체 μμμ λ Όλ¦¬μ μΌλ‘ μ¬κ΅¬μ±ν©λλ€.
3.3. μ°κ²°κ³ 리 (Connection) - Attention Mechanism
'λ'κ³Ό 'λ'λ₯Ό ν¨κ³Όμ μΌλ‘ μ°κ²°νλ κ²μ΄ λ°λ‘ μ΄ν μ (Attention) λ©μ»€λμ¦μ λλ€. λμ½λκ° LaTeX ν ν°μ νλμ© μμ±ν λλ§λ€, μ΄ν μ μ μ΄λ―Έμ§μ μ΄λ€ λΆλΆμ μ§μ€ν΄μ λ΄μΌ ν μ§ μλ €μ€λλ€. μλ₯Ό λ€μ΄, λΆμλ₯Ό μμ±ν λλ μ΄λ―Έμ§μ μμͺ½ μμμ, λΆλͺ¨λ₯Ό μμ±ν λλ μλμͺ½ μμμ λ λμ μ£Όμ(attention)λ₯Ό κΈ°μΈμ΄λ μμ λλ€. μ΄λ λͺ¨λΈμ΄ 볡μ‘ν 2μ°¨μ ꡬ쑰λ₯Ό μμ°¨μ μΈ μΈμ΄λ‘ μ ννκ² νμ΄λΌ μ μκ² νλ ν΅μ¬ μ΄μ μ λλ€.
4. 'μνμ μ ' νλ‘μ νΈμ μ μ©ν μμ΄λμ΄
μ΄λ² κ°μλ₯Ό ν΅ν΄ μ»μ μ§μμ μ νλ‘μ νΈμ λ°©ν₯μ ꡬ체ννλ λ° ν° λμμ΄ λμμ΅λλ€.
ν©μ± λ°μ΄ν° μμ± (Data Augmentation): μ€μ μμ μ΄λ―Έμ§ λ°μ΄ν°λ ꡬνκΈ° μ΄λ ΅κΈ° λλ¬Έμ, λ€μν LaTeX μμμ 무μμλ‘ μμ±νκ³ μ΄λ₯Ό μ΄λ―Έμ§λ‘ λ λλ§νμ¬ νμ΅ λ°μ΄ν°λ₯Ό λλμΌλ‘ ꡬμΆν κ³νμ λλ€. μ¬κΈ°μ ν°νΈ, λ Έμ΄μ¦, νμ λ± λ€μν λ³νμ κ°ν΄ λͺ¨λΈμ κ°κ±΄ν¨(robustness)μ λμΌ κ²μ λλ€.
λ§μΆ€ν ν ν¬λμ΄μ (Custom Tokenizer): μ νλ‘μ νΈκ° λ€λ£° μν λ¬Έμ μ λ²μ£Ό(e.g., κ³ λ±νκ΅ λ―Έμ λΆ)μ λ§μΆ°, ν΄λΉ λλ©μΈμμ μμ£Ό μ¬μ©λλ κΈ°νΈλ€μ μ€μ¬μΌλ‘ λ§μΆ€ν LaTeX ν ν¬λμ΄μ λ₯Ό ꡬμΆν΄μΌ ν¨μ κΉ¨λ¬μμ΅λλ€. μ΄λ λͺ¨λΈμ νμ΅ ν¨μ¨κ³Ό μ±λ₯μ μ§κ²°λ κ²μ λλ€.
μΈμμ λμ΄ ν΄μμΌλ‘: OCR λͺ¨λΈμ΄ LaTeX λ¬Έμμ΄μ μΆλ ₯νλ κ²μ 'μνμ μ ' νλ‘μ νΈμ 첫 λ¨μΆμ λΆκ³Όν©λλ€. λ€μ λ¨κ³λ μ΄ LaTeXλ₯Ό νμ±(parsing)νμ¬ μ€μ μ°μ°μ΄ κ°λ₯ν μ¬λ³Όλ¦(symbolic) ννμ΄λ μ°μ° νΈλ¦¬(computation graph)λ‘ λ³ννλ λͺ¨λμ κ°λ°νλ κ²μ λλ€.
5. λ§μΉλ©°
λΆμ€νΈμ½μ€μ μ΄λ² κ°μλ λ¨μν νΉμ λͺ¨λΈμ μ½λλ₯Ό μλ €μ£Όλ κ²μ λμ΄, λ¬Έμ λ₯Ό μ΄λ»κ² μ μνκ³ , μ΄λ€ κΈ°μ μ λ°°κ²½μμ ν΄κ²°μ± μ΄ λ±μ₯νλμ§μ λν κΉμ μ΄ν΄λ₯Ό μ 곡νμ΅λλ€. μ’μ κ°μλ μ λ΅μ λ λ¨Ήμ¬ μ£Όλ κ²μ΄ μλλΌ, μ€μ€λ‘μ λ¬Έμ (μ μκ²λ 'μνμ μ ' νλ‘μ νΈ)λ₯Ό ν΄κ²°ν΄ λκ° μ μλ μκ°μ λꡬμ λ°©ν₯μ μ μν΄μ£Όλ κ²μ΄λΌκ³ μκ°ν©λλ€.