|
- # UTF-8
- import sentencepiece as spm
-
- langs_ID = {'zh': 250001, 'ko': 250002, 'vi': 250003,
- 'de': 250004, 'en': 250005, 'nl': 250006,
- 'ms': 250007, 'id': 250008, 'tl': 250009,
- 'mn': 250010, 'my': 250011, 'th': 250012, 'lo': 250013, 'km': 250014,
- 'lt': 250015, 'et': 250016, 'lv': 250017, 'hu': 250018,
- 'pl': 250019, 'cs': 250020, 'sk': 250021, 'sl': 250022, 'hr': 250023, 'bs': 250024, 'sr': 250025, 'bg': 250026,
- 'mk': 250027, 'ru': 250028, 'uk': 250029, 'be': 250030,
- 'sq': 250031, 'el': 250032, 'ka': 250033, 'hy': 250034,
- 'ro': 250035, 'fr': 250036, 'es': 250037, 'pt': 250038,
- 'fa': 250039, 'he': 250040, 'ar': 250041, 'ps': 250042,
- 'tr': 250043, 'kk': 250044, 'uz': 250045, 'az': 250046,
- 'hi': 250047, 'ta': 250048, 'ur': 250049, 'bn': 250050, 'si': 250051, 'ne': 250052}
-
- translate_ID = 250100
-
- class SpmTokenizer(object):
-
- def __init__(self, model_file):
-
- self.sp = spm.SentencePieceProcessor(model_file=model_file)
-
- self.specialIDNum = 208
- self.eod_id = self.vocab_size - 1
- self.eot_id = self.vocab_size - 2
- self.pad_id = self.vocab_size - 3
-
- ### pad id : 250205
- ### eot id : 250206
- ### vocab size : 250208
- ### 250208
-
- @property
- def vocab_size(self):
- return self.sp.vocab_size() + self.specialIDNum
-
- @property
- def spmVocabSize(self):
- return self.sp.vocab_size()
-
- @property
- def eod(self):
- return self.eod_id
-
- def tokenize(self, text):
- """ Tokenize a string. """
- return self.sp.encode(text)
-
- def convert_tokens_to_ids(self, tokens):
- return tokens
-
- def convert_ids_to_tokens(self, ids):
- ids = [id if id < self.sp.vocab_size() else 0 for id in ids]
- return self.decode(ids)
-
- def encode(self, text):
- res = self.tokenize(text)
- return res
-
- def decode(self, tokens):
- text = self.sp.decode(tokens)
- text = text.replace('\u2583', '\n')
- return text
-
-
- if __name__ == '__main__':
- # Hindi_text = 'उत्साह बढ़ाने वाली कविताप्रेरणा दायक कविताप्रेरणा देने वाली कविताप्रेरणादायक कविता बच्चों के लिएप्रेरणादायक गजलप्रेरणादायक शायरी इन हिंदीप्रेरणादायक सुविचारप्रेरणादायक हिन्दी कविताप्रेरणादायी कविता हिंदीमनोबल बढ़ाने वाली कवितामनोबल बढ़ाने वाले विचारसकारात्मक कवितायेसकारात्मक सुविचारसकारात्मक सोच पर कविताहौसला पर कविताहौसला पर शायरीहौसला बढ़ाने वाली कविताहौसला बढ़ाने वाले विचारहौसला बढ़ाने वाले सुविचारज़िंदादिल ज़िन्दगी कविताज़िन्दगी पर कविता'
- Chinese_text = '湖人 板\n凳双枪乔丹-法玛尔和萨沙-武贾西奇回访斯台普斯,面对旧东家他们肯定想有所表现。第二节的故事是香农-布朗PK武贾西奇,奥多姆PK汉弗里斯,都是有故事的人。汉弗里斯篮下自投自抢拿下2分,别看情场对付卡戴珊的本领不如人,可到了球场上可不输奥多姆。小布朗单挑萨沙得手一次就没了声息,但湖人的整体进攻却哑火,篮网打的没多少章法,但依然扩大了领先优势,奥多姆没人防守的快攻上篮都不进,湖人问题不小。'
- # Urdu_text = 'حماسهآفرینی جدید بسیجیان سلحشور در برگزاری رزمایش سراسری اقتدار عاشورایی بسیج تحت عنوان سپاهیان حضرت محمد رسول الله (ص) که یادآور اعزام غرورآفرین سپاهیان حضرت محمد رسولالله در دوران دفاع مقدس است، برگ زرین دیگری در کارنامه درخشان بسیج است که با حضور دهها هزار نیرو بسیجی فداکار و داوطلب در عرصههای مختلف دفاعی، امنیتی، خدماترسانی،محرومیتزدایی، بهداشتی و درمانی و غیره جلوهای از همدلی، ایمان، قدرت و عمل انقلابی را به نمایش گذاشت.'
- # Thai_text = 'ใน VDO ชุดนี้นะครับเราจะมาพูดถึง Amibroker Backtest นะ Backtest คืออะไร Backtest คือการทดสอบระบบของเรานะครับ ระบบซื้อ-ขาย ว่าระบบซื้อ-ขายของเราเนี่ยทำงานได้ดีขนาดไหน ทำกำไรให้เราขนาดไหน หรือว่าทำให้เราเจ๊งขนาดไหนนะครับ เพราะฉะนั้นเนี่ยเราจะมาดูในส่วนนี้กัน คราวนี้เดี๋ยวเปิด Amibroker ขึ้นมาก่อนนะครับโดยที่ในส่วนของ Backtest เนี่ย หลักๆมีส่วนประกอบอะไรบ้าง มาที่ปุ่มบวกนี่นะครับเพิ่ม windows นะครับ เห็นมั้ยครับแล้วเลื่อนลงมาในส่วนของ Backtest เนี่ยจะประกอบด้วย 2 ส่วนหลักๆคือส่วนของ Analysis document นี่นะครับเป็นการตั้งค่าว่าจะ test จากวันไหนถึงวันไหน จะ test หุ้นอะไรบ้าง ลองเปิดขึ้นมาดูแล้วกันนี่นะครับ Analysis ก็จะเห็นว่ามี Backtest อยู่ตรงนี้แล้วก็จะ test ตามอะไร ตามสูตรในนี้ อันนี้ก็เป็นสูตรที่ผมเขียนค้างไว้นะครับอันนี้ไม่เป็นไร เราก็จะ test กับหุ้นอะไรบ้างเนี่ย ก็บอกว่า test หุ้นทั้งหมดนะครับโดย test ในช่วงไหนบ้างนี่นะครับก็จะมีให้ set ได้ว่า test วันล่าสุดหรือ test bar ล่าสุดนี่นะครับ อันนี้คือ test จากวันไหน from ถึง to นะครับแล้วก็ตั้งค่าได้ในนี้ว่าจะเอาเป็นวันที่เท่าไร หรือพิมพ์ก็ได้นี่นะครับ พิมพ์เข้าไปของผมนี่เป็น format ของอังกฤษนะครับก็คือจะเป็น เดือน/วัน/ปีถ้าท่านใช้ format เป็นไทย จะขึ้นเป็น วัน/เดือน/ปี นะครับแล้วแต่ว่า windows คิดยังไงอันนี้เข้าใจตรงกันนะครับ คราวนี้สมมุติผมพิมพ์เข้าไปผมเปลี่ยนเป็น2012 เห็นมั้ยครับ ก็เปลี่ยนเดือนของผมตรงนี้แต่เดือนของท่านอาจอยู่ตรงนี้ก็ได้นะครับแล้วแต่ format ผมเปลี่ยนกลับแล้วกัน 2011 อันนี้ก็เป็นส่วนของ Analysis ต่อไปถ้าจะต้องมีส่วนของ windows ด้วย อ้าวส่วนของ formula ด้วยว่าท่านจะเขียนเงื่อนไขในการซื้อ ขายอย่างไรก็กด บวกนะครับแล้วก็บอก new formula คราวนี้จะมี windows โผล่ขึ้นมา มาโผล่อีกหน้าต่างนึง อ่ะอันนี้ก็เป็น windows ของผมเห็นมั้ยครับก็เป็น windows ที่เอาไว้เขียน formula โดยที่ formula ที่ท่านเขียนขึ้นมาเองเนี่ยมันจะไม่ไปรวมกับ default ของ Amibroker อันนี้เป็น default นะครับ เดี๋ยวปิดเข้าไปส่วน code formula ที่ผมเขียนขึ้นมาเนี่ย มันจะไปอยู่ในส่วนของ customs นี่นะครับ ผมก็มีเขียนอะไรทิ้งไว้นะครับก็ว่ากันไป อันนี้ก็ให้ทำความเข้าใจนะครับว่าในส่วนของ backtest เนี่ยประกอบด้วย 2 ส่วนหลักๆก็คือ new Analysis … Analysis document หรือ Formula 2 ส่วนนี้นะครับเดี๋ยวเราจะมาพูดถึง 2 ส่วนนี้กัน ว่าไปทีละส่วน ทีนี้ในส่วนของ backtest เนี่ยเป็นส่วนที่ยากที่สุดไม่ว่าจะเป็น level ของ introduction เป็น level basic advance หรือ inter media ก็ตามเพราะงั้นจะใช้เวลาในส่วนนี้เยอะสุด Ok นะครับ'
- # Malay_text = 'ചായ കുടിയും പത്രം വായനയും \n കഴിഞ്ഞ ഹൈദ്രോസിക്കായുടെ ഒപ്പം സുലമാനിക്കയും എഴുന്നേറ്റു. പതുക്കെ കൂടെ നടന്ന് അമേരിക്കന് വിശേഷങ്ങള് എടുത്തിട്ടങ്ങലക്കി. അതോടെ ഹൈദ്രോസിക്ക കോടീശ്വരനില് ചോദ്യം ചോദിക്കുന്ന സുരേഷ് ഗോപിയുടെ വീറും വാശിയോടും കൂടെ ചോദ്യങ്ങള് ഓപഷനോടു കൂടിയും ഇല്ലാതെയും വീശി തുടങ്ങി. മണിച്ചിത്രത്താഴില് നാഗവല്ലിയെ ഡാന്സ് ചെയ്ത് കൊണ്ടു പോകുന്നത് പോലെ ചോദ്യങ്ങള്ക്കുത്തരങ്ങളും കൊടുത്ത് കഥകളും പറഞ്ഞ് സുലൈമാനിക്ക മിഷന് സക്സസ് ആക്കി. പാടവരമ്പിലെത്തി പാടമെല്ലാം കണ്ടിട്ടും ഹൈദ്രോസിക്കാന്റെ കരിനാക്കില് നിന്നൊന്നും വരുന്നില്ല. അവസാനം സുലൈമാനിക്ക തന്നെ വിഷയം എടുത്തിട്ടു.'
- # Arabic_text = 'با توجه به آنچه گفته شد، میدان مطالعاتی مرزها در ایران با محدودیتهای اندیشگی، رشتهای و نهادی گستردهای همراه بوده است. بیشتر این مطالعات محصور در حوزهی جغرافیای سیاسی، انتظامی، بینالمللی و سیاسیِ صرف بوده است. این در حالی است که مرزهای سیاسی در ایران، بهلحاظ فرهنگی مرزهای گشودهای هستند که نشان از فضای گستردهی ایران فرهنگی دارند. بر این اساس، مرز بیشتر از آنکه بهمعنای امتناع باشد، فضایی حیاتی و زیستهی زیست-جهانها و فرهنگهایی است که حیات و چالشهای آنها موضوعاتی ملی است.'
-
- tokenizer = SpmTokenizer('spm.250k.model')
- # Chinese_text = ' '.join(jieba.cut(Chinese_text))
- print(Chinese_text)
- tokens = tokenizer.tokenize(Chinese_text)
- ids = tokenizer.convert_tokens_to_ids(tokens)
- print(ids)
- txt = tokenizer.convert_ids_to_tokens(ids)
- print(tokenizer.vocab_size)
- # line1 = '34'
- # line2 = '4434'
- # a = f"{line1} _☪☣_ {'zh'}-{'ar'} _☪☣_ {line2}"
- # b = tokenizer.tokenize(a)
- # aa = '使 妇女 更 容易 感染 艾滋病毒 的 原因 还 包括 受 教育 机会 不 平等 , 其中 包括 全面 的 性 教育 和 艾滋病毒 防治 教育 , 很难 获得 固定收入 和 就业 , 缺乏 经济 安全 , 以及 暴力 和 恐惧 。'
- # tokens2 = tokenizer.tokenize(aa)
- # tokens2 = [i for i in tokens2 if i != 119132]
- # tokens3 = tokenizer.tokenize(''.join(aa.split()))
- # tokens3 = [i for i in tokens3 if i != 119132]
- # for i in tokens2:
- # if i != 119132:
- # print(tokenizer.convert_ids_to_tokens([i]))
- # for i in tokens3:
- # print(tokenizer.convert_ids_to_tokens([i]))
- # aaa = ' '.join(jieba.cut(''.join(aa.split()).strip()))
- print(txt)
-
- pass
-
|