この記事を読むのに必要な時間は約 19 分です。
文字起こしと翻訳 LineBotと戦ってみる!!
「おこしやす」の翻訳精度をLineBotと競わせてみる!
先日リリースした「おこしやす」ですが、Lineの翻訳機能と戦わせてみようと思います!
今日もあるばいとぉ~
お題!
それでは書き起こしに利用する文章ですがこちらを利用したいと思います。
お題は 夏目漱石の吾輩は猫である です!
【画像】
【文字データ】
吾輩は猫である。
名前はまだない。
どこで生れたか頓と見当がつかぬ。
何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。
吾輩はここで始めて人間というものを見た。
しかもあとで聞くとそれは書生という人間中で一番獰悪な種族であったそうだ。
この書生というのは時々我々を捕えて煮て食うという話である。
しかしその当時は何という考もなかったから別段恐しいとも思わなかった。
ただ彼の掌に載せられてスーと持ち上げられた時何だかフワフワした感じがあったばかりである。
掌の上で少し落ち付いて書生の顔を見たのがいわゆる人間というものの見始であろう。
この時妙なものだと思った感じが今でも残っている。
第一毛を以て装飾されべきはずの顔がつるつるしてまるで薬缶だ。その後猫にも大分逢ったがこんな片輪には一度も出会わした事がない。
のみならず顔の真中が余りに突起している。
そうしてその穴の中から時々ぷうぷうと烟を吹く。
どうも咽せぽくて実に弱った。
これが人間の飲む烟草というものである事は漸くこの頃知った。
こちらの文章をLineの文字起こし機能とおこしやすで比較してみたいと思います。
(´◉◞౪◟◉)
まずはLineから
文字起こし
Lineの文字起こしはパソコン版のLineから起こしてみました!
方法も簡単でLineの会話の中に画像を投稿するだけです。
次に右クリックメニューにある「テキストに変換」をクリックして変換してみせます。
文字が自動で判別できた場合、2・3秒で起こされましたね。
起こした結果ですがこちらになります!
吾輩は猫である。
名前はまだない。
どこで生れたか頓と見当がつかぬ。
何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。
吾輩はここで始めて人間というものを見た。
しかもあとで聞くとそれは書生という人間中で一番獰悪な種族であったそうだ。
この書生というのは時々我々を捕えて煮て食うという話である。
しかしその当時は何という考もなかったから別段恐しいとも思わなかった。
ただ彼の掌に載せられてスーと持ち上げられた時何だかフワフワした感じがあったばかりである。
掌の上で少し落ち付いて書生の顔を見たのがいわゆる人間というものの見始であろう。
この時妙なものだと思った感じが今でも残っている。
第一毛を以て装飾されべきはずの顔がつるつるしてまるで薬缶だ。その後猫にも大分達ったがこんな片輪には一度も出会わした事がない。
のみならず顔の真中が余りに突起している。
そうしてその穴の中から時々ぷうぷぅと烟を吹く。
どぅも咽せぽくて実に弱った。
これが人間の飲む烟草というものである事は漸くこの頃知った。
素晴らしい!!ほぼ完ぺきに見えますね。
翻訳
次に翻訳を行ってみましょう!!
出て来た画面でそのまま翻訳ボタンを押すだけですぐにできます。
この通り、一瞬で翻訳してくれます。
翻訳された言葉がこちらです。
wagahai is a cat.
There are no names yet.
It isn’t imagined with ton where you were born.
It’s remembered only that I was crying mew at the damp place where everything is dim.
wagahai was begun here and something as man was seen.
Moreover when it’ll be heard later, it’s said that that was the race most ferocious in the man as the student.
The one as this student is the fact that we’re sometimes caught, boiled and eaten.
But what kou didn’t you also think because I didn’t have that, was also fearful especially of the those days?
When being put on his palm freely and lifted with Sue, fluffy feeling has been just somewhat right.
I say so-called man, but it’ll be kenshi that student’s face was seen a little calmly on the palm.
The feeling that I thought it was strange at the same time is left even now.
The first hair, i, please, a face of power possibility is decorated and is smooth and is a kettle at all. After that in a cat, Oita TTA, there is never a case that I made come in such one circle.
One in the middle of the face will drink and isn’t and too prominent.
I do that and sometimes play PUU PUU and smoke from the inside in the hole.
DU, nodo SEPOKU, please, very, I failed.
I knew this to say the smoke grass man drinks gradually these days.
すごいですね。翻訳も一瞬です。
ただ、残念な事に、私が英語がわからないのでこの翻訳が正しいかどうかの検証ができない・・・・
おこしやす
文字起こし
それでは次に作成した「おこしやす」で試してみたいと思います。
このリンクよりアプリを開いて起動します。
次にスマホなどで撮影した画像を送信します。
こちらも2,3秒で画像が
起こされた文字はこちらです。
吾輩は猫である。 名前はまだない。 どこで生れたか頃と見当がつかぬ。 何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。 吾輩はここで始めて人間というものを見た。 しかもあとで聞くとそれは書生という人間中で一番獰悪な種族であったそうだ。 この書生というのは時々我々を捕えて煮て食うという話である。 しかしその当時は何という考もなかったから別段恐しいとも思わなかった。 ただ彼の掌に載せられてスーと持ち上げられた時何だかフワフワした感じがあったばかりである。
掌の上で少し落ち付いて書生の顔を見たのがいわゆる人間というものの見始であろう。 この時妙なものだと思った感じが今でも残っている。
第一毛を以て装飾されべきはずの顔がつるつるしてまるで薬缶だ。その後猫にも大分違ったがこんな片輪には一度も出会わした事がない。 のみならず顔の真中が余りに突起している。 そうしてその穴の中から時々ぶうぶうと畑を吹く。 どうも咽せぽくて実に弱った。 これが人間の飲む姻草というものである事は漸くこの頃知った。
こちら、ゴミが混じってたので除去したのと、改行の認識がただしくできていませんね。
チェックマイナスです!!
ただ、おこした文字でおかしな場所があれば修正できるというメリットもあります!
翻訳
それではこちらも翻訳にかけてみたいと思います。
こちらも翻訳は簡単で「やくしますぇ」ボタンを押すだけです!
因みに、先日のリリース直後と比較してちょっとパワーアップしたのが
・言語の自動認識機能追加:指定がなければ自動で認識した言語として翻訳します。
→実装は簡単でした。
・翻訳対象言語の精査:約200言語のうち、実際に機能しそうな100言語を精査しました。
→実装は泣きそうになりました。
の、2点です!!
それでは英語→日本語を前提で作っていましたので翻訳先を英語に切り替えて実行してみます。
翻訳した結果がこちらになります。
画面でも見てわかる通り、「おこしやすには」再翻訳機能と直日本語訳機能を付けています。
再翻訳機能
●●言語 → ■■言語 → さらに日本語に変換します。
直日本語訳機能
●●言語 → ダイレクトに日本語に変換します。
この機能により、翻訳結果がどの程度正しく訳されているかワンタッチで判断できますね。
のちの検証のため、Lineの翻訳機能の精度も精査するために再翻訳をかけてみたのですが、残念な事に此方は文字数制限がちょっと厳しいようです。
仕方が無いので1000文字で区切って二回ほど再翻訳してみました。
その結果がこちらです。
wagahaiは猫です。
まだ名前が全然ありません。
それは、誕生したトンによって想像されません。
それは、私が泣いていたことを覚えていただけです すべてが薄暗い湿った場所のニャー 。
wagahaiはここで開始されて、人としての何かが見られました。
さらに、後でそれが聞かれる時には、それは、それが人の中で学生として最もどう猛なレースであったと伝えていました。
この学生としてのものは、時々私達がつかまえられて、沸かされて、食べられるという事実です。
しかし、どんなkouも考えませんでしたか。なぜなら、私は持っていなかったからです that また、the それら 日 を特に心配した ?
スーと彼のヤシに自由に置かれて、持ち上げられる時には、ふわふわした感覚はまさに多少正しかった。
私は言います。いわゆる人けれどもそれはkenshiであり、学生の面はヤシにおいて少し静かに見られました。
私がそれを考えたという感じは、同時に今でも出発するので意外でした。
最初の毛、i どうぞ、パワー可能性の面は飾られてください、スムーズで、全然やかんではありません。猫のそれの後に、大分TTA、私が、そのような1つの円に入らせたケースがありません。
面の中央の人が飲み、ではなく、突出しすぎます。
私は、ホールの中から、それおよび時々の遊びPUU PUUと煙をします。
DU、nodo SEPOKU どうぞ 非常に 、私は失敗しました。
私は、これを、煙草人飲み物を最近は徐々に言うと知っていました。
評価
それでは原文とLineの文字起こしと「おこしやす」でそれぞれどのような結果になったか確認してみましょう!!
「文字起こし」
まぁどちらも素晴らしい事。
文字起こし機能についてはLINEの方が精度は高いみたいですね。
おこしやすは改行処理の認識のあまさがありました。
文字に関してはどちらについても細かい文字で失敗しているようで、おこしやす側が若干間違えがおおいですね。
( ;∀;)
それでは次に翻訳です。ただ、翻訳した結果だと私が英語ができなく正しく判定ができないので再翻訳した結果で読み解いてみました。
その結果がこちらです!
翻訳した結果の正確性を問う話ですので若干主観も入りはしますが、それでも翻訳の精度は圧倒的に「おこしやす」の方が高いですね。
そもそも、吾輩は猫であるという今どきの日本人が読んだとしても難しい日本語で試したのが、例が悪いわけですが、Lineの方では意味が分からなくなている文が多いです。
「おこしやす」で見た場合はおかしく感じるも意味は通じている翻訳の方が多いです。
この違いは翻訳機能にルールベースの機械翻訳が使われているのか、統計処理を生かした自然言語処理で翻訳しているかの違いだと思います。
(´◉◞౪◟◉)
縦文字
新聞記事
続いて、新聞等の縦文字の認識も確認してみたいと思います。
Lineに新聞の記事を投稿して文字起こしさせます。
此方の記事を起こしてもらった結果がこうなりました!!
【Line文字起こし】
「下手投げの力士は大成 しない」と言われながら、 初土ほから3年半で横綱に 昇進。素早く踏み込むと左 前まわしを引いて相手を組 み止め、右で強烈に絞って 左下手投げ。巨漢の横綱北 の湖と「輪湖時代」を築い た。力士の大型花が始まっ た時代に、横綱昇進当時1 20き程度。胸を合わさず、 前まわしで相手を起こす相 撲は、理にかなっていた。
ほとんど完璧です。青文字部分は足りなかった部分ですが、縦文字でも問題なく認識できています。
次は途中の画像は省略しますが「おこしやす」で起こしてみた結果を試してみた結果はこのようになりました。
【おこしやす】
「下手投げの力士は大成 しない」と言われながら、 初土俵から3年半で横綱に 昇進。素早く踏み込むと左 前まわしを引いて相手を組 み止め、右で強烈に絞って 左下手投げ。巨漢の横綱北 の湖と「輪湖時代」を築いた。力士の大型化が始まっ た時代に、横綱昇進当時1 20キロ程度。胸を合わさず、
前まわしで相手を起こす相撲は、理にかなっていた。
ゴミが入っていますが、こちらもほぼほぼ問題ないレベルです。
Lineの文字起こしもおこしやすの文字起こしもOCR機能についてはほぼ同レベルみたいですね。
また、試しに今回の文章をゴミを修正して翻訳した結果はこちらです。
【お願いされた言葉ですぅ】
「下手投げの力士は大成 しない」と言われながら、 初土俵から3年半で横綱に 昇進。素早く踏み込むと左 前まわしを引いて相手を組 み止め、右で強烈に絞って 左下手投げ。巨漢の横綱北 の湖と「輪湖時代」を築いた。力士の大型化が始まっ た時代に、横綱昇進当時1 20キロ程度。胸を合わさず、 前まわしで相手を起こす相撲は、理にかなっていた。
【翻訳しておきましたよぉ~】
While being told that “Wrestler’s wrestler does not do Taisei”, he was promoted to Yokozuna in three and a half years from his first ring. If you stepped in quickly, pull the left front turn to stop the partner, squeeze it to the right and throw the lower left hand. “Yoko Lake era” with the lake of the grandchild’s Yokozuna North. In the era when large sumo wrestlers started, promotion of Yokozuna about 1 20 kilometers at that time. Without breasts, Sumo wrestling opponent in front of him was reasonable.
【ついでに再翻訳もしておきましたぇ】
「レスラーのレスラーは大成をしない」と言われながら、彼は最初の指輪から3年半で横綱に昇進した。すばやく足を踏み入れた場合は、左フロントターンを引いて相手を止め、右に握り、左下の手を投げます。 「孫湖の横」は孫の横綱北の湖と。大相撲が始まった時代には、その時の横綱の推進は約1〜20キロメートル。胸なしで、 彼の目の前にいる相撲レスリング相手は妥当だった。
うん!さっぱり駄目ですね!!!
相撲用語や力士名に誤訳を誘う罠が多いんでしょうね
(^^;
総評
今回の結果を判定するにあたり、
文字起こし:
Lineの方が若干精度が高いみたいです。
翻訳:
おこしやす の圧勝でしょう!!
(´◉◞౪◟◉)
翻訳 バイト フランス語とかタイ語とか英語とか
アルバイトで翻訳されている方
もし、業としてやられている方がいましたらご意見いただけると幸いです。逆に業として使ってみようかなと思ってらっしゃる方から、
ここがこうなったら便利なのになぁ~
みたいな意見が聞けると嬉しいです。
m(_ _)m